Voici les éléments 1 - 10 sur 14
  • Publication
    Accès libre
    Evaluation de diverses stratégies de désambiguïsation lexicale
    (2009)
    Fautsch, Claire
    ;
    Dans la campagne d'évaluation CLEF-2008, la tâche « robuste » fournissait un corpus enrichi en langue anglaise. Pour chaque mot, le lemme, la partie du discours et le numéro Synsets de WordNet™ (numéro de classe d'un thésaurus) étaient fournis. Sur cette base, nous avons testé plusieurs approches afin de lever, en partie pour le moins, l'ambiguïté lexicale. Recourant au modèle vectoriel tf idf, ainsi qu’à trois approches probabilistes et un modèle de langue, cet article évalue leur performance en fonction de diverses techniques d’enracineur. Un enracineur léger permet d'obtenir des performances similaires à des approches plus agressives ou à celle obtenue par une analyse morphologique. L'indication de la partie du discours permet d'améliorer significativement la qualité de la réponse tandis que les numéros de classes d'un thésaurus n'ont pas permis une amélioration., In the robust track of the 2008 CLEF evaluation campaign an enlarged English corpus was provided. For each term, the lemma, the part-of-speech (POS) and the Synset number extracted from WordNet™ (class number of the corresponding thesaurus) are given. Based on this corpus we tested several approaches to remove at least partially the underling lexical ambiguity. Using different IR models such as the vector-space model tf idf as well as three probabilistic models and a language model, we want to evaluate their performance when using different algorithmic or morphological stemming approaches. The inclusion of the part-of-speech information improves the retrieval performance significantly, while the inclusion of the synset number does not show any improvement.
  • Publication
    Accès libre
    Domain specific information retrieval social science, blogsphere and biomedicine
    (2009)
    Fautsch, Claire
    ;
    Aujourd'hui la recherche d'information est bien connue et utilisée dans le contexte des moteurs de recherche en ligne. Or la recherche d'information présente aussi beaucoup d'autres applications, tel que la recherche d'information dans les domaines spécifiques. Cette thèse résume nos travaux effectués dans ce champ en présentant une sélection de nos articles scientifiques. Dans ce travail les défis de la recherche d'information dans trois domaines différents – la Blogosphère, la science sociale et la biomédecine - ainsi que nos solutions pour améliorer la recherche d'information dans ces domaines sont présentés. Pour chaque domaine on évalue d'abord les approches standards avant de les adapter afin de satisfaire aux besoins spécifiques du domaine. Enfin on présente, compare et discute nos résultats en participant à diverses campagnes d'évaluation. En plus on a présenté une approche pour la détection d'opinions dans des blogs ainsi qu'une proposition pour un modèle pour la recherche d'information dans les domaines spécifiques, indépendant du domaine tout en tenant compte des spécificités du domaine. Finalement on présente une étude plus générale sur les enracineurs et l'analyse morphologique pour la langue anglaise., Heutzutage ist Informationssuche vor allem bekannt durch die Benutzung von Suchmaschinen bei der Websuche. Allerdings hat die Informationssuche ein weitaus grösseres Anwendungsspektrum, unter anderem die Informationssuche in spezifischen Domänen. Diese Dissertation fasst unsere Arbeit in diesem Bereich zusammen. In der hier vorgestellten Arbeit werden die Herausforderungen der Informationssuche in drei verschiedenen Gebieten - Blogsphere, Sozial Wissenschaft und Biomedizin – ausgearbeitet und anschliessend Lösungsansätze vorgeschlagen um die Informationssuche in diesen Domänen zu verbessern. Zuerst werden gewöhnliche Prozeduren der Informationssuche ausgewertet und dann angepasst um den spezifischen Charakteristiken gerecht zu werden. Anhand der Teilnahme an diversen Evaluationskampagnen werden schlussendlich die erzielten Resultate diskutiert und verglichen. Des Weiteren wird eine Methode zum Erfassen von Meinungen in Blogs sowie ein Modell zu Informationssuche in spezifischen Domänen vorgestellt. Schlussendlich wird noch auf eine allgemeine Studie von Stemming und morphologischer Analyse für die Englische Sprache eingegangen., Nowadays information retrieval is widely known and used in the context of online web search engines. Information retrieval however also presents many other fields of applications, one of which is domain-specific information retrieval. This thesis summarizes our work in this field by presenting a selection of our research papers. In the presented work the challenges of information retrieval in three different domains, namely Blogsphere, social science and biomedicine and our solutions to improve retrieval effectiveness in these domains are presented. For each domain we evaluate the standard retrieval procedures first and then adapt them in order to meet domain-specific issues. We finally compare and discuss our results by participating in various evaluation campaigns. Furthermore we present an approach for opinion mining in blogs as well as a proposal for a domain independent retrieval model taking account of domain-specific information. Finally we also present a more general study on algorithmic stemmers and morphological analysis for the English language.
  • Publication
    Métadonnées seulement
    Searching strategies for the Hungarian language
    This paper reports on the underlying IR problems encountered when dealing with the complex morphology and compound constructions found in the Hungarian language. It describes evaluations carried out on two general stemming strategies for this language, and also demonstrates that a light stemming approach could be quite effective. Based on searches done on the CLEF test collection, we find that a more aggressive suffix-stripping approach may produce better MAP. When compared to an IR scheme without stemming or one based on only a light stemmer, we find the differences to be statistically significant. When compared with probabilistic, vector-space and language models, we find that the Okapi model results in the best retrieval effectiveness. The resulting MAP is found to be about 35% better than the classical tf Of approach, particularly for very short requests. Finally, we demonstrate that applying an automatic decompounding procedure for both queries and documents significantly improves IR performance (+10%), compared to word-based indexing strategies. (c) 2007 Elsevier Ltd. All rights reserved.
  • Publication
    Accès libre
    Premières évaluations de la recherche d’information dans les blogs
    (2008)
    Fautsch, Claire
    ;
    Recourant au modèle vectoriel tf idf, ainsi qu’à trois approches probabilistes et un modèle de langue, cet article évalue leur performance sur un corpus TREC extrait de la blogosphère et comprenant 100 requêtes. Basé sur deux mesures de performance, nous démontrons que l’absence d’enracineur s’avère plus efficace que d’autres approches (enracineur léger ou celui de Porter)., This paper describes the main retrieval problems when facing with blogs. Using the classical tf idf vector-space model together with three probabilistic and one statistical language model, we evaluate them using a TREC test-collections composed of 100 topics. Using two performance measures, we show that ignoring a stemming approach results in a better performance than other indexing strategies (light or Porter’s stemmer).
  • Publication
    Accès libre
    Un regard statistique sur l'évaluation de performance : L'exemple de CLEF 2005
    Cette communication évalue et compare l’efficacité du dépistage de l’information de onze modèles à l'aide de quatre collections de documents rédigés dans les langues française, portugaise - brésilienne, hongroise et bulgare. Pour les deux dernières langues, on compare également l'indexation basée sur des mots à celle reposant sur des quadrigrammes (4-grams). En recourant à quatre tests statistiques et deux règles ad hoc, nous analysons les performances obtenues pour savoir si les différences de performance observées sont significatives. Enfin, nous comparons les résultats de ces différentes règles de décision afin de vérifier leur degré de concordance., This paper evaluates and compares the retrieval effectiveness of eleven search models applied to four test collections written in the French, Portuguese-Brazilian, Hungarian and Bulgarian languages. For the latter two languages, we also compare word-based and 4-gram indexing schemes. Applying four statistical tests and two ad hoc rules, we analyze the performance levels obtained in order to determine whether their observed mean average performance differences are in fact statistically significant. Finally, we compare the results of these various decision rules and verify their degree of agreement.
  • Publication
    Métadonnées seulement
    Bibliographic database access using free-text and controlled vocabulary: an evaluation
    This paper evaluates and compares the retrieval effectiveness of various search models, based on either automatic text-word indexing or on manually assigned controlled descriptors. Retrieval is from a relatively large collection of bibliographic material written in French. Moreover, for this French collection we evaluate improvements that result from combining automatic and manual indexing. First, when considering various contexts, this study reveals that the combined indexing strategy always obtains the best retrieval performance. Second, when users wish to conduct exhaustive searches with minimal effort, we demonstrate that manually assigned terms are essential. Third, the evaluations presented in this paper study reveal the comparative retrieval performances that result from manual and automatic indexing in a variety of circumstances. (c) 2004 Elsevier Ltd. All rights reserved.
  • Publication
    Accès libre
    Indexation manuelle et automatique : une évaluation comparative basée sur un corpus en langue française
    Cette communication évalue et compare l'efficacité du dépistage de l'information utilisant une indexation automatique ou manuelle, cette dernière s'appuyant sur un vocabulaire contrôlé. Le corpus d'évaluation interrogé par dix modèles de dépistage de l'information comprend des notices bibliographiques écrites en français et couvrant diverses disciplines. Finalement, nous analysons la performance obtenue en combinant les deux formes d'indexation., This communication evaluates and compares the retrieval effectiveness of various search models, based on either automatic text-word indexing or on manually assigned controlled descriptors. These experiments were done with a relatively large collection of bibliographic material written in French. Moreover, for this French collection we evaluate improvements that result from combining automatic and manual indexing.
  • Publication
    Métadonnées seulement
    Combining multiple strategies for effective monolingual and cross-language retrieval
    This paper describes and evaluates different retrieval strategies that are useful for search operations on document collections written in various European languages, namely French, Italian, Spanish and German. We also suggest and evaluate different query translation schemes based on freely available translation resources. In order to cross language barriers, we propose a combined query translation approach that has resulted in interesting retrieval effectiveness. Finally, we suggest a collection merging strategy based on logistic regression that tends to perform better than other merging approaches.
  • Publication
    Accès libre
    Combining Multiple Strategies for Effective Monolingual and Cross-Language Retrieval
    This paper describes and evaluates different retrieval strategies that are useful for search operations on document collections written in various European languages, namely French, Italian, Spanish and German. We also suggest and evaluate different query translation schemes based on freely available translation resources. In order to cross language barriers, we propose a combined query translation approach that has resulted in interesting retrieval effectiveness. Finally, we suggest a collection merging strategy based on logistic regression that tends to perform better than other merging approaches.
  • Publication
    Métadonnées seulement
    Cross-language information retrieval: experiments based on CLEF 2000 corpora
    Search engines play an essential role in the usability of Internet-based information systems and without them the Web would be much less accessible, and at the very least would develop at a much slower rate. Given that non-English users now tend to make up the majority in this environment, our main objective is to analyze and evaluate the retrieval effectiveness of various indexing and search strategies based on test-collections written in four different languages: English, French, German, and Italian. Our second objective is to describe and evaluate various approaches that might be implemented in order to effectively access document collections written in another language. As a third objective, we will explore the underlying problems involved in searching document collections written in the four different languages, and we will suggest and evaluate different database merging strategies capable of providing the user with a single unique result list. (C) 2002 Published by Elsevier Science Ltd.