Voici les éléments 1 - 7 sur 7
Vignette d'image
Publication
Accès libre

Evaluation de diverses stratégies de désambiguïsation lexicale

2009, Fautsch, Claire, Savoy, Jacques

Dans la campagne d'évaluation CLEF-2008, la tâche « robuste » fournissait un corpus enrichi en langue anglaise. Pour chaque mot, le lemme, la partie du discours et le numéro Synsets de WordNet™ (numéro de classe d'un thésaurus) étaient fournis. Sur cette base, nous avons testé plusieurs approches afin de lever, en partie pour le moins, l'ambiguïté lexicale. Recourant au modèle vectoriel tf idf, ainsi qu’à trois approches probabilistes et un modèle de langue, cet article évalue leur performance en fonction de diverses techniques d’enracineur. Un enracineur léger permet d'obtenir des performances similaires à des approches plus agressives ou à celle obtenue par une analyse morphologique. L'indication de la partie du discours permet d'améliorer significativement la qualité de la réponse tandis que les numéros de classes d'un thésaurus n'ont pas permis une amélioration., In the robust track of the 2008 CLEF evaluation campaign an enlarged English corpus was provided. For each term, the lemma, the part-of-speech (POS) and the Synset number extracted from WordNet™ (class number of the corresponding thesaurus) are given. Based on this corpus we tested several approaches to remove at least partially the underling lexical ambiguity. Using different IR models such as the vector-space model tf idf as well as three probabilistic models and a language model, we want to evaluate their performance when using different algorithmic or morphological stemming approaches. The inclusion of the part-of-speech information improves the retrieval performance significantly, while the inclusion of the synset number does not show any improvement.

Vignette d'image
Publication
Accès libre

Premières évaluations de la recherche d’information dans les blogs

2008, Fautsch, Claire, Savoy, Jacques

Recourant au modèle vectoriel tf idf, ainsi qu’à trois approches probabilistes et un modèle de langue, cet article évalue leur performance sur un corpus TREC extrait de la blogosphère et comprenant 100 requêtes. Basé sur deux mesures de performance, nous démontrons que l’absence d’enracineur s’avère plus efficace que d’autres approches (enracineur léger ou celui de Porter)., This paper describes the main retrieval problems when facing with blogs. Using the classical tf idf vector-space model together with three probabilistic and one statistical language model, we evaluate them using a TREC test-collections composed of 100 topics. Using two performance measures, we show that ignoring a stemming approach results in a better performance than other indexing strategies (light or Porter’s stemmer).

Vignette d'image
Publication
Accès libre

Indexation manuelle et automatique : une évaluation comparative basée sur un corpus en langue française

2005, Savoy, Jacques

Cette communication évalue et compare l'efficacité du dépistage de l'information utilisant une indexation automatique ou manuelle, cette dernière s'appuyant sur un vocabulaire contrôlé. Le corpus d'évaluation interrogé par dix modèles de dépistage de l'information comprend des notices bibliographiques écrites en français et couvrant diverses disciplines. Finalement, nous analysons la performance obtenue en combinant les deux formes d'indexation., This communication evaluates and compares the retrieval effectiveness of various search models, based on either automatic text-word indexing or on manually assigned controlled descriptors. These experiments were done with a relatively large collection of bibliographic material written in French. Moreover, for this French collection we evaluate improvements that result from combining automatic and manual indexing.

Vignette d'image
Publication
Accès libre

Domain specific information retrieval social science, blogsphere and biomedicine

2009, Fautsch, Claire, Savoy, Jacques

Aujourd'hui la recherche d'information est bien connue et utilisée dans le contexte des moteurs de recherche en ligne. Or la recherche d'information présente aussi beaucoup d'autres applications, tel que la recherche d'information dans les domaines spécifiques. Cette thèse résume nos travaux effectués dans ce champ en présentant une sélection de nos articles scientifiques. Dans ce travail les défis de la recherche d'information dans trois domaines différents – la Blogosphère, la science sociale et la biomédecine - ainsi que nos solutions pour améliorer la recherche d'information dans ces domaines sont présentés. Pour chaque domaine on évalue d'abord les approches standards avant de les adapter afin de satisfaire aux besoins spécifiques du domaine. Enfin on présente, compare et discute nos résultats en participant à diverses campagnes d'évaluation. En plus on a présenté une approche pour la détection d'opinions dans des blogs ainsi qu'une proposition pour un modèle pour la recherche d'information dans les domaines spécifiques, indépendant du domaine tout en tenant compte des spécificités du domaine. Finalement on présente une étude plus générale sur les enracineurs et l'analyse morphologique pour la langue anglaise., Heutzutage ist Informationssuche vor allem bekannt durch die Benutzung von Suchmaschinen bei der Websuche. Allerdings hat die Informationssuche ein weitaus grösseres Anwendungsspektrum, unter anderem die Informationssuche in spezifischen Domänen. Diese Dissertation fasst unsere Arbeit in diesem Bereich zusammen. In der hier vorgestellten Arbeit werden die Herausforderungen der Informationssuche in drei verschiedenen Gebieten - Blogsphere, Sozial Wissenschaft und Biomedizin – ausgearbeitet und anschliessend Lösungsansätze vorgeschlagen um die Informationssuche in diesen Domänen zu verbessern. Zuerst werden gewöhnliche Prozeduren der Informationssuche ausgewertet und dann angepasst um den spezifischen Charakteristiken gerecht zu werden. Anhand der Teilnahme an diversen Evaluationskampagnen werden schlussendlich die erzielten Resultate diskutiert und verglichen. Des Weiteren wird eine Methode zum Erfassen von Meinungen in Blogs sowie ein Modell zu Informationssuche in spezifischen Domänen vorgestellt. Schlussendlich wird noch auf eine allgemeine Studie von Stemming und morphologischer Analyse für die Englische Sprache eingegangen., Nowadays information retrieval is widely known and used in the context of online web search engines. Information retrieval however also presents many other fields of applications, one of which is domain-specific information retrieval. This thesis summarizes our work in this field by presenting a selection of our research papers. In the presented work the challenges of information retrieval in three different domains, namely Blogsphere, social science and biomedicine and our solutions to improve retrieval effectiveness in these domains are presented. For each domain we evaluate the standard retrieval procedures first and then adapt them in order to meet domain-specific issues. We finally compare and discuss our results by participating in various evaluation campaigns. Furthermore we present an approach for opinion mining in blogs as well as a proposal for a domain independent retrieval model taking account of domain-specific information. Finally we also present a more general study on algorithmic stemmers and morphological analysis for the English language.

Vignette d'image
Publication
Accès libre

Un regard statistique sur l'évaluation de performance : L'exemple de CLEF 2005

2006, Savoy, Jacques

Cette communication évalue et compare l’efficacité du dépistage de l’information de onze modèles à l'aide de quatre collections de documents rédigés dans les langues française, portugaise - brésilienne, hongroise et bulgare. Pour les deux dernières langues, on compare également l'indexation basée sur des mots à celle reposant sur des quadrigrammes (4-grams). En recourant à quatre tests statistiques et deux règles ad hoc, nous analysons les performances obtenues pour savoir si les différences de performance observées sont significatives. Enfin, nous comparons les résultats de ces différentes règles de décision afin de vérifier leur degré de concordance., This paper evaluates and compares the retrieval effectiveness of eleven search models applied to four test collections written in the French, Portuguese-Brazilian, Hungarian and Bulgarian languages. For the latter two languages, we also compare word-based and 4-gram indexing schemes. Applying four statistical tests and two ad hoc rules, we analyze the performance levels obtained in order to determine whether their observed mean average performance differences are in fact statistically significant. Finally, we compare the results of these various decision rules and verify their degree of agreement.

Vignette d'image
Publication
Accès libre

Variations autour de tf idf et du moteur Lucene

2008, Savoy, Jacques, Dolamic, Ljiljana

A l'aide d’un corpus écrit en langue française et composé de 299 requêtes, cet article analyse et compare l’efficacité du dépistage de diverses stratégies d’indexation et de recherche basées sur le modèle classique « tf idf ». Cette dernière formulation demeure ambiguë et cache diverses variantes possédant des performances différentes, performance mesurée soit par la précision moyenne (MAP) soit par le rang moyen de la première bonne réponse (MRR). Notre analyse confirme que la meilleure efficacité s’obtient par le modèle Okapi. Mais lorsque nous sommes dans des contextes particuliers (e.g., systèmes distribués) dans lesquels la valeur de l’idf n’est pas connue lors de l’indexation des documents, nous démontrons que des stratégies simples, basées uniquement sur la fréquence d’occurrence (ou tf) permettent d’obtenir une performance significativement meilleure que le modèle classique « tf idf ». En utilisant le moteur Lucene (logiciel libre), nous avons également évalué deux de ses facettes, à savoir l’accroissement d’importance attachée aux mots des titres et la prise en compte du nombre de termes en commun entre le document dépisté et la requête., This paper evaluates and compares the retrieval effectiveness resulting from various models derived from the classical tf idf paradigm when searching into a test-collection written in the French language (CLEF, 299 queries). We show that the simple paradigm “tf idf” may hide various formulations providing different retrieval effectiveness measured either by the mean average precision (MAP) or the mean reciprocal rank (MRR). Our analysis demonstrates that the best retrieval performance can be obtained from applying the Okapi probabilistic model. However, when faced with particular contexts (e.g. distributed IR) where the idf value cannot be obtained during the indexing process, we demonstrated that a simple indexing scheme (based only the frequency of occurrence or tf) may produce a significantly better performance than the classical « tf idf » model. Using the Lucene search engine, we also analyze and evaluate two particular features of this open-source system (namely the boost and coordinate level match).

Vignette d'image
Publication
Accès libre

Robustesse des résultats d'une campagne d'évaluation : L'exemple de la piste ad hoc CLEF-2005

2006, Savoy, Jacques

À l'aide de corpus écrits dans les langues française, portugaise (brésilienne), hongroise et bulgare, cet article analyse et compare l’efficacité du dépistage de onze stratégies d’indexation et de recherche. Nos analyses démontrent que les meilleures performances sont obtenues par les modèles probabilistes Okapi ou Prosit. Les mesures d'évaluation pénalisant plus fortement les mauvaises réponses comme la moyenne géométrique, la médiane ou celle basée sur la précision obtenue après dix documents extraits redonnent un classement des modèles de dépistage très similaire à l'évaluation basée sur la mesure de performance officielle, soit la précision moyenne. Le classement des modèles de recherche selon leur précision moyenne, mesure de performance choisie par les campagnes d’évaluation comme CLEF 2005, se montre donc relativement fiable. Cependant, l’élimination de quelques requêtes bien sélectionnées peut modifier les premières positions d’un tel classement., This paper evaluates and compares the retrieval effectiveness resulting from the application of eleven search models when searching into test-collections made available for the French, Portuguese (Brazilian), Hungarian and Bulgarian languages. Our analysis demonstrates that the best retrieval performance can be obtained from applying the Okapi or Prosit probabilistic models. Be it the geometrical mean, the median or the precision after retrieving ten documents, those evaluation measures that greatly penalizing poor responses do not perform that differently from that used during official CLEF evaluation campaigns, namely the mean average precision. The ranking of the first positions may however be altered through the removal of a few well-selected queries.