Options
Savoy, Jacques
Nom
Savoy, Jacques
Affiliation principale
Fonction
Professeur ordinaire
Email
jacques.savoy@unine.ch
Identifiants
Résultat de la recherche
Voici les éléments 1 - 10 sur 110
- PublicationAccès libreVariations autour de tf idf et du moteur Lucene(2008)
; Dolamic, LjiljanaA l'aide d’un corpus écrit en langue française et composé de 299 requêtes, cet article analyse et compare l’efficacité du dépistage de diverses stratégies d’indexation et de recherche basées sur le modèle classique « tf idf ». Cette dernière formulation demeure ambiguë et cache diverses variantes possédant des performances différentes, performance mesurée soit par la précision moyenne (MAP) soit par le rang moyen de la première bonne réponse (MRR). Notre analyse confirme que la meilleure efficacité s’obtient par le modèle Okapi. Mais lorsque nous sommes dans des contextes particuliers (e.g., systèmes distribués) dans lesquels la valeur de l’idf n’est pas connue lors de l’indexation des documents, nous démontrons que des stratégies simples, basées uniquement sur la fréquence d’occurrence (ou tf) permettent d’obtenir une performance significativement meilleure que le modèle classique « tf idf ». En utilisant le moteur Lucene (logiciel libre), nous avons également évalué deux de ses facettes, à savoir l’accroissement d’importance attachée aux mots des titres et la prise en compte du nombre de termes en commun entre le document dépisté et la requête., This paper evaluates and compares the retrieval effectiveness resulting from various models derived from the classical tf idf paradigm when searching into a test-collection written in the French language (CLEF, 299 queries). We show that the simple paradigm “tf idf” may hide various formulations providing different retrieval effectiveness measured either by the mean average precision (MAP) or the mean reciprocal rank (MRR). Our analysis demonstrates that the best retrieval performance can be obtained from applying the Okapi probabilistic model. However, when faced with particular contexts (e.g. distributed IR) where the idf value cannot be obtained during the indexing process, we demonstrated that a simple indexing scheme (based only the frequency of occurrence or tf) may produce a significantly better performance than the classical « tf idf » model. Using the Lucene search engine, we also analyze and evaluate two particular features of this open-source system (namely the boost and coordinate level match). - PublicationMétadonnées seulement
- PublicationMétadonnées seulementBibliographic database access using free-text and controlled vocabulary: an evaluation(2005)This paper evaluates and compares the retrieval effectiveness of various search models, based on either automatic text-word indexing or on manually assigned controlled descriptors. Retrieval is from a relatively large collection of bibliographic material written in French. Moreover, for this French collection we evaluate improvements that result from combining automatic and manual indexing. First, when considering various contexts, this study reveals that the combined indexing strategy always obtains the best retrieval performance. Second, when users wish to conduct exhaustive searches with minimal effort, we demonstrate that manually assigned terms are essential. Third, the evaluations presented in this paper study reveal the comparative retrieval performances that result from manual and automatic indexing in a variety of circumstances. (c) 2004 Elsevier Ltd. All rights reserved.
- PublicationAccès libreFusion de collections dans les métamoteurs(2002)
; ;Rasolofo, YvesAbbaci, FaïzaLes métamoteurs disponibles sur le Web offrent la possibilité d'interroger de nombreux serveurs d'information soulevant le problème de la fusion des résultats provenant des différents moteurs interrogés. Dans cet article, nous proposons une nouvelle stratégie de fusion n'utilisant que le rang des documents dépistés par les divers moteurs de recherche consultés. De plus, nous évaluons plusieurs approches en utilisant un corpus de 2 GB comprenant des articles de quotidiens et une seconde collection de pages Web d'environ 10 GB. Basée sur nos expériences, notre stratégie, simple et efficace pour la fusion de collections, présente une performance intéressante et se révèle bien adaptée aux métamoteurs de recherche., We investigate the problem of combining ranked lists of documents provided by multiple search engines. Such a problem must be solved by meta-search engines. In this paper, we suggest a new merging strategy using only the rank of the retrieved items. Moreover, we evaluate various merging approaches based on both a corpus of 2 GB containing news, and a second test-collection of 10 GB of Web pages. Based on our evaluations, our merging approach presents interesting performance and it is well adapted for meta-search engines. - PublicationAccès librePremières évaluations de la recherche d’information dans les blogs(2008)
;Fautsch, ClaireRecourant au modèle vectoriel tf idf, ainsi qu’à trois approches probabilistes et un modèle de langue, cet article évalue leur performance sur un corpus TREC extrait de la blogosphère et comprenant 100 requêtes. Basé sur deux mesures de performance, nous démontrons que l’absence d’enracineur s’avère plus efficace que d’autres approches (enracineur léger ou celui de Porter)., This paper describes the main retrieval problems when facing with blogs. Using the classical tf idf vector-space model together with three probabilistic and one statistical language model, we evaluate them using a TREC test-collections composed of 100 topics. Using two performance measures, we show that ignoring a stemming approach results in a better performance than other indexing strategies (light or Porter’s stemmer). - PublicationMétadonnées seulementReport on the TREC-8 Experiment: Searching on the Web and in Distributed Collections(2000)
; Picard, Justin - PublicationAccès libreUn regard statistique sur l'évaluation de performance : L'exemple de CLEF 2005(2006)Cette communication évalue et compare l’efficacité du dépistage de l’information de onze modèles à l'aide de quatre collections de documents rédigés dans les langues française, portugaise - brésilienne, hongroise et bulgare. Pour les deux dernières langues, on compare également l'indexation basée sur des mots à celle reposant sur des quadrigrammes (4-grams). En recourant à quatre tests statistiques et deux règles ad hoc, nous analysons les performances obtenues pour savoir si les différences de performance observées sont significatives. Enfin, nous comparons les résultats de ces différentes règles de décision afin de vérifier leur degré de concordance., This paper evaluates and compares the retrieval effectiveness of eleven search models applied to four test collections written in the French, Portuguese-Brazilian, Hungarian and Bulgarian languages. For the latter two languages, we also compare word-based and 4-gram indexing schemes. Applying four statistical tests and two ad hoc rules, we analyze the performance levels obtained in order to determine whether their observed mean average performance differences are in fact statistically significant. Finally, we compare the results of these various decision rules and verify their degree of agreement.
- PublicationMétadonnées seulement
- PublicationMétadonnées seulementDatabase merging strategy based on logistic regression(2000)
;Le Calvé, AnneWith the development of network technology, users looking for information may send a request to various selected databases and then inspect multiple result lists. To avoid the need for inspecting multiple result lists, the database merging strategy merges the retrieval results produced by separate, autonomous servers into an effective, single ranked list. Our study deals with a particular aspect of this merging process, whereby only the rank of the retrieved records is available, and where a key points to different result lists. On the basis of this rather limited information, this paper describes the theoretical foundation and retrieval performance of our database merging approach based on logistic regression. (C) 2000 Elsevier Science Ltd. All rights reserved.