Variations autour de tf idf et du moteur Lucene

Savoy, Jacques; Dolamic, Ljiljana

Variations autour de tf idf et du moteur Lucene

Auteur(s)

Savoy, Jacques

Institut d'informatique

Dolamic, Ljiljana

Date de parution

2008

In

Actes 9e journées Analyse statistique des Données Textuelles JADT 2008, Laboratoire ICAR - ENS-LSH, 2008///1047-1058

Mots-clés

Résumé

A l'aide d’un corpus écrit en langue française et composé de 299 requêtes, cet article analyse et compare l’efficacité du dépistage de diverses stratégies d’indexation et de recherche basées sur le modèle classique « tf idf ». Cette dernière formulation demeure ambiguë et cache diverses variantes possédant des performances différentes, performance mesurée soit par la précision moyenne (MAP) soit par le rang moyen de la première bonne réponse (MRR). Notre analyse confirme que la meilleure efficacité s’obtient par le modèle Okapi. Mais lorsque nous sommes dans des contextes particuliers (e.g., systèmes distribués) dans lesquels la valeur de l’idf n’est pas connue lors de l’indexation des documents, nous démontrons que des stratégies simples, basées uniquement sur la fréquence d’occurrence (ou tf) permettent d’obtenir une performance significativement meilleure que le modèle classique « tf idf ». En utilisant le moteur Lucene (logiciel libre), nous avons également évalué deux de ses facettes, à savoir l’accroissement d’importance attachée aux mots des titres et la prise en compte du nombre de termes en commun entre le document dépisté et la requête., This paper evaluates and compares the retrieval effectiveness resulting from various models derived from the classical tf idf paradigm when searching into a test-collection written in the French language (CLEF, 299 queries). We show that the simple paradigm “tf idf” may hide various formulations providing different retrieval effectiveness measured either by the mean average precision (MAP) or the mean reciprocal rank (MRR). Our analysis demonstrates that the best retrieval performance can be obtained from applying the Okapi probabilistic model. However, when faced with particular contexts (e.g. distributed IR) where the idf value cannot be obtained during the indexing process, we demonstrated that a simple indexing scheme (based only the frequency of occurrence or tf) may produce a significantly better performance than the classical « tf idf » model. Using the Lucene search engine, we also analyze and evaluate two particular features of this open-source system (namely the boost and coordinate level match).

Identifiants

https://libra.unine.ch/handle/123456789/14360

Autre version

http://jadt2008.ens-lsh.fr

Type de publication

journal article

Dossier(s) à télécharger

main article: Savoy_Jacques_-_Variations_autour_de_tf_idf_du_moteur_Lucene_20100224.pdf (473.35 KB)

google-scholar

Options

Variations autour de tf idf et du moteur Lucene