Repository logo
Research Data
Publications
Projects
Persons
Organizations
English
Français
Log In(current)
  1. Home
  2. Publications
  3. Article de recherche (journal article)
  4. Variations autour de tf idf et du moteur Lucene

Variations autour de tf idf et du moteur Lucene

Author(s)
Savoy, Jacques  
Institut d'informatique  
Dolamic, Ljiljana
Date issued
2008
In
Actes 9e journées Analyse statistique des Données Textuelles JADT 2008, Laboratoire ICAR - ENS-LSH, 2008///1047-1058
Subjects
évaluation recherche d’information tf idf Lucene langue française
Abstract
A l'aide d’un corpus écrit en langue française et composé de 299 requêtes, cet article analyse et compare l’efficacité du dépistage de diverses stratégies d’indexation et de recherche basées sur le modèle classique « tf idf ». Cette dernière formulation demeure ambiguë et cache diverses variantes possédant des performances différentes, performance mesurée soit par la précision moyenne (MAP) soit par le rang moyen de la première bonne réponse (MRR). Notre analyse confirme que la meilleure efficacité s’obtient par le modèle Okapi. Mais lorsque nous sommes dans des contextes particuliers (e.g., systèmes distribués) dans lesquels la valeur de l’idf n’est pas connue lors de l’indexation des documents, nous démontrons que des stratégies simples, basées uniquement sur la fréquence d’occurrence (ou tf) permettent d’obtenir une performance significativement meilleure que le modèle classique « tf idf ». En utilisant le moteur Lucene (logiciel libre), nous avons également évalué deux de ses facettes, à savoir l’accroissement d’importance attachée aux mots des titres et la prise en compte du nombre de termes en commun entre le document dépisté et la requête., This paper evaluates and compares the retrieval effectiveness resulting from various models derived from the classical tf idf paradigm when searching into a test-collection written in the French language (CLEF, 299 queries). We show that the simple paradigm “tf idf” may hide various formulations providing different retrieval effectiveness measured either by the mean average precision (MAP) or the mean reciprocal rank (MRR). Our analysis demonstrates that the best retrieval performance can be obtained from applying the Okapi probabilistic model. However, when faced with particular contexts (e.g. distributed IR) where the idf value cannot be obtained during the indexing process, we demonstrated that a simple indexing scheme (based only the frequency of occurrence or tf) may produce a significantly better performance than the classical « tf idf » model. Using the Lucene search engine, we also analyze and evaluate two particular features of this open-source system (namely the boost and coordinate level match).
Later version
http://jadt2008.ens-lsh.fr
Publication type
journal article
Identifiers
https://libra.unine.ch/handle/20.500.14713/58602
File(s)
Loading...
Thumbnail Image
Download
Name

Savoy_Jacques_-_Variations_autour_de_tf_idf_du_moteur_Lucene_20100224.pdf

Type

Main Article

Size

473.35 KB

Format

Adobe PDF

Université de Neuchâtel logo

Service information scientifique & bibliothèques

Rue Emile-Argand 11

2000 Neuchâtel

contact.libra@unine.ch

Service informatique et télématique

Rue Emile-Argand 11

Bâtiment B, rez-de-chaussée

Powered by DSpace-CRIS

libra v2.2.0

© 2026 Université de Neuchâtel

Portal overviewUser guideOpen Access strategyOpen Access directive Research at UniNE Open Access ORCIDWhat's new