Options
Robustesse des résultats d'une campagne d'évaluation : L'exemple de la piste ad hoc CLEF-2005
Auteur(s)
Date de parution
2006
In
Actes 8e Journées Analyse statistique des Données Textuelles JADT 2006, Université de Besançon, 2006///877-888
Résumé
À l'aide de corpus écrits dans les langues française, portugaise (brésilienne), hongroise et bulgare, cet article analyse et compare l’efficacité du dépistage de onze stratégies d’indexation et de recherche. Nos analyses démontrent que les meilleures performances sont obtenues par les modèles probabilistes Okapi ou Prosit. Les mesures d'évaluation pénalisant plus fortement les mauvaises réponses comme la moyenne géométrique, la médiane ou celle basée sur la précision obtenue après dix documents extraits redonnent un classement des modèles de dépistage très similaire à l'évaluation basée sur la mesure de performance officielle, soit la précision moyenne. Le classement des modèles de recherche selon leur précision moyenne, mesure de performance choisie par les campagnes d’évaluation comme CLEF 2005, se montre donc relativement fiable. Cependant, l’élimination de quelques requêtes bien sélectionnées peut modifier les premières positions d’un tel classement., This paper evaluates and compares the retrieval effectiveness resulting from the application of eleven search models when searching into test-collections made available for the French, Portuguese (Brazilian), Hungarian and Bulgarian languages. Our analysis demonstrates that the best retrieval performance can be obtained from applying the Okapi or Prosit probabilistic models. Be it the geometrical mean, the median or the precision after retrieving ten documents, those evaluation measures that greatly penalizing poor responses do not perform that differently from that used during official CLEF evaluation campaigns, namely the mean average precision. The ranking of the first positions may however be altered through the removal of a few well-selected queries.
Identifiants
Type de publication
journal article