Voici les ƩlƩments 1 - 1 sur 1
Pas de vignette d'image disponible
Publication
AccĆØs libre

Recherche dā€™information dans un corpus bruitĆ© (OCR)

, Naji, Nada, Savoy, Jacques, Dolamic, Ljiljana

Cet article dĆ©sire mesurer la perte de performance lors de la recherche d'information dans une collection de documents scannĆ©s. Disposant d'un corpus sans erreur et de deux versions renfermant 5 % et 20 % d'erreurs en reconnaissance, nous avons Ć©valuĆ© six modĆØles de recherche d'information basĆ©s sur trois reprĆ©sentations des documents (sac de mots, n-grammes, ou trunc-n) et trois enracineurs. BasĆ© sur l'inverse du rang du premier document pertinent dĆ©pistĆ©, nous dĆ©montrons que la perte de performance se situe aux environs de - 17 % avec un taux d'erreur en reconnaissance de 5 % et s'Ć©lĆØve Ć  ā€“ 46 % si ce taux grimpe Ć  20 %. La reprĆ©sentation par 4-grammes semble apporter une meilleure qualitĆ© de rĆ©ponse avec un corpus bruitĆ©. Concernant l'emploi ou non d'un enracineur lĆ©ger ou la pseudo-rĆ©troaction positive, aucune conclusion dĆ©finitive ne peut ĆŖtre tirĆ©e., This paper evaluates the retrieval effectiveness degradation when facing with noisy text corpus. With the use of a test-collection having the clean text, another version with around 5% error rate in recognition and a third with 20% error rate, we have evaluated six IR models based on three text representations (bag-of-words, n-grams, trunc-n) as well as three stemmers. Using the mean reciprocal rank as performance measure, we show that the average retrieval effectiveness degradation is around -17% when dealing with an error rate of 5%. This average decrease is around -46% when facing with an error rate of 20%. The representation by 4-grams tends to offer the best retrieval when searching with noisy text. Finally, we are not able to obtain clear conclusion about the impact of different stemming strategies or the use of blind-query expansion.