Options
Indexation et représentation comparative : Application au discours électoral
Auteur(s)
Date de parution
2009
In
Actes 6ème Conférence en Recherche d’Information et Applications CORIA’09, ARIA (Association Francophone de Recherche d'Information et Applications), 2009///185-200
Résumé
Cet article décrit quelques approches afin d'extraire les termes les plus représentatifs d'un site web ou d'un ensemble de documents en comparaison avec d'autres sites ou un corpus de référence. Nous montrons que la fréquence d'occurrence ou le rang des termes les plus fréquents peut fournir une première synthèse. Notre proposition s'appuie sur une distribution binomiale des mots et le calcul d'un score normalisé (score Z) mettant en lumière les termes comparativement les plus appropriés. Quelques exemples tirés des discours électoraux suisses ou français illustrent l'intérêt de l'approche suggérée., This paper describes some possible approaches to automatic extraction of terms closely reflecting the content of a Web site or a set of documents by comparison of other sites or a given corpus. We show that the frequency of occurrences or the rank of the most frequent terms may provide a first overview. In the suggested method, we model the terms distribution according to a binomial process and we proposed to compute a normalized z-score to define the most appropriate terms within a comparative perspective. Examples based on Swiss and French political speeches show the usefulness of the suggested method. MOTS-CLES : Résumé automatique, indexation, distribution lexicale, analyse du discours.
Identifiants
Type de publication
journal article
Dossier(s) à télécharger