Repository logo
Research Data
Publications
Projects
Persons
Organizations
English
Français
Log In(current)
  1. Home
  2. Publications
  3. Article de recherche (journal article)
  4. Etude comparative de stratégies de sélection de prédicteurs pour l’attribution d’auteur

Etude comparative de stratégies de sélection de prédicteurs pour l’attribution d’auteur

Author(s)
Savoy, Jacques  
Institut d'informatique  
Date issued
2012
In
Actes 9ème Conférence en Recherche d’Information et Applications CORIA’12
From page
215
To page
228
Subjects
Sélection de prédicteurs attribution d'auteur catégorisation de textes Feature selection authorship attribution text categorization
Abstract
L’attribution d'auteur peut être vue comme une tâche en catégorisation de textes qui se subdivise en deux étapes. D’abord nous devons sélectionner les mots les plus discriminants puis appliquer un modèle de classification. Afin de bien choisir les meilleurs termes, nous avons évalué sept fonctions de sélection dont l’information mutuelle ponctuelle, le gain d’information, le rapport de cotes, le <i>Χ</i><sup>2</sup> ou le coefficient de corrélation. Nous avons également retenu deux stratégies de sélection proposées dans le cadre d’attribution d’auteur. Afin de comparer ces méthodes, nous avons repris un corpus de 5 408 articles de presse (Glasgow Herald) écrits par vingt journalistes différents. Basé sur la performance obtenue par la méthode de divergence KLD (Zhao & Zobel, 2007) et Delta (Burrows, 2002), nous remarquons que des stratégies simples proposent des résultats aussi performants que des approches plus complexes., The authorship attribution problem can be viewed as a categorization problem. To determine the most effective features to discriminate between different writers (or categories), we have evaluated seven feature selection functions (e.g., pointwise mutual information, information gain, odds ratio, <i>Χ</i><sup>2</sup>, or correlation coefficient). We have also considered two selection functions proposed in the context of authorship attribution. To compare these approaches, we have selected a newspaper corpus (Glasgow Herald) composed of 5,408 articles written by twenty columnists. Using the KLD (Zhao & Zobel, 2007) and the Delta (Burrows, 2002) attribution scheme, we found that some simple selection functions tend to produce results comparable to more complex ones.
Later version
http://cifed-coria2012.labri.fr/
Publication type
journal article
Identifiers
https://libra.unine.ch/handle/20.500.14713/65149
File(s)
Loading...
Thumbnail Image
Download
Name

Savoy_Jacques_Etude_comparative_de_strat_gies_20121220.pdf

Type

Main Article

Size

1.04 MB

Format

Adobe PDF

Université de Neuchâtel logo

Service information scientifique & bibliothèques

Rue Emile-Argand 11

2000 Neuchâtel

contact.libra@unine.ch

Service informatique et télématique

Rue Emile-Argand 11

Bâtiment B, rez-de-chaussée

Powered by DSpace-CRIS

libra v2.1.0

© 2025 Université de Neuchâtel

Portal overviewUser guideOpen Access strategyOpen Access directive Research at UniNE Open Access ORCIDWhat's new