Logo du site
  • English
  • Français
  • Se connecter
Logo du site
  • English
  • Français
  • Se connecter
  1. Accueil
  2. Université de Neuchâtel
  3. Publications
  4. Attribution d’auteur : Une approche basée sur l’allocation latente de Dirichlet (LDA)
 
  • Details
Options
Vignette d'image

Attribution d’auteur : Une approche basée sur l’allocation latente de Dirichlet (LDA)

Auteur(s)
Savoy, Jacques 
Institut d'informatique 
In
Actes 11e Journées internationales d’analyse statistique des données textuelles JADT 2012, 2012///897-909
Mots-clés
  • Catégorisation de textes
  • attribution d'auteur
  • statistique lexicale
  • allocation latente de Dirichlet
  • Text categorization
  • authorship attribution
  • lexical statistics
  • latent Dirichlet allocation
  • Catégorisation de tex...

  • attribution d'auteur

  • statistique lexicale

  • allocation latente de...

  • Text categorization

  • authorship attributio...

  • lexical statistics

  • latent Dirichlet allo...

Résumé
Cette communication décrit et évalue l’emploi d’une nouvelle approche basée sur l’allocation latente de Dirichlet (<i>Latent Dirichlet Allocation</i>, LDA) en attribution d’auteur. A l’aide de ce modèle probabiliste, chaque document se représente comme un mélange de thèmes correspondant pour chacun d’eux à une distribution spécifique de mots. Sur cette base, nous proposons de calculer une distance entre un texte dont l’auteur est inconnu et les divers profils d’auteur (agrégation de tous les écrits d’un même écrivain). La distance minimale nous permettra de déterminer l’auteur probable. Afin d’évaluer cette solution et de la comparer avec trois autres stratégies d’attribution d’auteur, nous avons créé une collection-test composée de 4 326 articles écrits par vingt journalistes du journal <i>La Stampa</i>. Cette étude comparative démontre qu’une approche basée sur la LDA offre, sous certaines conditions, une qualité d’affectation supérieure à la règle Delta, à l’usage de la distance du Χ<sup>2</sup> ou à une technique basée sur la mesure de divergence Kullbach-Leibler (KLD). Le temps de traitement pénalise toutefois la technique LDA en comparaison aux autres approches., This paper describes and evaluates the use of <i>Latent Dirichlet Allocation</i> (LDA) as an new approach to authorship attribution. Based on this generative probabilistic model, each document is represented by a mixture of topic distributions with each topic specifying a given distribution over words. Based on author profiles (aggregation of all texts written by the same writer), we then propose computing a distance with a disputed text to determine its likely author. The smallest distance will define the most probable writer. To evaluate this approach together with three other attributions schemes, we develop an experiment based on 4,326 newspaper articles (<i>La Stampa</i>) written in Italian by twenty distinct columnists. This research demonstrates that the LDAbased classification scheme tends, under certain conditions, to perform better than the Delta rule, the Χ<sup>2</sup> distance or the Kullbach-Leibler divergence (KLD) scheme. The computational cost however tends to penalize LDA method compared to other algorithms.
Identifiants
https://libra.unine.ch/handle/123456789/9592
Autre version
http://www.jadt2012.ulg.ac.be/programme.html
Type de publication
journal article
Dossier(s) à télécharger
 main article: Savoy_Jacques-Attribution_d_un_auteur-20130103.pdf (934.71 KB)
google-scholar
Présentation du portailGuide d'utilisationStratégie Open AccessDirective Open Access La recherche à l'UniNE Open Access ORCIDNouveautés

Service information scientifique & bibliothèques
Rue Emile-Argand 11
2000 Neuchâtel
contact.libra@unine.ch

Propulsé par DSpace, DSpace-CRIS & 4Science | v2022.02.00