Options
Attribution d’auteur : Une approche basée sur l’allocation latente de Dirichlet (LDA)
Auteur(s)
In
Actes 11e Journées internationales d’analyse statistique des données textuelles JADT 2012, 2012///897-909
Mots-clés
Résumé
Cette communication décrit et évalue l’emploi d’une nouvelle approche basée sur l’allocation latente de Dirichlet (<i>Latent Dirichlet Allocation</i>, LDA) en attribution d’auteur. A l’aide de ce modèle probabiliste, chaque document se représente comme un mélange de thèmes correspondant pour chacun d’eux à une distribution spécifique de mots. Sur cette base, nous proposons de calculer une distance entre un texte dont l’auteur est inconnu et les divers profils d’auteur (agrégation de tous les écrits d’un même écrivain). La distance minimale nous permettra de déterminer l’auteur probable. Afin d’évaluer cette solution et de la comparer avec trois autres stratégies d’attribution d’auteur, nous avons créé une collection-test composée de 4 326 articles écrits par vingt journalistes du journal <i>La Stampa</i>. Cette étude comparative démontre qu’une approche basée sur la LDA offre, sous certaines conditions, une qualité d’affectation supérieure à la règle Delta, à l’usage de la distance du Χ<sup>2</sup> ou à une technique basée sur la mesure de divergence Kullbach-Leibler (KLD). Le temps de traitement pénalise toutefois la technique LDA en comparaison aux autres approches., This paper describes and evaluates the use of <i>Latent Dirichlet Allocation</i> (LDA) as an new approach to authorship attribution. Based on this generative probabilistic model, each document is represented by a mixture of topic distributions with each topic specifying a given distribution over words. Based on author profiles (aggregation of all texts written by the same writer), we then propose computing a distance with a disputed text to determine its likely author. The smallest distance will define the most probable writer. To evaluate this approach together with three other attributions schemes, we develop an experiment based on 4,326 newspaper articles (<i>La Stampa</i>) written in Italian by twenty distinct columnists. This research demonstrates that the LDAbased classification scheme tends, under certain conditions, to perform better than the Delta rule, the Χ<sup>2</sup> distance or the Kullbach-Leibler divergence (KLD) scheme. The computational cost however tends to penalize LDA method compared to other algorithms.
Identifiants
Autre version
http://www.jadt2012.ulg.ac.be/programme.html
Type de publication
journal article
Dossier(s) à télécharger