Repository logo
Research Data
Publications
Projects
Persons
Organizations
English
Français
Log In(current)
  1. Home
  2. Publications
  3. Article de recherche (journal article)
  4. Attribution d’auteur : Une approche basée sur l’allocation latente de Dirichlet (LDA)

Attribution d’auteur : Une approche basée sur l’allocation latente de Dirichlet (LDA)

Author(s)
Savoy, Jacques  
Institut d'informatique  
Date issued
2012
In
Actes 11e Journées internationales d’analyse statistique des données textuelles JADT 2012
From page
897
To page
909
Subjects
Catégorisation de textes attribution d'auteur statistique lexicale allocation latente de Dirichlet Text categorization authorship attribution lexical statistics latent Dirichlet allocation
Abstract
Cette communication décrit et évalue l’emploi d’une nouvelle approche basée sur l’allocation latente de Dirichlet (<i>Latent Dirichlet Allocation</i>, LDA) en attribution d’auteur. A l’aide de ce modèle probabiliste, chaque document se représente comme un mélange de thèmes correspondant pour chacun d’eux à une distribution spécifique de mots. Sur cette base, nous proposons de calculer une distance entre un texte dont l’auteur est inconnu et les divers profils d’auteur (agrégation de tous les écrits d’un même écrivain). La distance minimale nous permettra de déterminer l’auteur probable. Afin d’évaluer cette solution et de la comparer avec trois autres stratégies d’attribution d’auteur, nous avons créé une collection-test composée de 4 326 articles écrits par vingt journalistes du journal <i>La Stampa</i>. Cette étude comparative démontre qu’une approche basée sur la LDA offre, sous certaines conditions, une qualité d’affectation supérieure à la règle Delta, à l’usage de la distance du Χ<sup>2</sup> ou à une technique basée sur la mesure de divergence Kullbach-Leibler (KLD). Le temps de traitement pénalise toutefois la technique LDA en comparaison aux autres approches., This paper describes and evaluates the use of <i>Latent Dirichlet Allocation</i> (LDA) as an new approach to authorship attribution. Based on this generative probabilistic model, each document is represented by a mixture of topic distributions with each topic specifying a given distribution over words. Based on author profiles (aggregation of all texts written by the same writer), we then propose computing a distance with a disputed text to determine its likely author. The smallest distance will define the most probable writer. To evaluate this approach together with three other attributions schemes, we develop an experiment based on 4,326 newspaper articles (<i>La Stampa</i>) written in Italian by twenty distinct columnists. This research demonstrates that the LDAbased classification scheme tends, under certain conditions, to perform better than the Delta rule, the Χ<sup>2</sup> distance or the Kullbach-Leibler divergence (KLD) scheme. The computational cost however tends to penalize LDA method compared to other algorithms.
Later version
http://www.jadt2012.ulg.ac.be/programme.html
Publication type
journal article
Identifiers
https://libra.unine.ch/handle/20.500.14713/65146
File(s)
Loading...
Thumbnail Image
Download
Name

Savoy_Jacques-Attribution_d_un_auteur-20130103.pdf

Type

Main Article

Size

934.71 KB

Format

Adobe PDF

Université de Neuchâtel logo

Service information scientifique & bibliothèques

Rue Emile-Argand 11

2000 Neuchâtel

contact.libra@unine.ch

Service informatique et télématique

Rue Emile-Argand 11

Bâtiment B, rez-de-chaussée

Powered by DSpace-CRIS

libra v2.1.0

© 2025 Université de Neuchâtel

Portal overviewUser guideOpen Access strategyOpen Access directive Research at UniNE Open Access ORCIDWhat's new