Repository logo
Research Data
Publications
Projects
Persons
Organizations
English
Français
Log In(current)
  1. Home
  2. Publications
  3. Article de recherche (journal article)
  4. Quel est l'auteur de ce roman?

Quel est l'auteur de ce roman?

Author(s)
Savoy, Jacques  
Institut d'informatique  
Date issued
2011
In
Actes 8ème Conférence en Recherche d’Information et Applications CORIA’11
From page
135
To page
150
Subjects
Catégorisation de textes attribution d'auteur analyse des correspondances (AC) analyse en composantes principales (ACP) Text categorization authorship attribution correspondence analysis (CA) principal component analysis (PCA)
Abstract
Dans cet article, nous présentons le problème de l'attribution d'auteur d'une oeuvre écrite. Comme représentation des textes, les études récentes s'appuient sur un ensemble restreint de mots fonctionnels ou très fréquents (50 ou 100). Sur cette base, les méthodes de l'analyse en composantes principales (ACP) ou des correspondances (AC) permettent de visualiser les affinités et différences entre les représentations des écrits. En appliquant l'approche du plus proche voisin, nous pouvons estimer l'auteur de chaque texte. Comme alternative, nous suggérons de fonder le calcul de distance entre textes sur la base de la spécificité du vocabulaire (Z score). Basée sur une évaluation de corpus en langue française et anglaise, cette solution permet d'accroître la qualité de l'attribution d'auteur., In this paper, we present the authorship attribution problem. As text representation, recent studies suggest using a small set of function or very frequent words (50 or 100). On this basis, we can apply either the principal component analysis (PCA) or the correspondence analysis (CA) to visualize the relationships between text surrogates. Using the nearest neighbor approach, we can then suggest the possible author of a disputed writing. As new attribution strategy, we propose a technique based on specific vocabulary found in a text comparing to an entire corpus. Based on the nearest neighbour approach, we can derive a simple and efficient authorship attribution scheme. Using two corpora composed of excerpts taken from French and English novels, we show that the suggested classifier tends to perform better than both the PCA and the CA approach.
Later version
http://coria11.univ-avignon.fr
Publication type
journal article
Identifiers
https://libra.unine.ch/handle/20.500.14713/65147
File(s)
Loading...
Thumbnail Image
Download
Name

Savoy_Jacques-Quel_est_l_auteur_de_ce_roman-20121218.pdf

Type

Main Article

Size

1.03 MB

Format

Adobe PDF

Université de Neuchâtel logo

Service information scientifique & bibliothèques

Rue Emile-Argand 11

2000 Neuchâtel

contact.libra@unine.ch

Service informatique et télématique

Rue Emile-Argand 11

Bâtiment B, rez-de-chaussée

Powered by DSpace-CRIS

libra v2.1.0

© 2025 Université de Neuchâtel

Portal overviewUser guideOpen Access strategyOpen Access directive Research at UniNE Open Access ORCIDWhat's new