Options
Savoy, Jacques
Résultat de la recherche
Catégorisation de documents: applications en attribution d’auteur et analyse stylistique
2017, Savoy, Jacques
La catégorisation de documents (attribution d'un texte à une ou plusieurs catégories prédéfinies) représente un problème possédant de multiples facettes. Ainsi, l'indexation automatique correspond à l'une d'entre elles qui se fonde sur la sémantique des documents. Cependant d'autres applications analysent les mots outils, ces formes qui ne portent que peu ou pas de sens. Or ces dernières permettent, en grande partie, de décrire le style d'un auteur voire de déterminer quelques aspects de son profil. Sur la base de ces éléments, nous allons présenter comment identifier le véritable auteur d'un document, ou savoir si celui-ci a été écrit par un homme ou une femme. Afin d'illustrer nos propos, nous aborderons le cas d'Elena Ferrante, un pseudonyme mondialement connu depuis la parution de son roman L'amie prodigieuse (Gallimard, 2016). Comme autre exemple, nous analyserons les discours des présidents américains de G. Washington (1789) à D. Trump (2017) afin d'en découvrir quelques traces évolutives tant stylistiques que thématiques. Dans ce dernier cas, une synthèse sera extraite d'un corpus de discours sous la forme d'un graphique décrivant les rapprochements entre présidences.
Authorship attribution based on specific vocabulary
2012, Savoy, Jacques
Lexical analysis of US political speeches
2010, Savoy, Jacques
Comparative study of indexing and search strategies for the hindi, marathi, and bengali languages
2010, Dolamic, Ljiljana, Savoy, Jacques
Authorship attribution based on a probabilistic topic model
2013, Savoy, Jacques
Authorship attribution: a comparative study of three text corpora and three languages
2012, Savoy, Jacques
When stopword lists make the difference
2010, Dolamic, Ljiljana, Savoy, Jacques
Simple and efficient classification scheme based on specific vocabulary
2012, Savoy, Jacques, Zubaryeva, Olena
Who Wrote this Novel? Authorship Attribution across Three Languages
2011, Savoy, Jacques
Based on different writing style definitions, various authorship attribution schemes have been proposed to identify the real author of a given text or text excerpt. In this article we analyze the relative performance of word types or lemmas assigned to re-present styles and texts. As a second objective we compare two authorship attribu-tion approaches, one based on principal component analysis (PCA), and a new au-thorship attribution method involving specific vocabulary (Z score classification scheme). As a third goal we carry out our experiments on data from three corpora written in three different languages (English, French, and German). In the first we ca-tegorize 52 text excerpts (taken from 19th century English novels) written by nine au-thors. In the second we work with 44 segments taken from French novels (mainly 19th century) written by eleven authors. In the third we extract 59 German text excerpts written by 15 authors and covering the 19th and early 20th centuries. Based on these collections and two specific features (word types or lemmas) we demonstrate that the Z score method performs better than the PCA, while demonstrating that lemmas tend to produce slightly better performance than word types.