Options
Savoy, Jacques
Résultat de la recherche
Catégorisation de documents: applications en attribution d’auteur et analyse stylistique
2017, Savoy, Jacques
La catégorisation de documents (attribution d'un texte à une ou plusieurs catégories prédéfinies) représente un problème possédant de multiples facettes. Ainsi, l'indexation automatique correspond à l'une d'entre elles qui se fonde sur la sémantique des documents. Cependant d'autres applications analysent les mots outils, ces formes qui ne portent que peu ou pas de sens. Or ces dernières permettent, en grande partie, de décrire le style d'un auteur voire de déterminer quelques aspects de son profil. Sur la base de ces éléments, nous allons présenter comment identifier le véritable auteur d'un document, ou savoir si celui-ci a été écrit par un homme ou une femme. Afin d'illustrer nos propos, nous aborderons le cas d'Elena Ferrante, un pseudonyme mondialement connu depuis la parution de son roman L'amie prodigieuse (Gallimard, 2016). Comme autre exemple, nous analyserons les discours des présidents américains de G. Washington (1789) à D. Trump (2017) afin d'en découvrir quelques traces évolutives tant stylistiques que thématiques. Dans ce dernier cas, une synthèse sera extraite d'un corpus de discours sous la forme d'un graphique décrivant les rapprochements entre présidences.
Etude comparative de stratégies de sélection de prédicteurs pour l’attribution d’auteur
, Savoy, Jacques
L’attribution d'auteur peut être vue comme une tâche en catégorisation de textes qui se subdivise en deux étapes. D’abord nous devons sélectionner les mots les plus discriminants puis appliquer un modèle de classification. Afin de bien choisir les meilleurs termes, nous avons évalué sept fonctions de sélection dont l’information mutuelle ponctuelle, le gain d’information, le rapport de cotes, le Χ2 ou le coefficient de corrélation. Nous avons également retenu deux stratégies de sélection proposées dans le cadre d’attribution d’auteur. Afin de comparer ces méthodes, nous avons repris un corpus de 5 408 articles de presse (Glasgow Herald) écrits par vingt journalistes différents. Basé sur la performance obtenue par la méthode de divergence KLD (Zhao & Zobel, 2007) et Delta (Burrows, 2002), nous remarquons que des stratégies simples proposent des résultats aussi performants que des approches plus complexes., The authorship attribution problem can be viewed as a categorization problem. To determine the most effective features to discriminate between different writers (or categories), we have evaluated seven feature selection functions (e.g., pointwise mutual information, information gain, odds ratio, Χ2, or correlation coefficient). We have also considered two selection functions proposed in the context of authorship attribution. To compare these approaches, we have selected a newspaper corpus (Glasgow Herald) composed of 5,408 articles written by twenty columnists. Using the KLD (Zhao & Zobel, 2007) and the Delta (Burrows, 2002) attribution scheme, we found that some simple selection functions tend to produce results comparable to more complex ones.
Text clustering with styles
2017, Kocher, MIrco, Savoy, Jacques
Cette thèse présente le problème du regroupement d'auteurs formulé de la manière suivante : en partant d'un ensemble composé de n textes, le but est de déterminer le nombre k d'auteurs distincts, pour regrouper les textes en k classes. De manière itérative, nous construisons un système stable et simple qui est capable de regrouper automatiquement les documents selon leurs thèmes.
Dans notre étude, nous commençons par proposer une mesure capable d'estimer l'(in-)certitude de la décision proposée, dans le but d'obtenir un indicateur de confiance en lieu et place d'une simple réponse. Ensuite, nous combinons les paires de textes pour lesquelles une même affectation apparaît, et dont nous sommes suffisamment confiants pour affirmer qu'ils sont rédigés par le même auteur. Enfin, après avoir vérifié chaque tuple de textes, nous construisons les classes en nous basant sur une stratégie utilisant une distance entre distributions probabilistes. Grâce à l'utilisation d'une limite dynamique, nous sommes à même de choisir les plus petites distances relatives pour détecter une origine commune entre textes.
Bien que notre étude se concentre principalement sur la création de méthodes simples, des schémas plus complexes mènent à des résultats plus performants. Ainsi, nous avons opté pour une représentation distribuée et nous avons comparé son efficacité à plusieurs méthodes d'attribution d'auteurs. Cette évaluation nous permet de démontrer que toutes les approches n'excellent pas dans toutes les situations, et que des méthodes d'apprentissage profond peuvent être sensibles au choix des paramètres.
Les observations les plus proches des exemples en question (ou la catégorie ayant la plus petite distance) déterminent généralement les réponses proposées. Nous avons testé plusieurs fonctions de distance inter-textuelle sur des critères théoriques et empiriques. Nous démontrons que les distances dites de Tanimoto et de Matusita respectent toutes les propriétés théoriques. Toutes deux obtiennent également de bons résultats dans le cadre de tests empiriques. Toutefois, les mesures de Canberra et de Clark sont encore mieux adaptées, bien qu'elles ne remplissent pas toutes les caractéristiques théoriques demandées. De manière générale, l'on constate que la fonction Cosinus ne répond pas à toutes les conditions, et se comporte de façon suboptimale. Enfin, nous observons que la réduction des traits stylistiques retenues diminue le temps d'exécution et peut également améliorer les performances en ignorant les redondantes.
Nous testons nos systèmes pour différentes langues naturelles appartenant à une variété de familles de langues et pour plusieurs genres de textes. Grâce à la sélection flexible des attributs, nos systèmes sont capables de produire des résultats fiables dans toutes les conditions testées., This thesis mainly describes the author clustering problem where, based on a set of n texts, the goal is to determine the number k of distinct authors and regroup the texts into k classes according to their author. We iteratively build a stable and simple model for text clustering with styles.
We start by designing a measure reflecting the (un)certainty of the proposed decision such that every decision comes along with a confidence of correctness instead of only giving a single answer. Afterwards, we link those pairs of texts where we see an indication of a shared authorship and have enough evidence that the same person has written them. Finally, after checking every text tuple, if we can link them together, we build the final clusters based on a strategy using a distance of probability distributions. Employing a dynamic threshold, we can choose the smallest relative distance values to detect a common origin of the texts.
While in our study we mostly focus on the creation of simple methods, investigating more complex schemes leads to interesting findings. We evaluate distributed language representations and compare them to several state-of-the-art methods for authorship attribution. This comparison allows us to demonstrate that not every approach excels in every situation and that the deep learning methods might be sensitive to parameter settings.
The most similar observations (or the category with the smallest distance) to the sample in question usually determines the proposed answers. We test multiple inter-textual distance functions in theoretical and empirical tests and show that the Tanimoto and Matusita distances respect all theoretical properties. Both of them perform well in empirical tests, but the Canberra and Clark measures are even better suited even though they do not fulfill all the requirements. Overall, we can note that the popular Cosine function neither satisfies all the conditions nor works notably well. Furthermore, we see that reducing the text representation not only decreases the runtime but can also increase the performance by ignoring spurious features. Our model can choose the characteristics that are the most relevant to the text in question and can analyze the author adequately.
We apply our systems in various natural languages belonging to a variety of language families and in multiple text genres. With the flexible feature selection, our systems achieve reliable results in any of the tested settings.
Quel est l'auteur de ce roman?
, Savoy, Jacques
Dans cet article, nous présentons le problème de l'attribution d'auteur d'une oeuvre écrite. Comme représentation des textes, les études récentes s'appuient sur un ensemble restreint de mots fonctionnels ou très fréquents (50 ou 100). Sur cette base, les méthodes de l'analyse en composantes principales (ACP) ou des correspondances (AC) permettent de visualiser les affinités et différences entre les représentations des écrits. En appliquant l'approche du plus proche voisin, nous pouvons estimer l'auteur de chaque texte. Comme alternative, nous suggérons de fonder le calcul de distance entre textes sur la base de la spécificité du vocabulaire (Z score). Basée sur une évaluation de corpus en langue française et anglaise, cette solution permet d'accroître la qualité de l'attribution d'auteur., In this paper, we present the authorship attribution problem. As text representation, recent studies suggest using a small set of function or very frequent words (50 or 100). On this basis, we can apply either the principal component analysis (PCA) or the correspondence analysis (CA) to visualize the relationships between text surrogates. Using the nearest neighbor approach, we can then suggest the possible author of a disputed writing. As new attribution strategy, we propose a technique based on specific vocabulary found in a text comparing to an entire corpus. Based on the nearest neighbour approach, we can derive a simple and efficient authorship attribution scheme. Using two corpora composed of excerpts taken from French and English novels, we show that the suggested classifier tends to perform better than both the PCA and the CA approach.
Attribution d’auteur : Une approche basée sur l’allocation latente de Dirichlet (LDA)
, Savoy, Jacques
Cette communication décrit et évalue l’emploi d’une nouvelle approche basée sur l’allocation latente de Dirichlet (Latent Dirichlet Allocation, LDA) en attribution d’auteur. A l’aide de ce modèle probabiliste, chaque document se représente comme un mélange de thèmes correspondant pour chacun d’eux à une distribution spécifique de mots. Sur cette base, nous proposons de calculer une distance entre un texte dont l’auteur est inconnu et les divers profils d’auteur (agrégation de tous les écrits d’un même écrivain). La distance minimale nous permettra de déterminer l’auteur probable. Afin d’évaluer cette solution et de la comparer avec trois autres stratégies d’attribution d’auteur, nous avons créé une collection-test composée de 4 326 articles écrits par vingt journalistes du journal La Stampa. Cette étude comparative démontre qu’une approche basée sur la LDA offre, sous certaines conditions, une qualité d’affectation supérieure à la règle Delta, à l’usage de la distance du Χ2 ou à une technique basée sur la mesure de divergence Kullbach-Leibler (KLD). Le temps de traitement pénalise toutefois la technique LDA en comparaison aux autres approches., This paper describes and evaluates the use of Latent Dirichlet Allocation (LDA) as an new approach to authorship attribution. Based on this generative probabilistic model, each document is represented by a mixture of topic distributions with each topic specifying a given distribution over words. Based on author profiles (aggregation of all texts written by the same writer), we then propose computing a distance with a disputed text to determine its likely author. The smallest distance will define the most probable writer. To evaluate this approach together with three other attributions schemes, we develop an experiment based on 4,326 newspaper articles (La Stampa) written in Italian by twenty distinct columnists. This research demonstrates that the LDAbased classification scheme tends, under certain conditions, to perform better than the Delta rule, the Χ2 distance or the Kullbach-Leibler divergence (KLD) scheme. The computational cost however tends to penalize LDA method compared to other algorithms.