Options
Automatic Author Profiling and Verification
Auteur(s)
Editeur(s)
Date de parution
2023
Nombre de page
91
Résumé
Cette thèse s’intéresse principalement aux problèmes de classification de textes fondée sur le style
dont le but est d’identifier les caractéristiques de l’auteur comme son âge, sexe, son idiolecte, en se
basant sur un ensemble de ses écrits. De plus, on aborde la question de savoir si deux textes (comme
des chats, courriels menaçants, testaments douteux, essais, mémos, ou fictions) ont été écrits par la
même personne en comparant leur style d’écriture selon différentes représentations. Nous proposons
un processus de sélection des attributs simple et stable. Cette réduction nous conduit à proposer une
décision possédant un plus grand pouvoir explicatif.
Nous débutons ce travail par analyser l’efficacité de plusieurs modèles basés sur l’apprentissage automatique
et recourant à l’ensemble du vocabulaire. Une procédure de réduction des attributs en deux
étapes peut alors être appliquée. Nous pouvons alors comparer les performances de divers modèles
avec des réduction du nombre d’attributs basés sur notre approche, le 2 ou le PMI. Dans tous les cas,
le nombre d’attributs est réduit à 300.
Sur la base de la collection de documents de différentes campagnes d’évaluation CLEF-PAN, nous
avons testé notre approche avec plusieurs baselines. On constate que les modèles Extra Trees, Random
Forest, ou Gradient Boost produisent souvent les meilleures performances. De plus, la réduction
des attributs au nombre de 300 permet d’obtenir des performances similaires. Cette diminution permet
également de réduire la taille des représentations des documents et donc de réduire le temps de
calcul. Parfois, nous observons même un gain d’efficience.
Dans le cadre de la vérification d’auteur, et selon diverses représentations des textes, nous pouvons
également améliorer la qualité des résultats. Ainsi, les documents présentant de grandes différences
de représentation ne sont pas écrits par la même personne. Dans ce but nous avons appliqué différentes
mesures de performance (AUC, c@1, Final Score (FS)) dont les résultats sont corrélés en
particulier AUC et FS. En tenant compte uniquement du taux de réussite, la pondération TFIDF offre
les meilleures performances.
This thesis mostly discusses the style-based text categorization problem, where the objective is to
identify the author’s demographics, such as gender, age range, and language variety, based on a set of
texts. Also to determine whether two writings (chat, threatening e-mail, doubtful testimony, essays,
text messages, business memos, fanfiction texts) were authored by the same person by contrasting the
writing styles of the two texts by applying the vector difference text representation. We also create a
stable and straightforward paradigm for feature reduction iteratively. This reduction will result to a
more explainable decision.
We begin by assessing the effectiveness of several machine learning models using the complete vocabulary.
The two-step feature selection technique is then used to design a feature reduction strategy.
After testing the models with these reduced features, we were able to examine how the performance
variation would appear in the two scenarios. We went on to test further feature reduction by applying
2 and PMI scoring functions to select the top 300 features.
With the use of several CLEF-PAN datasets, we test our models, and we can see that Extra Trees,
Random Forest, or Gradient Boost often produce the best results. Furthermore, empirical evidence
reveals that the feature set can be effectively condensed using 2 and PMI scoring methods to about
300 features without compromising performance. Additionally, we can see that by discarding non
informative features, decreasing the text feature representation not only cuts down on runtime but
also improves performance in some cases.
With the difference vector text representation approach we demonstrate how utilization of confidencebased
approaches can benefit classification accuracy in the author verification. We can see that small
differences in vectorial representation indicates higher similarity, but documents with a large differences
are not authored by the same writer. Several performance measures are obtained including
accuracy, area under the curve (AUC), c@1 and Final Score (FS). Our research shows a strong correlation
between all performance with measurements FS and AUC having the strongest correlation. We
take into account only the accuracy to draw conclusion about the different text representation methods.
Our experiments therefore show that the best scoring model include TFIDF feature set since it
considers both occurrence frequency and the distribution of terms across the collection.
dont le but est d’identifier les caractéristiques de l’auteur comme son âge, sexe, son idiolecte, en se
basant sur un ensemble de ses écrits. De plus, on aborde la question de savoir si deux textes (comme
des chats, courriels menaçants, testaments douteux, essais, mémos, ou fictions) ont été écrits par la
même personne en comparant leur style d’écriture selon différentes représentations. Nous proposons
un processus de sélection des attributs simple et stable. Cette réduction nous conduit à proposer une
décision possédant un plus grand pouvoir explicatif.
Nous débutons ce travail par analyser l’efficacité de plusieurs modèles basés sur l’apprentissage automatique
et recourant à l’ensemble du vocabulaire. Une procédure de réduction des attributs en deux
étapes peut alors être appliquée. Nous pouvons alors comparer les performances de divers modèles
avec des réduction du nombre d’attributs basés sur notre approche, le 2 ou le PMI. Dans tous les cas,
le nombre d’attributs est réduit à 300.
Sur la base de la collection de documents de différentes campagnes d’évaluation CLEF-PAN, nous
avons testé notre approche avec plusieurs baselines. On constate que les modèles Extra Trees, Random
Forest, ou Gradient Boost produisent souvent les meilleures performances. De plus, la réduction
des attributs au nombre de 300 permet d’obtenir des performances similaires. Cette diminution permet
également de réduire la taille des représentations des documents et donc de réduire le temps de
calcul. Parfois, nous observons même un gain d’efficience.
Dans le cadre de la vérification d’auteur, et selon diverses représentations des textes, nous pouvons
également améliorer la qualité des résultats. Ainsi, les documents présentant de grandes différences
de représentation ne sont pas écrits par la même personne. Dans ce but nous avons appliqué différentes
mesures de performance (AUC, c@1, Final Score (FS)) dont les résultats sont corrélés en
particulier AUC et FS. En tenant compte uniquement du taux de réussite, la pondération TFIDF offre
les meilleures performances.
This thesis mostly discusses the style-based text categorization problem, where the objective is to
identify the author’s demographics, such as gender, age range, and language variety, based on a set of
texts. Also to determine whether two writings (chat, threatening e-mail, doubtful testimony, essays,
text messages, business memos, fanfiction texts) were authored by the same person by contrasting the
writing styles of the two texts by applying the vector difference text representation. We also create a
stable and straightforward paradigm for feature reduction iteratively. This reduction will result to a
more explainable decision.
We begin by assessing the effectiveness of several machine learning models using the complete vocabulary.
The two-step feature selection technique is then used to design a feature reduction strategy.
After testing the models with these reduced features, we were able to examine how the performance
variation would appear in the two scenarios. We went on to test further feature reduction by applying
2 and PMI scoring functions to select the top 300 features.
With the use of several CLEF-PAN datasets, we test our models, and we can see that Extra Trees,
Random Forest, or Gradient Boost often produce the best results. Furthermore, empirical evidence
reveals that the feature set can be effectively condensed using 2 and PMI scoring methods to about
300 features without compromising performance. Additionally, we can see that by discarding non
informative features, decreasing the text feature representation not only cuts down on runtime but
also improves performance in some cases.
With the difference vector text representation approach we demonstrate how utilization of confidencebased
approaches can benefit classification accuracy in the author verification. We can see that small
differences in vectorial representation indicates higher similarity, but documents with a large differences
are not authored by the same writer. Several performance measures are obtained including
accuracy, area under the curve (AUC), c@1 and Final Score (FS). Our research shows a strong correlation
between all performance with measurements FS and AUC having the strongest correlation. We
take into account only the accuracy to draw conclusion about the different text representation methods.
Our experiments therefore show that the best scoring model include TFIDF feature set since it
considers both occurrence frequency and the distribution of terms across the collection.
Notes
Dissertation commitee :
Prof. Jacques Savoy, directeur de thèse, Université de Neuchâtel, Suisse
Dr Valerio Schiavoni, Université de Neuchâtel, Suisse
Prof. Elöd Egyed-Zsigmond, LIRIS, INSA, Lyon, France
Defense : 24th November 2022
No de thèse : 3027
Prof. Jacques Savoy, directeur de thèse, Université de Neuchâtel, Suisse
Dr Valerio Schiavoni, Université de Neuchâtel, Suisse
Prof. Elöd Egyed-Zsigmond, LIRIS, INSA, Lyon, France
Defense : 24th November 2022
No de thèse : 3027
Identifiants
Type de publication
doctoral thesis
Dossier(s) à télécharger