Voici les éléments 1 - 1 sur 1
  • Publication
    Accès libre
    Automatic Author Profiling and Verification
    Cette thèse s’intéresse principalement aux problèmes de classification de textes fondée sur le style dont le but est d’identifier les caractéristiques de l’auteur comme son âge, sexe, son idiolecte, en se basant sur un ensemble de ses écrits. De plus, on aborde la question de savoir si deux textes (comme des chats, courriels menaçants, testaments douteux, essais, mémos, ou fictions) ont été écrits par la même personne en comparant leur style d’écriture selon différentes représentations. Nous proposons un processus de sélection des attributs simple et stable. Cette réduction nous conduit à proposer une décision possédant un plus grand pouvoir explicatif. Nous débutons ce travail par analyser l’efficacité de plusieurs modèles basés sur l’apprentissage automatique et recourant à l’ensemble du vocabulaire. Une procédure de réduction des attributs en deux étapes peut alors être appliquée. Nous pouvons alors comparer les performances de divers modèles avec des réduction du nombre d’attributs basés sur notre approche, le 2 ou le PMI. Dans tous les cas, le nombre d’attributs est réduit à 300. Sur la base de la collection de documents de différentes campagnes d’évaluation CLEF-PAN, nous avons testé notre approche avec plusieurs baselines. On constate que les modèles Extra Trees, Random Forest, ou Gradient Boost produisent souvent les meilleures performances. De plus, la réduction des attributs au nombre de 300 permet d’obtenir des performances similaires. Cette diminution permet également de réduire la taille des représentations des documents et donc de réduire le temps de calcul. Parfois, nous observons même un gain d’efficience. Dans le cadre de la vérification d’auteur, et selon diverses représentations des textes, nous pouvons également améliorer la qualité des résultats. Ainsi, les documents présentant de grandes différences de représentation ne sont pas écrits par la même personne. Dans ce but nous avons appliqué différentes mesures de performance (AUC, c@1, Final Score (FS)) dont les résultats sont corrélés en particulier AUC et FS. En tenant compte uniquement du taux de réussite, la pondération TFIDF offre les meilleures performances. This thesis mostly discusses the style-based text categorization problem, where the objective is to identify the author’s demographics, such as gender, age range, and language variety, based on a set of texts. Also to determine whether two writings (chat, threatening e-mail, doubtful testimony, essays, text messages, business memos, fanfiction texts) were authored by the same person by contrasting the writing styles of the two texts by applying the vector difference text representation. We also create a stable and straightforward paradigm for feature reduction iteratively. This reduction will result to a more explainable decision. We begin by assessing the effectiveness of several machine learning models using the complete vocabulary. The two-step feature selection technique is then used to design a feature reduction strategy. After testing the models with these reduced features, we were able to examine how the performance variation would appear in the two scenarios. We went on to test further feature reduction by applying 2 and PMI scoring functions to select the top 300 features. With the use of several CLEF-PAN datasets, we test our models, and we can see that Extra Trees, Random Forest, or Gradient Boost often produce the best results. Furthermore, empirical evidence reveals that the feature set can be effectively condensed using 2 and PMI scoring methods to about 300 features without compromising performance. Additionally, we can see that by discarding non informative features, decreasing the text feature representation not only cuts down on runtime but also improves performance in some cases. With the difference vector text representation approach we demonstrate how utilization of confidencebased approaches can benefit classification accuracy in the author verification. We can see that small differences in vectorial representation indicates higher similarity, but documents with a large differences are not authored by the same writer. Several performance measures are obtained including accuracy, area under the curve (AUC), c@1 and Final Score (FS). Our research shows a strong correlation between all performance with measurements FS and AUC having the strongest correlation. We take into account only the accuracy to draw conclusion about the different text representation methods. Our experiments therefore show that the best scoring model include TFIDF feature set since it considers both occurrence frequency and the distribution of terms across the collection.