Options
Schaetti, Nils
Nom
Schaetti, Nils
Affiliation principale
Fonction
Ancien.ne collaborateur.trice
Identifiants
Résultat de la recherche
Voici les éléments 1 - 1 sur 1
- PublicationAccès libreAn empirical comparison of recurrent neural network models on authorship analysis tasksAu cours des dernières années, un domaine de l’apprentissage automatique nommé Apprentissage Profond (Deep-Learning (DL)) a permis d’importantes améliorations sur plusieurs tâches difficiles principalement dans le domaine de la vision par ordinateur. Des modèles neuronaux profonds tels que les réseaux convolutifs profonds (Convolutional Neural Networks (CNN)) se sont révélés très puissants pour les tâches de reconnaissance d’objets ou de segmentation d’images. Concernant le traitement des langues naturelles et les séries temporelles, certains modèles profonds tels que les Long Short-Term Memory (LSTM) ont une composante récurrente qui prend en compte l’ordre des entrées et sont capables de mémoriser des données pour une période de temps fini. Parmi ces tâches liées au traitement du langage naturel, un problème important de la linguistique computationnelle est l’attribution d’auteur où le but est de trouver le véritable auteur d’un texte ou, dans une perspective de profilage d’auteur, d’extraire des informations à son sujet telles que le sexe, l’origine et la situation socio-économique.
Cependant, peu de travaux ont evalué des modèles neuronaux récurrents (RNNs) sur des tâches d’analyse d’auteur. Par conséquent, nous avons décidé d’explorer dans cette thèse les performances de plusieurs RNNs, tels que les Echo State Networks (ESN), les LSTMs et les Gated Recurrent Units (GRU) sur trois tâches en analyse d’auteur. La première concerne le problème d’attribution d’auteur utilisant le jeu de données Reuters C50 où le but est de prédire le véritable auteur d’un document dans un ensemble fini d’auteurs possibles. La deuxième tâche est appelée profilage d’auteur, car le modèle doit déterminer le sexe (homme/femme) de l’auteur d’un ensemble de tweets. Pour cela nous avons utilisé le jeu de données PAN 2017 de la conférence CLEF. La troisième tâche est appelée vérification d’auteur et basée sur un jeu de données nommé SFGram, créé pour l’occasion, et composé de dizaines de magazines de science-fiction des années 50 aux années 70. Cette tâche est séparée en deux problèmes. Dans le premier, le but est d’extraire les passages écrits par un auteur particulier à l’intérieur d’un magazine coécrits par plusieurs dizaines d’auteurs. Dans le deuxième, il s’agit de trouver si un magazine contient du texte écrit par un auteur particulier. Afin que nos recherches soient applicables en analyse d’auteur, nous avons restreint les modèles testés à ceux ayant une architecture dite many-to-many capables de fournir une prédiction pour chaque ensemble du texte analysé. Ceci permet de remplir la contrainte fondamentale de l’analyse d’auteur qu’est la capacité à fournir des évidences pour chaque prédiction faites. Pour évaluer ces trois modèles, nous avons défini un ensemble d’expériences, de mesures de performance et d’hyperparamètres qui pourraient influencer les performances de ces méthodes. Nous avons ensuite effectué ces expériences avec chaque modèle et leurs hyperparamètres correspondants. Puis nous avons utilisé des tests statistiques afin de détecter des différences significatives entre ces modèles, et avec les méthodes de référence en analyse d’auteur.
Nos résultats montrent que des RNNs et particulièrement simples tels que les ESNs peuvent être compétitifs avec les méthodes traditionnelles en analyse d’auteur tout en gardant un temps d’apprentissage utilisable en pratique et un nombre de paramètres raisonnable. Ces propriétés leur permettent de surpasser des modèles neuronaux beaucoup plus complexes comme les LSTMs et les GRUs considérés comme l’état de l’art en traitement du langage naturel. Nous montrons également que pre-entraîner des représentations de mots et de caractères peut être utile sur des problèmes en analyse d’auteur si celles-ci sont entraînées sur un jeu de données similaire. Ceci permet d’obtenir des résultats intéressants sur des problèmes où la quantité de données est limitée et donc difficile à résoudre pour des méthodes d’apprentissage profond. Nous montrons également que les représentations basées sur les mots et les combinaisons de trois caractères (trigrams) sont les plus efficaces pour ces types de modèles. Pour finir, nous dessinons un paysage des voies de recherche et d’applications possibles des réseaux de neurones et des méthodes d’apprentissage profond en analyse d’auteur. Abstract: In the last few years, a machine learning field named Deep-Learning (DL) has improved the results of several challenging tasks mainly in the field of computer vision. Deep architectures such as Convolutional Neural Networks (CNN) have been shown as very powerful for computer vision tasks. For those related to language and timeseries the state of the art models such as Long Short-Term Memory (LSTM) have a recurrent component that take into account the order of inputs and are able to memorise them. Among these tasks related to Natural Language Processing (NLP), an important problem in computational linguistics is authorship attribution where the goal is to find the true author of a text or, in an author profiling perspective, to extract information such as gender, origin and socio-economic background.
However, few work have tackle the issue of authorship analysis with recurrent neural networks (RNNs). Consequently, we have decided to explore in this study the performances of several recurrent neural models, such as Echo State Networks (ESN), LSTM and Gated Recurrent Units (GRU) on three authorship analysis tasks. The first one on the classical authorship attribution task using the Reuters C50 dataset where models have to predict the true author of a document in a set of candidate authors. The second task is referred as author profiling as the model must determine the gender (male/female) of the author of a set of tweets using the PAN 2017 dataset from the CLEF conference. The third task is referred as author verification using an in-house dataset named SFGram and composed of dozens of science-fiction magazines from the 50s to the 70s. This task is separated into two problems. In the first, the goal is to extract passages written by a particular author inside a magazine co-written by several dozen authors. The second is to find out if a magazine contains passages written by a particular author. In order for our research to be applicable in authorship studies, we limited evaluated models to those with a so-called many-to-many architecture. This fulfills a fundamental constraint of the field of stylometry which is the ability to provide evidences for each prediction made. To evaluate these three models, we defined a set of experiments, performance measures and hyperparame-ters that could impact the output. We carried out these experiments with each model and their corresponding hyperparameters. Then we used statistical tests to detect significant di˙erences between these models, and with state-of-the-art baseline methods in authorship analysis.
Our results shows that shallow and simple RNNs such as ESNs can be competitive with traditional meth-ods in authorship studies while keeping a learning time that can be used in practice and a reasonable number of parameters. These properties allow them to outperform much more complex neural models such as LSTMs and GRUs considered as state of the art in NLP. We also show that pretraining word and character features can be useful on stylometry problems if these are trained on a similar dataset. Consequently, interesting results are achievable on such tasks where the quantity of data is limited and therefore diÿcult to solve for deep learning methods. We also show that representations based on words and combinations of three characters (trigrams) are the most e˙ective for this kind of methods. Finally, we draw a landscape of possi-ble research paths for the future of neural networks and deep learning methods in the field authorship analysis.