Voici les éléments 1 - 1 sur 1
  • Publication
    Accès libre
    Style change detection
    (Neuchâtel, 2022)
    Le domaine de la stylométrie recouvre l’étude des styles d’écriture dans le but de pouvoir attribuer le nom de l’auteur à texte, ou de vérifier si cet auteur est bien la personne nommée ainsi que différentes questions concernant le profilage d’auteur. En analysant les caractéristiques stylistiques d’un texte donné, la stylométrie cherche à déterminer ceux qui sont propres à son auteur et pouvant le discriminer des autres écrivains. La détection de différents styles d’écriture au sein d’un même document implique la présence d’auteurs multiples et cette démarche se nomme la détection de changements de style (ou style change detection, SCD). Une telle détection s’avère particulièrement ardue parce que le nombre d’auteurs n’est pas connu d’avance. De plus nous ne disposons pas de corpus de référence pour chaque auteur potentiel. Le but de cette thèse est d’améliorer les techniques existantes et de proposer de nouveaux modèles capables de discriminer les styles d’écriture en présence de documents ayant plusieurs auteurs et ceci d’une manière simple et pratique. Nous abordons ce problème en le décomposant en trois sous-problèmes. En premier, on doit déterminer si le document a été écrit par une ou plusieurs personnes. Une classification binaire est proposée dans laquelle chaque document est transformé en une matrice de caractéristiques. Cette dernière est alors utilisée comme base pour divers modèles d’apprentissage comme la régression logistique, les machines à vecteurs de support, des forêts aléatoires ou des réseaux de neurones. Si un document est écrit par plusieurs personnes, la deuxième tâche est de déterminer les positions où l’on peut observer un changement de style, sous l’hypothèse que de telles changements ne s’opèrent d’entre les paragraphes. Notre solution propose de voir ceci comme un problème de vérification dans lequel on compare le style de deux paragraphes. Le document est alors subdivisé en paragraphes et, à l’aide de stratégies de word embeddings (e.g., GloVe), un vecteur de caractéristiques peut être associé à chaque paragraphe. Avec une paire de telle représentation, on entraîne un modèle de réseaux de neurones siamesques et une mesure de distance permet de définir leur similarité. Le troisième problème comprend une question touchant le clustering d’auteurs afin de définir le nombre d’auteurs d’un document. En faisant l’hypothèse que les changements de style s’opèrent uniquement entre paragraphes, nous proposons deux algorithmes nommées Threshold Based Clustering (TBC) et Window Merge Clustering (WMC). L’idée générale consiste à segmenter le document en une séquence de textes nommée fenêtres. Chacune est ensuite convertit en un vecteur de caractéristiques. On peut alors mesurer la distance entre de telles représentations que l’on regroupe dans une matrice. L’approche TBC trie les pairs de fenêtres en fonction de leur distance et, ensuite, regroupe la paire la plus similaire pour en former une grappe. Ce processus est répété tant que la similarité reste plus élevée qu’un seuil fixé. Finalement, le nombre de grappe indique le nombre d’auteurs. Notre solution WMC commence de la même manière en générant des grappes avec les paires de fenêtres les plus similaire. Cependant, à chaque itération, la représentation de la grappe est reconstruite sur la base de tous ses membres. Ainsi, le calcul de similarité ne s’effectue plus entre tous les membres d’une grappe avec ceux de la seconde, mais uniquement en fonction de la représentation unique de chaque grappe. Ensuite la matrice des distances est recalculée après chaque itération. Comme variation à ce dernier problème, on peut assigner à chaque auteur les paragraphes qu’il aurait écrit. En respectant notre hypothèse sur le changement de style, on peut recourir à la position des changements de style obtenue lors de la résolution du deuxième problème. Ensuite, une approche basée sur notre modèle TBS et une classification hiérarchique nous permet de déterminer le nombre d’auteurs. Nos modèles ont été évalués lors des campagnes internationales PAN CLEF et ont obtenu des performances similaires à l’état de l’art.
    Abstract
    Stylometry is the study of writing styles of authors aiming for authorship attribution, verification, identification and profiling among others. By analyzing the stylometric features in a given text, the characteristic writing style of an author is represented and sufficiently distinguished from another.
    The detection of different writing styles in the same document, suggesting multiple authorship, is called style change detection (SCD). Detecting multiple authorship is considerably challenging because the number of participating authors is not known apriori and because of the lack of additional reference corpus. The goal of this thesis is to leverage existing stylometry techniques and devise novel methods to distinguish the writing styles of authors in a multi-authored document in a simple and practical manner.
    We address this problem by decomposing it into three sub-problems. At first, we need to determine whether a document is written by one or more authors. A binary classification approach is taken where each document is transformed into a suitable feature matrix and fed to a variety of learning models such as Logistic Regression, support vector machines, Random Forest and neural networks etc.
    If a document is written by multiple authors, the second sub-problem is to determine the location of the style changes in the document, under the assumption that style changes may occur only at the end of a paragraph but not within a paragraph. Our approach is to transform the problem to an authorship verification problem, where the stylistic difference between the paragraphs compared, i.e., either the two paragraphs are stylistically different or they are not. The document is broken into paragraphs and with the help of word embeddings such as GloVe, the embedded feature vector for each paragraph is computed. Both feature vectors are then trained with a siamese neural network and their mutual distance is measured with a suitable distance measure.
    The third sub-problem is a form of authorship clustering and seeks to ascertain the number of distinct authors of the text. We start with the assumption that style changes may occur within a paragraph and propose two algorithms called Threshold Based Clustering (TBC) and Window Merge Clustering (WMC). The general approach is to segment the document in to chunks of texts called windows. Each window is converted into a feature vector of words or more generally of stylistic patterns. The mutual distances among the window feature vectors are measured using suitable distance measures, and a distance matrix is created for all the windows. The Threshold Based Clustering (TBC) algorithm sorts the pairs of windows in terms of their distance and puts the closest windows to the same cluster using appropriate thresholds for adding a new node and merging clusters. The number of clusters indicates the number of authors.
    Window Merge Clustering (WMC) algorithm starts out like the TBC and iteratively puts the closest windows in the same cluster. However, in each iteration, the windows in a cluster are merged to form a concatenated cluster in order to represent each cluster with a combined representation of all of its members together, rather than individual distances. Thus, the distance matrix is re-calculated at each iteration.
    A variation of the third task aims to assign texts based on style changes to their respective authors uniquely. Under the assumption that style changes may occur only at between the paragraphs but not within them, we propose to use the style change location results derived in the solution of the second problem. Thereafter, clustering approaches based on TBC and hierarchical clustering are used to determine the number of clusters or authors.
    We evaluate and our methods on the datasets of the PAN CLEF and show that we can achieve state-of-the-art performance.