Options
Savoy, Jacques
Résultat de la recherche
Automatic Author Profiling and Verification
2023, Ikae, Catherine, Savoy, Jacques
Cette thèse s’intéresse principalement aux problèmes de classification de textes fondée sur le style dont le but est d’identifier les caractéristiques de l’auteur comme son âge, sexe, son idiolecte, en se basant sur un ensemble de ses écrits. De plus, on aborde la question de savoir si deux textes (comme des chats, courriels menaçants, testaments douteux, essais, mémos, ou fictions) ont été écrits par la même personne en comparant leur style d’écriture selon différentes représentations. Nous proposons un processus de sélection des attributs simple et stable. Cette réduction nous conduit à proposer une décision possédant un plus grand pouvoir explicatif. Nous débutons ce travail par analyser l’efficacité de plusieurs modèles basés sur l’apprentissage automatique et recourant à l’ensemble du vocabulaire. Une procédure de réduction des attributs en deux étapes peut alors être appliquée. Nous pouvons alors comparer les performances de divers modèles avec des réduction du nombre d’attributs basés sur notre approche, le 2 ou le PMI. Dans tous les cas, le nombre d’attributs est réduit à 300. Sur la base de la collection de documents de différentes campagnes d’évaluation CLEF-PAN, nous avons testé notre approche avec plusieurs baselines. On constate que les modèles Extra Trees, Random Forest, ou Gradient Boost produisent souvent les meilleures performances. De plus, la réduction des attributs au nombre de 300 permet d’obtenir des performances similaires. Cette diminution permet également de réduire la taille des représentations des documents et donc de réduire le temps de calcul. Parfois, nous observons même un gain d’efficience. Dans le cadre de la vérification d’auteur, et selon diverses représentations des textes, nous pouvons également améliorer la qualité des résultats. Ainsi, les documents présentant de grandes différences de représentation ne sont pas écrits par la même personne. Dans ce but nous avons appliqué différentes mesures de performance (AUC, c@1, Final Score (FS)) dont les résultats sont corrélés en particulier AUC et FS. En tenant compte uniquement du taux de réussite, la pondération TFIDF offre les meilleures performances. This thesis mostly discusses the style-based text categorization problem, where the objective is to identify the author’s demographics, such as gender, age range, and language variety, based on a set of texts. Also to determine whether two writings (chat, threatening e-mail, doubtful testimony, essays, text messages, business memos, fanfiction texts) were authored by the same person by contrasting the writing styles of the two texts by applying the vector difference text representation. We also create a stable and straightforward paradigm for feature reduction iteratively. This reduction will result to a more explainable decision. We begin by assessing the effectiveness of several machine learning models using the complete vocabulary. The two-step feature selection technique is then used to design a feature reduction strategy. After testing the models with these reduced features, we were able to examine how the performance variation would appear in the two scenarios. We went on to test further feature reduction by applying 2 and PMI scoring functions to select the top 300 features. With the use of several CLEF-PAN datasets, we test our models, and we can see that Extra Trees, Random Forest, or Gradient Boost often produce the best results. Furthermore, empirical evidence reveals that the feature set can be effectively condensed using 2 and PMI scoring methods to about 300 features without compromising performance. Additionally, we can see that by discarding non informative features, decreasing the text feature representation not only cuts down on runtime but also improves performance in some cases. With the difference vector text representation approach we demonstrate how utilization of confidencebased approaches can benefit classification accuracy in the author verification. We can see that small differences in vectorial representation indicates higher similarity, but documents with a large differences are not authored by the same writer. Several performance measures are obtained including accuracy, area under the curve (AUC), c@1 and Final Score (FS). Our research shows a strong correlation between all performance with measurements FS and AUC having the strongest correlation. We take into account only the accuracy to draw conclusion about the different text representation methods. Our experiments therefore show that the best scoring model include TFIDF feature set since it considers both occurrence frequency and the distribution of terms across the collection.
Text clustering with styles
2017, Kocher, MIrco, Savoy, Jacques
Cette thèse présente le problème du regroupement d'auteurs formulé de la manière suivante : en partant d'un ensemble composé de n textes, le but est de déterminer le nombre k d'auteurs distincts, pour regrouper les textes en k classes. De manière itérative, nous construisons un système stable et simple qui est capable de regrouper automatiquement les documents selon leurs thèmes.
Dans notre étude, nous commençons par proposer une mesure capable d'estimer l'(in-)certitude de la décision proposée, dans le but d'obtenir un indicateur de confiance en lieu et place d'une simple réponse. Ensuite, nous combinons les paires de textes pour lesquelles une même affectation apparaît, et dont nous sommes suffisamment confiants pour affirmer qu'ils sont rédigés par le même auteur. Enfin, après avoir vérifié chaque tuple de textes, nous construisons les classes en nous basant sur une stratégie utilisant une distance entre distributions probabilistes. Grâce à l'utilisation d'une limite dynamique, nous sommes à même de choisir les plus petites distances relatives pour détecter une origine commune entre textes.
Bien que notre étude se concentre principalement sur la création de méthodes simples, des schémas plus complexes mènent à des résultats plus performants. Ainsi, nous avons opté pour une représentation distribuée et nous avons comparé son efficacité à plusieurs méthodes d'attribution d'auteurs. Cette évaluation nous permet de démontrer que toutes les approches n'excellent pas dans toutes les situations, et que des méthodes d'apprentissage profond peuvent être sensibles au choix des paramètres.
Les observations les plus proches des exemples en question (ou la catégorie ayant la plus petite distance) déterminent généralement les réponses proposées. Nous avons testé plusieurs fonctions de distance inter-textuelle sur des critères théoriques et empiriques. Nous démontrons que les distances dites de Tanimoto et de Matusita respectent toutes les propriétés théoriques. Toutes deux obtiennent également de bons résultats dans le cadre de tests empiriques. Toutefois, les mesures de Canberra et de Clark sont encore mieux adaptées, bien qu'elles ne remplissent pas toutes les caractéristiques théoriques demandées. De manière générale, l'on constate que la fonction Cosinus ne répond pas à toutes les conditions, et se comporte de façon suboptimale. Enfin, nous observons que la réduction des traits stylistiques retenues diminue le temps d'exécution et peut également améliorer les performances en ignorant les redondantes.
Nous testons nos systèmes pour différentes langues naturelles appartenant à une variété de familles de langues et pour plusieurs genres de textes. Grâce à la sélection flexible des attributs, nos systèmes sont capables de produire des résultats fiables dans toutes les conditions testées., This thesis mainly describes the author clustering problem where, based on a set of n texts, the goal is to determine the number k of distinct authors and regroup the texts into k classes according to their author. We iteratively build a stable and simple model for text clustering with styles.
We start by designing a measure reflecting the (un)certainty of the proposed decision such that every decision comes along with a confidence of correctness instead of only giving a single answer. Afterwards, we link those pairs of texts where we see an indication of a shared authorship and have enough evidence that the same person has written them. Finally, after checking every text tuple, if we can link them together, we build the final clusters based on a strategy using a distance of probability distributions. Employing a dynamic threshold, we can choose the smallest relative distance values to detect a common origin of the texts.
While in our study we mostly focus on the creation of simple methods, investigating more complex schemes leads to interesting findings. We evaluate distributed language representations and compare them to several state-of-the-art methods for authorship attribution. This comparison allows us to demonstrate that not every approach excels in every situation and that the deep learning methods might be sensitive to parameter settings.
The most similar observations (or the category with the smallest distance) to the sample in question usually determines the proposed answers. We test multiple inter-textual distance functions in theoretical and empirical tests and show that the Tanimoto and Matusita distances respect all theoretical properties. Both of them perform well in empirical tests, but the Canberra and Clark measures are even better suited even though they do not fulfill all the requirements. Overall, we can note that the popular Cosine function neither satisfies all the conditions nor works notably well. Furthermore, we see that reducing the text representation not only decreases the runtime but can also increase the performance by ignoring spurious features. Our model can choose the characteristics that are the most relevant to the text in question and can analyze the author adequately.
We apply our systems in various natural languages belonging to a variety of language families and in multiple text genres. With the flexible feature selection, our systems achieve reliable results in any of the tested settings.
Feature weighting approaches in sentiment analysis of short text
2012, Kummer, Olena, Savoy, Jacques
In this thesis, we propose a supervised classification scheme based on computation of the statistical scores for the textual features. More specifically, we consider binary classification (opinionated or factual, positive or negative) of the short text in the domains of movie reviews and newspaper articles. We analyze the performance of the proposed models on the corpora with the unequal sizes of the training categories.
Based on our participation in different evaluation campaigns, we analyze advantages and disadvantages of the classification schemes that use Z scores for the purpose of classifying a sentence into more than two categories, e.g. positive, negative, neutral and factual. As a new feature weighting measure, we give an adaptation of the calculation of the Kullback-Leibler divergence score, called KL score. Considering the performance of different weighting measures on training corpora with unequal sizes, we chose two best performing scores, Z score and KL score. Thus, we propose a new classification model based on the calculation of normalized Z score and KL score for the features per each classification category. One of the advantages of this model is its flexibility to incorporate external scores, for example, from sentiment dictionaries.
The experiments on datasets in Chinese and Japanese show a comparable level of performance of the proposed scheme with the results obtained on the English datasets without any use of natural language specific techniques. The advantage of the approaches analyzed in this thesis is that they can work as quick and easily interpretable baselines for short text classification.
Die Satzadverbien im Deutschen: eine korpusbasierte Untersuchung
2010, Duffner, Rolf, Näf, Anton, Kamber, Alain, Savoy, Jacques, Steyer, Kathrin, Teubert, Wolfgang
German linguistic literature shows a great lack of empirical studies of sentence adverbs. In dictionaries, indications about their significance and linguistic application are often inappropriate or even misleading. Apart from that, there is little corpus linguistic research about synsemantica in the German language. The following study will describe sentence adverbs in the Deutsche Referenzkorpus, the methodical approach (incl. Cluster analyses) and the representation of sentence adverbs in German dictionaries. The use of 25 of the most frequent sentence adverbs will be analysed in detail. This will finally lead to a corpus-driven description of typical context, modality, negation and syntax of sentence adverbs in German.
Multimodal information retrieval
2018, Geiger, Melanie, Savoy, Jacques, Braschler, Martin
Les processus basés sur le savoir, une des composantes essentielles de notre économie, requiert souvent un système multimodal de recherche d’information. De tels systèmes doivent traiter des collections de documents et des requêtes de plus en plus complexes. Cette complexité sous-jacente se situe dans le grand nombre et la diversité des modalités textuelles ou non-textuelles comme les coordonnées géographiques, les indications temporelles, ou les cotations apparaissant dans les documents. La combinaison de toutes ces modalités rend quasi-impossible la mise au point de nouvelles approches pour chaque modalité potentielle ou d’obtenir suffisamment de données d’apprentissage. Dès lors, l’un des objectifs de ce travail de thèse est de proposer un modèle unifié afin de traiter les diverses modalités en recherche d’information. De plus, nous avons développé des méthodes permettant la fusion de modalités avec peu ou en l’absence de données d’entrainement. Une telle contrainte s’avère essentielle pour des méthodes pouvant s’appliquer à un large éventail d’applications ou de domaines.
Nous avons fondé notre approche sur notre expérience touchant de nombreux systèmes multimodaux de recherche d’information. Dans un premier temps nous présentons une approche basée sur une distinction fondée sur deux types de modalités que nous subdiviserons par la suite. Ce choix correspond à une première approche dont l’objectif est de réduire le nombre possible de modèles. Elle permet de généraliser des méthodes traitant plusieurs modalités au lieu d’être spécifiques à une unique modalité.
Comme les schémas de pondération les plus populaires pour le dépistage d’information textuelle se sont généralisés avec succès dans de nombreuses tâches de recherche, nous les avons adoptés comme fondement à nos modèles unifiés traitant diverses modalités. Dans un deuxième temps, nous démontrons comment les trois composantes principales du modèle BM25 (fréquence d’occurrence, fréquence documentaire et normalisation selon la longueur du document) peuvent être redéfinies pour pouvoir traiter des modalités non-textuelles.
Dans un troisième temps, nous définissons des lignes directrices pour l’intégration de plusieurs modalités dans un système de dépistage de l’information. Dans ce but, BM25 s’avère un système de pondération permettant la fusion de modalités sous l’hypothèse des scores bruts (raw-score). Ce but est atteint par l’usage d’une approche basée sur l’échantillonnage qui est utilisée pour démontrer que BM25 satisfait les hypothèses de la fusion par les scores bruts (la longueur moyenne des documents et la variance de celle-ci).
En se basant sur notre redéfinition du modèle BM25 pouvant traiter à la fois les modalités textuelles et non-textuelles, nous avons testé notre approche par rapport à différentes références ainsi que lors de campagnes d’évaluation internationales de même que dans des contextes de production. Nous avons démontré que notre approche sans données d’apprentissage retournait une performance significativement supérieure à des systèmes classiques. De plus notre modèle (sans apprentissage) apporte des performances similaires à des systèmes basés sur une combinaison linéaire de modalités avec entraînement., Knowledge-intensive business processes, one of the essential drivers of our economy today, often rely on multimodal information retrieval systems that have to deal with increasingly complex document collections and queries. The complexity mainly evolves due to a large and diverse range of textual and non-textual modalities such as geographical coordinates, ratings and timestamps used in the collections. However, this results in a explosion of combinations of modalities, which makes it unfeasible to find new approaches for each individual modality and to obtain suitable training data. Therefore, one of the major goals of this dissertation is to develop unified models to treat modalities for document retrieval. Further, we aim to develop methods to merge the modalities with little or no training, which is essential for the methods to be applicable in a wide range of applications and application domains.
We base our approach on our experience with several multimodal information retrieval applications and thus also many different modalities. In a first step we suggest a coarse categorization of modalities into two types of modalities, which we further subdivide by their distribution. The categorization is a first attempt to reduce the number of different models. It helps to generalize methods to entire categories of modalities instead of being specific for a single modality.
Since the most popular weighting schemes for textual retrieval have generalized well to many retrieval tasks in the past, we propose to use them as a basis of the unified models for the categories of modalities. We therefore demonstrate as a second step how the three main components of the so-called BM25 weighting scheme (term frequency, document frequency and document length normalization) have to be redefined to be used with several non-textual modalities.
As a third step towards establishing clear guidance for the integration of many modalities into an information retrieval system, we demonstrate that BM25 is a suitable weighting scheme to merge modalities under the so-called raw-score merging hypothesis. We achieve this with the help of a sampling-based approach, which we use as a basis to prove that BM25 satisfies the assumptions of the raw-score merging hypothesis with respect to the average document length and the variance of document lengths.
Using our redefinition of BM25 for several non-textual modalities together with textual modalities, we finally build multimodal baselines and test them in evaluation campaigns as well as in operational information retrieval systems. We show that our untrained multimodal baselines reach a significantly better retrieval effectiveness than the textual baseline and even achieve similar performance when comparing them to a trained linear combination of the modality scores for some cases.
Multilingual and domain-specific IR: a case study in cultural heritage
2015, Akasereh, Mitra, Savoy, Jacques
Nowadays we can find data collections in many different languages and in different fields. So we are facing with a rising need for search systems handling multilinguality as well as professional search systems which allow their users to search in a specific field of knowledge.
In this thesis we propose a search system for data on cultural heritage. Our data comes from different resources located in different countries and written in various languages. We study the specific structure, characteristics and terminology of data in this field in order to build an effective retrieval system. We evaluate different information retrieval models and indexing strategies on monolingual data to find the ones which are effective and compatible with the nature of our data the most. To deal with different languages we study each language separately and propose tools such as stemmers for each language and fusion operators to merge the results from different languages. To be able to cross the languages easily we study different translation methods. Moreover in order to enhance the search results we investigate different query expansion technics.
Based on our results we propose using models from DFR family for the English language and Okapi model for the French and Polish language along with a light stemmer. For crossing the language barrier we propose using a combination of translation methods. The Z-score operator is the best evaluated one when merging different results from different languages in our multilingual tests. Finally we propose applying query expansion using an external source to improve the search performance.
Who Wrote this Novel? Authorship Attribution across Three Languages
2011, Savoy, Jacques
Based on different writing style definitions, various authorship attribution schemes have been proposed to identify the real author of a given text or text excerpt. In this article we analyze the relative performance of word types or lemmas assigned to re-present styles and texts. As a second objective we compare two authorship attribu-tion approaches, one based on principal component analysis (PCA), and a new au-thorship attribution method involving specific vocabulary (Z score classification scheme). As a third goal we carry out our experiments on data from three corpora written in three different languages (English, French, and German). In the first we ca-tegorize 52 text excerpts (taken from 19th century English novels) written by nine au-thors. In the second we work with 44 segments taken from French novels (mainly 19th century) written by eleven authors. In the third we extract 59 German text excerpts written by 15 authors and covering the 19th and early 20th centuries. Based on these collections and two specific features (word types or lemmas) we demonstrate that the Z score method performs better than the PCA, while demonstrating that lemmas tend to produce slightly better performance than word types.
Catégorisation de documents: applications en attribution d’auteur et analyse stylistique
2017, Savoy, Jacques
La catégorisation de documents (attribution d'un texte à une ou plusieurs catégories prédéfinies) représente un problème possédant de multiples facettes. Ainsi, l'indexation automatique correspond à l'une d'entre elles qui se fonde sur la sémantique des documents. Cependant d'autres applications analysent les mots outils, ces formes qui ne portent que peu ou pas de sens. Or ces dernières permettent, en grande partie, de décrire le style d'un auteur voire de déterminer quelques aspects de son profil. Sur la base de ces éléments, nous allons présenter comment identifier le véritable auteur d'un document, ou savoir si celui-ci a été écrit par un homme ou une femme. Afin d'illustrer nos propos, nous aborderons le cas d'Elena Ferrante, un pseudonyme mondialement connu depuis la parution de son roman L'amie prodigieuse (Gallimard, 2016). Comme autre exemple, nous analyserons les discours des présidents américains de G. Washington (1789) à D. Trump (2017) afin d'en découvrir quelques traces évolutives tant stylistiques que thématiques. Dans ce dernier cas, une synthèse sera extraite d'un corpus de discours sous la forme d'un graphique décrivant les rapprochements entre présidences.
Information retrieval of digitized medieval manuscripts
2013, Naji, Nada, Savoy, Jacques
This dissertation investigates the retrieval of noisy texts in general and digitized historical manuscripts in particular. The noise originates from several sources, these include imperfect text recognition (6% word error rate), spelling variation, non-standardized grammar, in addition to user-side confusion due to her/his limited knowledge of the underlying language and/or the searched text. Manual correction or normalization are very time-consuming and resource-demanding tasks and are thus out of the question. Furthermore, external resources, such as thesauri, are not available for the older, lesser-known languages. In this dissertation, we present our contributions to overcoming or at least coping with these issues. We developed several methods that provide a low-cost yet highly-effective text representation to limit the negative impact of recognition error and the variable orthography and morphology. Finally, to account for the user-confusion problem, we developed a low-cost query enrichment function which we deem indispensable for the challenging task of one-word queries.
Influence of language morphological complexity on information retrieval
2010, Dolamic, Ljiljana, Savoy, Jacques, Kropf, Peter
In this dissertation two aspects of information retrieval are elaborated. The frst involves the creation and evaluation of various linguistic tools for languages less studied than English, and in our case we have chosen to work with the two Slavic languages Czech and Russian, and three languages widely spoken on the Indian subcontinent, Hindi, Marathi and Bengali. To do so we compare various indexing strategies and IR models most likely to obtain the best possible performance. The second part involves an evaluation of the effectiveness of queries written in different languages when searching collections written in either English or French. To cross the language barriers we apply publicly available machine translation services, analyze the results and then explain the poor performances obtained by the translated queries.