Login
Text Clustering with Styles
Responsable du projet Jacques Savoy
   
Résumé Cette recherche vise à concevoir, implémenter et évaluer un système automatique de gestion de grandes collections de documents selon diverses perspectives. Premièrement, ce système sera capable de regrouper automatiquement les documents selon leurs thèmes. Deuxièmement, nous souhaitons pouvoir regrouper les textes selon divers caractéristiques des auteurs comme par nom (si l'authenticité de l'auteur est douteuse), selon le genre (romans, théâtre, etc.), selon l'affinité politique (gauche-droite, électoral ou gouvernemental), ou selon le profil de l'auteur (âge, sexe, niveau socio-culturel, etc.).

Ayant accès à une collection de documents (sans posséder un ensemble prédéfinies de thèmes), nous souhaitons regrouper automatiquement les documents (ou photos, musique, vidéos, etc.) partageant une forte similarité entre eux. Par exemple, on peut regrouper selon des critères thématiques, ou par auteur (si cette information n’est pas disponible), selon le genre (roman, poésie, théâtre, …), les affinités politiques (gauche-droite, électoral ou gouvernemental, etc.), ou selon le profil de l’auteur (âge, sexe, niveau d’éducation, origine, etc.).

Un tel système nous permet de répondre à différents types de question comme par exemple, en littérature (de dépister des similarités pou différences entre le style de Molière ou celui de P. Corneille), en linguistique (quelles sont les différences de styles entre les adolescents sur des forums enligne), en rhétorique (quelles variations peut-on percevoir entre les discours politiques de 1900 à nos jours). La détection d’exceptions nous permet de révéler des informations intéressantes (comme les menteurs dans un forum réservé à certaines classes de personnes, ou le véritable auteur d’un texte attribué habituellement à une autre personne).
La mise au point d’un tel système informatique requiert la définition d’une mesure de distance intertextuelle permettant de distinguer les divers styles présents dans un corpus. Deuxièmement, nous devons proposer une représentation adéquate des textes. Troisièmement, nous souhaitons travailler avec d’autres langues que l’anglais qui possède une morphologie relativement simple. Enfin, nous devons être capable d’associer une mesure de certitude dans les affectations proposées par la machine.
   
Mots-clés natural language processing, inter-textual distance, text representation, digital humanities, digital librairess, text clustering, authorship attribution
   
Type de projet Recherche fondamentale
Domaine de recherche Informatique
Source de financement FNS - Encouragement de projets (Div. I-III)
Etat Terminé
Début de projet 1-8-2014
Fin du projet 31-7-2017
Budget alloué 260'100.00
Contact Jacques Savoy