Options
Text Clustering with Styles
Titre du projet
Text Clustering with Styles
Description
Cette recherche vise à concevoir, implémenter et évaluer un système automatique de gestion de grandes collections de documents selon diverses perspectives. Premièrement, ce système sera capable de regrouper automatiquement les documents selon leurs thèmes. Deuxièmement, nous souhaitons pouvoir regrouper les textes selon divers caractéristiques des auteurs comme par nom (si l'authenticité de l'auteur est douteuse), selon le genre (romans, théâtre, etc.), selon l'affinité politique (gauche-droite, électoral ou gouvernemental), ou selon le profil de l'auteur (âge, sexe, niveau socio-culturel, etc.).
Ayant accès à une collection de documents (sans posséder un ensemble prédéfinies de thèmes), nous souhaitons regrouper automatiquement les documents (ou photos, musique, vidéos, etc.) partageant une forte similarité entre eux. Par exemple, on peut regrouper selon des critères thématiques, ou par auteur (si cette information n’est pas disponible), selon le genre (roman, poésie, théâtre, …), les affinités politiques (gauche-droite, électoral ou gouvernemental, etc.), ou selon le profil de l’auteur (âge, sexe, niveau d’éducation, origine, etc.).
Un tel système nous permet de répondre à différents types de question comme par exemple, en littérature (de dépister des similarités pou différences entre le style de Molière ou celui de P. Corneille), en linguistique (quelles sont les différences de styles entre les adolescents sur des forums enligne), en rhétorique (quelles variations peut-on percevoir entre les discours politiques de 1900 à nos jours). La détection d’exceptions nous permet de révéler des informations intéressantes (comme les menteurs dans un forum réservé à certaines classes de personnes, ou le véritable auteur d’un texte attribué habituellement à une autre personne).
La mise au point d’un tel système informatique requiert la définition d’une mesure de distance intertextuelle permettant de distinguer les divers styles présents dans un corpus. Deuxièmement, nous devons proposer une représentation adéquate des textes. Troisièmement, nous souhaitons travailler avec d’autres langues que l’anglais qui possède une morphologie relativement simple. Enfin, nous devons être capable d’associer une mesure de certitude dans les affectations proposées par la machine.
Ayant accès à une collection de documents (sans posséder un ensemble prédéfinies de thèmes), nous souhaitons regrouper automatiquement les documents (ou photos, musique, vidéos, etc.) partageant une forte similarité entre eux. Par exemple, on peut regrouper selon des critères thématiques, ou par auteur (si cette information n’est pas disponible), selon le genre (roman, poésie, théâtre, …), les affinités politiques (gauche-droite, électoral ou gouvernemental, etc.), ou selon le profil de l’auteur (âge, sexe, niveau d’éducation, origine, etc.).
Un tel système nous permet de répondre à différents types de question comme par exemple, en littérature (de dépister des similarités pou différences entre le style de Molière ou celui de P. Corneille), en linguistique (quelles sont les différences de styles entre les adolescents sur des forums enligne), en rhétorique (quelles variations peut-on percevoir entre les discours politiques de 1900 à nos jours). La détection d’exceptions nous permet de révéler des informations intéressantes (comme les menteurs dans un forum réservé à certaines classes de personnes, ou le véritable auteur d’un texte attribué habituellement à une autre personne).
La mise au point d’un tel système informatique requiert la définition d’une mesure de distance intertextuelle permettant de distinguer les divers styles présents dans un corpus. Deuxièmement, nous devons proposer une représentation adéquate des textes. Troisièmement, nous souhaitons travailler avec d’autres langues que l’anglais qui possède une morphologie relativement simple. Enfin, nous devons être capable d’associer une mesure de certitude dans les affectations proposées par la machine.
Chercheur principal
Statut
Completed
Date de début
1 Août 2014
Date de fin
31 Juillet 2017
Organisations
Identifiant interne
32503
identifiant
Mots-clés