Repository logo
Research Data
Publications
Projects
Persons
Organizations
English
Français
Log In(current)
  1. Home
  2. Authorities
  3. Projets
  4. Text Clustering with Styles
Project Title
Text Clustering with Styles
Internal ID
32503
Principal Investigator
Savoy, Jacques  
Status
Completed
Start Date
August 1, 2014
End Date
July 31, 2017
Organisations
Institut d'informatique  
Identifiants
https://libra.unine.ch/handle/20.500.14713/2527
-
https://libra.unine.ch/handle/123456789/1881
Keywords
natural language processing inter-textual distance text representation digital humanities digital librairess text clustering authorship attribution
Description
Cette recherche vise à concevoir, implémenter et évaluer un système automatique de gestion de grandes collections de documents selon diverses perspectives. Premièrement, ce système sera capable de regrouper automatiquement les documents selon leurs thèmes. Deuxièmement, nous souhaitons pouvoir regrouper les textes selon divers caractéristiques des auteurs comme par nom (si l'authenticité de l'auteur est douteuse), selon le genre (romans, théâtre, etc.), selon l'affinité politique (gauche-droite, électoral ou gouvernemental), ou selon le profil de l'auteur (âge, sexe, niveau socio-culturel, etc.).

Ayant accès à une collection de documents (sans posséder un ensemble prédéfinies de thèmes), nous souhaitons regrouper automatiquement les documents (ou photos, musique, vidéos, etc.) partageant une forte similarité entre eux. Par exemple, on peut regrouper selon des critères thématiques, ou par auteur (si cette information n’est pas disponible), selon le genre (roman, poésie, théâtre, …), les affinités politiques (gauche-droite, électoral ou gouvernemental, etc.), ou selon le profil de l’auteur (âge, sexe, niveau d’éducation, origine, etc.).

Un tel système nous permet de répondre à différents types de question comme par exemple, en littérature (de dépister des similarités pou différences entre le style de Molière ou celui de P. Corneille), en linguistique (quelles sont les différences de styles entre les adolescents sur des forums enligne), en rhétorique (quelles variations peut-on percevoir entre les discours politiques de 1900 à nos jours). La détection d’exceptions nous permet de révéler des informations intéressantes (comme les menteurs dans un forum réservé à certaines classes de personnes, ou le véritable auteur d’un texte attribué habituellement à une autre personne).
La mise au point d’un tel système informatique requiert la définition d’une mesure de distance intertextuelle permettant de distinguer les divers styles présents dans un corpus. Deuxièmement, nous devons proposer une représentation adéquate des textes. Troisièmement, nous souhaitons travailler avec d’autres langues que l’anglais qui possède une morphologie relativement simple. Enfin, nous devons être capable d’associer une mesure de certitude dans les affectations proposées par la machine.
Université de Neuchâtel logo

Service information scientifique & bibliothèques

Rue Emile-Argand 11

2000 Neuchâtel

contact.libra@unine.ch

Service informatique et télématique

Rue Emile-Argand 11

Bâtiment B, rez-de-chaussée

Powered by DSpace-CRIS

libra v2.1.0

© 2026 Université de Neuchâtel

Portal overviewUser guideOpen Access strategyOpen Access directive Research at UniNE Open Access ORCIDWhat's new