Voici les ƩlƩments 1 - 1 sur 1
Vignette d'image
Publication
AccĆØs libre

Classification automatique d’opinions dans la blogosphĆØre

, Savoy, Jacques, Zubaryeva, Olena

Cette communication traite de la classification automatique opinions dans la blogosphĆØre. Sur la base d'une liste de phrases jugĆ©es pertinentes, le systĆØme doit dĆ©terminer si elles contiennent une opinion ou non. Afin d’atteindre ce but, plusieurs reprĆ©sentations et modĆØles de catĆ©gorisation peuvent ĆŖtre utilisĆ©s. Comme systĆØme de rĆ©fĆ©rence, nous avons retenu une classification basĆ©e sur le modĆØle NaĆÆve Bayes. L'emploi d'une stratĆ©gie SVM (avec une reprĆ©sentation tf idf) permet d'accroĆ®tre la performance du systĆØme. Le systĆØme que nous proposons dĆ©tecte l'usage d'un vocabulaire spĆ©cifique Ć  chaque catĆ©gorie en recourant Ć  un score normalisĆ© (score z). Ces valeurs nous permettent de dĆ©terminer si une phrase contient ou non une opinion. Le systĆØme proposĆ© a Ć©tĆ© implĆ©mentĆ© et Ć©valuĆ© grĆ¢ce Ć  la collection test NCTIR Ć©crite en langue anglaise. Celle Ć©valuation indique que notre modĆØle apporte clairement la meilleure performance. Le recours Ć  un thesaurus spĆ©cialisĆ© permet d'accroĆ®tre encore la performance de catĆ©gorisation., This paper describes the problem of classifying opinion from blogs. After retrieving relevant sentences, the search system must categorize them as opinionated or factual. To achieve this objective, different representations and automatic categorization models could be used. As baseline system, we have used the NaĆÆve Bayes approach to classify the retrieved sentences as opinionated or not. As a second model, we have used an SVM model (based on a tf idf representation) showing an increase in the overall performance. We suggest using a normalized score (Z score) for catch term according to its presence or absence in opinionated sentences. Based on these Z-scores we can determine whether a given sentence belongs to opinionated or not- opinionated category. The proposed system has been evaluated using the NCTIR English test-collection. We show that the suggested classification method performs significantly better than other approaches. Using a specialized thesaurus, we can further improve the overall categorization performance.