Voici les éléments 1 - 3 sur 3
  • Publication
    Accès libre
    Evaluation de diverses stratégies de désambiguïsation lexicale
    (2009)
    Fautsch, Claire
    ;
    Dans la campagne d'évaluation CLEF-2008, la tâche « robuste » fournissait un corpus enrichi en langue anglaise. Pour chaque mot, le lemme, la partie du discours et le numéro Synsets de WordNet™ (numéro de classe d'un thésaurus) étaient fournis. Sur cette base, nous avons testé plusieurs approches afin de lever, en partie pour le moins, l'ambiguïté lexicale. Recourant au modèle vectoriel tf idf, ainsi qu’à trois approches probabilistes et un modèle de langue, cet article évalue leur performance en fonction de diverses techniques d’enracineur. Un enracineur léger permet d'obtenir des performances similaires à des approches plus agressives ou à celle obtenue par une analyse morphologique. L'indication de la partie du discours permet d'améliorer significativement la qualité de la réponse tandis que les numéros de classes d'un thésaurus n'ont pas permis une amélioration., In the robust track of the 2008 CLEF evaluation campaign an enlarged English corpus was provided. For each term, the lemma, the part-of-speech (POS) and the Synset number extracted from WordNet™ (class number of the corresponding thesaurus) are given. Based on this corpus we tested several approaches to remove at least partially the underling lexical ambiguity. Using different IR models such as the vector-space model tf idf as well as three probabilistic models and a language model, we want to evaluate their performance when using different algorithmic or morphological stemming approaches. The inclusion of the part-of-speech information improves the retrieval performance significantly, while the inclusion of the synset number does not show any improvement.
  • Publication
    Accès libre
    Domain specific information retrieval social science, blogsphere and biomedicine
    (2009)
    Fautsch, Claire
    ;
    Aujourd'hui la recherche d'information est bien connue et utilisée dans le contexte des moteurs de recherche en ligne. Or la recherche d'information présente aussi beaucoup d'autres applications, tel que la recherche d'information dans les domaines spécifiques. Cette thèse résume nos travaux effectués dans ce champ en présentant une sélection de nos articles scientifiques. Dans ce travail les défis de la recherche d'information dans trois domaines différents – la Blogosphère, la science sociale et la biomédecine - ainsi que nos solutions pour améliorer la recherche d'information dans ces domaines sont présentés. Pour chaque domaine on évalue d'abord les approches standards avant de les adapter afin de satisfaire aux besoins spécifiques du domaine. Enfin on présente, compare et discute nos résultats en participant à diverses campagnes d'évaluation. En plus on a présenté une approche pour la détection d'opinions dans des blogs ainsi qu'une proposition pour un modèle pour la recherche d'information dans les domaines spécifiques, indépendant du domaine tout en tenant compte des spécificités du domaine. Finalement on présente une étude plus générale sur les enracineurs et l'analyse morphologique pour la langue anglaise., Heutzutage ist Informationssuche vor allem bekannt durch die Benutzung von Suchmaschinen bei der Websuche. Allerdings hat die Informationssuche ein weitaus grösseres Anwendungsspektrum, unter anderem die Informationssuche in spezifischen Domänen. Diese Dissertation fasst unsere Arbeit in diesem Bereich zusammen. In der hier vorgestellten Arbeit werden die Herausforderungen der Informationssuche in drei verschiedenen Gebieten - Blogsphere, Sozial Wissenschaft und Biomedizin – ausgearbeitet und anschliessend Lösungsansätze vorgeschlagen um die Informationssuche in diesen Domänen zu verbessern. Zuerst werden gewöhnliche Prozeduren der Informationssuche ausgewertet und dann angepasst um den spezifischen Charakteristiken gerecht zu werden. Anhand der Teilnahme an diversen Evaluationskampagnen werden schlussendlich die erzielten Resultate diskutiert und verglichen. Des Weiteren wird eine Methode zum Erfassen von Meinungen in Blogs sowie ein Modell zu Informationssuche in spezifischen Domänen vorgestellt. Schlussendlich wird noch auf eine allgemeine Studie von Stemming und morphologischer Analyse für die Englische Sprache eingegangen., Nowadays information retrieval is widely known and used in the context of online web search engines. Information retrieval however also presents many other fields of applications, one of which is domain-specific information retrieval. This thesis summarizes our work in this field by presenting a selection of our research papers. In the presented work the challenges of information retrieval in three different domains, namely Blogsphere, social science and biomedicine and our solutions to improve retrieval effectiveness in these domains are presented. For each domain we evaluate the standard retrieval procedures first and then adapt them in order to meet domain-specific issues. We finally compare and discuss our results by participating in various evaluation campaigns. Furthermore we present an approach for opinion mining in blogs as well as a proposal for a domain independent retrieval model taking account of domain-specific information. Finally we also present a more general study on algorithmic stemmers and morphological analysis for the English language.
  • Publication
    Accès libre
    Premières évaluations de la recherche d’information dans les blogs
    (2008)
    Fautsch, Claire
    ;
    Recourant au modèle vectoriel tf idf, ainsi qu’à trois approches probabilistes et un modèle de langue, cet article évalue leur performance sur un corpus TREC extrait de la blogosphère et comprenant 100 requêtes. Basé sur deux mesures de performance, nous démontrons que l’absence d’enracineur s’avère plus efficace que d’autres approches (enracineur léger ou celui de Porter)., This paper describes the main retrieval problems when facing with blogs. Using the classical tf idf vector-space model together with three probabilistic and one statistical language model, we evaluate them using a TREC test-collections composed of 100 topics. Using two performance measures, we show that ignoring a stemming approach results in a better performance than other indexing strategies (light or Porter’s stemmer).