Voici les éléments 1 - 6 sur 6
  • Publication
    Accès libre
    Recherche d'information bilingue et multilingue: amélioration de la traduction automatique et sélection de traducteur
    (2006)
    Berger, Pierre-Yves
    ;
    Dans cette thèse, nous abordons différentes techniques visant à améliorer l'utilisation de la traduction automatique dans le contexte de la recherche d'information bilingue et multilingue. Nous avons quantifié la perte de performance liée à la traduction automatique de la requête d'une langue vers une autre. Pour diminuer cette perte d'efficacité, nous avons évalué six approches, à savoir : • utilisation de la traduction inverse pour sélectionner les mots conservés; • divers systèmes de combinaison de traductions; • apprentissage automatique à l'aide de la méthode des plus proches voisins; • apprentissage automatique à l'aide de la génération d'arbres de décision; • apprentissage automatique à l'aide de la régression logistique; • fusion de résultats. Les approches orientées plutôt vers la linguistique n'ont pas apporté une amélioration claire et évidente de la performance de recherche. Les systèmes issus du domaine de l'apprentissage automatique nous ont donné des résultats encourageants lors de nos expérimentations utilisant l'anglais comme langue de départ et l'espagnol et l'allemand comme langues cibles.
  • Publication
    Accès libre
    Monolingual, Bilingual, and GIRT Information Retrieval at CLEF-2005
    (2006) ;
    Berger, Pierre-Yves
    For our fifth participation in the CLEF evaluation campaigns, our first objective was to propose an effective and general stopword list as well as a light stemming procedure for the Hungarian, Bulgarian and Portuguese (Brazilian) languages. Our second objective was to obtain a better picture of the relative merit of various search engines when processing documents in those languages. To do so we evaluated our scheme using two probabilistic models and five vector-processing approaches. In the bilingual track, we evaluated both the machine translation and bilingual dictionary approaches applied to automatically translate a query submitted in English into various target languages. Finally, using the GIRT corpora (available in English, German and Russian), we investigated the variations in retrieval effectiveness that resulted when we included or excluded manually assigned keywords attached to the bibliographic records (mainly comprising a title and an abstract).
  • Publication
    Accès libre
    Selection and Merging Strategies for Multilingual Information Retrieval
    (2005) ;
    Berger, Pierre-Yves
    In our fourth participation in the CLEF evaluation campaigns, our objective was to verify whether our combined query translation approach would work well with new requests and new languages (Russian and Portuguese in this case). As a second objective, we were to suggest a selection procedure able to extract a smaller number of documents from collections that seemed to contain no or only a few relevant items for the current request. We also applied different merging strategies in order to obtain more evidence about their respective relative merits.
  • Publication
    Métadonnées seulement
  • Publication
    Métadonnées seulement
    Report on CLEF-2005 Evaluation Campaign: Monolingual, Bilingual, and GIRT Information Retrieval
    (: Springer-Verlag Berlin, 2005) ;
    Berger, Pierre-Yves
    ;
    Peters, Carol
    ;
    Gey, F. C.
    ;
    Gonzalo, Julio
    ;
    Muller, H.
    ;
    Jones, G. J. F.
    ;
    Kluck, Michae
    ;
    Magnini, B.
    ;
    DeRijke, M.
    For our fifth participation in the CLEF evaluation campaigns, our first objective was to propose an effective and general stop-word list as well as a light stemming procedure for the Hungarian, Bulgarian and Portuguese (Brazilian) languages. Our second objective was to obtain a better picture of the relative merit of various search engines when processing documents in those languages. To do so we evaluated our scheme using two probabilistic models and five vector-processing approaches. In the bilingual track, we evaluated both the machine translation and bilingual dictionary approaches applied to automatically translate a query submitted in English into various target languages. Finally, using the GIRT corpora (available in English, German and Russian), we investigated the variations in retrieval effectiveness that resulted when we included or excluded manually assigned keywords attached to the bibliographic records (mainly comprising a title and an abstract).
  • Publication
    Accès libre
    Recherche bilingue et multilingue d’information. Vers une sélection des bonnes traductions
    (2004) ;
    Berger, Pierre-Yves
    Afin de pouvoir interroger des corpus écrits dans plusieurs langues, la stratégie la plus simple et la moins onéreuse consiste à traduire la requête soumise dans la (ou les) langue(s) souhaitée(s). Dans ce but, nous nous sommes appuyés sur des ressources dispo-nibles gratuitement sur le Web. En comparant l’efficacité du dépistage entre les requêtes traduites manuellement ou automatiquement, on constate que la machine s’avère moins bonne que l’être humain. Toutefois, cette première conclusion se base sur une moyenne et une analyse plus détaillée indique une forte variabilité, dans le dépistage de l’information, entre les performances des différentes traductions produites par la machine. La question qui se pose est de savoir si l’on peut prédire la performance d’une requête traduite afin de sélectionner seulement la meilleure ou les meilleures traductions. Afin de résoudre ce problème, nous avons conçu un système de prédiction basé sur la régression logistique et capable de prédire les meilleures traductions. L’évaluation de notre approche s’avère supé-rieure au meilleur système de traduction automatique., In order to search within corpora written in two or more languages, the simplest and most effective approach is to translate the submitted request into the required lan-guage(s). To achieve this goal, we based our IR model on translation tools freely available on the Web. When comparing the retrieval effectiveness of manually and automatically translated requests, we found that human-based translation outperformed machine-based approaches. However, when we analyzed the query-by-query performance, we found query performances based on machine-based translations to vary a great deal. The question that then arises is whether or not we can predict the retrieval performance of a translated query and as a result we may thus select only the best translation(s). To respond to this, we designed and evaluated a predictive system based on the logistic regression, and used it to select the top most appropriate machine-based translations. An evaluation of this approach shows retrieval performance is better than using the best machine-based translation.