Generación de un tesauro de similitud multilingüe a partir de un corpus comparable aplicado a CLIR

Please use this identifier to cite or link to this item: http://hdl.handle.net/10045/1717
Información del item - Informació de l'item - Item information
Title: Generación de un tesauro de similitud multilingüe a partir de un corpus comparable aplicado a CLIR
Authors: García Vega, Manuel | Martínez Santiago, Fernando | Ureña López, Luis Alfonso | Martín Valdivia, María Teresa
Keywords: Recuperación de información multilingüe | Clustering | Alineación de textos | Recursos lingüísticos | Tesauro | Cross language information retrieval | Clustering | Alignment of texts | Linguistic resources | Thesaurus
Issue Date: May-2002
Publisher: Sociedad Española para el Procesamiento del Lenguaje Natural
Citation: GARCÍA VEGA, Manuel, et al. “Generación de un tesauro de similitud multilingüe a partir de un corpus comparable aplicado a CLIR”. Procesamiento del lenguaje natural. Nº 28 (mayo 2002), pp. 55-62
Abstract: En este trabajo se describe un nuevo enfoque para generar de manera automática un tesauro de similitud a través de un corpus comparable con el fin de aplicarlo a tareas de recuperación de información multilingüe. Aunque la disponibilidad de recursos lingüísticos es cada vez mayor, todavía hoy en día es dificil el acceso a algunos de ellos, sobre todo en ámbitos multilingües. Incluso, la propia complejidad de la tarea CLIR requiere el uso conjunto de varios recursos para aumentar la eficacia del sistema. Los corpus comparables son uno de estos recursos multilingües especialmente interesantes por su disponibilidad y por la posibilidad de generarlos automáticamente. Sin embargo, para que sean útiles deben estar alineados al menos a nivel de documento. Para llevar a cabo esta tarea, se han utilizado técnicas de clustering. Una vez que los documentos están alineados, se genera el tesauro de similitud a partir de ellos. Los experimentos realizados muestran que los tesauros de similitud multilingües son una buena alternativa cuando otros recursos más adecuados no están disponibles. | In this work, it is described a new approach to automatically generate a similarity thesaurus through a comparable corpus, with the aim of applying it to Cross Language Information Retrieval. Although the availability of linguistic resources is higher and higher, it is still difficult to heve access to some of them, above all on multilingual circles. Even, the complexity itself of the ask CLIR requires the global use of several resources to increase the efficiency of the system. The comparable corpus are one of this multilingual resources specially interesting due to its availability and due do its chance to be generated automatically. However, in order to make these corpora useful, they should be aligned at least at document level. In order to carry out this task, clustering techniques have been used. Once the documents are aligned, the similarity thesaurus is generated from them. The accomplished experiments show that the multilingual similarity thesaurus are a good chance when other more suitable resources are not available.
URI: http://hdl.handle.net/10045/1717
ISSN: 1135-5948
Language: spa
Type: info:eu-repo/semantics/article
Appears in Collections:Procesamiento del Lenguaje Natural - Nº 28 (mayo 2002)

Files in This Item:
Files in This Item:
File Description SizeFormat 
ThumbnailPLN_28_05.pdf156,68 kBAdobe PDFOpen Preview


Items in RUA are protected by copyright, with all rights reserved, unless otherwise indicated.