Expansión fonética de la consulta para la recuperación de información en documentos hablados

Reyes Barragán, Alejandro; Villaseñor Pineda, Luis; Montes y Gómez, Manuel

Expansión fonética de la consulta para la recuperación de información en documentos hablados

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/18513

Información del item - Informació de l'item - Item information
Título:	Expansión fonética de la consulta para la recuperación de información en documentos hablados
Título alternativo:	Phonetic query expansion for spoken document retrieval
Autor/es:	Reyes Barragán, Alejandro \| Villaseñor Pineda, Luis \| Montes y Gómez, Manuel
Palabras clave:	Recuperación de información \| Documentos hablados \| Expansión de la consulta \| Codificación fonética \| Information retrieval \| Spoken documents \| Query expansion \| Phonetic codes
Área/s de conocimiento:	Lenguajes y Sistemas Informáticos
Fecha de publicación:	sep-2011
Editor:	Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica:	REYES BARRAGÁN, Alejandro; VILLASEÑOR PINEDA, Luis; MONTES Y GÓMEZ, Manuel. “Expansión fonética de la consulta para la recuperación de información en documentos hablados”. Procesamiento del Lenguaje Natural. N. 47 (2011). ISSN 1135-5948, pp. 57-64
Resumen:	El enfoque tradicional para la búsqueda de información en grandes colecciones de documentos hablados consiste en integrar métodos de reconocimiento automático del habla (RAH) y técnicas de recuperación de información (RI) usadas para texto escrito. Una desventaja de este enfoque es su dependencia a la precisión del sistema de RAH, pues los errores generados por éste impactan fuertemente en la máquina de RI. Con el objetivo de reducir el impacto de los errores de transcripción, especialmente los de sustitución, en este trabajo se propone expandir las consultas con palabras fonéticamente similares y con ello ampliar las posibilidades de emparejar las palabras mal transcritas en los documentos. Los resultados alcanzados en dos colecciones de documentos hablados con características muy disímiles demuestran la pertinencia del método propuesto, el cual logró mejorar el MAP respecto a una expansión tradicional hasta en un 3.68%. \| The traditional approach for searching information in large collections of spoken documents consists of integrating automatic speech recognition (ASR) methods and traditional text retrieval (IR) techniques. One disadvantage of this approach is its dependence to the precision of the ASR system, since transcription errors strongly affect the IR machine. With the aim of reducing the impact of these errors, especially those concerning substitutions, in this paper we propose expanding the queries by means of phonetically similar words, and by this increasing the possibility of matching incorrectly transcribed words from the documents. Results on two very different spoken-document collections show the relevance of the proposed method, which outperformed the MAP from traditional expansion techniques by up to 3.68%.
Patrocinador/es:	Este trabajo fue realizado con el apoyo parcial del CONACYT/México, a través de los proyectos CB-2009-01-134186, CB-2008-106013-Y, y la beca 204467. Los autores también agradecen al comité organizador del CLEF por las colecciones de datos proporcionadas.
URI:	http://hdl.handle.net/10045/18513
ISSN:	1135-5948
Idioma:	spa
Tipo:	info:eu-repo/semantics/article
Revisión científica:	si
Aparece en las colecciones:	Procesamiento del Lenguaje Natural - Nº 47 (2011)

Archivos en este ítem:

Archivos en este ítem:
Archivo	Descripción	Tamaño	Formato
PLN_47_06.pdf		620,11 kB	Adobe PDF	Abrir Vista previa Cerrar vista previa

Ver citas en Google Académico

Muestra el registro completo