Análisis morfosintáctico estadístico en lengua gallega

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/1504
Información del item - Informació de l'item - Item information
Título: Análisis morfosintáctico estadístico en lengua gallega
Autor/es: Méndez Pazó, Francisco | Campillo Díaz, Francisco | Rodríguez Banga, Eduardo | Fernández Rei, Elisa
Palabras clave: Análisis morfosintáctico | Análisis estadístico | Corspus gallego | POS tagging | Morphosyntactic analysis | Galician corpus
Fecha de publicación: sep-2003
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica: MÉNDEZ PAZÓ, Francisco, et al. “Análisis morfosintáctico estadístico en lengua gallega”. Procesamiento del lenguaje natural. Nº 31 (septiembre 2003), pp. 159-166
Resumen: En este artículo describimos la construcción de un analizador morfosintáctico en gallego que, además de su evidente interés lingüístico, sea fácilmente aplicable a sistemas de reconocimiento y síntesis de voz. Los modelos estadísticos han demostrado que son capaces de ofrecer unas prestaciones similares a sistemas que emplean innumerables reglas intrincadas que, por otro lado, son muy difíciles de depurar y mantener. Por el contrario los modelos estocásticos permiten un diseño rápido, si se dispone de un corpus de entrenamiento, y son extremadamente flexibles, ya que pueden ser adaptados a otro idioma sin modificaciones excesivas del código. Para entrenar los modelos estadísticos se ha comenzado la recogida de un corpus en gallego que, por el momento, consta de unas 400.000 palabras etiquetadas morfosintácticamente. | This paper describes a morphosyntactic analyzer in Galician which, apart from its obvious linguistic interest, can be easily applied to speech recognition and speech synthesis systems. While rule-driven models produce the better performance, stochastic models have shown a comparable accuracy when properly designed. Moreover, rule-driven models are based on a complex set of linguistic rules, quite difficult to maintain and not directly extensible to other languages. On the contrary, stochastic models allow a quick design, if a training corpus is available, and are extremely flexible as they can be adapted to other languages with minor changes in their source code. In order to train the statistic models we began to collect a Galician corpus which, at this time, consists of about 400,000 words with morphosyntactic annotations.
Patrocinador/es: Este trabajo ha sido parcialmente financiado por el Ministerio de Ciencia y Tecnología, fondos Feder y la Xunta de Galicia, en los proyectos TIC2002-02208, PGIDT01PXI32205PN y PGIDT02PXI32201PR.
URI: http://hdl.handle.net/10045/1504
ISSN: 1135-5948
Idioma: spa
Tipo: info:eu-repo/semantics/article
Aparece en las colecciones:Procesamiento del Lenguaje Natural - Nº 31 (septiembre 2003)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_31_19.pdf127,64 kBAdobe PDFAbrir Vista previa


Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.