Spanish Morphological Generation with Wide-Coverage Lexicons and Decision Trees

Empreu sempre aquest identificador per citar o enllaçar aquest ítem http://hdl.handle.net/10045/64036
Información del item - Informació de l'item - Item information
Títol: Spanish Morphological Generation with Wide-Coverage Lexicons and Decision Trees
Títol alternatiu: Generación Morfológica del Español con Lexicones de Amplia Cobertura y Árboles de Decisión
Autors: Ferrés, Daniel | AbuRa'ed, Ahmed | Saggion, Horacio
Paraules clau: Morphological generation | Morphological lexicons | Decision trees | Natural language generation | Generador morfológico | Lexicones morfológicos | Árboles de decisión | Generación de lenguaje natural
Àrees de coneixement: Lenguajes y Sistemas Informáticos
Data de publicació: de març-2017
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Citació bibliogràfica: Procesamiento del Lenguaje Natural. 2017, 58: 109-116
Resum: Morphological Generation is the task of producing the appropiate inflected form of a lemma in a given textual context and according to some morphological features. This paper describes and evaluates wide-coverage morphological lexicons and a Decision Tree algorithm that perform Morphological Generation in Spanish at state-of-the art level. The Freeling, Leffe and Apertium Spanish lexicons, the J48 Decision Tree algorithm and the combination of J48 with Freeling and Leffe lexicons have been evaluated with the following datasets for Spanish: i) CoNLL2009 Shared Task dataset, ii) Durrett and DeNero dataset of Spanish Verbs (DDN), and iii) SIGMORPHON 2016 Shared Task (task-1) dataset. The results show that: i) the Freeling and Leffe lexicons achieve high coverage and precision over the DDN and SIGMORPHON 2016 datasets, ii) the J48 algorithm achieves state-of-the-art results in all of the three datasets, and iii) the combination of Freeling, Leffe and the J48 algorithm outperformed the results of our other approaches in the three evaluation datasets, improved slightly the results of the CoNLL2009 and SIGMORPHON 2016 reported in the state-of-the-art literature, and achieved results comparable to the ones reported in the state-of-the-art literature on the DDN dataset evaluation. | La Generación Morfológica es la tarea de producir la forma flexionada apropiada de un lemma en un determinado contexto textual y en concordancia con algunas características morfológicas. En este artículo se presentan y se evalúan algunos lexicones morfológicos de amplia cobertura y un algoritmo de árboles de decisión para la Generación Morfológica en español. Los lexicones para el español Freeling, Leffe y Apertium, el algoritmo de árboles de decisión J48 y la combinación de los lexicones Freeling y Leffe con el J48 han sido evaluados con los siguientes conjuntos de datos para el español: i) conjunto de datos de la CoNLL2009 Shared Task, ii) el conjunto de datos de verbos para el español de Durrett y DeNero (DDN), y iii) el conjunto de datos para el español de la evaluación SIGMORPHON 2016 Shared Task (task-1). Los resultados muestran que: i) los lexicones morfológicos consiguen alta cobertura y precisión en los conjuntos de datos DDN y SIGMORPHON 2016, ii) el algoritmo J48 por si sólo alcanza resultados en el estado del arte en los tres conjuntos de evaluación, y iii) que la combinación de predicciones de Freeling, Leffe y el algoritmo J48 mejora los resultados de nuestras otras implementaciones en los tres conjuntos de datos evaluados, que además mejoran ligeramente los resultados reportados en el estado del arte en los conjuntos de datos del CoNLL2009 y del SIGMORPHON 2016, y que consiguen resultados comparables con los reportados en el estado del arte de la evaluación del conjunto de datos DDN.
Patrocinadors: This work was partly funded by the ABLETO-INCLUDE project (European Commission CIP Grant No. 621055), the TUNER project (TIN2015-65308-C5-5-R, MINECO/FEDER, UE), and the Spanish MINECO Ministry (MDM-2015-0502).
URI: http://hdl.handle.net/10045/64036
ISSN: 1135-5948
Idioma: eng
Tipus: info:eu-repo/semantics/article
Drets: © Sociedad Española para el Procesamiento del Lenguaje Natural
Revisió científica: si
Versió de l'editor: http://journal.sepln.org/sepln/ojs/ojs/index.php/pln
Apareix a la col·lecció: Procesamiento del Lenguaje Natural - Nº 58 (2017)

Arxius per aquest ítem:
Arxius per aquest ítem:
Arxiu Descripció Tamany Format  
ThumbnailPLN_58_13.pdf383,46 kBAdobe PDFObrir Vista prèvia


Tots els documents dipositats a RUA estan protegits per drets d'autors. Alguns drets reservats.