Marimon Felipe, Montserrat, Padró Cirera, Lluís A hybrid approach to treebank construction MARIMON, Montserrat; PADRÓ, Lluís. “A hybrid approach to treebank construction”. Procesamiento del Lenguaje Natural. N. 49 (2012). ISSN 1135-5948, pp. 139-146 URI: http://hdl.handle.net/10045/23929 DOI: ISSN: 1135-5948 Abstract: Este artículo describe investigación sobre los efectos de la desambiguación morfosintáctica usada como un preproceso de un analizador sintáctico profundo basado en HPSG, en el contexto del desarrollo de un treebank del español de código abierto, en el entorno de DELPH-IN. La anotación treebank se realiza manualmente tomando las decisiones apropiadas entre las opciones propuestas por el sistema y ordenadas por un módulo estadístico. Los experimentos presentados muestran que el uso de un etiquetador reduce la ambigüedad de las frases, y contribuye a limitar la cantidad de frases cuyo análisis sobrepasa el límite de tiempo, y ayuda a al módulo estadístico a clasificar el árbol correcto entre los n mejores. Por un lado, nuestros resultados validan los beneficios ya reportados en la literatura de tal preproceso de análisis profundo con respecto a la velocidad, cobertura y precisión. Por otro lado, proponemos una estrategia basada en existentes herramientas de código abierto y recursos para desarrollar con alta consistencia treebanks de sintaxis profunda para idiomas con limitada disponibilidad de recursos lingüísticos. This paper describes research on the effects of PoS tagging as a preprocess for HPSG-based deep parsing in the context of an open-source Spanish treebank development in the DELPH-IN framework. The treebank annotation is performed by hand selecting the proper decisions among the choices proposed by the system and ranked by a statistical module. The presented experiments show that the use of a tagger lowers the ambiguity of the sentences, both reducing the amount of sentences that reach time-out before the entire parse forest is built, and helping the ranker to place the right tree among the n-best trees. On the one hand, our results validate the benefits –already reported in the literature– of such preprocess to deep parsing with regard to speed, coverage, and accuracy. On the other hand, we propose a strategy based on existing open-source tools and resources to develop highly-consistent deep-annotated treebanks for languages with limited availability of linguistic resources. Keywords:Anotación sintáctica profunda de corpus, Análisis HPSG, Desambiguación morfosintáctica, Deep syntax treebank annotation, HPSG parsing, PoS tagging Sociedad Española para el Procesamiento del Lenguaje Natural info:eu-repo/semantics/article