Martínez Molina, Iván Segmentador de oraciones basado en máquinas de estados finitos URI: http://hdl.handle.net/10045/136580 DOI: ISSN: Abstract: La segmentación de un texto en oraciones en tareas de procesamiento del lenguaje natural (PLN en adelante) es un procedimiento estándar antes de procesar información en texto llano (preprocesamiento). Algunas aplicaciones de PLN requieren segmentar textos muy largos en oraciones para obtener información más significativa. Un segmentador de oraciones básico es aquel que separa por puntos, pero no cubre todos los casos (abreviaturas) ni idiomas donde este carácter no se utiliza. Existen varias implementaciones en diferentes lenguajes de programación y con diferentes paradigmas o enfoques. Aun así, estas implementaciones no son extremadamente rápidas ni fácilmente extensibles a nuevos idiomas no soportados por los desarrolladores de estas implementaciones. Esto se acentúa con cantidades masivas de datos, como sucede con textos como los de Paracrawl. Se plantea utilizar una técnica muy rápida basada en estados finitos, tal y como está implementado el sistema de traducción Apertium, partiendo de las anotaciones existentes en el estándar SRX (Segmentation Rule Exchange). Keywords:Segmentador de Oraciones, C, FST, SRX info:eu-repo/semantics/bachelorThesis