Segmentador de oraciones basado en máquinas de estados finitos

Empreu sempre aquest identificador per citar o enllaçar aquest ítem http://hdl.handle.net/10045/136580
Información del item - Informació de l'item - Item information
Títol: Segmentador de oraciones basado en máquinas de estados finitos
Autors: Martínez Molina, Iván
Director de la investigació: Pla Sempere, Leopoldo
Centre, Departament o Servei: Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos
Paraules clau: Segmentador de Oraciones | C | FST | SRX
Data de publicació: 28-de juliol-2023
Data de lectura: 25-de juliol-2023
Resum: La segmentación de un texto en oraciones en tareas de procesamiento del lenguaje natural (PLN en adelante) es un procedimiento estándar antes de procesar información en texto llano (preprocesamiento). Algunas aplicaciones de PLN requieren segmentar textos muy largos en oraciones para obtener información más significativa. Un segmentador de oraciones básico es aquel que separa por puntos, pero no cubre todos los casos (abreviaturas) ni idiomas donde este carácter no se utiliza. Existen varias implementaciones en diferentes lenguajes de programación y con diferentes paradigmas o enfoques. Aun así, estas implementaciones no son extremadamente rápidas ni fácilmente extensibles a nuevos idiomas no soportados por los desarrolladores de estas implementaciones. Esto se acentúa con cantidades masivas de datos, como sucede con textos como los de Paracrawl. Se plantea utilizar una técnica muy rápida basada en estados finitos, tal y como está implementado el sistema de traducción Apertium, partiendo de las anotaciones existentes en el estándar SRX (Segmentation Rule Exchange).
URI: http://hdl.handle.net/10045/136580
Idioma: spa
Tipus: info:eu-repo/semantics/bachelorThesis
Drets: Licencia Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0
Apareix a la col·lecció: Grado en Ingeniería Informática - Trabajos Fin de Grado

Arxius per aquest ítem:


Tots els documents dipositats a RUA estan protegits per drets d'autors. Alguns drets reservats.