Lexical normalization of Spanish tweets with rule-based components and language models
Por favor, use este identificador para citar o enlazar este ítem:
http://hdl.handle.net/10045/35767
Título: | Lexical normalization of Spanish tweets with rule-based components and language models |
---|---|
Título alternativo: | Normalización léxica de tweets en español con componentes basados en reglas y modelos de lenguaje |
Autor/es: | Ruiz Fabo, Pablo | Cuadros Oller, Montserrat | Etchegoyhen, Thierry |
Palabras clave: | Spanish | Microtext | Lexical normalization | Twitter | Edit distance | Language model | Microtexto | Español | Normalización léxica | Distancia de edición | Modelo de lenguaje |
Área/s de conocimiento: | Lenguajes y Sistemas Informáticos |
Fecha de publicación: | mar-2014 |
Editor: | Sociedad Española para el Procesamiento del Lenguaje Natural |
Cita bibliográfica: | Procesamiento del Lenguaje Natural. 2014, 52: 45-52 |
Resumen: | This paper presents a system to normalize Spanish tweets, which uses preprocessing rules, a domain-appropriate edit-distance model, and language models to select correction candidates based on context. The system is an improvement on the tool we submitted to the Tweet-Norm 2013 shared task, and results on the task’s test-corpus are above-average. Additionally, we provide a study of the impact for tweet normalization of the different components of the system: rule-based, edit-distance based and statistical. | Este artículo presenta un sistema para la normalización de tweets en español, que usa reglas de preproceso, un modelo de distancias de edición adecuado al dominio y modelos de lenguaje para seleccionar candidatos de corrección según el contexto. Se trata de un sistema mejorado basado en el que presentamos en la tarea compartida Tweet-Norm 2013. El sistema obtiene resultados superiores a la media en el corpus de test de la tarea. Presentamos además un estudio del impacto en la normalización de los diferentes componentes del sistema: basados en reglas, en distancia de edición, y estadísticos. |
URI: | http://hdl.handle.net/10045/35767 |
ISSN: | 1135-5948 |
Idioma: | eng |
Tipo: | info:eu-repo/semantics/article |
Revisión científica: | si |
Aparece en las colecciones: | Procesamiento del Lenguaje Natural - Nº 52 (2014) |
Archivos en este ítem:
Archivo | Descripción | Tamaño | Formato | |
---|---|---|---|---|
PLN_52_05.pdf | 870,62 kB | Adobe PDF | Abrir Vista previa | |
Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.