A light method for data generation: a combination of Markov Chains and Word Embeddings

Empreu sempre aquest identificador per citar o enllaçar aquest ítem http://hdl.handle.net/10045/104717
Información del item - Informació de l'item - Item information
Títol: A light method for data generation: a combination of Markov Chains and Word Embeddings
Títol alternatiu: Un método ligero de generación de datos: combinación entre Cadenas de Markov y Word Embeddings
Autors: Martínez Garcia, Eva | Nogales, Alberto | Morales Escudero, Javier | Garcia-Tejedor, Álvaro J.
Paraules clau: Generation | Hybrid | Markov Chains | Embeddings | Similarity | Generación | Híbrido | Cadena de Markov | Similaridad
Àrees de coneixement: Lenguajes y Sistemas Informáticos
Data de publicació: de març-2020
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Citació bibliogràfica: Procesamiento del Lenguaje Natural. 2020, 64: 85-92. doi:10.26342/2020-64-10
Resum: Most of the current state-of-the-art Natural Language Processing (NLP) techniques are highly data-dependent. A significant amount of data is required for their training, and in some scenarios data is scarce. We present a hybrid method to generate new sentences for augmenting the training data. Our approach takes advantage of the combination of Markov Chains and word embeddings to produce high-quality data similar to an initial dataset. In contrast to other neural-based generative methods, it does not need a high amount of training data. Results show how our approach can generate useful data for NLP tools. In particular, we validate our approach by building Transformer-based Language Models using data from three different domains in the context of enriching general purpose chatbots. | Las técnicas para el Procesamiento del Lenguaje Natural (PLN) que actualmente conforman el estado del arte necesitan una cantidad importante de datos para su entrenamiento que en algunos escenarios puede ser difícil de conseguir. Presentamos un método híbrido para generar frases nuevas que aumenten los datos de entrenamiento, combinando cadenas de Markov y word embeddings para producir datos de alta calidad similares a un conjunto de datos de partida. Proponemos un método ligero que no necesita una gran cantidad de datos. Los resultados muestran cómo nuestro método es capaz de generar datos útiles. En particular, evaluamos los datos generados generando Modelos de Lenguaje basados en el Transformer utilizando datos de tres dominios diferentes en el contexto de enriquecer chatbots de propósito general.
URI: http://hdl.handle.net/10045/104717
ISSN: 1135-5948
DOI: 10.26342/2020-64-10
Idioma: eng
Tipus: info:eu-repo/semantics/article
Drets: © Sociedad Española para el Procesamiento del Lenguaje Natural
Revisió científica: si
Versió de l'editor: https://doi.org/10.26342/2020-64-10
Apareix a la col·lecció: Procesamiento del Lenguaje Natural - Nº 64 (2020)

Arxius per aquest ítem:
Arxius per aquest ítem:
Arxiu Descripció Tamany Format  
ThumbnailPLN_64_10.pdf1,79 MBAdobe PDFObrir Vista prèvia


Tots els documents dipositats a RUA estan protegits per drets d'autors. Alguns drets reservats.