A light method for data generation: a combination of Markov Chains and Word Embeddings

Martínez Garcia, Eva; Nogales, Alberto; Morales Escudero, Javier; Garcia-Tejedor, Álvaro J.

A light method for data generation: a combination of Markov Chains and Word Embeddings

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/104717

Registro completo de metadatos

Registro completo de metadatos
Campo DC	Valor	Idioma
dc.contributor.author	Martínez Garcia, Eva	-
dc.contributor.author	Nogales, Alberto	-
dc.contributor.author	Morales Escudero, Javier	-
dc.contributor.author	Garcia-Tejedor, Álvaro J.	-
dc.date.accessioned	2020-03-29T15:46:45Z	-
dc.date.available	2020-03-29T15:46:45Z	-
dc.date.issued	2020-03	-
dc.identifier.citation	Procesamiento del Lenguaje Natural. 2020, 64: 85-92. doi:10.26342/2020-64-10	es_ES
dc.identifier.issn	1135-5948	-
dc.identifier.uri	http://hdl.handle.net/10045/104717	-
dc.description.abstract	Most of the current state-of-the-art Natural Language Processing (NLP) techniques are highly data-dependent. A significant amount of data is required for their training, and in some scenarios data is scarce. We present a hybrid method to generate new sentences for augmenting the training data. Our approach takes advantage of the combination of Markov Chains and word embeddings to produce high-quality data similar to an initial dataset. In contrast to other neural-based generative methods, it does not need a high amount of training data. Results show how our approach can generate useful data for NLP tools. In particular, we validate our approach by building Transformer-based Language Models using data from three different domains in the context of enriching general purpose chatbots.	es_ES
dc.description.abstract	Las técnicas para el Procesamiento del Lenguaje Natural (PLN) que actualmente conforman el estado del arte necesitan una cantidad importante de datos para su entrenamiento que en algunos escenarios puede ser difícil de conseguir. Presentamos un método híbrido para generar frases nuevas que aumenten los datos de entrenamiento, combinando cadenas de Markov y word embeddings para producir datos de alta calidad similares a un conjunto de datos de partida. Proponemos un método ligero que no necesita una gran cantidad de datos. Los resultados muestran cómo nuestro método es capaz de generar datos útiles. En particular, evaluamos los datos generados generando Modelos de Lenguaje basados en el Transformer utilizando datos de tres dominios diferentes en el contexto de enriquecer chatbots de propósito general.	es_ES
dc.language	eng	es_ES
dc.publisher	Sociedad Española para el Procesamiento del Lenguaje Natural	es_ES
dc.rights	© Sociedad Española para el Procesamiento del Lenguaje Natural	es_ES
dc.subject	Generation	es_ES
dc.subject	Hybrid	es_ES
dc.subject	Markov Chains	es_ES
dc.subject	Embeddings	es_ES
dc.subject	Similarity	es_ES
dc.subject	Generación	es_ES
dc.subject	Híbrido	es_ES
dc.subject	Cadena de Markov	es_ES
dc.subject	Similaridad	es_ES
dc.subject.other	Lenguajes y Sistemas Informáticos	es_ES
dc.title	A light method for data generation: a combination of Markov Chains and Word Embeddings	es_ES
dc.title.alternative	Un método ligero de generación de datos: combinación entre Cadenas de Markov y Word Embeddings	es_ES
dc.type	info:eu-repo/semantics/article	es_ES
dc.peerreviewed	si	es_ES
dc.identifier.doi	10.26342/2020-64-10	-
dc.relation.publisherversion	https://doi.org/10.26342/2020-64-10	es_ES
dc.rights.accessRights	info:eu-repo/semantics/openAccess	es_ES
Aparece en las colecciones:	Procesamiento del Lenguaje Natural - Nº 64 (2020)

Archivos en este ítem:

Archivos en este ítem:
Archivo	Descripción	Tamaño	Formato
PLN_64_10.pdf		1,79 MB	Adobe PDF	Abrir Vista previa Cerrar vista previa

Ver citas en Google Académico

Muestra el registro sencillo