A light method for data generation: a combination of Markov Chains and Word Embeddings

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/104717
Registro completo de metadatos
Registro completo de metadatos
Campo DCValorIdioma
dc.contributor.authorMartínez Garcia, Eva-
dc.contributor.authorNogales, Alberto-
dc.contributor.authorMorales Escudero, Javier-
dc.contributor.authorGarcia-Tejedor, Álvaro J.-
dc.date.accessioned2020-03-29T15:46:45Z-
dc.date.available2020-03-29T15:46:45Z-
dc.date.issued2020-03-
dc.identifier.citationProcesamiento del Lenguaje Natural. 2020, 64: 85-92. doi:10.26342/2020-64-10es_ES
dc.identifier.issn1135-5948-
dc.identifier.urihttp://hdl.handle.net/10045/104717-
dc.description.abstractMost of the current state-of-the-art Natural Language Processing (NLP) techniques are highly data-dependent. A significant amount of data is required for their training, and in some scenarios data is scarce. We present a hybrid method to generate new sentences for augmenting the training data. Our approach takes advantage of the combination of Markov Chains and word embeddings to produce high-quality data similar to an initial dataset. In contrast to other neural-based generative methods, it does not need a high amount of training data. Results show how our approach can generate useful data for NLP tools. In particular, we validate our approach by building Transformer-based Language Models using data from three different domains in the context of enriching general purpose chatbots.es_ES
dc.description.abstractLas técnicas para el Procesamiento del Lenguaje Natural (PLN) que actualmente conforman el estado del arte necesitan una cantidad importante de datos para su entrenamiento que en algunos escenarios puede ser difícil de conseguir. Presentamos un método híbrido para generar frases nuevas que aumenten los datos de entrenamiento, combinando cadenas de Markov y word embeddings para producir datos de alta calidad similares a un conjunto de datos de partida. Proponemos un método ligero que no necesita una gran cantidad de datos. Los resultados muestran cómo nuestro método es capaz de generar datos útiles. En particular, evaluamos los datos generados generando Modelos de Lenguaje basados en el Transformer utilizando datos de tres dominios diferentes en el contexto de enriquecer chatbots de propósito general.es_ES
dc.languageenges_ES
dc.publisherSociedad Española para el Procesamiento del Lenguaje Naturales_ES
dc.rights© Sociedad Española para el Procesamiento del Lenguaje Naturales_ES
dc.subjectGenerationes_ES
dc.subjectHybrides_ES
dc.subjectMarkov Chainses_ES
dc.subjectEmbeddingses_ES
dc.subjectSimilarityes_ES
dc.subjectGeneraciónes_ES
dc.subjectHíbridoes_ES
dc.subjectCadena de Markoves_ES
dc.subjectSimilaridades_ES
dc.subject.otherLenguajes y Sistemas Informáticoses_ES
dc.titleA light method for data generation: a combination of Markov Chains and Word Embeddingses_ES
dc.title.alternativeUn método ligero de generación de datos: combinación entre Cadenas de Markov y Word Embeddingses_ES
dc.typeinfo:eu-repo/semantics/articlees_ES
dc.peerreviewedsies_ES
dc.identifier.doi10.26342/2020-64-10-
dc.relation.publisherversionhttps://doi.org/10.26342/2020-64-10es_ES
dc.rights.accessRightsinfo:eu-repo/semantics/openAccesses_ES
Aparece en las colecciones:Procesamiento del Lenguaje Natural - Nº 64 (2020)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_64_10.pdf1,79 MBAdobe PDFAbrir Vista previa


Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.