Comparing Distributional Semantics Models for identifying groups of semantically related words

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/57758
Registro completo de metadatos
Registro completo de metadatos
Campo DCValorIdioma
dc.contributor.authorKovatchev, Venelin-
dc.contributor.authorSalamó Llorente, Maria-
dc.contributor.authorMartí Antonín, Maria Antònia-
dc.date.accessioned2016-09-12T08:00:13Z-
dc.date.available2016-09-12T08:00:13Z-
dc.date.issued2016-09-
dc.identifier.citationProcesamiento del Lenguaje Natural. 2016, 57: 109-116es_ES
dc.identifier.issn1135-5948-
dc.identifier.urihttp://hdl.handle.net/10045/57758-
dc.description.abstractDistributional Semantic Models (DSM) are growing in popularity in Computational Linguistics. DSM use corpora of language use to automatically induce formal representations of word meaning. This article focuses on one of the applications of DSM: identifying groups of semantically related words. We compare two models for obtaining formal representations: a well known approach (CLUTO) and a more recently introduced one (Word2Vec). We compare the two models with respect to the PoS coherence and the semantic relatedness of the words within the obtained groups. We also proposed a way to improve the results obtained by Word2Vec through corpus preprocessing. The results show that: a) CLUTO outperformsWord2Vec in both criteria for corpora of medium size; b) The preprocessing largely improves the results for Word2Vec with respect to both criteria.es_ES
dc.description.abstractLos Modelos de Semántica Distribucional (MSD) están siendo utilizados de manera extensiva en el área de la Lingüística Computacional. Los MSD utilizan corpus de uso de la lengua para inducir de manera automática diferentes tipos de representaciones sobre el significado de las palabras. Este artículo se centra en una de las aplicaciones de los MSD: la identificación de grupos de palabras semánticamente relacionadas. Se comparan dos modelos de obtención de representaciones formales: CLUTO, una herramienta estándar de clusterización y Word2Vec, una aproximación reciente al tema. Comparamos los resultados obtenidos con ambos modelos basándonos en dos criterios: la coherencia que presentan estas agrupaciones respecto de la categoría morfosintáctica y la cohesión semántica entre las palabras dentro de cada grupo. Se propone también como mejorar los resultados obtenidos con Word2Vec mediante su preprocesamiento morfosintáctico. Los resultados obtenidos demuestran que: a) CLUTO supera a Word2Vec en ambos criterios cuando se trata de corpus de tamaño medio: b) el preprocesamiento mejora de manera clara los resultados obtenidos con Word2Vec para ambos criterios.es_ES
dc.description.sponsorshipThis work was supported by projects TIN2012-38603-C02-02, SGR-2014-623 and TIN2015-71147-C2-2.es_ES
dc.languageenges_ES
dc.publisherSociedad Española para el Procesamiento del Lenguaje Naturales_ES
dc.rights© Sociedad Española para el Procesamiento del Lenguaje Naturales_ES
dc.subjectDSMes_ES
dc.subjectWord2Veces_ES
dc.subjectCLUTOes_ES
dc.subjectSemantic groupinges_ES
dc.subjectAgrupación semántica de palabrases_ES
dc.subject.otherLenguajes y Sistemas Informáticoses_ES
dc.titleComparing Distributional Semantics Models for identifying groups of semantically related wordses_ES
dc.title.alternativeComparación de dos modelos de semántica distribucional para identificar grupos de palabras semánticamente relacionadases_ES
dc.typeinfo:eu-repo/semantics/articlees_ES
dc.peerreviewedsies_ES
dc.relation.publisherversionhttp://journal.sepln.org/sepln/ojs/ojs/index.php/plnes_ES
dc.rights.accessRightsinfo:eu-repo/semantics/openAccesses_ES
Aparece en las colecciones:Procesamiento del Lenguaje Natural - Nº 57 (2016)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_57_12.pdf264,09 kBAdobe PDFAbrir Vista previa


Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.