Comparing Distributional Semantics Models for identifying groups of semantically related words

Kovatchev, Venelin; Salamó Llorente, Maria; Martí Antonín, Maria Antònia

Comparing Distributional Semantics Models for identifying groups of semantically related words

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/57758

Registro completo de metadatos

Registro completo de metadatos
Campo DC	Valor	Idioma
dc.contributor.author	Kovatchev, Venelin	-
dc.contributor.author	Salamó Llorente, Maria	-
dc.contributor.author	Martí Antonín, Maria Antònia	-
dc.date.accessioned	2016-09-12T08:00:13Z	-
dc.date.available	2016-09-12T08:00:13Z	-
dc.date.issued	2016-09	-
dc.identifier.citation	Procesamiento del Lenguaje Natural. 2016, 57: 109-116	es_ES
dc.identifier.issn	1135-5948	-
dc.identifier.uri	http://hdl.handle.net/10045/57758	-
dc.description.abstract	Distributional Semantic Models (DSM) are growing in popularity in Computational Linguistics. DSM use corpora of language use to automatically induce formal representations of word meaning. This article focuses on one of the applications of DSM: identifying groups of semantically related words. We compare two models for obtaining formal representations: a well known approach (CLUTO) and a more recently introduced one (Word2Vec). We compare the two models with respect to the PoS coherence and the semantic relatedness of the words within the obtained groups. We also proposed a way to improve the results obtained by Word2Vec through corpus preprocessing. The results show that: a) CLUTO outperformsWord2Vec in both criteria for corpora of medium size; b) The preprocessing largely improves the results for Word2Vec with respect to both criteria.	es_ES
dc.description.abstract	Los Modelos de Semántica Distribucional (MSD) están siendo utilizados de manera extensiva en el área de la Lingüística Computacional. Los MSD utilizan corpus de uso de la lengua para inducir de manera automática diferentes tipos de representaciones sobre el significado de las palabras. Este artículo se centra en una de las aplicaciones de los MSD: la identificación de grupos de palabras semánticamente relacionadas. Se comparan dos modelos de obtención de representaciones formales: CLUTO, una herramienta estándar de clusterización y Word2Vec, una aproximación reciente al tema. Comparamos los resultados obtenidos con ambos modelos basándonos en dos criterios: la coherencia que presentan estas agrupaciones respecto de la categoría morfosintáctica y la cohesión semántica entre las palabras dentro de cada grupo. Se propone también como mejorar los resultados obtenidos con Word2Vec mediante su preprocesamiento morfosintáctico. Los resultados obtenidos demuestran que: a) CLUTO supera a Word2Vec en ambos criterios cuando se trata de corpus de tamaño medio: b) el preprocesamiento mejora de manera clara los resultados obtenidos con Word2Vec para ambos criterios.	es_ES
dc.description.sponsorship	This work was supported by projects TIN2012-38603-C02-02, SGR-2014-623 and TIN2015-71147-C2-2.	es_ES
dc.language	eng	es_ES
dc.publisher	Sociedad Española para el Procesamiento del Lenguaje Natural	es_ES
dc.rights	© Sociedad Española para el Procesamiento del Lenguaje Natural	es_ES
dc.subject	DSM	es_ES
dc.subject	Word2Vec	es_ES
dc.subject	CLUTO	es_ES
dc.subject	Semantic grouping	es_ES
dc.subject	Agrupación semántica de palabras	es_ES
dc.subject.other	Lenguajes y Sistemas Informáticos	es_ES
dc.title	Comparing Distributional Semantics Models for identifying groups of semantically related words	es_ES
dc.title.alternative	Comparación de dos modelos de semántica distribucional para identificar grupos de palabras semánticamente relacionadas	es_ES
dc.type	info:eu-repo/semantics/article	es_ES
dc.peerreviewed	si	es_ES
dc.relation.publisherversion	http://journal.sepln.org/sepln/ojs/ojs/index.php/pln	es_ES
dc.rights.accessRights	info:eu-repo/semantics/openAccess	es_ES
Aparece en las colecciones:	Procesamiento del Lenguaje Natural - Nº 57 (2016)

Archivos en este ítem:

Archivos en este ítem:
Archivo	Descripción	Tamaño	Formato
PLN_57_12.pdf		264,09 kB	Adobe PDF	Abrir Vista previa Cerrar vista previa

Ver citas en Google Académico

Muestra el registro sencillo