An innovative two-stage WSD unsupervised method

Please use this identifier to cite or link to this item: http://hdl.handle.net/10045/5041
Información del item - Informació de l'item - Item information
Title: An innovative two-stage WSD unsupervised method
Other Titles: Un innovador método no supervisado para desambiguación de sentidos de palabras basado en dos etapas
Authors: Tejada Cárcamo, Javier | Gelbukh Khan, Alexander Felixovitch | Calvo Castro, Francisco Hiram
Keywords: Procesamiento del lenguaje natural | Aprendizaje no supervisado | Desambiguación de sentidos de palabras | Similitud semántica | Natural language processing | Unsupervised machine learning | Word sense disambiguation | Semantic similarity
Issue Date: Apr-2008
Publisher: Sociedad Española para el Procesamiento del Lenguaje Natural
Citation: TEJADA CÁRCAMO, Javier; GELBUKH, Alexander; CALVO, Hiram. "An innovative two-stage WSD unsupervised method". Procesamiento del lenguaje natural. N. 40 (abr. 2008). ISSN 1135-5948, pp. 99-105
Abstract: Se propone un método no supervisado para la desambiguación de sentidos de palabra. El sentido de un vocablo ambiguo depende de los sentidos de otras palabras que aparecen en contextos similares en un corpus. El entrenamiento consiste en obtener una lista ponderada de sinónimos o palabras relacionadas (quasi-sinónimos) para cada vocablo del corpus tomando en cuenta la similitud de sus contextos. Adaptamos el algoritmo de McCarthy et al. 2004 para encontrar el mejor sentido de cada ocurrencia, en lugar de encontrar el sentido predominante de cada palabra en todo el corpus. Su algoritmo de maximización permite entonces que cada quasi-sinónimo acumule puntaje para cada sentido del vocablo ambiguo. El sentido con puntaje más alto es el seleccionado. Se obtuvo una precisión máxima de 69.86% usando el mismo corpus para entrenamiento y desambiguación. | An unsupervised method for word sense disambiguation is proposed. The sense of the word is chosen to be the most similar to the senses of other words that appear in the corpus in similar contexts. Training consists of building a weighted list of related words (quasi-synonyms) for each word; the weights are obtained by measuring similarity between the word’s contexts. We adapt the algorithm of McCarthy et al. 2004 for finding the best sense in each occurrence, instead of finding the predominant sense of each word in the entire corpus. Their maximization algorithm allows then each quasi-synonym to accumulate a score for each ambiguous word sense; the sense with the highest score is chosen. We obtain a top precision of 69.86% using the same corpus for training and disambiguating.
URI: http://hdl.handle.net/10045/5041
ISSN: 1135-5948
Language: eng
Type: info:eu-repo/semantics/article
Appears in Collections:Procesamiento del Lenguaje Natural - Nº 40 (abril 2008)

Files in This Item:
Files in This Item:
File Description SizeFormat 
ThumbnailPLN_40_12.pdf523,36 kBAdobe PDFOpen Preview


Items in RUA are protected by copyright, with all rights reserved, unless otherwise indicated.