Extraction of Terms Semantically Related to Colponyms: Evaluation in a Small Specialized Corpus

Empreu sempre aquest identificador per citar o enllaçar aquest ítem http://hdl.handle.net/10045/117489
Información del item - Informació de l'item - Item information
Títol: Extraction of Terms Semantically Related to Colponyms: Evaluation in a Small Specialized Corpus
Títol alternatiu: Extracción de Términos Relacionados Semánticamente con Colpónimos: Evaluación en un Corpus Especializado de Pequeño Tamaño
Autors: Rojas Garcia, Juan
Paraules clau: Colponym | Terminology | Knowledge Representation | Semantic Model | Colpónimo | Terminología | Representación del Conocimiento | Modelo Semántico
Àrees de coneixement: Lenguajes y Sistemas Informáticos
Data de publicació: de setembre-2021
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Citació bibliogràfica: Procesamiento del Lenguaje Natural. 2021, 67: 139-151. https://doi.org/10.26342/2021-67-12
Resum: EcoLexicon is a terminological knowledge base on environmental science, whose design permits the geographic contextualization of data. For the geographic contextualization of named entities such as colponyms (i.e., named bays such as Pensacola Bay) in EcoLexicon, both count-based and prediction-based distributional semantic models (DSMs) were applied to a small-sized, English specialized corpus to extract terms related to each colponym mentioned in it and their semantic relations. Since the evaluation of DSMs in small, specialized corpora has received little attention, this study identified both parameter combinations in DSMs and five similarity/distance measures suitable for the extraction of terms which related to colponyms through the semantic relations takes_place_in, located_at, and attribute_of. The models were thus evaluated using three gold standard datasets. The results showed that: count-based models outperformed prediction-based ones; the similarity/distance measures performed quite similar except for the Euclidean distance; and the detection of a specific relation depended on the context window size. | EcoLexicon es una base de conocimiento terminológica sobre el medioambiente, cuyo diseño permite la contextualización geográfica de colpónimos, esto es, bahías con nombre propio (BNP) (v.gr., Bahía de Pensacola). Se aplicaron modelos semánticos distribucionales (MSD), basados en recuentos y predictivos, a un corpus especializado de pequeño tamaño en inglés para extraer términos relacionados con las BNP y sus relaciones semánticas. Puesto que la evaluación de MSD en corpus especializados de pequeño tamaño ha sido menos explorada, en este artículo se identifican tanto la combinación de parámetros como las cinco medidas de similitud adecuadas para extraer términos que mantengan con las BNP las relaciones tiene_lugar_en, localizado_en y atributo_de. Los MSD se evalúan con tres conjuntos de datos anotados manualmente. Los resultados indican que: los modelos basados en recuentos superan a los modelos predictivos; las medidas de similitud brindan resultados semejantes, excepto la distancia euclídea; y la detección de una relación específica depende del tamaño de la ventana contextual.
Patrocinadors: This research was carried out as part of project PID2020-118369GB-I00, Transversal Integration of Culture in a Terminological Knowledge Base on Environment (TRANSCULTURE), funded by the Spanish Ministry of Science and Innovation.
URI: http://hdl.handle.net/10045/117489
ISSN: 1135-5948
DOI: 10.26342/2021-67-12
Idioma: eng
Tipus: info:eu-repo/semantics/article
Drets: © Sociedad Española para el Procesamiento del Lenguaje Natural
Revisió científica: si
Versió de l'editor: https://doi.org/10.26342/2021-67-12
Apareix a la col·lecció: Procesamiento del Lenguaje Natural - Nº 67 (2021)

Arxius per aquest ítem:
Arxius per aquest ítem:
Arxiu Descripció Tamany Format  
ThumbnailPLN_67_12.pdf1,01 MBAdobe PDFObrir Vista prèvia


Tots els documents dipositats a RUA estan protegits per drets d'autors. Alguns drets reservats.