Extraction of Terms Semantically Related to Colponyms: Evaluation in a Small Specialized Corpus
Empreu sempre aquest identificador per citar o enllaçar aquest ítem
http://hdl.handle.net/10045/117489
Títol: | Extraction of Terms Semantically Related to Colponyms: Evaluation in a Small Specialized Corpus |
---|---|
Títol alternatiu: | Extracción de Términos Relacionados Semánticamente con Colpónimos: Evaluación en un Corpus Especializado de Pequeño Tamaño |
Autors: | Rojas Garcia, Juan |
Paraules clau: | Colponym | Terminology | Knowledge Representation | Semantic Model | Colpónimo | Terminología | Representación del Conocimiento | Modelo Semántico |
Àrees de coneixement: | Lenguajes y Sistemas Informáticos |
Data de publicació: | de setembre-2021 |
Editor: | Sociedad Española para el Procesamiento del Lenguaje Natural |
Citació bibliogràfica: | Procesamiento del Lenguaje Natural. 2021, 67: 139-151. https://doi.org/10.26342/2021-67-12 |
Resum: | EcoLexicon is a terminological knowledge base on environmental science, whose design permits the geographic contextualization of data. For the geographic contextualization of named entities such as colponyms (i.e., named bays such as Pensacola Bay) in EcoLexicon, both count-based and prediction-based distributional semantic models (DSMs) were applied to a small-sized, English specialized corpus to extract terms related to each colponym mentioned in it and their semantic relations. Since the evaluation of DSMs in small, specialized corpora has received little attention, this study identified both parameter combinations in DSMs and five similarity/distance measures suitable for the extraction of terms which related to colponyms through the semantic relations takes_place_in, located_at, and attribute_of. The models were thus evaluated using three gold standard datasets. The results showed that: count-based models outperformed prediction-based ones; the similarity/distance measures performed quite similar except for the Euclidean distance; and the detection of a specific relation depended on the context window size. | EcoLexicon es una base de conocimiento terminológica sobre el medioambiente, cuyo diseño permite la contextualización geográfica de colpónimos, esto es, bahías con nombre propio (BNP) (v.gr., Bahía de Pensacola). Se aplicaron modelos semánticos distribucionales (MSD), basados en recuentos y predictivos, a un corpus especializado de pequeño tamaño en inglés para extraer términos relacionados con las BNP y sus relaciones semánticas. Puesto que la evaluación de MSD en corpus especializados de pequeño tamaño ha sido menos explorada, en este artículo se identifican tanto la combinación de parámetros como las cinco medidas de similitud adecuadas para extraer términos que mantengan con las BNP las relaciones tiene_lugar_en, localizado_en y atributo_de. Los MSD se evalúan con tres conjuntos de datos anotados manualmente. Los resultados indican que: los modelos basados en recuentos superan a los modelos predictivos; las medidas de similitud brindan resultados semejantes, excepto la distancia euclídea; y la detección de una relación específica depende del tamaño de la ventana contextual. |
Patrocinadors: | This research was carried out as part of project PID2020-118369GB-I00, Transversal Integration of Culture in a Terminological Knowledge Base on Environment (TRANSCULTURE), funded by the Spanish Ministry of Science and Innovation. |
URI: | http://hdl.handle.net/10045/117489 |
ISSN: | 1135-5948 |
DOI: | 10.26342/2021-67-12 |
Idioma: | eng |
Tipus: | info:eu-repo/semantics/article |
Drets: | © Sociedad Española para el Procesamiento del Lenguaje Natural |
Revisió científica: | si |
Versió de l'editor: | https://doi.org/10.26342/2021-67-12 |
Apareix a la col·lecció: | Procesamiento del Lenguaje Natural - Nº 67 (2021) |
Arxius per aquest ítem:
Arxiu | Descripció | Tamany | Format | |
---|---|---|---|---|
PLN_67_12.pdf | 1,01 MB | Adobe PDF | Obrir Vista prèvia | |
Tots els documents dipositats a RUA estan protegits per drets d'autors. Alguns drets reservats.