Inducción automática de una taxonomía multilingüe de marcadores discursivos: primeros resultados en castellano, inglés, francés, alemán y catalán

Empreu sempre aquest identificador per citar o enllaçar aquest ítem http://hdl.handle.net/10045/117488
Información del item - Informació de l'item - Item information
Títol: Inducción automática de una taxonomía multilingüe de marcadores discursivos: primeros resultados en castellano, inglés, francés, alemán y catalán
Títol alternatiu: Automatic induction of a multilingual taxonomy of discourse markers: first results in Spanish, English, French, German and Catalan
Autors: Nazar, Rogelio
Paraules clau: Inducción de taxonomías | Marcadores discursivos | Partículas del discurso | Lexicografía computacional | Taxonomy induction | Discourse markers | Discurse particles | Computational lexicography
Àrees de coneixement: Lenguajes y Sistemas Informáticos
Data de publicació: de setembre-2021
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Citació bibliogràfica: Procesamiento del Lenguaje Natural. 2021, 67: 127-138. https://doi.org/10.26342/2021-67-11
Resum: Este artículo presenta una propuesta metodológica para la inducción automática de una taxonomía multilingüe de marcadores discursivos, que en el caso del castellano corresponden a unidades tales como sin embargo, por lo tanto, por un lado, etc. Se propone primeramente un método para separar estas unidades del resto del vocabulario por medio del cálculo de su cantidad de información, seguido de su agrupación en categorías funcionales mediante un corpus paralelo. Finalmente, esta categorización se utiliza como base para la obtención y clasificación de nuevas unidades. Además del método, se describen los primeros resultados, consistentes en una base de datos que actualmente supera ya los 2.600 marcadores. | This paper presents a methodological proposal por the automatic induction of a multilingual taxonomy of discourse markers which, in the case of English, correspond to units such as however, therefore, by the way, etc. First, a method is proposed to separate such units from the rest of the vocabulary using a measure of information, followed by a method to group them using a parallel corpus. Finally, this categorization is used as the basis for the extraction and classification of new units. Apart from the method, the first results are described, which consist of a database that currently surpasses 2600 units.
Patrocinadors: Esta investigación ha sido financiada por el Gobierno de Chile a través del Proyecto Fondecyt Regular 1191481: Inducción automática de taxonomías de marcadores discursivos a partir de corpus multilingües (2019-2021).
URI: http://hdl.handle.net/10045/117488
ISSN: 1135-5948
DOI: 10.26342/2021-67-11
Idioma: spa
Tipus: info:eu-repo/semantics/article
Drets: © Sociedad Española para el Procesamiento del Lenguaje Natural
Revisió científica: si
Versió de l'editor: https://doi.org/10.26342/2021-67-11
Apareix a la col·lecció: Procesamiento del Lenguaje Natural - Nº 67 (2021)

Arxius per aquest ítem:
Arxius per aquest ítem:
Arxiu Descripció Tamany Format  
ThumbnailPLN_67_11.pdf774,22 kBAdobe PDFObrir Vista prèvia


Tots els documents dipositats a RUA estan protegits per drets d'autors. Alguns drets reservats.