QuarryMeaning: Una aplicación para el modelado de tópicos enfocado a documentos en español

Empreu sempre aquest identificador per citar o enllaçar aquest ítem http://hdl.handle.net/10045/81339
Información del item - Informació de l'item - Item information
Títol: QuarryMeaning: Una aplicación para el modelado de tópicos enfocado a documentos en español
Títol alternatiu: QuarryMeaning: A Topic Model Application focused on Spanish Documents
Autors: Acosta, Olga | Aguilar, César Antonio | Araya, Fabiola
Paraules clau: Procesamiento de lenguaje natural | Minería de textos | Modelación de temas | Enfoque contrastivo | Clasificación de textos | Natural language processing | Text mining | Topic modeling | Contrastive approach | Text classification
Àrees de coneixement: Lenguajes y Sistemas Informáticos
Data de publicació: de setembre-2018
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Citació bibliogràfica: Procesamiento del Lenguaje Natural. 2018, 61: 197-200. doi:10.26342/2018-61-31
Resum: Esta demostración presenta una aplicación standalone que permite entrenar y probar un modelo de tópicos. Tal aplicación considera filtros para reducir ruido en los resultados. Así, por una parte, se incluye una lista de palabras base no relevantes que se puede complementar con otros vocabularios, ya sean propuestos por el usuario, o bien obtenidos mediante un enfoque comparativo usando un corpus de referencia. Por otro lado, es posible considerar únicamente las palabras que tienen un valor semántico alto usando etiquetas de partes de la oración. Además, se incluye un despliegue visual de nubes de palabras que muestra los primeros 10 tópicos derivados del entrenamiento, con el objetivo de explorar visualmente los resultados. Finalmente, se realizó la evaluación de la herramienta considerando una tarea de clasificación de documentos. El modelo logró niveles de precisión superiores al 95% en el conjunto de prueba. | This demo shows a standalone application that allows to easily train and test a topic model. The application includes filters for reducing noise in the results. On the one hand, a base stop-list is included, but it can be complemented with a non-relevant word list proposed by user, or obtained it by means of a contrastive approach using a reference corpus. On the other hand, words having a high semantic value can be considered using POS tags. We also include a visualization in word-clouds way, where ten topics can be shown, in order to analyze in detail the results. Finally, evaluation was carried out focusing topic model for classifying documents. Our model achieved levels of precision above 95% in the test set.
URI: http://hdl.handle.net/10045/81339
ISSN: 1135-5948
DOI: 10.26342/2018-61-31
Idioma: spa
Tipus: info:eu-repo/semantics/article
Drets: © Sociedad Española para el Procesamiento del Lenguaje Natural
Revisió científica: si
Versió de l'editor: https://doi.org/10.26342/2018-61-31
Apareix a la col·lecció: Procesamiento del Lenguaje Natural - Nº 61 (2018)

Arxius per aquest ítem:
Arxius per aquest ítem:
Arxiu Descripció Tamany Format  
ThumbnailPLN_61_31.pdf3,57 MBAdobe PDFObrir Vista prèvia


Tots els documents dipositats a RUA estan protegits per drets d'autors. Alguns drets reservats.