QuarryMeaning: Una aplicación para el modelado de tópicos enfocado a documentos en español
Empreu sempre aquest identificador per citar o enllaçar aquest ítem
http://hdl.handle.net/10045/81339
Títol: | QuarryMeaning: Una aplicación para el modelado de tópicos enfocado a documentos en español |
---|---|
Títol alternatiu: | QuarryMeaning: A Topic Model Application focused on Spanish Documents |
Autors: | Acosta, Olga | Aguilar, César Antonio | Araya, Fabiola |
Paraules clau: | Procesamiento de lenguaje natural | Minería de textos | Modelación de temas | Enfoque contrastivo | Clasificación de textos | Natural language processing | Text mining | Topic modeling | Contrastive approach | Text classification |
Àrees de coneixement: | Lenguajes y Sistemas Informáticos |
Data de publicació: | de setembre-2018 |
Editor: | Sociedad Española para el Procesamiento del Lenguaje Natural |
Citació bibliogràfica: | Procesamiento del Lenguaje Natural. 2018, 61: 197-200. doi:10.26342/2018-61-31 |
Resum: | Esta demostración presenta una aplicación standalone que permite entrenar y probar un modelo de tópicos. Tal aplicación considera filtros para reducir ruido en los resultados. Así, por una parte, se incluye una lista de palabras base no relevantes que se puede complementar con otros vocabularios, ya sean propuestos por el usuario, o bien obtenidos mediante un enfoque comparativo usando un corpus de referencia. Por otro lado, es posible considerar únicamente las palabras que tienen un valor semántico alto usando etiquetas de partes de la oración. Además, se incluye un despliegue visual de nubes de palabras que muestra los primeros 10 tópicos derivados del entrenamiento, con el objetivo de explorar visualmente los resultados. Finalmente, se realizó la evaluación de la herramienta considerando una tarea de clasificación de documentos. El modelo logró niveles de precisión superiores al 95% en el conjunto de prueba. | This demo shows a standalone application that allows to easily train and test a topic model. The application includes filters for reducing noise in the results. On the one hand, a base stop-list is included, but it can be complemented with a non-relevant word list proposed by user, or obtained it by means of a contrastive approach using a reference corpus. On the other hand, words having a high semantic value can be considered using POS tags. We also include a visualization in word-clouds way, where ten topics can be shown, in order to analyze in detail the results. Finally, evaluation was carried out focusing topic model for classifying documents. Our model achieved levels of precision above 95% in the test set. |
URI: | http://hdl.handle.net/10045/81339 |
ISSN: | 1135-5948 |
DOI: | 10.26342/2018-61-31 |
Idioma: | spa |
Tipus: | info:eu-repo/semantics/article |
Drets: | © Sociedad Española para el Procesamiento del Lenguaje Natural |
Revisió científica: | si |
Versió de l'editor: | https://doi.org/10.26342/2018-61-31 |
Apareix a la col·lecció: | Procesamiento del Lenguaje Natural - Nº 61 (2018) |
Arxius per aquest ítem:
Arxiu | Descripció | Tamany | Format | |
---|---|---|---|---|
PLN_61_31.pdf | 3,57 MB | Adobe PDF | Obrir Vista prèvia | |
Tots els documents dipositats a RUA estan protegits per drets d'autors. Alguns drets reservats.