Método híbrido para categorización de texto basado en aprendizaje y reglas

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/16939
Información del item - Informació de l'item - Item information
Título: Método híbrido para categorización de texto basado en aprendizaje y reglas
Título alternativo: Hybrid approach for text categorization based on machine learning and rules
Autor/es: Villena Román, Julio | Collada Pérez, Sonia | Lana Serrano, Sara | González Cristóbal, José Carlos
Palabras clave: Clasificación automática de texto | Aprendizaje computacional | Sistema basado en reglas | kNN | Reuters-21578 | IPTC | EUROVOC | Evaluación | Text categorization | Machine learning | Rule-based system | Evaluation
Área/s de conocimiento: Lenguajes y Sistemas Informáticos
Fecha de publicación: abr-2011
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica: VILLENA ROMÁN, Julio, et al. “Método híbrido para categorización de texto basado en aprendizaje y reglas”. Procesamiento del Lenguaje Natural. N. 46 (2011). ISSN 1135-5948, pp. 35-42
Resumen: En este artículo se presenta un nuevo método híbrido de categorización automática de texto, que combina un algoritmo de aprendizaje computacional, que permite construir un modelo base de clasificación sin mucho esfuerzo a partir de un corpus etiquetado, con un sistema basado en reglas en cascada que se emplea para filtrar y reordenar los resultados de dicho modelo base. El modelo puede afinarse añadiendo reglas específicas para aquellas categorías difíciles que no se han entrenado de forma satisfactoria. Se describe una implementación realizada mediante el algoritmo kNN y un lenguaje básico de reglas basado en listas de términos que aparecen en el texto a clasificar. El sistema se ha evaluado en diferentes escenarios incluyendo el corpus de noticias Reuters-21578 para comparación con otros enfoques, y los modelos IPTC y EUROVOC. Los resultados demuestran que el sistema obtiene una precisión y cobertura comparables con las de los mejores métodos del estado del arte. | This paper discusses a novel method for text categorization that combines a machine learning algorithm able to build a base model with low effort by using a labeled available corpus, along with a rule-based expert system in cascade used to filter and rerank the output of the previous classifier. The model can be fine-tuned by adding specific rules for those difficult classes that have not been successfully trained. We describe an implementation based on kNN algorithm and a basic rule language that expresses lists of terms appearing in the text. The system is trained and evaluated in different scenarios, including the popular Reuters-21578 news corpus for comparison to other approaches, and the IPTC and EUROVOC models. Results show that this approach achieves a precision that is comparable to other top state-of-the-art methods.
Patrocinador/es: Esta investigación ha sido parcialmente financiada por los proyectos de I+D BUSCAMEDIA (CEN-20091026), MULTIMEDICA (TIN2010-20644-C03-01) y BRAVO (TIN2007-67407-C03-01).
URI: http://hdl.handle.net/10045/16939
ISSN: 1135-5948
Idioma: spa
Tipo: info:eu-repo/semantics/article
Revisión científica: si
Aparece en las colecciones:Procesamiento del Lenguaje Natural - Nº 46 (2011)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_46_04.pdf609,81 kBAdobe PDFAbrir Vista previa


Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.