Performance analysis of Particle Swarm Optimization applied to unsupervised categorization of short texts

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/18538
Información del item - Informació de l'item - Item information
Título: Performance analysis of Particle Swarm Optimization applied to unsupervised categorization of short texts
Título alternativo: Análisis de prestación de Particle Swarm Optimization aplicado a categorización no supervisada de textos cortos
Autor/es: Cagnina, Leticia | Ingaramo, Diego Alejandro | Errecalde, Marcelo Luis | Rosso, Paolo
Palabras clave: Categorización no supervisada | Textos cortos | Optimización mediante cúmulo de partículas | Unsupervised categorization | Short texts | Particle Swarm Optimization
Área/s de conocimiento: Lenguajes y Sistemas Informáticos
Fecha de publicación: sep-2011
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica: CAGNINA, Leticia, et al. “Performance analysis of Particle Swarm Optimization applied to unsupervised categorization of short texts”. Procesamiento del Lenguaje Natural. N. 47 (2011). ISSN 1135-5948, pp. 207-214
Resumen: Existe actualmente la necesidad de acceder a información en línea tal como resúmenes, noticias, opiniones, evaluaciones de productos, etc. Dicha información está disponible en la web, generalmente con el formato de textos cortos. Trabajos previos han demostrado la efectividad de un algoritmo discreto Particle Swarm Optimization, llamado CLUDIPSO, para el agrupamiento de colecciones pequeñas de textos cortos. Este artículo presenta un estudio preliminar sobre la prestación de CLUDIPSO con colecciones más grandes. Los resultados fueron comparados con los obtenidos con algoritmos representativos del estado del arte en el área. El trabajo experimental muestra una fuerte evidencia sobre los inconvenientes que posee el algoritmo cuando debe agrupar colecciones de mayor tamaño. Con respecto a este último aspecto, se discuten posibles razones del comportamiento inadecuado de CLUDIPSO y se consideran algunas alternativas para resolver los problemas observados. | Nowadays there is a need to access to on line information such as abstracts, news, opinions, evaluations of products, etc. That information is generally available on the web as short texts. Previous works have demonstrated the effectiveness of a discrete Particle Swarm Optimization algorithm, named CLUDIPSO, for clustering small short-text corpora. This article presents a preliminary study about the performance of CLUDIPSO on larger short-text corpora. The results were compared with those of the most representative algorithms of the state-of-the-art in the area. The experimental work gives strong evidence about the drawbacks of this algorithm to manage larger corpora. With respect to this last aspect, some possible reasons about the poor behavior of CLUDIPSO with larger short texts corpora are discussed and some alternatives in order to solve the problems observed, are considered.
Patrocinador/es: This research work was done in the framework of Marie Curie actions PEOPLE-IRSES 269180 WiQ-Ei: Web information Quality Evaluation initiative. The work of the first author is partially funded by the UPV program PAID-02-10-2257. The work of the last two authors is partially funded by the MICINN research project TEXT-ENTERPRISE 2.0 TIN2009-13391-C04-03 (Plan I+D+i).
URI: http://hdl.handle.net/10045/18538
ISSN: 1135-5948
Idioma: eng
Tipo: info:eu-repo/semantics/article
Revisión científica: si
Aparece en las colecciones:Procesamiento del Lenguaje Natural - Nº 47 (2011)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_47_22.pdf610,35 kBAdobe PDFAbrir Vista previa


Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.