Detección de Web Spam basada en la recuperación automática de enlaces

Araujo Serna, Lourdes; Martínez Romo, Juan

Detección de Web Spam basada en la recuperación automática de enlaces

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/10542

Registro completo de metadatos

Registro completo de metadatos
Campo DC	Valor	Idioma
dc.contributor.author	Araujo Serna, Lourdes	-
dc.contributor.author	Martínez Romo, Juan	-
dc.date.accessioned	2009-05-20T10:25:08Z	-
dc.date.available	2009-05-20T10:25:08Z	-
dc.date.issued	2009-03	-
dc.identifier.citation	ARAUJO SERNA, Lourdes; MARTÍNEZ ROMO, Juan. “Detección de Web Spam basada en la recuperación automática de enlaces”. Procesamiento del lenguaje natural. N. 42 (marzo 2009). ISSN 1135-5948, pp. 39-46	en
dc.identifier.issn	1135-5948	-
dc.identifier.uri	http://hdl.handle.net/10045/10542	-
dc.description.abstract	Actualmente el Web Spam es una guerra abierta entre los motores de búsqueda, tratando de garantizar unos resultados relevantes al usuario, y una comunidad, cuyo interés reside en intentar engañar a los primeros en busca de un mejor ranking para sus páginas. En este trabajo presentamos un estudio preliminar sobre distintas medidas que podrían ser útiles para la construcción de un sistema novedoso en la detección de Web Spam. Algunas de estas medidas se basan en los resultados de un sistema de recuperación automática de enlaces web rotos. El sistema utiliza distintas fuentes de información de la página analizada y la información extraída de estas fuentes se utiliza para realizar una consulta a un motor de búsqueda usual, como Google o Yahoo!. Las páginas recuperadas son ordenadas posteriormente en base a su contenido, utilizando técnicas de recuperación de información. Finalmente, el análisis del grado de recuperación de los enlaces es empleado, junto a otras medidas, como un indicador de Spam.	en
dc.description.abstract	Nowadays, Web Spam is a war between search engines, trying to ensure that the results are relevant to the user, and a community that tries to mislead the search engine to attract to the former ones to its pages. In this work, we present a preliminary study about several features that can be useful for building a novel web spam detection system. Some of these features are obtained from a system for automatic recovery of broken Web links. This system uses several sources of information from the analyzed page to extract useful data that are used later to perform a query to a typical search engine, as Google or Yahoo!. Afterwards, retrieved pages are ordered based on its content, using information retrieval techniques. Finally, the recovery links degree is used, along with other features, as an indicator of Spam.	en
dc.description.sponsorship	Trabajo financiado por el proyecto TIN2007-67581-C02-01.	en
dc.language	spa	en
dc.publisher	Sociedad Española para el Procesamiento del Lenguaje Natural	en
dc.subject	Recuperación de información	en
dc.subject	World Wide Web	en
dc.subject	Enlaces rotos	en
dc.subject	Web spam	en
dc.subject	Information retrieval	en
dc.subject	Broken links	en
dc.subject.other	Lenguajes y Sistemas Informáticos	en
dc.title	Detección de Web Spam basada en la recuperación automática de enlaces	en
dc.title.alternative	Detecting Web Spam using a recovering Web links system	en
dc.type	info:eu-repo/semantics/article	en
dc.peerreviewed	si	en
dc.rights.accessRights	info:eu-repo/semantics/openAccess	-
Aparece en las colecciones:	Procesamiento del Lenguaje Natural - Nº 42 (marzo 2009)

Archivos en este ítem:

Archivos en este ítem:
Archivo	Descripción	Tamaño	Formato
PLN_42_05.pdf		864,34 kB	Adobe PDF	Abrir Vista previa Cerrar vista previa

Ver citas en Google Académico

Muestra el registro sencillo