Application of Information Retrieval Techniques to Document Filtered Set Generation for External Plagiarism Detection

Empreu sempre aquest identificador per citar o enllaçar aquest ítem http://hdl.handle.net/10045/85176
Información del item - Informació de l'item - Item information
Títol: Application of Information Retrieval Techniques to Document Filtered Set Generation for External Plagiarism Detection
Títol alternatiu: Aplicación de Técnicas de Recuperación de Información a la Generación de Conjuntos Filtrados de Documentos para la Detección de Plagios Externos
Autors: Micol Ponce, Daniel | Ferrández Escámez, Óscar | Muñoz, Rafael
Grups d'investigació o GITE: Procesamiento del Lenguaje y Sistemas de Información (GPLSI)
Centre, Departament o Servei: Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos
Paraules clau: Conjunto Filtrado | Recuperación de Información | Detección de Plagios | Filtered Set | Information Retrieval | Plagiarism Detection
Àrees de coneixement: Lenguajes y Sistemas Informáticos
Data de publicació: d’octubre-2010
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Citació bibliogràfica: Micol, Daniel; Ferrández, Óscar; Muñoz, Rafael. “Application of Information Retrieval Techniques to Document Filtered Set Generation for External Plagiarism Detection”. Procesamiento del Lenguaje Natural. N. 45 (2010). ISSN 1135-5948
Resum: En este artículo presentamos un método para la generación de conjuntos filtrados de documentos empleando técnicas de recuperación de información. Esto se presenta en el contexto de la detección de plagios externos, aunque las técnicas detalladas en este artículo son aplicables a cualquier tipo de documentos o consultas. La producción de conjuntos filtrados, y por ende la limitación del espacio de búsqueda del problema, puede resultar en una gran mejora de rendimiento y es utilizada hoy en día en gran cantidad de aplicaciones reales, como buscadores web. Respecto a la detección de plagios en documentos, la base de datos de textos con los que comparar el candidato sospechoso es potencialmente grande, y por lo tanto es muy recomendable aplicar técnicas de generación de conjuntos filtrados. | In this paper we present an approach to generate document filtered sets using information retrieval techniques. This is presented in the context of external document plagiarism detection, although the techniques detailed in this paper are applicable to any sort of documents or queries. Producing filtered sets, and hence limiting the problem's search space, can be a tremendous performance improvement and is used today in many real world applications such as web search engines. With regards to document plagiarism detection, the database of documents to match the suspicious candidate against is potentially fairly large, and hence it becomes very recommendable to apply filtered set generation techniques.
Patrocinadors: This research has been partially funded by the Spanish Ministry of Science and Innovation (grant TIN2009-13391-C04-01), the Conselleria d'Educació of the Spanish Generalitat Valenciana (grants PROMETEO/2009/119 and ACOMP/2010/286), and the University of Alicante post-doctoral fellowship program funded by Fundación CajaMurcia.
URI: http://hdl.handle.net/10045/85176
ISSN: 1135-5948
Idioma: eng
Tipus: info:eu-repo/semantics/article
Revisió científica: si
Apareix a la col·lecció: Procesamiento del Lenguaje Natural - Nº 45 (2010)
INV - GPLSI - Artículos de Revistas

Arxius per aquest ítem:
Arxius per aquest ítem:
Arxiu Descripció Tamany Format  
ThumbnailPLN_45_277-280.pdf596,35 kBAdobe PDFObrir Vista prèvia


Tots els documents dipositats a RUA estan protegits per drets d'autors. Alguns drets reservats.