WWW como fuente de recursos lingüíticos para su uso en PLN
Please use this identifier to cite or link to this item:
http://hdl.handle.net/10045/1796
Title: | WWW como fuente de recursos lingüíticos para su uso en PLN |
---|---|
Authors: | Martínez Santiago, Fernando | Ureña López, Luis Alfonso | García Vega, Manuel |
Keywords: | Web | Corpus | Procesamiento del lenguaje natural |
Issue Date: | Sep-2001 |
Publisher: | Sociedad Española para el Procesamiento del Lenguaje Natural |
Citation: | MARTÍNEZ SANTIAGO, Fernando; UREÑA LÓPEZ, Luis Alfonso; GARCÍA VEGA, Manuel. “WWW como fuente de recursos lingüíticos para su uso en PLN”. Procesamiento del lenguaje natural. Nº 27 (sept. 2001), pp. 141-148 |
Abstract: | Crear un corpus extraído a partir de la Web está lejos de ser una tarea trivial. El elevado grado de heterogeneidad que es usual encontrar en el formato HTML, la gran cantidad de información irrelevante tanto en el sitio Web como dentro de una misma página y otros problemas de diversa índole, dificultan la obtención de un conjunto de documentos de aspecto homogéneo, estructurado y libre de ruido. Es presentada aquí una herramienta que pretende no sólo recuperar y almacenar selectivamente determinados sitios Web, sino dotar a los documentos obtenidos de un formato conveniente y homogéneo para su procesamiento automático, con independencia del origen de cada documento. |
URI: | http://hdl.handle.net/10045/1796 |
ISSN: | 1135-5948 |
Language: | spa |
Type: | info:eu-repo/semantics/article |
Appears in Collections: | Procesamiento del Lenguaje Natural - Nº 27 (septiembre 2001) |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
PLN_27_16.pdf | 38,12 kB | Adobe PDF | Open Preview | |
Items in RUA are protected by copyright, with all rights reserved, unless otherwise indicated.