Errores ortográficos y de competencia en textos de la web en euskera
Please use this identifier to cite or link to this item:
http://hdl.handle.net/10045/14714
Title: | Errores ortográficos y de competencia en textos de la web en euskera |
---|---|
Other Titles: | Orthographic and competence errors in the Basque Web |
Authors: | Alegría Loinaz, Iñaki | Etxeberria Uztarroz, Izaskun | Leturia Azkarate, Igor |
Keywords: | Web as a corpus | Errores ortográficos y de competencia | OCR | Lengua vasca | Spelling | Competence errors | Basque language |
Knowledge Area: | Lenguajes y Sistemas Informáticos |
Issue Date: | Oct-2010 |
Publisher: | Sociedad Española para el Procesamiento del Lenguaje Natural |
Citation: | ALEGRÍA LOINAZ, Iñaki; ETXEBERRIA UZTARROZ, Izaskun; LETURIA AZKARATE, Igor. “Errores ortográficos y de competencia en textos de la web en euskera”. Procesamiento del Lenguaje Natural. N. 45 (2010). ISSN 1135-5948 |
Abstract: | En este trabajo se estima la calidad de los corpus en euskera obtenidos de la Web siguiendo una metodología similar a la propuesta por Ringlstetter et al. (2006) para el inglés y el alemán. Sin embargo nuestro trabajo difiere del mencionado en que al tratar un idioma de gran riqueza morfológica hemos optado por reutilizar verificadores ortográficos para reconocer los errores. Esto trae consigo, en nuestra opinión, una cobertura mayor de los errores que se estudian, además de la reutilización de recursos previamente desarrollados, lo que hace el método interesante para aplicarlo, sin prácticamente trabajo manual, a lenguas que tienen disponibles estos recursos. Los resultados van a ser de gran interés para detectar los distintos tipos de textos obtenidos de la Web en euskera según su corrección, y filtrar aquellos que pueden generar problemas o no tienen una calidad mínima. | The objective of the work presented in this paper is to estimate the quality of corpora retrieved from the Basque Web. The methodology followed is similar to that used for English and Germany by Ringlstetter et al. (2006). The main difference lies in the fact that we reuse spelling checkers for detecting errors. We think that by this way we obtain a higher error coverage and that the method can be applied to other languages with practically no manual work provided such tools are available for them. The results obtained can be useful for improving the quality of corpora obtained from the web, eliminating documents containing errors over a given threshold. |
Sponsor: | Proyecto parcialmente subvencionado por los proyectos OpenMT2 (Ministerio de Ciencia e Innovación, TIN2009-14675-C03-01) y Berbatek (Eusko Jaurlaritza, IE09-262). |
URI: | http://hdl.handle.net/10045/14714 |
ISSN: | 1135-5948 |
Language: | spa |
Type: | info:eu-repo/semantics/article |
Peer Review: | si |
Appears in Collections: | Procesamiento del Lenguaje Natural - Nº 45 (2010) |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
PLN_45_13.pdf | 218,57 kB | Adobe PDF | Open Preview | |
Items in RUA are protected by copyright, with all rights reserved, unless otherwise indicated.