Errores ortográficos y de competencia en textos de la web en euskera

Alegría Loinaz, Iñaki; Etxeberria Uztarroz, Izaskun; Leturia Azkarate, Igor

Errores ortográficos y de competencia en textos de la web en euskera

Please use this identifier to cite or link to this item: http://hdl.handle.net/10045/14714

Información del item - Informació de l'item - Item information
Title:	Errores ortográficos y de competencia en textos de la web en euskera
Other Titles:	Orthographic and competence errors in the Basque Web
Authors:	Alegría Loinaz, Iñaki \| Etxeberria Uztarroz, Izaskun \| Leturia Azkarate, Igor
Keywords:	Web as a corpus \| Errores ortográficos y de competencia \| OCR \| Lengua vasca \| Spelling \| Competence errors \| Basque language
Knowledge Area:	Lenguajes y Sistemas Informáticos
Issue Date:	Oct-2010
Publisher:	Sociedad Española para el Procesamiento del Lenguaje Natural
Citation:	ALEGRÍA LOINAZ, Iñaki; ETXEBERRIA UZTARROZ, Izaskun; LETURIA AZKARATE, Igor. “Errores ortográficos y de competencia en textos de la web en euskera”. Procesamiento del Lenguaje Natural. N. 45 (2010). ISSN 1135-5948
Abstract:	En este trabajo se estima la calidad de los corpus en euskera obtenidos de la Web siguiendo una metodología similar a la propuesta por Ringlstetter et al. (2006) para el inglés y el alemán. Sin embargo nuestro trabajo difiere del mencionado en que al tratar un idioma de gran riqueza morfológica hemos optado por reutilizar verificadores ortográficos para reconocer los errores. Esto trae consigo, en nuestra opinión, una cobertura mayor de los errores que se estudian, además de la reutilización de recursos previamente desarrollados, lo que hace el método interesante para aplicarlo, sin prácticamente trabajo manual, a lenguas que tienen disponibles estos recursos. Los resultados van a ser de gran interés para detectar los distintos tipos de textos obtenidos de la Web en euskera según su corrección, y filtrar aquellos que pueden generar problemas o no tienen una calidad mínima. \| The objective of the work presented in this paper is to estimate the quality of corpora retrieved from the Basque Web. The methodology followed is similar to that used for English and Germany by Ringlstetter et al. (2006). The main difference lies in the fact that we reuse spelling checkers for detecting errors. We think that by this way we obtain a higher error coverage and that the method can be applied to other languages with practically no manual work provided such tools are available for them. The results obtained can be useful for improving the quality of corpora obtained from the web, eliminating documents containing errors over a given threshold.
Sponsor:	Proyecto parcialmente subvencionado por los proyectos OpenMT2 (Ministerio de Ciencia e Innovación, TIN2009-14675-C03-01) y Berbatek (Eusko Jaurlaritza, IE09-262).
URI:	http://hdl.handle.net/10045/14714
ISSN:	1135-5948
Language:	spa
Type:	info:eu-repo/semantics/article
Peer Review:	si
Appears in Collections:	Procesamiento del Lenguaje Natural - Nº 45 (2010)

Files in This Item:

Files in This Item:
File	Description	Size	Format
PLN_45_13.pdf		218,57 kB	Adobe PDF	Open Preview Close preview

See citations in Google Scholar

Show full item record