Determinación del umbral de representatividad de un corpus mediante el algoritmo N-Cor

Corpas Pastor, Gloria; Seghiri Domínguez, Míriam

Determinación del umbral de representatividad de un corpus mediante el algoritmo N-Cor

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/2997

Información del item - Informació de l'item - Item information
Título:	Determinación del umbral de representatividad de un corpus mediante el algoritmo N-Cor
Autor/es:	Corpas Pastor, Gloria \| Seghiri Domínguez, Míriam
Palabras clave:	Representatividad \| Lingüística de corpus \| Compilación de corpus \| Corpus especializado \| Representativeness \| Corpus linguistics \| Corpus compilation \| Specialised corpus
Fecha de publicación:	sep-2007
Editor:	Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica:	CORPAS PASTOR, Gloria; SEGHIRI DOMÍNGUEZ, Míriam. "Determinación del umbral de representatividad de un corpus mediante el algoritmo N-Cor". Procesamiento del lenguaje natural. N. 39 (sept. 2007). ISSN 1135-5948, pp. 165-172
Resumen:	En las páginas que siguen a continuación vamos a describir un método para calcular el umbral mínimo de representatividad de un corpus mediante el algoritmo N-Cor de análisis de la densidad léxica en función del aumento incremental del corpus. Se trata de una solución eficaz para determinar a posteriori, por primera vez de forma objetiva y cuantificable, el tamaño mínimo que debe alcanzar un corpus para que sea considerado representativo en términos estadísticos. Este método se ha visto implementado en la aplicación informática ReCor. Con dicha herramienta vamos a comprobar si un corpus de seguros turísticos en español que hemos compilado sería representativo para realizar estudios lingüístico-textuales y poder ser utilizarlo en traducción. \| In this paper we describe a method to determine the representativeness threshold for any given corpus. By using the N-Cor algorithm it is possible to quantify a posteriori the minimum number of documents and words that should be included in a specialised language corpus, in order that it may be considered representative. This method has been implemented by means of a computer program (ReCor). This program will be used here to check whether a corpus of insurance policies in Spanish is representative enough in order to carry out textlinguistic studies and translation tasks.
Patrocinador/es:	El presente trabajo ha sido realizado en el seno del proyecto La contratación turística electrónica multilingüe como mediación intercultural: aspectos legales, traductológicos y terminológicos (Ref. nº HUM-892, 2006-2009. Proyecto de Excelencia, Junta de Andalucía)
URI:	http://hdl.handle.net/10045/2997
ISSN:	1135-5948
Idioma:	spa
Tipo:	info:eu-repo/semantics/article
Aparece en las colecciones:	Procesamiento del Lenguaje Natural - Nº 39 (septiembre 2007)

Archivos en este ítem:

Archivos en este ítem:
Archivo	Descripción	Tamaño	Formato
PLN_39_20.pdf		290,81 kB	Adobe PDF	Abrir Vista previa Cerrar vista previa

Ver citas en Google Académico

Muestra el registro completo