ANALHITZA: a tool to extract linguistic information from large corpora in Humanities research

Empreu sempre aquest identificador per citar o enllaçar aquest ítem http://hdl.handle.net/10045/64033
Información del item - Informació de l'item - Item information
Títol: ANALHITZA: a tool to extract linguistic information from large corpora in Humanities research
Títol alternatiu: ANALHITZA: herramienta para extraer información lingüística de corpus extensos para su uso en investigaciones de ciencias humanas
Autors: Otegi, Arantxa | Imaz, Oier | Díaz de Ilarraza Sánchez, Arantza | Iruskieta Quintian, Mikel | Uria Garin, Larraitz
Paraules clau: Herramienta | Tecnologías del lenguaje | Corpus | Análisis de texto | PoS | Tool | Language technologies | Corpora | Text analysis
Àrees de coneixement: Lenguajes y Sistemas Informáticos
Data de publicació: de març-2017
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Citació bibliogràfica: Procesamiento del Lenguaje Natural. 2017, 58: 77-84
Resum: El tamaño reducido de los corpus en ciertos campos de investigación se debe a la falta de herramientas para procesar el lenguaje de forma masiva y sencilla. En este artículo presentamos ANALHITZA, una herramienta que estamos desarrollando dentro del proyecto Clarin-k que tiene como objetivo principal la creación de tecnologías lingüísticas útiles para la investigación en Ciencias Sociales y Humanidades. ANALHITZA ha sido diseñada para extraer información lingüística online de textos extensos de una forma sencilla. Además, es una herramienta multilingüe que permite analizar textos escritos en tres lenguas: euskera, castellano e inglés. En este artículo, a modo de ejemplo, presentamos tres estudios en los que se ha usado esta herramienta, que puede ser rediseñada para cubrir las necesidades de investigación de muchas de las ramas de Humanidades. | The reduced size of corpora in some areas of research is due to the lack of tools to process massively and easily the language under study. In this article, we present ANALHITZA, a tool which is being developed within the Clarin-k project, whose aim is the creation of linguistic technologies that are useful for research on Social Sciences and Humanities. ANALHITZA has been designed to extract linguistic information online from large corpora in an easy way. Besides, it is a multilingual tool which can process texts written in three languages: Basque, Spanish and English. Moreover, we present three real examples of study where ANALHITZA has been used. The tool can be redesigned or changed, according to the needs of the scientific community in the field of Humanities.
URI: http://hdl.handle.net/10045/64033
ISSN: 1135-5948
Idioma: eng
Tipus: info:eu-repo/semantics/article
Drets: © Sociedad Española para el Procesamiento del Lenguaje Natural
Revisió científica: si
Versió de l'editor: http://journal.sepln.org/sepln/ojs/ojs/index.php/pln
Apareix a la col·lecció: Procesamiento del Lenguaje Natural - Nº 58 (2017)

Arxius per aquest ítem:
Arxius per aquest ítem:
Arxiu Descripció Tamany Format  
ThumbnailPLN_58_09.pdf430,12 kBAdobe PDFObrir Vista prèvia


Tots els documents dipositats a RUA estan protegits per drets d'autors. Alguns drets reservats.