Reconocimiento y clasificación de entidades nombradas en textos legales en español

Please use this identifier to cite or link to this item: http://hdl.handle.net/10045/117482
Información del item - Informació de l'item - Item information
Title: Reconocimiento y clasificación de entidades nombradas en textos legales en español
Other Titles: Named Entities Recognition and Classification in Spanish Legal Texts
Authors: Samy, Doaa
Keywords: Entidades Nombradas | Procesamiento de textos legales | Procesamiento del español jurídico | Extracción de la información en textos legales | Named Entities | Legal Text Processing | Information Extraction in Legal Texts | Spanish Legal Text Processing
Knowledge Area: Lenguajes y Sistemas Informáticos
Issue Date: Sep-2021
Publisher: Sociedad Española para el Procesamiento del Lenguaje Natural
Citation: Procesamiento del Lenguaje Natural. 2021, 67: 103-114. https://doi.org/10.26342/2021-67-9
Abstract: El reconocimiento y la clasificación de las entidades nombradas (NER/NERC) es una tarea principal en las áreas del Procesamiento del Lenguaje Natural (PLN) y la Extracción de la Información. El papel de NERC en el dominio legal es imprescindible en el desarrollo de sistemas legales inteligentes. El presente trabajo pretende dar un primer paso hacia establecer un "baseline" para la tarea NERC en el español jurídico. El objetivo principal consiste en proporcionar un recurso lingüístico anotando cinco tipos básicos de entidades nombradas en los textos legislativos en español peninsular. Los cinco tipos de entidades nombradas son: Personas, Organizaciones, Lugares, Fechas absolutas y Referencias a leyes, decretos, órdenes, normativas y artículos. Se adopta una metodología híbrida que reúne tres técnicas principales: Patrones de expresiones regulares, listas de fuentes externas y el entrenamiento de tres modelos NERC utilizando la librería abierta spaCy v3. De los tres modelos entrenados, el mejor ha obtenido un f-score de 0.93 alcanzando en algunos tipos como las menciones a leyes o fechas valores de 0.98 y 0.97 respectivamente. El peor de los modelos ha alcanzado una media de f-score de 0.85 que sigue siendo un resultado satisfactorio comparado con el estado de la cuestión. | Named Entity Recognition and Classification (NER/NERC) is a major task in Natural Language Processing (NLP) and Information Extraction (IE). In the legal domain, NERC is indispensable in developing legal intelligent systems. This study pretends to take a first step towards a baseline for Spanish NERC in the legal domain. The main objective is to provide a linguistic resource by annotating five basic categories of Named Entities in Spanish legislative texts. These five categories are Person, Organization, Location, Dates (absolute expressions) and, finally References to aws, decrees, regulations, etc. To achieve this goal, we adopt a hybrid approach by combining three techniques: hand-crafted patterns through regular expressions, look-up lists and training of three NERC models using the architecture of spaCy. The best model achieved a general f-score of 0.93 with some types of entities such as Legal entities and Dates reaching up to 0.98 and 0.97 respectively. The worst model achieved a general f-score of 0.85, which is still satisfactory given the state of the art.
URI: http://hdl.handle.net/10045/117482
ISSN: 1135-5948
DOI: 10.26342/2021-67-9
Language: spa
Type: info:eu-repo/semantics/article
Rights: © Sociedad Española para el Procesamiento del Lenguaje Natural
Peer Review: si
Publisher version: https://doi.org/10.26342/2021-67-9
Appears in Collections:Procesamiento del Lenguaje Natural - Nº 67 (2021)

Files in This Item:
Files in This Item:
File Description SizeFormat 
ThumbnailPLN_67_09.pdf1,24 MBAdobe PDFOpen Preview


Items in RUA are protected by copyright, with all rights reserved, unless otherwise indicated.