Reconocimiento y clasificación de entidades nombradas en textos legales en español

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/117482
Información del item - Informació de l'item - Item information
Título: Reconocimiento y clasificación de entidades nombradas en textos legales en español
Título alternativo: Named Entities Recognition and Classification in Spanish Legal Texts
Autor/es: Samy, Doaa
Palabras clave: Entidades Nombradas | Procesamiento de textos legales | Procesamiento del español jurídico | Extracción de la información en textos legales | Named Entities | Legal Text Processing | Information Extraction in Legal Texts | Spanish Legal Text Processing
Área/s de conocimiento: Lenguajes y Sistemas Informáticos
Fecha de publicación: sep-2021
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica: Procesamiento del Lenguaje Natural. 2021, 67: 103-114. https://doi.org/10.26342/2021-67-9
Resumen: El reconocimiento y la clasificación de las entidades nombradas (NER/NERC) es una tarea principal en las áreas del Procesamiento del Lenguaje Natural (PLN) y la Extracción de la Información. El papel de NERC en el dominio legal es imprescindible en el desarrollo de sistemas legales inteligentes. El presente trabajo pretende dar un primer paso hacia establecer un "baseline" para la tarea NERC en el español jurídico. El objetivo principal consiste en proporcionar un recurso lingüístico anotando cinco tipos básicos de entidades nombradas en los textos legislativos en español peninsular. Los cinco tipos de entidades nombradas son: Personas, Organizaciones, Lugares, Fechas absolutas y Referencias a leyes, decretos, órdenes, normativas y artículos. Se adopta una metodología híbrida que reúne tres técnicas principales: Patrones de expresiones regulares, listas de fuentes externas y el entrenamiento de tres modelos NERC utilizando la librería abierta spaCy v3. De los tres modelos entrenados, el mejor ha obtenido un f-score de 0.93 alcanzando en algunos tipos como las menciones a leyes o fechas valores de 0.98 y 0.97 respectivamente. El peor de los modelos ha alcanzado una media de f-score de 0.85 que sigue siendo un resultado satisfactorio comparado con el estado de la cuestión. | Named Entity Recognition and Classification (NER/NERC) is a major task in Natural Language Processing (NLP) and Information Extraction (IE). In the legal domain, NERC is indispensable in developing legal intelligent systems. This study pretends to take a first step towards a baseline for Spanish NERC in the legal domain. The main objective is to provide a linguistic resource by annotating five basic categories of Named Entities in Spanish legislative texts. These five categories are Person, Organization, Location, Dates (absolute expressions) and, finally References to aws, decrees, regulations, etc. To achieve this goal, we adopt a hybrid approach by combining three techniques: hand-crafted patterns through regular expressions, look-up lists and training of three NERC models using the architecture of spaCy. The best model achieved a general f-score of 0.93 with some types of entities such as Legal entities and Dates reaching up to 0.98 and 0.97 respectively. The worst model achieved a general f-score of 0.85, which is still satisfactory given the state of the art.
URI: http://hdl.handle.net/10045/117482
ISSN: 1135-5948
DOI: 10.26342/2021-67-9
Idioma: spa
Tipo: info:eu-repo/semantics/article
Derechos: © Sociedad Española para el Procesamiento del Lenguaje Natural
Revisión científica: si
Versión del editor: https://doi.org/10.26342/2021-67-9
Aparece en las colecciones:Procesamiento del Lenguaje Natural - Nº 67 (2021)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_67_09.pdf1,24 MBAdobe PDFAbrir Vista previa


Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.