Desarrollo de un modelo de Procesamiento del Lenguaje Natural para la extracción de información en documentos del dominio de la salud

Grande Ruiz, Eduardo

Desarrollo de un modelo de Procesamiento del Lenguaje Natural para la extracción de información en documentos del dominio de la salud

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/135626

Información del item - Informació de l'item - Item information
Título:	Desarrollo de un modelo de Procesamiento del Lenguaje Natural para la extracción de información en documentos del dominio de la salud
Autor/es:	Grande Ruiz, Eduardo
Director de la investigación:	Gutiérrez, Yoan
Centro, Departamento o Servicio:	Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos
Palabras clave:	Procesamiento del lenguaje natural \| Inteligencia artificial \| Extracción de información \| Modelo BERT \| Documentos científicos \| Enfermedades raras
Fecha de publicación:	29-jun-2023
Fecha de lectura:	jun-2023
Resumen:	En la actualidad existen múltiples modelos de inteligencia artificial centrados en la detección de entidades nombradas, que son capaces de detectar una amplia variedad de aspectos. En este trabajo, se centran esos aspectos a enfermedades raras, detectándolas en textos del ámbito clínico. Todos esos textos clínicos son resúmenes de documentos científicos publicados en PubMed. De las enfermedades, no solo se detectarán sus nombres en sí, sino que se quieren detectar una amplia variedad de aspectos relacionados con esas enfermedades, como por ejemplo, sus causas, tratamientos, diagnósticos... Todos esos aspectos se clasificarán en una serie de categorías. Las anotaciones del modelo se generarán, en primera instancia, de forma automática, usando la herramienta Metathesaurus, contenida dentro de UMLS, un sistema de lenguaje médico. Metathesaurus contiene más de 3 millones de conceptos, siendo la inmensa mayoría del ámbito clínico. Además, cuenta con una serie de categorías ya definidas, y con los conceptos clasificados en estas categorías. Para cada texto, se cuenta con un archivo txt que contiene el texto y un archivo ann que contiene sus anotaciones. Esas anotaciones se encuentran definidas en formato BRAT, un formato de anotación que permite después visualizarlas de forma fácil, modificarlas y crear nuevas. Para cada anotación, se especifica el inicio, final, la categoría a la que pertenece y las palabras o grupos de palabras sobre las que se aplica. Una vez se cuenta con esas anotaciones, es posible revisarlas manualmente para que el corpus sea de la mayor calidad posible, pero al tener una base ya de anotaciones, esta tarea será más ágil. La clasificación que se debe de realizar es compleja, ya que contiene bastantes categorías, además de que cada palabra (o grupos de palabras) pueden pertenecer a la vez a varias clases, por lo que las anotaciones se pueden superponer tanto de forma estricta (mismo inicio y final) como de forma parcial. Para la obtención del modelo, se contará como base PubMedBERT, un modelo basado en BERT reentrenado por Microsoft con vocabulario del ámbito clínico, también extraído de PubMed. Este modelo será ajustado para poder ser usado en esta tarea en concreto. Como es una tarea particular, se han definido una serie de métricas, diferenciando las tareas de detección y de clasificación. Esas métricas serán de utilidad para conocer el rendimiento del modelo, y poder ver así si es lo suficientemente bueno, o por contra, se deben de realizar mejoras para obtener mejor rendimiento. En conclusión, este trabajo busca desarrollar un modelo para la detección de enfermedades raras en textos clínicos, usando un corpus extraído de documentos científicos clínicos. Las anotaciones podrán solaparse, por lo que al tratarse de una tarea particular de detección de entidades, se realizan modificaciones sobre el modelo para reentrenarlo y métricas para medir el modelo resultante.
URI:	http://hdl.handle.net/10045/135626
Idioma:	spa
Tipo:	info:eu-repo/semantics/masterThesis
Derechos:	Licencia Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0
Aparece en las colecciones:	Máster Universitario en Ciencia de Datos - Trabajos Fin de Máster

Archivos en este ítem:

Archivos en este ítem:
Archivo	Descripción	Tamaño	Formato
TFM-Eduardo-Grande-Ruiz.pdf		941,19 kB	Adobe PDF	Abrir Vista previa Cerrar vista previa

Ver citas en Google Académico

Muestra el registro completo

Este ítem está licenciado bajo Licencia Creative Commons