Search! Búsqueda e integración de datos tabulares abiertos aplicando técnicas de Inteligencia Artificial

Empreu sempre aquest identificador per citar o enllaçar aquest ítem http://hdl.handle.net/10045/118324
Información del item - Informació de l'item - Item information
Títol: Search! Búsqueda e integración de datos tabulares abiertos aplicando técnicas de Inteligencia Artificial
Autors: Berenguer Pastor, Alberto
Director de la investigació: Mazón, Jose-Norberto | Tomás, David
Centre, Departament o Servei: Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos
Paraules clau: PLN | Embeddings | Datos tabulares | CSV | Buscador | Integración
Àrees de coneixement: Lenguajes y Sistemas Informáticos
Data de publicació: 30-de setembre-2021
Data de lectura: 27-de setembre-2021
Resum: Los datos son un recurso muy preciado hoy en día, dónde cada vez se es más y más consciente de la importancia que tiene su utilización, pudiendo marcar muchas veces la diferencia entre empresas, aplicaciones móviles o investigaciones. Uno de los tipos de datos más utilizados, son los datos tabulares, es decir, aquellos conjuntos de datos que están constituidos por tablas, y que se pueden encontrar comúnmente en formatos como CSV, Excel o tablas HTML. Este tipo de datos, tiene multitud de aplicaciones, desde practicar la minería de datos, alimentar el entrenamiento de modelos de inteligencia artificial, contrastar hipótesis científicas o simplemente para realizar el informe anual de ventas de una tienda. Muchas organizaciones trabajan con sus propios datos, pero en ocasiones, se requiere de datos externos para poder llevar a cabo ciertas tareas o complementar cierta información. En estos casos, juegan un papel importante los datos abiertos, aportados por instituciones y empresas que ofrecen sus datos en portales de datos abiertos para ser reutilizados por cualquier persona. Para cualquiera de las tareas antes mencionadas, el primer paso, es la búsqueda de datos, siendo este un paso tan importante como el propio análisis de los datos, y en el que reducir el tiempo de búsqueda y proporcionar facilidades para encontrar los datos más afines a nuestras necesidades es fundamental para garantizar unos mejores resultados. Los métodos de búsqueda que utilizan hoy en día en los buscadores de los portales de datos abiertos se basan principalmente en los metadatos de los conjuntos, sin embargo, este tipo de búsqueda puede no ofrecer siempre los mejores resultados, ya que depende de la calidad con la que hayan sido definidos esos metadatos, tarea que es realizada manualmente por las personas que aportan los datos, y también de la capacidad de esos metadatos de representar correctamente el conjunto. Este trabajo propone una nueva técnica para realizar la búsqueda de datos, de forma que no sea dependiente únicamente de los metadatos sino del propio contenido, que es, al fin y al cabo, lo que es realmente importante. Esta técnica está basada en modelos de words embeddings, que son modelos que ofrecen representaciones vectoriales de las palabras, estos modelos han sido entrenados con grandes cantidades de texto proveniente de internet, y dónde cada vez más, grandes empresas relacionadas con la IA, sacan modelos cada vez más grandes, más precisos e incluso disponibles para diversos idiomas. La obtención de los words embeddings proveniente del contenido de cada conjunto de datos permiten realizar una búsqueda diferente, que además, se puede ser realizada de tal forma, que la búsqueda sea en función la tarea para la que queremos los datos row extension o column extension. En este trabajo de fin de máster, se ha desarrollado un buscador que hace uso de esta nueva técnica para realizar las búsquedas, además de proveer de una interfaz de búsqueda diferente a la que estamos acostumbrados, estando orientada a la búsqueda de datos tabulares. Adicionalmente, se provee de una interfaz de integración entre datos tabulares, que ofrece al usuario una forma sencilla y efectiva de realizar un primer procesamiento de los datos. Los datos utilizados para ser buscados se obtuvieron desde diferentes portales de datos abiertos alrededor del mundo y que servirán para realizar las pruebas pertinentes a la eficacia de este proyecto. Para probar si realmente es útil este buscador, se realizó un experimento con un grupo de 44 personas, y se les propuso realizar búsquedas de datos en 4 escenarios diferentes, en las que dado un conjunto de datos X, se pretendía que buscarán otro conjunto de datos Y para complementarlo. La mitad de las personas harían uso de los portales de datos abiertos con buscadores convencionales de datos y la otra mitad haría uso del buscador desarrollado en este trabajo. Tras finalizar el experimento y examinar los resultados, la mitad que utilizó el buscador de este trabajo obtuvo búsquedas más rápidas y precisas. Por lo tanto, esta técnica de búsqueda logra mejorar en medida los resultados que se obtienen respecto a buscadores convencionales.
URI: http://hdl.handle.net/10045/118324
Idioma: spa
Tipus: info:eu-repo/semantics/masterThesis
Drets: Licencia Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0
Apareix a la col·lecció: Máster Universitario en Ciencia de Datos - Trabajos Fin de Máster

Arxius per aquest ítem:


Tots els documents dipositats a RUA estan protegits per drets d'autors. Alguns drets reservats.