Martínez-Murillo, Iván, Moreda, Paloma, Lloret, Elena
Analysing the Problem of Automatic Evaluation of Language Generation Systems
Procesamiento del Lenguaje Natural. 2024, 72: 123-136. https://doi.org/10.26342/2024-72-9
URI: http://hdl.handle.net/10045/142187
DOI: 10.26342/2024-72-9
ISSN: 1135-5948
Abstract: 
Automatic text evaluation metrics are widely used to measure the performance of a Natural Language Generation (NLG) system. However, these metrics have several limitations. This article empirically analyses the problem with current evaluation metrics, such as their lack of ability to measure the semantic quality of a text or their high dependence on the texts they are compared against. Additionally, traditional NLG systems are compared against more recent systems based on neural networks. Finally, an experiment with GPT-4 is proposed to determine if it is a reliable source for evaluating the validity of a text. From the results obtained, it can be concluded that with the current automatic metrics, the improvement of neural systems compared to traditional ones is not so significant. On the other hand, if we analyse the qualitative aspects of the texts generated, this improvement is reflected.
Las métricas automáticas de evaluación de texto se utilizan ampliamente para medir el rendimiento de un sistema de Generación de Lenguaje Natural (GLN). Sin embargo, estas métricas tienen varias limitaciones. Este artículo propone un estudio empírico donde se analiza el problema que tienen las métricas de evaluación actuales, como la falta capacidad que tienen estos sistemas de medir la calidad semántica de un texto, o la alta dependencia que tienen estas métricas sobre los textos contra los que se comparan. Además, se comparan sistemas de GLN tradicionales contra sistemas más actuales basados en redes neuronales. Finalmente, se propone una experimentación con GPT-4 para determinar si es una fuente fiable para evaluar la calidad de un texto. A partir de los resultados obtenidos, se puede concluir que con las métricas automáticas actuales la mejora de los sistemas neuronales frente a los tradicionales no es tan significativa. En cambio, si se analizan los aspectos cualitativos de los textos generados, sí que se refleja esa mejora.
Keywords:Natural Language Generation, Evaluation metrics, NLG architectures, Language models, Generación de Lenguaje Natural, Métricas de evaluación, Arquitecturas de generación, Modelos de lenguaje
Sociedad Española para el Procesamiento del Lenguaje Natural
info:eu-repo/semantics/article