Multilingual Controllable Transformer-Based Lexical Simplification

Please use this identifier to cite or link to this item: http://hdl.handle.net/10045/137146
Información del item - Informació de l'item - Item information
Title: Multilingual Controllable Transformer-Based Lexical Simplification
Other Titles: Simplificación Léxica Controlable Multilingüe con Transformers
Authors: Sheang, Kim Cheng | Saggion, Horacio
Keywords: Multilingual Lexical Simplification | Controllable Lexical Simplification | Text Simplification | Multilinguality | Simplificación léxica multilingüe | Simplificación de Texto | Simplificación léxica controlable | Multilingüismo
Issue Date: Sep-2023
Publisher: Sociedad Española para el Procesamiento del Lenguaje Natural
Citation: Procesamiento del Lenguaje Natural. 2023, 71: 109-123. https://doi.org/10.26342/2023-71-9
Abstract: Text is by far the most ubiquitous source of knowledge and information and should be made easily accessible to as many people as possible; however, texts often contain complex words that hinder reading comprehension and accessibility. Therefore, suggesting simpler alternatives for complex words without compromising meaning would help convey the information to a broader audience. This paper proposes mTLS, a multilingual controllable Transformer-based Lexical Simplification (LS) system fined-tuned with the T5 model. The novelty of this work lies in the use of language-specific prefixes, control tokens, and candidates extracted from pretrained masked language models to learn simpler alternatives for complex words. The evaluation results on three well-known LS datasets – LexMTurk, BenchLS, and NNSEval – show that our model outperforms the previous state-of-the-art models like LSBert and ConLS. Moreover, further evaluation of our approach on the part of the recent TSAR-2022 multilingual LS shared-task dataset shows that our model performs competitively when compared with the participating systems for English LS and even outperforms the GPT-3 model on several metrics. Moreover, our model obtains performance gains also for Spanish and Portuguese. | Los textos son la fuente más extendida de transferencia de conocimiento e información y deberían ser accesibles a todos. Sin embargo, los textos pueden contener palabras difíciles de entender, viéndose limitada su accesibilidad. En consecuencia, la substitución de palabras difíciles por alternativas más simples, que por otro lado no comprometan el sentido original del texto, podría ayudar a hacer la información más fácil de entender. En este trabajo proponemos el sistema mTLS de simplificación léxica multilingüe controlable basado en “transformers” multilingües, del tipo T5. La novedad de nuestro método consiste en combinar prefijos específicos del idioma, tokens de control y candidatos extraídos de modelos de lenguaje enmascarados pre-entrenados. Los resultados obtenidos por mTLS en tres conjuntos de datos para el inglés, muy conocidos en simplificación léxica – LexMTurk, BenchLS, and NNSEval – indican que mTLS se comporta mejor que el estado del arte. Además, una evaluación adicional sobre una parte de los datos de la reciente evaluación TSAR-2022 (para simplificación léxica en inglés, español, y portugués) muestra que nuestro modelo supera a todos los sistemas que participaron en la tarea TSAR-2022 en inglés, incluido un modelo basado en GPT-3. Nuestros resultados para español y portugués indican que mTLS funciona mejor que todos los resultados enviados a TSAR-2022.
Sponsor: We acknowledge partial support from the individual project Context-aware Multilingual Text Simplification (ConMuTeS) PID2019-109066GB-I00/AEI/10.13039/501100011033 awarded by Ministerio de Ciencia, Innovación y Universidades (MCIU) and by Agencia Estatal de Investigación (AEI) of Spain. We also acknowledge support from the project MCIN/AEI/10.13039/501100011033 under the Maria de Maeztu Units of Excellence Programme (CEX2021-001195-M) and partial support from Departament de Recerca i Universitats de la Generalitat de Catalunya.
URI: http://hdl.handle.net/10045/137146
ISSN: 1135-5948
DOI: 10.26342/2023-71-9
Language: spa
Type: info:eu-repo/semantics/article
Rights: © Sociedad Española para el Procesamiento del Lenguaje Natural. Distribuido bajo Licencia Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0
Peer Review: si
Publisher version: https://doi.org/10.26342/2023-71-9
Appears in Collections:Procesamiento del Lenguaje Natural - Nº 71 (2023)

Files in This Item:
Files in This Item:
File Description SizeFormat 
ThumbnailPLN_71_09.pdf2,53 MBAdobe PDFOpen Preview


This item is licensed under a Creative Commons License Creative Commons