Unimodal Feature-level improvement on Multimodal CMU-MOSEI Dataset: Uncorrelated and Convolved Feature Sets

Please use this identifier to cite or link to this item: http://hdl.handle.net/10045/117480
Información del item - Informació de l'item - Item information
Title: Unimodal Feature-level improvement on Multimodal CMU-MOSEI Dataset: Uncorrelated and Convolved Feature Sets
Other Titles: Mejora unimodal a nivel de características en el dataset multimodal CMU-MOSEI: Características no correlacionadas y convolucionadas
Authors: Mora Melanchthon, Daniel
Keywords: CMU-MOSEI | Emotion Recognition | Convolved Features | Spearman Correlation | Reconocimiento de emociones | Correlación de Spearman | Extracción de características
Knowledge Area: Lenguajes y Sistemas Informáticos
Issue Date: Sep-2021
Publisher: Sociedad Española para el Procesamiento del Lenguaje Natural
Citation: Procesamiento del Lenguaje Natural. 2021, 67: 69-81. https://doi.org/10.26342/2021-67-6
Abstract: This study investigates unimodal features –BERT embeddings (text), eGeMAPs (acoustic), and openFace set (visual)– used on the multimodal CMUMOSEI dataset for Emotion Recognition in order to seek unimodal feature-level improvements. Two approaches are investigated: feature selection by hierarchically clustering each set according to their Spearman correlation value, and the use of Convolutional Neural Network (CNN) models to act as emotion feature extractors. Experiments are performed with Random Forest (RF). Main results show, firstly, that the use of uncorrelated feature sets tend to not change model’s performance, allowing for trainable parameters, training time, and storage requirements reduction. Secondly, the direct use of CNN-embeddings with RF models yields improvements for acoustic modality, which suggests that major improvements could be sought through embedding acoustic features. | Este estudio investiga dos caminos con el fin de mejorar las características unimodales que son utilizadas para el reconocimiento de emociones en el dataset multimodal CMU-MOSEI. El primer camino es la selección de características basado en la correlación de Spearman al interior de cada modalidad (textual, acústica, visual). El segundo camino es utilizando una Red Neuronal Convolucional (CNN) para extraer características unimodales que sean relevantes para el reconocimiento de emociones. Los experimentos comparan los distintos sets de características utilizando un Bosque Aleatorio (Random Forest). Los resultados muestran, primero, que el uso de características unimodales no correlacionadas no modifican el resultado del modelo, lo que permite reducir la cantidad de parámetros, tiempo de entrenamiento y almacenamiento computacional. Segundo, el uso de características generadas por el modelo de Redes Neuronales Convolucionadas utilizadas en un Bosque Aleatorio sí genera mejoras para la modalidad acústica, lo que sugiere que futuras mejoras puedan desarrollarse en esta línea.
Sponsor: This work was supported by the Government of Chile through ”Proyecto Fondecyt Regular 1191481: Inducción automática de taxonomías de marcadores discursivos a partir de corpus multilingües (2019-2021)”, lead investigator Rogelio Nazar.
URI: http://hdl.handle.net/10045/117480
ISSN: 1135-5948
DOI: 10.26342/2021-67-6
Language: eng
Type: info:eu-repo/semantics/article
Rights: © Sociedad Española para el Procesamiento del Lenguaje Natural
Peer Review: si
Publisher version: https://doi.org/10.26342/2021-67-6
Appears in Collections:Procesamiento del Lenguaje Natural - Nº 67 (2021)

Files in This Item:
Files in This Item:
File Description SizeFormat 
ThumbnailPLN_67_06.pdf3,81 MBAdobe PDFOpen Preview


Items in RUA are protected by copyright, with all rights reserved, unless otherwise indicated.