Uso de técnicas basadas en one-shot learning para la identificación del locutor

Empreu sempre aquest identificador per citar o enllaçar aquest ítem http://hdl.handle.net/10045/104718
Información del item - Informació de l'item - Item information
Títol: Uso de técnicas basadas en one-shot learning para la identificación del locutor
Títol alternatiu: Speaker Identification using techniques based on one-shot learning
Autors: Chica, Juan | Salamea Palacios, Christian
Paraules clau: Identificación del locutor | Independiente de texto | Meta Learning | N-way clasification | One-Shot learning | Redes Neuronales Siamesas | Voxceleb1 | Speaker Identification | Text independent | Siamese Neural Network
Àrees de coneixement: Lenguajes y Sistemas Informáticos
Data de publicació: de març-2020
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Citació bibliogràfica: Procesamiento del Lenguaje Natural. 2020, 64: 101-108. doi:10.26342/2020-64-12
Resum: Un sistema para la identificación de locutor, para ser eficaz requiere una extensa cantidad de muestras de audio por cada locutor que no siempre es fácil de obtener. En contraste, sistemas basados en Meta-learning (en español, aprender a aprender) como one-shot learning utilizan una única muestra para diferenciar entre clases. En este trabajo se evalúa el potencial de un sistema de meta-learning para la identificación del locutor independiente del texto. En la experimentación se utilizan: espectrograma de mel, i-vectores y re muestreo (downsampling) para procesar el audio y obtener un vector de características. Este vector es la entrada de una red neuronal siamesa que se encarga de realizar la identificación. El mejor resultado se obtuvo al diferenciar entre 4 locutores con una exactitud de 0.9. Los resultados mostraron que el uso de técnicas basadas en one-shot learning tiene gran potencial para ser usados en la identificación del locutor y podrían ser muy útiles en ambientes reales como la biometría oámbitos forenses por su versatilidad. | A speaker identification system in order to be effective requires a large number of audio samples of each speaker, which are not always accessible or easy to collect. In contrast, systems based on meta-learning like one-shot learning, use a single sample to differentiate between classes. This work evaluates the potential of applying the meta-learning approach to text-independent speaker identification tasks. In the experimentation mel spectrogram, i-vectors and resample (downsampling) are used to both process the audio signal and to obtain a feature vector. This feature vector is the input of a siamese neural network that is responsible for performing the identification task. The best result was obtained by differentiating between 4 speakers with an accuracy of 0.9. The obtained results show that one-shot learning approaches have great potential to be used speaker identification and could be very useful in a real field like biometrics or forensic because of its versatility.
URI: http://hdl.handle.net/10045/104718
ISSN: 1135-5948
DOI: 10.26342/2020-64-12
Idioma: spa
Tipus: info:eu-repo/semantics/article
Drets: © Sociedad Española para el Procesamiento del Lenguaje Natural
Revisió científica: si
Versió de l'editor: https://doi.org/10.26342/2020-64-12
Apareix a la col·lecció: Procesamiento del Lenguaje Natural - Nº 64 (2020)

Arxius per aquest ítem:
Arxius per aquest ítem:
Arxiu Descripció Tamany Format  
ThumbnailPLN_64_12.pdf1,05 MBAdobe PDFObrir Vista prèvia


Tots els documents dipositats a RUA estan protegits per drets d'autors. Alguns drets reservats.