Nuovi modelli per lo Speech Emotion Recognition

Lo Speech Emotion Recognition (SER) è un sistema pensato per identificare le emozioni dell'interlocutore a partire da un audio. Simile per intenzioni alla sentiment analysis, il SER differisce da essa per il tipo di dato in input (audio invece di testo).

Questo sistema introduce un livello di difficoltà ulteriore in quanto, oltre a trascrivere il parlato, occorre anche individuare le emozioni che traspaiono dalle parole. Si tratta di uno problema di classificazione che per anni è stato al centro delle ricerche e ora finalmente gode di numerosi progetti all'attivo.

Gino Crescoli on Pixabay

Così come per la sentiment analysis, ci troviamo di fronte a un problema che non è solo tecnico: in alcuni casi riconoscere le emozioni è difficile anche per gli umani, a causa delle ambiguità e delle numerose inflessioni e toni della voce.

I ricercatori si sono concentrati proprio su queste due variabili: i modelli di SER mirano a individuare tutti i cambiamenti di tono (identificati come variazioni di frequenza) per convertirli in informazioni numeriche o vettoriali e riportarli poi nel formato scritto. Normalmente, infatti, questo tipo di informazione non viene mantenuta nei classici modelli di speech recognition, usati per la generazione di sottotitoli e negli assistenti vocali.

Oggi esistono diversi nuovi algoritmi pensati per la SER, in grado di estrarre le feature "emotive" dagli audio, comprendere il tono della conversazione e riportarlo nello scritto. Tra questi ci sono:

RNN/LSTMs, un modello che sfrutta una sequenza temporale per generare feature numeriche elaborate poi da una rete neurale. La particolarità del modello sta nel fatto che a ogni step vengono mantenute e ricordate le informazioni degli step precedenti, così da ottenere un risultato più accurato;
modelli attention-based, i più usati nel caso di mapping tra due formati di dati. Questi modelli sfruttano le sequenze precedenti per predire il mapping tra quelle successive;
Listen-Attend-Spell (LAS), uno dei primi approcci che sfrutta le capacità dei primi due per individuare le feature del parlato: l'unità attention-based produce parti di sequenza successive a partire da ciò che ha imparato dal LSTMs bidirezionale.

Ci sono poi una serie di modelli che derivano da quelli elencati e che sono versioni più complesse e migliorate di essi, ma che mantengono lo stesso "nucleo" di apprendimento.

Gino Crescoli on Pixabay

Attualmente esistono numerosi progetti che si occupano di Speech Emotion Recognition, anche in formato open-source, compresi di data set per il training dei modelli. Tra i progetti vale la pena nominare wav2letter, sviluppato da Facebook, un toolkit completamente open-source per la SER automatica, e TensorFlowASR, un package open-source ideato da TensorFlow.

I progetti di SER possono essere usati per diverse applicazioni, in particolare nell'ambito educativo e nei colloqui: gli algoritmi di Speech Emotion Recognition possono aiutare a comprendere se il tono di voce comunica fiducia in sé, trepidazione, tranquillità o apprensione. Ciò può risultare molto utile in fase di valutazione di candidati per posizioni di alto livello, dove si richiedono determinate soft skill.

Tecnologia Nuovi modelli per lo Speech Emotion Recognition

Marina Londei

Tempo di lettura: 2' 31''

Pubblicato il: 12/12/2022

Tags

Condividi questo contenuto

SiteGround: IA al servizio della sicurezza dei siti Web

Usare il machine learning per modellare i premi assicurativi

Persona AI, la nuova startup di robot umanoidi

Le organizzazioni antifrode vogliono integrare l'IA generativa nei propri sistemi

Tecnologia Nuovi modelli per lo Speech Emotion Recognition Marina Londei Tempo di lettura: 2' 31'' Pubblicato il: 12/12/2022

Tags

Condividi questo contenuto

Tecnologia Nuovi modelli per lo Speech Emotion Recognition

Marina Londei

Tempo di lettura: 2' 31''

Pubblicato il: 12/12/2022