Tecnologia Un modello all'avanguardia per il riconoscimento vocale visivo
2' 10''
30/12/2022

Il nuovo modello di deep learning per il riconoscimento vocale visivo sviluppato dai ricercatori dell’Imperial College di Londra.

Un modello all'avanguardia per il riconoscimento vocale visivo

Negli ultimi anni, il deep learning ha ottenuto risultati notevoli nella elaborazione del linguaggio e delle immagini, incluso il riconoscimento vocale visivo (VSR), che identifica il contenuto di un discorso analizzando i movimenti delle labbra di un oratore.

Tuttavia, la maggior parte dei modelli di deep learning per il VSR sono stati addestrati principalmente per il parlato inglese, poiché la maggior parte dei set di dati di addestramento esistenti include solo materiale in questa lingua.

Ricercatori dell'Imperial College di Londra hanno sviluppato un nuovo modello per il VSR multilingua che ha superato i modelli precedenti, presentandolo poi in un articolo pubblicato su Nature Machine Intelligence.

Durante lo studio i ricercatori hanno addestrato un modello di deep learning per riconoscere il parlato in lingue diverse dall'inglese basandosi sui movimenti delle labbra dei parlanti e ha poi confrontato le prestazioni del modello con quelle di altri modelli addestrati per il riconoscimento del parlato inglese.

Il modello creato dai ricercatori era simile a quelli utilizzati in passato, ma alcuni iper-parametri sono stati ottimizzati, il set di dati è stato ampliato con versioni modificate e sintetiche dei dati e sono state utilizzate ulteriori funzioni di perdita.

Un modello più raffinato

Pingchuan Ma, il ricercatore dell’Imperial College che ha condotto lo studio, ha dichiarato: “Abbiamo raggiunto risultati all'avanguardia in più lingue progettando attentamente il modello, piuttosto che semplicemente utilizzando set di dati più grandi o modelli più grandi, che è la tendenza attuale in letteratura”.

Pingchuan Ma
Pingchuan Ma, ricercatore dell’Imperial College di Londra

“In altre parole, abbiamo dimostrato che il modo in cui un modello è progettato è altrettanto importante per le sue prestazioni quanto l'aumento delle sue dimensioni o l'utilizzo di più dati di addestramento. Questo può portare a un cambiamento nel modo in cui i ricercatori cercano di migliorare i modelli VSR”, ha aggiunto.

I ricercatori hanno dimostrato che è possibile ottenere prestazioni di alto livello nelle attività di riconoscimento vocale visivo (VSR) progettando attentamente modelli di deep learning, anziché utilizzare versioni più grandi dello stesso modello o raccogliere dati di addestramento aggiuntivi, un approccio costoso in termini computazionali e di tempo.

In futuro, il loro lavoro potrebbe ispirare altri gruppi di ricerca a sviluppare modelli VSR alternativi in grado di riconoscere efficacemente il parlato dai movimenti delle labbra in lingue diverse dall'inglese.

I ricercatori hanno anche indicato come possibile sbocco la possibilità di combinare i modelli VSR con il riconoscimento vocale “tradizionale” (basato solo sull'audio), aiutandoli ad adattarsi dinamicamente ai cambiamenti nell'ambiente (come la presenza di rumori).

Potrebbe interessarti anche

News

Investimenti in AI, Italia ultima in area EMEA

Il rapporto ambivalente tra aziende e AI: la maggioranza crede che sia un driver di crescita fondamentale ma gli investi...

Approfondimenti

Il ML migliora le decisioni, ma aumenta lo sforzo dei decisori

Una ricerca dell’ESMT Berlin ha mostrato che il ML non incide solo sulla precisione, ma invece ha ricadute anche sul num...

Approfondimenti

IA nel customer care: l’impatto sulla produttività

Ricercatori di Stanford e del MIT hanno analizzato gli effetti dell’introduzione di un assistente AI nel customer care d...

Tecnologia

ChatGPT può diventare tossico cambiando alcune opzioni

Una ricerca ha analizzato l’impatto delle impostazioni di sistema sul comportamento di ChatGPT, mostrando come la sua fl...