Tecnologia Un modello all'avanguardia per il riconoscimento vocale visivo
Dario Orlandi
2' 10''
30/12/2022

Il nuovo modello di deep learning per il riconoscimento vocale visivo sviluppato dai ricercatori dell’Imperial College di Londra.

Un modello all'avanguardia per il riconoscimento vocale visivo

Negli ultimi anni, il deep learning ha ottenuto risultati notevoli nella elaborazione del linguaggio e delle immagini, incluso il riconoscimento vocale visivo (VSR), che identifica il contenuto di un discorso analizzando i movimenti delle labbra di un oratore.

Tuttavia, la maggior parte dei modelli di deep learning per il VSR sono stati addestrati principalmente per il parlato inglese, poiché la maggior parte dei set di dati di addestramento esistenti include solo materiale in questa lingua.

Ricercatori dell'Imperial College di Londra hanno sviluppato un nuovo modello per il VSR multilingua che ha superato i modelli precedenti, presentandolo poi in un articolo pubblicato su Nature Machine Intelligence.

Durante lo studio i ricercatori hanno addestrato un modello di deep learning per riconoscere il parlato in lingue diverse dall'inglese basandosi sui movimenti delle labbra dei parlanti e ha poi confrontato le prestazioni del modello con quelle di altri modelli addestrati per il riconoscimento del parlato inglese.

Il modello creato dai ricercatori era simile a quelli utilizzati in passato, ma alcuni iper-parametri sono stati ottimizzati, il set di dati è stato ampliato con versioni modificate e sintetiche dei dati e sono state utilizzate ulteriori funzioni di perdita.

Un modello più raffinato

Pingchuan Ma, il ricercatore dell’Imperial College che ha condotto lo studio, ha dichiarato: “Abbiamo raggiunto risultati all'avanguardia in più lingue progettando attentamente il modello, piuttosto che semplicemente utilizzando set di dati più grandi o modelli più grandi, che è la tendenza attuale in letteratura”.

Pingchuan Ma
Pingchuan Ma, ricercatore dell’Imperial College di Londra

“In altre parole, abbiamo dimostrato che il modo in cui un modello è progettato è altrettanto importante per le sue prestazioni quanto l'aumento delle sue dimensioni o l'utilizzo di più dati di addestramento. Questo può portare a un cambiamento nel modo in cui i ricercatori cercano di migliorare i modelli VSR”, ha aggiunto.

I ricercatori hanno dimostrato che è possibile ottenere prestazioni di alto livello nelle attività di riconoscimento vocale visivo (VSR) progettando attentamente modelli di deep learning, anziché utilizzare versioni più grandi dello stesso modello o raccogliere dati di addestramento aggiuntivi, un approccio costoso in termini computazionali e di tempo.

In futuro, il loro lavoro potrebbe ispirare altri gruppi di ricerca a sviluppare modelli VSR alternativi in grado di riconoscere efficacemente il parlato dai movimenti delle labbra in lingue diverse dall'inglese.

I ricercatori hanno anche indicato come possibile sbocco la possibilità di combinare i modelli VSR con il riconoscimento vocale “tradizionale” (basato solo sull'audio), aiutandoli ad adattarsi dinamicamente ai cambiamenti nell'ambiente (come la presenza di rumori).

Potrebbe interessarti anche

Scenario

Il ruolo del Chief Data Officer: tendenze e sfide

L’undicesimo Big Data and AI Executive Survey rivela l'aumento dell'adozione del ruolo CDO/CDAO e le sfide nella moderni...

Scenario

Il metaverso non esiste, ma le aziende ci stanno investendo

Una ricerca dell'Osservatorio Realtà Aumentata e Metaverso del Politecnico di Milano identifica le caratteristiche costi...

Scenario

Public cloud in crescita: le prospettive secondo Forrester

Il mercato del cloud pubblico supererà i $1.000 miliardi entro il 2026, ma la concorrenza e la frammentazione rappresent...

Opinioni

Data leader: le aziende usano i dati per cause umanitarie e migliorare i profitti

Secondo una ricerca di Lenovo l'utilizzo collaborativo dei dati è fondamentale per migliorare la stabilità e la sicurezz...