Negli ultimi anni, il deep learning ha ottenuto risultati notevoli nella elaborazione del linguaggio e delle immagini, incluso il riconoscimento vocale visivo (VSR), che identifica il contenuto di un discorso analizzando i movimenti delle labbra di un oratore.
Tuttavia, la maggior parte dei modelli di deep learning per il VSR sono stati addestrati principalmente per il parlato inglese, poiché la maggior parte dei set di dati di addestramento esistenti include solo materiale in questa lingua.
Ricercatori dell'Imperial College di Londra hanno sviluppato un nuovo modello per il VSR multilingua che ha superato i modelli precedenti, presentandolo poi in un articolo pubblicato su Nature Machine Intelligence.
Durante lo studio i ricercatori hanno addestrato un modello di deep learning per riconoscere il parlato in lingue diverse dall'inglese basandosi sui movimenti delle labbra dei parlanti e ha poi confrontato le prestazioni del modello con quelle di altri modelli addestrati per il riconoscimento del parlato inglese.
Il modello creato dai ricercatori era simile a quelli utilizzati in passato, ma alcuni iper-parametri sono stati ottimizzati, il set di dati è stato ampliato con versioni modificate e sintetiche dei dati e sono state utilizzate ulteriori funzioni di perdita.
Un modello più raffinato
Pingchuan Ma, il ricercatore dell’Imperial College che ha condotto lo studio, ha dichiarato: “Abbiamo raggiunto risultati all'avanguardia in più lingue progettando attentamente il modello, piuttosto che semplicemente utilizzando set di dati più grandi o modelli più grandi, che è la tendenza attuale in letteratura”.
“In altre parole, abbiamo dimostrato che il modo in cui un modello è progettato è altrettanto importante per le sue prestazioni quanto l'aumento delle sue dimensioni o l'utilizzo di più dati di addestramento. Questo può portare a un cambiamento nel modo in cui i ricercatori cercano di migliorare i modelli VSR”, ha aggiunto.
I ricercatori hanno dimostrato che è possibile ottenere prestazioni di alto livello nelle attività di riconoscimento vocale visivo (VSR) progettando attentamente modelli di deep learning, anziché utilizzare versioni più grandi dello stesso modello o raccogliere dati di addestramento aggiuntivi, un approccio costoso in termini computazionali e di tempo.
In futuro, il loro lavoro potrebbe ispirare altri gruppi di ricerca a sviluppare modelli VSR alternativi in grado di riconoscere efficacemente il parlato dai movimenti delle labbra in lingue diverse dall'inglese.
I ricercatori hanno anche indicato come possibile sbocco la possibilità di combinare i modelli VSR con il riconoscimento vocale “tradizionale” (basato solo sull'audio), aiutandoli ad adattarsi dinamicamente ai cambiamenti nell'ambiente (come la presenza di rumori).