Durante lo Speech AI Summit Nvidia ha annunciato il suo nuovo sistema di intelligenza artificiale per le tecnologie voice-based. L'ecosistema è stato sviluppato in collaborazione con Mozilla Common Voice, che ha offerto il suo dataset collaborativo al progetto.
La volontà di Nvidia è di rendere questa tecnologia sempre più inclusiva. Gli assistenti vocali di Google e Amazon supportano soltanto l'1% delle lingue parlate, e l'azienda vuole espandere le capacità dell'IA e arricchire i dataset anche con le lingue meno comuni.
L'azienda non è la sola: anche Meta e Google stanno cercando di sviluppare un traduttore universale real-time che consideri un numero maggiore di lingue, anche quelle che esistono solo nel parlato e non nello scritto.
L'inserimento di nuove lingue non giova soltanto agli utenti, ma anche all'ecosistema di IA stesso: effettuare l'addestramento su una più ampia diversità linguistica migliora le capacità del modello e di conseguenza la sua usabilità.
"Ci sono diversi fattori che impattano le variazioni delle lingue, come i dialetti, gli accenti, i socioletti e il linguaggio informale" ha spiegato Caroline de Brito Gottlieb, product manager di Nvidia.
I dati di Common Voice di Mozilla spaziano già tra 100 lingue diverse e contano 24.000 ore di registrazione. Nvidia progetta di migliorare il suo sistema di speech IA anche per cogliere le diverse sfumature all'interno di una stessa lingua.
L'ecosistema, oggi ancora nelle fasi iniziali dello sviluppo, potrà essere usato in diversi casi d'uso, come il riconoscimento vocale automatico, la traduzione vocale artficiale e il text-to-speech.