Google ha annunciato un nuovo progetto che si propone di sviluppare un modello linguistico unificato basato sul machine learning, capace di supportare le “1.000 lingue più parlate al mondo”.
Il primo passo verso questo obbiettivo, certamente ambizioso, è la presentazione di un modello di intelligenza artificiale addestrato su oltre 400 lingue. L’azienda l’ha descritto come “la più grande copertura linguistica vista oggi in un modello vocale”.
L’interpretazione del linguaggio è sempre stato uno dei focus principali di Google, che ha già iniziato a integrare questi modelli linguistici nei suoi prodotti, in particolare Google Search.
Un modello universale
Nonostante alcuni difetti piuttosto gravi (come i bias emersi dall’analisi dei risultati proposti da molti modelli presentati in passato), questi strumenti hanno dimostrato di saper svolgere compiti piuttosto raffinati, come la generazione di testi e la traduzione da una lingua all’altra.
Il modello di Google non sarà specializzato in un compito specifico, ma vuole invece costituire un unico sistema con una conoscenza particolarmente approfondita su tutte le lingue del mondo.
L’azienda sostiene di non avere piani specifici sull’applicazione di questo modello; si aspetta invece di poterlo sfruttare in molti prodotti dell’azienda, da Google Translate ai sottotitoli di YouTube, includendo naturalmente il motore di ricerca.
Quando si lavora con così tanti linguaggi un potenziale problema è la formazione di una base di dati da utilizzare per supportare il training del modello; per questo motivo, Google finanzierà la raccolta di dati per lingue meno diffuse, comprese registrazioni audio e testi scritti.