Dopo la pubblicazione di ChatGPT e l'esplosione dell'entusiasmo per l'IA generativa, le big tech hanno cominciato la loro corsa per lo sviluppo di modelli di intelligenza artificiale sempre più grandi e precisi.
Costruire modelli sempre migliori implica avere volumi di dati sempre maggiori per migliorare la fase di addestramento, ma c'è un problema: ben presto le informazioni a disposizione dei modelli non saranno più sufficienti per addestrarli.
Il ritmo di crescita dei sistemi di IA è talmente veloce che, nel giro di qualche anno, i contenuti presenti sul web non riusciranno più a soddisfare la "sete di conoscenza" dei modelli.
The Wall Street Journal riporta che alcune compagnie, come OpenAI, Dataology e Anthropic, stanno lavorando a delle alternative per risolvere il problema, ma alcune soluzioni proposte sembrano piuttosto controverse.
Sembra che la compagnia di Sam Altman voglia usare le trascrizioni dei video di YouTube per addestrare GPT-5, ma dovrebbe vedersela con importanti questioni di copyright che potrebbero ostacolare l'approccio.
Un altro modo per superare l'ostacolo della disponibilità dati consisterebbe nell'uso dei dati sintetici: sia OpenAI che Anthropic stanno valutando di creare artificialmente le informazioni di cui hanno bisogno, smettendo di dipendere così tanto dai contenuti disponibili sul web.
Questa alternativa sfrutta tecniche di campionamento che riproducono i dati reali dopo averli depurati dai difetti, garantendo una maggior qualità delle informazioni e più controllo sui contenuti e rispettando al contempo la privacy degli utenti.
Se è vero che i dati sintetici risolverebbero molti problemi, prima fra tutti la quantità dei dati ma anche la disomogeneità e i possibili errori, c'è anche il rischio che si verifichi il fenomeno dell'"Habsburg AI", ovvero modelli che diventano troppo ripetitivi poiché addestrati su dati creati da altre IA.
Poiché la strada dei dati sintetici sembra essere la più probabile per sopperire alla carenza di dati, è fondamentale mitigare il rischio di inbreeding e di riduzione dell'accuratezza variando il più possibile i dataset.
Inoltre, per garantire il rispetto del principio di trasparenza, le compagnie dovrebbero condividere gli algoritmi e tecniche usati per la creazione dei dati, anche se, per il momento, non sembrano propense a farlo.
La soluzione migliore sarebbe trovare modi per creare modelli più "intelligenti" che utilizzano meno dati per l'addestramento e anche meno risorse, diventando così più sostenibili. Dataology, fondata da Ari Morcos, ex ricercatore in Meta e Google, si sta muovendo in questo senso, ma è uno dei pochissimi esempi.
Nei prossimi anni il problema della disponibilità dei dati diventerà centrale per le compagnie di IA; se non vogliono rinunciare alla loro posizione sul mercato, le big tech dovranno trovare nuovi modi per rendere i modelli più performanti senza pesare sulle risorse a disposizione.