Approfondimenti Internet è troppo piccolo per l'IA: i dati di training scarseggiano
Marina Londei
2' 22''
02/04/2024

I modelli di intelligenza artificiale diventano sempre più grandi e potenti, e hanno bisogno di nuovi dati per il training, ma i contenuti sul web cominciano a scarseggiare.

Internet è troppo piccolo per l'IA: i dati di training scarseggiano

Dopo la pubblicazione di ChatGPT e l'esplosione dell'entusiasmo per l'IA generativa, le big tech hanno cominciato la loro corsa per lo sviluppo di modelli di intelligenza artificiale sempre più grandi e precisi. 

Costruire modelli sempre migliori implica avere volumi di dati sempre maggiori per migliorare la fase di addestramento, ma c'è un problema: ben presto le informazioni a disposizione dei modelli non saranno più sufficienti per addestrarli. 

Il ritmo di crescita dei sistemi di IA è talmente veloce che, nel giro di qualche anno, i contenuti presenti sul web non riusciranno più a soddisfare la "sete di conoscenza" dei modelli. 

The Wall Street Journal riporta che alcune compagnie, come OpenAI, Dataology e Anthropic, stanno lavorando a delle alternative per risolvere il problema, ma alcune soluzioni proposte sembrano piuttosto controverse.

Sembra che la compagnia di Sam Altman voglia usare le trascrizioni dei video di YouTube per addestrare GPT-5, ma dovrebbe vedersela con importanti questioni di copyright che potrebbero ostacolare l'approccio. 

Pixabay
intelligenza artificiale

Un altro modo per superare l'ostacolo della disponibilità dati consisterebbe nell'uso dei dati sintetici: sia OpenAI che Anthropic stanno valutando di creare artificialmente le informazioni di cui hanno bisogno, smettendo di dipendere così tanto dai contenuti disponibili sul web.

Questa alternativa sfrutta tecniche di campionamento che riproducono i dati reali dopo averli depurati dai difetti, garantendo una maggior qualità delle informazioni e più controllo sui contenuti e rispettando al contempo la privacy degli utenti. 

Se è vero che i dati sintetici risolverebbero molti problemi, prima fra tutti la quantità dei dati ma anche la disomogeneità e i possibili errori, c'è anche il rischio che si verifichi il fenomeno dell'"Habsburg AI", ovvero modelli che diventano troppo ripetitivi poiché addestrati su dati creati da altre IA.

Poiché la strada dei dati sintetici sembra essere la più probabile per sopperire alla carenza di dati, è fondamentale mitigare il rischio di inbreeding e di riduzione dell'accuratezza variando il più possibile i dataset.

Inoltre, per garantire il rispetto del principio di trasparenza, le compagnie dovrebbero condividere gli algoritmi e tecniche usati per la creazione dei dati, anche se, per il momento, non sembrano propense a farlo.

La soluzione migliore sarebbe trovare modi per creare modelli più "intelligenti" che utilizzano meno dati per l'addestramento e anche meno risorse, diventando così più sostenibili. Dataology, fondata da Ari Morcos, ex ricercatore in Meta e Google, si sta muovendo in questo senso, ma è uno dei pochissimi esempi.

Nei prossimi anni il problema della disponibilità dei dati diventerà centrale per le compagnie di IA; se non vogliono rinunciare alla loro posizione sul mercato, le big tech dovranno trovare nuovi modi per rendere i modelli più performanti senza pesare sulle risorse a disposizione. 

Potrebbe interessarti anche

Approfondimenti

OpenAI "fa pace" coi giornalisti annunciando una collaborazione con Le Monde e Prisa Media

OpenAI ha annunciato una partnership con Le Monde e Prisa Media per portare le notizie dei due editori su ChatGPT, prese...

News

Meta e OpenAI renderanno riconoscibili le immagini generate da IA

Meta e OpenAI stanno lavorando a delle feature che aggiungono metadati e label alle immagini create da IA per specificar...

News

OpenAI vuol creare robot umanoidi più intelligenti

OpenAI ha stretto una collaborazione con Figure per la realizzazione di modelli di IA che alimenteranno i robot umanoidi...

Opinioni

È ora che l'IA rispetti i principi etici di gestione dei dati

Il New York Times ha fatto causa a OpenAI per violazione del diritto di copyright, riportando all'attenzione del mondo a...