Approfondimenti Internet è troppo piccolo per l'IA: i dati di training scarseggiano
2' 22''
02/04/2024

I modelli di intelligenza artificiale diventano sempre più grandi e potenti, e hanno bisogno di nuovi dati per il training, ma i contenuti sul web cominciano a scarseggiare.

Internet è troppo piccolo per l'IA: i dati di training scarseggiano

Dopo la pubblicazione di ChatGPT e l'esplosione dell'entusiasmo per l'IA generativa, le big tech hanno cominciato la loro corsa per lo sviluppo di modelli di intelligenza artificiale sempre più grandi e precisi. 

Costruire modelli sempre migliori implica avere volumi di dati sempre maggiori per migliorare la fase di addestramento, ma c'è un problema: ben presto le informazioni a disposizione dei modelli non saranno più sufficienti per addestrarli. 

Il ritmo di crescita dei sistemi di IA è talmente veloce che, nel giro di qualche anno, i contenuti presenti sul web non riusciranno più a soddisfare la "sete di conoscenza" dei modelli. 

The Wall Street Journal riporta che alcune compagnie, come OpenAI, Dataology e Anthropic, stanno lavorando a delle alternative per risolvere il problema, ma alcune soluzioni proposte sembrano piuttosto controverse.

Sembra che la compagnia di Sam Altman voglia usare le trascrizioni dei video di YouTube per addestrare GPT-5, ma dovrebbe vedersela con importanti questioni di copyright che potrebbero ostacolare l'approccio. 

Pixabay
intelligenza artificiale

Un altro modo per superare l'ostacolo della disponibilità dati consisterebbe nell'uso dei dati sintetici: sia OpenAI che Anthropic stanno valutando di creare artificialmente le informazioni di cui hanno bisogno, smettendo di dipendere così tanto dai contenuti disponibili sul web.

Questa alternativa sfrutta tecniche di campionamento che riproducono i dati reali dopo averli depurati dai difetti, garantendo una maggior qualità delle informazioni e più controllo sui contenuti e rispettando al contempo la privacy degli utenti. 

Se è vero che i dati sintetici risolverebbero molti problemi, prima fra tutti la quantità dei dati ma anche la disomogeneità e i possibili errori, c'è anche il rischio che si verifichi il fenomeno dell'"Habsburg AI", ovvero modelli che diventano troppo ripetitivi poiché addestrati su dati creati da altre IA.

Poiché la strada dei dati sintetici sembra essere la più probabile per sopperire alla carenza di dati, è fondamentale mitigare il rischio di inbreeding e di riduzione dell'accuratezza variando il più possibile i dataset.

Inoltre, per garantire il rispetto del principio di trasparenza, le compagnie dovrebbero condividere gli algoritmi e tecniche usati per la creazione dei dati, anche se, per il momento, non sembrano propense a farlo.

La soluzione migliore sarebbe trovare modi per creare modelli più "intelligenti" che utilizzano meno dati per l'addestramento e anche meno risorse, diventando così più sostenibili. Dataology, fondata da Ari Morcos, ex ricercatore in Meta e Google, si sta muovendo in questo senso, ma è uno dei pochissimi esempi.

Nei prossimi anni il problema della disponibilità dei dati diventerà centrale per le compagnie di IA; se non vogliono rinunciare alla loro posizione sul mercato, le big tech dovranno trovare nuovi modi per rendere i modelli più performanti senza pesare sulle risorse a disposizione. 

Potrebbe interessarti anche

News

OpenAI sta testando SearchGPT, il suo motore di ricerca intelligente

OpenAI ha annunciato SearchGPT, un motore di ricerca che usa l'intelligenza artificiale per offrire agli utenti risultat...

News

OpenAI vieta le sue tecnologie in Cina: comincia la guerra tech

La guerra tech sta per iniziare dopo la decisione storica di OpenAI: la compagnia di Sam Altman sta per bloccare l'acces...

Opinioni

L'impatto dell'IA generativa è appena cominciato: parola del CTO di OpenAI

Mira Murati, CTO di OpenAI, ritiene che l'impatto dell'IA generativa sui business e sul mondo del lavoro è appena cominc...

Opinioni

Accordo News Corp e OpenAI: cosa significa per il giornalismo?

News Corp e OpenAI hanno siglato un accordo che permetterà a GPT di accedere ai contenuti delle testate del gruppo. Cosa...