Scenario Addestrare l'IA su contenuti generati porta al collasso dei modelli
Marina Londei
2' 7''
16/06/2023

Alcuni ricercatori inglesi hanno sottolineato l'importanza di prevenire il collasso dei modelli causato dall'uso di dati generati per il training.

Addestrare l'IA su contenuti generati porta al collasso dei modelli

Che cosa accadrebbe se per addestrare i modelli generativi si cominciassero a usare sempre più contenuti generati da altri modelli? Un gruppo di ricercatori provenienti da diverse università del Regno Unito ha analizzato questo scenario, spiegando che potrebbe verificarsi prima del previsto.

Il fenomeno è stato battezzato dai ricercatori "model collapse", ovvero collasso dei modelli, un termine indicativo di un processo degenerativo per il quale il modello, col tempo, dimentica la vera distribuzione dei dati; nella pratica ciò significa che la sovrastima e la sottostima di eventi, in un caso probabili e nell’altro improbabili, peggiorano e di conseguenza si riducono le performance. Il modello, col tempo, si “dimentica” degli eventi improbabili e la sua visione della realtà si altera.

Il processo di collasso, spiegano i ricercatori, avviene nel caso in cui i modelli vengano addestrati sui dati generati dalle generazioni precedenti. Già adesso i grandi LLM vengono addestrati a partire da modelli già pronti come BERT o GPT-2, per poi essere sottoposti a fine-tuning a seconda del task che devono completare.

Pixabay
intelligenza artificiale

Nel loro test i ricercatori hanno eseguito il processo di fine-tuning per 10 cicli, addestrando ogni generazione successiva coi risultati di quella precedente. I risultati hanno mostrato una progressiva riduzione delle performance di generazione in generazione: man mano che si va avanti con i cicli, i nuovi modelli cominciano a produrre risultati che non sarebbero mai stati generati dal modello iniziale.

La prova è stata ripetuta utilizzando questa volta il 10% dei dati di addestramento iniziali a ogni ciclo; i risultati hanno dimostrato che il collasso del modello si verifica ugualmente, ma molto più lentamente.

“Preservare l’abilità degli LLM di modellare anche eventi a bassa probabilità è essenziale per garantire l’equità delle predizioni: questi eventi spesso sono rivelanti per i gruppi emarginati” scrivono i ricercatori. “Gli eventi a bassa priorità sono vitali anche per comprendere i sistemi complessi”.

Per risolvere il problema è indispensabile mantenere puliti i dataset prodotti dagli umani, evitando che vi vengano integrate informazioni generate dall’intelligenza artificiale. I ricercatori consigliano di usare sempre una parte del dataset originale per addestrare i nuovi modelli, al fine di limitare i rischi legati al collasso progressivo delle performance.

La diffusione dell'IA generativa ha aumentato la quantità di dati generati dai modelli e nei prossimi anni, se non si adotteranno misure per ridurre i contenuti generati, o quantomeno distinguerli da quelli originali, il collasso dei modelli potrebbe diventare un serio problema.

Potrebbe interessarti anche

News

MusicGen: Meta presenta un generatore open-source di musica

Meta ha presentato MusicGen, un generatore di musica open-source che crea tracce audio a partire da un input testuale de...

Opinioni

Per integrare l'IA nella customer experience serve un approccio prudente

I nuovi strumenti di IA possono migliorare la customer experience, ma occorre seguire un approccio strutturato per trarn...

News

SAS e Accenture annunciano importanti investimenti nell'IA

SAS e Accenture hanno annunciato importanti investimenti nel campo dell'IA generativa industriale a supporto dei propri...

Scenario

Ripensare task e competenze per sfruttare il valore dell'IA

L'introduzione dell'intelligenza artificiale nelle attività lavorativa quotidiane sta cambiando il mondo del lavoro, rid...