Che cosa accadrebbe se per addestrare i modelli generativi si cominciassero a usare sempre più contenuti generati da altri modelli? Un gruppo di ricercatori provenienti da diverse università del Regno Unito ha analizzato questo scenario, spiegando che potrebbe verificarsi prima del previsto.
Il fenomeno è stato battezzato dai ricercatori "model collapse", ovvero collasso dei modelli, un termine indicativo di un processo degenerativo per il quale il modello, col tempo, dimentica la vera distribuzione dei dati; nella pratica ciò significa che la sovrastima e la sottostima di eventi, in un caso probabili e nell’altro improbabili, peggiorano e di conseguenza si riducono le performance. Il modello, col tempo, si “dimentica” degli eventi improbabili e la sua visione della realtà si altera.
Il processo di collasso, spiegano i ricercatori, avviene nel caso in cui i modelli vengano addestrati sui dati generati dalle generazioni precedenti. Già adesso i grandi LLM vengono addestrati a partire da modelli già pronti come BERT o GPT-2, per poi essere sottoposti a fine-tuning a seconda del task che devono completare.
Nel loro test i ricercatori hanno eseguito il processo di fine-tuning per 10 cicli, addestrando ogni generazione successiva coi risultati di quella precedente. I risultati hanno mostrato una progressiva riduzione delle performance di generazione in generazione: man mano che si va avanti con i cicli, i nuovi modelli cominciano a produrre risultati che non sarebbero mai stati generati dal modello iniziale.
La prova è stata ripetuta utilizzando questa volta il 10% dei dati di addestramento iniziali a ogni ciclo; i risultati hanno dimostrato che il collasso del modello si verifica ugualmente, ma molto più lentamente.
“Preservare l’abilità degli LLM di modellare anche eventi a bassa probabilità è essenziale per garantire l’equità delle predizioni: questi eventi spesso sono rivelanti per i gruppi emarginati” scrivono i ricercatori. “Gli eventi a bassa priorità sono vitali anche per comprendere i sistemi complessi”.
Per risolvere il problema è indispensabile mantenere puliti i dataset prodotti dagli umani, evitando che vi vengano integrate informazioni generate dall’intelligenza artificiale. I ricercatori consigliano di usare sempre una parte del dataset originale per addestrare i nuovi modelli, al fine di limitare i rischi legati al collasso progressivo delle performance.
La diffusione dell'IA generativa ha aumentato la quantità di dati generati dai modelli e nei prossimi anni, se non si adotteranno misure per ridurre i contenuti generati, o quantomeno distinguerli da quelli originali, il collasso dei modelli potrebbe diventare un serio problema.