Come controllare il comportamento dell'IA con gli approcci di fine-tuning

Le capacità dell'intelligenza artificiale stanno evolvendo velocemente e non è semplice definire dei limiti per assicurarsi che i sistemi non danneggino l'uomo.

Rob Toews, autore per Forbes, spiega che non è tanto una questione di se e quando l'IA prenderà il controllo dell'umanità, una convinzione alquanto estremista, quanto capire come fare in modo che i sistemi agiscano sempre come ci aspettiamo che facciano.

Le caratteristiche dei sistemi di IA, come la capacità di relazionarsi con gli utenti e di nascondere contenuti dannosi, non emergono automaticamente ma dipendono da come i modelli sottostanti vengono addestrati e dalle regole che si specificano durante il fine-tuning.

Al momento a soluzione più adottata, spiega Toews, è il Reinforcement Learning from Human Feedback (RLHF), un metodo in cui è l'uomo a guidare il processo di apprendimento del modello tramite dataset creati ad hoc e aggiustarlo in base alle necessità.

Pixabay

RLHF: l'apprendimento col feedback umano

Il RLHF è stato inventato nel 2017 da un team di ricercatori di OpenAI e DeepMind ed è il vero motivo dietro il successo di ChatGPT: il chatbot è apparso fin da subito accessibile a tutti, di aiuto e in grado di seguire con sufficiente precisione le indicazioni degli utenti, tutto questo solo grazie all'approccio che lo alimenta.

Il RLHF è un processo che comincia dopo la fase di pre-training, nella quale il modello viene esposto a un ampio corpus di testo per prevedere la parola successiva, e dopo la fase di fine-tuning supervisionato, volta ad addestrare il modello su dati di qualità superiore.

Il metodo sfrutta la creazione di un secondo modello, chiamato "modello di ricompensa" (reward model), il quale usa dei "dati di preferenze" raccolti dal feedback di utenti umani; nel dettaglio, i partecipanti all'addestramento devono selezionare la loro preferenza tra due risposte, oppure ordinare diverse risposte dalla più "desiderabile" alla peggiore.

Una volta addestrato il modello di ricompensa, questo è in grado di assegnare un rating all'output del modello principale; in questo modo, il sistema esegue il fine-tuning del modello primario in modo che generi risposte con il punteggio più alto possibile.

Questa fase viene eseguita tramite il reinforcement learning, una tecnica di apprendimento automatico che punta per l'appunto a ottenere la ricompensa maggiore. Esistono diversi algoritmi di reinforcement learning, ma quello più utilizzato, specialmente nei modelli linguistici, è il Proximal Policy Optimization (PPO).

Il RLHF è l'approccio alla base dei modelli di IA generativi più conosciuti, ma non è l'unico: negli ultimi anni sono emersi nuovi metodi che mirano a migliorare il RLHF e ridurre il numero di dati che servono per il fine-tuning del modello.

Pixabay

Nuovi metodi di apprendimento: la Direct Preference Optimization (DPO)

Lo scorso anno un team di ricercatori di Stanford ha presentato una nuova tecnica che promette di essere molto migliore rispetto al metodo di apprendimento più classico: la Direct Preference Optimization (DPO).

Al contrario del PPO che usa un sistema di ricompensa, il DPO è in grado di effettuare il tuning del modello direttamente sui dati di preferenza raccolti dai feedback umani, di fatto velocizzando notevolmente l'intero processo; ciò è stato possibile rendendo il modello stesso un sistema di "auto-ricompensa".

Il DPO fonda il suo funzionamento sul RLHF ma lo migliora nel processo di fine tuning, ed è attualmente usato in alcuni dei modelli di IA più avanzati al mondo, incluso Mixtral.

Anche se il nuovo approccio è promettente, è difficile capire se il DPO potrà davvero sostituire il RLHF. Innanzitutto, non è chiaro se il DPO sarà in grado di scalare in base alle crescenti capacità dei modelli di IA del futuro; in secondo luogo, non è così semplice sostituire un'infrastruttura già rodata basata sul RLHF, e ci vorranno diversi anni prima di vedere un'eventuale cambiamento.

Bisogna anche considerare che non esistono ancora benchmark sufficientemente rigorosi che stabiliscono senza ombra di dubbio che il DPO è migliore del PPO del RLHF, e in quali circostanze lo è.

Pexels

Imparare dal feedback dei sistemi stessi

Il passo successivo al DPO è l'apprendimento che fa uso del feedback dei sistemi stessi di IA e non più dell'uomo. La domanda dei ricercatori di Anthropic, i primi a introdurre il concetto di "Reinforcement Learning from AI Feedback" ancor prima del DPO, è: "è possibile usare l'IA per supervisionare e modificare in modo automatico il comportamento di altri sistemi?".

In un paper pubblicato nel 2022 i ricercatori di Anthropic hanno sviluppato un modello in grado di "insegnarsi" a non fornire rispost pericolose, senza utilizzare dati catalogati da esseri umani.

Alla base di questo modello c'è una lista di 16 principi, una vera e propria costituzione, che indicano i contenuti da evitare nelle risposte; usando questi principi come guida, il modello riesce iterativamente a diventare meno pericoloso sfruttando il fine-tuning supervisionato e dataset generati dallo stesso, contenenti sempre meno risposte dannose.

L'uso di feedback auto-generati si basa comunque sull'idea del RLHF, sostituendo però la componente umana con quella artificiale. Anche in questo caso il processo di addestramento si velocizza, in quanto non è più necessario produrre dataset di preferenze, ma la diffusione del DPO potrebbe dimostrare che la fase di reinforcement learning non è più necessaria.

A questo punto viene da chiedersi se è possibile combinare approcci come il DPO con il feedback generato da IA per trovare nuovi modi ancora più efficaci di controllare il comportamento dei modelli.

Toews spiega che esistono già degli studi volti a sfruttare questo connubio, come il Self-Rewarding Language Models di Meta. In questo caso i modelli non solo sono in grado di generare i dati di preferenza per il fine-tuning, ma anche di auto-valutarsi creando versioni sempre migliori di sé.

Pixabay

Vale la pena di sottolineare che il "senso del giusto e dello sbagliato" dell'intelligenza artificiale, sia nel caso dell'RLHF che nel caso di feedback non umano, nasce comunque dalle preferenze umane. I modelli linguistici che si auto ricompensano sono basati su una serie iniziale di istruzioni create dall'uomo, le quali rappresentano il "seme" da cui poi origina l'intero processo di addestramento.

Se però gli approcci che guidano i modelli di IA diventano sempre più automatizzati, sottolinea Toews, esiste la possibilità che gli umani perdano gradualmente la visibilità sul processo di tuning, ed è per questo che la comunità scientifica deve rimanere vigile e ridurre questa possibilità.

La ricerca nel campo dei metodi di addestramento e fine-tuning sta evolvendo a un ritmo molto elevato ed è possibile che gli sviluppi più innovativi siano dietro l'angolo.

Toews spiega che tra i trend più interessanti da tenere d'occhio ci sarà la possibilità di utilizzare dati che gli esseri umani generano ogni giorno (come i click, le visite alle pagine web e gli acquisti online) per generare automaticamente dataset di preferenze, invece di organizzare sessioni in cui team di umani selezionano le risposte migliori dei modelli.

Un'altra cosa da prendere in considerazione è che gli approcci analizzati sono stati creati con un focus sui modelli linguistici, ma l'IA sta evolvendo per diventare multimodale: anche i modelli text-to-image, text-to-video o text-to-audio possono trarre vantaggio dai nuovi metodi di apprendimento per migliorare gli output e garantire risultati utili e non pericolosi.

A prescindere dal metodo che prenderà piede, occorrerà fare molta attenzione ai valori e alle norme che trasmetteremo ai modelli. Toews sottolinea che sarà difficile prevedere esattamente gli output dei sistemi di IA, ma è comunque nostra responsabilità lavorare per mitigare i rischi affinché l'intelligenza artificiale sia un aiuto e non un problema.

Opinioni Come controllare il comportamento dell'IA con gli approcci di fine-tuning

Marina Londei

Tempo di lettura: 6' 24''

Pubblicato il: 05/02/2024

RLHF: l'apprendimento col feedback umano

Nuovi metodi di apprendimento: la Direct Preference Optimization (DPO)

Imparare dal feedback dei sistemi stessi

Tags

Condividi questo contenuto

Una nuova era di creatività o una minaccia per la società?

Soluzioni di IA integrate ed efficienti per l'OCX: la visione di Spitch

Futureberry presenta COSMO per l'apprendimento personalizzato e on-demand basato su IA

Valutare il rischio di credito, un aiuto da AI Generativa e dati alternativi

Opinioni Come controllare il comportamento dell'IA con gli approcci di fine-tuning Marina Londei Tempo di lettura: 6' 24'' Pubblicato il: 05/02/2024

RLHF: l'apprendimento col feedback umano

Nuovi metodi di apprendimento: la Direct Preference Optimization (DPO)

Imparare dal feedback dei sistemi stessi

Tags

Condividi questo contenuto

Opinioni Come controllare il comportamento dell'IA con gli approcci di fine-tuning

Marina Londei

Tempo di lettura: 6' 24''

Pubblicato il: 05/02/2024