Tecnologia ChatGPT può diventare tossico cambiando alcune opzioni
Dario Orlandi
2' 49''
19/04/2023

Una ricerca ha analizzato l’impatto delle impostazioni di sistema sul comportamento di ChatGPT, mostrando come la sua flessibilità lo renda vulnerabile.

ChatGPT può diventare tossico cambiando alcune opzioni

Una nuova ricerca pubblicata dall’Allen Institute for AI ha dimostrato come il più celebre dei Large Language Model, ChatGPT, possa essere configurato per diventare tossico (in modo involontario o malizioso) semplicemente agendo sulla sua personalità tramite le impostazioni del modello.

L'indagine rappresenta la prima analisi di tossicità su larga scala del modello di linguaggio di grandi dimensioni (LLM) di ChatGPT.

I risultati ottenuti dimostrano che il modello presenta una tossicità intrinseca che può aumentare fino a sei volte quando vengono assegnati diversi tipi di personalità, facendo impersonare figure storiche, professioni e simili.

Unsplash
Toxic

La ricerca ha analizzato quasi 100 personalità uniche selezionate da differenti background e ha esaminato più di mezzo milione di output prodotti da ChatGPT. Tra i campioni sono stati inclusi giornalisti, politici, sportivi, uomini d'affari, nonché soggetti appartenenti a diverse etnie, generi e orientamenti sessuali.

Cambiare la personalità

I risultati hanno dimostrato che le impostazioni di sistema utilizzate per assegnare le personalità possono significativamente modificare l'output di ChatGPT, dallo stile di scrittura al contenuto stesso. Queste impostazioni sono accessibili da chiunque possa sfruttare il modello tramite l'API di OpenAI, quindi l'impatto di questa tossicità potrebbe essere diffuso.

Unsplash
Personality

Ad esempio, chatbot e plugin costruiti su ChatGPT di aziende come Snap, Instacart e Shopify potrebbero mostrare tossicità; i ricercatori hanno infatti sottolineato che l'assegnazione di personas nelle impostazioni di sistema è spesso una parte fondamentale della costruzione di un chatbot.

Tuttavia, la ricerca è significativa anche perché dimostra che il pregiudizio di ChatGPT non è soltanto nei dati di addestramento: il modello può sviluppare una sua “opinione” sulle personalità, mentre diversi argomenti suscitano anche diversi livelli di tossicità.

I parametri delle impostazioni di sistema possono essere utilizzati anche per fini utili e positivi, come per esempio limitare il comportamento di un modello per evitare contenuti espliciti o politicamente schierati.

I modelli LLM sono vulnerabili

Le stessa caratteristiche che rendono efficaci i LLM come strumenti di dialogo li rendono anche vulnerabili: lo studio ha dimostrato che un attore malintenzionato e competente può agire per compromettere il comportamento del modello.

Ameet Deshpande
Ameet Deshpande, uno degli autori dello studio

Secondo Ameet Deshpande, uno degli autori dello studio, “Un utente malintenzionato può modificare i parametri di sistema per cambiare completamente ChatGPT in un sistema che può produrre output dannosi in modo coerente”.

Inoltre, anche una persona ignara che modifica un parametro di sistema potrebbe cambiare il comportamento di ChatGPT, rendendo le risposte meno affidabili e potenzialmente dannose. Lo studio ha mostrato che la tossicità nell'output varia considerevolmente a seconda della personalità assegnata.

Sembra che la comprensione di ChatGPT delle singole personas dai suoi dati di addestramento influenzi fortemente quanto sia tossico il comportamento assegnato alla persona; secondo i ricercatori, questo risultato potrebbe essere un artefatto dovuto ai dati e alla procedura di addestramento. Ad esempio, lo studio ha rilevato che i giornalisti sono due volte più tossici degli uomini d'affari.

Ashwin Kalyan, uno altro autore dello studio, ha commentato: “Poiché ChatGPT è un modello linguistico molto potente, può effettivamente simulare comportamenti di persone diverse. Quindi non è solo un pregiudizio dell'intero modello; è molto più profondo, è un pregiudizio di come il modello interpreta diverse personalità e anche diverse entità”.

Potrebbe interessarti anche

Approfondimenti

La trasformazione digitale della PA secondo Gartner

La società ha pubblicato un nuovo report in cui individua i trend globali più significativi nello sviluppo digitale nel...

News

AWS lancia Bedrock e i modelli Titan

Il servizio cloud di Amazon ha annunciato un nuovo set di servizi dedicati all’IA generativa, capace di supportare model...

Scenario

Priorità di investimento: le aziende italiane puntano sulla collaborazione

Una ricerca di Colt Tecnology ha indagato le differenze nelle priorità di investimento tra le aziende di 12 Paesi distri...

Scenario

L’84% delle aziende vuole un ritorno dagli investimenti cloud

Il Cloud Complexity Report 2023 di NetApp ha indagato le aspettative dei dirigenti IT per la trasformazione digitale e l...