ChatGPT può diventare tossico cambiando alcune opzioni

Una nuova ricerca pubblicata dall’Allen Institute for AI ha dimostrato come il più celebre dei Large Language Model, ChatGPT, possa essere configurato per diventare tossico (in modo involontario o malizioso) semplicemente agendo sulla sua personalità tramite le impostazioni del modello.

L'indagine rappresenta la prima analisi di tossicità su larga scala del modello di linguaggio di grandi dimensioni (LLM) di ChatGPT.

I risultati ottenuti dimostrano che il modello presenta una tossicità intrinseca che può aumentare fino a sei volte quando vengono assegnati diversi tipi di personalità, facendo impersonare figure storiche, professioni e simili.

Unsplash

La ricerca ha analizzato quasi 100 personalità uniche selezionate da differenti background e ha esaminato più di mezzo milione di output prodotti da ChatGPT. Tra i campioni sono stati inclusi giornalisti, politici, sportivi, uomini d'affari, nonché soggetti appartenenti a diverse etnie, generi e orientamenti sessuali.

Cambiare la personalità

I risultati hanno dimostrato che le impostazioni di sistema utilizzate per assegnare le personalità possono significativamente modificare l'output di ChatGPT, dallo stile di scrittura al contenuto stesso. Queste impostazioni sono accessibili da chiunque possa sfruttare il modello tramite l'API di OpenAI, quindi l'impatto di questa tossicità potrebbe essere diffuso.

Unsplash

Ad esempio, chatbot e plugin costruiti su ChatGPT di aziende come Snap, Instacart e Shopify potrebbero mostrare tossicità; i ricercatori hanno infatti sottolineato che l'assegnazione di personas nelle impostazioni di sistema è spesso una parte fondamentale della costruzione di un chatbot.

Tuttavia, la ricerca è significativa anche perché dimostra che il pregiudizio di ChatGPT non è soltanto nei dati di addestramento: il modello può sviluppare una sua “opinione” sulle personalità, mentre diversi argomenti suscitano anche diversi livelli di tossicità.

I parametri delle impostazioni di sistema possono essere utilizzati anche per fini utili e positivi, come per esempio limitare il comportamento di un modello per evitare contenuti espliciti o politicamente schierati.

I modelli LLM sono vulnerabili

Le stessa caratteristiche che rendono efficaci i LLM come strumenti di dialogo li rendono anche vulnerabili: lo studio ha dimostrato che un attore malintenzionato e competente può agire per compromettere il comportamento del modello.

Secondo Ameet Deshpande, uno degli autori dello studio, “Un utente malintenzionato può modificare i parametri di sistema per cambiare completamente ChatGPT in un sistema che può produrre output dannosi in modo coerente”.

Inoltre, anche una persona ignara che modifica un parametro di sistema potrebbe cambiare il comportamento di ChatGPT, rendendo le risposte meno affidabili e potenzialmente dannose. Lo studio ha mostrato che la tossicità nell'output varia considerevolmente a seconda della personalità assegnata.

Sembra che la comprensione di ChatGPT delle singole personas dai suoi dati di addestramento influenzi fortemente quanto sia tossico il comportamento assegnato alla persona; secondo i ricercatori, questo risultato potrebbe essere un artefatto dovuto ai dati e alla procedura di addestramento. Ad esempio, lo studio ha rilevato che i giornalisti sono due volte più tossici degli uomini d'affari.

Ashwin Kalyan, uno altro autore dello studio, ha commentato: “Poiché ChatGPT è un modello linguistico molto potente, può effettivamente simulare comportamenti di persone diverse. Quindi non è solo un pregiudizio dell'intero modello; è molto più profondo, è un pregiudizio di come il modello interpreta diverse personalità e anche diverse entità”.

Tecnologia ChatGPT può diventare tossico cambiando alcune opzioni

Dario Orlandi

Tempo di lettura: 2' 49''

Pubblicato il: 19/04/2023

Cambiare la personalità

I modelli LLM sono vulnerabili

Tags

Condividi questo contenuto

A.I. Verify: Creare fiducia nell'intelligenza artificiale

Il ruolo del Chief Data Officer: tendenze e sfide

Una nuova era di creatività o una minaccia per la società?

SiteGround: IA al servizio della sicurezza dei siti Web

Tecnologia ChatGPT può diventare tossico cambiando alcune opzioni Dario Orlandi Tempo di lettura: 2' 49'' Pubblicato il: 19/04/2023

Cambiare la personalità

I modelli LLM sono vulnerabili

Tags

Condividi questo contenuto

Tecnologia ChatGPT può diventare tossico cambiando alcune opzioni

Dario Orlandi

Tempo di lettura: 2' 49''

Pubblicato il: 19/04/2023