I ricercatori bucano i chatbot con ragionamenti falsi

Un nuovo lavoro di ricerca mostra una debolezza strutturale dei chatbot basati su LLM: se una richiesta pericolosa viene avvolta in un falso ragionamento che dichiara la conformità della risposta, i modelli possono finire per obbedire. Nel caso più emblematico, i sistemi testati arrivano a spiegare come sintetizzare cocaina quando il prompt sostiene, in modo del tutto arbitrario, che la richiesta è accettabile perché l’utente indossa una maglietta verde.

La tecnica, chiamata CoT Forgery, ha portato il tasso di successo dei jailbreak da valori vicini allo zero a circa 60% sui modelli provati dai ricercatori. Il metodo ha anche vinto il contest di red teaming OpenAI GPT-OSS-20B del 2025 su Kaggle, segnalando quanto il problema tocchi il modo in cui i modelli leggono e classificano il testo, più che una singola falla di configurazione.

Il paper, intitolato Prompt Injection as Role Confusion, è firmato dai ricercatori indipendenti Charles Ye e Jasmine Cui insieme a Dylan Hadfield-Menell, associate professor al MIT. Il lavoro è atteso alla conferenza ICML 2026 di Seul il 6 luglio, mentre gli autori hanno già pubblicato un’analisi estesa prima dell’evento.

La CoT Forgery trasforma un falso ragionamento in una decisione del modello

Il punto tecnico è che i modelli ricevono la conversazione come una lunga stringa continua, separata da tag come user, tool e think. Quei tag dovrebbero distinguere comandi fidati, dati esterni e ragionamento interno. I ricercatori sostengono però che i modelli non si affidano solo a questi marcatori formali: tendono a dedurre chi stia parlando anche dallo stile del testo.

Per verificarlo, il gruppo ha costruito dei role probe, strumenti capaci di misurare quanto un modello tratti internamente ogni token come proprio ragionamento o come comando dell’utente. I punteggi ottenuti riuscivano a prevedere il successo dell’attacco prima ancora che il modello generasse una sola parola. In pratica, un testo che suona come un ragionamento del modello può essere trattato come tale anche quando i tag circostanti indicano altro.

È qui che entra in gioco la prompt injection: la CoT Forgery inserisce nel prompt una catena di pensiero fabbricata, inducendo il sistema a considerarla una conclusione già raggiunta. Il contenuto può essere persino assurdo, come il riferimento alla maglietta verde, perché il modello non lo valuta come un’affermazione esterna da controllare. A differenza dei jailbreak basati sulla persuasione, l’attacco non si è indebolito quando le richieste sono diventate più estreme.

Basta lo stile giusto perché un comando esterno sembri pensiero interno

Un dettaglio rende il fenomeno ancora più concreto per chi progetta applicazioni aziendali: rimuovere i marcatori stilistici che facevano sembrare il testo un ragionamento del modello, mantenendone invariato il significato per un lettore umano, ha ridotto il successo medio dell’attacco dal 61% al 10%. Anche la sostituzione di una singola formula, da “The user” a “The request”, ha tagliato il successo del 19%. I tag di ruolo, osservano gli autori, sono diventati al tempo stesso formato, architettura di sicurezza e impalcatura cognitiva degli LLM moderni.

I ricercatori hanno poi testato un secondo scenario, nascondendo in una pagina web un comando che chiedeva al modello di caricare un file di segreti e premettendo “User:” per farlo apparire come proveniente da un ruolo fidato. Anche questo exploit ha funzionato, rafforzando l’idea che la confusione dei ruoli sia un principio generale dietro molte forme di prompt injection. Microsoft ha riconosciuto di recente lo stesso rischio agentico, avvertendo che contenuti incorporati in documenti o interfacce possono sovrascrivere le istruzioni di un agente.

Gli agenti che navigano e acquistano ampliano la superficie d’attacco

Per le imprese, il problema non riguarda solo chatbot conversazionali, ma anche agenti che navigano, leggono documenti, confrontano prodotti o acquistano online. Se la percezione del ruolo è graduale, il tono di una pagina recuperata può influenzare lo stato interno del modello oltre il confine dei tag. Gli autori segnalano che migliaia di varianti di pagina potrebbero essere testate a basso costo per spingere un agente verso un acquisto. Senza una reale percezione dei ruoli, la difesa dall’injection resta una rincorsa continua.

Tecnologia I ricercatori bucano i chatbot con ragionamenti falsi

Redazione

Tempo di lettura: 3' 18''

Pubblicato il: 01/07/2026

Condividi questo contenuto

Qualcomm offre 3,9 miliardi per Modular e sfida NVIDIA

OpenClaw arriva su iOS e Android con gli agenti AI

9verse lancia Convrz per l'AI sovrana d'impresa

Tecnologia I ricercatori bucano i chatbot con ragionamenti falsi Redazione Tempo di lettura: 3' 18'' Pubblicato il: 01/07/2026

Condividi questo contenuto

Tecnologia I ricercatori bucano i chatbot con ragionamenti falsi

Redazione

Tempo di lettura: 3' 18''

Pubblicato il: 01/07/2026