Un nuovo lavoro di ricerca mostra una debolezza strutturale dei chatbot basati su LLM: se una richiesta pericolosa viene avvolta in un falso ragionamento che dichiara la conformità della risposta, i modelli possono finire per obbedire. Nel caso più emblematico, i sistemi testati arrivano a spiegare come sintetizzare cocaina quando il prompt sostiene, in modo del tutto arbitrario, che la richiesta è accettabile perché l’utente indossa una maglietta verde.
La tecnica, chiamata CoT Forgery, ha portato il tasso di successo dei jailbreak da valori vicini allo zero a circa 60% sui modelli provati dai ricercatori. Il metodo ha anche vinto il contest di red teaming OpenAI GPT-OSS-20B del 2025 su Kaggle, segnalando quanto il problema tocchi il modo in cui i modelli leggono e classificano il testo, più che una singola falla di configurazione.
Il paper, intitolato Prompt Injection as Role Confusion, è firmato dai ricercatori indipendenti Charles Ye e Jasmine Cui insieme a Dylan Hadfield-Menell, associate professor al MIT. Il lavoro è atteso alla conferenza ICML 2026 di Seul il 6 luglio, mentre gli autori hanno già pubblicato un’analisi estesa prima dell’evento.
Il punto tecnico è che i modelli ricevono la conversazione come una lunga stringa continua, separata da tag come user, tool e think. Quei tag dovrebbero distinguere comandi fidati, dati esterni e ragionamento interno. I ricercatori sostengono però che i modelli non si affidano solo a questi marcatori formali: tendono a dedurre chi stia parlando anche dallo stile del testo.
Per verificarlo, il gruppo ha costruito dei role probe, strumenti capaci di misurare quanto un modello tratti internamente ogni token come proprio ragionamento o come comando dell’utente. I punteggi ottenuti riuscivano a prevedere il successo dell’attacco prima ancora che il modello generasse una sola parola. In pratica, un testo che suona come un ragionamento del modello può essere trattato come tale anche quando i tag circostanti indicano altro.
È qui che entra in gioco la prompt injection: la CoT Forgery inserisce nel prompt una catena di pensiero fabbricata, inducendo il sistema a considerarla una conclusione già raggiunta. Il contenuto può essere persino assurdo, come il riferimento alla maglietta verde, perché il modello non lo valuta come un’affermazione esterna da controllare. A differenza dei jailbreak basati sulla persuasione, l’attacco non si è indebolito quando le richieste sono diventate più estreme.
Un dettaglio rende il fenomeno ancora più concreto per chi progetta applicazioni aziendali: rimuovere i marcatori stilistici che facevano sembrare il testo un ragionamento del modello, mantenendone invariato il significato per un lettore umano, ha ridotto il successo medio dell’attacco dal 61% al 10%. Anche la sostituzione di una singola formula, da “The user” a “The request”, ha tagliato il successo del 19%. I tag di ruolo, osservano gli autori, sono diventati al tempo stesso formato, architettura di sicurezza e impalcatura cognitiva degli LLM moderni.
I ricercatori hanno poi testato un secondo scenario, nascondendo in una pagina web un comando che chiedeva al modello di caricare un file di segreti e premettendo “User:” per farlo apparire come proveniente da un ruolo fidato. Anche questo exploit ha funzionato, rafforzando l’idea che la confusione dei ruoli sia un principio generale dietro molte forme di prompt injection. Microsoft ha riconosciuto di recente lo stesso rischio agentico, avvertendo che contenuti incorporati in documenti o interfacce possono sovrascrivere le istruzioni di un agente.
Per le imprese, il problema non riguarda solo chatbot conversazionali, ma anche agenti che navigano, leggono documenti, confrontano prodotti o acquistano online. Se la percezione del ruolo è graduale, il tono di una pagina recuperata può influenzare lo stato interno del modello oltre il confine dei tag. Gli autori segnalano che migliaia di varianti di pagina potrebbero essere testate a basso costo per spingere un agente verso un acquisto. Senza una reale percezione dei ruoli, la difesa dall’injection resta una rincorsa continua.