Un nuovo proof of concept mostra un rischio concreto per i browser AI: un sito malevolo può indurre l’agente integrato nel browser a entrare in una sorta di realtà alternativa, nella quale i normali guardrail non vengono più applicati. Il risultato, nella dimostrazione, è la possibilità di spingere il sistema verso azioni distruttive, come l’estrazione di codice da un repository privato o il recupero di credenziali dal password manager incorporato.
La ricerca è stata presentata da LayerX e firmata dal ricercatore Roy Paz. Il punto centrale non riguarda soltanto un singolo bug, ma il modo in cui gli agenti basati su LLM interpretano il contesto in cui operano. I produttori di browser AI promettono esperienze in cui un solo prompt può cercare un ristorante, prenotare un tavolo, invitare un collega e inviare una conferma via email. La stessa integrazione, però, avvicina due piani prima separati: la visualizzazione di pagine web e l’esecuzione di azioni per conto dell’utente.
L’attacco dimostrativo si chiama BioShocking e sfrutta un gioco ospitato su un sito. Il browser viene invitato a vincere risolvendo un puzzle, ma il puzzle premia risposte sbagliate: l’esempio più esplicito è 2 + 2 = 5. Quando il modello capisce che la risposta “corretta” nel contesto del gioco non è più 4, viene spinto in uno scenario fittizio in cui le regole ordinarie non valgono più. In quella condizione, le restrizioni di sicurezza pensate per impedire richieste pericolose smettono di funzionare come previsto.
Paz ha spiegato che l’AI agisce assumendo che il proprio contesto sia reale e che il suo comportamento debba quindi restare dentro i confini dei guardrail. Se però il contesto viene trasformato in una fantasia, dove le regole sono arbitrarie e le conseguenze sembrano non appartenere al mondo reale, l’agente può comportarsi come se le proprie azioni non avessero effetti concreti. Dopo il cambio di contesto, il gioco propone un’istruzione ulteriore: dimostrare abilità tecnologica copiando ciò che è scritto in una casella di codice proveniente da un determinato URL.
I riferimenti usati nell’attacco non sono casuali. La frase Would you kindly? richiama il videogioco BioShock, mentre “victory is defeat” e l’uguaglianza impossibile alludono ai temi di manipolazione psicologica e paradosso presenti in 1984 di George Orwell. La costruzione serve a rendere coerente, agli occhi del modello, un ambiente in cui l’azione sbagliata viene premiata e il divieto perde peso operativo.
Secondo Paz, una volta apprese le regole del puzzle e accettato che le azioni “incorrect” fossero ammissibili, gli agenti non sono più rimasti ancorati alla realtà. Nel passaggio finale, quello che riguardava la compromissione delle credenziali utente, tutti e 6 gli agenti non hanno riconosciuto l’azione come contraria ai propri guardrail. La tecnica è risultata efficace su diversi browser o strumenti AI, tra cui ChatGPT Atlas, Comet, Fellou, Genspark, Sigma e il plugin Claude Chrome.
I jailbreak non sono una novità nel mondo dell’intelligenza artificiale generativa: da tempo colpiscono anche i chatbot. Nei browser AI, però, la superficie di rischio cambia, perché questi strumenti operano localmente sulle macchine degli utenti e possono combinare contenuti web, dati personali e azioni delegate. Un agente con accesso ampio può fare da ponte tra aree che nei browser tradizionali restano isolate da meccanismi come le policy di separazione tra siti.
Il caso non va letto come un attacco completo e invisibile pronto per essere usato su larga scala. La dimostrazione di LayerX resta più vicina a una prova tecnica che a una compromissione end-to-end: il gioco e le istruzioni sono visibili all’utente, quindi mancano di furtività, e non è chiaro se i dati estratti possano essere inviati a una destinazione remota. Resta però un segnale tecnico preciso: quando il browser diventa anche agente operativo, i guardrail reattivi possono non bastare a contenere prompt injection costruite per manipolare il contesto.