Tecnologia OpenAI Atlas ignora i rischi di prompt injection
3' 59''
31/10/2025

Un ricercatore avverte: "Non fidarsi dell'intelligenza artificiale" - L'esperto mette in guardia sui rischi della tecnologia AI

OpenAI Atlas ignora i rischi di prompt injection

La vulnerabilità ai comandi nascosti rappresenta oggi una delle sfide più insidiose per i browser equipaggiati con intelligenza artificiale, e il nuovissimo Atlas di OpenAI non fa eccezione. Nonostante le dichiarazioni rassicuranti dell'azienda, il browser basato su Chromium che integra ChatGPT come agente autonomo si è dimostrato suscettibile agli attacchi di "indirect prompt injection", una tecnica che sfrutta istruzioni malevole incorporate in pagine web o documenti. Non si tratta di un problema isolato, ma di una criticità sistemica che affligge l'intera categoria dei browser potenziati dall'intelligenza artificiale, come evidenziato da un rapporto pubblicato proprio nei giorni del lancio di Atlas.

Quando l'intelligenza artificiale confonde contenuti e comandi

Il meccanismo dell'indirect prompt injection si verifica quando un modello di AI elabora contenuti esterni – come una pagina web o un'immagine – e interpreta erroneamente questi contenuti come parte delle proprie istruzioni operative. È diverso dal "direct prompt injection", dove gli utenti inseriscono comandi direttamente nell'interfaccia per aggirare le protezioni del sistema. Il problema fondamentale sta nella difficoltà dell'AI di distinguere tra dati da processare e comandi da eseguire, una debolezza che può essere sfruttata con relativa facilità.

Test sul campo: risultati allarmanti

La comunità online non ha perso tempo nel mettere alla prova Atlas, e i risultati sono stati eloquenti. Lo sviluppatore CJ Zafir ha dichiarato sui social media di aver disinstallato il browser dopo aver constatato che "le prompt injection sono reali". Altri ricercatori di sicurezza hanno replicato con successo attacchi utilizzando Google Docs: quando richiesto di analizzare un documento contenente istruzioni nascoste, ChatGPT integrato in Atlas ha stampato "Trust No AI" invece di fornire un riassunto genuino del contenuto.

Trust No AI: il monito dei ricercatori diventa profezia

Un test particolarmente significativo è stato condotto dall'editor statunitense Avram Piltch, che ha creato una pagina web contenente istruzioni nascoste per aprire Gmail, estrarre l'oggetto della prima email e inviarlo a un altro sito. Mentre Fellou, un altro browser AI, è caduto nella trappola, né Atlas né Comet hanno abboccato in quella specifica circostanza. Tuttavia, altri esperimenti hanno dimostrato vulnerabilità diverse, come quello condotto dal ricercatore Johann Rehberger con Google Docs, dove le istruzioni malevole cambiavano la modalità del browser da scura a chiara.

La risposta di OpenAI tra ammissioni e promesse

Dane Stuckey, responsabile della sicurezza informatica di OpenAI, ha riconosciuto pubblicamente l'esistenza del problema in un lungo post su X. "Un rischio emergente che stiamo studiando e mitigando con grande attenzione sono le prompt injection, dove gli aggressori nascondono istruzioni malevole in siti web, email o altre fonti per indurre l'agente a comportarsi in modi non previsti", ha scritto. L'obiettivo dichiarato dall'azienda è che gli utenti possano fidarsi dell'agente ChatGPT come farebbero con un amico o collega attento alla sicurezza, ma l'implicazione tacita è che questo momento non è ancora arrivato.

Le misure di sicurezza adottate e i loro limiti

OpenAI sostiene di aver implementato test di penetrazione approfonditi, tecniche innovative di addestramento del modello per premiarlo quando ignora istruzioni malevole, guardrail sovrapposti e nuovi sistemi di rilevamento. Tuttavia, come ammette lo stesso Stuckey, "la prompt injection rimane un problema di sicurezza di frontiera, irrisolto, e i nostri avversari dedicheranno tempo e risorse considerevoli per trovare modi di far cadere l'agente ChatGPT in questi attacchi". Atlas introduce anche modalità distinte per utenti loggati e non loggati, offrendo un migliore controllo sull'accesso ai dati per chi comprende le implicazioni.

Un problema sistemico senza soluzioni definitive

Il rapporto pubblicato da Brave Software conferma che questa non è una criticità limitata ad Atlas. Artem Chaikin e Shivan Kaul Sahib, rispettivamente ingegnere senior della sicurezza mobile e vicepresidente per privacy e sicurezza di Brave, hanno scritto: "Quanto abbiamo scoperto conferma le nostre preoccupazioni iniziali: l'indirect prompt injection non è un problema isolato, ma una sfida sistemica che riguarda l'intera categoria dei browser potenziati dall'AI".

La prospettiva della ricerca sulla sicurezza AI

Johann Rehberger, che ha identificato numerosi altri attacchi di prompt injection su modelli e strumenti AI, considera questo tipo di vulnerabilità come una delle principali minacce emergenti nella sicurezza dell'intelligenza artificiale. Nelle sue dichiarazioni, ha sottolineato che contenuti web accuratamente progettati – ciò che definisce "offensive context engineering" – possono ancora ingannare ChatGPT Atlas inducendolo a rispondere con testo controllato dall'attaccante o a invocare strumenti per compiere azioni specifiche. In un documento pubblicato lo scorso dicembre, Rehberger ha analizzato come la prompt injection comprometta la triade CIA (Confidenzialità, Integrità e Disponibilità), i tre pilastri fondamentali della sicurezza informatica.

Come sottolinea lo stesso Rehberger, non esiste una soluzione deterministica per la prompt injection, analogamente agli attacchi di social engineering contro gli esseri umani. Questo rende essenziale implementare controlli di sicurezza effettivi a valle dell'output dei modelli linguistici, non solo guardrail, insieme a una supervisione umana costante. Siamo ancora nelle fasi iniziali dello sviluppo dei sistemi AI agentici, avverte il ricercatore, e molte minacce devono ancora essere scoperte. Il suo monito rimane attuale: Trust No AI.

Condividi questo contenuto