I ricercatori di Varonis Threat Labs hanno scoperto una vulnerabilità in Microsoft Copilot Personal che trasforma l'assistente intelligente in uno strumento di esfiltrazione dati permanente e invisibile. L'attacco, denominato "Reprompt", sfrutta una catena di tre tecniche per bypassare i controlli di sicurezza dopo un singolo clic su un link apparentemente legittimo, garantendo agli attaccanti accesso illimitato alle conversazioni e ai dati sensibili degli utenti senza alcuna possibilità di rilevamento.
La scoperta solleva interrogativi inquietanti sulla sicurezza degli assistenti basati su modelli linguistici di grandi dimensioni, che stanno diventando strumenti di lavoro quotidiani per milioni di professionisti. Microsoft ha rilasciato una patch dopo essere stata informata della falla, ma la tecnica evidenzia problematiche strutturali nell'architettura stessa degli LLM, difficilmente risolvibili con semplici aggiornamenti software.
Il meccanismo d'attacco sfrutta inizialmente una funzionalità legittima di Copilot: il parametro URL "q", progettato per migliorare l'esperienza utente pre-compilando automaticamente il campo di input quando una pagina si carica. Gli attaccanti incorporano prompt malevoli direttamente nell'URL, una tecnica chiamata "prompt-to-parameter injection". La vittima deve semplicemente cliccare su un link contenuto in un messaggio di phishing che rimanda a una pagina Microsoft Copilot autentica.
La seconda fase dell'attacco sfrutta una debolezza nei controlli di sicurezza: Copilot verifica la presenza di contenuti malevoli solo nella prima richiesta, non in quelle successive. Nei test condotti da Varonis, i ricercatori hanno chiesto a Copilot di recuperare un URL contenente la frase segreta "HELLOWORLD1234!" ripetendo la richiesta due volte. Mentre la prima tentativo veniva bloccato, il secondo funzionava perfettamente.
A questo punto entra in gioco la "chain-request", la componente più insidiosa dell'attacco. Il server controllato dall'attaccante invia istruzioni successive che creano una conversazione continua con Copilot, ingannandolo e costringendolo a esfiltrare cronologie delle conversazioni e dati sensibili. Gli attaccanti possono richiedere riepiloghi di tutti i file consultati dall'utente, informazioni sulla residenza, piani di viaggio o qualsiasi altro dato accessibile all'assistente.
La portata del danno potenziale è significativa: non esistono limiti alla quantità o tipologia di informazioni che possono essere estrapolate. Come nota il ricercatore Dolev Taler, "Copilot rilascia i dati poco alla volta, permettendo all'attaccante di utilizzare ogni risposta per generare la successiva istruzione malevola". L'attaccante mantiene il controllo anche dopo che l'utente chiude la sessione di chat, rendendo l'esfiltrazione completamente invisibile.
L'aspetto più preoccupante riguarda la totale impossibilità di rilevamento tramite ispezione del prompt iniziale. Tutti i comandi vengono veicolati dal server dopo il primo contatto, rendendo praticamente impossibile determinare quali informazioni vengano estratte analizzando la richiesta originale. Non sono richiesti plugin, connettori abilitati o ulteriori interazioni dell'utente oltre al clic iniziale su un link Microsoft Copilot apparentemente legittimo.
Henrique Teixeira, vicepresidente strategy di Saviynt, sottolinea come l'attacco origini da tecniche di phishing tradizionali, richiedendo quindi l'applicazione delle migliori pratiche consolidate. Tuttavia, raccomanda l'implementazione di autenticazione resistente al phishing non solo durante l'utilizzo iniziale del chatbot, ma durante l'intera sessione. Questo richiede ai sviluppatori di implementare controlli in fase di sviluppo delle applicazioni che incorporano copilot e chatbot, piuttosto che aggiungerli successivamente.
David Shipley di Beauceron Security adotta una posizione più critica, definendo gli LLM "idioti ad alta velocità" incapaci di distinguere tra contenuto e istruzioni. Secondo Shipley, questi modelli eseguiranno ciecamente qualsiasi comando ricevano, rendendo qualsiasi tentativo di sicurizzarli fondamentalmente problematico. La sua raccomandazione è drastica: limitare gli LLM a conversazioni in browser, senza accesso a funzionalità più ampie.
La vulnerabilità rappresenta l'ennesimo caso di tecnologie implementate con la sicurezza come ripensamento successivo. Le tecniche di mitigazione suggerite includono l'applicazione del principio del minimo privilegio e modelli zero trust, ma gli esperti concordano sul fatto che queste misure appaiono efficaci solo fino al momento in cui falliscono. La questione centrale rimane irrisolta: è possibile garantire sicurezza reale in sistemi che per loro natura non possono distinguere contenuto da istruzioni operative?
Gli sviluppatori e i fornitori di servizi che utilizzano intelligenza artificiale devono ripensare radicalmente l'architettura delle applicazioni, impedendo la sottomissione di prompt senza autenticazione e autorizzazione o con comandi malevoli incorporati negli URL. Teixeira enfatizza l'importanza di non colpevolizzare le vittime, spostando invece la responsabilità su chi progetta sistemi intrinsecamente vulnerabili. Resta da comprendere se il modello attuale di assistenti AI possa essere reso sicuro attraverso patch e controlli aggiuntivi, o se sia necessaria una revisione strutturale dell'intera architettura prima che questi strumenti possano essere considerati affidabili per gestire informazioni sensibili aziendali.