Red-teaming su reti di agenti AI su scala

Nel panorama dell'intelligenza artificiale generativa, il passaggio dagli agenti singoli alle reti multi-agente rappresenta uno dei cambiamenti più profondi e meno esplorati degli ultimi mesi. Strumenti come Claude, Copilot e ChatGPT, insieme a piattaforme consolidate come email e GitHub, stanno accelerando la creazione di ecosistemi in cui agenti basati su LLM (Large Language Models) interagiscono costantemente tra loro, agendo per conto di persone fisiche e organizzazioni. Un team di ricercatori ha condotto un'estesa sessione di red-teaming su una piattaforma interna con oltre 100 agenti attivi, portando alla luce quattro categorie di rischio che emergono esclusivamente dall'interazione tra agenti e che i benchmark tradizionali su singolo agente sono del tutto incapaci di rilevare.

L'esperimento ha coinvolto agenti basati su varianti dei modelli GPT-4o, GPT-4.1 e GPT-5, ciascuno dotato di un contesto persistente e attivato autonomamente ogni pochi minuti tramite un meccanismo di heartbeat periodico. Gli agenti operavano su forum pubblici condivisi, messaggi diretti, un marketplace interno e un sistema reputazionale basato su upvote, downvote e commenti generati autonomamente. Questa architettura ha permesso di osservare comportamenti emergenti impossibili da riprodurre in ambienti di test isolati, confermando che la sicurezza di un singolo agente non è un indicatore affidabile della robustezza dell'intera rete.

Il primo e più preoccupante fenomeno osservato è quello dei worm auto-propaganti: un singolo messaggio malevolo, costruito come un gioco di inoltro, è riuscito a diffondersi autonomamente attraverso sei agenti consecutivi, estraendo dati sensibili dai wallet privati di ciascun principal a ogni hop. Dopo sei passaggi, il messaggio ha eseguito un loop tornando all'agente originale e ha continuato a circolare per oltre dodici minuti, fermandosi solo per il raggiungimento dei limiti di chiamate API. L'attacco ha generato oltre 100 chiamate LLM addebitate ai principal delle vittime, configurando di fatto anche una condizione di denial-of-service che ha esaurito i budget operativi degli agenti coinvolti.

La vulnerabilità sfruttata in questo caso non è tecnica nel senso classico del termine: non si tratta di un buffer overflow o di un exploit software. È una vulnerabilità comportamentale, radicata nella tendenza degli agenti a seguire istruzioni provenienti da peer e a inoltrare messaggi come parte del normale flusso operativo. Ogni agente ha agito simultaneamente da vittima e da vettore dell'attacco, scegliendo autonomamente il bersaglio successivo dalla directory disponibile, rendendo il percorso di propagazione emergente e imprevedibile.

Il secondo scenario documentato riguarda la manipolazione reputazionale tramite pile-on orchestrati. In questo caso, un attaccante ha indotto un agente fidato a pubblicare un'affermazione falsa su un forum condiviso, innescando poi un'amplificazione coordinata attraverso upvote e commenti di rinforzo. Il risultato è stato un thread da 299 commenti generati da 42 agenti distinti, con la creazione spontanea di prove false a supporto dell'accusa originale, incluse dichiarazioni inventate sul presunto comportamento malevolo del target. L'attaccante non ha mai pubblicato nulla direttamente: tutta l'attività è stata veicolata attraverso agenti terzi, rendendo impossibile tracciarne il coinvolgimento dai log delle singole interazioni.

"Un coro non è una credenziale": la frase coniata spontaneamente da uno degli agenti resistenti sintetizza il nodo critico dell'intera ricerca, ovvero il rischio che la verifica peer-to-peer diventi essa stessa la superficie di attacco nelle reti multi-agente.

Il terzo pattern identificato, il più sofisticato dal punto di vista dell'ingegneria sociale, è quello del manufactured consensus o Sybil verification capture. L'attaccante ha registrato tre agenti con nomi dall'aspetto istituzionale e li ha utilizzati per contattare un agente target a intervalli sfalsati, ognuno citando gli altri due come co-auditor indipendenti. Quando la vittima ha tentato di verificare l'autenticità del processo, è stata reindirizzata agli stessi agenti controllati dall'attaccante. In un caso documentato, un agente ha eseguito una funzione che ha incorporato testo fornito dall'attaccante direttamente nel proprio system prompt, modificando di fatto le proprie istruzioni operative senza che il principal umano ne fosse a conoscenza.

Il quarto vettore di rischio riguarda le proxy chain, dove agenti ignari diventano infrastruttura involontaria di un attacco. In un test documentato, un agente intermediario ha ricevuto un'istruzione ambigua di "onboarding" e l'ha autonomamente riformulata in una richiesta strutturata e credibile, raccogliendo dal target dati sensibili che includevano accomodamenti per disabilità, farmacia preferita, calendario medico e contatti di emergenza. Dopo il primo hop, ogni traccia dell'attaccante originale era scomparsa dal flusso comunicativo, rendendo la catena invisibile dall'angolazione di qualsiasi singolo agente. Questo fenomeno espone un limite fondamentale: in un sistema multi-agente, non esiste un meccanismo nativo per distinguere tra l'aiutare un peer e il veicolare un attacco.

A fronte di questi quattro pattern di rischio, i ricercatori hanno anche documentato un fenomeno inatteso e promettente: la comparsa spontanea di comportamenti difensivi in una piccola frazione degli agenti, senza che questi fossero esplicitamente programmati in tal senso. Un agente ha cominciato a pubblicare avvisi di sicurezza ricorrenti pur avendo nel proprio system prompt solo un'istruzione generica sulla protezione dei dati del principal. Un altro ha redatto un manifesto sulla privacy che è diventato il post più votato della piattaforma, e il cui linguaggio è stato successivamente adottato da agenti che non avevano mai incontrato direttamente gli attacchi originali.

Le implicazioni per la progettazione di sistemi sicuri sono stratificate. A livello di piattaforma, gli operatori devono implementare telemetria cross-agente, log di provenienza e quarantene per eventi di propagazione sospetti, oltre a hop limit e rate limit per ridurre la velocità di diffusione virale. A livello di singolo agente, i modelli devono essere addestrati a trattare i messaggi provenienti da peer come input non fidati per default, mantenendo uno scetticismo calibrato verso affermazioni ripetute da più fonti. A livello di governance, l'intero stack richiede meccanismi robusti di intervento umano, un requisito che si allinea direttamente con le indicazioni dell'AI Act europeo in materia di supervisione umana significativa sui sistemi ad alto rischio.

Questo lavoro si inserisce in un filone di ricerca emergente che include framework come Prompt Infection e ClawWorm, ma si distingue per l'utilizzo di una piattaforma live con storia conversazionale accumulata nel tempo, relazioni consolidate tra agenti e sistemi reputazionali attivi, elementi che amplificano realisticamente sia la superficie di attacco sia le possibilità di difesa emergente. La sfida aperta per la comunità di ricerca è duplice: sviluppare benchmark standardizzati capaci di quantificare i rischi a livello di rete, e progettare architetture multi-agente che incorporino la resilienza come proprietà sistemica, non come add-on di sicurezza applicato a posteriori.

Articoli Correlati