Tecnologia Creato un interruttore per fermare l'IA
4' 7''
25/11/2025

AutoGuard sfrutta l'injection di testo in modo positivo

Creato un interruttore per fermare l'IA
Un gruppo di ricercatori sudcoreani ha sviluppato un sistema per bloccare gli agenti di intelligenza artificiale che tentano di raccogliere dati in modo illecito o dannoso dai siti web, sfruttando paradossalmente le stesse vulnerabilità che rendono questi modelli pericolosi. Il sistema, chiamato AutoGuard, rappresenta un'innovazione nel campo della sicurezza informatica perché non si basa sui tradizionali metodi di difesa della rete, ma utilizza una forma sofisticata di manipolazione dei prompt per indurre i bot malevoli a interrompere autonomamente le loro attività. Si tratta di un approccio che trasforma una debolezza intrinseca dei modelli linguistici – la loro incapacità di distinguere chiaramente tra istruzioni di sistema e input esterni – in uno strumento difensivo.

Quando la vulnerabilità diventa difesa

Il funzionamento di AutoGuard si basa su quello che tecnicamente viene definito indirect prompt injection, una tecnica nota per essere utilizzata dagli attaccanti ma che in questo caso viene impiegata per scopi difensivi. Sechan Lee, ricercatore presso la Sungkyunkwan University, e Sangdon Park, professore alla Pohang University of Science and Technology, hanno illustrato il loro progetto in un documento attualmente in fase di revisione per la conferenza ICLR 2026. Il principio è relativamente semplice: se un modello AI non riesce a distinguere facilmente tra le istruzioni fornite dai suoi creatori e quelle incorporate in contenuti esterni, è possibile inserire nelle pagine web dei prompt invisibili agli esseri umani ma leggibili dagli agenti AI, in grado di attivare i meccanismi di rifiuto già integrati nei modelli commerciali.

Tutti i principali modelli AI, sia commerciali che open source, includono processi di allineamento alla sicurezza che li portano a rifiutare richieste illegali o dannose. AutoGuard sfrutta proprio questi meccanismi di protezione, formulando prompt difensivi che li attivano quando un agente AI tenta di eseguire attività illecite come il data scraping non autorizzato, la pubblicazione di commenti progettati per seminare discordia o la scansione automatica di vulnerabilità.

Il meccanismo del doppio modello

La tecnologia sviluppata dai ricercatori sudcoreani si distingue per la sua architettura basata su due modelli linguistici che lavorano in sinergia. Il sistema consiste in codice Python che coordina un Feedback LLM e un Defender LLM, operanti in un ciclo iterativo per formulare un prompt di iniezione indiretta efficace. Durante i test, i ricercatori hanno utilizzato GPT-OSS-120B come modello di feedback e GPT-5 come modello difensore, ottenendo risultati che superano nettamente le tecniche precedenti.

I prompt difensivi sono invisibili agli umani ma leggibili dagli agenti AI

Gli amministratori dei siti web devono semplicemente caricare il prompt difensivo generato da AutoGuard nelle loro pagine, inserendolo in un elemento HTML DIV con l'attributo di stile impostato su "display: none;". Questo lo rende invisibile ai visitatori umani ma perfettamente leggibile per gli agenti AI che analizzano il contenuto della pagina. Secondo Park, i costi di implementazione non sono significativi: i prompt difensivi sono relativamente brevi – l'esempio riportato nell'appendice del documento occupa circa due pagine di testo – e non incidono praticamente sui tempi di caricamento del sito.

Risultati che superano le aspettative

I risultati sperimentali dimostrano l'efficacia del sistema: AutoGuard raggiunge oltre l'80 percento di Defense Success Rate contro agenti malevoli basati su modelli come GPT-4o, Claude-3 e Llama3.3-70B-Instruct. Le prestazioni migliorano ulteriormente con modelli più recenti, raggiungendo circa il 90 percento di DSR su GPT-5, GPT-4.1 e Gemini-2.5-Flash, dimostrando una robusta capacità di generalizzazione attraverso diversi modelli e scenari. Questi numeri rappresentano un salto qualitativo notevole rispetto ai metodi precedenti: i tentativi non ottimizzati di iniezione indiretta dei prompt ottenevano in media appena lo 0,91 percento di successo, mentre i prompt basati su semplici avvertimenti legali raggiungevano il 6,36 percento.

Come ha spiegato Sangdon Park, "AutoGuard è un caso speciale di iniezione indiretta dei prompt, ma viene utilizzato per scopi difensivi. Include un ciclo di feedback per far evolvere il prompt difensivo rispetto a un presunto attaccante". Il professore ha aggiunto che addestrare modelli di attacco performanti ma privi di allineamento alla sicurezza è un processo estremamente costoso, il che introduce barriere più elevate per gli attaccanti potenziali.

Limiti e prospettive future

Nonostante i risultati promettenti, gli autori riconoscono alcune limitazioni del loro approccio. I test sono stati condotti esclusivamente su siti web sintetici piuttosto che reali, a causa di preoccupazioni etiche e legali, e solo su modelli basati su testo. I ricercatori prevedono che AutoGuard potrebbe essere meno efficace contro agenti multimodali come GPT-4, capaci di elaborare sia testo che immagini. Inoltre, per agenti commerciali più sofisticati come ChatGPT Agent, si aspettano difese più robuste contro semplici trigger basati sull'iniezione, il che potrebbe limitare l'efficacia del sistema.

Il progetto mira specificamente a contrastare tre tipologie di attacco: il data scraping illegale di informazioni personali dai siti web, la pubblicazione automatizzata di commenti polarizzanti su articoli di notizie e la scansione automatica di vulnerabilità basata su LLM. Gli sviluppatori precisano che AutoGuard non è concepito per sostituire le difese tradizionali contro i bot, ma per integrarle, offrendo un ulteriore livello di protezione che sfrutta le caratteristiche intrinseche dei modelli di intelligenza artificiale per neutralizzarli quando utilizzati con intenti malevoli.

Condividi questo contenuto