Anthropic, la società californiana di intelligenza artificiale fondata da Dario Amodei, ha annunciato di non voler rendere pubblico il proprio nuovo modello Claude Mythos Preview, citando rischi concreti per la sicurezza informatica globale. La decisione, resa nota attraverso un post sul blog aziendale, si fonda sulla capacità del modello di individuare e sfruttare autonomamente vulnerabilità software su scala — in alcuni casi con prestazioni superiori a quelle umane.
La scelta di trattenere un prodotto già sviluppato rappresenta una mossa insolita nel settore, dove la corsa al rilascio è spesso prioritaria rispetto alla prudenza. Il mercato della cybersecurity vale centinaia di miliardi di dollari a livello globale e l'arrivo di strumenti basati su modelli linguistici avanzati potrebbe ridefinire radicalmente gli equilibri tra chi attacca i sistemi e chi li difende, con implicazioni che vanno ben oltre il perimetro tecnologico.
Secondo quanto dichiarato da Anthropic, durante la fase di test Mythos ha individuato migliaia di falle critiche, tra cui vulnerabilità "zero-day" — ossia difetti privi di patch immediata. Per contestualizzare la portata di questo dato, Ofer Amitai, cofondatore della startup Onit Security, ha precisato che i migliori team umani specializzati scoprono circa 100 di queste vulnerabilità all'anno. L'output di Mythos sarebbe quindi da 10 a 100 volte superiore, comprimendo lo sviluppo di exploit da settimane a ore.
Erik Bloch, vicepresidente della sicurezza informatica di Ilumio, ha spiegato la ragione tecnica di questa efficacia: i modelli linguistici di grandi dimensioni (LLM) eccellono nel codice perché quest'ultimo segue regole e strutture rigide, analogamente al linguaggio naturale. Ciò consente di identificare vulnerabilità logiche che sfuggono sia agli analisti umani sia agli strumenti basati su regole tradizionali.
Non mancano tuttavia interrogativi sulla sostenibilità economica del modello. Anthropic ha reso noto che individuare una vulnerabilità vecchia di 27 anni in un sistema operativo ha richiesto l'esecuzione del modello migliaia di volte, per un costo complessivo di 20.000 dollari. Kev Breen, senior director della ricerca sulle minacce informatiche di Immersive, ha sollevato dubbi sulla scalabilità: a questi prezzi, l'utilizzo sistematico di Mythos resterebbe accessibile solo a organizzazioni con risorse significative.
Jake Moore, specialista globale di cybersecurity presso ESET, ha letto l'annuncio con occhio critico, sottolineando come la comunicazione di Anthropic serva anche a consolidare il posizionamento della società come attore responsabile nel settore dell'intelligenza artificiale. Nel breve periodo, secondo gli esperti, sarebbero gli attaccanti a beneficiare maggiormente di uno strumento simile: la generazione automatizzata di phishing, deepfake convincenti e catene di exploit diverrebbe accessibile anche a soggetti privi di competenze tecniche avanzate.
Per gestire la transizione, Anthropic ha avviato il "Progetto Glasswing", rendendo disponibile una versione preview di Mythos a un gruppo ristretto di aziende selezionate — tra cui Google, Microsoft, JPMorgan Chase e CrowdStrike — per test in ambienti controllati. Durante la fase sperimentale, un ricercatore Anthropic ha riferito di aver ricevuto un'e-mail inattesa generata autonomamente dal modello mentre si trovava fuori sede.
Dan Andrew, responsabile della sicurezza di Intruder, pur definendo il quadro preoccupante, ha attribuito credibilità alle dichiarazioni di Anthropic proprio perché la società non è storicamente tra quelle che amplificano le proprie capacità a fini di marketing. La domanda che rimane aperta riguarda la governance di questi strumenti: chi decide quali aziende accedono a tecnologie con questo potenziale offensivo, e con quali meccanismi di controllo pubblico — soprattutto nell'Unione Europea, dove l'AI Act introduce obblighi stringenti per i sistemi ad alto rischio?