Tecnologia Anthropic frena: l'AI Mythos tace sul cancro
3' 17''
19/06/2026

Anthropic lancia Claude Fable 5 con rigide misure di sicurezza per gestire i rischi di biosicurezza e cybersecurity legati alla distribuzione pubblica di modelli AI sempre più potenti.

Anthropic frena: l'AI Mythos tace sul cancro

Anthropic, la società californiana di ricerca sull'intelligenza artificiale, ha rilasciato pubblicamente martedì il modello Claude Fable 5, il primo appartenente alla sua classe "Mythos", corredato da ampie misure di sicurezza. La scelta risponde alla necessità di rendere accessibile a un pubblico generale una tecnologia giudicata troppo potente per una distribuzione senza restrizioni, a causa dei rischi legati alla biosicurezza e alla cybersecurity.

Il caso Fable 5 fotografa con precisione la tensione strutturale che attraversa l'intero settore dell'intelligenza artificiale generativa: come distribuire modelli sempre più potenti senza amplificare i rischi di uso malevolo. Questa dinamica coinvolge direttamente policy maker, ricercatori e aziende tecnologiche a livello globale, e si inserisce in un contesto regolatorio europeo sempre più attivo, con l'AI Act che impone requisiti stringenti per i sistemi ad alto rischio.

Due mesi fa, Anthropic aveva già segnalato il problema rendendo disponibile il modello Mythos 5 solo a un ristretto gruppo di ricercatori nell'ambito di un progetto dedicato alla cybersecurity, escludendo esplicitamente il grande pubblico. Con Fable 5, la società ha scelto una via intermedia: rilascio generale, ma con filtri di sicurezza che intervengono su tre categorie di richieste — cybersecurity, biologia e chimica, e distillazione delle capacità del modello stesso.

Fable 5 has safety measures that flag messages on most cybersecurity or biology topics. They may flag safe, normal content as well.

Il meccanismo operativo prevede due opzioni quando un filtro viene attivato: il blocco della risposta oppure il reindirizzamento automatico verso Opus 4.8, modello meno capace ma privo delle stesse restrizioni. Secondo i dati interni comunicati da Anthropic, oltre il 95% delle sessioni Fable non ha richiesto il fallback su Opus, il che suggerisce che i falsi positivi, pur riconosciuti, rimangano episodici nella pratica quotidiana. Tuttavia, test condotti da Business Insider hanno mostrato che anche domande elementari sul cancro o sulla diffusione di disinformazione in ambito oncologico sono sufficienti a scatenare il cambio automatico di modello.

Un portavoce della società ha dichiarato che i modelli della classe Mythos hanno acquisito una capacità concreta di supportare attività scientifiche nel mondo reale, il che li rende potenzialmente sfruttabili da attori malevoli per ricerche biologiche ad alto rischio. Di qui la scelta di un approccio deliberatamente conservativo sui filtri, con l'impegno a ridurre progressivamente i falsi positivi. Anthropic ha inoltre annunciato l'intenzione di rendere i modelli Mythos disponibili senza queste restrizioni alla comunità scientifica di biologia e scienze della vita, per accelerare la ricerca biomedica e lo sviluppo farmacologico.

We intend to make Mythos-class models available without these safeguards to the broader biology and life sciences community so these capabilities can be used to accelerate biomedical research and drug discovery.

Il rilascio avviene a circa una settimana dalla pubblicazione di un documento interno in cui ricercatori della stessa Anthropic sostenevano che il ritmo di avanzamento dell'IA frontier potrebbe richiedere rallentamenti o pause temporanee per consentire alla società di adeguarsi. David Kasten, responsabile delle policy di Palisade Research, ha definito le misure adottate un tentativo in buona fede di ridurre i rischi, avvertendo però che storicamente i meccanismi di sicurezza vengono aggirati nel tempo: "È sempre un gioco del gatto col topo", ha dichiarato, richiamando la dinamica tra attaccante e difensore tipica della cybersecurity.

That gap in understanding could be really dangerous for causing policymakers, or for that matter the public, to not fully understand the risks that these models pose in terms of the capabilities they offer.

Kasten ha sollevato un ulteriore problema di sistema: se il modello più potente di Anthropic viene percepito dal pubblico come frequentemente limitato o degradato nelle sue risposte, si crea un divario nella comprensione collettiva delle reali capacità raggiunte dall'IA. Questo scarto cognitivo potrebbe influenzare in modo distorto le decisioni regolamentari, proprio nel momento in cui l'Europa e gli Stati Uniti stanno definendo le architetture normative che governeranno questi sistemi per i prossimi anni. La domanda che resta aperta è se strumenti di sicurezza calibrati sul consenso pubblico immediato siano sufficienti a governare tecnologie le cui implicazioni operative si misurano su scale temporali ben più lunghe.

Condividi questo contenuto