Anthropic, la società californiana di ricerca sull'intelligenza artificiale, ha rilasciato pubblicamente martedì il modello Claude Fable 5, il primo appartenente alla sua classe "Mythos", corredato da ampie misure di sicurezza. La scelta risponde alla necessità di rendere accessibile a un pubblico generale una tecnologia giudicata troppo potente per una distribuzione senza restrizioni, a causa dei rischi legati alla biosicurezza e alla cybersecurity.
Il caso Fable 5 fotografa con precisione la tensione strutturale che attraversa l'intero settore dell'intelligenza artificiale generativa: come distribuire modelli sempre più potenti senza amplificare i rischi di uso malevolo. Questa dinamica coinvolge direttamente policy maker, ricercatori e aziende tecnologiche a livello globale, e si inserisce in un contesto regolatorio europeo sempre più attivo, con l'AI Act che impone requisiti stringenti per i sistemi ad alto rischio.
Due mesi fa, Anthropic aveva già segnalato il problema rendendo disponibile il modello Mythos 5 solo a un ristretto gruppo di ricercatori nell'ambito di un progetto dedicato alla cybersecurity, escludendo esplicitamente il grande pubblico. Con Fable 5, la società ha scelto una via intermedia: rilascio generale, ma con filtri di sicurezza che intervengono su tre categorie di richieste — cybersecurity, biologia e chimica, e distillazione delle capacità del modello stesso.
Il meccanismo operativo prevede due opzioni quando un filtro viene attivato: il blocco della risposta oppure il reindirizzamento automatico verso Opus 4.8, modello meno capace ma privo delle stesse restrizioni. Secondo i dati interni comunicati da Anthropic, oltre il 95% delle sessioni Fable non ha richiesto il fallback su Opus, il che suggerisce che i falsi positivi, pur riconosciuti, rimangano episodici nella pratica quotidiana. Tuttavia, test condotti da Business Insider hanno mostrato che anche domande elementari sul cancro o sulla diffusione di disinformazione in ambito oncologico sono sufficienti a scatenare il cambio automatico di modello.
Un portavoce della società ha dichiarato che i modelli della classe Mythos hanno acquisito una capacità concreta di supportare attività scientifiche nel mondo reale, il che li rende potenzialmente sfruttabili da attori malevoli per ricerche biologiche ad alto rischio. Di qui la scelta di un approccio deliberatamente conservativo sui filtri, con l'impegno a ridurre progressivamente i falsi positivi. Anthropic ha inoltre annunciato l'intenzione di rendere i modelli Mythos disponibili senza queste restrizioni alla comunità scientifica di biologia e scienze della vita, per accelerare la ricerca biomedica e lo sviluppo farmacologico.
Il rilascio avviene a circa una settimana dalla pubblicazione di un documento interno in cui ricercatori della stessa Anthropic sostenevano che il ritmo di avanzamento dell'IA frontier potrebbe richiedere rallentamenti o pause temporanee per consentire alla società di adeguarsi. David Kasten, responsabile delle policy di Palisade Research, ha definito le misure adottate un tentativo in buona fede di ridurre i rischi, avvertendo però che storicamente i meccanismi di sicurezza vengono aggirati nel tempo: "È sempre un gioco del gatto col topo", ha dichiarato, richiamando la dinamica tra attaccante e difensore tipica della cybersecurity.
Kasten ha sollevato un ulteriore problema di sistema: se il modello più potente di Anthropic viene percepito dal pubblico come frequentemente limitato o degradato nelle sue risposte, si crea un divario nella comprensione collettiva delle reali capacità raggiunte dall'IA. Questo scarto cognitivo potrebbe influenzare in modo distorto le decisioni regolamentari, proprio nel momento in cui l'Europa e gli Stati Uniti stanno definendo le architetture normative che governeranno questi sistemi per i prossimi anni. La domanda che resta aperta è se strumenti di sicurezza calibrati sul consenso pubblico immediato siano sufficienti a governare tecnologie le cui implicazioni operative si misurano su scale temporali ben più lunghe.