Tecnologia Anthropic ammette: Claude è peggiorato per errore
2' 56''
29/04/2026

Anthropic ammette che tre modifiche tecniche tra marzo e aprile 2025 hanno degradato Claude Code e altri strumenti per sviluppatori, sollevando dubbi sulla trasparenza dei fornitori AI.

Anthropic ammette: Claude è peggiorato per errore

Anthropic, la società americana produttrice del modello di intelligenza artificiale Claude, ha ammesso pubblicamente giovedì che tre distinte modifiche tecniche apportate tra marzo e aprile 2025 hanno degradato le prestazioni dei suoi prodotti rivolti agli sviluppatori — Claude Code, Claude Agent SDK e Claude Cowork — confermando i diffusi disagi segnalati dagli utenti sui canali social nelle settimane precedenti.

La vicenda solleva interrogativi strutturali sulla governance della qualità nei sistemi di intelligenza artificiale commerciale: quando un fornitore di infrastrutture AI altera silenziosamente le prestazioni del prodotto, chi ne risponde e come vengono tutelati gli utenti professionali che su quei sistemi fondano processi lavorativi critici? L'episodio si inserisce in un momento delicato per il settore, dove la fiducia degli sviluppatori rappresenta il principale asset competitivo.

Il primo intervento risale al 4 marzo, quando il livello di elaborazione predefinito di Claude Code fu abbassato da "alto" a "medio" con l'obiettivo dichiarato di ridurre la latenza nelle risposte. La logica interna era apparentemente razionale: modelli che "pensano" meno consumano meno token, alleggerendo il carico infrastrutturale. Ma la scelta si è rivelata sbagliata. La società ha ammesso: "This was the wrong tradeoff", ripristinando il livello alto il 7 aprile dopo le proteste degli utenti. L'ultima versione di Claude Code, la v2.1.118, imposta ora il livello addirittura a "xhigh" su Sonnet 4.6.

"We reverted this change on April 7 after users told us they'd prefer to default to higher intelligence and opt into lower effort for simple tasks."

Il secondo problema fu un bug introdotto il 26 marzo durante un'ottimizzazione della cache. L'intervento avrebbe dovuto eliminare soltanto i dati di sessione rimasti inattivi per oltre un'ora — un'operazione ragionevole per ridurre i costi di ripresa delle sessioni. Invece, un errore di implementazione fece sì che la cache venisse svuotata a ogni singolo ciclo di domanda e risposta, rendendo il modello, secondo la stessa Anthropic, "forgetful and repetitive". Il bug è stato risolto il 10 aprile per le versioni Sonnet 4.6 e Opus 4.6.

Il terzo episodio è forse il più rivelatore sul piano metodologico. Il 16 aprile, contestualmente al rilascio di Opus 4.7, la società ha modificato il system prompt — l'insieme di istruzioni di base che guidano il comportamento del modello — per ridurre la prolissità delle risposte. Settimane di test interni avevano segnalato la modifica come sicura. Solo i successivi test di ablazione, condotti dopo il rilascio pubblico, hanno evidenziato un calo del 3% nelle prestazioni sia su Opus 4.6 che su 4.7. La modifica è stata rimossa il 20 aprile.

"Following several weeks of internal testing, model quality evaluations suggested the change was safe."

Il caso mette in luce una tensione tipica dello sviluppo AI su scala: la pressione a ottimizzare i costi infrastrutturali — riduzione dei token elaborati, gestione della cache, latenza — confligge con le aspettative di qualità degli utenti finali. Anthropic ha precisato che le API non sono state interessate dai problemi, circoscrivendo il danno ai prodotti developer-facing. Tuttavia, proprio quella fascia di utenza — sviluppatori professionali, team di ingegneria — è la più esigente e la più propensa a migrare verso competitor come OpenAI o Google DeepMind.

"This isn't the experience users should expect from Claude Code."

Come misura di compensazione, la società ha azzerato i contatori di utilizzo per tutti gli utenti colpiti. Sul piano comunicativo, ha annunciato l'apertura di un account dedicato su X (@ClaudeDevs) e ha promesso processi di test più rigorosi prima di ogni rilascio pubblico. Resta aperta la questione di fondo: in un mercato dove i contratti enterprise si basano su livelli di servizio garantiti, quanto possono permettersi i fornitori di AI di apprendere dagli errori in produzione prima che la reputazione diventi il costo più alto da pagare?

Condividi questo contenuto