Il mondo dell'intelligenza artificiale aziendale sta attraversando una fase di profonda riflessione sui costi e l'efficacia dei modelli più avanzati. Mentre i CIO di tutto il mondo hanno abbracciato con entusiasmo la promessa degli agenti autonomi e dei sistemi in grado di risolvere qualsiasi problema, la realtà economica e operativa sta rivelando limiti inaspettati. La complessità crescente dei modelli di grandi dimensioni non si traduce necessariamente in maggiore affidabilità, anzi spesso genera errori a cascata e costi difficili da sostenere nel lungo periodo.
La matematica spietata dell'affidabilità
Utkarsh Kanwat, ingegnere specializzato in intelligenza artificiale presso ANZ, istituto finanziario australiano, ha sollevato un punto cruciale che molte aziende specializzate in agenti AI preferiscono ignorare. I flussi di lavoro autonomi multi-step diventano matematicamente insostenibili quando applicati su larga scala a causa dell'accumulo degli errori. La sua analisi numerica è illuminante: assumendo un'affidabilità del 95% per ogni singolo passaggio – già ottimistica per gli attuali modelli linguistici – il tasso di successo crolla drasticamente all'aumentare della complessità.
Con cinque passaggi si ottiene un tasso di successo del 77%, che scende al 59% con dieci passaggi e precipita al 36% con venti operazioni consecutive. I sistemi di produzione richiedono un'affidabilità superiore al 99,9%, un obiettivo che anche raggiungendo magicamente il 99% di affidabilità per singolo passaggio garantirebbe solo l'82% di successo su venti operazioni. Non si tratta di un problema di ingegneria dei prompt o di capacità del modello, ma di una realtà matematica ineludibile.
L'approccio controintuitivo: pensare in piccolo
Jason Andersen, analista principale di Moor Insights & Strategy, sottolinea come le aziende tendano spesso a scegliere la strada apparentemente più semplice. Quando i produttori di modelli di grandi dimensioni promettono di risolvere tutti i problemi, è naturale volerci credere. Tuttavia, sono spesso le strategie più contenute e mirate a offrire risultati superiori.
L'efficacia degli agenti AI in ambito aziendale deriva dalla capacità di stabilire confini chiari attorno al modello per ottenere un certo grado di specificità. Quando si dispone di una strategia GenAI ben elaborata e accuratamente definita, le probabilità di successo aumentano significativamente. All'aumentare delle dimensioni del modello, ci si allontana dalla linea di accuratezza e dalla affidabilità.
Il dilemma pilota o navigatore
Una questione fondamentale che Andersen pone ai CIO riguarda il ruolo che l'intelligenza artificiale dovrebbe assumere: essere il pilota o il navigatore del processo? Un esempio eloquente è rappresentato dalla programmazione assistita da GenAI. La domanda cruciale è se l'AI debba aiutare il programmatore o sostituirlo completamente.
Entrambi gli approcci mantengono l'essere umano nel processo decisionale, ma il ruolo umano cambia radicalmente. Justin St-Maurice, consulente tecnico presso Info-Tech Research Group, concorda sul fatto che molte aziende non si stanno facendo alcun favore concentrandosi esclusivamente sui modelli più grandi. Gli agenti vengono inseriti in sistemi sociotecnici complessi, con il rischio di creare cicli di feedback e perdere il controllo, considerando che la natura intrinseca degli LLM è la casualità.
L'insostenibilità economica dei giganti AI
Le finestre di contesto creano un scaling quadratico dei costi che rende gli agenti conversazionali economicamente impossibili da mantenere. Ogni nuova interazione richiede l'elaborazione di tutto il contesto precedente, facendo crescere i costi dei token in modo quadratico rispetto alla lunghezza della conversazione. Una conversazione di 100 scambi può costare tra i 50 e i 100 dollari solo in token.
Kanwat ha sperimentato personalmente questa realtà durante la prototipazione di un agente database conversazionale. Le prime interazioni erano economiche, ma arrivando alla cinquantesima query di una sessione, ogni risposta costava diversi dollari in più del valore che forniva. L'economia semplicemente non funziona per la maggior parte degli scenari.
Le startup di agenti autonomi finanziate da venture capital saranno le prime a scontrarsi con questo muro economico. Le loro dimostrazioni funzionano perfettamente con flussi di lavoro a 5 passaggi, ma i clienti richiederanno processi da 20 o più passaggi che matematicamente non reggono. I tassi di consumo aumenteranno vertiginosamente mentre tentano di risolvere problemi di affidabilità matematicamente irrisolvibili.
Cosa cercare nelle soluzioni AI
Robin Brattel, CEO del fornitore AI Lab 1, suggerisce criteri specifici per valutare le opzioni di modelli e agenti. I requisiti di bassa precisione rappresentano un vantaggio: le soluzioni che possono essere approssimativamente corrette funzionano meglio. Le illustrazioni sono più facili da gestire del codice perché un'illustrazione può essere imprecisa del 20% e funzionare comunque.
Un altro fattore cruciale è il basso rischio. Generare una poesia per un biglietto di auguri personalizzato comporta rischi molto inferiori rispetto a un'auto a guida autonoma. Chester Wisniewski, direttore del CISO di campo globale presso il fornitore di sicurezza Sophos, ha accolto con entusiasmo le osservazioni di Kanwat, definendo l'esperimento dei LLM generali spinto da Meta, Google e OpenAI come una semplice ostentazione di una presenza divina nelle nostre vite.
Anche Microsoft ha riconosciuto che i modelli piccoli possono spesso funzionare molto meglio di quelli grandi, ma solo se il team del CIO ha investito tempo e riflessione per mappare una strategia AI precisa. Per i leader IT che devono ancora capire esattamente cosa vogliono che l'AI faccia, c'è ancora una ragione per abbracciare i modelli più grandi, che rimangono il modo più veloce per trasformare un problema aziendale ambiguo in software funzionante.