Approfondimenti Svolta nell'IA: l'efficienza perfetta esiste solo come illusione
4' 32''
03/06/2025

Sviluppatori di reti neurali: finalmente un impegno concreto verso l'efficienza computazionale

Svolta nell'IA: l'efficienza perfetta esiste solo come illusione

La corsa all'intelligenza artificiale si sta scontrando con la realtà dei costi operativi. Dopo quasi tre anni dal debutto di ChatGPT e dall'inizio del boom dell'AI generativa, il settore sta finalmente affrontando un problema cruciale: come rendere più accessibili ed economici i modelli linguistici di grandi dimensioni. La soluzione sembra arrivare dall'architettura Mixture of Experts (MoE), una tecnologia che sta rivoluzionando l'approccio all'AI in tutto il mondo, particolarmente preziosa in contesti dove l'accesso ai chip più sofisticati è limitato, come in Cina, ma con benefici potenziali per l'intero mercato globale.

La nuova ondata di modelli MoE: efficienza senza compromessi

Negli ultimi mesi abbiamo assistito al lancio di numerosi modelli linguistici basati sull'architettura MoE da parte di colossi come Microsoft, Google, IBM, Meta, DeepSeek e Alibaba. Sebbene la tecnologia MoE non sia nuova – le sue origini risalgono agli anni '90 con un paper intitolato "Adaptive Mixtures of Local Experts" – è solo nell'ultimo anno che ha davvero preso piede, con Mistral AI che ha fatto da apripista con il suo modello Mixtral.

Il principio di funzionamento è tanto semplice quanto geniale: invece di utilizzare un unico grande modello addestrato su tutti i domini, l'architettura MoE smista il lavoro verso uno o più "esperti" specializzati, attivando solo una piccola porzione del modello per ogni elaborazione. DeepSeek, ad esempio, nel suo modello V3 utilizza 256 esperti più uno condiviso, ma per ogni token vengono attivati solo 8 esperti più quello condiviso.

Questa struttura modulare rappresenta una rivoluzione nell'efficienza computazionale, permettendo di ottenere prestazioni simili a quelle dei modelli tradizionali "densi" con un consumo di risorse drasticamente inferiore. La differenza di qualità, quando presente, è generalmente marginale rispetto al guadagno in termini di efficienza.

L'intelligenza artificiale diventa più accessibile quando non ha bisogno di divorare risorse.

Il superamento del "muro della memoria"

Un esempio concreto del vantaggio offerto dai modelli MoE è il confronto tra Llama 3.1 405B di Meta e Llama 4 Maverick. Entrambi occupano circa 405 GB di memoria, ma mentre il primo necessita di almeno 20 TB/s di banda di memoria per generare testo a 50 token al secondo, Llama 4 Maverick richiede meno di 1 TB/s per ottenere le stesse prestazioni. Il motivo? Solo 17 miliardi di parametri sono effettivamente attivi durante l'elaborazione.

Questa caratteristica apre scenari nuovi: modelli che prima richiedevano costosi sistemi con memoria HBM3 (High Bandwidth Memory) – come i sistemi Nvidia HGX H100 dal prezzo superiore ai 300.000 dollari – possono ora funzionare su hardware più economico dotato di memoria GDDR6, GDDR7 o addirittura DDR nel caso dei recenti Intel Xeon.

I nuovi RTX Pro Server di Nvidia, annunciati al Computex di quest'anno, sfruttano proprio questo vantaggio: ciascuna delle otto GPU RTX Pro 6000 integra 96 GB di memoria GDDR7, per un totale di 768 GB e 12,8 TB/s di banda aggregata, sufficienti per far girare Llama 4 Maverick a centinaia di token al secondo, probabilmente a meno della metà del prezzo di un sistema HGX H100.

Quando la CPU ritrova il suo ruolo nell'AI

La vera sorpresa arriva dalla rinascita delle CPU nel campo dell'AI. Intel ha recentemente dimostrato come una piattaforma dual-socket Xeon 6 equipaggiata con memorie MCRDIMMs ad alta velocità possa raggiungere una velocità di 240 token al secondo con Llama 4 Maverick, gestendo circa 24 utenti contemporaneamente con una latenza inferiore ai 100 ms per token.

Questa possibilità risulta particolarmente interessante per regioni dove l'importazione di acceleratori avanzati è soggetta a restrizioni. Sebbene l'economia dell'inferenza basata su CPU dipenda ancora fortemente dal caso d'uso specifico, rappresenta comunque un'alternativa valida in determinate situazioni.

Dimagrire i modelli: potatura e quantizzazione

L'architettura MoE riduce significativamente la banda di memoria necessaria, ma non diminuisce lo spazio richiesto per memorizzare i pesi del modello. È qui che entrano in gioco le tecniche di potatura (pruning) e quantizzazione, capaci di ridurre ulteriormente le dimensioni dei modelli senza compromettere significativamente la qualità.

Nvidia ha investito molto nella potatura, rilasciando versioni ottimizzate dei modelli Llama 3 di Meta con pesi ridondanti o meno significativi rimossi. Parallelamente, ha esteso il supporto per formati a precisione ridotta, dai tipi di dati a 8 bit introdotti nel 2022 fino ai 4 bit con l'architettura Blackwell nel 2024. AMD dovrebbe presentare i suoi primi chip con supporto nativo FP4 il prossimo mese.

La quantizzazione, in particolare, sta guadagnando terreno tra i principali sviluppatori di modelli. Questa tecnica comprime i pesi del modello dalla loro precisione nativa (solitamente BF16) a FP8 o INT4, riducendo drasticamente i requisiti di memoria e banda a costo di una leggera perdita di qualità. Google ha recentemente dimostrato come, attraverso la Quantization-Aware Training (QAT), sia possibile ridurre le dimensioni dei suoi modelli Gemma 3 di un fattore 4x mantenendo una qualità vicina alla precisione nativa.

Il futuro dell'AI: più intelligente e meno costosa

Combinando l'architettura MoE con la quantizzazione a 4 bit, il settore dell'AI sta finalmente affrontando uno dei suoi maggiori ostacoli: il costo proibitivo dell'hardware necessario per eseguire i modelli più avanzati. Queste tecnologie rendono possibile ridurre significativamente sia i costi di acquisto dell'hardware che quelli operativi legati al consumo energetico.

Tuttavia, come evidenziato da un recente sondaggio IBM su 2.000 CEO, solo un quarto dei progetti di AI ha finora prodotto il ritorno sull'investimento promesso. La sfida tecnologica di rendere l'AI più accessibile sta avanzando rapidamente, ma quella di trovare applicazioni davvero redditizie rimane ancora aperta per molte aziende.

L'evoluzione verso modelli più efficienti rappresenta comunque un passo fondamentale per democratizzare l'accesso all'intelligenza artificiale e, potenzialmente, sbloccare nuovi casi d'uso finora limitati dai costi proibitivi dell'infrastruttura necessaria. In un mondo dove le restrizioni commerciali rendono l'HBM "più preziosa dell'oro" in alcuni mercati, queste innovazioni potrebbero ridisegnare la geografia dell'innovazione nell'AI.