Tecnologia AMD punta su efficienza AI 20x entro il 2030
3' 37''
18/06/2025

Chi l'avrebbe mai detto? Più il ferro da stiro è grande, maggiore diventa la sua efficienza

AMD punta su efficienza AI 20x entro il 2030

Il mondo dei semiconduttori sta vivendo una rivoluzione silenziosa che potrebbe ridefinire completamente l'architettura dei data center nei prossimi anni. Mentre la celebre Legge di Moore mostra segni di rallentamento e i consumi energetici degli enormi centri di calcolo diventano una preoccupazione sempre più pressante, AMD ha lanciato una sfida ambiziosa: aumentare di 20 volte l'efficienza energetica dei propri chip entro il 2030. La chiave di volta di questa strategia risiede in un approccio apparentemente controintuitivo che punta a sistemi sempre più grandi per ottenere maggiore efficienza.

La filosofia del "più grande è meglio" nell'era post-Moore

Sam Naffziger, Senior Vice President e Fellow di AMD, ribalta il senso comune tecnologico con una dichiarazione che suona quasi paradossale: "La cosa controintuitiva qui è che più grande è il dispositivo, più efficiente diventa". Quello che l'azienda di Sunnyvale sta realizzando è condensare in un singolo package quello che un tempo richiedeva un intero rack di dispositivi di calcolo. Non si tratta di una novità assoluta per AMD, che già con la propria architettura a chiplet aveva dimostrato come superare i limiti fisici tradizionali, ottenendo maggiori prestazioni per ogni watt consumato.

Il culmine di questa filosofia progettuale si è concretizzato nella serie MI300, dove CPU e GPU si fondono in una complessa struttura tridimensionale che combina dies di calcolo, I/O e interposer impilati con precisione millimetrica. Ma per AMD questo è solo l'inizio di un percorso che guarda ben oltre il singolo chip.

Dall'architettura rack-scale alla rinascita del mainframe

La strategia futura di AMD abbraccia una visione che Naffziger definisce "architettura quasi a livello di data center". L'obiettivo è continuare a fornire miglioramenti significativi scalando non solo il package del chip o il singolo nodo, ma l'intero rack. Questa filosofia non nasce dal nulla: riecheggia i sistemi di multi-processing scale-up che IBM sviluppava negli anni '80 con i mainframe System/370, ma applicata a decine, potenzialmente centinaia di GPU moderne invece che a qualche dozzina di processori mainframe.

Il primo sistema rack-scale di AMD arriverà il prossimo anno con il lancio del MI400, seguendo una formula simile ai sistemi NVL di Nvidia ma utilizzando l'interconnessione Universal Accelerator Link (UALink) invece di NVLink. Tuttavia, le architetture future potrebbero assumere forme radicalmente diverse.

L'ottica integrata promette di rivoluzionare le interconnessioni entro cinque anni

La rivoluzione fotonica alle porte

Uno dei cambiamenti più significativi che Naffziger prevede nei prossimi cinque anni riguarda l'adozione delle interconnessioni fotoniche al posto del rame tradizionale. Le ottiche co-packaged (CPO) hanno sempre promesso maggiore larghezza di banda e portata rispetto ai cavi o alle tracce in rame, ma finora sono state frenate dall'incremento dei consumi energetici associati ai laser.

"Tutto è guidato dall'economia, e siamo al punto in cui l'economia favorirà l'ottico", spiega Naffziger. Tuttavia, questa transizione presenta sfide tecniche non indifferenti: "Ci sono sensibilità alla temperatura con l'ottico. C'è molto di più di cui preoccuparsi rispetto allo spazio elettrico... Ora dobbiamo instradare l'attacco in fibra e assicurarci che sia meccanicamente robusto e non suscettibile alle vibrazioni".

Il software come chiave di volta

Nonostante i progressi nell'hardware e nel packaging dei semiconduttori continuino a svolgere un ruolo cruciale nel raggiungimento dell'obiettivo 20x30, Naffziger è convinto che i maggiori miglioramenti deriveranno dalla co-progettazione hardware-software. "I guadagni hardware puri stanno raggiungendo rendimenti decrescenti", ammette candidamente il dirigente AMD.

L'azienda ha storicamente accusato un ritardo nel software, particolarmente nello sviluppo a basso livello, ma la situazione è migliorata considerevolmente nei diciotto mesi successivi al debutto del MI300X. AMD ha investito risorse considerevoli per ottimizzare il proprio stack software ROCm per una vasta gamma di piattaforme popolari di inferenza e training, tra cui vLLM, SGLang e PyTorch.

La sfida dei nuovi formati numerici

Un esempio concreto di questa evoluzione è rappresentato dal supporto per FP8 e FP4, formati numerici a precisione ridotta che offrono vantaggi significativi scambiando una qualità di output spesso impercettibilmente inferiore con un ingombro di memoria ridotto. Dimezzare la precisione generalmente raddoppia l'output in virgola mobile di un acceleratore, ma il software richiede tempo per adattarsi a questi nuovi tipi di dati.

La misurazione delle prestazioni nell'ambito dell'intelligenza artificiale presenta sfide uniche a causa della rapidità con cui evolve l'ecosistema. "Non possiamo assumere che Llama 405B sarà ancora qui nel 2030 e avrà ancora significato", osserva pragmaticamente Naffziger. Per questo motivo, AMD utilizzerà una combinazione di FLOPS GPU, HBM e larghezza di banda di rete, pesati diversamente per inferenza e training, per monitorare i progressi verso l'ambizioso traguardo del 2030.

Condividi questo contenuto