Nel cuore dell'Indiana, Amazon Web Services sta assemblando quello che potrebbe diventare il più grande supercomputer mai costruito con chip proprietari. Il progetto Rainier, destinato a cambiare gli equilibri nell'intelligenza artificiale, rappresenta un investimento massiccio che punta a fornire ad Anthropic - l'azienda rivale di OpenAI - una potenza computazionale senza precedenti. Si tratta di un'iniziativa che coinvolge trenta datacenter, ciascuno esteso su 200.000 piedi quadrati, con un consumo energetico stimato di 2,2 gigawatt solo per il sito principale.
La sfida dei chip proprietari contro l'egemonia Nvidia
A differenza dei progetti concorrenti come Stargate di OpenAI o Colossus di xAI, che si affidano alle GPU tradizionali, Amazon ha scelto una strada diversa. Il progetto Rainier utilizzerà esclusivamente i chip Trainium2 sviluppati internamente dai laboratori Annapurna, rappresentando il più grande dispiegamento di silicio AI proprietario mai tentato. Gadi Hutt, direttore del product engineering di Annapurna Labs, ha spiegato che questa è la prima volta che l'azienda costruisce un cluster di training così esteso per permettere a un singolo cliente di addestrare un modello su tutta l'infrastruttura.
Ogni acceleratore Trainium2 integra due die computazionali da 5nm collegati tramite la tecnologia CoWoS di TSMC, supportati da quattro stack di memoria HBM. Le prestazioni dichiarate raggiungono 1,3 petaFLOPS in precisione FP8 densa, con 96GB di HBM e una larghezza di banda di memoria di 2,9TB/s. Numeri che, confrontati chip per chip con il B200 di Nvidia, sembrano meno impressionanti, ma che acquistano significato quando valutati nell'architettura complessiva del sistema.
L'architettura che punta sull'efficienza
La configurazione minima per le istanze Trn2 prevede 16 acceleratori distribuiti su otto blade computazionali, gestiti da processori Intel Sapphire Rapids. La topologia a torus 2D elimina la necessità di switch ad alta velocità, riducendo consumi e complessità, anche se introduce qualche hop aggiuntivo nella comunicazione tra chip. Questa scelta architettonica permette il raffreddamento ad aria, un vantaggio non trascurabile rispetto ai sistemi NVL72 che richiedono raffreddamento liquido.
Quattro sistemi Trn2 possono essere collegati per formare un UltraServer da 64 chip, creando un dominio computazionale esteso attraverso una topologia a torus 3D. Questi UltraServer rappresentano l'unità base che Amazon replicherà per costruire l'intero "UltraCluster" di Rainier, utilizzando la rete personalizzata EFAv3 con 200Gbps di larghezza di banda per acceleratore.
I numeri che fanno girare la testa
Amazon è stata vaga sui dettagli finali del progetto, ma ha promesso "centinaia di migliaia" di chip Trainium2 distribuiti su più siti negli Stati Uniti. Considerando che la documentazione parla di "decine di migliaia" di UltraServer, anche una stima conservativa di 10.000 unità porterebbe a 640.000 acceleratori. Con sei milioni di piedi quadrati di spazio disponibile e un investimento di 8 miliardi di dollari già versati in Anthropic, Amazon sembra determinata a costruire qualcosa di monumentale.
Il consumo energetico stimato per un cluster di 256.000 acceleratori Trainium2 si aggirerebbe tra 250 e 300 megawatt, paragonabile al supercomputer Colossus di xAI. Tuttavia, l'efficienza energetica rappresenta uno dei punti di forza dichiarati dell'architettura Amazon, che punta su un approccio più sostenibile rispetto alle soluzioni concorrenti.
L'asso nella manica: Trainium3
Mentre il progetto Rainier dovrebbe utilizzare principalmente chip Trainium2, Amazon ha già annunciato l'arrivo di Trainium3, costruito su processo 3nm di TSMC. La terza generazione promette un'efficienza superiore del 40% e prestazioni quadruple rispetto ai sistemi Trn2 attuali. Non sarebbe sorprendente se almeno alcuni siti del progetto finissero per utilizzare la tecnologia più avanzata, seguendo il precedente del progetto Ceiba che ha sostituito i Grace Hopper con i più potenti acceleratori Blackwell.
La strategia di Amazon riflette una filosofia diversa rispetto alla concorrenza: invece di puntare sulla potenza bruta del singolo chip, l'azienda scommette sull'ottimizzazione dell'ecosistema complessivo. Come sottolineato da Hutt, alla fine i clienti consumano Trainium come API software nel cloud, e quello che conta davvero è il "good put" - ovvero il throughput effettivo di training che tiene conto anche dei tempi di inattività del sistema.