Tecnologia Alibaba riduce del 82% le risorse GPU utilizzate
3' 21''
24/10/2025

Migliore pianificazione e condivisione delle risorse per carichi di lavoro di inferenza con modelli multipli, non una svolta nell'addestramento

Alibaba riduce del 82% le risorse GPU utilizzate

L'industria del cloud computing si trova di fronte a un paradosso che erode i profitti: mentre i marketplace di intelligenza artificiale come Hugging Face ospitano oltre un milione di modelli, i clienti ne utilizzano concretamente solo una manciata. Eppure i fornitori di servizi cloud devono mantenere attive enormi flotte di GPU per garantire la disponibilità di modelli raramente richiesti. Alibaba Cloud ha recentemente svelato come ha affrontato questo spreco di risorse, documentando in un paper accademico una tecnologia di gestione che potrebbe cambiare l'economia dell'inferenza AI.

Il problema nascosto dietro i data center AI

Prima di implementare la nuova soluzione, il colosso tecnologico cinese si trovava in una situazione insostenibile: il 17,7% della sua flotta GPU era dedicata a servire appena l'1,35% delle richieste dei clienti. La causa di questa inefficienza risiede nei limiti tecnici delle GPU tradizionali, che possono caricare in memoria solo due o tre modelli contemporaneamente. Questo approccio obbliga i provider a mantenere migliaia di processori grafici inattivi, pronti a rispondere a query sporadiche su modelli di nicchia.

Per un'azienda come Alibaba, già ostacolata dalle sanzioni statunitensi che limitano l'accesso ai chip Nvidia e AMD di ultima generazione, sprecare risorse GPU rappresenta un lusso insostenibile. La necessità ha quindi stimolato l'innovazione, portando allo sviluppo di Aegaeon.

Una risposta tecnica alle sanzioni occidentali

La tecnologia presentata nel documento "Aegaeon: Effective GPU Pooling for Concurrent LLM Serving on the Market" introduce un sistema di pooling delle GPU combinato con una gestione avanzata della memoria. Il meccanismo permette di eseguire numerosi modelli su ogni singolo processore, spostando dinamicamente i dati nella memoria dell'host o in altri sistemi di storage quando necessario. Durante un test di tre mesi, Alibaba è riuscita a ridurre da 1.192 a sole 213 le GPU necessarie per gestire i modelli meno popolari: un risparmio dell'82%.

Alcune GPU ora eseguono decine di modelli contemporaneamente

L'azienda cinese sostiene di aver raggiunto prestazioni superiori rispetto alle soluzioni alternative disponibili sul mercato. La validazione accademica è arrivata con l'accettazione del paper al Symposium on Operating Systems Principles dell'ACM SIGOPS, conferenza di riferimento nel settore informatico, che conferisce credibilità scientifica al lavoro svolto.

Innovazione reale o semplice recupero del ritardo?

Tuttavia, è importante contestualizzare questa innovazione. Gli hyperscaler occidentali come Amazon, Microsoft e Google mantengono giustamente riservate le tecnologie che alimentano le loro piattaforme, rendendo impossibile confronti diretti. È del tutto plausibile che abbiano già risolto questo problema di efficienza, magari con risultati ancora migliori. D'altronde, ottimizzare i tassi di utilizzo dell'hardware è da sempre una priorità assoluta per i giganti del cloud, dato che incide direttamente sulla redditività.

Il paper di Alibaba rivela indirettamente che la configurazione precedente dell'azienda era tutt'altro che efficiente, suggerendo che il gruppo cinese stia colmando un gap tecnologico piuttosto che stabilendo nuovi standard industriali.

Verso un futuro di modelli specializzati

Ciò nonostante, il contributo di Alibaba assume rilevanza strategica in prospettiva. Gli analisti prevedono che con la maturazione dell'intelligenza artificiale prolifereranno modelli verticali specifici per industrie o scenari particolari. I cloud provider dovranno essere in grado di eseguirli tutti in modo economicamente sostenibile, senza che i costi per modelli di nicchia lievitino a causa dell'allocazione inefficiente delle risorse GPU.

L'approccio di Aegaeon suggerisce che Alibaba si sta preparando a questo scenario, potenzialmente mantenendo competitivi i prezzi anche per applicazioni AI specializzate. Per gli utenti finali, questo potrebbe tradursi in maggiore accessibilità a soluzioni di intelligenza artificiale personalizzate senza dover sostenere costi proibitivi.

Nessun allarme per gli investitori nell'AI

A differenza del "momento DeepSeek" del gennaio 2025 – quando emersero tecniche cinesi che sembravano ridurre drasticamente le GPU necessarie per l'addestramento dei modelli, scatenando turbolenze nei mercati finanziari – questa pubblicazione non rappresenta un evento dirompente. Si tratta piuttosto di un miglioramento incrementale nell'efficienza operativa che, per quanto significativo per Alibaba, non ridisegna l'economia fondamentale dell'intelligenza artificiale né minaccia gli investimenti massicci in infrastrutture GPU pianificati dai colossi tecnologici globali.

La vera importanza del lavoro di Alibaba risiede nel dimostrare che esistono margini sostanziali per ottimizzare l'utilizzo delle GPU nell'inferenza, un tema che diventerà sempre più critico man mano che l'AI si diffonderà in settori e applicazioni sempre più diversificate.

Condividi questo contenuto