Un gruppo di ricercatori specializzati in sicurezza informatica ha scoperto una serie di vulnerabilità critiche che attraversano l'intero ecosistema dell'intelligenza artificiale, colpendo i framework di inferenza più utilizzati al mondo. La scoperta più preoccupante non riguarda tanto la natura tecnica delle falle di sicurezza, quanto il modo in cui si sono diffuse: attraverso la pratica comune tra sviluppatori di copiare e incollare codice tra diversi progetti, propagando così gli stessi difetti in molteplici piattaforme AI. I sistemi coinvolti includono prodotti di colossi tecnologici come Meta, Nvidia e Microsoft, oltre a importanti progetti open source come vLLM e SGLang.
La catena di contagio del codice insicuro
Oligo Security, l'azienda che ha individuato il problema, ha documentato come una vulnerabilità inizialmente presente in Llama Stack di Meta si sia replicata in almeno quattro framework principali per l'inferenza AI. Il meccanismo alla base è tanto semplice quanto pericoloso: l'utilizzo di Python pickle per la deserializzazione dei dati combinato con l'implementazione non protetta di ZeroMQ (ZMQ), un sistema di messaggistica ad alte prestazioni.
Avi Lumelsky, ricercatore di Oligo Security, ha spiegato che durante l'indagine il team ha notato un pattern ricorrente. "Continuando la nostra analisi, abbiamo scoperto che interi file di codice venivano copiati tra progetti, diffondendo schemi pericolosi attraverso diversi repository", ha dichiarato. In alcuni casi, il codice includeva persino commenti espliciti che indicavano la provenienza da vLLM, a testimonianza della pratica diffusa di riutilizzo del codice senza adeguate verifiche di sicurezza.
Il "ShadowMQ": un difetto che viaggia nell'ombra
I ricercatori hanno coniato il termine "ShadowMQ" per descrivere questo pattern di vulnerabilità nascosta. Non si tratta di una nuova funzionalità intenzionalmente implementata, ma di un difetto strutturale presente nel livello di comunicazione che si sposta silenziosamente tra i repository attraverso operazioni di copia o modifiche superficiali del codice. Il problema fondamentale risiede nell'uso di 'recv-pyobj()' di ZeroMQ che passa i dati direttamente a 'pickle.loads()' di Python, creando un canale attraverso socket non autenticati che consente l'esecuzione di codice arbitrario.
Come ha sottolineato Lumelsky, qualsiasi sviluppatore con esperienza in Python sa che pickle non è stato progettato per scopi di sicurezza. "In ambienti chiusi non rappresenta un problema, ma quando viene esposto alla rete la situazione cambia completamente", ha precisato. La deserializzazione attraverso pickle può infatti eseguire codice arbitrario, trasformando quello che in teoria è un semplice meccanismo di serializzazione in una potenziale porta d'ingresso per attacchi remoti.
L'impatto sull'infrastruttura AI globale
La gravità della situazione emerge chiaramente considerando il ruolo centrale che questi framework ricoprono nell'architettura AI aziendale. I server di inferenza rappresentano il cuore pulsante dello stack tecnologico per l'intelligenza artificiale, gestendo dati sensibili come prompt degli utenti, pesi dei modelli e informazioni dei clienti. Oligo Security ha identificato migliaia di socket ZeroMQ esposti su Internet pubblico, alcuni dei quali collegati a cluster di inferenza realmente operativi.
Le conseguenze di un eventuale sfruttamento di queste vulnerabilità potrebbero essere devastanti. Un attaccante potrebbe eseguire codice arbitrario sui cluster GPU, elevare i propri privilegi di sistema, sottrarre modelli proprietari o dati dei clienti, oppure installare software di mining di criptovalute sfruttando la potenza di calcolo disponibile. In pratica, l'intera infrastruttura AI aziendale potrebbe trasformarsi da asset strategico in vettore di rischio.
Chi è stato colpito e come hanno risposto
La timeline della scoperta inizia nel settembre 2024, quando Oligo ha segnalato la vulnerabilità (CVE-2024-50050) a Meta. L'azienda di Menlo Park ha reagito prontamente, sostituendo l'uso di pickle con un sistema di serializzazione basato su JSON. Successivamente, i ricercatori hanno identificato lo stesso pattern problematico in vLLM (CVE-2025-30165), Nvidia TensorRT-LLM (CVE-2025-23254) e Modular Max Server (CVE-2025-60455). Tutti i progetti coinvolti hanno implementato correzioni sostituendo la logica vulnerabile.
Particolarmente significativo è il caso di SGLang, già adottato da giganti tecnologici e aziende di primo piano tra cui xAI, AMD, Nvidia, Intel, LinkedIn, Cursor, Oracle Cloud e Google Cloud. La diffusione capillare di questi framework amplifica esponenzialmente l'impatto potenziale delle vulnerabilità, creando una superficie d'attacco che attraversa l'intero settore dell'intelligenza artificiale commerciale.
Raccomandazioni per la sicurezza
Oligo Security ha pubblicato indicazioni precise per mitigare il rischio. Le organizzazioni dovrebbero aggiornare immediatamente alle versioni corrette: Meta Llama Stack v0.0.41 o superiore, Nvidia TensorRT-LLM 0.18.2 o superiore, vLLM v0.8.0 o superiore, e Modular Max Server v25.6 o superiore. Ma le patch rappresentano solo il primo passo.
Le misure preventive raccomandate includono l'abbandono completo di pickle per la gestione di dati non affidabili, l'implementazione di autenticazione HMAC e TLS per le comunicazioni basate su ZMQ, e un rafforzamento significativo della formazione dei team di sviluppo sui rischi di sicurezza associati alla deserializzazione. Lumelsky ha sottolineato come nell'ultimo anno il suo team abbia continuato a scoprire vulnerabilità RCE simili attraverso i framework AI più diffusi, evidenziando un vuoto strutturale nella sicurezza dell'ecosistema di inferenza che richiede un approccio sistematico e non solo correzioni puntuali.