Tecnologia Nvidia lancia i suoi modelli open-weights
3' 43''
22/12/2025

Nemotron 3 racchiude i principali progressi del machine learning del 2025 in un'unica soluzione innovativa e all'avanguardia

Nvidia lancia i suoi modelli open-weights
L'intelligenza artificiale aziendale si trova di fronte a un paradosso: i modelli proprietari offrono prestazioni superiori, ma esporre dati sensibili e proprietà intellettuale a servizi esterni come ChatGPT rappresenta un rischio inaccettabile per molte organizzazioni. Nvidia ha deciso di affrontare questa sfida lanciando tre nuovi modelli linguistici a pesi aperti, una mossa strategica che va oltre la semplice competizione tecnologica e mira a sbloccare l'adozione su larga scala dell'IA aziendale e delle applicazioni agentiche su cui il colosso dei processori grafici sta puntando con decisione.

Una soluzione al dilemma della privacy aziendale

Al di fuori dei laboratori cinesi, i modelli open-weights disponibili oggi non reggono il confronto con soluzioni proprietarie come quelle di OpenAI o Anthropic. Questa carenza rappresenta non solo un ostacolo all'adozione enterprise, ma anche un freno alla visione di Nvidia per l'intelligenza artificiale agentica. L'azienda californiana, che impiega principalmente ingegneri software nella sua forza lavoro, ha già rilasciato modelli aperti in passato, ma la nuova generazione Nemotron LLMs segna un salto qualitativo significativo in termini di capacità e trasparenza.

Tre taglie per esigenze diverse

La famiglia Nemotron 3 si declina in tre versioni: Nano, Super e Ultra, con dimensioni rispettivamente di circa 30, 100 e 500 miliardi di parametri. Il modello Nano sarà disponibile già questa settimana su repository popolari come Hugging Face, mentre le versioni più grandi arriveranno nella prima metà del prossimo anno. L'aspetto rivoluzionario sta nell'impegno di Nvidia a rilasciare non solo i pesi dei modelli, ma anche i dati di addestramento e gli ambienti di reinforcement learning utilizzati per crearli, aprendo possibilità inedite di personalizzazione profonda.

Solo una frazione dei parametri si attiva per ogni token generato

Architettura ibrida per gestire documenti voluminosi

I nuovi modelli implementano un'innovativa architettura ibrida latent MoE progettata per minimizzare le perdite di prestazioni durante l'elaborazione di sequenze lunghe, come l'analisi di documenti estesi. Questa soluzione combina gli strati Mamba-2 e Transformer: il primo è generalmente più efficiente nell'elaborare sequenze lunghe, riducendo i tempi di processamento dei prompt, mentre i livelli transformer mantengono una "ragionamento preciso" ed evitano che il modello perda il contesto delle informazioni rilevanti, una problematica nota quando si processano documenti estesi o conversazioni prolungate.

La capacità nativa di gestire una finestra di contesto da un milione di token - equivalente a circa 3.000 pagine di testo a doppia spaziatura - distingue questi modelli dalle soluzioni precedenti. Tutti utilizzano un'architettura mixture-of-experts (MoE), il che significa che solo una frazione dei parametri totali viene attivata per ciascun token elaborato e generato, riducendo la pressione sul sottosistema di memoria e garantendo prestazioni più rapide rispetto a un modello denso equivalente sullo stesso hardware.

Specializzazione e predizione multi-token

Nel caso di Nemotron 3 Nano, su 30 miliardi di parametri solo 3 miliardi vengono attivati per ogni token generato. Mentre il modello nano impiega un'architettura MoE piuttosto standard, simile a quella vista in gpt-oss o Qwen3-30B-A3B, i modelli Super e Ultra più grandi sono stati pre-addestrati utilizzando il tipo di dato NVFP4 di Nvidia e una nuova architettura latent MoE. Come spiega Nvidia, questo approccio permette agli esperti di operare su una rappresentazione latente condivisa prima che gli output vengano riproiettati nello spazio dei token, consentendo al modello di consultare quattro volte più esperti allo stesso costo di inferenza e migliorando la specializzazione su strutture semantiche sottili, astrazioni di dominio o pattern di ragionamento multi-hop.

L'implementazione della predizione multi-token, una variante della decodifica speculativa, può migliorare le prestazioni di inferenza fino a tre volte predicendo token futuri ogni volta che ne viene generato uno nuovo. Questa tecnica risulta particolarmente utile nelle applicazioni agentiche dove grandi quantità di informazioni vengono ripetutamente elaborate e rigenerate, come negli assistenti per la programmazione.

Requisiti hardware e personalizzazione

Nemotron 3 Nano, disponibile da questa settimana, è progettato per funzionare efficientemente su hardware enterprise come l'L40S o l'RTX Pro 6000 Server Edition di Nvidia. Tuttavia, utilizzando versioni quantizzate a 4 bit del modello, dovrebbe essere possibile eseguirlo su GPU con appena 24GB di memoria video. Secondo Artificial Analysis, il modello offre prestazioni paragonabili a gpt-oss-20B o Qwen3 VL 32B e 30B-A3B, garantendo alle imprese maggiore flessibilità di personalizzazione.

Il reinforcement learning rappresenta uno dei metodi principali per personalizzare i modelli, permettendo agli utenti di insegnare nuove informazioni o approcci attraverso tentativi ed errori, dove i risultati desiderabili vengono premiati mentre quelli indesiderati vengono penalizzati. Insieme ai nuovi modelli, Nvidia rilascia dataset RL e ambienti di addestramento chiamati NeMo Gym, per aiutare le imprese a ottimizzare i modelli per le loro specifiche applicazioni o flussi di lavoro agentici.

Condividi questo contenuto