News Nvidia scommette sui dati sintetici
3' 32''
21/03/2025

Nvidia acquisisce Gretel: potenziata la creazione di dati sintetici per l'addestramento AI. La mossa mira a migliorare le risorse per clienti e sviluppatori.

Nvidia scommette sui dati sintetici

Il colosso tecnologico Nvidia ha acquisito Gretel, azienda specializzata in dati sintetici, per una cifra a nove zeri. L'operazione, secondo fonti ben informate, supera la precedente valutazione di Gretel di 320 milioni di dollari. I circa 80 dipendenti dell'azienda verranno integrati in Nvidia per potenziare i servizi cloud di AI generativa offerti agli sviluppatori.

Questa acquisizione si inserisce nella strategia di Nvidia di espandere la propria offerta di strumenti per la generazione di dati sintetici. L'obiettivo è consentire agli sviluppatori di addestrare e ottimizzare modelli di intelligenza artificiale personalizzati, risolvendo potenzialmente il problema della scarsità di dati che affligge il settore dell'AI dall'esplosione di ChatGPT nel 2022.

Gretel: una piattaforma innovativa per dati sintetici

Fondata nel 2019 da Alex Watson, John Myers e Ali Golshan (CEO), Gretel offre una piattaforma e API per sviluppatori che necessitano di costruire modelli di AI generativa ma non dispongono di sufficienti dati di addestramento o hanno preoccupazioni sulla privacy. L'azienda non sviluppa modelli AI proprietari, ma ottimizza quelli open source esistenti aggiungendo funzionalità di privacy differenziale e sicurezza.

Prima dell'acquisizione, Gretel aveva raccolto oltre 67 milioni di dollari in finanziamenti di venture capital. Né Nvidia né Gretel hanno voluto commentare ufficialmente l'operazione.

Il potenziale dei dati sintetici nell'AI

A differenza dei dati reali o generati manualmente, i dati sintetici sono prodotti da computer per simulare dati del mondo reale. I sostenitori evidenziano come questo approccio renda la generazione di dati per l'AI più scalabile, meno laboriosa e accessibile anche a sviluppatori con minori risorse.

La privacy è un altro punto di forza chiave dei dati sintetici.

Questo li rende particolarmente interessanti per settori come sanità, finanza e pubblica amministrazione. Nvidia offre già da anni strumenti per dati sintetici, come Omniverse Replicator lanciato nel 2022 per generare dati 3D sintetici altamente accurati.

Durante la recente conferenza annuale per sviluppatori, il CEO di Nvidia Jensen Huang ha sottolineato tre sfide chiave per scalare l'AI in modo efficiente:

  1. Risolvere il problema dei dati necessari per addestrare l'AI
  2. Definire l'architettura del modello
  3. Determinare le leggi di scaling

Huang ha evidenziato come Nvidia stia già utilizzando la generazione di dati sintetici nelle sue piattaforme di robotica.

Applicazioni e potenziali rischi dei dati sintetici

Secondo Ana-Maria Cretu, ricercatrice post-dottorato all'École Polytechnique Fédérale de Lausanne, i dati sintetici possono essere impiegati in diversi modi:

  • Come dati tabulari (demografici, medici) per risolvere carenze o creare dataset più diversificati
  • Per aumentare la quantità di dati disponibili per i modelli linguistici di grandi dimensioni (LLM)

Tuttavia, gli esperti sottolineano anche possibili rischi. Un articolo pubblicato su Nature nel luglio 2024 ha evidenziato come i modelli linguistici AI potrebbero "collassare" se continuamente affinati con dati generati da altri modelli. In pratica, alimentare la macchina solo con output generati artificialmente potrebbe portare a un degrado significativo della qualità.

Le opinioni nella comunità AI sono divise. Alexandr Wang, CEO di Scale AI, sostiene un approccio ibrido che combini dati sintetici e reali. Gary Marcus, scienziato cognitivo e critico dell'hype sull'AI, ritiene invece che il progresso derivi dallo sviluppo di nuove architetture per i modelli AI, più che dalla focalizzazione sui dataset.

Nonostante le preoccupazioni, l'industria AI sta investendo fortemente nei dati sintetici. Sam Altman di OpenAI ha elogiato la capacità dell'azienda di utilizzare i modelli esistenti per creare nuovi dati. Dario Amodei, CEO di Anthropic, ipotizza la possibilità di costruire un "motore di generazione di dati infinito" che mantenga la qualità inserendo piccole quantità di nuove informazioni durante l'addestramento.

L'approccio delle Big Tech

Anche i giganti tecnologici stanno esplorando l'uso di dati sintetici:

  • Meta ha utilizzato dati sintetici per addestrare Llama 3
  • Amazon offre strumenti per generare dati sintetici tramite Claude di Anthropic
  • Microsoft ha impiegato dati sintetici per Phi-3, pur avvertendo dei possibili rischi
  • Google DeepMind sta lavorando su pipeline per dati sintetici privati

Alex Bestall, fondatore di Rightsify, sottolinea come molte aziende tech stiano esplorando i dati sintetici, ma spesso richiedano ancora una percentuale significativa di dati generati dall'uomo nei loro dataset di addestramento.

L'acquisizione di Gretel da parte di Nvidia segna un importante passo avanti nell'integrazione dei dati sintetici nell'ecosistema AI, aprendo nuove possibilità ma sollevando anche interrogativi cruciali sul futuro dell'addestramento dei modelli di intelligenza artificiale.

Potrebbe interessarti anche

News

Dallo stress del pendolarismo alla pace dello smartworking

Sono molti i vantaggi del lavoro da remoto: risparmio di tempo, riduzione dei costi, aumento della produttività e miglior equilibrio vita-lavoro.

News

Guida pratica ai componenti chiave dell'IA applicata

Una guida semplice per costruire applicazioni AI senza perdersi nelle complessità, ideale per chi si avvicina a questa tecnologia per la prima volta.

News

AI e finanza: la guida essenziale per i CFO

L'intelligenza artificiale agentica per CFO: un approccio pragmatico, simile all'adozione di altre tecnologie aziendali

News

Come l'IA trasforma l'analisi del rischio finanziario

L'intelligenza artificiale: alleata storica delle istituzioni finanziarie contro i rischi, ora essenziale in un panorama di minacce in rapida evoluzione.