Intel Labs ha annunciato Latent Diffusion Model for 3D (LDM3D), un nuovo modello di diffusione basato sull’IA generativa in grado di creare contenuti 3D realistici. Realizzato in collaborazione con Blockade Labs, il modello è il primo con la capacità di generare una mappatura di profondità utilizzando il processo di diffusione per realizzare immagini tridimensionali immersive.
A partire da un’indicazione testuale, LDM3D può generare sia un’immagine 2D, come gli attuali modelli di diffusione in uso, sia un’immagine 3D a 360°. Gli utenti, con un semplice prompt in linguaggio naturale, possono creare mondi immersivi, migliorando il realismo della rappresentazione.
"L’AI generativa mira ad aumentare e migliorare la creatività umana e a risparmiare tempo. Tuttavia, la maggior parte dei modelli di AI generativa oggi disponibili si limita a generare immagini 2D; solo pochissimi sono in grado di generare immagini 3D da istruzioni testuali” ha affermato Vasudev Lal, AI/ML research scientist di Intel Labs.
"A differenza dei modelli esistenti di latent stable diffusion, LDM3D consente di generare un'immagine e una mappa di profondità da un dato messaggio di testo utilizzando quasi lo stesso numero di parametri. Fornisce una profondità relativa più accurata per ogni pixel rispetto ai metodi standard di post-elaborazione per la stima della profondità e consente agli sviluppatori di risparmiare molto tempo nella creazione delle scene".
Il modello di Intel Labs e Blockade Labs crea nuove opportunità per i settori dell’intrattenimento, del gaming, dell’interior design e anche della cultura, permettendo di creare esperienze virtuali ancora più complete e dettagliate.
Sviluppo e addestramento di LDM3D
LDM3D è stato istruito su un sottoinsieme di 10.000 campioni del dataset LAION-400M, contenente più di 400 milioni di coppie immagine-testo. Il team ha usato il modello di stima a grande profondità Dense Prediction Transformer, realizzato in precedenza sempre presso Intel Labs, in grado di fornire una profondità relativa altamente accurata per ogni pixel dell’immagine generata.
Il modello è stato addestrato su un supercomputer Intel AI con processori Intel Xeon e acceleratori AI Intel Habana Gaudi. È possibile testare le capacità di LDM3D su DepthFusion, un’applicazione che integra immagini RGB 2D e mappe di profondità per creare esperienze interattive.
DepthFusion utilizza TouchDesigner, linguaggio di programmazione visiva, per tradurre gli input testuali in esperienze digitali.
Ora l’obiettivo di Intel è creare un ecosistema aperto a tutti per rendere più accessibile la tecnologia. Il codice di LDM3D è già disponibile in modalità open source su HuggingFace.