News Intel presenta un modello per generare immagini 3D da un testo
Marina Londei
2' 12''
22/06/2023

Intel Labs, in collaborazione con Blockade Labs, ha annunciato LDM3D, un modello per la generazione di immagini realistiche in 3D a partire da un testo.

Intel presenta un modello per generare immagini 3D da un testo

Intel Labs ha annunciato Latent Diffusion Model for 3D (LDM3D), un nuovo modello di diffusione basato sull’IA generativa in grado di creare contenuti 3D realistici. Realizzato in collaborazione con Blockade Labs, il modello è il primo con la capacità di generare una mappatura di profondità utilizzando il processo di diffusione per realizzare immagini tridimensionali immersive.

A partire da un’indicazione testuale, LDM3D può generare sia un’immagine 2D, come gli attuali modelli di diffusione in uso, sia un’immagine 3D a 360°. Gli utenti, con un semplice prompt in linguaggio naturale, possono creare mondi immersivi, migliorando il realismo della rappresentazione.

"L’AI generativa mira ad aumentare e migliorare la creatività umana e a risparmiare tempo. Tuttavia, la maggior parte dei modelli di AI generativa oggi disponibili si limita a generare immagini 2D; solo pochissimi sono in grado di generare immagini 3D da istruzioni testuali” ha affermato Vasudev Lal, AI/ML research scientist di Intel Labs.

"A differenza dei modelli esistenti di latent stable diffusion, LDM3D consente di generare un'immagine e una mappa di profondità da un dato messaggio di testo utilizzando quasi lo stesso numero di parametri. Fornisce una profondità relativa più accurata per ogni pixel rispetto ai metodi standard di post-elaborazione per la stima della profondità e consente agli sviluppatori di risparmiare molto tempo nella creazione delle scene".

Il modello di Intel Labs e Blockade Labs crea nuove opportunità per i settori dell’intrattenimento, del gaming, dell’interior design e anche della cultura, permettendo di creare esperienze virtuali ancora più complete e dettagliate.

Sviluppo e addestramento di LDM3D

LDM3D è stato istruito su un sottoinsieme di 10.000 campioni del dataset LAION-400M, contenente più di 400 milioni di coppie immagine-testo. Il team ha usato il modello di stima a grande profondità Dense Prediction Transformer, realizzato in precedenza sempre presso Intel Labs, in grado di fornire una profondità relativa altamente accurata per ogni pixel dell’immagine generata.

Il modello è stato addestrato su un supercomputer Intel AI con processori Intel Xeon e acceleratori AI Intel Habana Gaudi. È possibile testare le capacità di LDM3D su DepthFusion, un’applicazione che integra immagini RGB 2D e mappe di profondità per creare esperienze interattive.

Pixabay
esperienza interattiva

DepthFusion utilizza TouchDesigner, linguaggio di programmazione visiva, per tradurre gli input testuali in esperienze digitali.

Ora l’obiettivo di Intel è creare un ecosistema aperto a tutti per rendere più accessibile la tecnologia. Il codice di LDM3D è già disponibile in modalità open source su HuggingFace.

Potrebbe interessarti anche

Tecnologia

Intel usa l’IA per identificare i video deepfake in tempo reale

La tecnologia FakeCatcher di Intel è in grado di smascherare i video deepfake in tempo reale, con ottime percentuali di...

Opinioni

La sicurezza di dati e processi è fondamentale per l'adozione dell'IA

Garantire la sicurezza dei dati e la trasparenza dei processi sono due elementi fondamentali per l'adozione efficace del...

Scenario

Addestrare l'IA su contenuti generati porta al collasso dei modelli

Alcuni ricercatori inglesi hanno sottolineato l'importanza di prevenire il collasso dei modelli causato dall'uso di dati...

News

MusicGen: Meta presenta un generatore open-source di musica

Meta ha presentato MusicGen, un generatore di musica open-source che crea tracce audio a partire da un input testuale de...