News Intel presenta un modello per generare immagini 3D da un testo
2' 12''
22/06/2023

Intel Labs, in collaborazione con Blockade Labs, ha annunciato LDM3D, un modello per la generazione di immagini realistiche in 3D a partire da un testo.

Intel presenta un modello per generare immagini 3D da un testo

Intel Labs ha annunciato Latent Diffusion Model for 3D (LDM3D), un nuovo modello di diffusione basato sull’IA generativa in grado di creare contenuti 3D realistici. Realizzato in collaborazione con Blockade Labs, il modello è il primo con la capacità di generare una mappatura di profondità utilizzando il processo di diffusione per realizzare immagini tridimensionali immersive.

A partire da un’indicazione testuale, LDM3D può generare sia un’immagine 2D, come gli attuali modelli di diffusione in uso, sia un’immagine 3D a 360°. Gli utenti, con un semplice prompt in linguaggio naturale, possono creare mondi immersivi, migliorando il realismo della rappresentazione.

"L’AI generativa mira ad aumentare e migliorare la creatività umana e a risparmiare tempo. Tuttavia, la maggior parte dei modelli di AI generativa oggi disponibili si limita a generare immagini 2D; solo pochissimi sono in grado di generare immagini 3D da istruzioni testuali” ha affermato Vasudev Lal, AI/ML research scientist di Intel Labs.

"A differenza dei modelli esistenti di latent stable diffusion, LDM3D consente di generare un'immagine e una mappa di profondità da un dato messaggio di testo utilizzando quasi lo stesso numero di parametri. Fornisce una profondità relativa più accurata per ogni pixel rispetto ai metodi standard di post-elaborazione per la stima della profondità e consente agli sviluppatori di risparmiare molto tempo nella creazione delle scene".

Il modello di Intel Labs e Blockade Labs crea nuove opportunità per i settori dell’intrattenimento, del gaming, dell’interior design e anche della cultura, permettendo di creare esperienze virtuali ancora più complete e dettagliate.

Sviluppo e addestramento di LDM3D

LDM3D è stato istruito su un sottoinsieme di 10.000 campioni del dataset LAION-400M, contenente più di 400 milioni di coppie immagine-testo. Il team ha usato il modello di stima a grande profondità Dense Prediction Transformer, realizzato in precedenza sempre presso Intel Labs, in grado di fornire una profondità relativa altamente accurata per ogni pixel dell’immagine generata.

Il modello è stato addestrato su un supercomputer Intel AI con processori Intel Xeon e acceleratori AI Intel Habana Gaudi. È possibile testare le capacità di LDM3D su DepthFusion, un’applicazione che integra immagini RGB 2D e mappe di profondità per creare esperienze interattive.

Pixabay
esperienza interattiva

DepthFusion utilizza TouchDesigner, linguaggio di programmazione visiva, per tradurre gli input testuali in esperienze digitali.

Ora l’obiettivo di Intel è creare un ecosistema aperto a tutti per rendere più accessibile la tecnologia. Il codice di LDM3D è già disponibile in modalità open source su HuggingFace.

Potrebbe interessarti anche

News

IA generativa in auto: Intel annuncia il nuovo chip per l'automotive

Intel ha annunciato la produzione di una nuova famiglia di system-on-a-chip pensati per portare l'IA generativa nei veic...

News

Solo il 10% delle aziende ha soluzioni di IA attive

Nonostante il crescente interesse per le soluzioni di IA generativa, l'adozione effettiva nel business rimane ancora bas...

Tecnologia

Intel usa l’IA per identificare i video deepfake in tempo reale

La tecnologia FakeCatcher di Intel è in grado di smascherare i video deepfake in tempo reale, con ottime percentuali di...

News

Futureberry presenta COSMO per l'apprendimento personalizzato e on-demand basato su IA

Futureberry ha lanciato COSMO, una piattaforma di apprendimento personalizzato on-demand basata su IA per aiutare i giov...