News OpenAI rilascia Point-E per generare immagini 3D
1' 43''
29/12/2022

OpenAI ha rilasciato Point-E, un modello per la generazione di immagini 3D a partire da input testuali che supera gli altri in velocità.

OpenAI rilascia Point-E per generare immagini 3D

Le tecnologie di generazione di immagini da testo fanno un altro passo avanti: OpenAI ha rilasciato Point-E, un algoritmo in grado di creare un modello 3D a partire da un input testuale.

Successore di DALL-E, il nuovo modello di machine learning può generare l'immagine tridimensionale in soli 2 minuti su una singola GPU. Il problema dei precedenti metodi di generazione 3D stava proprio nell'eccessivo tempo richiesto per produrre il modello. 

Point-E lavora in due fasi principali: durante la prima genera una vista sintetica tramite un modello di diffusione text-to-image; in seguito produce una nuvola di punti nello spazio che rappresenta la forma dell'oggetto da renderizzare. Il primo modello è simile a quello usato da DALL-E e Stable Diffusion, mentre il secondo è un nuovo algoritmo addestrato su un set di coppie di immagini 2D-3D. 

Rodion Kutsaiev on Pexels
Text-to-3D Point-E

Rispetto ad altri modelli di generazione 3D, Point-E ha un grado di precisione inferiore e in alcuni casi non riesce a interpretare correttamente l'input testuale. Gli errori si verificano più spesso nella seconda fase di generazione, quando il modello della nuvola di punti sbaglia a calcolare le proporzioni del soggetto o inferisce alcune parti non presenti. 

Point-E non ha l'accuratezza di altri modelli per il 3D, ma è in assoluto il più veloce: i sistemi di generazione di immagini 3D impiegano ore o addirittura giorni per una singola immagine, mentre Point-E solo pochi minuti. Secondo i ricercatori di OpenAI, il modello può essere utilizzato per applicazioni pratiche come la stampa di oggetti 3D

Lutz Peter on Pixabay
Text-to-3D Point-E

Si tratta comunque di un progetto ancora nelle fasi iniziali, che dovrà passare attraverso diverse fasi di perfezionamento per poter essere usato in ambito professionale. Point-E presenta molti limiti, primo fra tutti una risoluzione troppo bassa quando lavora con rappresentazioni 3D colorate. Inoltre, l'accuratezza del modello dipende fortemente dal dataset con cui è stato addestrato.

In ogni caso il modello può essere un ottimo punto di partenza per sviluppi futuri nel campo della generazione text-to-3D.