Le tecnologie di generazione di immagini da testo fanno un altro passo avanti: OpenAI ha rilasciato Point-E, un algoritmo in grado di creare un modello 3D a partire da un input testuale.
Successore di DALL-E, il nuovo modello di machine learning può generare l'immagine tridimensionale in soli 2 minuti su una singola GPU. Il problema dei precedenti metodi di generazione 3D stava proprio nell'eccessivo tempo richiesto per produrre il modello.
Point-E lavora in due fasi principali: durante la prima genera una vista sintetica tramite un modello di diffusione text-to-image; in seguito produce una nuvola di punti nello spazio che rappresenta la forma dell'oggetto da renderizzare. Il primo modello è simile a quello usato da DALL-E e Stable Diffusion, mentre il secondo è un nuovo algoritmo addestrato su un set di coppie di immagini 2D-3D.
Rispetto ad altri modelli di generazione 3D, Point-E ha un grado di precisione inferiore e in alcuni casi non riesce a interpretare correttamente l'input testuale. Gli errori si verificano più spesso nella seconda fase di generazione, quando il modello della nuvola di punti sbaglia a calcolare le proporzioni del soggetto o inferisce alcune parti non presenti.
Point-E non ha l'accuratezza di altri modelli per il 3D, ma è in assoluto il più veloce: i sistemi di generazione di immagini 3D impiegano ore o addirittura giorni per una singola immagine, mentre Point-E solo pochi minuti. Secondo i ricercatori di OpenAI, il modello può essere utilizzato per applicazioni pratiche come la stampa di oggetti 3D.
Si tratta comunque di un progetto ancora nelle fasi iniziali, che dovrà passare attraverso diverse fasi di perfezionamento per poter essere usato in ambito professionale. Point-E presenta molti limiti, primo fra tutti una risoluzione troppo bassa quando lavora con rappresentazioni 3D colorate. Inoltre, l'accuratezza del modello dipende fortemente dal dataset con cui è stato addestrato.
In ogni caso il modello può essere un ottimo punto di partenza per sviluppi futuri nel campo della generazione text-to-3D.