Google AI ha pubblicato un nuovo documento di ricerca illustrando le caratteristiche di Muse, un modello Text-To-Image di nuova generazione basato sui trasformatori generativi in grado di produrre foto di alta qualità paragonabili a quelle prodotte da modelli rivali, come DALL-E 2 e Imagen, a una velocità molto superiore.
Muse è addestrato per lavorare con immagini associate a maschere casuali associate un sistema di gestione dei testi basato su un modello linguistico di grandi dimensioni che è già stato addestrato.
Muse utilizza un modello che prevede 900 milioni di parametri chiamato Masked Generative Image Transformer per creare elementi visivi, in contrapposizione con soluzioni come modelli di diffusione pixel-spazio o autoregressivi.
Secondo le misurazioni svolte da Google, utilizzando un chip TPUv4 un’immagine da 256 per 256 pixel può essere generata in soli 0,5 secondi; si tratta di un progresso enorme rispetto ai 9,1 secondi necessari utilizzando Imagen, il modello di diffusione dell’azienda.
Le TPU, o Tensor Processing Unit, sono chip custom sviluppati da Google e utilizzati come acceleratori hardware per compiti legati all’intelligenza artificiale.
Addestramento accurato
Google AI ha addestrato una serie di modelli Muse con dimensioni variabili, che vanno da 632 milioni a 3 miliardi di parametri, scoprendo che il condizionamento con un modello linguistico di grandi dimensioni addestrato in precedenza è fondamentale per generare immagini fotorealistiche e di alta qualità.
Muse supera anche Parti, un modello autoregressivo all'avanguardia, poiché utilizza la decodifica parallela ed è più di 10 volte più veloce nell'inferenza rispetto ai modelli Imagen-3B o Parti-3B e tre volte più veloce di Stable Diffusion v1.4, a quanto emerge da misurazioni che utilizzano hardware equivalente.
Muse crea immagini che corrispondono ai vari elementi inseriti nel prompt di input, interpretando frasi complesse che contengono nomi, verbi e aggettivi. Inoltre, il nuovo modello è in grado di comprendere sia indicazioni che riguardano lo stile visivo sia le caratteristiche multi-oggetto come la composizionalità e la cardinalità.
I modelli generativi per le immagini sono cresciuti molto negli ultimi anni, grazie a nuovi metodi di training e al miglioramento delle architetture di deep learning. Questi modelli hanno la capacità di generare immagini altamente dettagliate e realistiche e stanno diventando strumenti sempre più potenti per una vasta gamma di settori e applicazioni.