News Muse: il nuovo modello Text-to-Image di Google AI
Dario Orlandi
1' 54''
17/01/2023

Basato su trasformatori generativi, Muse è in grado di generare foto di alta qualità a velocità estremamente elevate, superando DALL-E 2 e Imagen.

Muse: il nuovo modello Text-to-Image di Google AI

Google AI ha pubblicato un nuovo documento di ricerca illustrando le caratteristiche di Muse, un modello Text-To-Image di nuova generazione basato sui trasformatori generativi in grado di produrre foto di alta qualità paragonabili a quelle prodotte da modelli rivali, come DALL-E 2 e Imagen, a una velocità molto superiore.

Muse è addestrato per lavorare con immagini associate a maschere casuali associate un sistema di gestione dei testi basato su un modello linguistico di grandi dimensioni che è già stato addestrato.

Muse utilizza un modello che prevede 900 milioni di parametri chiamato Masked Generative Image Transformer per creare elementi visivi, in contrapposizione con soluzioni come modelli di diffusione pixel-spazio o autoregressivi.

Google
Latte Art

Secondo le misurazioni svolte da Google, utilizzando un chip TPUv4 un’immagine da 256 per 256 pixel può essere generata in soli 0,5 secondi; si tratta di un progresso enorme rispetto ai 9,1 secondi necessari utilizzando Imagen, il modello di diffusione dell’azienda.

Le TPU, o Tensor Processing Unit, sono chip custom sviluppati da Google e utilizzati come acceleratori hardware per compiti legati all’intelligenza artificiale.

Addestramento accurato

Google AI ha addestrato una serie di modelli Muse con dimensioni variabili, che vanno da 632 milioni a 3 miliardi di parametri, scoprendo che il condizionamento con un modello linguistico di grandi dimensioni addestrato in precedenza è fondamentale per generare immagini fotorealistiche e di alta qualità.

Google
Raccoons

Muse supera anche Parti, un modello autoregressivo all'avanguardia, poiché utilizza la decodifica parallela ed è più di 10 volte più veloce nell'inferenza rispetto ai modelli Imagen-3B o Parti-3B e tre volte più veloce di Stable Diffusion v1.4, a quanto emerge da misurazioni che utilizzano hardware equivalente.

Muse crea immagini che corrispondono ai vari elementi inseriti nel prompt di input, interpretando frasi complesse che contengono nomi, verbi e aggettivi. Inoltre, il nuovo modello è in grado di comprendere sia indicazioni che riguardano lo stile visivo sia le caratteristiche multi-oggetto come la composizionalità e la cardinalità.

I modelli generativi per le immagini sono cresciuti molto negli ultimi anni, grazie a nuovi metodi di training e al miglioramento delle architetture di deep learning. Questi modelli hanno la capacità di generare immagini altamente dettagliate e realistiche e stanno diventando strumenti sempre più potenti per una vasta gamma di settori e applicazioni.

Potrebbe interessarti anche

Approfondimenti

Per Millennial e GenZ la GenAI migliora il work-life balance e la qualità del lavoro

Secondo una ricerca di Deloitte, Millennial e GenZ sono ottimisti riguardo la GenAI e ritengono che possa migliorare il...

News

YouTube annuncia una feature di IA per aiutare i creator a generare idee

YouTube ha annunciato l'arrivo di una feature di IA che aiuterà i creator della piattaforma a generare nuove idee per il...

News

Da Italtel una piattaforma per il monitoraggio degli incendi basata su IA

Italtel ha realizzato per il RAP (Risorse Ambiente Palermo) una piattaforma di prevenzione degli incendi basata su intel...

Approfondimenti

Come la speech analytics basata su IA migliora i contact center

I contact center possono fare uso di strumenti di speech analytics basati su IA per migliorare il servizio offerto ai pr...