News Muse: il nuovo modello Text-to-Image di Google AI
1' 54''
17/01/2023

Basato su trasformatori generativi, Muse è in grado di generare foto di alta qualità a velocità estremamente elevate, superando DALL-E 2 e Imagen.

Muse: il nuovo modello Text-to-Image di Google AI

Google AI ha pubblicato un nuovo documento di ricerca illustrando le caratteristiche di Muse, un modello Text-To-Image di nuova generazione basato sui trasformatori generativi in grado di produrre foto di alta qualità paragonabili a quelle prodotte da modelli rivali, come DALL-E 2 e Imagen, a una velocità molto superiore.

Muse è addestrato per lavorare con immagini associate a maschere casuali associate un sistema di gestione dei testi basato su un modello linguistico di grandi dimensioni che è già stato addestrato.

Muse utilizza un modello che prevede 900 milioni di parametri chiamato Masked Generative Image Transformer per creare elementi visivi, in contrapposizione con soluzioni come modelli di diffusione pixel-spazio o autoregressivi.

Google
Latte Art

Secondo le misurazioni svolte da Google, utilizzando un chip TPUv4 un’immagine da 256 per 256 pixel può essere generata in soli 0,5 secondi; si tratta di un progresso enorme rispetto ai 9,1 secondi necessari utilizzando Imagen, il modello di diffusione dell’azienda.

Le TPU, o Tensor Processing Unit, sono chip custom sviluppati da Google e utilizzati come acceleratori hardware per compiti legati all’intelligenza artificiale.

Addestramento accurato

Google AI ha addestrato una serie di modelli Muse con dimensioni variabili, che vanno da 632 milioni a 3 miliardi di parametri, scoprendo che il condizionamento con un modello linguistico di grandi dimensioni addestrato in precedenza è fondamentale per generare immagini fotorealistiche e di alta qualità.

Google
Raccoons

Muse supera anche Parti, un modello autoregressivo all'avanguardia, poiché utilizza la decodifica parallela ed è più di 10 volte più veloce nell'inferenza rispetto ai modelli Imagen-3B o Parti-3B e tre volte più veloce di Stable Diffusion v1.4, a quanto emerge da misurazioni che utilizzano hardware equivalente.

Muse crea immagini che corrispondono ai vari elementi inseriti nel prompt di input, interpretando frasi complesse che contengono nomi, verbi e aggettivi. Inoltre, il nuovo modello è in grado di comprendere sia indicazioni che riguardano lo stile visivo sia le caratteristiche multi-oggetto come la composizionalità e la cardinalità.

I modelli generativi per le immagini sono cresciuti molto negli ultimi anni, grazie a nuovi metodi di training e al miglioramento delle architetture di deep learning. Questi modelli hanno la capacità di generare immagini altamente dettagliate e realistiche e stanno diventando strumenti sempre più potenti per una vasta gamma di settori e applicazioni.

Potrebbe interessarti anche

Approfondimenti

Gli agenti di IA supporteranno la crescita delle PMI

Gli agenti di IA hanno il potenziale di rivoluzionare il business delle PMI aiutandole a emergere sul mercato, aumentand...

Approfondimenti

I sei trend di IA che rivoluzioneranno il marketing

Bernard Marr di Forbes individua sei trend di intelligenza artificiale che guideranno lo sviluppo del marketing nel 2025...

Approfondimenti

L'IA trasforma la diagnostica per immagini e i percorsi di cura

Il dibattito "Evoluzione tecnologica e Intelligenza Artificiale in Diagnostica per Immagini. Stato dell’arte e prospetti...

Approfondimenti

Il 55% delle aziende farmaceutiche usa l'IA per progettare prodotti e servizi

Secondo il report "AI: radiografia di una rivoluzione in corso" condotto da Ascendant di Minsait, le aziende farmaceutic...