Approfondimenti Google presenta MobileDiffusion per il text-to-image su mobile
Marina Londei
2' 27''
05/02/2024

I ricercatori di Google hanno ideato MobileDiffusion, un nuovo approccio per eseguire la generazione text-to-image su dispositivi mobile.

Google presenta MobileDiffusion per il text-to-image su mobile

I modelli di generazione text-to-image come Dall-E, Imagen o Stable Diffusion sono in grado di produrre immagini di alta qualità, ma necessitano di molte risorse per essere eseguiti, rendendoli di fatto inutilizzabili sui dispositivi mobili.

Per risolvere questo problema i ricercatori di Google hanno ideato MobileDiffusion, un nuovo approccio che ha il potenziale di permettere la generazione rapida text-to-image anche sui dispositivi mobile. 

I modelli di diffusione per la generazione text-to-image hanno due problemi principali: in primis, il denoising iterativo delle immagini necessita più valutazioni consecutive e quindi elevate risorse computazionali; inoltre, la complessità dell'architettura dei modelli richiede un elevato numero di parametri, il che incrementa il numero di valutazioni e quindi di risorse richieste.

Eseguire questi modelli su dispositivi mobile è quindi molto inefficiente: anche con pochi step di valutazione l'esecuzione è molto lenta. Finora gli sforzi per ridurre la complessità dei modelli si sono rivelati piuttosto inutili, ma ora con MobileDiffusion di Google si apre finalmente la possibilità di generare immagini anche sugli smartphone.

Pexels
smartphone

MobileDiffusion

MobileDiffusion è composto da tre componenti principali: CLIP-ViT/L14, un piccolo text encoder da 125 mila parametri pensato per i dispositivi mobili, un'architettura U-Net e un image decoder.

L'architettura U-Net, una rete neurale convoluzionale nata per l'image segmentation nel campo biomedico, viene utilizzata in modelli di image generation per il denoising iterativo delle immagini, la fase più computazionalmente complessa del processo. 

I ricercatori di Google hanno modificato l'architettura classica U-Net distribuendo i blocchi convoluzionali in diversi segmenti della rete, dividendoli in blocchi più leggeri e veloci da eseguire. Comparando la U-Net di MobileDiffusion con quelle dei modelli di diffusione più usati, il modello di Google ha dimostrato un'efficienza di molto superiore in termini di FLOPs e numero di parametri. 

Il team ha inoltre ottimizzato l'image decoder affinché fosse il più leggero possibile, senza perdere la qualità dell'immagine. L'ottimizzazione ha portato a una riduzione del 50% della latenza e a una qualità visiva maggiore rispetto a Stable Diffusion.

I ricercatori hanno infine adottato un approccio DiffusionGAN ibrido per eseguire la generazione dell'immagine in un solo step, al contempo garantendo che il risultato fosse non solo visualmente realistico, ma anche semanticamente consistente con il testo di input. 

Google
MobileDiffusion
I risultati di MobileDiffusion

I risultati 

Stando alle immagini condivise dal team di Google, il modello ha dimostrato grandi capacità di generare immagini di elevata qualità in diversi stili e con diversi soggetti. 

MobileDiffusion è molto efficiente ed è in grado di generare un'immagine 512x512 in meno di mezzo secondo, a differenza di modelli come SnapFusion o StableDiffusion che richiedono da più di un secondo fino a quasi 8 secondi. 

Al momento il modello è ancora in fase di perfezionamento, soprattutto per quanto riguarda le sfide etiche, ma ha già dimostrato di avere il potenziale per portare la generazione veloce di immagini anche sui dispositivi mobile.

Potrebbe interessarti anche

Approfondimenti

Google presenta AMIE, un sistema ottimizzato per le conversazioni medico-paziente

I ricercatori di Google hanno sviluppato AMIE, un tool pensato per aiutare i pazienti ad accedere a una prima diagnosi p...

News

Arriva Lumiere, il nuovo modello text-to-video di Google

Google ha presentato Lumiere, un nuovo modello text-to-video e image-to-video in grado di generare brevi video realistic...

News

Google e Hugging Face annunciano una nuova partnership

Google e Hugging Face hanno annunciato una nuova partnership che consentirà agli sviluppatori di sfruttare il cloud Goog...

News

Google annuncia nuove feature di IA per Chrome

Google ha annunciato il rilascio di tre nuove funzionalità di IA per Chrome per aiutare gli utenti nella navigazione e n...