Approfondimenti Google presenta MobileDiffusion per il text-to-image su mobile
2' 27''
05/02/2024

I ricercatori di Google hanno ideato MobileDiffusion, un nuovo approccio per eseguire la generazione text-to-image su dispositivi mobile.

Google presenta MobileDiffusion per il text-to-image su mobile

I modelli di generazione text-to-image come Dall-E, Imagen o Stable Diffusion sono in grado di produrre immagini di alta qualità, ma necessitano di molte risorse per essere eseguiti, rendendoli di fatto inutilizzabili sui dispositivi mobili.

Per risolvere questo problema i ricercatori di Google hanno ideato MobileDiffusion, un nuovo approccio che ha il potenziale di permettere la generazione rapida text-to-image anche sui dispositivi mobile. 

I modelli di diffusione per la generazione text-to-image hanno due problemi principali: in primis, il denoising iterativo delle immagini necessita più valutazioni consecutive e quindi elevate risorse computazionali; inoltre, la complessità dell'architettura dei modelli richiede un elevato numero di parametri, il che incrementa il numero di valutazioni e quindi di risorse richieste.

Eseguire questi modelli su dispositivi mobile è quindi molto inefficiente: anche con pochi step di valutazione l'esecuzione è molto lenta. Finora gli sforzi per ridurre la complessità dei modelli si sono rivelati piuttosto inutili, ma ora con MobileDiffusion di Google si apre finalmente la possibilità di generare immagini anche sugli smartphone.

Pexels
smartphone

MobileDiffusion

MobileDiffusion è composto da tre componenti principali: CLIP-ViT/L14, un piccolo text encoder da 125 mila parametri pensato per i dispositivi mobili, un'architettura U-Net e un image decoder.

L'architettura U-Net, una rete neurale convoluzionale nata per l'image segmentation nel campo biomedico, viene utilizzata in modelli di image generation per il denoising iterativo delle immagini, la fase più computazionalmente complessa del processo. 

I ricercatori di Google hanno modificato l'architettura classica U-Net distribuendo i blocchi convoluzionali in diversi segmenti della rete, dividendoli in blocchi più leggeri e veloci da eseguire. Comparando la U-Net di MobileDiffusion con quelle dei modelli di diffusione più usati, il modello di Google ha dimostrato un'efficienza di molto superiore in termini di FLOPs e numero di parametri. 

Il team ha inoltre ottimizzato l'image decoder affinché fosse il più leggero possibile, senza perdere la qualità dell'immagine. L'ottimizzazione ha portato a una riduzione del 50% della latenza e a una qualità visiva maggiore rispetto a Stable Diffusion.

I ricercatori hanno infine adottato un approccio DiffusionGAN ibrido per eseguire la generazione dell'immagine in un solo step, al contempo garantendo che il risultato fosse non solo visualmente realistico, ma anche semanticamente consistente con il testo di input. 

Google
MobileDiffusion
I risultati di MobileDiffusion

I risultati 

Stando alle immagini condivise dal team di Google, il modello ha dimostrato grandi capacità di generare immagini di elevata qualità in diversi stili e con diversi soggetti. 

MobileDiffusion è molto efficiente ed è in grado di generare un'immagine 512x512 in meno di mezzo secondo, a differenza di modelli come SnapFusion o StableDiffusion che richiedono da più di un secondo fino a quasi 8 secondi. 

Al momento il modello è ancora in fase di perfezionamento, soprattutto per quanto riguarda le sfide etiche, ma ha già dimostrato di avere il potenziale per portare la generazione veloce di immagini anche sui dispositivi mobile.

Potrebbe interessarti anche

Approfondimenti

Audio Overview di Google migliora l'insegnamento trasformando le lezioni in podcast

Google ha presentato Audio Overview, una feature di IA in grado di trasformare i contenuti di documenti e appunti in dis...

News

Novità Gemini: arrivano i Gem personalizzati e la nuova versione di Imagen

Google ha annunciato l'arrivo di Gem, assistenti di produttività di Gemini, e l'integrazione nel motore del modello di g...

News

YouTube annuncia una feature di IA per aiutare i creator a generare idee

YouTube ha annunciato l'arrivo di una feature di IA che aiuterà i creator della piattaforma a generare nuove idee per il...

News

OpenAI sta testando SearchGPT, il suo motore di ricerca intelligente

OpenAI ha annunciato SearchGPT, un motore di ricerca che usa l'intelligenza artificiale per offrire agli utenti risultat...