Google presenta MobileDiffusion per il text-to-image su mobile

I modelli di generazione text-to-image come Dall-E, Imagen o Stable Diffusion sono in grado di produrre immagini di alta qualità, ma necessitano di molte risorse per essere eseguiti, rendendoli di fatto inutilizzabili sui dispositivi mobili.

Per risolvere questo problema i ricercatori di Google hanno ideato MobileDiffusion, un nuovo approccio che ha il potenziale di permettere la generazione rapida text-to-image anche sui dispositivi mobile.

I modelli di diffusione per la generazione text-to-image hanno due problemi principali: in primis, il denoising iterativo delle immagini necessita più valutazioni consecutive e quindi elevate risorse computazionali; inoltre, la complessità dell'architettura dei modelli richiede un elevato numero di parametri, il che incrementa il numero di valutazioni e quindi di risorse richieste.

Eseguire questi modelli su dispositivi mobile è quindi molto inefficiente: anche con pochi step di valutazione l'esecuzione è molto lenta. Finora gli sforzi per ridurre la complessità dei modelli si sono rivelati piuttosto inutili, ma ora con MobileDiffusion di Google si apre finalmente la possibilità di generare immagini anche sugli smartphone.

Pexels

MobileDiffusion

MobileDiffusion è composto da tre componenti principali: CLIP-ViT/L14, un piccolo text encoder da 125 mila parametri pensato per i dispositivi mobili, un'architettura U-Net e un image decoder.

L'architettura U-Net, una rete neurale convoluzionale nata per l'image segmentation nel campo biomedico, viene utilizzata in modelli di image generation per il denoising iterativo delle immagini, la fase più computazionalmente complessa del processo.

I ricercatori di Google hanno modificato l'architettura classica U-Net distribuendo i blocchi convoluzionali in diversi segmenti della rete, dividendoli in blocchi più leggeri e veloci da eseguire. Comparando la U-Net di MobileDiffusion con quelle dei modelli di diffusione più usati, il modello di Google ha dimostrato un'efficienza di molto superiore in termini di FLOPs e numero di parametri.

Il team ha inoltre ottimizzato l'image decoder affinché fosse il più leggero possibile, senza perdere la qualità dell'immagine. L'ottimizzazione ha portato a una riduzione del 50% della latenza e a una qualità visiva maggiore rispetto a Stable Diffusion.

I ricercatori hanno infine adottato un approccio DiffusionGAN ibrido per eseguire la generazione dell'immagine in un solo step, al contempo garantendo che il risultato fosse non solo visualmente realistico, ma anche semanticamente consistente con il testo di input.

Google

I risultati

Stando alle immagini condivise dal team di Google, il modello ha dimostrato grandi capacità di generare immagini di elevata qualità in diversi stili e con diversi soggetti.

MobileDiffusion è molto efficiente ed è in grado di generare un'immagine 512x512 in meno di mezzo secondo, a differenza di modelli come SnapFusion o StableDiffusion che richiedono da più di un secondo fino a quasi 8 secondi.

Al momento il modello è ancora in fase di perfezionamento, soprattutto per quanto riguarda le sfide etiche, ma ha già dimostrato di avere il potenziale per portare la generazione veloce di immagini anche sui dispositivi mobile.

Approfondimenti Google presenta MobileDiffusion per il text-to-image su mobile

Marina Londei

Tempo di lettura: 2' 27''

Pubblicato il: 05/02/2024

MobileDiffusion

I risultati

Tags

Condividi questo contenuto

Audio Overview di Google migliora l'insegnamento trasformando le lezioni in podcast

Novità Gemini: arrivano i Gem personalizzati e la nuova versione di Imagen

YouTube annuncia una feature di IA per aiutare i creator a generare idee

OpenAI sta testando SearchGPT, il suo motore di ricerca intelligente

Approfondimenti Google presenta MobileDiffusion per il text-to-image su mobile Marina Londei Tempo di lettura: 2' 27'' Pubblicato il: 05/02/2024

MobileDiffusion

I risultati

Tags

Condividi questo contenuto

Approfondimenti Google presenta MobileDiffusion per il text-to-image su mobile

Marina Londei

Tempo di lettura: 2' 27''

Pubblicato il: 05/02/2024