Google ha presentato Lumiere, il suo modello di diffusione text-to-video e image-to-video in grado di generare brevi filmati realistici.
L'azienda lo ha definito come un "cambiamento rivoluzionario nella sintesi video" grazie all'uso di Space-Time U-Net, un'architettura che genera l'intero video in una sola volta, gestendo le informazioni spaziali e temporali in un unico flusso, senza generare e unire i singoli frame.
"Questo [approccio] è in contrasto con i modelli esistenti che sintetizzano fotogrammi chiave distanti nel tempo seguiti da una super-risoluzione temporale - un approccio che rende intrinsecamente difficile ottenere una coerenza temporale globale" spiega la compagnia.
Lumiere è in grado di generare video di 5 secondi a partire da un input testuale e di animare un'immagine generata a partire da un prompt.
Il modello può anche creare dei video in uno specifico stile: fornendogli un'immagine di riferimento, gli utenti possono specificare dei prompt testuali per generare video nello stesso stile della foto di input.
Le capacità di Lumiere non finiscono qua: col nuovo modello di Google è possibile modificare lo stile di un video esistente e animare solo una regione specifica di una data immagine; infine, Lumiere può anche generare le parti mancanti di un video o rimuovere piccoli difetti.
A giudicare dalle demo condivise sulla pagina Github del modello, Lumiere appare molto promettente. Non è chiaro se e quando Google lo rilascerà pubblicamente; fino a quel momento sarà difficile dare un giudizio oggettivo sulla qualità dei video generati.
Nel paper tecnico il team di sviluppo specifica che Lumiere non è pensato per generare video con transizioni tra scene o con diversi angoli di ripresa, e che si tratta di un eventuale sviluppo futuro non ancora in cantiere.
Il team riconosce anche l'esistenza di rischi legati all'uso improprio di questo tipo di modelli, in particolare per la creazione di video falsi e dannosi per individui e gruppi di persone. "Crediamo che sia fondamentale sviluppare e usare strumenti per individuare imperfezioni e casi d'uso malevoli al fine di garantire un uso equo e sicuro".