Dopo Make-A-Video di Meta, Google ha presentato la propria intelligenza artificiale in grado di creare video in HD a partire da descrizioni testuali.
Il sistema si chiama Imagen Video ed è in grado di produrre video con una risoluzione di 1280x758 pixel a 24 fps. Attualmente l'IA è ancora in sviluppo, ma i video pubblicati da Google mostrano già dei risultati eccellenti.
Il team di sviluppatori ha spiegato che il modello è in grado di generare video nello stile di artisti famosi, come Van Gogh o Monet. Imagen Video ha la capacità comprendere la struttura 3D dei soggetti e oggetti rappresentati, così da muoverli e ruotarli preservandone la struttura durante il video.
Il modello può anche generare video in diversi stili d'animazione, dai più ai meno realistici. Anche i contenuti variano molto: negli esempi presentati ci sono scene più realistiche e altre più fantasiose, come "una barchetta di legno che naviga nello spazio".
L'addestramento del modello è avvenuto usando un dataset di composto da 14 milioni di coppie video-testo e 60 milioni di coppie immagine-testo.
Il modello si basa su sette modelli di diffusione applicati in cascata: all'inizio l'input testuale viene trasformato in un video a bassa risoluzione di 3fps; in seguito, tramite miglioramenti progressivi, si arriva a un video a più alta risoluzione con frame sempre più dettagliati.
Google ha sottolineato che, nonostante Imagen Video possa essere utile in diversi ambiti e aumentare la creatività umana, potrebbe anche essere usato per generare video fake e contenuti dannosi.
Nei diversi test del modello il team ha applicato dei filtri per i testi di input e i video di output, ma rimangono comunque numerosi problemi etici di cui occuparsi.