News Arriva Lumiere, il nuovo modello text-to-video di Google
1' 42''
25/01/2024

Google ha presentato Lumiere, un nuovo modello text-to-video e image-to-video in grado di generare brevi video realistici.

Arriva Lumiere, il nuovo modello text-to-video di Google

Google ha presentato Lumiere, il suo modello di diffusione text-to-video e image-to-video in grado di generare brevi filmati realistici. 

L'azienda lo ha definito come un "cambiamento rivoluzionario nella sintesi video" grazie all'uso di Space-Time U-Net, un'architettura che genera l'intero video in una sola volta, gestendo le informazioni spaziali e temporali in un unico flusso, senza generare e unire i singoli frame.

"Questo [approccio] è in contrasto con i modelli esistenti che sintetizzano fotogrammi chiave distanti nel tempo seguiti da una super-risoluzione temporale -  un approccio che rende intrinsecamente difficile ottenere una coerenza temporale globale" spiega la compagnia. 

Lumiere è in grado di generare video di 5 secondi a partire da un input testuale e di animare un'immagine generata a partire da un prompt.

Il modello può anche creare dei video in uno specifico stile: fornendogli un'immagine di riferimento, gli utenti possono specificare dei prompt testuali per generare video nello stesso stile della foto di input. 

Le capacità di Lumiere non finiscono qua: col nuovo modello di Google è possibile modificare lo stile di un video esistente e animare solo una regione specifica di una data immagine; infine, Lumiere può anche generare le parti mancanti di un video o rimuovere piccoli difetti.

A giudicare dalle demo condivise sulla pagina Github del modello, Lumiere appare molto promettente. Non è chiaro se e quando Google lo rilascerà pubblicamente; fino a quel momento sarà difficile dare un giudizio oggettivo sulla qualità dei video generati.

Nel paper tecnico il team di sviluppo specifica che Lumiere non è pensato per generare video con transizioni tra scene o con diversi angoli di ripresa, e che si tratta di un eventuale sviluppo futuro non ancora in cantiere.

Il team riconosce anche l'esistenza di rischi legati all'uso improprio di questo tipo di modelli, in particolare per la creazione di video falsi e dannosi per individui e gruppi di persone. "Crediamo che sia fondamentale sviluppare e usare strumenti per individuare imperfezioni e casi d'uso malevoli al fine di garantire un uso equo e sicuro".

Potrebbe interessarti anche

Approfondimenti

Audio Overview di Google migliora l'insegnamento trasformando le lezioni in podcast

Google ha presentato Audio Overview, una feature di IA in grado di trasformare i contenuti di documenti e appunti in dis...

News

Novità Gemini: arrivano i Gem personalizzati e la nuova versione di Imagen

Google ha annunciato l'arrivo di Gem, assistenti di produttività di Gemini, e l'integrazione nel motore del modello di g...

News

YouTube annuncia una feature di IA per aiutare i creator a generare idee

YouTube ha annunciato l'arrivo di una feature di IA che aiuterà i creator della piattaforma a generare nuove idee per il...

News

OpenAI sta testando SearchGPT, il suo motore di ricerca intelligente

OpenAI ha annunciato SearchGPT, un motore di ricerca che usa l'intelligenza artificiale per offrire agli utenti risultat...