Anche Nvidia è entrato nel mondo del text-to-timage con eDiff-I, il suo primo modello per la generazione di immagini a partire da un input testuale.
eDiff-I è in grado di generare immagini sia fotorealistiche che più astratte, esattamente come Stable Diffusion e Dall-E2, ma offre anche due nuove funzionalità: lo style transfer, che permette di controllare lo stile dell'output prendendo un'immagine di riferimento, e il paint with words, con la quale l'utente può definire la struttura dell'ambientazione di output disegnando uno "schema" in cui ogni segmento corrisponde a un input testuale.
Nvidia ha pubblicato i risultati di alcuni test effettuati confrontando il suo modello con gli altri due principali. Esaminando gli output dei tre modelli a partire da uno stesso input testuale si nota come eDiff-I produca immagini molto più dettagliate e fedeli alla descrizione dell'utente, oltre che di qualità elevata.
Lo style transfer si rivela uno strumento molto potente e preciso: data un'immagine da cui prendere lo stile ed estratto questo come vettore di riferimento, lo si può applicare a una qualsiasi immagine generata per modificarne profondamente l'aspetto.
Come negli altri modelli, è comunque possibile specificare uno stile di disegno già nell'input testuale, che sia realistico, in pixel art, ispirato a una corrente artistica o a un artista in particolare.
Paint with words invece permette all'utente di specificare la posizione degli oggetti nella scena, controllandone anche altezza ed estensione. L'input in questo caso non è solo testuale: per ogni soggetto rappresentato, ma anche per lo sfondo, è possibile "scarabocchiarlo" nella scena per avere un maggior controllo dell'output.
eDiff-I si è rivelato il modello più preciso tra i tre messi a confronto, discostandosi di molto dai risultati ottenuti dagli altri due. Dal modello emergono una precisione e una qualità senza eguali, almeno per il momento.