Il modello GPT-Image-1 porta le stesse capacità di generazione di immagini di ChatGPT nelle mani degli sviluppatori, consentendo loro di integrare questa tecnologia nelle proprie applicazioni. Questa mossa segue il grande successo ottenuto dalla funzionalità di creazione di immagini all'interno di ChatGPT, che ha visto 130 milioni di utenti generare oltre 700 milioni di immagini in una sola settimana.
GPT-Image-1 si distingue dai precedenti modelli come DALL·E 2 e DALL·E 3 per essere un modello di linguaggio nativo multimodale, in grado di supportare sia la generazione che la modifica di immagini, oltre alla generazione di testo. Gli sviluppatori possono personalizzare l'output specificando parametri come qualità, dimensioni, formato del file e presenza di sfondo trasparente.
Caratteristiche principali di GPT-Image-1
Il modello supporta risoluzioni con una larghezza o altezza minima di 1024 pixel, inclusi i formati 1024x1024, 1024x1536 e 1536x1024. L'API offre due endpoint principali:
- Generations: per generare immagini da zero in base a un prompt testuale
- Edits: per modificare immagini esistenti utilizzando un nuovo prompt
L'accesso all'API richiede la verifica dell'organizzazione sulla piattaforma per sviluppatori di OpenAI. Una volta verificati, gli sviluppatori possono iniziare a sperimentare con il modello utilizzando semplici chiamate API.
Integrazione e adozione
Diverse aziende hanno già iniziato a integrare GPT-Image-1 nelle loro piattaforme. Adobe, Canva, Figma, GoDaddy e Airtable stanno sperimentando con il modello. HeyGen, ad esempio, sta utilizzando le capacità di editing per migliorare la creazione di scene e lo storytelling visivo.
Il pricing del modello è basato sul numero di token utilizzati, con costi differenziati per input di testo, input di immagini e output di immagini. In termini pratici, il costo per generare un'immagine quadrata varia da circa $0.02 per bassa qualità a $0.19 per alta qualità.
Impatto e prospettive future
Il rilascio di GPT-Image-1 rappresenta un importante passo avanti nel rendere accessibili agli sviluppatori tecnologie avanzate di generazione di immagini. Ci si aspetta che nei prossimi mesi un numero crescente di piattaforme e applicazioni integreranno questa funzionalità, aprendo nuove possibilità creative e pratiche in diversi settori.
La combinazione di generazione e modifica di immagini in un unico modello multimodale offre flessibilità e potenzialità uniche rispetto ad approcci precedenti. Tuttavia, alcuni sviluppatori hanno notato che l'API presenta alcune restrizioni rispetto alla versione disponibile su ChatGPT, un aspetto su cui OpenAI potrebbe lavorare in futuro.
Con il crescente interesse per l'intelligenza artificiale generativa, GPT-Image-1 si pone come uno strumento chiave per gli sviluppatori che desiderano integrare capacità avanzate di elaborazione visiva nelle proprie applicazioni, promettendo di stimolare ulteriormente l'innovazione in questo campo in rapida evoluzione.