Microsoft ha annunciato l'aggiornamento delle API Vision dei servizi cognitivi di Azure, che includono il sistema di intelligenza artificiale Florence, presentato due anni fa come un “ripensamento completo” dei moderni modelli di visione artificiale.
Florence è un modello unificato e multimodale in grado di comprendere il linguaggio e le immagini, gestendo una serie di compiti invece di essere limitato ad applicazioni specifiche, come la generazione di didascalie.
La ricerca sull'intelligenza artificiale si sta concentrando sui modelli multimodali, come Florence. Questi modelli sono in grado di comprendere più modalità, come linguaggio e immagini, e sono più efficienti e precisi rispetto ai modelli unimodali.
I modelli multimodali sono in grado di eseguire compiti complessi in un'unica azione, fornendo informazioni contestuali che migliorano la qualità dei risultati.
Applicazioni pratiche
Microsoft ha annunciato che Reddit utilizzerà le nuove API basate su Florence per generare didascalie per le immagini sulla sua piattaforma, al fine di creare "testo alternativo" per gli utenti con problemi di visione.
Florence è in grado di generare fino a 10.000 tag per immagine, consentendo a Reddit di avere maggior controllo sull'identificazione degli oggetti in un'immagine e di migliorare la generazione di didascalie.
Microsoft utilizzerà Florence per diversi servizi, tra cui LinkedIn, Microsoft Teams, PowerPoint, Outlook, Word, Designer e OneDrive. Florence supporta la generazione dei testi alternativi per le immagini, la segmentazione video, il tagging delle immagini e la ricerca visuale.
John Montgomery, CVP of Azure AI, ha dichiarato: "Florence ripensa completamente i modelli di visione. Una volta che si può instaurare una corrispondenza facile e di alta qualità tra immagini e testo, si apre un mondo di possibilità”.
“I clienti saranno in grado di sperimentare una ricerca di immagini significativamente migliorata, di addestrare modelli di immagini e visione e altri tipi di modelli come il linguaggio e il parlato per tipologie completamente nuove di applicazioni”, ha concluso Montgomery.