News La computer vision di Microsoft identificherà le immagini di Reddit
Dario Orlandi
1' 36''
10/03/2023

Microsoft ha annunciato diverse novità nelle API Vision di Azure, adottate da Reddit per automatizzare la generazione di descrizioni alternative.

La computer vision di Microsoft identificherà le immagini di Reddit

Microsoft ha annunciato l'aggiornamento delle API Vision dei servizi cognitivi di Azure, che includono il sistema di intelligenza artificiale Florence, presentato due anni fa come un “ripensamento completo” dei moderni modelli di visione artificiale.

Florence è un modello unificato e multimodale in grado di comprendere il linguaggio e le immagini, gestendo una serie di compiti invece di essere limitato ad applicazioni specifiche, come la generazione di didascalie.

La ricerca sull'intelligenza artificiale si sta concentrando sui modelli multimodali, come Florence. Questi modelli sono in grado di comprendere più modalità, come linguaggio e immagini, e sono più efficienti e precisi rispetto ai modelli unimodali.

I modelli multimodali sono in grado di eseguire compiti complessi in un'unica azione, fornendo informazioni contestuali che migliorano la qualità dei risultati.

Applicazioni pratiche

Microsoft ha annunciato che Reddit utilizzerà le nuove API basate su Florence per generare didascalie per le immagini sulla sua piattaforma, al fine di creare "testo alternativo" per gli utenti con problemi di visione.

Florence è in grado di generare fino a 10.000 tag per immagine, consentendo a Reddit di avere maggior controllo sull'identificazione degli oggetti in un'immagine e di migliorare la generazione di didascalie.

Microsoft
Microsoft Florence

Microsoft utilizzerà Florence per diversi servizi, tra cui LinkedIn, Microsoft Teams, PowerPoint, Outlook, Word, Designer e OneDrive. Florence supporta la generazione dei testi alternativi per le immagini, la segmentazione video, il tagging delle immagini e la ricerca visuale.

John Montgomery, CVP of Azure AI, ha dichiarato: "Florence ripensa completamente i modelli di visione. Una volta che si può instaurare una corrispondenza facile e di alta qualità tra immagini e testo, si apre un mondo di possibilità”.

“I clienti saranno in grado di sperimentare una ricerca di immagini significativamente migliorata, di addestrare modelli di immagini e visione e altri tipi di modelli come il linguaggio e il parlato per tipologie completamente nuove di applicazioni”, ha concluso Montgomery.

Potrebbe interessarti anche

Approfondimenti

L'IA di Microsoft protegge il Prosecco dalla contraffazione

Microsoft Italia e Istituto Poligrafico e Zecca dello Stato hanno stretto un accordo per usare la tecnologia al fine di...

News

TRAIN si espande per aiutare il settore sanitario europeo a rendere operativa l'IA responsabile

TRAIN, tra i principali network di IA sanitaria, ha annunciato la sua espansione in Europa per aiutare le organizzazioni...

News

Microsoft annuncia Copilot+ PC, i PC progettati per l'IA

Microsoft ha presentato i Copilot+PC, i nuovi computer che sfruttano l'intelligenza artificiale per rivoluzionare le esp...

News

Microsoft presenta Virtual Career Fair, la piattaforma per l'incontro di domanda e offerta lavorativa

Microsoft ha annunciato Virtual Career Fair, un hub digitale dove professionisti e aziende si incontrano per creare nuov...