Opinioni Servono nuovi test per misurare le capacità dei modelli
1' 59''
12/04/2023

I benchmark per valutare le prestazioni dei modelli sono diventati ormai obsoleti: servono nuovi test più comprensivi e accurati.

Servono nuovi test per misurare le capacità dei modelli

Nonostante i notevoli miglioramenti degli ultimi anni, i tool di intelligenza artificiale sono ancora piuttosto imprecisi e forniscono risposte sbagliate. Per molti utenti è difficile interagire con i chatbot proprio a causa di queste mancanze; eppure, secondo i benchmark in uso, i nuovi modelli sono pressoché perfetti.

Vanessa Parli, direttrice associata dei programmi di ricerca presso lo Stanford Institute for Human-Centered Ai e membro del comitato direttivo dell’AI index, ha espresso la necessità di sviluppare nuovi test che possano misurare le performance degli ultimi modelli.

I sistemi di valutazione servono a definire un obiettivo e concentrare gli sforzi per raggiungerlo. Ad esempio, i sistemi per la classificazione di immagini hanno come obiettivo quello di identificare correttamente quante più immagini possibili. Oggi, però, la questione non è più così semplice: un modello non deve essere solo accurato, ma anche equo e imparziale.

Pixabay
intelligenza artificiale

“Se i benchmark devono aiutarci a raggiungere un certo scopo, qual è questo scopo?” si chiede Parli. I test esistenti non sono più in grado di classificare le vere capacità dei tool di intelligenza artificiale: i modelli oggi eseguono diversi tipi di task e non più di una sola attività specifica.

Secondo la ricerca di Parli e del suo team, i benchmark attuali sono arrivati a un punto di saturazione per cui i modelli non possono essere più migliorati. Lo dimostra un esempio riportato dalla ricercatrice: secondo i test effettuati finora, il miglior sistema di classificazione di immagini è migliorato solo dello 0.1% in termini di accuratezza rispetto al 2021.

Il risultato indica che il modello non può più essere perfezionato; si tratta di una conclusione tutt’altro che veritiera, dal momento che i tool di intelligenza artificiale sono ancora piuttosto imprecisi. 

Pixabay
intelligenza artificiale

I vecchi test valutano soltanto l’accuratezza del modello nel dare il risultato atteso, e non prendono in considerazione fattori fondamentali come l’efficienza della computazione, la robustezza e l’imparzialità dell'output. I benchmark in uso sono prettamente quantitativi e non valutano fattori sociali che potrebbero influenzare in maniera negativa i risultati.

Poiché, come sottolinea Parli, sono i benchmark a guidare il progresso dell’intelligenza artificiale, è necessario capire come desideriamo interagire coi tool e quali sono i reali obiettivi che vogliamo raggiungere per sviluppare test sempre più comprensivi.

Potrebbe interessarti anche

Approfondimenti

Gli agenti di IA supporteranno la crescita delle PMI

Gli agenti di IA hanno il potenziale di rivoluzionare il business delle PMI aiutandole a emergere sul mercato, aumentand...

Approfondimenti

I sei trend di IA che rivoluzioneranno il marketing

Bernard Marr di Forbes individua sei trend di intelligenza artificiale che guideranno lo sviluppo del marketing nel 2025...

Approfondimenti

L'IA trasforma la diagnostica per immagini e i percorsi di cura

Il dibattito "Evoluzione tecnologica e Intelligenza Artificiale in Diagnostica per Immagini. Stato dell’arte e prospetti...

Approfondimenti

Il 55% delle aziende farmaceutiche usa l'IA per progettare prodotti e servizi

Secondo il report "AI: radiografia di una rivoluzione in corso" condotto da Ascendant di Minsait, le aziende farmaceutic...