Nonostante i notevoli miglioramenti degli ultimi anni, i tool di intelligenza artificiale sono ancora piuttosto imprecisi e forniscono risposte sbagliate. Per molti utenti è difficile interagire con i chatbot proprio a causa di queste mancanze; eppure, secondo i benchmark in uso, i nuovi modelli sono pressoché perfetti.
Vanessa Parli, direttrice associata dei programmi di ricerca presso lo Stanford Institute for Human-Centered Ai e membro del comitato direttivo dell’AI index, ha espresso la necessità di sviluppare nuovi test che possano misurare le performance degli ultimi modelli.
I sistemi di valutazione servono a definire un obiettivo e concentrare gli sforzi per raggiungerlo. Ad esempio, i sistemi per la classificazione di immagini hanno come obiettivo quello di identificare correttamente quante più immagini possibili. Oggi, però, la questione non è più così semplice: un modello non deve essere solo accurato, ma anche equo e imparziale.
“Se i benchmark devono aiutarci a raggiungere un certo scopo, qual è questo scopo?” si chiede Parli. I test esistenti non sono più in grado di classificare le vere capacità dei tool di intelligenza artificiale: i modelli oggi eseguono diversi tipi di task e non più di una sola attività specifica.
Secondo la ricerca di Parli e del suo team, i benchmark attuali sono arrivati a un punto di saturazione per cui i modelli non possono essere più migliorati. Lo dimostra un esempio riportato dalla ricercatrice: secondo i test effettuati finora, il miglior sistema di classificazione di immagini è migliorato solo dello 0.1% in termini di accuratezza rispetto al 2021.
Il risultato indica che il modello non può più essere perfezionato; si tratta di una conclusione tutt’altro che veritiera, dal momento che i tool di intelligenza artificiale sono ancora piuttosto imprecisi.
I vecchi test valutano soltanto l’accuratezza del modello nel dare il risultato atteso, e non prendono in considerazione fattori fondamentali come l’efficienza della computazione, la robustezza e l’imparzialità dell'output. I benchmark in uso sono prettamente quantitativi e non valutano fattori sociali che potrebbero influenzare in maniera negativa i risultati.
Poiché, come sottolinea Parli, sono i benchmark a guidare il progresso dell’intelligenza artificiale, è necessario capire come desideriamo interagire coi tool e quali sono i reali obiettivi che vogliamo raggiungere per sviluppare test sempre più comprensivi.