Opinioni Servono nuovi test per misurare le capacità dei modelli
Marina Londei
1' 59''
12/04/2023

I benchmark per valutare le prestazioni dei modelli sono diventati ormai obsoleti: servono nuovi test più comprensivi e accurati.

Servono nuovi test per misurare le capacità dei modelli

Nonostante i notevoli miglioramenti degli ultimi anni, i tool di intelligenza artificiale sono ancora piuttosto imprecisi e forniscono risposte sbagliate. Per molti utenti è difficile interagire con i chatbot proprio a causa di queste mancanze; eppure, secondo i benchmark in uso, i nuovi modelli sono pressoché perfetti.

Vanessa Parli, direttrice associata dei programmi di ricerca presso lo Stanford Institute for Human-Centered Ai e membro del comitato direttivo dell’AI index, ha espresso la necessità di sviluppare nuovi test che possano misurare le performance degli ultimi modelli.

I sistemi di valutazione servono a definire un obiettivo e concentrare gli sforzi per raggiungerlo. Ad esempio, i sistemi per la classificazione di immagini hanno come obiettivo quello di identificare correttamente quante più immagini possibili. Oggi, però, la questione non è più così semplice: un modello non deve essere solo accurato, ma anche equo e imparziale.

Pixabay
intelligenza artificiale

“Se i benchmark devono aiutarci a raggiungere un certo scopo, qual è questo scopo?” si chiede Parli. I test esistenti non sono più in grado di classificare le vere capacità dei tool di intelligenza artificiale: i modelli oggi eseguono diversi tipi di task e non più di una sola attività specifica.

Secondo la ricerca di Parli e del suo team, i benchmark attuali sono arrivati a un punto di saturazione per cui i modelli non possono essere più migliorati. Lo dimostra un esempio riportato dalla ricercatrice: secondo i test effettuati finora, il miglior sistema di classificazione di immagini è migliorato solo dello 0.1% in termini di accuratezza rispetto al 2021.

Il risultato indica che il modello non può più essere perfezionato; si tratta di una conclusione tutt’altro che veritiera, dal momento che i tool di intelligenza artificiale sono ancora piuttosto imprecisi. 

Pixabay
intelligenza artificiale

I vecchi test valutano soltanto l’accuratezza del modello nel dare il risultato atteso, e non prendono in considerazione fattori fondamentali come l’efficienza della computazione, la robustezza e l’imparzialità dell'output. I benchmark in uso sono prettamente quantitativi e non valutano fattori sociali che potrebbero influenzare in maniera negativa i risultati.

Poiché, come sottolinea Parli, sono i benchmark a guidare il progresso dell’intelligenza artificiale, è necessario capire come desideriamo interagire coi tool e quali sono i reali obiettivi che vogliamo raggiungere per sviluppare test sempre più comprensivi.

Potrebbe interessarti anche

Approfondimenti

E-commerce: la rivoluzione alle porte

Lo sviluppo e l'integrazione di molte nuove tecnologie sta preparando la strada a cambiamenti epocali nel settore del co...

Tecnologia

Glaze protegge lo stile degli artisti dall’assimilazione

Un software sviluppato nell’Università di Chicago promette di impedire l’analisi dello stile di un artista da parte dei...

Tecnologia

Un software può verificare cosa sappia realmente un’IA

L’università del Surrey ha sviluppato un software capace di analizzare e verificare le conoscenze dei sistemi di intelli...

Opinioni

Le sei grandi sfide nello sviluppo dell’IA

Una ricerca che ha coinvolto 26 ricercatori ha delineato le sei sfide principali che dovranno essere affrontate nello sv...