Opinioni Servono nuovi test per misurare le capacità dei modelli
2' 0''
12/04/2023

I benchmark per valutare le prestazioni dei modelli sono diventati ormai obsoleti: servono nuovi test più comprensivi e accurati.

Servono nuovi test per misurare le capacità dei modelli

Nonostante i notevoli miglioramenti degli ultimi anni, i tool di intelligenza artificiale sono ancora piuttosto imprecisi e forniscono risposte sbagliate. Per molti utenti è difficile interagire con i chatbot proprio a causa di queste mancanze; eppure, secondo i benchmark in uso, i nuovi modelli sono pressoché perfetti.

Vanessa Parli, direttrice associata dei programmi di ricerca presso lo Stanford Institute for Human-Centered Ai e membro del comitato direttivo dell’AI index, ha espresso la necessità di sviluppare nuovi test che possano misurare le performance degli ultimi modelli.

I sistemi di valutazione servono a definire un obiettivo e concentrare gli sforzi per raggiungerlo. Ad esempio, i sistemi per la classificazione di immagini hanno come obiettivo quello di identificare correttamente quante più immagini possibili. Oggi, però, la questione non è più così semplice: un modello non deve essere solo accurato, ma anche equo e imparziale.

Pixabay
intelligenza artificiale

“Se i benchmark devono aiutarci a raggiungere un certo scopo, qual è questo scopo?” si chiede Parli. I test esistenti non sono più in grado di classificare le vere capacità dei tool di intelligenza artificiale: i modelli oggi eseguono diversi tipi di task e non più di una sola attività specifica.

Secondo la ricerca di Parli e del suo team, i benchmark attuali sono arrivati a un punto di saturazione per cui i modelli non possono essere più migliorati. Lo dimostra un esempio riportato dalla ricercatrice: secondo i test effettuati finora, il miglior sistema di classificazione di immagini è migliorato solo dello 0.1% in termini di accuratezza rispetto al 2021.

Il risultato indica che il modello non può più essere perfezionato; si tratta di una conclusione tutt’altro che veritiera, dal momento che i tool di intelligenza artificiale sono ancora piuttosto imprecisi. 

Pixabay
intelligenza artificiale

I vecchi test valutano soltanto l’accuratezza del modello nel dare il risultato atteso, e non prendono in considerazione fattori fondamentali come l’efficienza della computazione, la robustezza e l’imparzialità dell'output. I benchmark in uso sono prettamente quantitativi e non valutano fattori sociali che potrebbero influenzare in maniera negativa i risultati.

Poiché, come sottolinea Parli, sono i benchmark a guidare il progresso dell’intelligenza artificiale, è necessario capire come desideriamo interagire coi tool e quali sono i reali obiettivi che vogliamo raggiungere per sviluppare test sempre più comprensivi.

Potrebbe interessarti anche

Tecnologia

A.I. Verify: Creare fiducia nell'intelligenza artificiale

Singapore sta sperimentando un framework e un toolkit di test per aiutare le industrie a essere più trasparenti sulla loro implementazione dell'IA.

Scenario

Il ruolo del Chief Data Officer: tendenze e sfide

L’undicesimo Big Data and AI Executive Survey rivela l'aumento dell'adozione del ruolo CDO/CDAO e le sfide nella modernizzazione e gestione dei dati.

Scenario

Una nuova era di creatività o una minaccia per la società?

L'IA generativa promette di espandere la creatività umana, ma solleva preoccupazioni per l'impatto sulla società e sull'economia.

News

SiteGround: IA al servizio della sicurezza dei siti Web

Il provider di hosting ha implementato un sistema basato sull’'IA per bloccare il 95% delle query dannose e migliorare la sicurezza dei siti web ospitati.