Servono nuovi test per misurare le capacità dei modelli

Nonostante i notevoli miglioramenti degli ultimi anni, i tool di intelligenza artificiale sono ancora piuttosto imprecisi e forniscono risposte sbagliate. Per molti utenti è difficile interagire con i chatbot proprio a causa di queste mancanze; eppure, secondo i benchmark in uso, i nuovi modelli sono pressoché perfetti.

Vanessa Parli, direttrice associata dei programmi di ricerca presso lo Stanford Institute for Human-Centered Ai e membro del comitato direttivo dell’AI index, ha espresso la necessità di sviluppare nuovi test che possano misurare le performance degli ultimi modelli.

I sistemi di valutazione servono a definire un obiettivo e concentrare gli sforzi per raggiungerlo. Ad esempio, i sistemi per la classificazione di immagini hanno come obiettivo quello di identificare correttamente quante più immagini possibili. Oggi, però, la questione non è più così semplice: un modello non deve essere solo accurato, ma anche equo e imparziale.

Pixabay

“Se i benchmark devono aiutarci a raggiungere un certo scopo, qual è questo scopo?” si chiede Parli. I test esistenti non sono più in grado di classificare le vere capacità dei tool di intelligenza artificiale: i modelli oggi eseguono diversi tipi di task e non più di una sola attività specifica.

Secondo la ricerca di Parli e del suo team, i benchmark attuali sono arrivati a un punto di saturazione per cui i modelli non possono essere più migliorati. Lo dimostra un esempio riportato dalla ricercatrice: secondo i test effettuati finora, il miglior sistema di classificazione di immagini è migliorato solo dello 0.1% in termini di accuratezza rispetto al 2021.

Il risultato indica che il modello non può più essere perfezionato; si tratta di una conclusione tutt’altro che veritiera, dal momento che i tool di intelligenza artificiale sono ancora piuttosto imprecisi.

Pixabay

I vecchi test valutano soltanto l’accuratezza del modello nel dare il risultato atteso, e non prendono in considerazione fattori fondamentali come l’efficienza della computazione, la robustezza e l’imparzialità dell'output. I benchmark in uso sono prettamente quantitativi e non valutano fattori sociali che potrebbero influenzare in maniera negativa i risultati.

Poiché, come sottolinea Parli, sono i benchmark a guidare il progresso dell’intelligenza artificiale, è necessario capire come desideriamo interagire coi tool e quali sono i reali obiettivi che vogliamo raggiungere per sviluppare test sempre più comprensivi.

Opinioni Servono nuovi test per misurare le capacità dei modelli

Marina Londei

Tempo di lettura: 1' 59''

Pubblicato il: 12/04/2023

Tags

Condividi questo contenuto

A.I. Verify: Creare fiducia nell'intelligenza artificiale

Il ruolo del Chief Data Officer: tendenze e sfide

Una nuova era di creatività o una minaccia per la società?

SiteGround: IA al servizio della sicurezza dei siti Web

Opinioni Servono nuovi test per misurare le capacità dei modelli Marina Londei Tempo di lettura: 1' 59'' Pubblicato il: 12/04/2023

Tags

Condividi questo contenuto

Opinioni Servono nuovi test per misurare le capacità dei modelli

Marina Londei

Tempo di lettura: 1' 59''

Pubblicato il: 12/04/2023