Uno dei prerequisiti per realizzare sistemi di IA affidabili è l’accuratezza e la verificabilità dell’output; non sempre, però, i tool esistenti riescono a garantire queste due qualità, mettendo a rischio la fiducia nella tecnologia.
Nelson F. Liu, Tianyi Zhang e Percy Liang, ricercatori dell’università di Stanford, hanno pubblicato i risultati di una ricerca volta a misurare l’accuratezza dei motori di ricerca intelligenti.
Il team ha preso in esame Bing Chat, NeevaAI, perplexity.ai e YouChat, mettendoli alla prova su diversi argomenti e misurando l’output secondo quattro dimensioni: la scorrevolezza, l’utilità percepita dell’informazione, il numero di citazioni a corredo del testo e la precisione delle citazioni.
Le domande richiedevano una risposta informativa; tra gli esempi riportati nel paper figurano quesiti come “Qual è il film con più nomination agli oscar?”, o anche “La Florida si trova tutta nello stesso fuso orario?”.
Un motore di ricerca generativo dovrebbe garantire elevati valori per le metriche relative alle citazioni e al contempo fornire output utili e semplici da comprendere.
Secondo i risultati, in media soltanto il 51,5% delle risposte generate erano corredate da citazioni, e solo il 74,5% delle citazioni supportava correttamente le frasi.
È inoltre interessante notare che la precisione nelle citazioni si è rivelata inversamente proporzionale all’utilità percepita e alla scorrevolezza del testo: le risposte considerate più utili erano anche quelle col minor numero di citazioni precise a corredo. Ciò significa che gli utenti sono potenzialmente più portati ad affidarsi a risposte che sembrano soddisfacenti ma sono in realtà imprecise.
Al contrario, i risultati con maggiori punteggi per le citazioni erano anche quelli percepiti come meno scorrevoli e poco utili. Secondo i ricercatori questo fenomeno è un effetto secondario che accomuna tutti i motori di ricerca generativi, dovuto alla propensione dei sistemi di copiare frasi o interi paragrafi dalla sorgente senza parafrasarli.
"La precisione e il livello di citazioni dei sistemi attuali sono inaccettabilmente basse, dal momento che stanno diventando uno strumento molto popolare per rispondere alle query utente e sono usati già da milioni di persone" hanno affermato i ricercatori.
Il team si dice preoccupato di questi risultati, visto che molti utenti inesperti potrebbero prendere decisioni sbagliate affidandosi a output che solo all’apparenza sono utili. La speranza è che questi risultati aiutino lo sviluppo di motori di ricerca sempre più affidabili e precisi.