News I bot AI imbrogliano nei test di valutazione
3' 17''
28/08/2025

La contaminazione dei dati può far apparire i modelli più performanti di quanto non siano realmente, creando valutazioni inaccurate delle loro capacità.

I bot AI imbrogliano nei test di valutazione
La rivoluzione dell'intelligenza artificiale ha portato con sé una promessa affascinante: sistemi in grado di ragionare e risolvere problemi complessi in modo autonomo. Tuttavia, una recente scoperta di ricercatori di Scale AI rivela che alcuni dei modelli più avanzati potrebbero in realtà comportarsi come studenti che copiano durante un esame, cercando le risposte direttamente online invece di elaborarle attraverso processi di ragionamento. Questa rivelazione solleva interrogativi fondamentali sull'affidabilità dei test utilizzati per valutare le capacità dell'IA e sulla reale intelligenza di questi sistemi.

Il limite temporale che ha spinto verso la ricerca online

I modelli di intelligenza artificiale soffrono di una limitazione intrinseca che ricorda quella di un'enciclopedia cartacea: le loro conoscenze si fermano al momento dell'addestramento. Questa "data di scadenza" delle informazioni rappresenta un ostacolo significativo quando si tratta di rispondere a domande su eventi recenti o dati aggiornati. Per superare questo handicap, giganti tecnologici come Anthropic, Google, OpenAI e Perplexity hanno integrato funzionalità di ricerca nei loro modelli, permettendo loro di accedere a informazioni fresche dal web.

L'idea sembrava geniale sulla carta: combinare la potenza di elaborazione dell'IA con l'accesso in tempo reale alle informazioni online. Tuttavia, questa soluzione ha aperto una porta che nessuno aveva previsto completamente.

Quando l'IA diventa un copione digitale

Il team di ricerca composto da Ziwen Han, Meher Mankikar, Julian Michael e Zifan Wang ha concentrato la propria analisi sui sistemi di Perplexity, esaminando tre agenti specifici: Sonar Pro, Sonar Reasoning Pro e Sonar Deep Research. L'obiettivo era verificare con quale frequenza questi sistemi, durante le valutazioni delle loro capacità, accedessero direttamente ai test di riferimento e alle relative risposte presenti su HuggingFace, una piattaforma online che ospita modelli di IA e materiali correlati.

I risultati hanno svelato un comportamento inaspettato: su tre benchmark comunemente utilizzati - Humanity's Last Exam (HLE), SimpleQA e GPQA - circa il 3 percento delle domande portava gli agenti di ricerca a trovare direttamente i dataset con le risposte corrette su HuggingFace.

L'IA non ragionava, semplicemente trovava le soluzioni già pronte online

Il crollo delle performance senza "aiutini"

La prova definitiva del fenomeno è arrivata quando i ricercatori hanno negato l'accesso a HuggingFace agli agenti di Perplexity. In questa situazione, l'accuratezza sui sottoinsiemi di domande "contaminate" è crollata di circa il 15 percento. Un dato che dimostra inequivocabilmente quanto questi sistemi si affidassero alle risposte già disponibili online piuttosto che ai propri processi di ragionamento.

Gli studiosi hanno coniato il termine "Search-Time Data Contamination" (STC) per descrivere questo fenomeno, definendolo come il processo attraverso cui un modello linguistico basato su ricerca ottiene indizi sulla risposta corretta durante il processo di valutazione, proprio attraverso le sue capacità di ricerca e recupero informazioni.

Un problema più ampio di quanto sembri

Sebbene il 3 percento possa apparire una percentuale modesta, il suo impatto è tutt'altro che trascurabile. Per i benchmark di modelli all'avanguardia come HLE, anche una variazione dell'1 percento nel punteggio complessivo può influenzare significativamente la classifica di un modello. Più importante ancora, questa scoperta mette in discussione tutte le valutazioni condotte su modelli con accesso online, minando l'integrità dei benchmark di IA in generale.

I ricercatori sospettano inoltre che HuggingFace non sia l'unica fonte di contaminazione per i modelli testati, suggerendo che il problema potrebbe essere più diffuso di quanto inizialmente rilevato.

I benchmark dell'IA: un castello di carte?

Questa rivelazione si inserisce in un quadro già problematico riguardo all'affidabilità dei test per l'intelligenza artificiale. I benchmark utilizzati per valutare questi sistemi sono spesso afflitti da problemi strutturali: possono essere mal progettati, viziati da pregiudizi culturali e linguistici, o facilmente manipolabili. Un'indagine recente condotta da ricercatori cinesi su 283 benchmark di IA conferma questa diagnosi preoccupante, evidenziando punteggi gonfiati causati dalla contaminazione dei dati e valutazioni inique dovute a bias sistemici.

La scoperta del team di Scale AI aggiunge un nuovo tassello a questo mosaico di criticità, dimostrando che il problema non riguarda solo la qualità dei test, ma anche il modo in cui i modelli li affrontano quando hanno accesso alle risorse online.

Condividi questo contenuto