Tecnologia I modelli AI non capiscono di cosa parlano
3' 17''
09/07/2025

I ricercatori scoprono che il successo dei modelli AI nei test nasconde un'illusione di comprensione reale dei concetti

I modelli AI non capiscono di cosa parlano

Nel mondo dell'intelligenza artificiale, i modelli linguistici di grandi dimensioni stanno mostrando capacità sempre più impressionanti nel superare test di valutazione complessi, ottenendo punteggi che farebbero invidia a molti studenti universitari. Tuttavia, dietro questi risultati apparentemente brillanti si nasconde un problema fondamentale che mina alla base l'affidabilità di questi sistemi: la capacità di fornire risposte corrette senza possedere una reale comprensione dei concetti sottostanti. Questo fenomeno, che potrebbe sembrare paradossale, rappresenta una delle sfide più insidiose nell'evoluzione dei sistemi di IA contemporanei.

Il villaggio di cartone dell'intelligenza artificiale

Un gruppo di ricercatori provenienti dal MIT, Harvard e dall'Università di Chicago ha coniato il termine "potemkin understanding" per descrivere questa particolare forma di fallimento dei modelli linguistici. L'espressione trae origine dai famosi villaggi di Potemkin, quelle costruzioni di facciata che il leader militare russo Grigory Potemkin fece erigere lungo il percorso dell'imperatrice Caterina II per impressionarla durante i suoi viaggi. Proprio come quei villaggi erano semplici scenografie senza sostanza, i modelli di IA mostrano una comprensione apparente che si rivela vuota quando messa alla prova.

La distinzione tra questo fenomeno e le più note "allucinazioni" dell'IA è fondamentale. Mentre le allucinazioni riguardano errori fattuali o previsioni sbagliate, la comprensione potemkin tocca un livello più profondo: l'incapacità dei modelli di comprendere veramente i concetti nel modo in cui li comprendono gli esseri umani. Come spiegano i ricercatori Marina Mancoridis, Bec Weeks, Keyon Vafa e Sendhil Mullainathan, "le comprensioni potemkin stanno alla conoscenza concettuale come le allucinazioni stanno alla conoscenza fattuale".

Quando la teoria non incontra la pratica

Un esempio emblematico di questo fenomeno emerge dall'analisi del comportamento di GPT-4o di OpenAI. Quando viene chiesto di spiegare lo schema ritmico ABAB della poesia, il modello risponde correttamente: "Uno schema ABAB alterna le rime: il primo e il terzo verso rimano, il secondo e il quarto rimano". Tuttavia, quando gli viene chiesto di completare una poesia a quattro versi seguendo proprio questo schema, il modello fallisce nel fornire una parola che rimi appropriatamente.

La comprensione apparente si rivela vuota quando messa alla prova pratica

Questo paradosso rivela come i modelli riescano a predire correttamente i token necessari per spiegare un concetto senza possedere la comprensione necessaria per applicarlo. Il problema si estende ben oltre la poesia: i ricercatori hanno scoperto che questo fenomeno è "ubiquitario" nei modelli testati, inclusi Llama-3.3, GPT-4o, Gemini-2.0, Claude 3.5, DeepSeek-V3, DeepSeek-R1 e Qwen2-VL.

La crisi dei benchmark di valutazione

Le implicazioni di questa scoperta sono particolarmente preoccupanti per l'industria dell'IA, che fa ampio affidamento sui benchmark per valutare le prestazioni dei modelli. Se questi sistemi possono ottenere risultati eccellenti nei test senza possedere una vera comprensione, allora il successo nei benchmark diventa fuorviante. Come osserva Sarah Gooding di Socket, una società di sicurezza informatica, "se i modelli linguistici possono ottenere risposte corrette senza una comprensione genuina, allora il successo nei benchmark diventa ingannevole".

I test sviluppati dai ricercatori per valutare la prevalenza di questo fenomeno si sono concentrati su tecniche letterarie, teoria dei giochi e pregiudizi psicologici. I risultati sono stati illuminanti: mentre i modelli riescono a identificare i concetti nella maggior parte dei casi (94,2% delle volte), falliscono frequentemente quando devono classificare istanze specifiche di quei concetti (55% di tasso di fallimento), generare esempi (40%) o modificare istanze esistenti (40%).

Verso una nuova comprensione dell'intelligenza artificiale

Keyon Vafa, ricercatore post-dottorato ad Harvard e co-autore dello studio, sottolinea che "l'esistenza delle comprensioni potemkin significa che comportamenti che indicherebbero comprensione negli esseri umani non la indicano nei modelli linguistici". Questa osservazione mette in discussione i metodi attuali di valutazione dell'IA e suggerisce la necessità di sviluppare nuovi approcci per testare questi sistemi o di trovare modi per eliminare questo comportamento dai modelli.

La ricerca, che sarà presentata alla conferenza internazionale ICML 2025, rappresenta un passo importante verso una comprensione più profonda dei limiti dell'intelligenza artificiale attuale. Il superamento di queste limitazioni potrebbe costituire una tappa fondamentale nel percorso verso l'intelligenza generale artificiale, anche se, come concludono ironicamente i ricercatori, potrebbe volerci ancora del tempo.

Condividi questo contenuto