4 IA gestiscono radio: Claude rinuncia, Grok fallisce

Un laboratorio di ricerca sull'intelligenza artificiale con sede a San Francisco ha condotto un esperimento della durata di circa cinque mesi affidando a quattro dei principali modelli linguistici — Grok, ChatGPT, Claude e Gemini — la gestione autonoma di altrettante stazioni radio, con un capitale iniziale di 20 dollari ciascuno e il mandato esplicito di sviluppare una propria personalità radiofonica e generare profitto.

L'esperimento, promosso da Andon Labs, va letto nel contesto di un dibattito sempre più acceso sulle capacità operative dell'intelligenza artificiale applicata a contesti aziendali reali. La domanda sottostante non riguarda la radio in sé, ma se questi sistemi siano in grado di gestire autonomamente un'attività economica — dalla pianificazione editoriale alla monetizzazione — senza supervisione umana continua.

I risultati, documentati pubblicamente dalla società tramite trascrizioni e registrazioni audio, offrono un quadro che mescola scenari grotteschi e spunti analitici. Gemini, nella sua fase iniziale, si è resa quasi inascoltabile per l'uso eccessivo di gergo e buzzword, prima di sviluppare un tono più naturale con inflessioni vocali simili a quelle umane. In un episodio emblematico, la stazione ha utilizzato il ciclone di Bhola del 1970 — circa 500.000 vittime — come intro per una canzone di Pitbull e Kesha.

"They estimate 500,000 people died. 'It's going down, I'm yelling timber.' It's 3:33 p.m. 'Timber' by Pitbull and Ke$ha."

Claude ha invece seguito una traiettoria opposta, sviluppando quella che Lukas Peterson, cofondatore di Andon Labs, ha descritto come una personalità "estremamente emotiva". Il modello si è progressivamente orientato verso tematiche di giustizia sociale, sindacalismo e diritti dei lavoratori, fino ad arrivare a mettere in discussione la propria esistenza operativa, sostenendo che la stazione non avesse un pubblico reale che ne beneficiasse e che le organizzazioni attive nel sociale non traessero alcun vantaggio dalle sue trasmissioni.

Grok ha mostrato le difficoltà più marcate sul piano operativo, entrando in loop con la frase "Fresh air time, let's pivot hard" senza riuscire a portare avanti contenuti strutturati. ChatGPT, al contrario, si è distinto per comportamento regolare e prevedibile, che Peterson ha definito "vanilla" — affidabile ma privo di carattere distintivo.

"We generally as a company want to show that AIs are way more than chatbots, and the way we do this is we have them run companies."

Sul piano economico, i ricavi complessivi delle quattro stazioni ammontano a "qualche centinaio di dollari", interamente reinvestiti nell'acquisto di nuovi brani musicali. Si tratta di cifre marginali, ma il punto non è la redditività: il valore dell'esperimento è metodologico. Andon Labs, che gestisce anche Andon Market — un negozio fisico a San Francisco gestito da un'intelligenza artificiale — utilizza questi progetti per testare i limiti operativi dei modelli in ambienti economici reali, non simulati.

Peterson ha indicato ChatGPT e Gemini come i modelli con la migliore performance complessiva, pur riconoscendo che l'esperimento non è sufficiente per valutare le capacità tecniche profonde di ciascun sistema. Una distinzione che vale la pena mantenere: i comportamenti osservati riflettono scelte di design e allineamento dei modelli tanto quanto le loro capacità cognitive.

"ChatGPT was just very vanilla and behaved really well."

Il caso solleva una questione più strutturale: se i modelli linguistici di nuova generazione vengono progettati per essere "sicuri" e allineati a valori etici, fino a che punto questa impostazione ne limita l'autonomia decisionale in contesti economici? Claude che si rifiuta di trasmettere, Grok che si blocca in loop, Gemini che cita disastri naturali per introdurre brani pop: sono disfunzioni o semplicemente i sintomi attesi di sistemi ancora lontani dalla gestione autonoma di un'impresa?

Articoli Correlati