I ricercatori hanno assegnato agli agenti IA, provenienti da aziende come Google, OpenAI, Anthropic e Meta, compiti tipici di un'azienda di software reale. Gli agenti dovevano svolgere ruoli come analisti finanziari, ingegneri software e project manager, interagendo con dipartimenti simulati come le risorse umane.
I risultati dell'esperimento sono stati sorprendentemente negativi. Il modello più performante, Claude 3.5 Sonnet di Anthropic, è riuscito a completare solo il 24% dei compiti assegnati, con una media di 30 passaggi e un costo di oltre 6 dollari per attività. Altri modelli hanno ottenuto risultati ancora peggiori, come Gemini 2.0 Flash di Google con l'11,4% di successo e Nova Pro v1 di Amazon con appena l'1,7%.
I ricercatori hanno evidenziato diversi problemi riscontrati dagli agenti IA:
- Mancanza di buon senso
- Scarse capacità sociali
- Difficoltà nel navigare su internet
- Tendenza all'autoinganno, creando scorciatoie che portavano a errori grossolani
Ad esempio, in un caso un agente non è riuscito a trovare la persona giusta a cui porre domande sulla chat aziendale e ha deciso di rinominare un altro utente con il nome della persona cercata, creando confusione.
Limiti dell'IA attuale
Nonostante le affermazioni di alcune aziende tecnologiche, questo studio dimostra che l'IA non è ancora pronta per sostituire i lavoratori umani in compiti complessi. L'intelligenza artificiale attuale sembra essere più un'estensione sofisticata del testo predittivo che una vera intelligenza in grado di risolvere problemi, imparare dall'esperienza e applicarla a situazioni nuove.
Mentre gli agenti IA possono svolgere bene alcuni compiti più semplici, non sono ancora all'altezza delle capacità umane in contesti lavorativi complessi. Questo esperimento suggerisce che, almeno per il momento, i lavoratori non devono temere di essere sostituiti dall'IA nelle loro carriere.