L'intelligenza artificiale è davvero così brava a svolgere il lavoro degli esseri umani? Pare di no, almeno secondo un test svolto dalla Australian Securities and Investment Commission (ASIC), la commissione governativa australiana che si occupa di monitorare e promuovere l'integrità del mercato e la protezione del consumatore.
Tra il 15 gennaio e il 16 febbraio 2024 ASIC ha incaricato AWS di misurare le capacità dell'IA generativa nel riassumere alcuni contributi pubblici presentati a un'indagine della Commissione Parlamentare Paritetica sulle società di revisione contabile e di consulenza, con riferimento in particolare alle questioni legate ad ASIC.
L'obiettivo del test è stato appunto quelli di misurare la qualità dell'output generato, senza considerare le performance del modello, per capire se fosse superiore a quello umano sugli stessi documenti. L'esperimento è avvenuto usando il modello Llama2-70B di Meta.
Stando ai risultati, su un massimo di 75 punti i riassunti svolti da esseri umani hanno totalizzato 61 punti, mentre quelli generati dall'IA sono arrivati solo a 35 punti (meno della metà del totale). La qualità degli scritti è stata misurata considerando criteri quali la coerenza, i riferimenti ad ASIC presenti nel testo, i consigli su come risolvere i conflitti di interessi, i riferimenti a una maggiore regolamentazione dei revisori dei conti e la lunghezza.
A verificare la qualità dei testi sono stati cinque consulenti di ASIC, i quali non sapevano in alcun modo che l'esperimento coinvolgesse l'intelligenza artificiale. Secondo quanto riporta Futurism, quando ai consulenti è stato rivelato lo scopo dell'esperimento dopo la valutazione, tre di essi hanno affermato di aver avuto qualche sospetto che alcuni testi fossero stati scritti dall'IA.
Il report dell'esperimento ha evidenziato alcuni temi chiave dell'analisi qualitativa dei testi che sono emblematici dei limiti dell'IA. I consulenti hanno sottolineato l'abilità limitata dell'LLM di cogliere il contesto e la presenza di informazioni errate nei riassunti, oltre che la mancanza invece di dati rilevanti.
In alcuni casi l'IA non ha centrato il punto del contributo, oppure si è concentrata su informazioni marginali o irrilevanti. I consulenti hanno riportato inoltre che i riassunti dell'IA erano "sconclusionati" o "prolissi", non includevano i riferimenti giusti ed erano ripetitivi.
Infine, l'osservazione più interessante è che, secondo i consulenti, il fatto che l'IA abbia generato output imprecisi e incompleti non solo non aiuta i professionisti umani, ma potrebbe anche rallentare il loro lavoro perché sarebbe necessario un processo di verifica dei contenuti piuttosto oneroso.
Insomma, l'esperimento sembra dimostrare un bel fallimento da parte dell'intelligenza artificiale; il report però sottolinea che, in seguito a un processo di ottimizzazione del modello, dei documenti e dei prompt, i risultati dell'LLM sono migliorati significativamente. "Abbiamo dimostrato che è più proficuo adattare il modo in cui si utilizza un modello LLM piuttosto che ossessionarsi nel trovare quello “perfetto”. Abbiamo scoperto che per ottenere risultati ottimali è fondamentale un'adeguata ingegnerizzazione del prompt, creando con cura le domande e i compiti presentati al modello" si legge nel documento.
Non ci sono dubbi che l'intelligenza artificiale abbia ancora molti limiti e che, per svolgere bene il suo lavoro (o perlomeno essere davvero utile ai professionisti umani), deve essere guidata attentamente nelle attività.
La tecnologia non è ancora matura per essere usata indistintamente in ogni campo e per ogni task: la sua applicazione va studiata con attenzione, individuando le attività in cui può performare meglio e le modalità con cui deve essere gestito il processo.