L'aumento della disponibilità di strumenti di intelligenza artificiale (AI) in grado di generare testo simile a quello umano ha portato a preoccupazioni sul loro uso, specialmente nel contesto scolastico e accademico, dove gli educatori si trovano a cercare di distinguere tra il testo originale e quello generato dall'IA.
Due ricercatori australiani, delle università di Sydney e Wollongong, hanno analizzato gli strumenti di classificazione attualmente disponibili e le strategie per aggirarli. I metodi e gli strumenti proposti per affrontare questo problema, infatti, sono tutt’altro che infallibili e sono vulnerabili all’uso di tool specifici.
Le principali aziende del settore stanno cercando di addestrare i “processori di linguaggio naturale” (NLP) delle loro IA proprio per produrre output il più possibile simili alla scrittura umana, rendendo difficile la distinzione tra il testo prodotto dall'uomo e quello generato.
L’IA riconosce l’IA
Per contribuire a risolvere il problema, o forse solo per tentare di placare le polemiche, OpenAI ha creato un classificatore per distinguere il testo generato dall'intelligenza artificiale da quello scritto dagli esseri umani.
Il classificatore ha però un'accuratezza del 26% nell'identificare correttamente il testo generato dall'IA, mentre etichetta erroneamente il testo umano come generato dall'IA il 9% delle volte.
OpenAI non ha fornito informazioni sulla frequenza con cui il testo generato dall'IA viene erroneamente etichettato come testo scritto dagli esseri umani. Nel complesso, il classificatore attualmente fornisce risultati mediocri, che lo rendono pressoché inutilizzabile.
Più promettente è GPTZero, un'applicazione rilasciata dallo studente di Princeton Edward Tian e sviluppata durante le vacanze di Natale: il tool è stato progettato per identificare la paternità dell'IA in base alla complessità del testo e alla variazione tra le frasi.
GPTZero ha mostrato risultati molto più incoraggianti, analizzando parametri come perplexity (che misura la casualità del testo) e burstiness (un indice della variabilità della perplexity).
Contraffazione avanzata
Esistono però strategie molto semplici che consentono di ingannare gli strumenti di rilevazione: alcuni servizi web, per esempio, propongono strumenti per parafrasare il testo generato dall'IA modificando alcune parole con sinonimi per ingannare i classificatori.
Un esempio è GPT-Minus1, che modifica il testo sostituendo tra il 10 e il 15% delle parole con sinonimi di significato equivalente. Anche il classificatore GPTZero si è dimostrato vulnerabile a queste soluzioni, che rendono i testi generati dall’AI apparentemente umani.
Un’altra proposta per distinguere il testo generato dall'IA da quello scritto dall'uomo è l'aggiunta di una "filigrana" invisibile. Questa consiste in una lista di parole che l'IA può utilizzare, invece di selezionare termini casualmente dal suo vocabolario.
Tuttavia, ci sono limiti a questo watermarking, poiché potrebbe ridurre la qualità del testo generato e sarebbe comunque vulnerabile agli strumenti di parafrasi. Inoltre, ogni generatore di testo avrebbe probabilmente un sistema di filigrana diverso; quindi, bisognerebbe trovare un accordo tra tutti gli sviluppatori di modelli AI.
Corsa agli armamenti
Il servizio antiplagio TurnItIn ha annunciato un nuovo rilevatore di scrittura AI che promette una precisione del 97%, ma anche se i risultati verranno confermati da test indipendenti anche i generatori di testo diventeranno sempre più sofisticati.
OpenAI sta sviluppando l'aggiornamento GPT-4, mentre Bard di Google è in fase di test pubblico. Anche se gli identificatori di testo diventeranno più precisi, ci saranno sempre nuovi modi per eludere i controlli.
Ciò potrebbe portare a un aumento della "parafrasi contrattuale", in cui si paga qualcuno per rielaborare il compito generato dall'IA per superare i rilevatori. Non esistono risposte facili per gli educatori, ma potrebbero includere soluzioni tecniche e nuovi modi di insegnare e valutare che abbraccino e integrino anche l'IA.