Un gruppo di ricercatori della Penn State University ha analizzato i testi generati dal modello GPT-2 di OpenAI, per valutarne il livello di originalità e, viceversa, sostanziare le accuse di plagio.
I risultati della ricerca mostrano come i modelli linguistici che generano testo in risposta alle richieste dell'utente plagiano il contenuto in più di un modo.
“Il plagio ha diverse forme”, ha dichiarato Dongwon Lee, professore di scienze dell'informazione e tecnologia alla Penn State. “Volevamo vedere se i modelli linguistici non solo copiano e incollano, ma ricorrono a forme più sofisticate di plagio senza rendersene conto”.
La ricerca si è concentrata sul problema del plagio nei modelli di linguaggio e ha identificato tre forme di plagio: letterale, parafrasi (riformula e ristruttura il contenuto senza citare la fonte originale) e idee (sfrutta i concetti espressi in un testo senza una corretta attribuzione).
Il gruppo di lavoro ha creato una pipeline per il rilevamento automatico del plagio e l'ha testata utilizzando il GPT-2 di OpenAI.
I ricercatori hanno generato 210.000 testi per verificare il plagio in modelli pre-addestrati e poi perfezionati, addestrati ulteriormente per concentrarsi su aree tematiche specifiche, come documenti scientifici, articoli accademici sul COVID-19 e richieste di brevetto.
Il gruppo ha utilizzato un motore di ricerca open source per trovare i primi dieci documenti più simili a ciascun testo generato e hanno modificato un algoritmo esistente per rilevare meglio i casi di plagio letterale, parafrasi e idee.
Plagi di ogni genere
Il team ha scoperto che i modelli linguistici tendono a commettere tutti e tre i tipi di plagio, e che l'uso di dataset più ampi e parametri di addestramento più numerosi aumenta la frequenza del plagio.
I modelli perfezionati hanno ridotto il plagio letterale, ma hanno aumentato i casi di plagio parafrasato e legato alle idee. Inoltre, hanno notato casi in cui i modelli hanno esposto informazioni private attraverso tutte e tre le forme di plagio.
Lo studio evidenzia la necessità di ulteriori ricerche sui generatori di testo e sulle questioni etiche e filosofiche che pongono, secondo i ricercatori.
Anche se lo studio si è concentrato su GPT-2, il processo di rilevamento del plagio sviluppato può essere utilizzato su modelli linguistici più recenti, come ChatGPT, per determinare se plagiano il contenuto di formazione. Tuttavia, ciò dipende dalla disponibilità dei dati di formazione.
Lo studio potrebbe aiutare a costruire modelli linguistici più affidabili e responsabili in futuro, ma per ora consiglia di prestare attenzione quando si utilizzano generatori di testo.
Jinghui Chen, assistente professore di scienze dell'informazione e tecnologia presso la Penn State, ha affermato: “I ricercatori e gli specialisti dell’intelligenza artificiale stanno studiando come rendere i modelli linguistici migliori e più robusti; nel frattempo, molte persone utilizzano modelli linguistici nella loro vita quotidiana per vari compiti di produttività”.
“Sfruttare i generatori di testi come motore di ricerca o per eseguire il debug del codice va probabilmente bene, ma per altri scopi può comportare conseguenze negative per l'utente, poiché il modello linguistico può produrre contenuti plagiati”.
Il plagio in realtà non è qualcosa di inaspettato, ha aggiunto Dongwon Lee: “Come un pappagallo stocastico, abbiamo insegnato ai modelli linguistici a imitare gli scritti umani senza spiegare loro come non plagiare. Ora è il momento di insegnare a scrivere in modo più corretto, e abbiamo una lunga strada da percorrere”.