Approfondimenti I modelli generativi plagiano i testi e anche i concetti
3' 2''
21/02/2023

Una ricerca della Penn State University ha analizzato oltre 200.000 testi per individuare le varie forme di plagio dei contenuti usati per l’addestramento.

I modelli generativi plagiano i testi e anche i concetti

Un gruppo di ricercatori della Penn State University ha analizzato i testi generati dal modello GPT-2 di OpenAI, per valutarne il livello di originalità e, viceversa, sostanziare le accuse di plagio.

I risultati della ricerca mostrano come i modelli linguistici che generano testo in risposta alle richieste dell'utente plagiano il contenuto in più di un modo.

“Il plagio ha diverse forme”, ha dichiarato Dongwon Lee, professore di scienze dell'informazione e tecnologia alla Penn State. “Volevamo vedere se i modelli linguistici non solo copiano e incollano, ma ricorrono a forme più sofisticate di plagio senza rendersene conto”.

Dongwon Lee
Dongwon Lee, professore di scienze dell'informazione e tecnologia alla Penn State University

La ricerca si è concentrata sul problema del plagio nei modelli di linguaggio e ha identificato tre forme di plagio: letterale, parafrasi (riformula e ristruttura il contenuto senza citare la fonte originale) e idee (sfrutta i concetti espressi in un testo senza una corretta attribuzione).

Il gruppo di lavoro ha creato una pipeline per il rilevamento automatico del plagio e l'ha testata utilizzando il GPT-2 di OpenAI.

I ricercatori hanno generato 210.000 testi per verificare il plagio in modelli pre-addestrati e poi perfezionati, addestrati ulteriormente per concentrarsi su aree tematiche specifiche, come documenti scientifici, articoli accademici sul COVID-19 e richieste di brevetto.

Il gruppo ha utilizzato un motore di ricerca open source per trovare i primi dieci documenti più simili a ciascun testo generato e hanno modificato un algoritmo esistente per rilevare meglio i casi di plagio letterale, parafrasi e idee.

Pexels
Pappagalli

Plagi di ogni genere

Il team ha scoperto che i modelli linguistici tendono a commettere tutti e tre i tipi di plagio, e che l'uso di dataset più ampi e parametri di addestramento più numerosi aumenta la frequenza del plagio.

I modelli perfezionati hanno ridotto il plagio letterale, ma hanno aumentato i casi di plagio parafrasato e legato alle idee. Inoltre, hanno notato casi in cui i modelli hanno esposto informazioni private attraverso tutte e tre le forme di plagio.

Lo studio evidenzia la necessità di ulteriori ricerche sui generatori di testo e sulle questioni etiche e filosofiche che pongono, secondo i ricercatori.

Anche se lo studio si è concentrato su GPT-2, il processo di rilevamento del plagio sviluppato può essere utilizzato su modelli linguistici più recenti, come ChatGPT, per determinare se plagiano il contenuto di formazione. Tuttavia, ciò dipende dalla disponibilità dei dati di formazione.

Lo studio potrebbe aiutare a costruire modelli linguistici più affidabili e responsabili in futuro, ma per ora consiglia di prestare attenzione quando si utilizzano generatori di testo.

Jinghui Chen
Jinghui Chen, assistente professore di scienze dell'informazione e tecnologia alla Penn State University

Jinghui Chen, assistente professore di scienze dell'informazione e tecnologia presso la Penn State, ha affermato: “I ricercatori e gli specialisti dell’intelligenza artificiale stanno studiando come rendere i modelli linguistici migliori e più robusti; nel frattempo, molte persone utilizzano modelli linguistici nella loro vita quotidiana per vari compiti di produttività”.

Sfruttare i generatori di testi come motore di ricerca o per eseguire il debug del codice va probabilmente bene, ma per altri scopi può comportare conseguenze negative per l'utente, poiché il modello linguistico può produrre contenuti plagiati”.

Il plagio in realtà non è qualcosa di inaspettato, ha aggiunto Dongwon Lee: “Come un pappagallo stocastico, abbiamo insegnato ai modelli linguistici a imitare gli scritti umani senza spiegare loro come non plagiare. Ora è il momento di insegnare a scrivere in modo più corretto, e abbiamo una lunga strada da percorrere”. 

Potrebbe interessarti anche

Tecnologia

A.I. Verify: Creare fiducia nell'intelligenza artificiale

Singapore sta sperimentando un framework e un toolkit di test per aiutare le industrie a essere più trasparenti sulla loro implementazione dell'IA.

Scenario

Il ruolo del Chief Data Officer: tendenze e sfide

L’undicesimo Big Data and AI Executive Survey rivela l'aumento dell'adozione del ruolo CDO/CDAO e le sfide nella modernizzazione e gestione dei dati.

Scenario

Una nuova era di creatività o una minaccia per la società?

L'IA generativa promette di espandere la creatività umana, ma solleva preoccupazioni per l'impatto sulla società e sull'economia.

News

SiteGround: IA al servizio della sicurezza dei siti Web

Il provider di hosting ha implementato un sistema basato sull’'IA per bloccare il 95% delle query dannose e migliorare la sicurezza dei siti web ospitati.