Approfondimenti I modelli generativi plagiano i testi e anche i concetti
Dario Orlandi
3' 2''
21/02/2023

Una ricerca della Penn State University ha analizzato oltre 200.000 testi per individuare le varie forme di plagio dei contenuti usati per l’addestramento.

I modelli generativi plagiano i testi e anche i concetti

Un gruppo di ricercatori della Penn State University ha analizzato i testi generati dal modello GPT-2 di OpenAI, per valutarne il livello di originalità e, viceversa, sostanziare le accuse di plagio.

I risultati della ricerca mostrano come i modelli linguistici che generano testo in risposta alle richieste dell'utente plagiano il contenuto in più di un modo.

“Il plagio ha diverse forme”, ha dichiarato Dongwon Lee, professore di scienze dell'informazione e tecnologia alla Penn State. “Volevamo vedere se i modelli linguistici non solo copiano e incollano, ma ricorrono a forme più sofisticate di plagio senza rendersene conto”.

Dongwon Lee
Dongwon Lee, professore di scienze dell'informazione e tecnologia alla Penn State University

La ricerca si è concentrata sul problema del plagio nei modelli di linguaggio e ha identificato tre forme di plagio: letterale, parafrasi (riformula e ristruttura il contenuto senza citare la fonte originale) e idee (sfrutta i concetti espressi in un testo senza una corretta attribuzione).

Il gruppo di lavoro ha creato una pipeline per il rilevamento automatico del plagio e l'ha testata utilizzando il GPT-2 di OpenAI.

I ricercatori hanno generato 210.000 testi per verificare il plagio in modelli pre-addestrati e poi perfezionati, addestrati ulteriormente per concentrarsi su aree tematiche specifiche, come documenti scientifici, articoli accademici sul COVID-19 e richieste di brevetto.

Il gruppo ha utilizzato un motore di ricerca open source per trovare i primi dieci documenti più simili a ciascun testo generato e hanno modificato un algoritmo esistente per rilevare meglio i casi di plagio letterale, parafrasi e idee.

Pexels
Pappagalli

Plagi di ogni genere

Il team ha scoperto che i modelli linguistici tendono a commettere tutti e tre i tipi di plagio, e che l'uso di dataset più ampi e parametri di addestramento più numerosi aumenta la frequenza del plagio.

I modelli perfezionati hanno ridotto il plagio letterale, ma hanno aumentato i casi di plagio parafrasato e legato alle idee. Inoltre, hanno notato casi in cui i modelli hanno esposto informazioni private attraverso tutte e tre le forme di plagio.

Lo studio evidenzia la necessità di ulteriori ricerche sui generatori di testo e sulle questioni etiche e filosofiche che pongono, secondo i ricercatori.

Anche se lo studio si è concentrato su GPT-2, il processo di rilevamento del plagio sviluppato può essere utilizzato su modelli linguistici più recenti, come ChatGPT, per determinare se plagiano il contenuto di formazione. Tuttavia, ciò dipende dalla disponibilità dei dati di formazione.

Lo studio potrebbe aiutare a costruire modelli linguistici più affidabili e responsabili in futuro, ma per ora consiglia di prestare attenzione quando si utilizzano generatori di testo.

Jinghui Chen
Jinghui Chen, assistente professore di scienze dell'informazione e tecnologia alla Penn State University

Jinghui Chen, assistente professore di scienze dell'informazione e tecnologia presso la Penn State, ha affermato: “I ricercatori e gli specialisti dell’intelligenza artificiale stanno studiando come rendere i modelli linguistici migliori e più robusti; nel frattempo, molte persone utilizzano modelli linguistici nella loro vita quotidiana per vari compiti di produttività”.

Sfruttare i generatori di testi come motore di ricerca o per eseguire il debug del codice va probabilmente bene, ma per altri scopi può comportare conseguenze negative per l'utente, poiché il modello linguistico può produrre contenuti plagiati”.

Il plagio in realtà non è qualcosa di inaspettato, ha aggiunto Dongwon Lee: “Come un pappagallo stocastico, abbiamo insegnato ai modelli linguistici a imitare gli scritti umani senza spiegare loro come non plagiare. Ora è il momento di insegnare a scrivere in modo più corretto, e abbiamo una lunga strada da percorrere”. 

Potrebbe interessarti anche

Approfondimenti

Per il 50% degli esperti l’IA raggiungerà l’uomo in 40 anni

L'Università di Oxford ha confrontato vari studi sul futuro dell'intelligenza artificiale per stimare la probabilità del...

News

Un assistente genera le formule per i fogli di calcolo

Una interessante funzione della nuova versione di Grid apre una finestra sul futuro dell’integrazione tra gli strumenti...

News

L'IA va in guerra: Palantir al vertice Reaim

Il Ceo di Palantir Alex Karp ha sottolineato l’efficacia delle tecnologie di individuazione e tracciamento basate sull’I...

Tecnologia

L'AI di RealRate classifica le aziende partendo dai bilanci

RealRate propone classifiche settoriali generate da un modello di intelligenza artificiale che analizza e pesa i princip...