Approfondimenti I modelli generativi plagiano i testi e anche i concetti
3' 2''
21/02/2023

Una ricerca della Penn State University ha analizzato oltre 200.000 testi per individuare le varie forme di plagio dei contenuti usati per l’addestramento.

I modelli generativi plagiano i testi e anche i concetti

Un gruppo di ricercatori della Penn State University ha analizzato i testi generati dal modello GPT-2 di OpenAI, per valutarne il livello di originalità e, viceversa, sostanziare le accuse di plagio.

I risultati della ricerca mostrano come i modelli linguistici che generano testo in risposta alle richieste dell'utente plagiano il contenuto in più di un modo.

“Il plagio ha diverse forme”, ha dichiarato Dongwon Lee, professore di scienze dell'informazione e tecnologia alla Penn State. “Volevamo vedere se i modelli linguistici non solo copiano e incollano, ma ricorrono a forme più sofisticate di plagio senza rendersene conto”.

Dongwon Lee
Dongwon Lee, professore di scienze dell'informazione e tecnologia alla Penn State University

La ricerca si è concentrata sul problema del plagio nei modelli di linguaggio e ha identificato tre forme di plagio: letterale, parafrasi (riformula e ristruttura il contenuto senza citare la fonte originale) e idee (sfrutta i concetti espressi in un testo senza una corretta attribuzione).

Il gruppo di lavoro ha creato una pipeline per il rilevamento automatico del plagio e l'ha testata utilizzando il GPT-2 di OpenAI.

I ricercatori hanno generato 210.000 testi per verificare il plagio in modelli pre-addestrati e poi perfezionati, addestrati ulteriormente per concentrarsi su aree tematiche specifiche, come documenti scientifici, articoli accademici sul COVID-19 e richieste di brevetto.

Il gruppo ha utilizzato un motore di ricerca open source per trovare i primi dieci documenti più simili a ciascun testo generato e hanno modificato un algoritmo esistente per rilevare meglio i casi di plagio letterale, parafrasi e idee.

Pexels
Pappagalli

Plagi di ogni genere

Il team ha scoperto che i modelli linguistici tendono a commettere tutti e tre i tipi di plagio, e che l'uso di dataset più ampi e parametri di addestramento più numerosi aumenta la frequenza del plagio.

I modelli perfezionati hanno ridotto il plagio letterale, ma hanno aumentato i casi di plagio parafrasato e legato alle idee. Inoltre, hanno notato casi in cui i modelli hanno esposto informazioni private attraverso tutte e tre le forme di plagio.

Lo studio evidenzia la necessità di ulteriori ricerche sui generatori di testo e sulle questioni etiche e filosofiche che pongono, secondo i ricercatori.

Anche se lo studio si è concentrato su GPT-2, il processo di rilevamento del plagio sviluppato può essere utilizzato su modelli linguistici più recenti, come ChatGPT, per determinare se plagiano il contenuto di formazione. Tuttavia, ciò dipende dalla disponibilità dei dati di formazione.

Lo studio potrebbe aiutare a costruire modelli linguistici più affidabili e responsabili in futuro, ma per ora consiglia di prestare attenzione quando si utilizzano generatori di testo.

Jinghui Chen
Jinghui Chen, assistente professore di scienze dell'informazione e tecnologia alla Penn State University

Jinghui Chen, assistente professore di scienze dell'informazione e tecnologia presso la Penn State, ha affermato: “I ricercatori e gli specialisti dell’intelligenza artificiale stanno studiando come rendere i modelli linguistici migliori e più robusti; nel frattempo, molte persone utilizzano modelli linguistici nella loro vita quotidiana per vari compiti di produttività”.

Sfruttare i generatori di testi come motore di ricerca o per eseguire il debug del codice va probabilmente bene, ma per altri scopi può comportare conseguenze negative per l'utente, poiché il modello linguistico può produrre contenuti plagiati”.

Il plagio in realtà non è qualcosa di inaspettato, ha aggiunto Dongwon Lee: “Come un pappagallo stocastico, abbiamo insegnato ai modelli linguistici a imitare gli scritti umani senza spiegare loro come non plagiare. Ora è il momento di insegnare a scrivere in modo più corretto, e abbiamo una lunga strada da percorrere”. 

Potrebbe interessarti anche

Approfondimenti

Gli agenti di IA supporteranno la crescita delle PMI

Gli agenti di IA hanno il potenziale di rivoluzionare il business delle PMI aiutandole a emergere sul mercato, aumentand...

Approfondimenti

I sei trend di IA che rivoluzioneranno il marketing

Bernard Marr di Forbes individua sei trend di intelligenza artificiale che guideranno lo sviluppo del marketing nel 2025...

Approfondimenti

L'IA trasforma la diagnostica per immagini e i percorsi di cura

Il dibattito "Evoluzione tecnologica e Intelligenza Artificiale in Diagnostica per Immagini. Stato dell’arte e prospetti...

Approfondimenti

Il 55% delle aziende farmaceutiche usa l'IA per progettare prodotti e servizi

Secondo il report "AI: radiografia di una rivoluzione in corso" condotto da Ascendant di Minsait, le aziende farmaceutic...