Approfondimenti I modelli generativi plagiano i testi e anche i concetti
3' 2''
21/02/2023

Una ricerca della Penn State University ha analizzato oltre 200.000 testi per individuare le varie forme di plagio dei contenuti usati per l’addestramento.

I modelli generativi plagiano i testi e anche i concetti

Un gruppo di ricercatori della Penn State University ha analizzato i testi generati dal modello GPT-2 di OpenAI, per valutarne il livello di originalità e, viceversa, sostanziare le accuse di plagio.

I risultati della ricerca mostrano come i modelli linguistici che generano testo in risposta alle richieste dell'utente plagiano il contenuto in più di un modo.

“Il plagio ha diverse forme”, ha dichiarato Dongwon Lee, professore di scienze dell'informazione e tecnologia alla Penn State. “Volevamo vedere se i modelli linguistici non solo copiano e incollano, ma ricorrono a forme più sofisticate di plagio senza rendersene conto”.

Dongwon Lee
Dongwon Lee, professore di scienze dell'informazione e tecnologia alla Penn State University

La ricerca si è concentrata sul problema del plagio nei modelli di linguaggio e ha identificato tre forme di plagio: letterale, parafrasi (riformula e ristruttura il contenuto senza citare la fonte originale) e idee (sfrutta i concetti espressi in un testo senza una corretta attribuzione).

Il gruppo di lavoro ha creato una pipeline per il rilevamento automatico del plagio e l'ha testata utilizzando il GPT-2 di OpenAI.

I ricercatori hanno generato 210.000 testi per verificare il plagio in modelli pre-addestrati e poi perfezionati, addestrati ulteriormente per concentrarsi su aree tematiche specifiche, come documenti scientifici, articoli accademici sul COVID-19 e richieste di brevetto.

Il gruppo ha utilizzato un motore di ricerca open source per trovare i primi dieci documenti più simili a ciascun testo generato e hanno modificato un algoritmo esistente per rilevare meglio i casi di plagio letterale, parafrasi e idee.

Pexels
Pappagalli

Plagi di ogni genere

Il team ha scoperto che i modelli linguistici tendono a commettere tutti e tre i tipi di plagio, e che l'uso di dataset più ampi e parametri di addestramento più numerosi aumenta la frequenza del plagio.

I modelli perfezionati hanno ridotto il plagio letterale, ma hanno aumentato i casi di plagio parafrasato e legato alle idee. Inoltre, hanno notato casi in cui i modelli hanno esposto informazioni private attraverso tutte e tre le forme di plagio.

Lo studio evidenzia la necessità di ulteriori ricerche sui generatori di testo e sulle questioni etiche e filosofiche che pongono, secondo i ricercatori.

Anche se lo studio si è concentrato su GPT-2, il processo di rilevamento del plagio sviluppato può essere utilizzato su modelli linguistici più recenti, come ChatGPT, per determinare se plagiano il contenuto di formazione. Tuttavia, ciò dipende dalla disponibilità dei dati di formazione.

Lo studio potrebbe aiutare a costruire modelli linguistici più affidabili e responsabili in futuro, ma per ora consiglia di prestare attenzione quando si utilizzano generatori di testo.

Jinghui Chen
Jinghui Chen, assistente professore di scienze dell'informazione e tecnologia alla Penn State University

Jinghui Chen, assistente professore di scienze dell'informazione e tecnologia presso la Penn State, ha affermato: “I ricercatori e gli specialisti dell’intelligenza artificiale stanno studiando come rendere i modelli linguistici migliori e più robusti; nel frattempo, molte persone utilizzano modelli linguistici nella loro vita quotidiana per vari compiti di produttività”.

Sfruttare i generatori di testi come motore di ricerca o per eseguire il debug del codice va probabilmente bene, ma per altri scopi può comportare conseguenze negative per l'utente, poiché il modello linguistico può produrre contenuti plagiati”.

Il plagio in realtà non è qualcosa di inaspettato, ha aggiunto Dongwon Lee: “Come un pappagallo stocastico, abbiamo insegnato ai modelli linguistici a imitare gli scritti umani senza spiegare loro come non plagiare. Ora è il momento di insegnare a scrivere in modo più corretto, e abbiamo una lunga strada da percorrere”. 

Potrebbe interessarti anche

Approfondimenti

L'IA conquista il mondo della formazione aziendale: i corsi diventano più efficaci e coinvolgenti

La "febbre dell'IA" conquista il mondo della formazione: un'azienda su due usa l'intelligenza artificiale per rendere p...

Scenario

L'IA semplifica l'accesso degli anziani ai servizi sanitari digitali e lo rende più sicuro

L'intelligenza artificiale semplifica l'accesso ai servizi sanitari tramite identità digitale e rende il processo più si...

News

Intelligenza Artificiale e Risorse Umane, come limitare i rischi

I consigli degli esperti per usare l'Intelligenza Artificiale nella selezione dei nuovi talenti evitando problemi e pass...

Approfondimenti

Le competenze richieste dall'IA non sono ancora state create

Secondo una ricerca di Dell Technologies, le aziende italiane ritengono che non ci siano ancora le competenze adeguate p...