L'intelligenza artificiale sta dimostrando capacità inquietanti nel replicare lo stile degli scrittori più celebri, tanto da superare persino gli imitatori umani professionisti quando i modelli vengono accuratamente addestrati sulle opere complete di un autore. Questa scoperta, emersa da uno studio condotto da ricercatori di tre prestigiose università americane, solleva interrogativi cruciali sulla legittimità dell'uso di materiale protetto da copyright per addestrare i sistemi di intelligenza artificiale. I risultati della ricerca potrebbero infatti ribaltare le attuali interpretazioni giuridiche del "fair use", l'eccezione che negli Stati Uniti permette l'utilizzo limitato di opere protette senza autorizzazione.
Un esperimento che ribalta le certezze
Tuhin Chakrabarty della Stony Brook University, Jane C. Ginsburg della Columbia University e Paramveer Dhillon dell'University of Michigan hanno orchestrato un esperimento tanto semplice quanto rivelatore. Gli accademici hanno reclutato 28 candidati provenienti dai migliori programmi di Master in scrittura creativa degli Stati Uniti, chiedendo loro di produrre brani di 450 parole che imitassero lo stile di 50 autori premiati, da Alice Munro a Cormac McCarthy, passando per Han Kang. Questi 150 testi scritti da umani esperti sono stati poi confrontati con altrettanti brani generati dall'intelligenza artificiale.
In una prima fase, quando i lettori valutavano i testi senza saperne la provenienza, la situazione sembrava confermare le ricerche precedenti: 28 esperti in scrittura creativa e 131 lettori comuni preferivano le opere scritte dagli umani. L'AI, utilizzata semplicemente attraverso prompt standard, mostrava difetti stilistici riconoscibili che i lettori tendevano a rifiutare, come un'eccessiva densità di clichè. Tuttavia, tutto è cambiato quando i ricercatori hanno applicato un processo di fine-tuning ai modelli di intelligenza artificiale.
Il costo della creatività artificiale
Addestrando ChatGPT sulle opere complete di singoli autori, i risultati si sono completamente capovolti. Gli esperti hanno iniziato a preferire i testi generati dall'AI sia per la fedeltà stilistica che per la qualità complessiva della scrittura, mentre i lettori comuni hanno mostrato cambiamenti simili nelle loro preferenze. Il processo di affinamento ha eliminato quelle caratteristiche stilistiche "artificiali" che rendevano i testi automatizzati riconoscibili e sgraditi.
Le implicazioni economiche sono devastanti per gli autori in carne e ossa. I ricercatori hanno calcolato che il costo mediano per addestrare un modello e generare un romanzo di 100.000 parole ammonta a soli 81 dollari, una riduzione del 99,7% rispetto ai 25.000 dollari che potrebbe costare assumere uno scrittore professionista per produrre la stessa opera. Questo dato diventa ancora più significativo se si considera che i lettori, in valutazioni cieche, dimostrano di preferire il prodotto dell'intelligenza artificiale.
Le battaglie legali che ridefiniscono il settore
Lo studio arriva in un momento cruciale per l'industria dell'intelligenza artificiale, assediata da cause legali sul copyright. Oltre 50 azioni legali sono state intentate contro aziende di AI negli Stati Uniti, coinvolgendo non solo testi ma anche riproduzioni video e audio. Nel caso Bartz contro Anthropic, l'azienda dovrebbe pagare un accordo da 1,5 miliardi di dollari dopo aver addestrato i suoi modelli su opere copiate senza autorizzazione. In un'altra causa, Kadrey contro Meta, il colosso tecnologico ha prevalso per motivi tecnici, anche se il giudice ha riconosciuto che "in molte circostanze sarà illegale copiare opere protette da copyright per addestrare modelli di AI generativa senza permesso".
Nick Clegg, ex dirigente di Meta, ha recentemente dichiarato con toni drammatici che dover chiedere il permesso agli artisti per utilizzare le loro opere "ucciderebbe l'industria dell'AI in questo paese dall'oggi al domani". Una posizione che riflette l'ansia delle Big Tech, già impegnate a investire miliardi in data center per soddisfare la domanda prevista di servizi basati sull'intelligenza artificiale.
Il fair use messo sotto accusa
Il cuore della questione giuridica riguarda il concetto di "fair use", un'eccezione al copyright che negli Stati Uniti permette l'utilizzo di materiale protetto in determinate circostanze. I giudici devono valutare quattro fattori: lo scopo dell'utilizzo, la natura dell'opera protetta, la quantità di materiale copiato e, crucialmente, l'effetto dell'utilizzo sul mercato potenziale o sul valore dell'opera originale. È proprio quest'ultimo punto che lo studio mette in discussione.
Gli autori della ricerca concludono che la creazione di modelli linguistici affinati sulle opere complete di singoli autori non dovrebbe essere considerata fair use se questi modelli vengono utilizzati per produrre testi che emulano il lavoro originale. La loro argomentazione anticipa una possibile obiezione: anche se i modelli non riproducono verbatim le opere pubblicate, l'interpretazione espansiva dell'Ufficio Copyright statunitense sul "mercato potenziale" suggerisce che l'eccezione del fair use potrebbe non applicarsi quando l'effetto della copia sostituisce le opere originali, indipendentemente dal fatto che la copia compaia nel prodotto finale.
Tensioni politiche e futuro incerto
La vicenda ha assunto anche contorni politici. A maggio, il presidente Trump ha licenziato Shira Perlmutter, responsabile dell'Ufficio Copyright, "meno di un giorno dopo che aveva rifiutato di approvare automaticamente gli sforzi di Elon Musk per utilizzare archivi di opere protette da copyright per addestrare modelli di AI", secondo quanto affermato dal deputato Joe Morelle. Un episodio che evidenzia le pressioni a cui sono sottoposte le istituzioni regolatorie in questo campo.
La questione resta aperta e gli studiosi del diritto continuano a dibattere. Mentre alcune voci sostengono che addestrare modelli di AI su testi, registrazioni e video protetti sia probabilmente ammissibile come fair use, c'è un consenso crescente sul fatto che debba esistere una responsabilità quando i modelli di AI producono contenuti protetti in forma identica. La ricerca di Chakrabarty, Ginsburg e Dhillon suggerisce però che il problema potrebbe essere molto più ampio, riguardando non solo le copie esatte ma qualsiasi output che possa competere economicamente con le opere originali degli autori.