OpenAI è salita di nuovo agli (dis)onori di cronaca, questa volta per una causa intentata dal New York Times: l'accusa è di aver violato il copyright utilizzando gli articoli della testata per addestrare il suo modello.
Lo scorso aprile il NYT aveva esposto le sue preoccupazioni alla compagnia di Sam Altman e a Microsoft sull'uso dei propri articoli per il training dei modelli e aveva cercato di raggiungere un accordo per proteggere la proprietà intellettuale e il giornalismo stesso, ma senza successo. Ora, dopo l'ennesimo caso di violazione di copyright, la testata ha deciso di agire.
OpenAI si è difesa dalle accuse specificando che l'uso dei dati del NYT per l'addestramento è ancora un uso corretto delle informazioni, e che comunque la testata può scegliere di essere esclusa dalla raccolta dati; la compagnia ha inoltre affermato che sta lavorando per azzerare la possibilità che il proprio chatbot si limiti a "rigurgitare" i testi con cui è stato addestrato, senza rielaborarli.
Al di là di come si concluderà il processo, le accuse hanno riportato al centro dell'attenzione una questione tutt'altro che risolta: le compagnie produttrici di sistemi di IA devono lavorare per rispettare i principi etici di privacy, libera scelta, trasparenza, equità e responsabilità in ogni fase della gestione dati, a partire dalla raccolta fino ad arrivare alla generazione dei risultati.
Secondo Tom Chavez, fondatore di The Ethical Tech Project, la policy di OpenAI viola tre di questi principi fondamentali: l'equità, la trasparenza e la possibilità di scelta.
Rispettare il principio di equità significa assicurarsi che i risultati prodotti dai sistemi di IA non promuovano discriminazione di individui o gruppi di persone e non abbiano impatti negativi sugli utenti; per garantire ciò, è essenziale conoscere a fondo il funzionamento del modello, cosa che, a detta di Chavez, in OpenAI non accade.
Il problema del "rigurgito" dei testi è quindi ben lontano dall'essere risolto, anche perché non è un semplice bug da sistemare. Al momento l'unico modo per garantire l'equità è che le piattaforme e i business che utilizzano GPT filtrino i risultati, e ciò sposta la responsabilità da OpenAI ai clienti della compagnia.
Un altro punto critico su cui il tribunale potrebbe spingere è la violazione del principio di trasparenza: OpenAI non ha mai comunicato chiaramente quali dati ha utilizzato per addestrare il modello, come li ha raccolti, con chi li condivide e per quanto a lungo li utilizzerà. Ancora più grave è il fatto che ChatGPT non informa gli utenti se i risultati sono stati generati usando del materiale sotto copyright.
La compagnia, come molte altre del settore, mira a raccogliere quanti più dati possibile senza dare troppo peso al problema della proprietà intellettuale, ed è proprio su questo che sta facendo leva il NYT per vincere la causa e proteggere i propri articoli.
Infine, secondo il principio di libera scelta, le persone e i business hanno il diritto di scegliere come i loro dati possono essere usati ed eventualmente richiedere che non vengano utilizzati per l'addestramento dei modelli.
Nel caso di OpenAI non è semplice chiedere l'esclusione delle proprie informazioni dalla piattaforma: la compagnia permette di farlo, ma richiede diverse evidenze che i dati utilizzati siano di chi fa la richiesta e specifica che potrebbe non soddisfare tutte le richieste se ritiene che queste siano infondate o violino la libertà di innovazione ed espressione.
Non esistono criteri oggettivi che tutelano gli utenti, e questo potrebbe essere un bel problema per OpenAI durante il processo.
La compagnia si sta difendendo dalle accuse specificando che utilizzare i dati raccolti sul web per il training è un utilizzo corretto del modello ed è necessario all'innovazione, di fatto giustificando la violazione del copyright per il "bene superiore" del progresso (e del profitto).
Se è vero che il diritto all'innovazione andrebbe sempre garantito, questo non deve però interferire con la proprietà intellettuale, l'imparzialità e la sicurezza delle persone. OpenAI non è di certo l'unica compagnia tech a peccare su questi punti: in un mercato altamente competitivo come quello tecnologico, quasi tutti i player cercano di proteggere i propri dati e processi dall'occhio della concorrenza, violando però il principio di trasparenza.
E proprio la trasparenza è essenziale per evitare violazioni di copyright, o peggio. L'innovazione non va fermata, ma è necessario lavorare per garantire uno sviluppo etico delle tecnologie, proteggendo i diritti di tutti.