Un consorzio di ricercatori affiliati a Stanford, all'Imperial College London e all'Internet Archive ha pubblicato uno studio intitolato "The Impact of AI-Generated Text on the Internet", rivelando che entro la metà del 2025 circa il 35% dei nuovi siti web è classificabile come generato o assistito dall'intelligenza artificiale — una quota partita da zero prima del lancio di ChatGPT nel tardo 2022.
La portata del fenomeno ridisegna l'ecosistema digitale con una velocità senza precedenti nella storia dei media. In appena tre anni, una tecnologia ha alterato la composizione strutturale di internet in misura paragonabile a quella che imprese e singoli utenti hanno costruito in decenni. Per le aziende che operano nel settore della pubblicità digitale, del content marketing e dell'editoria online, questo dato non è neutro: significa confrontarsi con un ambiente informativo radicalmente diverso, dove la distinzione tra contenuto umano e automatizzato è sempre meno percepibile.
Lo studio, condotto analizzando campioni di siti web archiviati tramite il Wayback Machine della Internet Archive nel periodo compreso tra agosto 2022 e maggio 2025, ha impiegato il software di rilevamento Pangram v3 — selezionato dopo aver comparato diversi strumenti disponibili — per identificare i contenuti generati da macchine. I ricercatori hanno poi testato sei ipotesi critiche: riduzione della diversità di opinioni, proliferazione di disinformazione, tono sempre più positivo e "sanitizzato", scarsa citazione delle fonti, bassa densità semantica e omologazione stilistica.
Solo due delle sei ipotesi hanno trovato conferma empirica. I contenuti generati dall'intelligenza artificiale rendono il web meno diversificato semanticamente e tendenzialmente più ottimista nel tono, ma non sembrano aumentare la densità di affermazioni false verificabili né ridurre la propensione a citare le fonti. Quest'ultimo risultato ha sorpreso gli stessi autori: per verificare la "Truth Decay hypothesis", il team ha estratto affermazioni fattuali dai siti campionati e ha coinvolto fact-checker umani per la verifica.
Jonáš Doležal, ricercatore dell'intelligenza artificiale a Stanford e co-autore dello studio, ha dichiarato a 404 Media che il mancato riscontro di un aumento nelle falsità verificabili non esclude un problema più sottile: l'aumento di affermazioni non verificabili, che sfuggono agli strumenti tradizionali di controllo dei fatti. Un'osservazione che apre interrogativi metodologici rilevanti sull'efficacia degli attuali sistemi di fact-checking nell'era dell'automazione testuale.
Sul fronte operativo, il progetto non si chiude con la pubblicazione accademica. Maty Bohacek, ricercatore a Stanford, ha annunciato che il gruppo sta lavorando con l'Internet Archive per trasformare la metodologia in uno strumento di monitoraggio continuativo, capace di fornire segnali aggiornati nel tempo. L'obiettivo dichiarato è anche aumentare la granularità dell'analisi, disaggregando i dati per categoria di sito web e per lingua.
Il valore economico di queste informazioni è tutt'altro che astratto. Per i player del settore editoriale e della comunicazione digitale, sapere quali segmenti del web sono più esposti alla generazione automatica dei contenuti — e in quali lingue — significa poter ridefinire strategie di posizionamento, differenziazione e fiducia con il lettore.
La questione centrale che lo studio lascia aperta riguarda la sostenibilità di un web sempre più omologato nel tono e nella struttura. Se l'intelligenza artificiale tende a produrre contenuti uniformemente positivi e semanticamente poveri, il rischio non è tanto la disinformazione quanto l'erosione silenziosa della qualità dell'informazione: un fenomeno difficile da misurare, ma con ricadute dirette sulla capacità degli utenti — e delle imprese — di orientarsi in un ecosistema digitale che potrebbe perdere progressivamente la propria utilità cognitiva.