La battaglia tra chi pubblica contenuti online e chi li raccoglie attraverso l'intelligenza artificiale ha raggiunto un nuovo livello di intensità, con accuse precise rivolte a Perplexity, la startup che sviluppa un motore di ricerca basato su AI. L'azienda sarebbe stata sorpresa a mascherare deliberatamente i propri bot di raccolta dati, ignorando le direttive esplicite dei siti web che non vogliono essere scansionati. Questo comportamento rappresenta una violazione delle regole non scritte che hanno governato per decenni il rapporto tra i crawler automatici e i proprietari di contenuti digitali.
Quando i bot cambiano identità per aggirare i blocchi
Gli ingegneri di Cloudflare hanno documentato un pattern di comportamento particolarmente preoccupante. Quando Perplexity si trova di fronte a un blocco di rete, i suoi bot non si arrendono semplicemente, ma modificano la propria identità digitale per continuare a raccogliere dati. Gabriel Corral e il suo team hanno osservato come la startup modifichi ripetutamente il proprio user agent e cambi gli indirizzi IP di origine, operando al di fuori del range ufficiale dell'azienda.
Il meccanismo di evasione è sofisticato: i bot utilizzano indirizzi IP appartenenti a reti diverse e si mascherano da browser generici, imitando Google Chrome su macOS. In questo modo riescono a effettuare milioni di richieste quotidiane di dati, aggirando sia i file robots.txt sia le regole dei firewall web application specificamente configurate per bloccare PerplexityBot e Perplexity-User.
Il protocollo robots.txt sotto attacco
Il file robots.txt rappresenta da tre decenni il gentlemen's agreement del web, un modo educato per i siti di comunicare ai crawler automatici quali risorse possono accedere e quali no. Nato nel 1994 dalla penna di Martijn Koster come parte del Robots Exclusion Protocol, questo sistema si basa sulla buona fede e sulla conformità volontaria.
Tuttavia, i dati di TollBit dipingono un quadro allarmante: nel primo trimestre del 2025, la percentuale di bot che ignorano completamente i file robots.txt è schizzata dal 3,3% al 12,9%.
Un'economia digitale sempre più squilibrata
La situazione attuale rappresenta un drammatico capovolgimento rispetto al passato, quando i crawler rappresentavano una benedizione ambivalente per i proprietari di siti web. Essere visitati dal crawler di Google significava potenzialmente apparire nell'indice di ricerca e attrarre traffico umano, con conseguenti possibili ricavi pubblicitari. Ora questo equilibrio si è spezzato: i bot prendono molto più di quanto restituiscano.
I numeri forniti da TollBit sono eloquenti: mentre Bing mantiene un rapporto di 11 scansioni per ogni visita umana reindirizzata, le app basate esclusivamente su AI mostrano proporzioni drasticamente diverse. OpenAI registra un rapporto di 179:1, Perplexity arriva a 369:1, mentre Anthropic tocca la cifra strabiliante di 8692:1.
La differenza tra addestramento e RAG
Non tutti i crawler AI operano con gli stessi obiettivi. Mentre alcuni raccolgono dati per l'addestramento di modelli linguistici, altri utilizzano una tecnica chiamata Retrieval Augmented Generation (RAG) per accedere a informazioni aggiornate in tempo reale. Questa seconda categoria ha mostrato una crescita particolarmente aggressiva, con un aumento del 49% nel primo trimestre 2025, quasi due volte e mezzo superiore alla crescita dei bot orientati all'addestramento.
Il RAG alimenta servizi come le AI Overviews di Google e Perplexity Search, permettendo alle AI di fornire risposte basate su contenuti non presenti nei dati di addestramento originali. Questo crea una dipendenza continua dai contenuti web, trasformando ogni query degli utenti in una potenziale operazione di scraping.
Le soluzioni emergenti e il futuro incerto
Consapevoli del crescente malcontento, alcune aziende AI hanno tentato di ricucire i rapporti. Perplexity ha lanciato il suo Publisher Program per compensare i partner partecipanti, mentre varie compagnie hanno stretto accordi con grandi editori. Reddit, detentore di preziosi contenuti generati dagli utenti, ha visto migliorare significativamente il proprio business grazie a questi accordi.
Tuttavia, la maggior parte dei siti web rimane esclusa da questi negoziati con giganti come Amazon, Google, Meta e Microsoft. In risposta, intermediari come Cloudflare e TollBit stanno offrendo ai publisher strumenti tecnici per imporre una forma di negoziazione attraverso paywall e sistemi di blocco avanzati. Il futuro del web potrebbe dipendere da quale di questi modelli prevarrà: una coesistenza economicamente sostenibile o una frammentazione che ridurrà il web libero a un mare di contenuti sintetici generati dall'AI.