News Perplexity AI accusata di scraping illegale
3' 34''
05/08/2025

Cloudflare scopre che aziende di ricerca IA ignorano i divieti di scansione e tentano di nascondere i loro bot dai controlli di sicurezza web.

Perplexity AI accusata di scraping illegale

La battaglia tra chi pubblica contenuti online e chi li raccoglie attraverso l'intelligenza artificiale ha raggiunto un nuovo livello di intensità, con accuse precise rivolte a Perplexity, la startup che sviluppa un motore di ricerca basato su AI. L'azienda sarebbe stata sorpresa a mascherare deliberatamente i propri bot di raccolta dati, ignorando le direttive esplicite dei siti web che non vogliono essere scansionati. Questo comportamento rappresenta una violazione delle regole non scritte che hanno governato per decenni il rapporto tra i crawler automatici e i proprietari di contenuti digitali.

Quando i bot cambiano identità per aggirare i blocchi

Gli ingegneri di Cloudflare hanno documentato un pattern di comportamento particolarmente preoccupante. Quando Perplexity si trova di fronte a un blocco di rete, i suoi bot non si arrendono semplicemente, ma modificano la propria identità digitale per continuare a raccogliere dati. Gabriel Corral e il suo team hanno osservato come la startup modifichi ripetutamente il proprio user agent e cambi gli indirizzi IP di origine, operando al di fuori del range ufficiale dell'azienda.

Il meccanismo di evasione è sofisticato: i bot utilizzano indirizzi IP appartenenti a reti diverse e si mascherano da browser generici, imitando Google Chrome su macOS. In questo modo riescono a effettuare milioni di richieste quotidiane di dati, aggirando sia i file robots.txt sia le regole dei firewall web application specificamente configurate per bloccare PerplexityBot e Perplexity-User.

Il protocollo robots.txt sotto attacco

Il file robots.txt rappresenta da tre decenni il gentlemen's agreement del web, un modo educato per i siti di comunicare ai crawler automatici quali risorse possono accedere e quali no. Nato nel 1994 dalla penna di Martijn Koster come parte del Robots Exclusion Protocol, questo sistema si basa sulla buona fede e sulla conformità volontaria.

Tuttavia, i dati di TollBit dipingono un quadro allarmante: nel primo trimestre del 2025, la percentuale di bot che ignorano completamente i file robots.txt è schizzata dal 3,3% al 12,9%.

26 milioni di scansioni AI hanno bypassato i robots.txt solo a marzo
In totale, durante lo stesso periodo, le attività di scraping sono aumentate dell'87%, segnalando una crescita esplosiva dell'appetito delle aziende AI per i contenuti web.

Un'economia digitale sempre più squilibrata

La situazione attuale rappresenta un drammatico capovolgimento rispetto al passato, quando i crawler rappresentavano una benedizione ambivalente per i proprietari di siti web. Essere visitati dal crawler di Google significava potenzialmente apparire nell'indice di ricerca e attrarre traffico umano, con conseguenti possibili ricavi pubblicitari. Ora questo equilibrio si è spezzato: i bot prendono molto più di quanto restituiscano.

I numeri forniti da TollBit sono eloquenti: mentre Bing mantiene un rapporto di 11 scansioni per ogni visita umana reindirizzata, le app basate esclusivamente su AI mostrano proporzioni drasticamente diverse. OpenAI registra un rapporto di 179:1, Perplexity arriva a 369:1, mentre Anthropic tocca la cifra strabiliante di 8692:1.

La differenza tra addestramento e RAG

Non tutti i crawler AI operano con gli stessi obiettivi. Mentre alcuni raccolgono dati per l'addestramento di modelli linguistici, altri utilizzano una tecnica chiamata Retrieval Augmented Generation (RAG) per accedere a informazioni aggiornate in tempo reale. Questa seconda categoria ha mostrato una crescita particolarmente aggressiva, con un aumento del 49% nel primo trimestre 2025, quasi due volte e mezzo superiore alla crescita dei bot orientati all'addestramento.

Il RAG alimenta servizi come le AI Overviews di Google e Perplexity Search, permettendo alle AI di fornire risposte basate su contenuti non presenti nei dati di addestramento originali. Questo crea una dipendenza continua dai contenuti web, trasformando ogni query degli utenti in una potenziale operazione di scraping.

Le soluzioni emergenti e il futuro incerto

Consapevoli del crescente malcontento, alcune aziende AI hanno tentato di ricucire i rapporti. Perplexity ha lanciato il suo Publisher Program per compensare i partner partecipanti, mentre varie compagnie hanno stretto accordi con grandi editori. Reddit, detentore di preziosi contenuti generati dagli utenti, ha visto migliorare significativamente il proprio business grazie a questi accordi.

Tuttavia, la maggior parte dei siti web rimane esclusa da questi negoziati con giganti come Amazon, Google, Meta e Microsoft. In risposta, intermediari come Cloudflare e TollBit stanno offrendo ai publisher strumenti tecnici per imporre una forma di negoziazione attraverso paywall e sistemi di blocco avanzati. Il futuro del web potrebbe dipendere da quale di questi modelli prevarrà: una coesistenza economicamente sostenibile o una frammentazione che ridurrà il web libero a un mare di contenuti sintetici generati dall'AI.

Condividi questo contenuto