Salta al contenuto

L'analisi dell'intelligenza artificiale mostra una significativa disparità tra i dati utilizzati per la formazione e i riferimenti nel suo set di dati

Le piattaforme di Intelligenza Artificiale stanno consumando una quantità senza precedenti di contenuti, ma stanno consegnando scarsi risultati di traffico, secondo uno studio di Cloudflare.

L'analisi dei dati dellIntelligenza Artificiale rivela una significativa disparità tra l'utilizzo...
L'analisi dei dati dellIntelligenza Artificiale rivela una significativa disparità tra l'utilizzo dei dati nei processi di formazione e di riferimento

L'analisi dell'intelligenza artificiale mostra una significativa disparità tra i dati utilizzati per la formazione e i riferimenti nel suo set di dati

In una rivelazione storica, Cloudflare, un'azienda leader di infrastrutture e sicurezza internet, ha pubblicato i dati il 29 agosto 2025, mettendo in luce gli squilibri tra l'attività di crawling dei piattaforme AI e il traffico rimandato ai publisher. Questa analisi, che copre gennaio-luglio 2025, getta luce sulle tensioni economiche fondamentali tra i creatori di contenuti e le aziende AI.

I dati rivelano che le aziende AI priorizzano la raccolta di dati rispetto al valore di rimando ai creatori di contenuti. Ad esempio, Anthropic ha mantenuto il più alto squilibrio tra le piattaforme principali, con un rapporto di 38.065 crawls per rimando a luglio 2025. OpenAI seguiva da vicino con un rapporto di 1.091 crawls per rimando.

Per affrontare questo problema, Cloudflare ha lanciato un servizio a pagamento per ogni crawl il 1° luglio 2025. Questo servizio consente ai publisher di addebitare alle aziende AI per l'accesso ai contenuti attraverso le risposte HTTP 402 Payment Required, con l'obiettivo di creare un rapporto più equo tra i creatori di contenuti e le piattaforme AI.

Tuttavia, non tutte le aziende AI sono colpevoli di questo squilibrio. Il crawler di Meta presenta segnali contrastanti, con forti aumenti della quota di mercato mantenendo gli standard di verifica. Google's AI Overviews, dopo l'aggiornamento di marzo 2025 e il lancio di AI Mode a maggio, ha introdotto capacità di ricerca conversazionale e raccomandazioni personalizzate.

L'aumento dell'attività dei crawler AI e di ricerca è evidente nei dati. L'attività complessiva è aumentata del 32% anno su anno ad aprile 2025, prima di moderarsi al 24% a giugno e al 4% a luglio, suggerendo che il boom iniziale dei crawler AI potrebbe aver raggiunto la maturità.

In modo interessante, alcune piattaforme AI, come Bytespider di ByteDance e Amazonbot, hanno registrato significativi cali del traffico di crawling. Bytespider è passato dal 14,1% al 2,4%, mentre Amazonbot è passato dal 10,2% al 5,9% durante il periodo considerato.

La diminuzione dei rimandi da Google ai siti di notizie nel primo trimestre 2025 coincide con l'integrazione di Gemini 2.0 in AI Overviews e l'espansione della piattaforma sui mercati europei. Questo cambiamento nei modelli di traffico ha sollevato preoccupazioni tra i publisher.

GPTBot e Anthropic's ClaudeBot hanno visto aumenti delle quote di traffico di crawling AI, con GPTBot che passa dal 4,7% a luglio 2024 all'11,7% a luglio 2025, e ClaudeBot che passa dal 6% quasi al 10% nello stesso periodo.

Il crawling legato alla ricerca è sceso al 18% dell'attività totale dei bot AI durante il periodo da gennaio a luglio 2025, mentre le azioni intraprese dagli utenti hanno rappresentato solo il 2%. Il crawling legato all'addestramento ora guida quasi l'80% di tutta l'attività dei bot AI, un aumento rispetto al 72% documentato un anno prima.

Yandex ha aumentato il suo rapporto crawl-to-refer del 38,3% da gennaio a luglio 2025, mentre il rapporto crawl-to-refer di Microsoft è rimasto stabile tra il 38,5 e il 45,1% per tutto il 2025.

L'intensità di crawling di Perplexity è aumentata del 256,7% rispetto ai rimandi nel 2025, con un rapporto di 195 crawls per rimando a luglio.

Anthropic attualmente non ha protocolli di verifica, rendendola l'unica principale operatore AI senza meccanismi di autenticazione adeguati. Questa mancanza di trasparenza ha sollevato preoccupazioni tra i publisher, che stanno cercando approcci di licenza standardizzati per affrontare i problemi di accesso ai contenuti sistematici.

In risposta, il Tech Lab dell'IAB ha riunito più di 80 dirigenti dei media a luglio 2025 per affrontare queste preoccupazioni e sviluppare approcci di licenza standardizzati.

L'analisi di agosto 2025 di Cloudflare ha identificato i crawler più pesanti come principalmente quelli che operano dalle infrastrutture cloud tipiche dei botnet AI. Tuttavia, i nomi delle società e i loro esatti rapporti crawl-to-reference non sono dettagliati nei dati disponibili. Cloudflare ha notoriamente bloccato tale traffico dei bot AI per prevenire interruzioni, evidenziando che gli attacchi spesso provenivano da macchine cloud che corrispondevano ai modelli dei crawler AI.

Il rapporto crawl-to-refer di OpenAI è diminuito del 10,4% da gennaio a luglio 2025, mentre i rapporti crawl-to-refer di Google sono oscillati dal 3,8 a gennaio al 22,5 ad aprile, prima di stabilizzarsi a 5,4 a luglio.

Mentre il paesaggio digitale continua a evolversi, è fondamentale che i creatori di contenuti e le aziende AI lavorino insieme per garantire un ecosistema equo e sostenibile per tutte le parti interessate.

Leggi anche:

Più recente