Iniziative di formazione sull'intelligenza artificiale spingono avanti la raccolta dei dati, trasformando il modo in cui viene condotto lo scraping dei dati, con TikTok che diventa un attore importante
Nel panorama in continua evoluzione dell'intelligenza artificiale (AI), la corsa per diventare una fonte di dati critica è feroce. Questa année, le classifiche mostrano uno significativo shift, con le piattaforme video-centriche che dominano la scena.
TikTok, l'app di video brevi popolare, ha conquistato il primo posto tra i siti web più raspati, rappresentando una crescita del traffico del 321% rispetto al 2024. Le aziende estraggono vari tipi di dati da TikTok, tra cui contenuti video e metadati, tendenze degli hashtag, metriche di coinvolgimento degli utenti, dati sull'uso dell'audio e della musica, analisi dei creatori, sentiment dei commenti e dati di tendenza geografica. Questo contenuto diversificato è essenziale per l'addestramento dei modelli AI di prossima generazione.
YouTube, un'altra piattaforma incentrata sui video, è salita al quarto posto. Le organizzazioni stanno esplorando i video di YouTube per addestrare modelli in grado di comprendere il parlato, riconoscere gli oggetti, analizzare le espressioni facciali e rilevare le sfumature culturali nella narrazione visiva.
Google, nonostante sia sceso dal primo al secondo posto, ha mantenuto la sua posizione come fonte di dati critica. Google ha dimostrato una crescita del traffico del 84% rispetto al 2024, evidenziando la sua importanza continua nel mondo AI. Tuttavia, John Mueller, esperto di Google Search, ha avvertito contro la costruzione di responsabilità del sito con i contenuti automatizzati. Ha dichiarato che l'uso dei modelli del linguaggio grande per creare i cluster di argomenti fornisce "motivi per non visitare alcuna parte del tuo sito".
Amazon, pur essendo scesa dal secondo al terzo posto, ha dimostrato una crescita impressionante del 151% rispetto al 2024. Le aziende raccolgono i dati di elenchi dei prodotti e specifiche, i prezzi, le recensioni dei clienti, le informazioni sui venditori, la disponibilità del magazzino, i dati di classifica dei bestseller e la pubblicità dei prodotti sponsorizzati da Amazon. Tuttavia, Amazon ha bloccato i crawler AI di Meta, Google e Huawei l'21 agosto, con il nuovo file robots.txt che proibisce esplicitamente a queste aziende di raspare i dati dal più grande mercato online del mondo.
Crunchbase si è classificata al nono posto con una crescita del 132%, evidenziando la domanda di dati di intelligenza aziendale affidabili. ScienceDirect è entrato nelle classifiche all'ottavo posto con una crescita del 148%, riflettendo la crescente necessità di fonti di dati di alta qualità e accurati.
Coupang, una piattaforma di e-commerce, è emersa come un nuovo importante entrato al sesto posto con una crescita del 259%, evidenziando la globalizzazione della raccolta dei dati dell'e-commerce. Nel frattempo, Lazada e Zillow sono usciti dalle classifiche, sostituiti rispettivamente dai più grandi marketplace dell'e-commerce e dalle piattaforme di intelligenza aziendale più ampie.
Le compagnie più importanti che si sono sviluppate come fonti di dati chiave per l'addestramento delle intelligenze artificiali nel 2025 includono i principali editori e piattaforme dei media come YouTube, Instagram, Reddit e gli editori di notizie/media. I sistemi AI preferiscono i contenuti dei media affidabili che vengono spesso linkati e citati. OpenAI (sviluppatore di ChatGPT) gioca un ruolo centrale con i suoi modelli linguistici di grandi dimensioni addestrati su dataset diversificati.
Mentre le compagnie scommettono sul loro futuro avendo accesso ai dati aggiornati e affidabili per i modelli del linguaggio grandi (LLMs) e gli agenti AI, la sfida per gli editori è quella di identificare i visitatori del sito. Secondo le recenti ricerche di Wunderkind, l'84% degli editori non è in grado di identificare più del 25% dei loro visitatori.
In conclusione, l'ambiente guidato dall'AI favorirà le compagnie in grado di raccogliere, analizzare ed
Leggi anche:
- LG Ad Solutions presenta una ricerca approfondita sulla diversità, evidenziando modelli nel comportamento di visualizzazione della CTV
- L'impiego di enormi barriere coralline in India può causare più danni che benefici
- Esperimenti con porzioni più piccole per mantenere i costi gestibili
- Svelando un'organizzazione con sede in New England contro l'energia eolica, formando un'alleanza con Trump