Salta al contenuto

Esplorare oltre le stime: immergersi nelle previsioni dei dati in più verifiche

Essenziale per i data scientist è padroneggiare la validazione incrociata e la sua applicazione nel lavoro quotidiano. Principalmente, la validazione incrociata viene utilizzata per valutare le prestazioni del modello e regolare iperparametro, ma fornisce anche insights extra. Raccolti i...

Esplorazione Oltre le Stime: Immersione Approfondita nelle Previsioni Fuori dal Campione...
Esplorazione Oltre le Stime: Immersione Approfondita nelle Previsioni Fuori dal Campione utilizzando Tecniche di Valutazione incrociata

Esplorare oltre le stime: immergersi nelle previsioni dei dati in più verifiche

Nel mondo della scienza dei dati, due progetti intriganti sono recentemente emersi, ognuno dei quali evidenzia l'importanza della validazione incrociata e delle rappresentazioni visive nel rilevare errori inaspettati e migliorare le prestazioni del modello.

In un progetto incentrato sulla classificazione degli eventi del veicolo, il modello era stato progettato per analizzare le posizioni relative del veicolo e del traffico circostante rispetto alle corsie. Tuttavia, una svolta interessante si è verificata quando è stato scoperto che le corsie non erano state considerate nel modello a causa della mancanza di dati sulla distanza dei veicoli circostanti dalle corsie.

Nonostante questa limitazione, il modello è stato in grado di classificare determinati eventi, come i cambi di corsia del veicolo stesso o l'accelerazione e i cambi di corsia dei veicoli anteriori, utilizzando i dati temporali dei sensori sonar. I dati utilizzati in questo progetto includevano anche la velocità relativa degli oggetti circostanti, le distanze del proprio veicolo dai veicoli circostanti e dalle corsie, e le registrazioni della telecamera per l'etichettatura degli eventi.

Tuttavia, il modello ha incontrato previsioni false positive con alta probabilità. Per affrontare questo problema, la curvatura delle corsie è stata rilevata nel dataset e sono state create caratteristiche esplicite che misuravano le distanze dei veicoli circostanti e delle corsie in base alle formule geometriche.

Nel frattempo, in un progetto di manutenzione predittiva, il modello si è trovato di fronte a una sfida diversa: le previsioni false negative, che erano difficili da prevedere a causa dei guasti imprevisti dei veicoli. L'esame delle previsioni fuori dal campione ha rivelato queste false negative, che erano circondate da molti campioni negativi accurati.

La scienziata dei dati, Zeynep Akata, ha investigato le caratteristiche dei dati attraverso le previsioni fuori dal campione nella validazione incrociata per un progetto di previsione dei difetti del veicolo. Ha scoperto errori inaspettati nell'assegnazione dei stati funzionali del veicolo. In un caso, sono state trovate tre false positive nella matrice di confusione di un classificatore progettato per prevedere i risultati specifici dei test della macchina.

Le previsioni fuori dal campione o fuori dalla piega della validazione incrociata offrono informazioni preziose sulla prestazione del modello e sul dataset. Possono aiutare a rilevare problemi nei dati, come gli errori di etichetta o le limitazioni all'interno dei dati, ispirando idee per potenziali miglioramenti.

Le rappresentazioni visive delle previsioni del modello, come le animazioni brevi, sono state utilizzate per presentare al cliente le previsioni false positive in entrambi i progetti. Questi ausili visivi non solo hanno aiutato a comprendere le previsioni del modello, ma hanno anche contribuito a identificare eventuali errori di etichetta nel dataset.

In conclusione, questi progetti mettono in evidenza l'importanza della validazione incrociata e delle rappresentazioni visive nel rilevare gli errori inaspettati e migliorare le prestazioni del modello. Essi servono come testimonianza del potere dell'esplorazione dei dati e della continua ricerca di migliorare le soluzioni della scienza dei dati.

Leggi anche:

Più recente