Salta al contenuto

Previsioni di approcci degli scoiattoli a Central Park, il Parco iconico di New York, di SquirrelML

Ho scoperto un vasto patrimonio di dataset interessanti da NYCOpenData, concentrati su salute, ambiente, affari e istruzione. Il dataset del censimento delle ghiandaie di Central Park del 2018 ha attirato la mia attenzione, portandomi a ideare un piano. Questa raccolta di dati riguarda...

RiconoscimentoScoiattolo identificar pa attacco scoiattolo nei Patterns Central Park di New York...
RiconoscimentoScoiattolo identificar pa attacco scoiattolo nei Patterns Central Park di New York City

Previsioni di approcci degli scoiattoli a Central Park, il Parco iconico di New York, di SquirrelML

In un progetto affascinante del fine settimana, gli appassionati di dati hanno sviluppato un modello di machine learning per prevedere se una ghiandaia terriera di Central Park si avvicinerà a un essere umano. Il progetto, che utilizza il dataset del censimento delle ghiandaie terriere di Central Park del 2018, offre un mix unico di dati geospaziali, clustering, visualizzazione, ingegneria delle caratteristiche e addestramento del modello.

I dati e la preparazione

Il dataset, raccolto in due settimane da volontari a Central Park, contiene 3023 osservazioni uniche, 31 colonne e il 13% delle celle mancanti. La maggior parte delle ghiandaie terriere sono adulte e il loro colore di pelliccia principale è grigio. Le ghiandaie terriere sono state osservate più frequentemente sugli alberi.

Per affrontare l'imbalance del dataset, l'autore ha suddiviso i dati in set di addestramento e test utilizzando la suddivisione stratificata, preservando la percentuale di campioni per ciascuna classe. La colonna "Avvicinamenti" è altamente sbilanciata, con il 94,11% delle osservazioni che sono negative. Per affrontare questo problema, sono state utilizzate pesi bilanciati durante l'addestramento dei modelli.

Ingegneria delle caratteristiche e addestramento del modello

Il progetto ha comportato diverse fasi, tra cui l'algoritmo K-Means per il clustering delle segnalazioni di ghiandaie terriere in base alla posizione, la visualizzazione geospaziale delle segnalazioni di ghiandaie terriere su una mappa geospazialmente accurata di NYC e l'ingegneria delle caratteristiche per creare nuove caratteristiche dalle colonne testuali.

L'autore ha esaminato il punteggio dell'area sotto la curva ROC (Receiver Operating Characteristic Area Under the Curve) e il punteggio dell'area sotto la curva PR (Precision Recall Area Under the Curve) come metriche di valutazione. È stata condotta una ricerca sulla griglia sui modelli dell'albero decisionale e Random Forest utilizzando una suddivisione K-stratificata con 5 split e sono stati ottimizzati iperparametri utilizzando PR-AUC e ROC-AUC.

Distribuzione e valutazione del modello

Il modello Random Forest ha superato il modello dell'albero decisionale in termini di punteggio ROC-AUC (0,91 vs 0,77), ma entrambi i modelli hanno mostrato margini di miglioramento nella precisione e nel recall. Latitudine, longitudine e la colonna "Indifferente" sono state trovate tra le principali caratteristiche che contribuiscono alla previsione effettuata dal modello.

Per distribuire il modello, l'autore ha costruito un'interfaccia utente Streamlit che fornisce un'interfaccia per l'inserimento delle coordinate per ottenere una probabilità di avvicinamento di una ghiandaia terriera. Il modello è stato quindi distribuito in questa app Streamlit.

Per un approccio più completo, l'autore ha considerato l'utilizzo di tecniche di riduzione della dimensionalità come l'Analisi delle Componenti Principali (PCA) e l'Embedding Stochastic Neighbor t-Distributed (tSNE) per identificare schemi o cluster aggiuntivi all'interno dei dati. Tuttavia, un plot tSNE non è risultato particolarmente rivelatore.

Streamlining della distribuzione

Il processo di distribuzione comporta l'addestramento e il salvataggio del modello, la costruzione dell'interfaccia utente Streamlit che carica questo modello, il test locale e quindi la distribuzione su una piattaforma di hosting come Streamlit Cloud o Azure con opzionale CI/CD automazione per aggiornamenti semplificati. Streamlit ti consente di convertire rapidamente gli script Python in app web interattive, rendendo la distribuzione più semplice rispetto ai tradizionali framework web.

Per modelli complessi o dati in evoluzione, è possibile integrare pipeline automatizzate che ritrainano il tuo modello sui dati aggiornati e ridistribuiscono l'app utilizzando le pratiche CI/CD. L'app Streamlit di base include moduli UI o widget per gli input, legge il file del modello addestrato, effettua le previsioni e visualizza dinamicamente l'output.

In sintesi, questo progetto offre un esempio coinvolgente di come l'apprendimento automatico può essere applicato ai dati del mondo reale, dalla preparazione dei dati e l'ingegneria delle caratteristiche all'addestramento, alla calibrazione e alla distribuzione del modello. L'app Streamlit risultante fornisce un modo accessibile e interattivo per gli utenti per esplorare le previsioni del modello.

  1. L'approccio unico del progetto combina scienza, scienze ambientali, dati geospaziali e tecnologia per prevedere il comportamento delle ghiandaie terriere.
  2. Il campo affollato dei consigli sulla finanza personale ignora i metodi innovativi per la previsione degli incontri con le ghiandaie terriere utilizzando i dati e l'elaborazione cloud e l'apprendimento automatico.
  3. Nonostante la sua attenzione alle ghiandaie terriere di Central Park, questo studio potrebbe influire sulle scelte di vita nel settore casa e giardino e gli sforzi di conservazione ambientale più ampi.
  4. Nel mondo degli affari, il progetto dimostra il potere dell'analisi dei dati e dell'addestramento del modello per la risoluzione dei problemi e le decisioni strategiche.
  5. Per l'istruzione e lo sviluppo personale, questo progetto esemplifica l'importanza della manipolazione dei dati, dell'ingegneria delle caratteristiche e dell'addestramento del modello nell'era dell'intelligenza artificiale.
  6. Nel settore dei giochi, gli sviluppatori di casinò e scommesse potrebbero trovare ispirazione nella capacità del modello di prevedere eventi rari utilizzando l'analisi statistica e gli algoritmi di apprendimento automatico.
  7. Il valore di intrattenimento del progetto risiede nella sua combinazione di tecnologia, intuizioni basate sui dati e un soggetto insolito, rendendolo un servizio di notizie generali di interesse per un vasto pubblico.
  8. La comunità sportiva potrebbe trarre beneficio da un approccio simile basato sui dati per prevedere le prestazioni dei giocatori e i comportamenti del pubblico, utilizzando gli strumenti dei dati e l'elaborazione cloud e l'apprendimento automatico.

Leggi anche:

    Più recente