Guida per la pulizia dei dati: set di dati sui tassi di obesità
In un recente processo di pulizia dei dati, Paul Dreyer, un autore, ha trasformato il dataset "Obesità negli Adulti per Paese" disponibile su Kaggle, rendendolo adatto per l'analisi esplorativa dei dati (EDA).
Inizialmente, il dataset non era in un formato ben strutturato. Per migliorarne l'aspetto, il dataset è stato riformattato in modo da avere quattro colonne: paese, anno, genere e obesity_rate. La colonna "variabile" è stata eliminata in quanto ora rappresentata dalle colonne "anno" e "genere".
I nomi delle colonne nel dataset seguivano un modello in cui ogni terza colonna era un anno semplice. Queste colonne sono state trovate contenere informazioni ridondanti e potrebbero essere eliminate, poiché possono essere calcolate attraverso un'operazione matematica semplice. Il tipo di dati della colonna "obesity_rate" è stato quindi convertito in float.
Le colonne degli anni nel dataset contenevano un valore e una gamma. Il valore rappresentava la media del limite superiore e inferiore della gamma. Per semplificare il dataset, queste colonne degli anni sono state filtrate ed eliminate utilizzando un modello specifico.
È importante notare che il numero associato all'anno nel dataset indicava il genere: 1 rappresentava il genere maschile e 2 rappresentava il genere femminile. Per garantire chiarezza, il nome della prima colonna è stato cambiato in "paese".
Dopo aver apportato queste modifiche, il dataset aveva colonne che contenevano tassi di obesità medi negli anni semplici. Tuttavia, c'erano valori "No" nella colonna obesity_rate che non potevano essere convertiti in un valore numerico. Questi valori erano presenti solo in pochi paesi, che sono stati successivamente eliminati dal dataset.
Il dataset, ora in un formato appropriato, è stato controllato per eventuali valori mancanti. Dopo aver verificato la sua integrità, il dataset è stato convertito da un dataframe ampio a uno stretto utilizzando la funzione melt di pandas, considerata una "transposizione intelligente".
Il dataset "Obesità negli Adulti per Paese" ora contiene i tassi di obesità degli adulti in 195 paesi tra il 1975 e il 2016, rendendolo una risorsa preziosa per ricercatori e decisori politici.
Leggi anche:
- In generale gli agricoltori dovrebbero sostenere la conservazione del clima, ma spesso non lo fanno.
- L'UE stanzia 161 milioni di euro in aiuti umanitari per l'Afghanistan nel 2025
- Istruzioni per la configurazione di WildFly Java Application Server su Rocky Linux versione 9
- Influenza globale del Wi-Fi sulle società e le economie di tutti i continenti