Rimuovere le righe basate su valori nulli con il drop ((() e isna() Funzioni in Pandas II
In questo tutorial, ci immergiamo nei meccanismi essenziali per gestire i valori mancanti nei progetti di data science in Python, utilizzando la potente libreria Pandas.
I dati mancanti possono assumere tre forme principali: Missing Completely at Random (MCAR), Missing at Random (MAR) e Missing Not at Random (MNAR). Riconoscere questi tipi è cruciale per capire l'integrità dei dati.
Per identificare i valori mancanti all'interno di un data frame, il metodo in Pandas si rivela invaluable. Questa funzione ci consente di individuare dove si trovano i valori nulli nel nostro dataset.
Navigando all'interno di un Jupyter Notebook, il comando garantisce che il codice precedente venga eseguito nuovamente, offrendo un nuovo inizio quando necessario.
Quando i dati vengono importati in Python tramite Pandas, il segnaposto per i valori mancanti è NaN (Not-A-Number) o NaT (Not-A-Time) per i tipi di dati datetime.
Per sostituire i valori mancanti con un valore specificato, il metodo viene in nostro aiuto. In questo tutorial, l'autore utilizza il metodo Pandas DataFrame per sostituire i valori mancanti con il valore "Missing".
Il metodo, quando incatenato con , restituisce il numero di valori mancanti per tutte le colonne in un data frame. Ciò fornisce una panoramica rapida dell'entità dei dati mancanti.
Quando si tratta di tagliare un data frame e visualizzare le porzioni che soddisfano determinati criteri, il comando è uno strumento utile. Ad esempio, può essere utilizzato per visualizzare le righe nel data frame in cui la colonna "origin" ha un valore nullo.
Nella dimostrazione, i valori mancanti nella colonna "origin" vengono sostituiti con "Missing". È importante notare che nelle tabelle dei dati, le celle vuote sono anch'esse considerate valori mancanti.
I dati possono essere mancanti a causa di errori umani/macchina, non-risposta, atrofia o cancellazione. Anche se questo tutorial si concentra sui meccanismi base per pulire i valori mancanti per migliorare l'integrità dei dati, è importante considerare la natura più profonda dei valori mancanti nelle fasi successive del progetto.
Nel dataset utilizzato per questo tutorial, non ci sono molti valori esplicitamente mancanti. Questo tutorial si basa sulla conoscenza acquisita in "Pandas Essentials I", offrendo una solida base per l'analisi e la manipolazione dei dati con Python.
Infine, per eliminare una colonna utilizzando , fornire il nome della colonna e come argomenti. Il metodo in Pandas può essere utilizzato per rimuovere una colonna da un data frame, se necessario.