In una micro-lezione precedente, abbiamo visto come identificare i valori nulli con la libreria pandas di Python.

In questo approfondimento scopriremo come ripulire i nostri dati, eliminando le righe e/o le colonne che contengono valori nulli.

Rimuovere tutte le righe con valori nulli

Se vogliamo eliminare le righe del nostro dataframe che contengono dei valori nulli possiamo utilizzare dropna(), aggiungendovi il parametro inplace per far sรฌ che venga applicato alla versione permanente del nostro dataframe.

df.dropna(inplace=True)

Rimuovere le righe che contengono dei valori nulli รจ il comportamento di default di dropna().

Se invece vogliamo essere espliciti possiamo scrivere:

df.dropna(axis='index', inplace=True)

oppure

df.dropna(axis=0, inplace=True)

Cosรฌ facendo rimuoveremo dal nostro dataframe tutte le righe che contengono almeno un valore nullo in qualsiasi colonna.

Rimuovere tutte le righe con almeno un valore nullo

Rimuovere le righe con valori nulli (solo in alcune colonne)

Con il parametro subset, possiamo specificare una o piรน colonne alle quali applicare il comando dropna().

In questo modo, elimineremo le righe solo se contengono dei valori nulli nelle colonne specificate.

df.dropna(subset=['cognome', 'id'], inplace=True)

Questa รจ una delle applicazioni piรน diffuse di dropna() perchรฉ ci permette di preservare lโ€™integritร  di alcune colonne chiave.

Rimuovere le righe con valori nulli solo nelle colonne โ€œcognomeโ€ e โ€œidโ€

Rimuovere tutte le colonne con valori nulli

Se invece vogliamo eliminare le colonne che contengono valori nulli, dobbiamo specificarlo quando utilizziamo dropna(). Possiamo farlo cosรฌ:

df.dropna(axis='columns', inplace=True)

oppure:

df.dropna(axis=1, inplace=True)

In questo modo stiamo eliminando tutte le colonne, nella loro interezza, che contengono almeno un valore nullo.

Rimuovere tutte le colonne con valori nulli

Alla prossima micro-lezione ๐Ÿ‘‹

Ti รจ piaciuto l'argomento di questa micro-lezione?

Login or Subscribe to participate