• analiticas
  • Posts
  • 5 comandi per esplorare i dati con pandas

5 comandi per esplorare i dati con pandas

Scopriamo le basi dell'analisi esplorativa con Python.

Comprendere i dati con cui si lavora è il primo passo per qualsiasi tipo di analisi. In questa micro-lezione passeremo in rassegna 5 comandi essenziali per ogni analisi esplorativa.

1. Visualizzare l’inizio e la fine del dataframe

Se lavori con un set di dati che non conosci, una delle primissime cose da fare è quella di dargli uno sguardo.

df.head()

Il comando head() ci mostrerà la parte iniziale del nostro dataframe (negli esempi chiamato df), in particolare le prime 5 righe (5 è il valore di default).

In realtà possiamo specificare il numero di righe da guardare. Basta fare così:

# mostrare le prime 10 righe

df.head(10)

# mostrare le prime 25 righe

df.head(25)

Allo stesso modo, il comando tail() serve per dare un’occhiata alle ultime righe del nostro dataframe:

# mostrare le ultime 5 righe

df.tail()

# mostrare le ultime 10 righe

df.tail(10)

# mostrare le ultime 25 righe

df.tail(25)

2. Conoscere le colonne del dataframe

Se invece vogliamo solo visualizzare i nomi delle colonne del nostro set di dati, ci basta eseguire il comando:

df.columns

In questa maniera, vedremo una lista delle colonne che compongono il nostro dataframe.

3. Comprendere i tipi di dati del dataframe

Anche se abbiamo un’idea di come è fatto il nostro set di dati, è importantissimo scoprire i tipi di dati (data types in inglese) che lo compongono.

Per farlo, dobbiamo eseguire il comando:

df.dtypes

In questa maniera, scopriremo il tipo di dati (numerici, booleani, date, stringhe, ecc.) di ciascuna delle colonne del nostro dataframe.

4. Scoprire i valori unici per ogni colonna

Se siamo interessati ad una colonna in particolare del nostro set di dati possiamo eseguire il comando:

df['colonna'].value_counts()

In questa maniera vedremo quante volte ogni valore è ripetuto all’interno della colonna, scoprendo di fatto i valori unici. La lista sarà generata in ordine decrescente, partendo quindi dai valori ripetuti più volte.

5. Capire le colonne numeriche del dataframe

Se il nostro dataframe contiene delle colonne con valori numerici, la libreria pandas dispone di una maniera immediata per avere una panoramica di questi.

Prova ad utilizzare il comando describe():

df.describe()

Così facendo, scopriremo:

  • Quanti valori (non necessariamente unici) sono contenuti in ogni colonna.

  • Il valore massimo e quello minimo.

  • La media e la mediana.

  • Il 25% e il 75% percentile.

  • La deviazione standard.

Per ricevere micro-lezioni come questa via email, iscriviti alla newsletter!