Visualizzare i valori nulli con Python

In un articolo precedente abbiamo già visto come identificare e rimuovere i valori nulli. Ora scopriremo come rappresentarli graficamente.

I nostri dati

Immaginiamo di avere a disposizione un set di dati di 1500 righe come il seguente estratto, in cui ci sono dei valori nulli (qui evidenziati in rosso):

 
dataframe_null

Immagine 1

 

Le librerie da importare

Per visualizzare il numero, la distribuzione e la frequenza dei valori nulli in questo dataframe, abbiamo bisogno di importare alcune librerie:

#librerie classiche per l'analisi dei dati
import pandas as pd
import numpy as np

#librerie per la visualizzazione dei dati
import seaborn as sns
import missingno as msno

Costruire un grafico a colonne

Una volta importate le librerie necessarie, andremo a costruire la nostra visualizzazione. In questo primo esempio, ci concentreremo su un comunissimo grafico a colonne che renderà evidente il numero di valori nulli in ogni colonna del nostro dataframe (qui chiamato df).

Ecco come fare:

msno.bar(df)

Ed ecco qui il risultato:

 

Immagine 2

 

In questo grafico l’altezza delle colonne indica i valori che non sono nulli. Di conseguenza, le colonne più basse sono quelle che presentano al loro interno il numero maggiore di valori nulli.

Possiamo scegliere di personalizzare ulteriormente questo grafico, ad esempio cambiandone il colore, le dimensioni e la grandezza dei caratteri, impostando dei nuovi valori per i parametri visti in questo articolo sui grafici a colonne.

Costruire un grafico a griglia

Una visualizzazione meno convenzionale dei valori nulli può essere ottenuta costruendo un grafico a griglia. In questo caso, ci basta la seguente linea di codice, dove abbiamo specificato alcuni parametri supplementari per aumentare la leggibilità del grafico:

msno.matrix(df, figsize=(10,7), fontsize=10)

Ed ecco qui il nostro grafico a griglia:

 

Immagine 3

 

Il grafico a griglia ci permetto di comprendere la distribuzione dei valori nulli all’interno di ciascuna colonna del nostro dataframe. Qui infatti ogni riga bianca, indica la presenza di un valore nullo.

Per questo motivo, il grafico a griglia offre una rappresentazione di semplice comprensione anche ad un primissimo sguardo.

Marco Racanelli