Visualizzare i valori nulli con Python
In un articolo precedente abbiamo già visto come identificare e rimuovere i valori nulli. Ora scopriremo come rappresentarli graficamente.
I nostri dati
Immaginiamo di avere a disposizione un set di dati di 1500 righe come il seguente estratto, in cui ci sono dei valori nulli (qui evidenziati in rosso):
Immagine 1
Le librerie da importare
Per visualizzare il numero, la distribuzione e la frequenza dei valori nulli in questo dataframe, abbiamo bisogno di importare alcune librerie:
#librerie classiche per l'analisi dei dati import pandas as pd import numpy as np #librerie per la visualizzazione dei dati import seaborn as sns import missingno as msno
Costruire un grafico a colonne
Una volta importate le librerie necessarie, andremo a costruire la nostra visualizzazione. In questo primo esempio, ci concentreremo su un comunissimo grafico a colonne che renderà evidente il numero di valori nulli in ogni colonna del nostro dataframe (qui chiamato df).
Ecco come fare:
msno.bar(df)
Ed ecco qui il risultato:
Immagine 2
In questo grafico l’altezza delle colonne indica i valori che non sono nulli. Di conseguenza, le colonne più basse sono quelle che presentano al loro interno il numero maggiore di valori nulli.
Possiamo scegliere di personalizzare ulteriormente questo grafico, ad esempio cambiandone il colore, le dimensioni e la grandezza dei caratteri, impostando dei nuovi valori per i parametri visti in questo articolo sui grafici a colonne.
Costruire un grafico a griglia
Una visualizzazione meno convenzionale dei valori nulli può essere ottenuta costruendo un grafico a griglia. In questo caso, ci basta la seguente linea di codice, dove abbiamo specificato alcuni parametri supplementari per aumentare la leggibilità del grafico:
msno.matrix(df, figsize=(10,7), fontsize=10)
Ed ecco qui il nostro grafico a griglia:
Immagine 3
Il grafico a griglia ci permetto di comprendere la distribuzione dei valori nulli all’interno di ciascuna colonna del nostro dataframe. Qui infatti ogni riga bianca, indica la presenza di un valore nullo.
Per questo motivo, il grafico a griglia offre una rappresentazione di semplice comprensione anche ad un primissimo sguardo.