Indica un intervallo di date:
  • Dal Al
politica

Open data e vaccini in Lombardia, Comune per Comune. #ThinkTallyTeach

I dati sulla campagna di vaccinazione sono stati condivisi da Regione Lombardia in formato open data. I dati sono forniti su hub.dati.lombardia.it e raccolgono informazioni riguardo somministrazioni erogate in Lombardia dei vaccini anti covid-19, con dettaglio comunale, di proprietà dell’Osservatorio Epidemiologico. Le parole da sottolineare sono open data, perché il portale ha davvero quello di cui c’è bisogno perché i dati possano essere definiti tali, al contrario di tante altre occasioni in cui informazioni sulla pandemia non sono state condivise allo stesso modo (talvolta dalla stessa Regione Lombardia). Dati che hanno permesso di realizzare una mappa della campagna vaccinale, a livello comunale, esplorabile per cercare il proprio comune.

 Cosa ci piace

Informazioni chiare su aggiornamento e licenza: Il set di dati si presenta bene, fin dalle informazioni fornite, che comprendono data di creazione, frequenza di aggiornamento, data di ultimo aggiornamento di dati e metadati, compreso di orario di ultima modifica e licenza di utilizzo.

I metadati: anche le altre informazioni che descrivono i dati sono complete. Compresi di numero di righe e colonne ben evidenti. Che potrà sembrare poco importante, ma si è rivelato subito fondamentale nei test effettuati per la connessione tramite API e nel controllo dei vari formati di estrazione. Il risultato di uno dei test estraeva 1001 righe di dato, evidentemente meno delle 1507 del dataset completo. Errore subito individuato.

La granularità del dato: cosa intendiamo con granularità? Il livello di dettaglio a cui viene aggregato il dato. Una delle domande fondamentali nell’analisi di ogni fonte dato è a cosa corrisponde ogni riga del nostro dataset. Più il dato è aggregato (e meno è granulare) più l’analisi è generalizzata. Meno è aggregato (più è granulare) più può permetterci di andare in profondità nell’analisi. Per capire la logica le aggregazioni geografiche sono molto intuitive. Un dato aggregato a livello regionale è meno granulare di uno a livello provinciale, molto meno di uno comunale. E soprattutto dal dato comunale possiamo comunque risalire a quello regionale (ovviamente se abbiamo tutti i comuni) se avessimo necessità di avere una vista più di overall. Nel dataset sui vaccini anti-covid siamo a un dettaglio comunale, con campi quantitativi sul totale di vaccinati con prima dose e con seconda dose. Si potrebbe fare di più ma è già un dettaglio interessante.

Il codice Istat: e se volessimo mappare i nostri dati? Non tutti i tool hanno la possibilità di mappare automaticamente tutti i comuni lombardi, compresi quelli più piccoli. Soprattutto un campo di tipo stringa come il nome del comune potrebbe non essere univocamente riconosciuto da tutti i tool allo stesso modo o non sarebbe semplice da incrociare con altre possibili fonti dato per poter dare contesto all’analisi. Prendiamo ad esempio il comune di Brissago-Valtravaglia. E se in una base dato che voglio combinare con i dati sui vaccini fosse scritto Bissago Valtravaglia (senza trattino)? I due record non corrisponderebbero. Il codice Istat è invece univoco e ci permette di combinarlo con tantissimi dati del nostro Istituto di Statistica. È quello che abbiamo fatto per mappare il dato e aggiungere contesto. La mappa è costruita sfruttando gli shapefile Istat, file spaziali che ci permettono di disegnare i poligoni dei comuni e geolocalizzarli. Anche l’Informazione sulla popolazione arriva da Istat ed è stata combinata per aggiungere contesto, pesando le vaccinazioni sul numero di abitanti.

Open data: i dati sono davvero aperti e abbiamo la possibilità di esportarli e connetterci con tante diverse modalità. Tim Berners-Lee, il fondatore del World wide web, ha classificato il formato dei dati su una scala a cinque stelle: una stella corrisponde al minimo di apertura, cinque stelle al massimo. Il minimo di apertura corrisponde a un formato .pdf o un’immagine .jpg, dati non strutturati e codificati in formato proprietario. Tra i formati scaricabili sul portale abbiamo .csv o.xml, dato strutturato in un formato non proprietario, che può essere aperto da qualsiasi software. Un formato a tre stelle nella classifica di Tim Bernres-Lee. Ma c’è di meglio. Regione Lombardia presenta anche dati strutturati e codificati in formato non proprietario e dotati di un identificativo unico di risorsa come lo standard RDF. In supporto per la connessione è possibile anche sfruttare l’API Socrata Open Data (SODA), che fornisce un accesso programmatico a questo gruppo di dati, compresa la capacità di filtrare, eseguire query e aggregare dati. La documentazione per l’utilizzo è linkata e completa. Anche un collegamento OData è un’opzione, possibile tramite connettore nativo in programmi come Tableau.

Cosa possiamo ancora migliorare

La granularità del dato: è vero il dettaglio comunale è interessante. Ma si può fare di meglio. Magari archiviando lo storico del dato con un campo data (anche se comporterebbe il graduale esplodere della base dato andando avanti nel tempo) o aggiungendo l’informazione per fasce d’età e la tipologia di vaccino somministrato.

Il contesto: il codice Istat è importantissimo. Ci ha permesso di disegnare la nostra mappa e combinare informazioni sulla popolazione. Il numero delle persone vaccinate già presente in questo dataset è significativo fino a un certo punto ed è proprio il motivo per cui abbiamo ritenuto necessario aggiungere l’informazione sulla popolazione. Un dato percentuale potrebbe essere aggiunto direttamente in tabella?

La connessione tramite API: nei test di estrazione l’output presenta solo 1001 record. Non sappiamo se sia una problematica esclusivamente riscontrata nei nostri test, ma lo segnaliamo.

La connessione Odata per Tableau: un’ottima alternativa, anche per tenere il dato automaticamente aggiornato. Abbiamo riscontrato problemi a localizzare il server e nel caricamento dei dati. L’altro piccolo limite è che il connettore Odata di Tableau lavora solo in estratto e non permette di effettuare delle cross-database join con altre tabelle provenienti da diverse fonti dato. Per esempio con lo shapefile Istat. Un limite che è comunque un appunto, viste le connessioni alternative possibili sul portale.

Concludendo

La strada è quella giusta. Dati aperti, ben documentati, con diverse possibilità di estrazione e connessione. Aspettiamo altre informazioni (il più granulari possibile) mantenendo questi standard.