Indica un intervallo di date:
  • Dal Al
economia

I dati al plurale di Jeremy Singer-Vine. L’intervista

Si chiama Data is plural ed è una delle più importanti newsletter per chi lavora con i dati. Forte di oltre 29mila iscritti, presenta ogni settimana cinque dataset, su argomenti che spaziano dall’economia alla scienza, toccando però anche temi più leggeri, come ad esempio il prezzo della pizza a New York. A curarla è Jeremy Singer-Vine, 36enne datajournalist americano con esperienze al Wall Street Journal e a Buzzfeed. InfoData lo ha incontrato a Milano per parlare della sua newsletter ma anche dello stato del datajournalism nel mondo. Oltre che della sua ultima iniziativa, il Data liberation project, nata per rendere accessibili dataset governativi ma non aperti.

Nella comunità di chi lavora con i dati è celebre la sua newsletter, Data is plural. Vorrei proprio partire chiedendole perché ha scelto questo nome, che significato abbia.

“Mah, in realtà non è che ci sia tutta questa grande storia. Quando ho avuto l’idea di lanciare questa newsletter ho scritto un po’ di nomi possibili, questo in particolare mi è piaciuto perché il fatto se la parola ‘data’ sia singolare o plurale è un tema di dibattito, almeno nella comunità di lingua inglese. Mi è sembrato divertente celebrare questa discussione. Almeno all’inizio: poi, più ci pensavo, più mi piaceva l’ambiguità di questo nome, che sottende anche altri significati. Quello che mi è piaciuto di più fa riferimento alla pluralità di dati a disposizione e dei modi in cui si possono rappresentare. Insomma, c’è un mondo di dati che vale la pena di esplorare e di capire”.

Come è nata l’idea di questa newsletter e come si è evoluta nel corso degli anni?

“All’epoca in cui l’ho lanciata speravo che esistesse già, nel senso che cercavo un modo di scoprire nuovi dati. Certo, ci sono molti posti in rete in cui puoi trovare grandi cataloghi di dataset, ma non avevo mai trovato un luogo in cui trovare aggiornamenti regolari su dataset da fonti differenti. Quando ho capito che non esisteva, ho pensato che sarebbe stato divertente realizzarlo in prima persona. Quindi ho sperimentato, fatto un po’ di ricerca e di pratica e ho scoperto che avevo di fronte una sfida affascinante. E allora ho deciso di fare diventare reale questa cosa, di darle un nome e di renderla pubblica”.

Ma che tipo di obiettivi si poneva?

“Onestamente, non avevo un obiettivo a lungo termine. Però mi piaceva questo tipo di lavoro e così ho continuato. Posso dire che con il tempo la newsletter si è evoluta, incorporando sempre più risorse nella mia ricerca, ma il formato e la filosofia non sono cambiate: una breve introduzione e cinque paragrafi dedicati ad altrettanti dataset nei quali cerco di fornire le informazioni sufficienti a destare l’interesse di chi legge rispetto a questi dati. Ecco, l’unico sviluppo è stato a marzo del 2021 quando ho realizzato un sito per la newsletter, che funziona per lo più come un archivio testuale”.

Dove e come trova i dataset che condivide settimanalmente con gli iscritti? Se può raccontarcelo, ovviamente..

“Certamente, non è un segreto (ride, ndr). Le modalità sono diverse: la mia preferita è quella di ottenere raccomandazioni da parte dei lettori, una fonte che è cresciuta negli anni. Poi ci sono alcune dozzine di blog e di newsletter che seguo, come Quantum of Sollazzo di Giuseppe Sollazzo o Fair warning di Sophie Warnes. Ho poi attivato una serie di alert su Google scholar per paper su temi economici che menzionino dei dataset e dei feed su portali di pubblicazione dati come l’Harvard dataverse. E poi ci sono alcune ricerche mirate su Twitter”.

Quanti sono gli iscritti alla newsletter?

“Sono 29mila, un’ordine di grandezza superiore a quello che mi aspettavo. Anzi, in realtà quando sono partito mi ero dato l’obiettivo di raggiungere i 100 iscritti. Mi sarei accontentato di familiari, amici e colleghi. Invece mi ha sorpreso di vedere così tanti iscritti, tra i quali ci sono anche profili che non mi aspettavo. Ci sono, ad esempio, molti bibliotecari, persone che lavorano in università, ricercatori, ma anche insegnanti e professori che usano i dati che segnalo nella loro attività didattica. Oltre, ovviamente, a giornalisti che cercano dataset per le loro storie”.

E che tipo di feedback riceve?

“Quello che mi piace di più riguarda il fatto che sono stati utilizzati i dati che ho segnalato nella newsletter. Ci sono, come dicevo, anche molte indicazioni di dataset correlati a quelli pubblicati o che vale la pena inserire in uno dei prossimi numeri. Diciamo che la mia parte preferita di questo lavoro è la comunicazione con i lettori. In fondo, quella che si instaura con loro è una conversazione”.

C’è una linea editoriale che ha dato alla sua newsletter?

“Cerco sempre di dare grande varietà ai dati che propongo nelle newsletter, in primo luogo rispetto ai temi di cui si occupano, ma anche mescolando dataset più seri ad altri più divertenti. Al di là di questo, cerco dei dati che immagino possano essere utili per altre persone. Ci sono poi dei database importanti ma che non rispettano questi criteri o perché sono eccessivamente semplici o perché, al contrario, sono così complessi che possono essere compresi solo dagli specialisti. Per questo tendo ad escluderli dalla mia newsletter”.

Lei si è occupato di datajournalism per oltre un decennio. Come è cambiata, nel corso degli anni, la professione?

“Penso che questo lavoro si sia professionalizzato molto negli ultimi dieci anni. Vedo sempre più persone che pensano a come migliorare i processi e il rigore con cui raccontano le notizie. Molto di questo è merito del National institute for computer-assisted reporting. Credo che la comunità di datajournalist abbia preso consapevolezza delle sfide che ha di fronte e di come le affronta, di come rendere riproducibile il propio lavoro e di come sia importante sviluppare delle guide stilistiche per le proprie visualizzazioni. Allo stesso tempo, ho visto crescere il rispetto per chi lavora con i dati: il datajournalism sta diventando una componente standard del lavoro redazionale, non è più una novità o un elemento di curiosità. Si sente bisogno di dati e c’è meno confusione rispetto al loro ruolo”.

La pandemia è stata la più grande esperienza data driven della storia umana. Dal punto di vista di un datajournalist, cosa abbiamo imparato?

Credo che ci siano migliaia di lezioni diverse. Mi viene in mente ad esempio il fatto che la pandemia abbia insegnato alle persone ad essere maggiormente consapevoli rispetto alla complessità dei dati. Penso specialmente ai primi giorni, quelli più caotici, in cui era incredibilmente importante anche per il pubblico capire cosa significassero i numeri della pandemia e da dove arrivavano. Ad esempio che 100 casi non significano semplicemente 100 casi, ma 100 tamponi positivi riportati su un totale di test effettuati: bisogna comprendere il processo con cui sono elaborati, la storia che c’è dietro a questi dati”.

E le redazioni, cosa hanno imparato?

“Certamente hanno capito quanto i dati siano utili ai loro lettori. E quanto, almeno per la pandemia, sia importante disegnare un trend più che fornire il dato specifico. Diciamo che sono maggiormente consapevoli dei dettagli”.

Sempre a proposito della pandemia, in questi giorni arrivano dati relativi a contagi e decessi in Cina, che gli esperti giudicano sottostimati. Se il Sars-CoV-2 è stato un test sulla trasparenza per le democrazie occidentali, qual è il risultato?

“Non so dire se abbiano passato questo test. Posso dire, però, che la pandemia ha rivelato molto rispetto alla situazione e ai limiti della gestione dei dati da parte dei governi, almeno negli Stati Uniti. Un paese, il mio, in cui abbiamo un governo federale che gestisce alcuni aspetti, ma poi ci sono gli stati se non le singolee contee che sono custodi di dati molto importanti. E questo è stato particolarmente vero proprio durante la pandemia. C’era così tanto interesse rispetto a queste informazioni e tante persone che le cercavano che è emerso in modo chiaro quanto la struttura organizzativa incida rispetto alla disponibilità dei dati. Il governo federale ha fatto molto per migliorare la gestione e la pubblicazione di quelli relativi alla Covid-19: rispetto al 2020 ne vengono condivisi di più e si raccolgono meglio. Certo, restano dei limiti, che dipendono dalle diverse maniere in cui i singoli stati raccolgono i dati”.

Quest’ultimo aspetto ci dà modo di parlare del Data liberation project. Può spiegarci gli obiettivi di questa iniziativa e le ragioni per cui l’ha lanciata?

“È un progetto nato a settembre dello scorso anno, un tentativo di identificare e ottenere, sia attraverso il Foia (il Freedom of information act, quello che in Italia si chiama accesso civico generalizzato, ndr) che ricorrendo al webscraping (l’estrazione di dati da un sito, ndr), dataset governativi che siano di largo interesse pubblico. Non soltanto per renderli aperti, ma anche utili: voglio fare in modo che isano facili da capire, in modo tale che non siano più qualcosa cui ha accesso solo il governo, che è l’unico che sa come usarli. L’idea di questo progetto mi è venuta dal mio lavoro nel datajournalism: sapevo che ci sono molti dati interessanti, però le redazioni si concentrano solo su quelli legati alle storie che pubblicano. A Buzzfeed eravamo orgogliosi della nostra trasparenza, del fatto cioé che pubblicassimo i dataset e spiegassimo come li avevamo costruiti. Ma la principale responsabilità era quella di pubblicare articoli e inchieste, quindi potevamo impegnare del tempo solo sui dati finalizzati a questi ultimi. Il Data liberation project è un tentativo di esplorare questa idea, attingere dall’esperienza che ho accumulato nel lavoro redazionale e nella ricerca dei dati e applicarla nella liberazione di dataset governativi”.

E quando arriveranno i primi dati liberati?

“Entro un paio di mesi al massimo pubblicheremo i primi. Questo lavoro ha dei tempi tecnici: per ottenere una risposta ad un Foia possono volerci mesi, se non addirittura anni. Il webscraping è più veloce e ci consentirà di pubblicare i primi dataset. Il primo è un database della Environmental protection agency e riguarda le aziende che utilizzando prodotti chimici pericolosi e che ogni 5 anni sono tenute a riportare le sostanze che utilizzano ed eventualmente che tipo di incidenti si sono verificati. Abbiamo ottenuto dati che risalgono indietro fino al 1999, stiamo lavorando sulla loro qualità, quindi pubblicheremo sia quelli grezzi che il dataset che abbiamo sistematizzato”.

Cosa la guida nella scelta dei dati da liberare?

“Mantengo un mindset giornalistico, è inevitabile. Ma quel modo di pensare è utile anche al di fuori di una redazione, perché ti porta a farti domande e a voler comprendere i fenomeni in profondità”.