I fan della Guida galattica per gli autostoppisti sanno che la risposta a tutte le domande della vita, e dell’Universo è 42. Si scherza, ovviamente, anche se la tendenza a cercare la verità in un numero o in più numeri è qualcosa che ci riguarda da vicino. Noi di Infodata, sicuramente.
Quando usiamo dei dati facciamo riferimento implicitamente al concetto di significatività statistica. Quante volte ci siamo sentiti dire che non c’è differenza fra due gruppi intorno a un certo indicatore, perché questa diversità “non è statisticamente significativa”?
Davanti a dei dati, per esempio sull’efficacia di un certo trattamento su un gruppo di pazienti e sul gruppo di controllo, possiamo fare un’ ipotesi: l’ “ipotesi zero”, cioè che non esista nessuna differenza tra i gruppi riguardo al parametro. Questo vuole dire che le differenze osservate sono opera del caso. Per decidere se l’ipotesi zero è vera o falsa servono dei test statistici. Qualora questi mostrassero che l’ipotesi zero è falsa, e cioè che le variazioni non siano attribuibili al caso, allora potremmo dire che i dati in nostro possesso sono statisticamente significativi.
Il livello di significatività di un esperimento è definito come un valore (P) della probabilità che le differenze osservate siano dovute al caso. Convenzionalmente si definisce P= 0.05 (5% di probabilità), all’interno dell’intervallo reale compreso fra 0 (nessuna probabilità che la differenza osservata possa essere ascritta al caso) e 1 (certezza che la differenza osservata sia casuale).
P è quindi il valore più basso al quale l’ipotesi zero può essere respinta. Se P è inferiore a 0.05, avvicinandosi così di molto allo 0, significa bassa probabilità che la differenza osservata possa essere ascritta al caso, e dunque si parla di significatività statistica.
Bene: tutto fila, logicamente, ma la prassi in campo biomedico è un’altra cosa. In un commento apparso questa settimana su Nature , a firma di tre statistici, Valentin Amrhein, Sander Groenlandia, Blake McShane e sottoscritto da 800 firmatari, si richiede agli scienziati di abbandonare la significatività statistica, accusandola di permettere conclusioni troppo perentorie, lasciando poco spazio alle doverose sfumature.
Gli autori non richiedono che i valori di P stessi siano abbandonati come strumento statistico, piuttosto auspicano che si inizi a considerare l’incertezza da molteplici angolazioni in campo biomedico.
Qui sotto un estratto dello studio di Nature.
L’esempio riportato è il seguente: un’analisi sugli effetti non intenzionali dei farmaci antinfiammatori, ha mostrato risultati “statisticamente non significativi,” portando i ricercatori a concludere che l’esposizione ai farmaci era per questo non associata alla fibrillazione atriale. Questi risultati sono risultati però in contrasto con quelli di un studio precedente , che evidenziava differenze statisticamente significative. In realtà – spiegano gli autori – i ricercatori che descrivono i loro risultati “statisticamente non significativi” hanno rilevato un rapporto di rischio di 1,2 (cioè un rischio maggiore del 20% nei pazienti esposti rispetto a quelli non esposti), con un intervallo di confidenza del 95% che comprendeva sia una diminuzione del rischio insignificante del 3%, sia un aumento considerevole del rischio del 48%. Anche i ricercatori che avevano eseguito lo studio precedente avevano trovato lo stesso rapporto di rischio di 1,2. La differenza è che questo precedente studio era semplicemente più preciso, con un intervallo che va dal 9% al 33% di rischio maggiore.
È “ridicolo” – concludono gli autori – concludere che i risultati “statisticamente non significativi” non mostrino nessuna associazione, quando la stima dell’intervallo includeva aumenti seri di rischio. Ed è ugualmente assurdo affermare – continuano – che questi risultati siano in contrasto con i risultati precedenti che mostrano un identico effetto osservato. “Affidarsi ciecamente alle soglie di significatività statistica può fuorviare le scelte cliniche”.
Voi come la pensate?