Paradosso di SimpsonIn statistica, il paradosso di Simpson indica una situazione in cui una relazione tra due fenomeni appare modificata, o perfino invertita, dai dati in possesso a causa di altri fenomeni non presi in considerazione nell'analisi (variabili nascoste). È alla base di frequenti errori nelle analisi statistiche nell'ambito delle scienze sociali e mediche, ma non solo[1]. StoriaFu descritto da George Udny Yule, nell'articolo Notes on the theory of association of attributes in Statistics, comparso in Biometrika nel 1903, e da E. H. Simpson, con l'articolo "The interpretation of interaction in contingency tables", pubblicato nel Journal of the Royal Statistical Society (1951). Definizione formaleBenché accade che dove è la probabilità di condizionata dall'evento congiunto e , è l'evento complementare di e è l'evento complementare di [2] EsempioSi ipotizzi una situazione nella quale la percentuale di disoccupati tra i diplomati sia la metà rispetto alla popolazione di chi non ha conseguito il diploma. Consideriamo però pure il fatto che, per motivi storici, tra le generazioni più anziane i diplomati siano in numero molto minore e che, per motivi legati al mercato del lavoro, tra i giovani il tasso di disoccupazione sia più elevato che tra gli anziani. Partendo dalle seguenti due statistiche ipotetiche:
dove abbiamo che in entrambi i casi la disoccupazione è circa doppia tra i non diplomati, rispetto ai diplomati, si può calcolare il numero di disoccupati:
Questi valori assoluti permettono ora di calcolare il tasso di disoccupazione per i non diplomati e per i diplomati senza tenere conto dell'età. Si ottiene:
Si scopre così che tra i diplomati il tasso di disoccupazione invece che essere la metà è maggiore di un quarto che tra i non diplomati, proprio il contrario di quello che si era ipotizzato. Questo paradosso è dovuto al fatto che il tasso di disoccupazione è nettamente maggiore nel gruppo che ha una maggiore percentuale di diplomati; trascurare l'esistenza di due relazioni fondamentali (quella tra disoccupazione ed età, nonché quella tra età e titolo di studio) fa giungere a conclusioni errate[3][4]. CauseMentre nel caso precedente preparato a tavolino la contraddizione è evidente, nelle analisi statistiche reali può capitare di non accorgersi delle relazioni implicite esistenti tra le variabili e limitarsi ad analizzare dati aggregati senza incrociarli con le variabili essenziali; la contraddizione non verrebbe allora minimamente percepita, e si potrebbero trarre conclusioni completamente opposte alla vera distribuzione, con conseguenze potenzialmente molto gravi. In situazioni meno estreme di quelle dell'esempio, le stesse cause del paradosso di Simpson possono portare a sovrastimare o sottostimare differenze tra gruppi, senza però capovolgere il "segno" della relazione. I dati prodotti dal paradosso di Simpson chiaramente non sono sbagliati in sé, ma semplicemente devono essere letti in modo diverso da come farebbe un lettore o analista superficiale:
Mentre sbagliata è la conclusione superficiale che usa concetti di causa-effetto, come
Volendo usare concetti di causa effetto (spesso l'unico motivo per il quale si analizzano i dati), ma avendo a disposizione tutti i dati, si può dire:
Note
Bibliografia(EN) Edward N. Zalta (a cura di), Paradosso di Simpson, in Stanford Encyclopedia of Philosophy, Center for the Study of Language and Information (CSLI), Università di Stanford. Altri progetti
|