Autore Daniel Kahneman
CoautoreOlivier Sibony, Cass R. Sunstein
Titolo Rumore
SottotitoloUn difetto del ragionamento umano
EdizioneUtet, Milano, 2021 , pag. 528, ill., cop.rig.sov., dim. 16x23,7x4 cm , Isbn 978-88-511-8554-1
OriginaleNoise: A Flaw in Human Judgment
TraduttoreEleonora Gallitelli
LettoreGiorgio Crepe, 2022
Classe psicologia , economia , medicina , diritto












 

| << |  <  |  >  | >> |

Indice


Introduzione - Due tipi di errore                           9


    I. TROVARE IL RUMORE

 1. Delitto e rumoroso castigo                             19
 2. Un sistema rumoroso                                    30
 3. Decisioni singole                                      43


    II. LA MENTE COME STRUMENTO DI MISURA

 4. Questioni di giudizio                                  53
 5. Misurare l'errore                                      66
 6. L'analisi del rumore                                   82
 7. Rumore occasionale                                     94
 8. Come i gruppi amplificano il rumore                   111


    III. IL RUMORE NEI GIUDIZI PREDITTIVI

 9. Giudizi e modelli                                     130
10. Regole prive di rumore                                144
11. Ignoranza oggettiva                                   160
12. La valle della normalità                              172


    IV. COME NASCE IL RUMORE

13. Euristiche, bias e rumore                             187
14. L'operazione di matching                              204
15. Scale                                                 217
16. Schemi                                                232
17. Le fonti di rumore                                    243


    V. MIGLIORARE I GIUDIZI

18. Giudici migliori per giudizi migliori                 259
19. Eliminazione dei bias e igiene decisionale            272
20. Sequenziare le informazioni nella scienza forense     282
21. Selezione e aggregazione nelle previsioni             299
22. Linee guida in medicina                               316
23. Definire la scala nelle valutazioni delle prestazioni 333
24. Strutturare le assunzioni                             349
25. I1 protocollo a valutazioni intermedie                364


    VI. RUMORE OTTIMALE

26. I costi della riduzione del rumore                    384
27. Dignità                                               395
28. Regole o standard?                                    408


Sintesi e conclusioni - Prendere sul serio il rumore      423

Epilogo - Un mondo con meno rumore                        441

Appendice A - Come condurre un controllo del rumore       443
Appendice B - Una checklist per l'osservatore decisionale 451
Appendice C - Correggere le previsioni                    455

Ringraziamenti                                            461
Note                                                      463
Indice analitico                                          509


 

 

| << |  <  |  >  | >> |

Pagina 9

Introduzione
Due tipi di errore



Immaginate quattro squadre di amici che vanno a giocare al tiro a segno. A ogni squadra di cinque persone viene assegnato un fucile, e a ciascun partecipante spetta un tiro. La figura 1 mostra i risultati. L'ideale sarebbe che ogni tiro colpisse il centro del bersaglio.

La squadra A ci va molto vicina. I tiri si concentrano nel tondino centrale, in una configurazione quasi perfetta.

Possiamo dire che la squadra B è affetta da bias - cioè da un errore sistematico, che ricorre in maniera prevedibile in particolari circostanze -, perché i suoi tiri cadono sistematicamente fuori dal centro del bersaglio. Trattandosi di una deviazione costante, come illustra la figura, è possibile fare una previsione: se un membro di quella squadra dovesse fare un altro tiro, c'è da scommettere che cadrebbe nella stessa zona dei primi cinque. La costanza di questa deviazione ci induce poi a cercare una spiegazione causale: forse il mirino del fucile assegnato a questo gruppo era nella posizione sbagliata.

La squadra C, invece, potremmo definirla affetta da rumore, perché i suoi tiri sono sparpagliati qua e là. Non c'è un'ovvia deviazione, in quanto i colpi si concentrano, grosso modo, in un'area uniforme intorno al centro del bersaglio. Se un membro della squadra facesse un altro tiro, difficilmente sapremmo prevedere dove andrebbe a colpire. Inoltre non ci viene in mente nessuna ipotesi interessante per spiegare i risultati di questa squadra. Capiamo che i suoi membri sono scarsi come tiratori, ma non sapremmo spiegare il perché di tanto rumore.

La squadra D è affetta tanto da bias quanto da rumore. Come per la B, i suoi tiri mancano sistematicamente il centro, e come per la C, sono sparpagliati qua e là.

Ma questo non è un libro sul tiro a segno: a noi interessa l'errore umano. Bias e rumore - deviazione sistematica e dispersione casuale - sono due diverse componenti dell'errore. I bersagli ne illustrano la differenza.

Il tiro a segno funge da metafora per gli sbagli che è possibile commettere nel giudicare, specialmente nelle decisioni di vario tipo che occorre prendere per conto di un'organizzazione. In tali situazioni, troveremo i due tipi di errore illustrati nella figura 1. Certi giudizi sono affetti da un bias: mancano sistematicamente il bersaglio, mentre altri sono intaccati dal rumore, come quando individui che dovrebbero convenire su un punto colpiscono zone diversissime del bersaglio. Molte organizzazioni, purtroppo, sono funestate tanto dal bias quanto dal rumore.

La figura 2 illustra una differenza importante tra bias e rumore: indica cosa vedreste al tiro a segno se vi mostrassero solo il retro dei bersagli delle quattro squadre, senza alcuna indicazione del punto a cui stavano mirando.

Osservando soltanto il retro è impossibile dire se si sia avvicinata di più al centro la squadra A o la squadra B, ma si capisce subito che nelle squadre C e D c'è un certo rumore, mentre in A e B no. In effetti, riguardo alla dispersione la figura 2 ci dà le stesse informazioni della figura 1, né più né meno. Una delle proprietà generali del rumore è che è possibile riconoscerlo e misurarlo senza sapere nulla del bersaglio o del bias.

La suddetta proprietà è cruciale per i fini di questo libro, perché molte delle conclusioni che trarremo provengono da giudizi di cui non si conosce, né forse si può conoscere, la veridicità. Quando più medici formulano diagnosi diverse per lo stesso caso, è possibile analizzare questa difformità di giudizio senza sapere di cosa soffre il paziente. Quando dei produttori cinematografici ipotizzano il mercato potenziale di un film, possiamo studiare la variabilità delle loro proposte senza sapere se poi il film abbia avuto successo o sia mai stato prodotto. Non serve sapere chi ha ragione per valutare quanto varino i giudizi su uno stesso caso: per misurare il rumore non dobbiamo fare altro che guardare dietro il bersaglio.

Per comprendere un errore di giudizio occorre capirne sia il bias sia il rumore. Qualche volta, come vedremo, il problema principale è il rumore, ma nei discorsi sull'errore umano e nelle organizzazioni di tutto il mondo è raro che il rumore venga riconosciuto: è sempre il bias a occupare il centro della scena. Il rumore fa solo da comparsa o, spesso, resta addirittura fuori dalla scena. Il tema del bias è stato affrontato in migliaia di articoli scientifici e decine di testi divulgativi, ma sono in pochi a fare cenno al problema del rumore. In questo libro ci proponiamo di ristabilire un equilibrio.

Spesso, nelle decisioni che prendiamo giorno per giorno, il tasso di rumore è scandalosamente alto. Ecco alcuni esempi dell'enorme peso che ha il rumore in situazioni che richiederebbero grande accuratezza di giudizio:


La medicina è affetta da rumore. Di fronte allo stesso paziente, medici diversi esprimono giudizi diversi sull'eventualità che il paziente abbia un tumore alla pelle o al seno, soffra di cardiopatia, tubercolosi, polmonite, depressione e una pletora di altre patologie. Il rumore è particolarmente elevato in ambito psichiatrico, dove, per forza di cose, il giudizio soggettivo è importante. Tuttavia, si ritrova un alto tasso di rumore anche in aree del tutto inaspettate, per esempio nella lettura delle radiografie.

Le decisioni sull'affidamento dei minori sono affette da rumore. Gli assistenti sociali devono valutare se i minori sono a rischio di maltrattamenti e, in tal caso, se darli in affido. L'elevata quantità di rumore all'interno del sistema si traduce in una maggiore propensione da parte di alcuni assistenti sociali rispetto ad altri a ricorrere alla procedura di affidamento. A distanza di anni, molti degli sfortunati che sono passati per le mani di questi coordinatori inclementi ne pagano le tristi conseguenze: tassi più alti di delinquenza e gravidanze precoci, e redditi più bassi.

Le previsioni sono affette da rumore. Chi si occupa per lavoro di previsioni offre pronostici altamente variabili sulle probabilità di vendita di un nuovo prodotto, sulle probabilità di aumento del tasso di disoccupazione, sulle probabilità di fallimento delle aziende in difficoltà; insomma, praticamente su tutto. Sono in disaccordo non solo l'uno con l'altro, ma anche con se stessi. Per esempio, quando, in due giorni diversi, agli stessi sviluppatori di software fu chiesta una stima del tempo di completamento di un certo compito, le loro previsioni in termini di ore di lavoro differirono in media del 71%.

Le decisioni sulle richieste di asilo sono affette da rumore. Per un richiedente asilo l'ammissione negli Stati Uniti è una specie di lotteria. Da uno studio di casi assegnati a giudici diversi in maniera casuale è emerso che un giudice aveva ammesso il 5% dei richiedenti, un altro l'88%. Il titolo dello studio è di per sé molto eloquente: La roulette dei rifugiati. (E qui di roulette ne vedremo tante.)

Le decisioni dell'ufficio del personale di un'azienda sono affette da rumore. Gli addetti al reclutamento effettuano valutazioni diversissime dei medesimi candidati, e anche gli indici di performance degli stessi impiegati sono altamente variabili e dipendono più da chi effettua la valutazione che dalla performance stessa.

Le decisioni sulla libertà provvisoria sono affette da rumore. Che a un accusato venga concessa la libertà provvisoria o che sia invece mandato in carcere in attesa del processo dipende in larga parte dall'identità del giudice. Alcuni sono più indulgenti di altri, anche quando si tratta di valutare quali imputati presentino il più elevato rischio di fuga o di recidiva.

La scienza forense è affetta da rumore. Tendiamo a pensare che l'identificazione tramite impronte digitali sia infallibile, ma, a volte, tra gli esperti c'è chi individua una corrispondenza tra un'impronta trovata sulla scena del delitto e quella di un sospettato, e chi no. Non solo non vi è accordo tra gli esperti, ma capita che, analizzando la stessa impronta in circostanze diverse, lo stesso esperto formuli giudizi incoerenti. Una simile variabilità è documentata in diversi ambiti della scienza forense e perfino nelle analisi del DNA.

Le decisioni sull'assegnazione dei brevetti sono affette da rumore. Gli autori di un importante studio sulle domande di brevetti fanno notare quanto rumore si riscontri anche in quel campo: «La concessione di un brevetto dipende in larga misura dall'esaminatore che per puro caso viene assegnato alla domanda». Tale variabilità, naturalmente, costituisce un problema in termini di equità.


Tutte queste situazioni ad alto tasso di rumore sono solo la punta di un grosso iceberg. In qualsiasi tipo di giudizio umano ci sarà con ogni probabilità un certo grado rumore; cercare di debellarlo, così come eliminare il bias, è l'unico modo che abbiamo per migliorare la qualità dei nostri giudizi.

Questo libro consta di sei parti. Nella prima analizzeremo la differenza tra rumore e bias, e mostreremo come le organizzazioni, sia pubbliche sia private, possano essere "rumorose", a volte in una misura sconvolgente. Per comprendere il problema, partiremo dai giudizi formulati in due ambiti: quello delle sentenze penali (settore pubblico) e quello delle assicurazioni (settore privato). A prima vista queste due aree non potrebbero essere più diverse, ma, nella prospettiva del rumore, hanno molto in comune. Per dimostrarlo, introdurremo il concetto di "controllo del rumore", volto a misurare il livello di disaccordo tra professionisti che si occupano degli stessi casi all'interno di un'organizzazione.

Nella seconda parte indagheremo sulla natura del giudizio umano e cercheremo di capire come misurare l'accuratezza e l'errore. Come detto, i giudizi sono affetti da bias e rumore, e proveremo a descrivere come, sorprendentemente, questi due tipi di errore abbiano un ruolo analogo. Analizzeremo il rumore occasionale, che consiste nella variabilità dei giudizi formulati sullo stesso caso da parte della stessa persona o dello stesso gruppo in occasioni diverse, e vedremo come questo influisca nelle discussioni di gruppo attraverso fattori apparentemente irrilevanti, come chi prende la parola per primo.

La terza parte si concentrerà su un tipo di giudizio già ampiamente studiato: il giudizio predittivo. Ci soffermeremo sui principali vantaggi dell'affidarsi a regole, formule e algoritmi piuttosto che agli esseri umani quando si tratta di fare previsioni: contrariamente a quanto spesso si crede, il motivo non è tanto la superiorità delle regole, quanto la loro assenza di rumore. Discuteremo del limite qualitativo fondamentale del giudizio predittivo, ovvero l'ignoranza oggettiva del futuro, che, insieme al rumore, contribuisce a limitare la qualità della predizione. Infine affronteremo una domanda che a questo punto quasi certamente vi sarete posti: se il rumore è davvero così onnipresente, come mai ve ne siete accorti soltanto adesso?

Nella quarta parte ci sposteremo nell'ambito della psicologia, analizzando le cause principali del rumore. Tra queste vi sono le differenze interpersonali dovute a vari fattori, come la personalità e lo stile cognitivo; le variazioni idiosincratiche del peso attribuito a diversi elementi; gli usi differenti che le persone fanno delle stesse scale di valutazione. Cercheremo poi di capire perché la gente tende a ignorare il rumore e spesso non si sorprende davanti a eventi e giudizi che non avrebbe mai potuto prevedere.

La quinta parte affronterà il problema pratico di come migliorare i propri giudizi ed evitare di sbagliare. (I lettori interessati soprattutto alle applicazioni pratiche della riduzione del rumore possono saltare la trattazione delle sfide della previsione e della psicologia del giudizio affrontata nella terza e quarta parte, e passare direttamente a questa sezione.) Considereremo i tentativi per contrastare il rumore condotti in ambito medico, aziendale, formativo, governativo e non solo. Presenteremo alcune tecniche di riduzione del rumore, che riuniremo sotto l'etichetta di "igiene decisionale", illustreremo cinque casi studio in ambiti noti per l'elevata presenza di rumore e in cui si è lavorato molto per ridurlo, provando a trarre conclusioni istruttive dai diversi gradi di successo ottenuti. I casi di studio riguardano diagnosi mediche inaffidabili, indicatori di performance, scienze forensi, decisioni sulle assunzioni e previsioni in senso generale.

Concluderemo presentando un sistema che abbiamo chiamato "protocollo di valutazione mediata": un approccio per la valutazione delle opzioni disponibili valido in tutti i campi, che comprende varie importanti prassi di igiene decisionale ed è teso a ridurre il rumore e pervenire a giudizi più affidabili.

Qual è il giusto livello di rumore? Questa domanda verrà affrontata nella sesta parte. Contro ogni aspettativa, il giusto livello non è zero. In certe aree è impossibile eliminare il rumore. In altre, è troppo costoso. In altre ancora, gli sforzi per ridurre il rumore andrebbero a discapito di importanti valori in contrasto tra loro: per esempio, potrebbero abbattere il morale e dare alle persone coinvolte l'impressione di essere trattate come rotelle di un ingranaggio. Quando si cerca la risposta negli algoritmi, sorgono le obiezioni più disparate, e qui ne affronteremo alcune, ma ciò non toglie che l'attuale livello di rumore sia inaccettabile. Esortiamo quindi le organizzazioni pubbliche e private a effettuare dei controlli del rumore e a sforzarsi di ridurlo con la massima energia e serietà. Così facendo, potrebbero abbattere le disparità più diffuse, nonché i costi, in molte aree.

Tenendo in mente questo obiettivo, concluderemo ogni capitolo con qualche breve citazione. Potrete prenderle alla lettera oppure adattarle alle questioni che più vi premono, che si tratti di salute, sicurezza, istruzione, denaro, lavoro, tempo libero o altro. Comprendere il problema del rumore, e cercare di risolverlo, è un processo in via di definizione che richiede uno sforzo collettivo, a cui tutti noi abbiamo l'opportunità di contribuire. Questo libro è stato scritto nella speranza di poter cogliere questa opportunità.

| << |  <  |  >  | >> |

Pagina 316

22. Linee guida in medicina



Alcuni anni fa un nostro amico, che chiameremo Paul, riceve una diagnosi di ipertensione dal suo medico di base, che chiameremo dottor Jones. Il dottore gli consigliò di provare dei farmaci, prescrivendogli un diuretico, che però non ebbe alcun effetto: la pressione di Paul restava alta. Dopo qualche settimana gli prescrisse un secondo farmaco, un calcio-antagonista, ma anche qui l'effetto fu limitato.

Questi risultati lasciarono perplesso il dottor Jones. Dopo tre mesi di visite settimanali i valori della pressione di Paul calarono leggermente, ma erano ancora alti. Non si sapeva come procedere. Paul era preoccupato e il dottore turbato, anche perché il suo paziente era un uomo relativamente giovane e in buona salute. Prese anche in considerazione l'idea di provare con un terzo farmaco.

A quel punto avvenne che Paul si trasferì in un'altra città, dove consultò un altro medico di base, che chiameremo dottor Smith. Paul raccontò al dottore dei suoi costanti problemi di ipertensione, al che lui gli rispose subito: «Compri un misuratore di pressione e controlli i suoi valori. A me non sembra che abbia la pressione alta. Probabilmente ha solo la sindrome da camice bianco: la sua pressione schizza in alto quando entra in uno studio medico!».

Paul seguì la sua indicazione e, come previsto dal medico, a casa la sua pressione era normale, e così rimase da allora (un mese dopo aver appreso della sindrome da camice bianco, la pressione si normalizzò anche nello studio del dottore).

Uno dei compiti principali dei medici sta nell'effettuare delle diagnosi per stabilire se un paziente sia affetto da malattia e, nel caso, identificarla. Spesso le diagnosi richiedono un certo tipo di giudizio, e per molti disturbi sono un'operazione di routine, quasi meccanica, che prevede l'applicazione di regole e procedure per ridurre al minimo il rumore. Di solito è facile per un medico stabilire se una persona si è lussata una spalla o si è fratturata un piede. Lo stesso si può dire che valga per problemi più tecnici: la quantificazione del grado di degenerazione di un tendine non produce molto rumore; di fronte a un'agobiopsia delle lesioni al seno, la valutazione del patologo è relativamente semplice e poco soggetta a rumore.

Vi sono poi diagnosi che non richiedono alcun giudizio. Spesso le cure mediche pervengono a un'eliminazione dell'elemento del giudizio, passando da quest'ultimo al calcolo: per una faringite, il medico comincerà con un rapido test antigenico a partire da un prelievo di muco dalla gola del paziente, e in breve tempo il test sarà in grado di rilevare la presenza dello streptococco. (Senza il risultato del test rapido antigenico, e a volte anche con, le diagnosi della faringite sono soggette a rumore.) Con un livello di glicemia a digiuno pari o superiore a 126 milligrammi per decilitro, o un'emoglobina glicata (o HbA1c, che permette di misurare la glicemia media degli ultimi tre mesi) di almeno 6,5, verrà diagnosticato il diabete. Nelle prime fasi della pandemia di Covid-19, alcuni medici effettuavano diagnosi sulla base di un giudizio sui sintomi, poi con il tempo ci si è affidati sempre più ai tamponi, che l'hanno reso superfluo.

Molti sanno che quando i medici esercitano il proprio giudizio possono essere soggetti a rumore, e possono sbagliare; normalmente si consiglia ai pazienti di chiedere un secondo parere, e anzi in alcuni ospedali è addirittura una prassi obbligatoria. Ogni volta che il secondo parere diverge dal primo, si è in presenza di rumore, anche se naturalmente potrebbe non essere chiaro quale dei due medici abbia ragione. Alcuni pazienti (compreso Paul) restano basiti dalla discrepanza tra il primo e il secondo parere, ma ciò che dovrebbe sorprenderci non è l'esistenza del rumore nella professione medica, quanto la sua pervasività.

In questo capitolo ci proponiamo di motivare quest'affermazione e descrivere alcuni approcci per la riduzione del rumore impiegati in medicina, concentrandoci su una particolare strategia di igiene decisionale: lo sviluppo di linee guida diagnostiche. Siamo assolutamente consapevoli che si potrebbe dedicare un libro intero al rumore in questo campo, e alle varie azioni intraprese da medici, infermieri e ospedali per porvi rimedio. Vale la pena notare che la sua presenza non è circoscritta ai giudizi diagnostici, sui quali qui ci soffermeremo: anche i trattamenti possono essere soggetti a rumore, e vi è un'ampia letteratura anche su questo tema. Di fronte a un paziente con un problema cardiaco, i giudizi dei medici sul miglior trattamento da adottare variano in maniera sconcertante, che si tratti del giusto farmaco, del giusto tipo di intervento o della necessità stessa di un intervento. Il Dartmouth Atlas Project da più di vent'anni documenta «divergenze lampanti nella distribuzione e nell'impiego delle risorse mediche negli Stati Uniti». Simili conclusioni si possono trarre per molte altre nazioni. Per le finalità di questo libro, però, basterà un breve excursus sul rumore nei giudizi diagnostici.

[...]


Consideriamo alcuni altri risultati riportati nella letteratura scientifica, relativi a campi in cui il livello di rumore sembra particolarmente rilevante. Descriviamo tali dati non per dare giudizi perentori sullo stato attuale della prassi medica, che continua a evolversi e a migliorare (in certi casi anche rapidamente), ma per fornire un'idea generale della pervasività del rumore, nel recente passato come nel presente.


1. Le cardiopatie sono la prima causa di morte per uomini e donne negli Stati Uniti. L'angiografia coronarica, uno dei metodi principali per la rilevazione della cardiopatia, valuta la presenza di occlusioni nelle arterie coronarie in fase acuta e non. Nelle fasi non acute, quando un paziente presenta un dolore al petto ricorrente, spesso viene seguito un trattamento - per esempio il posizionamento di uno stent - se più del 70% di una o più arterie risulta ostruito. Tuttavia, si è riscontrato un certo grado di variabilità nell'interpretazione delle angiografie, che potrebbe condurre a procedure non necessarie: da uno studio iniziale, infatti, è emerso che nel 31% dei casi tra i medici vi è un disaccordo sul fatto che in un grande vaso vi sia un'ostruzione superiore al 70%. Malgrado la diffusa consapevolezza da parte dei cardiologi della potenziale variabilità nella lettura delle angiografie, e nonostante i continui sforzi e correttivi attuati in questo senso, il problema non è ancora stata risolto.

2. L'endometriosi è una malattia determinata dall'accumulo fuori dall'utero di cellule endometriali che dovrebbero trovarsi invece al suo interno. Si tratta di un disturbo doloroso, che può comportare problemi di sterilità. Spesso viene diagnosticato mediante laparoscopia, una tecnica che prevede l'inserimento di una piccola videocamera all'interno del corpo attraverso un intervento chirurgico. I filmati digitali di laparoscopie eseguite su tre pazienti, due affette da endometriosi di diversa gravità e una no, sono stati mostrati a centootto chirurghi ginecologi, ai quali è stato chiesto di esprimere un giudizio sul numero e la posizione delle lesioni dell'endometrio. Si è riscontrato un fortissimo disaccordo, con deboli correlazioni sia rispetto ai numero sia alla posizione.

[...]

4. Quando alcuni patologi hanno analizzato diverse lesioni cutanee per la diagnosi del melanoma - la forma più grave di tumore della pelle -, si è registrato un accordo appena "moderato": gli otto medici a cui sono stati sottoposti i casi hanno dato parere unanime o mostrato un unico punto di disaccordo soltanto nel 62% delle valutazioni. Un altro studio condotto presso un istituto oncologico ha riscontrato che l'accuratezza delle diagnosi di melanoma non superava il 64%, a indicare diagnosi errate per una lesione su tre. Da un terzo studio è emerso che i dermatologi della New York University non erano stati in grado di diagnosticare un melanoma mediante biopsia nel 36% dei casi; i ricercatori concludono che «l'insuccesso dei clinici nella diagnosi del melanoma ha gravi implicazioni per la sopravvivenza dei pazienti affetti da una patologia potenzialmente fatale».

5. Vi è variabilità nei giudizi dei radiologi sulle mammografie per l'individuazione del cancro al seno. Un ampio studio ha indicato che l'intervallo dei falsi negativi tra diversi radiologi variava dallo 0% (il giudizio era sempre corretto) a oltre il 50% (il giudizio dei radiologi si era dimostrato errato in più della metà dei casi). Analogamente, il tasso di falsi positivi variava da meno dell'1% al 64% (a indicare che in circa due terzi dei casi il radiologo sosteneva che la mammografia indicasse la presenza di un cancro laddove non era presente). I falsi negativi e i falsi positivi di diversi radiologi indicano la presenza di rumore.

Questi casi di rumore interpersonale prevalgono nelle ricerche esistenti, ma vi sono anche dati che attestano il rumore occasionale. Nel rivalutare la stessa immagine talvolta i radiologi danno un'indicazione diversa che contrasta con quella già espressa da loro stessi (anche se capita più spesso che siano in disaccordo con altri). Valutando il livello di ostruzione in un'angiografia, ventidue medici si sono dimostrati in disaccordo con la loro stessa analisi tra il 63% e il 92% delle volte. In campi caratterizzati da criteri vaghi e giudizi complessi, l'affidabilità intrarater, ovvero quella legata alla variabilità delle decisioni di uno stesso valutatore, può essere scarsa.

Questi studi non offrono una chiara spiegazione del rumore occasionale, ma un'altra ricerca, non basata sulle diagnosi, identifica una semplice fonte di rumore occasionale in medicina, un risultato che sia i medici sia i pazienti dovrebbero tenere a mente: in breve, è molto più probabile che i medici prescrivano uno screening per la prevenzione del cancro la mattina presto che nel tardo pomeriggio. In un ampio campione, il tasso più alto di prescrizioni di screening al seno e al colon, pari al 63,7%, si riscontrava alle otto di mattina, per poi ridursi nel corso della mattinata fino a raggiungere il 48,7% alle undici. Dopodiché aumentava di nuovo, arrivando a toccare il 56,2% a mezzogiorno, e si riduceva fino al 47,8% alle diciassette. Ne consegue che i pazienti che avevano fissato una visita a fine giornata avevano meno probabilità di sottoporsi a uno screening contro il cancro, raccomandato dalle linee guida mediche.

Come si spiegano simili risultati? Una possibile risposta è che inevitabilmente i medici accumulano un ritardo nel loro programma giornaliero dopo aver visitato pazienti con problemi medici complessi, che richiedono tempi superiori ai consueti venti minuti. Abbiamo già fatto riferimento al ruolo dello stress e della stanchezza nell'attivazione del rumore occasionale (vedi capitolo 7): ebbene, questi elementi sembrano intervenire anche qui. Per stare al passo con l'orario di ambulatorio, alcuni medici saltano il colloquio sulle misure di prevenzione. Un'altra indicazione del ruolo giocato dalla stanchezza nella pratica clinica è data dal basso tasso di lavaggi appropriati delle mani verso la fine dei turni ospedalieri. (Scopriamo così che anche lavarsi le mani è un'operazione affetta da rumore.)

| << |  <  |  >  | >> |

Pagina 423

Sintesi e conclusioni
Prendere sul serio il rumore



Il rumore è la variabilità indesiderata dei giudizi, e la sua presenza è dilagante. In questo libro ci siamo prefissi di spiegarne il motivo e di trovare delle possibili soluzioni. Abbiamo messo in campo molte idee e, a mo' di conclusione, riportiamo qui una breve sintesi dei punti principali per poi inserirli in una prospettiva più ampia.


Giudizi

Nell'accezione che qui abbiamo dato al termine, il giudizio non va confuso con l'attività del "pensiero". un concetto molto più ristretto: il giudizio è una forma di misurazione il cui strumento è la mente umana. Come altre misure, assegna a un oggetto un punteggio, che non deve essere necessariamente un numero. «Il tumore della signora Johnson è con ogni probabilità benigno» è un giudizio, come lo sono affermazioni quali: «L'economia nazionale è molto instabile», «Fred Williams sarebbe la persona migliore da assumere come nuovo manager» e «Il premio per assicurare questo rischio dovrebbe essere di dodicimila dollari». I giudizi integrano in maniera informale diverse informazioni in una valutazione complessiva. Non si tratta di calcoli o dell'applicazione di regole precise: un insegnante usa il giudizio per valutare un tema, ma non per assegnare un voto a un quiz a risposta multipla.

Molte persone esprimono giudizi professionali per lavoro, con forti ripercussioni sulla vita di ognuno di noi. Tra i giudici di professione, come qui li abbiamo chiamati, si annoverano allenatori di calcio e cardiologi, avvocati e ingegneri, produttori cinematografici, sottoscrittori assicurativi e molti altri ancora. I giudizi professionali rappresentano il focus di questo libro, sia perché già ampiamente studiati, sia perché il modo in cui vengono formulati ha un grande impatto su tutti noi. Riteniamo inoltre che le nostre acquisizioni possano applicarsi anche a giudizi che vengono richiesti in altri ambiti della vita.

Esistono giudizi che abbiamo definito predittivi, e alcuni di questi sono verificabili: prima o poi scopriremo se erano corretti. Di solito questo è il caso delle previsioni a breve termine su risultati quali gli effetti di un trattamento medico, l'andamento di una pandemia o gli esiti di un'elezione. Ma una gran parte di questi, per esempio le previsioni a lungo termine e le risposte a domande fittizie, non sono verificabili, e la loro qualità si può valutare solo sulla base di quella del processo di pensiero da cui sono emersi. Peraltro, molti giudizi non sono predittivi ma valutativi: la condanna emessa da un giudice o la posizione che si aggiudica un dipinto nella classifica di un premio non sono confrontabili con un valore reale oggettivo.

Curiosamente, però, chi esprime un giudizio si comporta sempre come se questo valore reale esistesse, come se vi fosse un bersaglio invisibile a cui puntare, impossibile da mancare di molto. Con l'espressione giudizio opinabile si indica sia possibilità di un disaccordo sia l'aspettativa che tale disaccordo sarà limitato. Le questioni di giudizio sono dunque caratterizzate dall'aspettativa di un disaccordo limitato e si collocano a metà tra le questioni di calcolo, in cui non è permesso alcun disaccordo, e quelle di gusto, in cui non ci si aspetta un grande accordo, eccetto in casi estremi.


Errori: bias e rumore

Diciamo che esiste un bias quando in un insieme di giudizi la maggior parte degli errori va nella stessa direzione. Il bias è l' errore medio, come, per esempio, quello che emerge quando al tiro a segno una squadra colpisce sistematicamente l'area in basso a sinistra del bersaglio; quando i dirigenti sono troppo ottimistici sulle vendite, anno dopo anno; quando una società continua a reinvestire in progetti fallimentari che dovrebbe invece abbandonare.

Eliminando il bias da un insieme di giudizi non si eliminerà del tutto l'errore. Gli errori che rimangono una volta rimosso il bias non sono condivisi: sono la divergenza non voluta nei giudizi, l'inaffidabilità dello strumento di misurazione che applichiamo alla realtà; sono il rumore, ovvero la variabilità di giudizi che dovrebbero essere identici. Il rumore sistemico è quello osservabile in organizzazioni che si avvalgono di professionisti intercambiabili per prendere decisioni, come i medici del pronto soccorso, i giudici che infliggono sanzioni penali e i sottoscrittori di una compagnia assicurativa. A questa tipologia di rumore è dedicata gran parte di questo libro.


Misurare il bias e il rumore

L' errore quadratico medio (o MSE) è da due secoli lo standard di accuratezza nelle misurazioni scientifiche. Le sue principali caratteristiche sono le seguenti: restituisce la media semplice come stima priva di bias della media della popolazione; tratta allo stesso modo errori positivi e negativi; penalizza gli errori gravi in maniera sproporzionata. L'MSE non riflette i costi reali degli errori di giudizio, che sono spesso asimmetrici. Detto ciò, le decisioni professionali richiedono sempre previsioni accurate: per una città che si prepara ad affrontare un uragano i costi di una sottostima o di una sovrastima della minaccia chiaramente non sono gli stessi, ma sarebbe opportuno che tali costi non influenzassero le previsioni meteorologiche sulla velocità e la traiettoria del temporale. L'MSE è lo standard appropriato per esprimere giudizi predittivi di questo tipo, quando si punta all'accuratezza, oggettiva.

Nella misurazione dell'MSE, bias e rumore vengono considerati due fonti indipendenti e cumulative di errore. Ovviamente il bias è sempre dannoso, e la sua riduzione aumenterà sempre l'accuratezza; meno intuitivo è il fatto che il rumore sia altrettanto dannoso, e la sua riduzione porti sempre a un miglioramento. Il miglior grado di dispersione è zero, anche quando i giudizi sono chiaramente affetti da bias. L'obiettivo, naturalmente, è ridurre al minimo sia il bias sia il rumore.

In un insieme di giudizi verificabili, il bias consiste nella differenza tra il giudizio medio su un caso e il corrispondente valore reale. Questo confronto è impossibile per i giudizi non verificabili: per esempio, il valore reale di un premio stabilito da un sottoscrittore per un particolare rischio non si potrà mai conoscere, così come quello di una condanna giusta per un particolare reato. Per questo motivo, spesso e volentieri (per quanto non sempre sia corretto) si parte dal presupposto che i giudizi siano privi di bias e che la media di molti giudizi sia la stima migliore del valore reale.

Il rumore di un sistema può essere valutato attraverso un controllo del rumore, un esperimento in cui diversi professionisti esprimono giudizi indipendenti sugli stessi casi (reali o fittizi). possibile misurare il rumore senza conoscere un valore reale, proprio come è possibile vedere, sul retro di un bersaglio, la dispersione di una serie di colpi. I controlli del rumore sono in grado di misurare la variabilità dei giudizi in molti sistemi, come in un reparto di radiologia o nel sistema della giustizia penale; talvolta possono richiamare l'attenzione su qualche lacuna nelle competenze o nella formazione, e sono in grado di quantificare il rumore sistemico, come quello che si presenta quando più sottoscrittori all'interno di uno stesso gruppo differiscono nella propria valutazione dei rischi.

Qual è il problema più grave, il bias o il rumore? Dipende dalla situazione, ma potrebbe benissimo essere quest'ultimo. Entrambi contribuiscono all'errore complessivo (MSE) nella stessa misura quando la media degli errori (il bias) è uguale alle deviazioni standard degli stessi (il rumore). Quando la distribuzione dei giudizi è normale (la classica curva a campana), gli effetti di bias e rumore sono uguali se l'84% dei giudizi si colloca al di sopra (o al di sotto) del valore reale: un bias considerevole, che spesso in un contesto professionale sarà facilmente identificabile. Quando il bias è inferiore a una deviazione standard, è il rumore la fonte principale dell'errore complessivo.


Il rumore è un problema

In alcuni giudizi la variabilità non è di per sé problematica, anzi può anche essere gradita. La diversità di opinioni è essenziale per formulare idee e opzioni, e i pareri contrastanti sono cruciali per l'innovazione: la pluralità di vedute tra critici cinematografici è un tratto caratteristico, non un intoppo; il disaccordo tra gli operatori finanziari è alla base dei mercati; le differenze strategiche tra startup rivali permettono agli investitori di scegliere quella che ritengono migliore. Nelle cosiddette questioni di giudizio, tuttavia, il rumore sistemico è sempre un problema: se due medici effettuano due diagnosi diverse, almeno uno avrà sbagliato.

Questo libro è nato dalla nostra sorpresa di fronte all'ubiquità del rumore sistemico e all'entità dei danni che esso produce, entrambe di gran lunga più consistenti di quanto ci si potrebbe aspettare. Abbiamo presentato esempi da molti campi, come il mondo degli affari, la medicina, la giustizia penale, l'analisi delle impronte digitali, le previsioni finanziarie, le valutazioni del personale e la politica, giungendo alla seguente conclusione: dove c'è giudizio, c'è rumore, e più di quanto non si pensi.

Il grande peso del rumore nell'errore contraddice la credenza condivisa che gli errori casuali non contino, perché "si compensano a vicenda". Non è affatto così: se più tiri si sparpagliano in ogni punto del bersaglio, non aiuta dire che, in media, colpiscono il centro; se un candidato riceve una valutazione più alta di quanto meriti e un altro una più bassa, è possibile che venga assunta la persona sbagliata; se per una polizza assicurativa viene fissato un prezzo troppo alto e per un'altra un prezzo troppo basso, entrambi gli errori costeranno cari alla compagnia, in quanto uno le farà perdere un cliente, l'altro le farà perdere soldi.

Insomma, possiamo essere certi che siamo in presenza di un errore di fronte a giudizi che variano senza un valido motivo. Il rumore è dannoso anche quando i giudizi non sono verificabili e l'errore non è misurabile: non è giusto che persone nella stessa situazione ricevano un trattamento diverso, e un sistema i cui giudizi professionali siano ritenuti incoerenti perde di credibilità.


Tipi di rumore

Il rumore sistemico si può suddividere in rumore di livello e rumore strutturale. Alcuni giudici sono generalmente più severi, altri più clementi; alcuni analisti finanziari generalmente scommettono al rialzo e altri al ribasso nelle prospettive di mercato; alcuni medici prescrivono antibiotici più spesso di altri: sono tutti esempi di rumore di livello, cioè della variabilità dei giudizi medi formulati da individui diversi. L'ambiguità delle scale di giudizio è una delle fonti di rumore di livello. Parole come "probabile" o anche numeri (per esempio "4 su una scala da 0 a 6") non hanno lo stesso significato per persone differenti. Il rumore di livello è un'importante fonte di errore nei sistemi di giudizio, nonché uno dei principali bersagli a cui devono mirare gli interventi volti alla riduzione del rumore.

Il rumore sistemico comprende un'altra componente, generalmente più ampia. A prescindere dal livello medio dei loro giudizi, due giudici possono avere idee diverse su quali siano i crimini che meritano le condanne più severe, e le loro decisioni produrranno una diversa classificazione dei casi. Chiamiamo questa variabilità rumore strutturale (il termine tecnico è interazione giudice x caso).

La principale fonte di rumore strutturale è stabile, e consiste nella differenza tra le reazioni personali e idiosincratiche dei giudici di fronte a uno stesso caso.

| << |  <  |  >  | >> |

Pagina 441

Epilogo
Un mondo con meno rumore



Immaginate come sarebbero le organizzazioni se venissero ripensate in modo da ridurre il rumore: ospedali, commissioni addette alle assunzioni, società di consulenza finanziaria, agenzie governative, compagnie assicurative, autorità sanitarie, sistemi di giustizia penale, studi legali e università sarebbero attentissimi al problema e farebbero di tutto per ridurlo. I controlli del rumore sarebbero di routine; forse verrebbero effettuati addirittura una volta all'anno.

I direttori delle organizzazioni impiegherebbero gli algoritmi in sostituzione o a integrazione del giudizio umano in molte più aree di quelle oggi interessate. Le persone scomporrebbero i giudizi complessi in valutazioni intermedie più semplici, sarebbero a conoscenza dell'igiene decisionale e ne seguirebbero le prescrizioni. Verrebbero richiesti giudizi indipendenti, successivamente aggregati. Le riunioni sarebbero molto diverse, le discussioni più strutturate. Nel processo decisionale verrebbe sistematicamente integrata una visione esterna, gli aperti contrasti sarebbero molto più frequenti e verrebbero risolti in maniera più costruttiva.

Ne risulterebbe un mondo con meno rumore, in cui si risparmierebbero molte risorse, migliorerebbero la sicurezza e la salute pubblica, aumenterebbe l'equità e si preverrebbero molti errori evitabili. Il nostro obiettivo in questo libro era di portare l'attenzione su questa opportunità. Ci auguriamo che voi e altri riuscirete a coglierla.

| << |  <  |