Cât de bune sunt predicțiile noastre clinice și cum ne ajută instrumentele standardizate ?

24/07/2018

Un articol semnat de dr. psih. Marius M. Stanciu, recomandat tuturor celor care își doresc să practice psihologia bazată pe dovezi, cu adevărat în interesul clienților lor, dedicat celor care nu se tem să își (re)cunoască limitele, tocmai pentru a-și îmbunătăți abordarea și îmbrățișat de cei care au convingerea că drumul către o societate mai bună, include în primul rând creșterea competenței individuale.

Cât de bune sunt predicțiile noastre clinice?Acum mai bine de trei secole, celebrul filozof iluminist Immanuel Kant spunea că „geniul reprezintă capacitatea de a ajunge singur la anumite concepte sau concluzii fără ca ele să fi fost învățate sau preluate de la o altă persoană” (1790/1951). Din nefericire, realitatea e dură. Chiar și dacă operăm după înțelesul psihometric contemporan oferit conceptului, viz. obținerea unui scor plasat la minimum trei deviații standard față de medie la o probă de inteligență (Simonton, 1990; 1999, 2009), mare parte din populație se află în afara extensiunii termenului. Statistic vorbind, vei întâlni un geniu la fiecare 200 de interacțiuni individuale. Pentru referință, asta înseamnă un student la fiecare promoție și aproximativ trei indivizi pentru fiecare bloc de locuințe. Dar dacă genialitatea (din nou, psihometric vorbind) e atât de rară, de ce se încăpățânează specialiștii în sănătate mintală să se investească în continuare cu puteri magice atunci când vine vorba de înțelegerea exhaustivă a cazurilor clinice și de predicția evoluției acestora? Mai mult, de ce se încăpățânează să se considere mai preciși decât modele matematice de predicție în ciuda faptului că toate recenziile narative ale literaturii (e.g. Dawes et al., 1989, Grove & Meehl, 1996, Sawyer, 1964, Russell, 1995) și toate meta-analizele relevante (i.e. Grove et al., 2000; White et al., 2006) sugerează exact contrariul?

Decizia clinică vs. cea statistică – o dezbatere veche

Problema centrală discutată aici nu e una nouă. Încă de la jumătatea secolului XX, Paul Meehl (1954) expunea în mod exemplar hibele centrale ale metodelor “clinice” de predicție și evaluare. Pe scurt, acestea țin de: (1) fidelitatea redusă a analizelor și (2) caracterul distorsionat al procesării de informații realizate în mintea expertului.

Departe de a avea aici pretenția unui expozeu complet al argumentelor furnizate de către Meehl, e bine de reținut faptul că punctul de focalizare al discuției nu îl reprezintă utilizarea testelor și a chestionarelor vs. interviuri în practica clinică de specialitate. În fond, atât psihologii clinicieni, cât și psihoterapeuții se bazează oricum pe tehnici nomotetice de măsurare atunci când fac predicții legate de pacienți (e.g. MMPI-2/MMPI-A, BDI-II, HDI sau MCMI-III). Punctul central al argumentației lui Meehl gravitează în jurul nefericitului fapt că în “decizia clinică”, sinteza și concatenarea informațiilor are loc “în mintea expertului”, viz. un loc în care datele obiective colectate prin instrumente psihometrice standardizate intră în coliziune directă cu părerile noastre subiective, viciate de norme, cutume, experiențe anterioare de viață și valori idiosincratice.

Oricând, bineînțeles, putem adăuga puțin gaz pe foc. În timpul elaborării DSM-5, spre exemplu, cercetările empirice efectuate pe populația clinică din SUA și Canada au arătat că trei dintre categoriile nosologice propuse în manual înregistrau indici Cohen kappa sub valoarea de 0.2 (Regier et al., 2012). În traducere liberă, urmând convențiile din literatura de specialitate (e.g. Landis & Koch, 1977), putem spune că diagnostice precum cel de Episod Mixt Anxios-Depresiv (ICD-10) aproximează o valoare nulă din punct de vedere epistemologic. Astfel de situații nu sunt întotdeauna produsul unor criterii viciate de etichetare a tulburărilor mintale. Adesea, ele trădează ceea ce Meehl (1954) puncta lucid acum mai bine de 50 de ani. Mai precis, nu ne putem aștepta la o fidelitate inter-examinator ridicată atâta vreme cât decizia iese din “mintea unor experți”, și nu din arhitectura sterilă, dar imuabilă a unor modele matematice.

în decizia clinică sinteza și concatenarea informațiilor are loc în mintea expertului

Din nefericire, exemple de superioritate ale deciziei statistice abundă în literatura de specialitate. Pentru a puncta doar un caz, atât Rosenthal (1991), cât și Quinsey (1998) au furnizat date pertinente care arată că prezicerea actelor criminale violente poate fi realizată la o rată de succes superioară celei înregistrate de experți printr-un model matematic simplu de regresie, având un număr restrâns de variabile. În completare, meta-analiza efectuată de White et al. (2006) confirmă presupunerea teoretică a lui Dawes et al. (1989) conform căreia aceste modelele vor oferi predicții mai bune decât cele date de specialiști indiferent câtă informație introducem în sistem. De fapt, aceeași meta-analiză sugerează implicit faptul că mintea umană nu e capabilă să jongleze cu prea multe variabile în același timp. Chiar și în condițiile în care modelele în sine ar fi incomplete, împrospătarea și alinierea lor la noile date furnizate din partea studiilor nomotetice ar necesita un grad mai mic de efort decât lupta sisifică a clinicianului împotriva propriilor sale distorsiuni cognitive și a ponderilor emoționale anexate probabilităților luate în calcul în cadrul procesului decizional. Astfel, poate a sosit momentul să recunoaștem ceea ce Tversky și Kahneman (1974) sugerau cu mult timp în urmă: cel mai probabil oamenii nu sunt buni atunci când vine vorba de probabilități (scuzați gluma!). Următorul exemplu este edificator în acest sens.

Cât de slabi suntem atunci când vine vorba de probabilități?

Să presupunem că pe ușa cabinetului sau a spitalului în care lucrăm pășește un client șomer, incoerent, îmbrăcat ciudat, care manifestă un comportament bizar și citește James Joyce. Să presupunem că evaluăm acest client cu Inventarul Multiaxial Millon (MCMI-III) și scorurile sale brute din tabel sunt mai mari de 85 pentru întregul cluster A al tulburărilor de personalitate. Să presupunem că vrem să suflăm și în iaurt atunci când vine vorba de un posibil diagnostic de schizofrenie și îi administrăm clientului nostru și chestionarul O-LIFE (Mason et al., 1995; Mason & Claridge, 2006) de schizotipie dimensională (Claridge, 1997; Claridge & Beech, 1995). Acesta reprezintă un chestionar validat pe populația din România (Stanciu & Papasteri, 2017) care poate fi folosit și pentru screeningul psihozelor funcționale. Care este probabilitatea ca pacientul nostru să sufere într-adevăr de schizofrenie? Dacă ați răspuns “foarte ridicată”, atunci vă înșelați.

Cât de slabi suntem atunci când vine vorba de probabilități?

Dacă abordăm problema din perspectivă bayesiană (Bayes, 1763), ceea ce ne interesează este aprecierea probabilității condiționate P(schizofrenie/evaluare). Pentru a calcula probabilitatea în cauză e necesar să știm două lucruri: (1) rata de bază a schizofreniei în populația de referință și (2) sensibilitatea (adevărat pozitiv) și specificitatea (adevărat negativ) instrumentelor utilizate. Cu alte cuvinte, e dezirabil să știm cât de des se întâmplă ca instrumentele folosite să dea greș la o evaluare. Pe baza cercetărilor efectuate asupra schizofreniei (e.g. Mason et al., 2004) vom lua în cadrul exemplului enunțat o valoare de 60% pentru precizia evaluării.

În condițiile date, formula lui Bayes indică P(schizofrenie/evaluare) = [P(evaluare/schizofrenie)*P(schizofrenie)]/P(evaluare).

Formula devine:

P(S) reprezintă rata de bază a schizofreniei, iar P(nS) probabilitatea ca un individ ales la întâmplare să nu fie bolnav de această afecțiune debilitantă. La o rată de bază de 1% pentru schizofrenie, avem P(schizofrenie/evaluare) = 0.6*0.01 / (0.6*0.01+0.4*0.99), adică 1.49%. Destul de prost am putea spune.

Exemplul de mai sus ilustrează ceea ce statisticienii numesc “eroarea ratei de bază”; o eroare care parazitează, din păcate, mintea multor persoane educate (Kahneman și Tversky, 1973). El ilustrează, bineînțeles, și faptul că evaluarea psihologică nu va atinge niciodată precizia unor proceduri medicale elaborate (e.g. RMN, CT) dezvoltate pentru a diagnostica afecțiuni cu indicatori biologici concreți (e.g. plăci de beta amiloid în Alzheimer). Având la îndemână chiar și cele mai bune instrumente, diagnosticarea corectă a unei afecțiuni psihiatrice nu trebuie înțeleasă în coordonatele analoage ale obținerii unei probe de sânge pentru a testa dacă un pacient are sau nu hepatita B. Tocmai din acest motiv, contrar intuiției, eliminarea instrumentelor de diagnoză ar conduce inevitabil la o precizie chiar mai slabă în planul deciziilor clinice, după cum o sugerează și celebrul experiment realizat de David Rosenhan (1973). Spunem acest lucru deoarece în cazul testelor și al chestionarelor standardizate măcar există indicatori concreți ai sensibilității și o mare stabilitate în planul vectorului de administrare. În cazul experților, pe de altă parte, sensibilitatea și specificitatea variază de la caz la caz.

Concluzii: Ce putem învăță după 65 de ani de studii?

Pace Holt (1958, 1970) – poate unul dintre cei mai înverșunați critici ai poziției asumate de Paul Meehl (1954) - ultimele meta-analize realizate în domeniul sănătății (Grove et al., 2000; White et al., 2006) au arătat că indiferent de nivelul de expertiză pe care îl avem sau pe care credem că îl avem, modelele bayesiene mecanice de predicție sunt aproape întotdeauna superioare deciziei clinice. Desigur, e important să punctăm aici faptul că această superioritate nu este întotdeauna substanțială (i.e. un indice cohen d de -.12). Cu toate acestea, atunci când în joc este viața unui pacient cu Tulburare Borderline sau Episod Depresiv Major Unipolar, diferențele, oricât de mici, sunt extrem de importante.

Fie că vorbim despre formule de regresie liniară pentru predicția recidivelor penale (e.g. Hilton et al., 2004; Quinsey et al., 1998), scoruri de prag pentru instrumente standardizate (e.g. Anastasi și Urbina, 1996; Green, 2000) sau reguli derivate pe baza unor considerente logice (cum este regula Goldberg pentru diagnosticul diferențial al psihozelor de nevroze al MMPI-2), mecanizarea procesului decizional clinic este indubitabil un pas în direcția corectă atunci când vine vorba de minimizarea detresei clienților noștri. Astfel, este dezirabil ca psihologii clinicieni, consilierii și psihoterapeuții să devină din ce în ce mai familiarizați cu modelele statistice de predicție, mai ales atunci când decizia luată privește o situație cu impact deosebit pentru ordinea societală (e.g. risc sporit de crimă pe fondul psihopatologiei) sau bunăstarea familiei pacientului (e.g. risc de suicid).

În final, înainte de a ne pune pe un piedestal al infailibilității, e dezirabil să ne reamintim că din multe puncte de vedere mintea noastră a rămas prinsă în coordonatele Epocii de Piatră. Pe vremea aceea, gândirea abstractă în termeni de probabilități nu ne era necesară. Acum, însă, un fals-negativ poate fi la fel de costisitor pentru societate ca unul pozitiv. Ca specialiști în domeniul sănătății mintale, nu trebuie să atârnăm viața unei persoane de orgoliu. Să recunoaștem adevărul: modelele matematice sunt mai bune decât noi, iar experiențele noastre de viață sunt doar mici bălți fenomenale într-un ocean de date. Într-adevăr, numerele nu vor putea oferi niciodată căldura emoțională, empatia și aprecierea pozitivă necondiționată pe care un specialist le oferă. Cu toate acestea, ele sunt instrumentele indispensabile și imuabile ale unei poziții asumate de practician-cercetător.  

psih. clinician și psihoterapeut, dr. Marius M. Stanciu
Contributor for TestCentral, Scientific Consultant @ Choice

Referințe bibliografice:

Anastasi, A., & Urbina, S. (1996). Psychological testing (7th ed.). New York: Prentice Hall.

Bayes, T. (1763). LII,. An essay towards solving a problem in the doctrine of chances. Philosophical Transactions of the Royal Society, 53: 370-418.

Claridge, G. (1997). Theoretical background and issues. In Claridge, G. (Ed.) Schizotypy: Implications for Illness and Health. Oxford University Press, Oxford: United Kingdom, pp. 3 – 18.

Claridge, G., & Beech, T. (1995). Fully and quasi-dimensional constructions of schizotypy.In Raine, A., Lencz, T., Mednick S.A. (Eds.) Schizotypal Personality. Cambridge University Press, pp. 192-216.

Dawes, R. M., Faust, D., & Meehl, P. E. (1989). Clinical versus actuarial judgment. Science, 243: 1668-1674.

Greene, R. L. (2000). The MMPI-2: An interpretive manual (2nd ed.). Boston: Allyn & Bacon.

Grove, W. M., & Meehl, P. E. (1996). Comparative efficiency of informal (subjective, impressionistic) and formal (mechanical, algorithmic) prediction procedures: The clinical-statistical controversy. Psychology, Public Policy, and Law, 2: 293-323.

Grove, W. M., Zald, D. H., Lebow, B. S., Snitz, B. E:, & Nelson, C. (2000). Clinical vs. mechanical prediction: A meta-analysis. Psychological Assessment, 12: 19-30.

Hilton, N. Z., Harris, G. T., Rice, M. E., Lang, C., Cormier, C. A., & Lines, K. J. (2004). A brief actuarial assessment for the prediction of wife assault recidivism: The Ontario Domestic Assault Risk Assessment. Psychological Assessment, 16, 267-275.

Holt, R. R. (1958). Clinical and statistical prediction: A reformulation and some new data. Journal of Abnormal and Social Psychology, 56: 1-12.

Holt, R. R. (1970). Yet another look at clinical and statistical prediction: Or, is clinical psychology worthwhile? American Psychologist, 25: 337-349.

Kahneman, D., & Tversky, A. (1973). On the psychology of prediction. Psychological Review, 80: 237-251.

Kant, I. (1790/1951). Critik der Urtheilskraft (Trans. J. H. Bernard), New York: Hafner Publishing.

Landis, J. R., Koch, G. G. (1977). The measurement of observer agreement for categorical data. Biometrics, 33(1): 159-174.

Mason, O., Claridge, G., & Jackson, M. (1995). New scales for the assessment of schizotypy. Personality and Individual differences, 18(1), 7-13.

Mason, O., & Claridge, G. (2006). The Oxford-Liverpool Inventory of Feelings and Experiences (O-LIFE): Further description and extended norms. Schizophrenia Research, 82(2), 203-211.

Mason O, Startup M, Halpin S, Schall U, Conrad A, Carr V. (2004). Risk factors for transition to first episode psychosis among individuals with ‘at-risk mental states’. Schizophrenia Resources, 71:227–237.

Quinsey, V. L., Harris, G. T., Rice, M. E., & Cormier, C. A. (1998). Violent offenders: Appraising and managing risk. Washington, DC: American Psychological Association

Regier, D. A., Narrow, W. E., Clark, D. E., Kraemer, H. C., Kuramoto, S. J., Kuhl, E. A., Kupfer, D. J. (2013). DSM-5 field trials in the United States and Canada, Part II: test-retest reliability of selected categorical diagnoses. American Journal of Psychiatry, 170(1): 59-70.

Rosenhan, D. (1973). On being sane in insane places. Science, 179 (4070): 250-258.

Rosenthal, R. (1991). Meta-analytic procedures for social research (Rev. ed). Newbury Park, CA: Sage

Russell, E. W. (1995). The accuracy of automated and clinical detection of brain damage and lateralization on neuropsychology. Neuropsychology Review, 5: 1-68.

Sawyer, J. (1966). Measurement and prediction, clinical and statistical. Psychological Bulletin, 66: 178-200.

Simonton, D. K. (1990). Psychology, science, and history: An introduction to historiometry. New Haven, CT: Yale University Press.

Simonton, D. K. (1999). The Origins of Genius: Darwinian Perspective on Creativity. New York, Oxford University Press.

Simonton, D. K. (2009). Genius 101, Springer Publishing Company.

Simonton, D. K. (1999). Origins of Genius: Darwinian Perspectives on Creativity. Oxford University Press.

Stanciu, M., & Papasteri, C. C. (2017). Validation of the Romanian Oxford-Liverpool Inventory of Feelings and Experiences (O-LIFE): Description, Psychometric Properties and Factor Structure. Journal of Evidence-Based Psychotherapies, 17(1), 67-88.

Tversky, A., & Kahneman, D. (1974). “Judgment under Uncertainty: Heuristics and Biases”. Science, 185(4157): 1124-1131.

White, M. J., Ægisdóttir, A., Spengler, P. M., Maugherman, A. S., Anderson, L. A., Cook, R. S., Nichols, C. N., Lampropoulous, G. K., Walker, B. S., Cohen, G., Rush, J. D. (2006). The Meta-Analysis of Clinical Judgment Project: Fifty-Six Years of Accumulated Research on Clinical Versus Statistical Prediction. The Counseling Psychologist, 34(3): 341-382.