Hur undersöker vi egentligen effekter?
Kommer den här insatsen leda till att fler personer kan försörja sig? Kommer det nya arbetssättet medföra att färre ungdomsbrottslingar återfaller i brott? Och hur är det med eventuella negativa konsekvenser?
För att kunna bedöma om en insats är lämplig att använda eller ej vill vi gärna ha kunskap om dess effekter. Och för att få tillförlitliga svar måste forskningsstudier genomföras på ett genomtänkt sätt. Men även om så är fallet finns det fallgropar, bland annat genom att slumpen spelar oss ett spratt. När det gäller utvärdering av effekter har forskare och myndigheter som SBU en förkärlek till experimentella studier. Där jämförs ett utfall för dem som får en viss insats med dem som får en kontrollinsats, till exempel i form av sedvanlig vård, det vill säga den insats som ges som praxis. Helst ska sådan gruppindelning ske med slumpens hjälp. Det går att försöka sig på att dra slutsatser om effekter även när grupperna som jämförs inte är slumpvis sammansatta, men det kräver genomtänkt hantering av de eventuella förväxlingsfaktorer (confounders på engelska) som kan snedvrida resultatet. Annars riskerar man att jämföra äpplen med päron.
Slumpen – ett problem vid upprepade tester
Forskare kan ha mer eller mindre goda skäl att anta att en viss behandling eller insats verkligen har en effekt innan en studie ens genomförs. Inom läkemedelsvärlden är det inte ovanligt att man lite chansartat testar en stor mängd läkemedelskandidater för att sålla fram de som är värda att undersöka mer noggrant i kliniska studier. Men med många statistiska tester ökar risken att man av slumpmässiga skäl drar felaktiga slutsatser. Detta problem är mindre inom social verksamhet där insatser ofta är komplexa och där forskare behöver formulera sin forskningsfråga utifrån andra premisser. I statistisk bemärkelse är det sedan inte själva forskningsfrågan som testas, det vill säga att insatsen i fråga faktiskt har effekt. Istället gör man det motsatta: man gör det hypotetiska antagandet att insatsen inte har någon effekt (man utgår från att ”nollhypotesen” är riktig). Sedan analyserar man i vilken utsträckning observationerna i experimentet talar emot detta.
P-värdet – omtyckt, eftersökt men även ifrågasatt
Ett av resultaten från sådana analyser är det så kallade p-värdet. Ett p-värde utgör ett mått på hur osannolika resultaten är, givet att nollhypotesen verkligen stämmer.
Forskare blir som regel glada över att finna låga p-värden eftersom det kan innebära att man är något viktigt på spåren, men även att man har goda möjligheter att få sina resultat publicerade i en vetenskaplig tidskrift. Men p-värden är också kontroversiella av olika skäl, bland annat eftersom de blivit så värdefulla för forskare att de riskerar att överskugga den viktiga forskningsfrågan. Att ”tråla” sina forskningsdata efter låga p-värden (ibland kallat p-hackning, data dredging eller data mining) är en av forskningens mer allvarliga synder. För vid varje statistiskt test som görs finns en liten risk att slumpen spelar ett spratt. Görs tillräckligt många varianter på tester finns goda möjligheter att till slut kunna påvisa statistiskt säkerställda resultat, även om insatsen som undersöks egentligen inte är effektiv.
Att formulera sin hypotes först när data redan har analyserats kallas ibland för HARKing (Hypothesizing After the Results Are Known). Man genomför då olika analyser och laborerar med sin data tills man finner ett resultat, i form av ett lågt p-värde, som ser intressant ut. Först därefter formuleras hypotesen som kan förklara fynden, tvärt emot hur god forskning bör praktiseras.
Helt ovanligt tycks fenomenet med HARKing inte vara. När forskare inom olika ämnesområden under självrannsakan fick uppge om de gjort detta någon gång under sin forskarbana svarade i genomsnitt 43 procent ja (1).
Det är svårt att kontrollera vad forskare gör på sin kammare, men ett sätt att motverka trålningen efter låga p-värden är att ställa krav på att forskare publicerar ett protokoll där man i förväg beskriver vad forskningsfrågan är och vilka statistiska analyser man ämnar göra för att undersöka den (2). Sådana förpublicerade protokoll kan vid behov användas för efterkontroll och de kan nästan betraktas som en form av kvalitetsstämpel i sig.
Storleken har trots allt betydelse
Det senaste decenniet har p-värden, statistisk signifikans och den svart-vita syn på forskningsresultat som lätt följer i dess spår diskuterats flitigt i den vetenskapliga litteraturen. Detta beror inte minst på att låga p-värden inte visat sig vara så tillförlitliga och replikerbara som man förväntat sig (3), men även att begreppen ofta missförstås (4, 5).
Allt fler förespråkar nu att man inte ska lägga så mycket vikt vid p-värdet utan istället redovisa resultaten på ett vis så att storleken på effekten framgår, med tillhörande osäkerhetsintervall, det så kallade konfidensintervallet. Rapportering av effektresultat uttryckt som konfidensintervall har blivit alltmer vanligt i forskningslitteraturen (6). Konfidensintervallets bredd speglar den osäkerhet som finns rörande hur stor den genomsnittliga effekten är. I praktiken anger intervallet alla de värden som effekten skulle kunna vara, och som i statistisk mening inte motsägs av den data som analyserats. Om konfidensintervallet är väldigt brett ger det ingen bra vägledning eftersom det då inte går att dra några slutsatser alls om effekten ens finns och om den i så fall är gynnsam eller ej. Men är intervallet smalt ger det en intuitivt begriplig information som är viktig vid ställningstagande om en insats ska rekommenderas eller ej.
Sedan är frågan hur liten eller stor en effekt ska vara för att den ska anses vara relevant i praktiken. Den frågan kan inte statistiken besvara, det beror på såväl sammanhanget som hur effekten värderas. En sådan bedömning kan endast människor göra.
Per Lytsy, medicinsk sakkunnig, projektledare SBU
Referenser
- Rubin, M. (2017). When Does HARKing Hurt? Identifying When Diferent Types of Undisclosed Post Hoc Hypothesizing Harm Scientifc Progress. Review of General Psychology, 21(4), 308–320.
- Chalmers I, Altman DG. How can medical journals help prevent poor medical research? Some opportunities presented by electronic publishing. Lancet. 1999 Feb 6;353(9151):490-3.
- Open Science Collaboration. PSYCHOLOGY. Estimating the reproducibility of psychological science. Science. 2015 Aug 28;349(6251):aac4716.
- Nuzzo, R. Scientifc method: Statistical errors. Nature 2014;506:150-2.
- Greenland S, Senn SJ, Rothman KJ, Carlin JB, Poole C, Goodman SN, Altman DG. Statistical tests, P values, confdence intervals, and power: a guide to misinterpretations. Eur J Epidemiol. 2016 Apr;31(4):337-50.
- Stang A, Deckert M, Poole C, Rothman KJ. Statistical inference in abstracts of major medical and epidemiology journals 1975-2014: a systematic review. Eur J Epidemiol. 2017 Jan;32(1):21-29.