Vetenskap & Praxis

Resultat som hackas upp kan bli missvisande

Resultaten kan bli otillförlitliga, när forskare i efterhand delar in försökspersoner i undergrupper och jämför dem med varandra. Och risken är stor att statistiskt signifikanta skillnader uppkommer av en slump, när många subgrupper analyseras.

Forskningsresultat delas ofta in i mindre undergrupper. Indelningen görs ibland i efterhand för att ta reda på om någon särskild kategori av patienter verkar reagera annorlunda på behandlingen än de övriga.

Indelningen kan göras på många olika sätt, till exempel efter kön, ålder och andra karakteristika, i olika kombinationer.

Problemet är att ju fler sådana subgruppsanalyser som utförs i efterhand, desto större är risken för slumpmässigt uppkomna statistiskt signifikanta resultat. Till exempel: efter mer än 30 subgruppsanalyser på ett och samma material, är sannolikheten över 80 procent att en av dem visar en statistiskt säkerställd skillnad (p<0,05).

Dessutom uppstår problem när undergrupperna är små. Innan en studie påbörjas beräknas vad som krävs för att resultaten ska få tillräcklig statistisk styrka, power. Forskarna beräknar då hur många försökspersoner som krävs för att med viss sannolikhet (styrka) och på viss statistisk signifikansnivå kunna påvisa en skillnad av en viss storlek mellan försöksgrupperna.

Minsta skillnad

I beräkningen ingår, förutom det valda styrkevärdet, den statistiska signifikansnivå som man önskar, resultatens förmodade variabilitet och den skillnad mellan grupperna som kan förväntas (eller den minsta skillnad som man anser är relevant att påvisa). Kalkylen visar hur många deltagare som studien behöver för att betingelserna ska uppfyllas.

Styrkan räcker inte

Om styrkeberäkningen gäller studien som helhet, får analyser av dess undergrupper otillräcklig styrka. Detta leder till två problem. Dels kan reella skillnader mellan undergrupper inte beläggas statistiskt. Dels kommer man sannolikt att finna statistiskt signifikanta skillnader som beror på slumpen.

Om det bedöms vara av värde att studera skillnader mellan subgrupper, måste styrkeberäkningen utgå från dessa, och studien måste omfatta fler försökspersoner än annars.

En tumregel är att man ska vara återhållsam med att analysera undergrupper och att inte dra för stora växlar på resultaten. Det finns många exempel på att de kan bli missvisande.(1,2,3)

För stor vikt

Problemet diskuteras i en artikel av Assmann och medarbetare. De granskade 50 artiklar med kliniska forskningsresultat från sommaren 1997 och fann att 35 av artiklarna innehöll någon subgruppsanalys. I 21 av dessa hade analysen påvisat en skillnad mellan subgrupper, och i 13 artiklar nämndes detta i artikelns abstract eller i slutsatserna. I de flesta fall lades för stor vikt vid resultat från subgruppsanalyser.

Ett tydligt exempel på att skillnader kan uppstå slumpmässigt är de subgruppsanalyser som gjordes efter den så kallade ISIS-2-studien.(4) Undersökningen gällde effekten av aspirin efter akut hjärtinfarkt.

Beror på slumpen

När försökspersonerna på prov indelades efter astrologiska stjärntecken fann man att aspirin gav bättre överlevnad för alla utom de patienter som var födda i Vågens och Tvillingarnas tecken. Här är det lätt att se att resultatet sannolikt beror på slumpen. Det hade varit betydligt svårare om indelningsgrunden hade varit medicinsk i stället för astrologisk.(Fler exempel på felaktiga slutsatser efter subgruppsanalyser finns i artikeln \"Indelning i undergrupper gav missvisande resultat\")

SBU:s brittiska systerorgan har publicerat en rapport om subgruppsanalyser i randomiserade studier.(5)

Rapporten pekar på att eventuella subgruppsanalyser bör planeras redan när studien läggs upp, så att antalet försökspersoner kan anpassas. I många fall kan sådana analyser ligga till grund för hypoteser som kan prövas i nya studier – men slutsatser måste dras med stor försiktighet.

Lästips

  1. Assmann SF, et al. Subgroup analysis and other (mis)uses of baseline data in clinical trials. Lancet. 2000;355(9209):1064-9.
  2. Sleight P. Debate: Subgroup analyses in clinical trials: fun to look at, but dont believe them. Curr Control Trials Cardiovasc Med 2000,1:25-7.
  3. Freemantle N. Interpreting the results of secondary end points and subgroup analyses in clinical trials: should we lock the crazy aunt in the attic? BMJ. 2001;322(7292):989-91.
  4. ISIS-2 Collaborative Group. Randomized trial of intravenous streptokinase, oral aspirin, both or neither among 17,187 cases of suspected acute myocardial infarction: ISIS-2. Lancet. 1988;2:349-60.
  5. Brookes ST, et al. Subgroup analyses in randomised controlled trials: quantifying the risks of false positives and false negatives. Health Technology Assessment. 2001;5(33).

Undergrupper så kan de användas och tolkas i studier

  • Subgruppsanalyser bör i regel bara göras om de har planerats innan datainsamlingen påbörjas. Om en subgruppsanalys har beslutats i efterhand, bör detta redovisas tydligt.
  • Beräkningen av hur många försökspersoner som krävs bör ta hänsyn till vilka undergrupper som man avser att särredovisa. Det är inte realistiskt att sikta på så många försökspersoner att även svaga samband i undergrupper ska kunna påvisas.
  • Subgruppsanalyser som görs i efterhand på utvalda delar av resultaten är särskilt olämpliga. Subgruppsanalyser ska alltid bygga på ett statistiskt test på interaktion mellan behandlingsresultat och grupp. Om testet får signifikant utfall finns det anledning att detaljgranska olikheter mellan grupper.
  • Det är viktigt att inte dra för stora växlar på resultat som gäller undergrupper av försökspersoner i en studie. Även om det finns starkt stöd för slutsatser är det bättre att betrakta resultaten av subgruppsanalyser som en grund för nya hypoteser. Särskild försiktighet krävs med resultat som visar att behandlingen bara fungerar i en viss undergrupp.

Fritt efter Brookes ST, et al. Subgroup analyses in randomised controlled trials: quantifying the risks of false-positives and false-negatives. Health Technology Assessment. 2001;5(33).