Är studien tillförlitlig? Granska resultaten av behandlingsstudier!

Artikel från Vetenskap & Praxis | Publicerad december 1999

Det finns gott om fallgropar i undersökningar av behandlingsmetoder. Det är viktigt att känna till vanliga brister.

Företrädare för evidensbaserad medicin betonar hur viktigt det är att vara skeptisk till forskningsresultat. Till exempel kan man inte förutsätta att ett påstående är vare sig tillförlitligt eller allmängiltigt bara därför att det har publicerats i en vetenskaplig tidskrift.

Många gånger är det forskningsmetoden som avgör om en studie håller eller inte.

Fyra inledande frågor är till hjälp för den läser medicinska forskningsresultat att avgöra om undersökningen uppfyller åtminstone grundläggande metodkrav.

Är försökspersonerna representativa?

Det är inte alls säkert att de försökspersoner som har undersökts är \"typiska\" patienter. Tvärtom kan de till exempel:

vara mer eller mindre sjuka än andra
ha annan etnisk bakgrund eller livsstil
ha fått ett annat omhändertagande än vad som är möjligt i rutinsjukvård
röka, dricka alkohol eller använda p-piller i annan omfattning än \"typfallen\".

Den kritiske läsaren bör också kontrollera hur försökspersonerna har rekryterats. Exempelvis kan annonsering efter frivilliga försökspersoner leda till ett icke-representativt urval.

Många svenska undersökningar har av praktiska skäl gjorts på värnpliktiga män – ett urval som uppenbart kan ge en skev bild av verkligheten om slutsatserna även förutsätts gälla för äldre, kvinnor eller barn. Vissa personer kan också ha uteslutits ur studien av medicinska eller andra skäl, något som kan påverka resultatet.

Är studien upplagd på ett lämpligt sätt?

Eftertanke, sunt förnuft och grundläggande kunskaper i forskningsmetodik räcker ganska långt för att kunna avgöra om en viss studie verkligen kan besvara den fråga som forskarna har ställt.

När en författare exempelvis påstår att en behandling är effektiv eller kostnadseffektiv, måste läsaren alltid fråga: jämfört med vad? Jämfört med en rutinmetod eller bästa tänkbara alternativ? Om forskningen ska kunna ge klinisk vägledning bör jämförelsen vara realistisk.

Vidare ska behandlingseffekten ha mätts på ett meningsfullt sätt. Om en undersökning avser vilken behandling som är bäst för patienten, så är det mindre intressant att mäta effekten på något laboratorievärde. Det mest intressanta är ju effekten på livskvalitet, sjuklighet och dödlighet.

Men i många fall sätter författarna likhetstecken mellan effekten på vissa laboratorievärden (\"markörer\" eller surrogatmått) och patientens hälsa. Problemet är att surrogaten kan ge en missvisande bild.

Mätmetoden som ska avspegla behandlingseffekten ska också vara tillförlitlig – något som bör vara vetenskapligt utprövat och dokumenterat i andra sammanhang.

Har risken för systematiska fel minimerats?

De grupper som ska jämföras med varandra ska vara så lika som möjligt i alla avseenden utom just det som man vill studera. Allt annat som kan påverka jämförelsen betraktas som felkällor.

Förhållanden som förvränger slutsatser om de undersökta grupperna, eller snedvrider de jämförelser som görs i studien, kallas systematiska fel.

Bästa sättet att undvika systematiska fel när man jämför effekter av olika behandlingsmetoder är att göra en randomiserad studie, eftersom försökspersonerna då lottas till behandlingsgrupp eller kontrollgrupp.

Men även i randomiserade studier kan systematiska fel uppstå.

Ett sätt för forskarna att undvika medveten eller omedveten särbehandling av grupperna är att maskera vilken försöksdeltagare som tillhör vilken grupp, så kallad \"blindning\".

I vissa situationer är det inte lämpligt eller möjligt att göra randomiserade studier. Då måste forskarna vidta andra åtgärder för att försöka utesluta att resultaten beror på systematiska skillnader mellan de jämförda grupperna, vilket ofta är svårt.

Det förutsätter bland annat att samtliga viktiga förhållanden som påverkar sjukdomen är både kända och uppmätta av försöksledarna, vilket är ganska sällsynt. Det kommer ju ständigt nya rön om vad som påverkar sjukdomars förlopp.

Har tillräckligt många undersökts tillräckligt läng och fullständigt?

Redan på planeringsstadiet bör forskarna ha beräknat hur många försökspersoner som krävs i en studie för att kunna upptäcka och statistiskt säkerställa ett resultat av en viss storlek. I rapporten bör forskarna redovisa en sådan så kallad \"power\"beräkning.

Försökspersonerna ska också ha följts så länge att man kan avgöra om effekten är tillräckligt långvarig för att spela någon roll för patientens hälsa.

Ju fler försökspersoner som har deltagit i hela undersökningen, desto mer tillförlitligt är resultatet.

Skälen till att vissa försökspersoner inte har följt den ursprungliga planen bör redovisas.

Exempel på kritiska frågor

Är urvalet av deltagare i undersökningen representativt?

Har de lottats fram ur en större patientgrupp på ett korrekt, äkta slumpmässigt sätt?
Liknar dessa utvalda i allt väsentligt den större patientgrupp som slutsatserna avser?

Lades studien upp på ett sådant sätt att aktuella frågor är möjliga att besvara?

Har deltagarna indelats i behandlingsgrupp och kontrollgrupp?
Randomiserades patienterna till behandlingsgrupp respektive kontrollgrupp?
Har kontrollgruppen fått optimal alternativ behandling (eller verkningslös/ineffektiv åtgärd)?
Var grupperna i allt väsentligt likvärdiga när studien påbörjades, frånsett behandlingen?
Om inte, har forskarna försökt kompensera olikheterna på ett korrekt sätt?

Vilket resultat visade studien?

Hur intensiv och långvarig var behandlingen?
Hur stor var behandlingseffekten?
Hur precis var skattningen av denna effekt?

Är resultatet tillförlitligt?

Följde man upp alla patienter som rekryterades till undersökningen?
Analyserades patienterna tillsammans med den grupp som de ursprungligen tillhörde?
Hölls patienter, personal och forskare omedvetna om vilka patienter som fick vilken behandling?
Frånsett behandlingen, behandlades grupperna likvärdigt på alla andra sätt?
Finns det någon systematisk översikt av resultat från liknande studier?
Har liknande resultat erhållits i dessa andra undersökningar, och från andra forskargrupper?

Är författarnas egen tolkning av fynden rimlig och baserad på resultaten?

Skulle behandlingen kunna vara till nytta för patienterna?

Är resultaten tillämpliga på dessa patienter?
Redovisar studien kliniskt relevanta, patientrelaterade effektmått (eller surrogatmått)?
Vad har systematiska översikter som gäller biverkningar/potentiell skada visat?
Är behandlingens sannolika nytta större än dess potentiella skada?
Är den sannolika nyttan så stor att den motiverar alla uppoffringar som åtgärden kräver?
Finns det någon vetenskaplig jämförelse med befintliga behandlingsrutiner?

Var särskilt vaksam när...

... resultaten är preliminära. Resultat från pilotstudier och preliminära rapporter från pågående studier, till exempel presenterade vid konferenser, kan vara särskilt otillförlitliga.
... antalet försökspersoner är litet. Ju färre försökspersoner som deltar i en undersökning, desto osäkrare är resultaten och desto större är risken att missa små men viktiga behandlingseffekter.
... kontrollgrupp saknas. I studier som rätt och slätt jämför en och samma patientgrupp före respektive efter en behandling är det svårt att avgöra om förändringen beror på behandlingen. Förbättringar eller försämringar kan ha uppstått av andra skäl.
... kontrollgruppen har fått inadekvat behandling. Om kontrollgruppen har fått placebo gäller resultatet just i förhållande till placebo och inte till andra, verksamma metoder. Det är inte ovanligt att nya metoder jämförs med föråldrade alternativ i stället för med bästa befintliga metod. Skälet kan vara att skillnaden mellan metoderna är så liten att mycket stora studier skulle krävas för att påvisa den.
... försökspersonerna inte har randomiserats till behandlings- respektive kontrollgrupp. Risken är då större att systematiska olikheter mellan de undersökta grupperna snedvrider de jämförelser som görs i studien. Men observera att noggrannheten i genomförandet också spelar stor roll - en välgjord icke-randomiserad men kontrollerad studie kan vara mer tillförlitlig än en slarvigt genomförd randomiserad undersökning.
... undersökningen gäller ett alltför snävt urval av patienter. Om försöksdeltagarna har gallrats hårt för att gruppen ska bli enhetlig blir resultaten inte lika allmängiltiga. Å andra sidan, om ingen gallring alls har skett kan behandlingseffekten skymmas av andra faktorer och resultatet bli osäkert. För att få en balanserad bild bör resultat från studier med snävt urval kompletteras med resultat från studier av grupper som inte är lika enhetliga.
... många undergrupper av patienter har skapats i efterhand. Risken finns då att forskarna, i jakten på ett visst resultat, har gjort så många delanalyser att enbart slumpen har åstadkommit ett positivt resultat i en undergrupp. Ju fler undergrupper, som det insamlade materialet delas in i, desto större är denna risk.
... risken för biverkningar inte har analyserats. Vanliga bieffekter registreras ibland – men inte alltid – i randomiserade studier av behandlingsmetoder. Inte ens när biverkningar har registrerats ger en enstaka randomiserad studie någon rättvis bild av deras förekomst och grad. Sällsynta men allvarliga biverkningar fångas sällan upp i randomiserade studier, eftersom just sällsyntheten gör att det krävs ännu fler observationer för att upptäcka dem.
... många patienter aldrig fullföljde undersökningen (stort bortfall). Orsakerna till att vissa personer avbröt deltagandet ska redovisas i detalj, till exempel biverkningar (faktiska eller misstänkta), oväntade förändringar av hälsotillståndet, bristande motivation eller flyttning från orten.
... patienter och/eller vårdgivare var medvetna om vem som fick vilken behandling. Förväntningseffekter kan då ha påverkat resultatet.
... uppföljningstiden var alltför kort. Det krävs en uppföljning som är tillräckligt långvarig för att visa om behandlingen har den avsedda effekten, och om den är kvarstående eller bara tillfällig.
... utfallet mättes och/eller analyserades med oprövade metoder. Mätmetoder som har beskrivits och utprövats vetenskapligt i andra sammanhang bör användas. Nya och oprövade mät- eller analysmetoder kan vara missvisande. Även i den statistiska bearbetningen ska tidigare beskrivna och utprövade metoder använda
... resultatet endast gäller \\"markörer\\" (surrogatmått) och riskfaktorer, trots att slutsatserna avser sjuklighet, dödlighet och livskvalitet. I vissa fall är det dock inte möjligt eller lämpligt att studera effekter på sjuklighet, dödlighet eller livskvalitet. Effekter på ett enstaka surrogatmått bör tolkas med särskild försiktighet.
... resultatet enbart redovisas som en procentuell förändring, medan de absoluta talen inte anges. En stor förändring i relativa tal - till exempel en 50-procentig riskminskning – låter imponerande men kan vara helt betydelselös om den ursprungliga risken är liten.

Observera att ovanstående endast är exempel på svagheter i studier som jämför behandlingsmetoder. Listan är långt ifrån fullständig. En mer utförlig diskussion om svagheter i forskningsmetodik finns till exempel i artikelserien med temat Users guides to the medical literature, publicerad i JAMA från 1993 och framåt. En introduktion till ämnet finns i boken How to read a paper: The basics of evidence based medicine av Trisha Greenhalgh (BMJ Publishing Group, 1997).

Vetenskap & Praxis

SBU:s tidning refererar och sprider resultaten från SBU-rapporterna, berättar om pågående projekt vid myndigheten, informerar om utvärderingsprojekt vid systerorganisationer samt väcker intresse för vetenskaplig utvärdering och kritisk granskning av sjukvårdens och socialtjänstens metoder och insatser.