Så beskriver SBU det samlade bevisläget

Artikel från Vetenskap & Praxis | Publicerad april 2012

En nyckelfråga för god vård är vilka behandlingsmetoder som är bevisat effektiva och vilka som inte är det. Sten Anttila på SBU klarar ut en del missförstånd om det så kallade GRADE-systemet för att bedöma styrkan i det samlade vetenskapliga underlaget.

GRADE är ett viktigt och användbart system för att gradera evidens, det vill säga bedöma hur starkt det samlade vetenskapliga underlaget är. Men missförstånden kring GRADE är många. Ibland beskrivs det som bara ännu ett av hundratals system för att bedöma studiekvalitet. Ibland framhålls subjektiva inslag i GRADE-processen som en smula problematiskt jämfört med andra system. Och ibland ifrågasätts resultat av en samlad evidensgradering för att de verkar stämma dåligt med vissa välgjorda och internationellt publicerade vetenskapliga studier.

Graderar underlaget

Men GRADE är inget betygssystem för enskilda studier. I stället är syftet att gradera det samlade underlaget för en viss effekt.1 Det som i slutändan graderas är alltså tillförlitligheten i ett påstående om behandlingseffekt. Studiernas kvalitet spelar förstås en stor roll,2 men ytterligare fyra dimensioner tillkommer:

Är resultaten från olika studier tillräckligt samstämmiga eller pekar de åt olika håll?
Bygger resultaten på jämförelser av de behandlingsalternativ, den population och det kliniska sammanhang som vi vill dra slutsatser om? Eller avviker upplägget i studierna för mycket från den kliniska verkligheten?
Är studiernas precision tillräckligt god efter sammanvägning, det vill säga är den skattade effekten statistiskt säkerställd eller ligger den inom felmarginalen?
Kan vi räkna med att alla relevanta resultat är korrekt och fullständigt avrapporterade eller finns det skäl att misstänka att snedvriden rapportering kan bidra till en överskattning av effekten?

Anta att resultaten i de aktuella studierna inte är samstämmiga. Anta vidare att innehållet i studierna bara delvis avser det sammanhang (till exempel den patientkategori) som vi är intresserade av, och att precisionen är låg – exempelvis för att det effektmått som vi är intresserade av inte varit primärt i de aktuella studierna. Anta också att rapporteringen är snedvriden genom att effektmåtten bara har redovisats när de varit statistiskt signifikanta, och annars har utelämnats. Om samtliga fyra ovanstående problem föreligger kan det vara svårt att ge annat än den sämsta evidensgraden, det vill säga otillräckligt vetenskapligt underlag. Ett sådant omdöme är alltså möjligt även om samtliga ingående studier skulle vara randomiserade med högsta studiekvalitet.

Otillräckligt

Att det vetenskapliga underlaget är otillräckligt (), betyder att det är omöjligt att bedöma vilken den ”sanna” genomsnittliga effekten är. Om den skattade minskningen av sjukdomsrisken efter en behandling är exempelvis 10 procent, så säger detta inte så mycket om den ”sanna” effekten. Den ”sanna” effekten kanske är en riskminskning, men den kan också vara en riskökning. Vi vet helt enkelt inte. Vad menas då med ”sann” effekt? Anta att behandlingen utvärderas vid upprepade tillfällen samt att man successivt räknar en genomsnittlig effekt. Detta genomsnitt kommer att närma sig den ”sanna” effekten allteftersom antalet försök blir fler.

Starkt och säkert

I situationer där det vetenskapliga underlaget i stället är starkt (), är vi ganska säkra på att den skattade effekten ligger mycket nära den ”sanna” effekten. Om studierna skattar riskminskningen till 10 procent, så borde den ”sanna” effekten inte ligga längre ifrån än ett par procent. I vårt exempel kanske den ligger inom intervallet 8–12 procent – någon exakt angivelse är dock inte möjlig. Om underlaget är måttligt starkt (), är intervallet större. Det är troligt att den skattade effekten ligger nära den ”sanna”, men det är fullt möjligt att den avviker betydligt. Med en skattad effekt på 10 procent kanske den ”sanna” effekten ligger mellan 2 och 18 procent. Inte heller här går det att vara exakt. Ett begränsat vetenskapligt underlag () innebär slutligen att den ”sanna” effekten kan avvika ännu mer från det skattade, men intervallet är kortare än vid otillräckligt underlag. I detta exempel kanske effekten i värsta fall kan vara en viss riskökning.

GRADE innehåller varken något omfattande frågebatteri eller någon matematisk formel som hjälper oss att räkna fram evidensgrad. Men graderingsprocessen är mycket strukturerad och liknar processen för systematiska litteraturöversikter. Arbetet följer en bestämd ordning, och varje beslut måste motiveras tydligt. Det ska framgå hur vi steg för steg har kommit fram till den slutgiltiga graderingen. En kritisk läsare ska kunna gå tillbaka och se hur vi har kommit fram till en viss evidensgrad. Det viktigaste är inte att alla ska vara överens om att evidensgraden är den rätta, även om detta är önskvärt. Det centrala är att alla förstår hur denna tagits fram, eftersom konstruktiv kritik då är möjlig.

Ännu en förutsättning för att GRADE ska vara rättvisande är att bedömningarna görs av personer som är ämneskunniga och som har tränats i att använda systemet.

Välja åtgärd

Evidensbaserad vård handlar bland annat om att, med stöd av bästa tillgängliga kunskap, välja mellan alternativa åtgärder. Enstaka studier räcker sällan, även om deras vetenskapliga kvalitet har bedömts. För att få en rättvisande bild krävs ofta en sammanvägning av resultat från många studier. Dessutom bör tillförlitligheten i den sammanvägda effekten bedömas, det vill säga evidensgraderas.

Sten Anttila
fil dr, projektledare SBU

Referenser

Balshem H, et al. GRADE guide-lines: 3. Rating the quality of evidence. J Clin Epidemiol 2011;64:401-6.
Guyatt GH, et al. GRADE guide-lines: 4. Rating the quality of evidence – study limitations (risk of bias). J Clin Epidemiol 2011;64:407-15.

Hur bedömer SBU evidensens styrka? | GRADE-systemet

Evidensstyrkan för en slutsats visar hur vetenskapligt välunderbyggd den är. GRADE är ett internationellt system för att gradera evidensstyrka. Det används av internationella aktörer som Världshälsoorganisationen WHO, NICE, Cochrane Collaboration och BMJ Clinical Evidence. I Sverige tillämpas systemet av bland andra SBU och Socialstyrelsen.

I ett inledande steg, innan det samlade underlaget bedöms med GRADE, granskar SBU varje enskild studie för sig. Genomgången görs systematiskt, med hjälp av särskilda mallar (checklistor) för olika typer av studier. Mallarna finns på www.sbu.se. Granskningsmallarna tar upp frågor som kan påverka studiernas tillförlitlighet och som kan variera beroende på ämne. Innan experterna börjar granska studierna diskuterar de om några särskilda aspekter är speciellt viktiga för kvaliteten och om det finns andra som är mindre relevanta.

I nästa steg gör SBU en övergripande värdering av det samlade vetenskapliga underlaget i en viss fråga. Då används GRADE. Behandlingsstudier brukar graderas på följande sätt. Det vetenskapliga underlaget för varje effektmått, till exempel dödlighet, funktion eller livskvalitet, graderas för sig. Till att börja med tilldelas det samlade underlaget, det vill säga alla de studier som man har granskat var och en för sig, en preliminär evidensstyrka beroende på hur dessa har lagts upp. Den preliminära evidensstyrkan justeras sedan uppåt eller nedåt beroende på ett antal kvalitetsfaktorer.

Om underlaget till exempel främst består av randomiserade studier, där risken för systematiska fel som regel är lägre, bedöms det preliminärt som starkt. Evidensstyrkan sänks om studierna:

har kvalitetsbrister som dålig randomisering, bristfälllig blindning och stort bortfall
pekar åt olika håll och resultaten stämmer dåligt överens
inte är relevanta för svenska förhållanden till exempel beroende på skillnader i praxis eller mellan sjukvårdsmiljöer
har dålig precision i resultaten, det vill säga osäker sammanvägd effekt, exempelvis på grund av få observationer och breda konfidensintervall
misstänks ha publicerats på ett snedvridet sätt, till exempel då endast studier med ett önskat resultat har publicerats (så kallat publikationsbias.

Om det vetenskapliga underlaget i stället utgörs av observationsstudier (kohort- och fall–kontrollstudier), bedöms evidensstyrkan preliminärt som begränsad. Denna kan dras ner ytterligare av brister som rör studiernas samstämmighet, överförbarhet och precision samt risken för publikationsbias.

I vissa fall finns det tvärtom skäl att höja evidensstyrkan. Detta gäller när underlaget består av stora, välgjorda observationsstudier med god kontroll för så kallade förväxlingsfaktorer, som annars skulle kunna leda till felaktiga slutsatser. Evidensstyrkan kan höjas, om studierna dessutom visar:

stor behandlingseffekt
samband mellan behandlingens intensitet och dess effekt, så kallat dos–responssamband.

Det är viktigt att de experter som graderar underlaget redovisar hur varje kvalitetsfaktor har påverkat deras bedömning. SBU:s rapporter innehåller ofta en tabell som visar både den preliminära evidensstyrkan och de efterföljande justeringarna.

Läs mer om SBU:s arbetssätt i vår metodbok på vår metodbok på www.sbu.se.

Vetenskap & Praxis

SBU:s tidning refererar och sprider resultaten från SBU-rapporterna, berättar om pågående projekt vid myndigheten, informerar om utvärderingsprojekt vid systerorganisationer samt väcker intresse för vetenskaplig utvärdering och kritisk granskning av sjukvårdens och socialtjänstens metoder och insatser.