Felaktig syntes ger skev helhetsbild
Systematiska översikter kan ge säkrare svar än enskilda studier. En viktig del av översiktsarbetet är möjligheten att kombinera resultaten från de studier som ingår, till exempel genom metaanalys. Antalet sådana analyser har tiodubblats på två årtionden, och tilltron till resultatens giltighet är stor. Men många av analyserna utförs felaktigt och klarar inte ens grundläggande kvalitetskrav.
Synteser av forskningsresultat förekommer på många fält [1] och har blivit ett forskningsområde i sig. Systematiska översikter kan tillföra värdefull kunskap – exempelvis när de enskilda studierna är för små för att ge säkra svar. En samlad bild blir ofta mer rättvisande.
Ett viktigt statistiskt verktyg i det arbetet är metaanalys (se faktaruta). Värdet av att lägga ihop fler observationer i en metaanalys är bland annat att öka den så kallade teststyrkan (eng. statistical power). Då kan man, med godtagbar statistisk säkerhet, påvisa även små effektskillnader – till exempel en liten men viktig skillnad mellan två metoder i behandlingseffekt.
Men syftet med en metaanalys är inte alltid att matematiskt väga ihop resultaten. Ibland är det att undersöka hur resultaten i olika studier varierar. [2] Om metaanalysen huvudsakligen har detta syfte, eller om den siktar på att göra breda generaliseringar för många olika grupper, kan analysen avsiktligt inkludera studier av helt olika kategorier av deltagare. [2]
I båda fallen är metaanalysen ett verktyg som måste hanteras med kunskap. Och i takt med metodens snabbt ökande popularitet, varnar allt fler forskare för slarv och felaktig användning. [3,4] Helhetsbilden blir missvisande om analysen och sammanräkningen av studiernas resultat görs på fel sätt. Eftersom metoden är komplicerad finns det också risk för avsiktlig manipulation. [3,4]
Därför gäller det att granska systematiska översikter med metaanalyser minst lika kritiskt som andra forskningsstudier – kanske mer, med tanke på att anspråken på giltighet vanligen är större.
Till att börja med är det inte säkert att en sammanläggning som någon kallar metaanalys verkligen är en sådan. Att till exempel beskriva graden av vetenskapligt stöd för en åtgärd genom att räkna hur många studier som talar ”för” respektive ”emot” åtgärden är ingen metaanalytisk metod – och siffrorna kan vara direkt vilseledande. Ändå förekommer sådan ”rösträkning” (eng. vote-counting) i översikter. [3] Några författare kan till exempel försöka styrka sina antaganden genom att räkna studier med statistiskt signifikanta respektive icke-signifikanta resultat. Men att det finns fler signifikanta än icke-signifikanta resultat säger föga om bevisläget.
En utmaning vid metaanalys är att välja lämplig modell – fixed eller random effects. Valet beror på analysens syfte och hur lika deltagarna i de olika studierna bedöms vara. Om deltagarna är tillräckligt lika, kan varje enskild studie betraktas som ett stickprov på den större population som man egentligen vill uttala sig om. Sammanvägningen bidrar då till en bättre bild av resultatet i den större populationen, och fixed effect-modellen används. Men om studierna skiljer sig åt så mycket att deltagarna anses representera olika populationer, bör i stället random effects-modell användas. Resultatet av analysen motsvarar i så fall ett genomsnitt för populationerna, vilket ju kan avvika från det faktiska resultatet i var och en av dem.
Metaanalys kräver också att man granskar och rangordnar data innan dessa vägs samman. Man måste använda väletablerade statistiska metoder för att beräkna effektstorlek, genomföra viktning av resultat från olika studier och hantera eventuell spretighet i dessa, så kallad heterogenitet.
Viktningen av resultat sker ofta utifrån konfidensintervallens bredd. Syftet är att kunna skilja osäkerheten i enskilda studier från den osäkerhet som själva sammanläggningen innebär. [2] Utan viktning blir det svårt att bedöma hur ”stabilt” metaanalysens samlade resultat är som helhet, och hur beroende detta är av vissa ingående studier. Viktningen förhindrar också att små studier inverkar för mycket på det samlade resultatet (i fixed effect-modellen), något som annars kan bli ett problem – av två skäl.
För det första är små studier automatiskt mer känsliga för slumpfel. Ju färre observationer som har gjorts i en studie, desto större spelrum får slumpen. Försök med få deltagare blir mer känsliga för slumpeffekter – resultaten varierar mer än i större försök. [2]
För det andra vet man att den vetenskapliga publiceringen av små behandlingsstudier med negativa resultat tenderar att dröja eller i värsta fall helt utebli, så att resultaten förblir okända. Detta snedvrider helhetsbilden av behandlingseffekt – det föreligger publiceringsbias. [2] Inom forskningsområden där små behandlingsstudier dominerar blir därför helhetsbilden av behandlingens effekt ofta överdrivet positiv.
Från att ha beskrivits som en brist-vara i forskningslitteraturen på 1990-talet, publiceras numera resultaten från ett överflöd av metaanalyser. En stor andel har kritiserats som onödiga, felaktiga eller bådadera.[4,5] Att forskarnas åsikter om sakfrågor kan snedvrida deras resultat är inte unikt för metaanalys. Liksom i andra arbeten måste man till exempel göra avgränsningar som kan påverka resultatet. [4] Forskarna måste avgöra vilka slags studier som tas med, hur gamla arbetena får vara och vilka språk som inkluderas. Kvalitetskriterierna som används för att gallra studier kan också vara olika strikta och tillämpas olika.
Därför måste vetenskapssamhället bevaka att forskarna redovisar vilka val de har gjort och hur de har gått till väga. Att författarna öppet och tydligt redovisar och motiverar sina val – så kallad transparens i rapporteringen – är nödvändigt för att en metaanalys ska anses tillförlitlig.
Teknikutvecklingen på området, till exempel maskininlärning och artificiell intelligens, medför både möjligheter och problem. Bred tillgång till avancerade statistiska analysverktyg gör det tekniskt möjligt för allt fler forskare att genomföra allt mer komplicerade beräkningar – utan att nödvändigtvis ha tillräcklig sakkunskap eller statistisk kompetens. Ju snårigare analyserna blir, desto svårare blir det både för forskaren själv och för omgivningen att upptäcka misstag och snedvridning.
Ett exempel på detta är så kallad nätverksmetaanalys – en avancerad analysmetod som blir allt vanligare och som lätt kan ge felaktiga resultat. [6] Det är en typ av metaanalys som jämför två eller flera behandlingar genom att kombinera resultat från jämförande primärstudier och indirekta jämförelser. Medan vanlig metaanalys endast gör direkta jämförelser mellan insatser, gör nätverksmetaanalys även indirekta sådana – alltså av insatser som aldrig har prövats sida vid sida i en och samma studie. För en enskild jämförelse av två insatser görs i stället ett slags extrapolering från övriga jämförelser. En stor nätverksmetaanalys kan omfatta över 20 jämförelser.
I vilka lägen som det alls är lämpligt att använda nätverksmetaanalys beror återigen på hur lika studierna är. Den bedömningen kräver ämneskunskap och påverkar valet av statistisk metod – där alternativen är många. Olika förslag till granskningsmallar för nätverksmeta-analys har publicerats. [7–10]
Mängder av fällor måste undvikas när man genomför och tolkar metaanalyser, från de enklaste till de mest komplicerade. Samtidigt som metaanalys som statistiskt verktyg har visat sig vara värdefullt, används det många gånger felaktigt. En stor andel publicerade analyser har bedömts vara undermåliga.[4]
Det gäller att komma ihåg att syntesen i sig absolut inte är någon kvalitets-garanti. [RL]
Referenser
- Gough D, et al. Syst Rev. 2020;9:155.
- Gurevitch J, et al. Nature 2018;555:175-82.
- de Vrieze J. Science 2018;361:1184-8.
- Ioannidis JPA. Milbank Q, 2016;94:485-514.
- Leclercq V, et al. BMJ Open 2020;10:e036349.
- Anttila S. SBU, Vetenskap & praxis, 2018:(1-2):12-3.
- Nikolakopoulou A, et al. PLoS Med 2020;17:e1003082.
- Puhan MA, et al. BMJ 2014;349:g5630.
- Jansen J, et al. Value Health 2014;17:157-73.
- Brignardello-Petersen R, et al. BMJ 2020;371:m3907
VÄLGJORDA SYSTEMATISKA ÖVERSIKTER – EXEMPEL PÅ KÄNNETECKEN
Studieurvalet matchar syftet
- Översiktens syfte har bestämts i förväg, liksom kriterierna för vilka studier som ska tas med.
- Urvalet av studier passar den fråga som översikten ska besvara.
- Kriterierna för urvalet är entydiga och beaktar studiernas aktualitet, storlek och kvalitet samt utfallens relevans.
- Urvalet beaktar typ av källa, t. ex. typ av publikation, språk och tillgång på rådata.
- En förteckning anger vilka studier som inte har tagits med i sammanvägningen.
Litteratursökningen är grundlig
- Sökningen täcker lämpliga databaser och andra viktiga källor.
- Söktermer och -fraser är utformade så att flest möjliga relevanta studier identifieras.
- Avgränsningar i fråga om publikationsår, publikationstyp och språk redovisas tydligt och är adekvata.
- Särskilda åtgärder har vidtagits för att minska risken för snedvridet urval av studier. Ämnessakkunniga har tillfrågats.
Studierna granskas kritiskt
- Särskilda åtgärder har vidtagits för att
- undvika fel när data hämtas från studierna. Försöksdeltagare, insatser och behandlingar beskrivs ingående.
- Översiktsförfattarna har tillräcklig information och kunskap för att tolka uppgifterna.
- Samtliga relevanta utfall tas med och redovisas vid sammanvägning.
- Risken för bias i resultaten har bedömts på ett strukturerat sätt med adekvata kriterier, och bedömningen motiveras tydligt.
- Särskilda åtgärder har vidtagits för att undvika felbedömning av risken för bias och hantera oenighet om bedömningen.
Sammanställningen är noggrann
- Översikten tar med alla studier som uppfyller de förutbestämda kriterierna och beskriver samtliga studiers relevans för den fråga som översikten ska besvara.
- Alla i förväg beslutade analyser presenteras och eventuella avvikelser förklaras.
- Valet av analysmodell motiveras. Studier vilkas resultat vägs samman bedöms vara tillräckligt lika i frågor, upplägg och utfallsmått. Eventuella olikheter mellan studierna hanteras väl.
- Sammanvägda resultat håller för en känslighetsanalys, och risken för snedvriden publicering av studier har bedömts med olika metoder och beaktats.
- De svagheter som har identifierats i studierna beaktas i översiktens egna slutsatser. Risken för bias i dessa slutsatser och i författarnas tolkning av sina fynd beskrivs och hanteras väl. Författarna presenterar inte enbart statistiskt signifikanta fynd utan redovisar alla utfall. Finansiärer för översiktsarbetet redovisas.
Källor: Whiting P, et al. ROBIS: A new tool ... J Clin Epidemiol. 2016;69:225-34 samt SBU:s metodbok