Utvärdering av insatser i hälso- och sjukvården och socialtjänsten
En metodbok
1. Introduktion
Det inledande kapitlet innehåller en beskrivning av varför systematiska översikter behövs, hur de bör rapporteras och hur metodboken är uppbyggd.
Det är viktigt att de insatser som används inom exempelvis hälso- och sjukvård, socialtjänsten, tandvården, funktionshinderområdet och arbetsmiljö baseras på bästa tillgängliga vetenskapliga kunskap. Den kunskapen kommer från välgjorda systematiska översikter (eng. Systematic Review) (Faktaruta 1.1).
Ordet insats är brett och kan avse såväl olika interventioner, former av stöd och medicinteknik, som olika metoder för att diagnostisera, förutse, bedöma och utreda utfall eller tillstånd. För att underlätta för läsaren kommer vi i kommande kapitel att använda begreppet insatser.
SBU arbetar med att utvärdera insatser som antingen redan används eller skulle kunna användas inom hälso- och sjukvården, tandvården, arbetsmiljöområdet, socialtjänsten samt funktionshinderområdet. SBU presenterar kunskap från sammanställningar av forskningsstudier, vanligtvis i form av en systematisk översikt, men gör även fullständiga utvärderingar. En fullständig utvärdering omfattar även utvärdering av ekonomiska och etiska aspekter som har betydelse för användning av insatsen. Denna typ av rapport kallas vanligen HTA-rapport (eng. Health Technology assessment) inom det medicinska området eller STA-rapport (eng. social intervention assessment) för utvärderingar inom det sociala området (Figur 1.1). I den här boken kommer vi att kalla det för HTA-rapport oavsett vilket område det gäller.
Denna metodbok är tänkt som ett praktiskt stöd för dem som ska genomföra en systematisk översikt eller HTA-rapport. Metodbokens första del rör de olika stegen i arbetet med en systematisk översikt med separata kapitel för formulering av frågeställningar, identifiering av litteratur, granskning av primärstudier (originalstudier), syntes av resultaten från dessa studier, bedömning av hur tillförlitliga resultaten av syntesen är samt identifiering av forskningsbehov. I metodbokens andra del finns information om användandet av andras systematiska översikter, antingen helt eller delvis. Metodboken avslutas med ekonomiska och etiska aspekter som behöver ingå för att en HTA-rapport ska bli komplett.
Metodboken tar inte upp andra typer av forskningssammanställningar såsom scoping reviews, umbrella reviews, overviews of reviews eller kartläggningar (eng. Evidence Maps) även om de i många avseende har liknande upplägg avseende transparens och reproducerbarhet. Mer information om metoderna för denna typ av sammanställningar finns i Cochrane handbook [1], Johanna Briggs Institute manual [2] och från Campbell collaboration [3].
En systematisk översikt ska uppfylla höga krav på att resultatet är tillförlitligt. För att göra det måste arbetet med den följa principer som minimerar risker för att slump, systematiska fel eller att subjektiva värderingar påverkar slutsatserna. Vanligen arbetar flera personer med en systematisk översikt och de har erfarenhet av det ämne som den systematiska översikten berör, hur man tar fram en systematisk översikt eller båda delar. I följande kapitel kommer de personer som genomför arbetet med att ta fram den systematiska översikten eller HTA-rapporten att benämnas projektgruppen.
Innan ett projekt startar bör projektgruppen kontrollera om några liknande projekt pågår i någon annan HTA-organisation eller om det redan finns andra aktuella systematiska översikter som kan användas för att besvara frågan. I Kapitel 10 finns mer information om hur man kan använda befintliga systematiska översikter.
1.1 Rapporteringsriktlinjer
En välgjord systematisk översikt ska rapporteras på ett sådant sätt att läsaren kan granska hur översikten har tagits fram. Det finns internationella riktlinjer för hur systematiska översikter ska rapporteras. Preferred Reported Items for Systematic Reviews and Meta-analyses (PRISMA) [5] är främst avsedd för studier med kvantitativ metodik. För systematiska översikter som bygger på studier med kvalitativ metodik finns riktlinjerna ”The Enhancing transparency in reporting the synthesis of qualitative research” (ENTREQ) [6].
2. Avgränsningar för den systematiska översikten
Det här kapitlet handlar om att ta fram ett protokoll, att strukturera frågeställningen och att och formulera urvalskriterier i en systematisk översikt.
2.1 Protokoll
Arbetet med en systematisk översikt inleds med att skriva en projektplan, dvs ett protokoll för den systematiska översikten. Protokollet beskriver syftet med den systematiska översikten, vilka frågeställningar som ska besvaras i den, vilka urvalskriterier som gäller samt vilken metodik som används för att genomföra arbetet. Protokollet bör följa en etablerad struktur för att få med samtliga relevanta delar (Faktaruta 2.1). Det är också en god idé att publicera protokollet i en internationell databas exempelvis i databasen PROSPERO. På så sätt blir arbete mer transparent och risken blir mindre att frågeställningen justeras utifrån de studier som blir inkluderade under arbetets gång.
2.2 Frågeställning
För att nå en relevant frågeställning bör projektgruppen börja med att samla in kunskap från olika kompetensområden. Dessa kan vara kliniskt eller praktiskt verksamma, forskare inom området samt personer som har de undersökta tillstånden eller behoven. Exempel på frågor som kan vara bra att besvara är:
- vilka insatser används i dagsläget, och hur?
- hur definieras populationen vanligen i forskningen?
- vilken är den relevanta jämförelsen?
- vilka utfall är det som är viktiga för till exempel brukare, patienter eller andra som är direkt berörda av ämnet i den systematiska utvärderingen?
När frågeställningen eller frågeställningarna för översikten är specificerade behöver de struktureras. En ostrukturerad frågeställning leder till problem genom hela processen, eftersom det då till exempel kan bli svårt att skapa bra sökstrategier och bedöma vilka studier som är relevanta. Första steget i processen är därför att anpassa frågeställningen till ett strukturerat format. Faktaruta 2.2 beskriver några av de vanligaste formaten. Om den systematiska översikten har flera frågeställningar kan översiktens författare behöva ta fram olika PICO, PECO, SPICE (eller dylikt). Vi kommer att gå igenom dessa fem frågeformat i Avsnitt 2.2.1 till 2.2.5 i detta kapitel.
PICO, PECO och SPICE är exempel på strukturerade format för frågeställningar och är samtidigt en del av kriterierna för vilka studier översikten inkluderar och exkluderar. Också övriga urvalskriterier anges i protokollet, som studiedesign, tidsspann som litteratursökningen omfattar, och språk. Mer om dessa i Avsnitt 2.3.
2.2.1 Strukturerat format för frågeställningar om effekter av insatser
Den strukturerade formatet för frågeställningar om effekt har formatet PICO (Population, Insats, Jämförelse (eng. Control), Utfall (eng. Outcome). I nedanstående stycke ges exempel på vanliga studiedesigner för att besvara denna typ av frågeställning samt exempel på hur PICO kan formuleras.
När det gäller studiedesign besvaras frågeställningar om effekt av insatser lämpligast med så kallade kontrollerade studier där det finns en insatsgrupp och en jämförelsegrupp. Dessa kontrollerade studier besvarar frågan om det finns ett samband mellan insatsen och utfallet. Den insats som utvärderas ges till insatsgruppen, medan jämförelsegruppen får en annan eller ingen insats. En sådan jämförelse är av vikt för att avgöra om den utvärderade insatsen är bättre, lika bra eller sämre än jämförelseinsatsen. I randomiserade kontrollerade studier (RCT) har studiedeltagarna slumpats till insatsgrupp alternativt jämförelsegrupp, medan gruppfördelningen i kontrollerade studier utan randomisering sker på annat sätt än slumpmässigt. Valet av randomisering jämfört med icke-randomisering är oftast avgörande för att kunna besvara om det finns ett orsakssamband mellan insatsen och utfallet. Se Kapitel 5 för mer information.
För att upptäcka biverkningar, komplikationer eller oönskade effekter av en insats kan andra typer av studiedesign, som longitudinella uppföljningar och registerstudier vara aktuella. En annan studiedesign som ibland kan vara aktuella till exempel vid utvärdering av effekter av ändrade policies eller lagstiftning är avbrutna tidsserier (eng. interrupted time series, ITS) [8] [9] [10]. En design som kan vara aktuell för exempelvis sällsynta tillstånd är Single case experimental design där den eller de personer som deltar utgör sin egen jämförelse. Effekten av en insats prövas genom att insatsen, till en och samma person, introduceras (aktiv insats) och därefter tas bort (jämförelseinsats i form av ingen insats) ett antal gånger med upprepade mätningar av det utfall forskarna vill mäta innan, under och efter introduktionen av den aktiva insatsen. Studier som undersöker om effekterna av insatserna är likvärdiga kallas non-inferiority studier (Faktaruta 2.3).
2.2.1.1 PICO
Ett PICO innehåller fyra delar:
- För vilka patienter, klienter eller personer är det relevant att undersöka effekten av insatsen?
- Vilken är insatsen?
- Vad är jämförelsealternativet?
- Vilka positiva och negativa utfall av insatsen är av intresse och hur ska de mätas?
Det är också viktigt att definiera om frågeställningen gäller om insatsen är bättre än jämförelsealternativet, eller om insatsen är lika bra som jämförelsealternativet. Det senare fallet, så kallat non-inferiority, kan till exempel vara av intresse om det kommer en ny insats som är billigare, lättare att genomföra eller medför färre besök vid sjukhus eller socialtjänstverksamheter.
Nedan finns ett exempel på ett PICO (Faktaruta 2.4) utifrån en frågeställning.
2.2.1.2 Population
Populationen utgör den eller de grupper som är aktuella för den undersökta insatsen. Det är viktigt att populationen beskrivs noggrant. Flera delar kan behöva förtydligas: avser frågeställningen både kvinnor och män? Ska effekten utvärderas för specifika åldersgrupper? Ingår personer med funktionsnedsättning eller bör de ingå i populationen? Hur stringenta krav kan ställas på diagnos, funktionstillstånd eller bedömning av behov för populationen? Accepteras bara studier som använt diagnostiska kriterier eller fastställda bedömningsgrunder, och i så fall vilka? Räcker det med självrapporterade problem? Finns det någon samsjuklighet eller flera olika funktionstillstånd att ta hänsyn till? Ska frågan enbart gälla personer som brukar eller missbrukar någon drog?
Ibland är det lämpligt att definiera en minsta andel deltagare som uppfyller kraven i studien för inkludering av den i översikten, exempelvis vid studier av äldre att minst 70 procent är över 65 år.
2.2.1.3 Insats
Här anger översiktens författare den insats (intervention, behandling) som frågeställningen gäller. Exempel på en insats är psykologiska insatser i syfte att behandla depression efter förlossning. I vissa fall finns behov av avgränsningar. Det kan exempelvis handla om utvärdering av en viss dos av ett läkemedel, ett visst antal tillfällen av en insats, en särskild intensitet i insatsen, hur länge insatsen ska pågå och vem som ska genomföra insatsen. De insatser som inkluderas i översikten ska vara relevanta för svenska förhållanden antingen genom att de redan är införda eller bedöms kunna införas inom vård, socialtjänst, funktionshinderområdet eller arbetslivet inom överskådlig framtid.
2.2.1.4 Jämförelse
Vilken är jämförelsealternativet till insatsen? Vanliga jämförelsealternativ är placebo, sedvanlig insats, väntelista eller en annan insats. Ibland kan det vara tydligt att effekten av två olika insatser ställs mot varandra, medan det i andra fall inte alltid finns något tydligt jämförelsealternativ. Se Faktaruta 2.5 för mer information om olika jämförelsealternativ.
2.2.1.5 Utfall
Utfall innebär den uppmätta och beräknade skillnaden i effekt efter att deltagare erhållit insatsen eller jämförelsealternativet. Ofta finns det flera olika utfall i en och samma forskningsstudie. Översiktens författare behöver här ange vilka av dessa som kommer att sammanställas i översikten. Utfallen kan vara av olika betydelse för dem som insatsen riktas till (Faktaruta 2.6). Exempel på utfall som har direkt koppling till de som är berörda är personens återstående livslängd, grad av problem eller behov liksom upplevd livskvalitet eller aktivitet. Andra utfall, som till exempel laboratorievärden, en rullstols tekniska prestanda eller deltagarens förmåga att ta sig fram med sin rullstol ett visst antal meter, är endast viktiga om de antingen har en direkt koppling, det vill säga ett orsakssamband, till hälsoutfall eller en faktisk möjlighet att öka aktivitet. I övrigt är de mindre viktiga.
En systematisk översikt kan innehålla flera utfall för en frågeställning, exempelvis såväl förändring av symtom, tillstånd, eller behov, som livskvalitet och upplevd trygghet, och biverkningar eller oönskade effekter. Förslagsvis definieras ett primärt utfall och därefter ett, eller några få, sekundära. Det primära utfallet i en systematisk översikt bör vara mycket viktigt för de som berörs av tillståndet eller har behovet. Det är viktigt att överväga negativa konsekvenser av en insats, som till exempel komplikationer, ökning av problembeteenden eller uppkomst av funktionshinder. Vid en HTA-rapport ingår dessutom ofta mått på insatsers kostnadseffektivitet (Kapitel 11).
Specificeringen av utfall omfattar även hur de ska mätas, med vilket mått samt när mätningen sker. Mätmetoderna ska vara validerade och reliabla, det vill säga att instrumentet mäter det som är det är avsett att mäta eller bedöma och att själva mätningen går till på samma sätt oavsett av vem som utför den och när (Avsnitt 7.3). Utfallet kan mätas vid en eller flera tidpunkter. Ett exempel är mätning av effekter av förebyggande (preventiva) insatser där den önskvärda effekten kan ligga decennier framåt i tiden.
För vissa tillstånd finns så kallade prioriterade utfall (eng. Core Outcome Sets, COS) [14]. Prioriterade utfall är framtagna i konsensusprocesser där personer med det aktuella tillståndet eller behovet, professionsföreträdare och forskare tillsammans enas om vilka utfall som är viktigast. Syftet är att få en enhetligare rapportering av utfall och att måtten forskarna har använt sig av för att mäta dessa utfall är de mest relevanta för intressentgrupperna. Artiklar med sammanställningar av framtagna prioriterade utfall finns samlade i en databas på Comet Initiatives webbplats.
2.2.2 Strukturerade format för frågeställningar om samband mellan en exponering och ett utfall
Den strukturerade frågan för denna frågeställning har formatet PECO. Det står för population, exponering, jämförelse (eng. comparator) och utfall (eng. outcome). I nedanstående stycke ges exempel på vanliga studiedesigner för att besvara denna typ av frågeställning samt exempel på formulering av ett PECO.
Exponering är ett brett begrepp som ofta används inom epidemiologisk forskning, och avser faktorer som kan vara associerade med ett utfall. Exponeringsstudier förekommer till exempel inom forskning kring livsstilsfaktorer som kost, rökning och miljöfaktorer som miljögifter och arbetsmiljö eller sociala faktorer som exempelvis socioekonomi eller medberoende.
Exempel på frågeställningar kan vara vilket samband det finns mellan en viss kost och cancer eller mellan boendeform för placerade ungdomar och kriminalitet. Kost respektive boendeform utgör i dessa fall exponering och förekomst av cancer respektive kriminalitet är utfallen.
Frågeställningar om samband mellan exponering och utfall besvaras ofta med longitudinella studier (men även andra studiedesigner som fall-kontrollstudier kan vara aktuella) där deltagarna följs över tid och samband mellan en exponeringsfaktor och utfallet undersöks. Exponeringstudier som inte är randomiserade har begränsade möjligheter att svara på om det finns ett orsakssamband mellan exponering och utfall, eller om det är andra förväxlingsfaktorer som orsakar sambandet (Avsnitt 5.2).
2.2.2.1 PECO eller PEO
I arbetet med ett PECO är det fyra delar av frågeställningen som är viktiga:
- För vilka är det relevant att undersöka sambandet?
- Vilken är exponeringsfaktorn?
- Vad är jämförelsealternativet?
- Vad är utfallet?
Ibland handlar frågeställningen om olika nivåer eller grader av exponeringar jämfört sinsemellan, utan en uttalad jämförelsegrupp. I sådana fall pratar man i stället om PEO. I protokollet behöver det även framgå om frågeställningen avser orsakssamband (kausalt samband) dvs. att exponeringen leder till utfallet eller inte.
2.2.2.2 Population
Här gäller samma överväganden för populationen som i ett PICO för frågeställningar om effekten av insatser (Avsnitt 2.2.1.2).
2.2.2.3 Exponering
Här beskrivs vilken exponeringsfaktor som avses. Exponeringen kan mätas och analyseras på olika sätt. Ibland definieras den utifrån om en grupp har utsatts för exponeringsfaktorn eller inte, det vill säga exponerad/icke exponerad. Till exempel om man vill undersöka samband mellan att utföra mycket repetitiva armrörelser i arbetet och besvär i nacke eller axlar.
I andra fall kan exponeringen vara definierad utifrån olika kategorier, till exempel låg, medelhög eller hög grad av exponering, eller exponeringar över eller under ett visst tröskelvärde. Om exponeringen är kontinuerlig, till exempel mäts med ett indexvärde för kontinuitet, brukar den ofta kategoriseras för att underlätta analys och tolkning. Exempel på en kontinuerlig exponering är ljudnivå på en arbetsplats. Denna kan kategoriseras som låg, måttlig, hög etc. för att kunna se effekter av olika nivåer på ett utfall, till exempel tinnitus.
Exponeringen kan även bestå av olika grader av intensitet i till exempel kontakter med sjukvården eller socialtjänsten, som graden av kontinuitet till en fast person.
2.2.2.4 Jämförelse
Ofta görs jämförelsen i denna typ av studier mellan de som är exponerade och de som inte är exponerade. Ibland jämförs olika nivåer eller grader av exponeringar med varandra, utan att göra en uttalad jämförelse med en grupp som inte varit exponerad.
2.2.2.5 Utfall
Här gäller i stor utsträckning samma överväganden som i ett PICO för frågeställningar om effekten av insatser (Avsnitt 2.2.1.5).
2.2.3 Strukturerat format för frågeställningar om diagnostik och bedömningsmetoder
Den strukturerade frågan har formatet PIRO (Population, Indextest, Referenstest, Utfall). I nedanstående avsnitt finns exempel på vanliga studiedesigner kopplade till diagnostiska test samt bedömningsmetoder inom arbetsmiljö-, socialtjänst och funktionshinderområdet, samt exempel på hur PIRO kan formuleras.
Diagnostiska test, manualer och utrustning som används för att fastställa och diagnostisera medicinska tillstånd sammanfattas fortsättningsvis med begreppet test.
När det gäller arbetsmiljö-, socialtjänst- och funktionshinderområdet kan olika former av arbetssätt, verktyg och formulär användas som stöd för bedömning av behov av en insats (Faktaruta 2.8). Nedan benämns sådana arbetssätt, verktyg, enkäter och formulär gemensamt för bedömningsmetod.
Systematiska översikter om test eller bedömningsmetoder utvärderar i vilken utsträckning dessa korrekt bedömer, fastställer och klassificerar tillstånd och behov. Den medicinska termen vid sådan utvärdering är diagnostisk tillförlitlighet (eng. diagnostic accuracy). När det gäller utvärdering av tillförlitligheten till bedömningsmetoder benämns det härefter med samma term.
Frågeställningar om diagnostisk tillförlitlighet besvaras ofta med tvärsnittsstudier, men även andra studiedesigner som diagnostiska RCT (Faktaruta 2.9) eller fall-kontroll studier kan vara aktuella. I sådana studier fastställs deltagarnas tillstånd eller behov med det test eller den bedömningsmetod som utvärderas (härefter benämnt indextest), samt med det test eller den bedömningsmetod som indextestet jämförs med, ett referenstest.
2.2.3.1 PIRO
I arbetet med ett PIRO är det fyra delar av frågeställningen som är viktiga:
- För vilka personer ska testet eller bedömningsmetoden användas?
- Vilket är testet eller bedömningsmetoden som utvärderas?
- Vad är jämförelsealternativet?
- Vad är det testet ska diagnostisera eller bedöma?
Det är också viktigt att definiera om frågeställningen gäller:
- olika bedömningsmetoders eller testers psykometriska egenskaper, det vill säga hur väl testet eller metoden mäter det som är avsett att mätas, samt hur likartade skattningar blir när olika personer gör skattningen vid olika tillfällen (mer information om den typen av översikter finns beskriven av en organisation som heter Consensus-based Standards for the selection of health Measurement Instruments, COSMIN)
- i vilken utsträckning diagnostiska test eller bedömningsmetoder korrekt kan skilja ut personer med ett visst tillstånd eller behov jämfört med ett referenstest som antas skatta tillståndet eller behovet korrekt
- effekter av de insatser som, baserat på diagnosen eller bedömningen, ges eller erbjuds den enskilde.
Frågeställningar i en systematisk översikt om effekt av användning av tests eller bedömningsmetoders resultat på val av insats, med avseende på patient- eller personnära utfall, formuleras enligt PICO.
I Faktaruta 2.10 finns exempel på frågeställningar utifrån dessa tre olika syften.
2.2.3.2 Population
Ett och samma diagnostiska test eller bedömningsmetod kan ha olika diagnostisk tillförlitlighet i olika populationer. Det är därmed viktigt att populationen som översikten avser beskrivs noggrant, exempelvis om utvärderingen gäller en viss åldersgrupp, ett visst kön, eller personer med en viss bakgrund och funktionstillstånd. Därutöver behöver två ytterligare aspekter beaktas, nämligen sammanhang (eng. setting) liksom testets eller bedömningsmetodens tilltänkta användningsområde (Faktaruta 2.11). Med sammanhang avses om utvärderingen enbart gäller personer i ett visst specificerat sammanhang, exempelvis personer som utreds av socialtjänsten, personer som är inskrivna i slutenvård eller personer i en särskild arbetsmiljö.
2.2.3.3 Indextest
Ett indextest är det test eller den bedömningsmetod som utvärderas med avseende på dess diagnostiska tillförlitlighet. I vissa fall kan det vara nödvändigt med avgränsning till en viss version av till exempel en medicinsk utrustning eller vissa specificerade behov. Det kan även vara så att flera indextester eller bedömningsmetoder utvärderas i samma systematiska översikt.
2.2.3.4 Referenstest
Referenstest (även kallat referensstandard, referensmetod) är det test eller den bedömningsmetod som indextestet som utvärderas jämförs med. Referenstest kan vara tidigare utvärderade test eller bedömningsmetoder som visats ge tillförlitliga resultat. De referenstest som används som jämförelse förutsätts kunna klassificera aktuellt tillstånd, eller behov korrekt. Det är dock sällan ett referenstest är perfekt, och i många fall finns det inte heller något etablerat referenstest. I den senare situationen kan man istället välja mellan olika typer av teoretiska, ideala eller utifrån praktiken konstruerade referenstest [16] [17] (Faktaruta 2.12). Det är ingen nackdel att använda sig av ett konstruerat referenstest om det klassificerar tillståndet eller behovet korrekt.
2.2.3.5 Utfall
För utfallen gäller att specificera det tillstånd eller behov som testet eller bedömningsmetoden ska identifiera. De effektmått som används i en diagnostisk tillförlitlighetsstudie är vanligen sensitivitet (känslighet) och specificitet (träffsäkerhet) och för en översikt om psykometriska egenskaper olika former av validitet och reliabilitet, dessa beskrivs mer utförligt nedan (Faktaruta 2.13 och Faktaruta 2.14) .
2.2.4 Strukturerat format för frågeställningar om förutsägelse (prediktion) av framtida utfall
När översiktsförfattare gör sammanställning av studier om framtida utfall gäller det strukturerade frågeformatet PICOTS. Det står för population, indextest, referenstest (eng. control), utfall (eng. outcome), tid och sammanhang. I avsnittet nedan finns exempel på vanliga studiedesigner kopplade till prediktion, samt exempel på ett formulerat PICOTS.
En del av de test och bedömningsmetoder som används inom hälso- och sjukvård, tandvård, socialtjänst samt funktionshinder- och arbetsmiljöområdet handlar om prediktion, det vill säga att förutsäga risken för att något kommer att inträffa, till exempel för att avgöra hur en fråga ska utredas vidare eller vilka insatser som kan behövas i framtiden. I Faktaruta 2.15 beskrivs skillnader mellan prediktion, diagnostik och exponeringfrågeställningar.
Den information som används för att göra förutsägelsen i en prediktiv studie är vanligen olika bedömningar, faktorer, markörer, modeller eller beslutsregler. Den informationen kallas för prediktiv faktor eller prediktionsmodell. Det kan exempelvis vara att undersöka vilka faktorer som kan förutsäga vilka som har hög risk att återfalla i brott, hög risk för suicid eller hög risk för återfall i sjukdom. Förutom att resultaten kan styra val av insats kan de även bidra genom att ge:
- utökad information till individen samt vård-, omsorgs- och arbetsgivare
- den som ska få insatsen möjlighet att delta i planeringen av olika insatser inklusive valet att avstå en insats
- möjlighet att starta förebyggande (preventiva) insatser
- förutsättningar för bästa möjliga insatser, exempelvis i form av precisionsmedicin.
Frågeställningar om hur väl en prediktiv faktor eller modell kan förutsäga sannolikheten för att ett tillstånd, en händelse eller ett behov kommer uppstå i framtiden besvaras ofta med longitudinella studier där forskare följer deltagarna över tid och undersöker sambandet mellan en specifik faktor eller modell och ett visst utfall.
2.2.4.1 PICOTS
I arbetet med PICOTS är det sex delar som specificeras:
- För vilka personer är prediktionen av intresse?
- Vilken faktor eller modell är det som ska utvärderas?
- Finns det någon jämförande faktor eller modell?
- Vad är det som ska förutsägas?
- Inom vilken tidsrymd vill man att förutsägelsen ska ske?
- I vilket sammanhang är förutsägelsen tänkt att appliceras?
Det är också viktigt att definiera om frågeställningen gäller:
- Övergripande prognos. Studier av övergripande prognos (engelska: average/overall prognosis) undersöker utvecklingen av ett tillstånd i befolkningen eller i en viss grupp av personer [20]. Exempelvis kan forskare vara intresserade av hur ungdomar som växer upp i ett område med hög kriminalitet klarar sig senare i livet.
- Prediktionsfaktor. Studier av prediktionsfaktorer (risk eller skyddsfaktorer samt funktionshindrande eller funktionsfrämjande faktorer) (engelska: Prognostic factor studies) undersöker om det finns ett samband mellan en viss mätbar faktor, och ett framtida tillstånd, behov eller händelse [21]. Till exempel kanske man är intresserad av hur väl koncentrationen av kolesterol i blodet förutsäger risken att drabbas av en kardiovaskulär händelse (exempelvis hjärtinfarkt) inom ett visst tidsperspektiv, eller hur väl skattning med ett bedömningsinstrument kan förutsäga risk för återfall i brott.
- Prediktionsmodell. Syftet med prediktionsmodeller (Synonymer: prognostiska plattformar och prediktiva modeller) [22] är att utifrån en modell baserat på en matematisk kombination av resultatet från flera olika prediktionsfaktorer förutsäga framtida sannolikhet för en viss händelse att utvecklas. Till skillnad från prediktion som baseras på en enskild faktor, så omfattar en prediktionsmodell flera prediktionsfaktorer som tillsammans antas ge en bättre skattning av sannolikheten än de enskilda faktorerna var för sig. Ett exempel på en prediktionsmodell är SCORE. Denna modell skattar risken att dö av en kardiovaskulär händelse inom 10 år i utifrån värdet på följande riskfaktorer: kolesterol, ålder, kön, blodtryck och rökning.
- Effekten av insatser baserat på prediktionen (även kallat stratifierad medicin inom hälso- och sjukvård). Prediktionsstudier handlar oftast om i vilken utsträckning testet eller bedömningen kan förutsäga framtida tillstånd, behov eller händelser [23]. För att göra skillnad för individen behöver även utfallet av en insats baserat på prediktionen undersökas. Denna typ av frågeställning besvaras lämpligast genom RCT-studier eller andra kontrollerade studier (Avsnitt 2.2.1.)
Inom det medicinska området används så kallad precisionsmedicin som avser individanpassad utredning, prevention eller insats av sjukdom eller tillstånd, utifrån en prediktionsfaktor eller prediktionsmodell. Exempel på PICOTS för frågeställning om prognostisk faktor respektive prediktionsmodell finns i Faktaruta 2.16.
2.2.4.2 Population
Populationen behöver vara specifikt formulerad, eftersom olika grupper kan ha olika baslinjerisk eller sannolikhet för det utfallet, se Avsnitt 5.1.2 och Avsnitt 2.3.2.
2.2.4.3 Indextest/indexmodell
Med indextest/indexmodell menas den faktor eller modell som den systematiska översikten undersöker.
En faktor kan vara något som är objektivt mätbart, exempelvis ålder, biologiskt kön eller blodtryck, eller subjektiva mått, exempelvis grad av skörhet, depression eller beroende, och skattas via ett bedömningsformulär.
Med en modell avses en matematisk sammansättning av flera olika faktorer där olika faktorer kan ha olika stor vikt i sammanräkningen.
2.2.4.4 Referenstest
Här specificeras om jämförelse med andra faktorer eller modeller kommer att göras. I de fall det inte är aktuellt lämnas denna utan att fyllas i.
2.2.4.5 Utfall
För utfall gäller att specificera vad faktorn eller modellen ska kunna förutsäga och hur detta ska mätas. Exempelvis prediktion av död, återfall i brott, suicid, behov av hjälpmedel eller behov av ekonomiskt bistånd.
2.2.4.6 Timing
Två olika tidsaspekter är aktuella:
- När i tid som bedömningen/mätningen av faktorn eller modellen ska göras.
- Tiden för vilken utfallet ska förutsägas. Exempel: Död inom 30 dagar, återfall i kriminalitet inom 2 år, förbättrad funktionsnivå inom 1 år.
2.2.4.7 Sammanhang
Här specificeras i vilket sammanhang som bedömningen eller mätningen är tänkt att användas. Exempelvis om bedömningen är tänkt att göras på sjukhus, inom socialtjänsten eller i skolmiljö.
2.2.4.8 Övrigt
Om den systematiska översikten undersöker prognostiska faktorer, bör det i protokollet specificeras vilka kovariater som finns för utfallet. Med kovariat avses en eller flera andra faktorer, än de som utvärderas, som på förhand bedöms kan vara förknippade med utfallet. Dessutom bör det vara faktorer som det troligtvis finns information om när den prognostiska faktorn som utvärderas är tänkt att användas i praktiken. Exempel på vanliga kovariater är utbildningsnivå, ålder och kön men det skiljer sig åt beroende på vad som utvärderas.
Anledningen till att definiera kovariater i förväg är för att vid risk för bias-bedömning undersöka om de inkluderade studierna tar hänsyn till viktiga kovariater. Därefter utvärderas om det finns ett samband mellan den prognostiska faktorn och utfallet utöver det som kovariaterna kan förklara.
2.2.5 Strukturerat format för frågor om upplevelser, erfarenheter och värderingar
Det strukturerade formatet för frågor om upplevelser, erfarenheter och värderingar är SPICE. Det står för sammanhang, perspektiv, insats eller intresse, jämförelse (eng. control) och utvärdering (eng. evaluation).
Det har blivit allt vanligare med frågeställningar med utgångspunkt i personers upplevelser, erfarenheter och värderingar av till exempel en insats, ett så kallat fenomen, i effektutvärderingar [24]. Det kan handla om hur tillgänglig, hur genomförbar eller hur acceptabel informanterna upplever en särskild insats. Ofta kan besvaras frågor om personers upplevelser, erfarenheter och värderingar av en viss företeelse med hjälp av metoder som intervjuer eller observationer, det vill säga forskning med kvalitativ ansats. Det går även att använda enkätstudier, eller studier som använder både kvantitativ och kvalitativa data, så kallade mixed methods-studier.
Det kan finnas flera syften med en syntes av kvalitativ evidens, på engelska ofta kallad qualitative evidence synthesis (QES). Ett syfte är att utforska erfarenheter, upplevelser och uppfattningar av sjukvård, socialtjänst eller arbetsmiljö- och arbetslivsrelaterade insatser. Ett annat att utforska upplevelser av att ha ett visst tillstånd, som att tappa sina tänder. Andra syften kan vara att utvärdera upplevelser och erfarenheter när det gäller tillgång till en insats, hur användbar eller accepterad den upplevs eller upplevelser av att ge respektive få en särskild insats. Ytterligare en variant är när en syntes av kvalitativ evidens utforskar vad som hindrar och underlättar att man inför en insats i sin verksamhet [25].
Vägledningar från Joanna Briggs Institute (JBI) och Cochrane Collaboration beskriver hur resultat från kvantitativ och kvalitativ syntes kan läggas ihop i så kallade mixed methods-översikter [2] [26].
2.2.5.1 Om forskning med kvalitativ ansats
Kvalitativ forskning bottnar i olika traditioner som till exempel filosofi, antropologi och sociologi, som i sin tur har blivit basen för olika forskningsansatser [27]. Några vanliga exempel på detta är fenomenologi och hermeneutik som utgår från specifika filosofiska och kunskapsteoretiska traditioner och grounded theory som främst utgår från sociologi. Exempel på andra ansatser som används i primärstudier är etnografi, narrativ analys, fenomenografi, diskursanalys, tematisk analys, framework analysis och aktionsforskning [27]. Valet av ansats bestäms av studiens syfte och relation till teori, där syftet kan vara att till exempel generera ny teori, att testa befintliga teorier eller vara tillämpat, exempelvis som en del i en utvärdering av komplexa metoder. Ansatsen kommer i sin tur att påverka valet av metoder för att samla in, analysera och tolka data. Det är möjligt att olika kvalitativa metoder inte går att syntetisera i en översikt; de som utför en syntes av kvalitativ evidens bör vara väl bevandrade inom detta metodologiska fält för att kunna göra upplysta vägval.
Resultaten från en kvalitativ studie uttrycks ofta som teman eller kategorier. Kvalitativ forskning knyts till sammanhanget eller kontexten, vilket omfattar såväl den studerade populationen som sammanhanget eller miljön där den finns (eng. setting).
2.2.5.2 SPICE
Det finns flera typer av strukturerade format beroende på syntesmetod [24]. Ett vanligt format är SPICE som består av fem komponenter: sammanhang, perspektiv, insats eller intresse, jämförelse (eng. control) och utvärdering (eng. evaluation). Ett exempel på frågeställning med tillhörande SPICE finns i Faktaruta 2.18.
2.2.5.3 Sammanhang
Sammanhang omfattar till exempel geografiskt område (t.ex. Sverige, västvärlden, globalt), miljö (t.ex. primärvård, boende anpassat enligt lag om bostadsanpassningsbidrag, arbetsplats under jord, eller fängelse), lagstiftning (LSS, SoL, HSL, LVU) och policyer som kan påverka fenomenet, och tidsaspekter (t.ex. upplevelser före och efter en policyförändring).
2.2.5.4 Perspektiv
Denna komponent definierar vems perspektiv som översikten gäller, det vill säga den population som är av intresse. Det kan exempelvis vara barn och ungdomar placerade i familjehem, patienter som genomgår cancerinsats, blåljuspersonal som arbetar i en arbetsmiljö där hot förekommer eller blinda personers upplevelser och erfarenheter. I vissa fall kan det vara värdefullt att specificera undergrupper såsom kvinnor och män eller ambulans- och övrig räddningstjänstpersonal.
2.2.5.5 Insats/intresse
Denna komponent specificerar fenomenet eller insatsen på den detaljnivå som behövs. Om fenomenet är alltför översiktligt definierat kan det vara svårt att bedöma relevansen i det vetenskapliga underlaget. Även om frågeställningens avgränsning är att utforska upplevelser och erfarenheter av sjukvård, kriminalvård eller ett särskilt boende, kan sökningen behöva breddas så att till exempel studier som handlar om att leva med ett tillstånd eller behov accepteras, för att inte missa studier som kan ha undersökt bredare frågeställningar.
2.2.5.6 Jämförelse
Om det är relevant med en jämförelse för den kvalitativa syntesen, till exempel vid frågor om upplevelser och erfarenheter av insatser, ska denna beskrivas så detaljerat att jämförelsen blir meningsfull.
2.2.5.7 Utvärdering
Under denna rubrik specificerar översiktförfattarna resultatet av studierna, exempelvis i form av upplevelser, erfarenheter, värderingar, åsikter eller observerade beteenden.
2.2.6 Övrigt
2.2.6.1 Teori
En teori, modell eller teoretiskt ramverk kan underlätta uppgiften att identifiera viktiga faktorer i den strukturerade frågan. En beteendeteori eller social teori kan till exempel vara ett stöd för att förfina frågan, något som beskrivs mera detaljerat av Noyes och medarbetare [28].
2.2.6.2 Val av syntesmetod
Ange i protokollet vilken syntesmetod som kommer att användas. Valet av syntesmetod beror främst på forskningsfrågan men även praktiska aspekter såsom tid och tillgänglig expertis spelar in. Mer om olika syntesmetoder finns att läsa i Avsnitt 7.7. Grovt sett kan man dela in metoderna i beskrivande eller tolkande, där vissa metoder har såväl beskrivande som tolkande inslag (Figur 2.4). Valet av metod påverkar också litteratursökning och sökstrategi (Kapitel 3).
2.2.6.3 Reflexivitet
Begreppet reflexivitet handlar om dialogen mellan forskaren (i det här fallet översiktsförfattarna) och forskningen (i det här fallet den systematiska översikten). Den kan vara prospektiv eller retrospektiv. Prospektiv reflexivitet handlar om vilken påverkan översiktsförfattarna har på översikten. Den omfattar överväganden om hur författarnas förförståelse i form av kunskap, synsätt och uppfattningar kan påverka både vilken fråga och vilken metod de väljer, men också vilka tolkningar de gör under syntesen. Retrospektiv reflexivitet ger översiktsförfattaren en möjlighet att överväga om forskningsprocessen och de resultat som framkommer lett till att denne har fått en förändrad förförståelse.
Projektgruppens förförståelse och dess möjliga påverkan på metodval, liksom strategier för att minska påverkan, beskrivs i protokollet och i rapportens metodavsnitt. Om projektgruppen kommer fram till att påverkan är stor kan det finnas skäl till att engagera ytterligare personer med andra perspektiv. Förförståelsen, och om den har ändrats under arbetets gång, bör även tas upp i rapportens diskussion kring de kvalitativa fynden.
2.3 Urvalskriterier
Urvalskriterier formuleras och beskrivs för att på ett transparent sätt avgöra och avgränsa vilken forskning som är relevant för översiktens frågeställningar. Urvalskriterierna består av inklusions- och exklusionskriterier som anger villkor för om en studie som har sökts fram ska ingå i den systematiska översikten eller inte.
Vissa av urvalskriterierna blir automatiskt specificerade utifrån ett strukturerat format för frågeställningen. Oavsett frågeformat behöver även andra kriterier specificeras i protokollet. Exempel på ytterligare faktorer som kan behöva specificeras följer nedan:
2.3.1 Sammanhang
Här definieras i vilken sammanhang som insatserna ska ges. Exempelvis kan översikten behandla insatser som ges inom primärvården, kriminalvården, elevhälsan eller på särskilda boenden.
2.3.2 Studiedesign
Här definieras vilka studiedesigner som inkluderas.
2.3.3 Språk
Här definieras om endast primärstudier skrivna på specificerade språk inkluderas eller om alla artiklar tas med oavsett språk.
2.3.4 Publikationsformat
Här anger översiktsförfattarna vilka publikationsformat som primärstudierna ska ha för att bli inkluderade. Det kan vara aktuellt att enbart ta med publicerade artiklar som genomgått ett peer review-förfarande och har publicerats i vetenskapliga tidskrifter. Ibland kan översikter bredda sitt urval eller även ta med andra publikationstyper som myndighetsrapporter, konferensabstrakt, avhandlingar eller förhandsversioner, det vill säga artiklar som ännu inte publicerats men som finns tillgängliga via olika preprintsservrar.
2.3.5 Deltagarantal
Det kan också vara bra att fundera över om alla studier ska inkluderas, oavsett deltagarantal, eller om översiktens författare definierar ett minsta antal deltagare per grupp för inklusion.
3. Litteratursökning
Det här kapitlet handlar om litteratursökningen för en systematisk översikt, med fokus på sökning efter vetenskapliga artiklar i internationella ämnesdatabaser samt hur SBU arbetar med detta. Även kompletterande söksätt och sökning av så kallad grå litteratur tas upp.
I Kapitel 1 beskrivs riktlinjer för hur arbetet med systematiska översikter ska utformas och dokumenteras enligt PRISMA:s checklista [5]. Avsnitt 6 och 7 i denna checklista ger anvisningar om hur litteratursökningen ska rapporteras. För att upprätthålla kraven på översiktens transparens och reproducerbarhet ska alla källor som har använts vid sökningen anges och beskrivas. Det är också viktigt att ange tidpunkten för senaste sökning, eftersom denna ofta skiljer sig betydligt från när översikten publicerats. Fullständig dokumentation över sökstrategier i alla databaser ska vara tillgänglig och sökningarna ska vara rapporterade på ett sådant sätt att de går att repetera. Dokumentationen gör det möjligt att se om arbetet med litteratursökningen följer internationell standard. Förutom SBU:s metodbok och internationella metodböcker [29] [30] [31] [32] [33] som ger utförliga anvisningar om hur litteratursökningen ska utformas, forskas det aktivt inom området och en omfattande mängd vetenskapligt granskade metodartiklar publiceras. Mer övergripande information om sökning för systematiska översikter hittas bland annat i publikationer av Atkinson och medarbetare [34] samt Cooper och medarbetare [35]. Webbplatsen SuRe info (Summarized Research in Information Retrieval for HTA) som är en del av HTAi Vortal, är också en viktig källa för att följa den internationella metodutvecklingen.
3.1 Litteratursökningen – en del av projektprocessen
Det är en stor fördel att involvera informationsspecialisten redan i samband med att protokollet utformas, eftersom informationsspecialistens arbete med sökstrategin effektiviseras genom en ökad förståelse för frågans olika aspekter. Samtidigt kan dennes kunskap och erfarenheter av att omsätta en fråga till en sökstrategi bidra till att strukturera frågan. Studier har visat att när informationsspecialisten deltar i projekten ökar kvalitén på litteratursökningen, framför allt genom att sökningen blir reproducerbar i enlighet med PRISMA-statement [36].
Utgångspunkten för litteratursökningen är alltid den systematiska översiktens frågeställning, som struktureras i protokollet. Sökningen görs i flera steg: förberedande sökningar, testsökning och huvudsökning. Innan huvudsökningarna påbörjas ska protokollet vara fastställt och godkänt. I slutet av projektet görs en uppdateringssökning så att underlaget är så aktuellt som möjligt.
3.1.1 Före projektstart: Identifiera redan gjorda översikter
Innan ett projekt startar bör översiktsförfattarna kontrollera om liknande projekt pågår i någon annan HTA-organisation eller om det redan finns aktuella systematiska översikter som kan besvara fråga (Faktaruta 3.1). Oavsett om syftet med projektet är att identifiera så många som möjligt av de relevanta systematiska översikter som publicerats inom ämnet, eller om syftet är att identifiera primärstudier för att sammanställa en systematisk översikt, gäller att flera databaser måste sökas. De befintliga stora internationella ämnesdatabaserna behöver kompletteras med ett antal specialdatabaser och utvalda organisationers webbplatser. Viktiga databaser att söka i är exempelvis:
- Cochrane Library
- Epistemonikos
- International HTA database.
Databaser inom det sociala området som bör kontrolleras är till exempel:
- Social Care Online
- Campbell Collaboration.
Databaser för protokoll över systematiska översikter är till exempel:
- PROSPERO
- Campbell Collaboration
- Cochrane Library.
3.1.2 Testsökning
När arbetet med att ta fram en systematisk översikt ska börja formulerar informationsspecialisten först sökstrategier för testsökningar, i samarbete med projektgruppen. Testsökningarna hjälper bland annat till att klarlägga bland annat:
- hur relevanta studier är indexerade och vilka termer som förekommer i titel och abstrakt
- om frågorna är tillräckligt väldefinierade eller om de behöver förtydligas
- förväntad sökmängd
Vid testsökningen kontrollerar informationsspecialisten vilka ord och fraser som generellt används i abstrakt och titlar, författarnas egna ämnesord, vilka kontrollerade ämnesord som används samt om de verkligen fångar de översikter som är relevanta, och även de inkluderade artiklarna i översikterna.
Om ämnessakkunniga är involverade i arbetet kan de förse informationsspecialisten med centrala artiklar och översikter som är relevanta för frågeställningen, och som informationsspecialisten sedan kan använda för att utveckla sökstrategierna. Sakkunniga kan också bidra med begrepp och uttryck från sina respektive forskningsområden och bedöma om sökresultatet passar projektets fråga eller om sökstrategin behöver korrigeras.
3.1.3 Att skapa sökstrategier
En väl strukturerad och definierad frågeställning är avgörande för att informationsspecialisten ska kunna göra en effektiv litteratursökning. Att strukturera frågeställningen innebär helt enkelt att den delas upp i sina olika beståndsdelar och varje delanalyseras. Dokumentera de fattade besluten.
3.1.3.1 Skapa sökblock
En sökstrategi använder vanligtvis det som på engelska kallas för en ”building block strategy”, eller på svenska kan kallas blocksökning. Ett sökblock är alla tänkbara synonymer eller fraser som kan användas för att beteckna till exempel ett sjukdomstillstånd, en insats eller en studiedesign. Ett sökblock består både av indexeringsord, hämtade från ordlistan för den specifika databasen (tesaurus), och av fritextord. För att inte riskera att man missar studier omvandlar man bara några delar av PICO, till sökblock. Vanligen använder man sökblock för population och insats, men ibland lägger man även till ett block med termer för studiedesign. Vissa delar av frågeformatet (PICO, PIRO m.fl.) kan ibland också motsvaras av två block i sökningen. Om frågeställningen till exempel handlar om populationen ”äldre personer med urininkontinens” kan detta förslagsvis motsvaras av två block; ett block för äldre personer och ett block för urininkontinens. Först söker man varje block var för sig, och sedan kombinerar man dem med varandra för ett slutgiltigt sökresultat.
Det finns områden där man behöver komplettera blocksökningen med andra metoder för att utforma sökningen, till exempel vid komplexa insatser och vid utvärdering av diagnostiska test och bedömningsmetoder. Exempel på sådana är sökningar som består av flera smala sökstrategier, ofta med olika begränsningar, som man sedan kombinerar [33] [37].
3.1.3.2 Booleska operatorer och närhetsoperatorer för att kombinera sökord
De enskilda blocken av söktermer som ska ingå i sökningen är kombinationer av uttryck och termer med en boolesk operator. De flesta internationella databaser erbjuder också möjligheten att söka med så kallade närhetsoperatorer. Det ser lite olika ut hur dessa operatorer skrivs men information finns på respektive databas hjälpsida. Beroende på typ av närhetsoperator som används går det att styra i vilken ordning söktermerna får stå samt hur många ord som får stå mellan de angivna termerna. De booleska operatorerna ”AND”, ”OR” och ”NOT” ger till exempel databasen specifika instruktioner, och ska inte blandas samman med ordens vardagliga betydelse. Inom varje block av söktermer kombineras synonyma begrepp och andra näraliggande termer med den booleska operatorn ”OR”. Det ger databasen instruktionen att söka efter antingen den ena eller den andra söktermen. Genom att använda ”OR” garderar man sig för den mångfald av olika uttryck som kan användas i olika artiklars referenser för en och samma sjukdom, tillstånd, behov eller insats etcetera. Eftersom man söker på flera olika synonymer eller termer som representerar samma begrepp blir sökresultatet i sökningar med ”OR” mellan söktermerna större än om man bara hade sökt med ett specifikt sökord.
När varje block av sökord är sökta kombineras dessa med ett booleskt ”AND” mellan varje block (Figur 3.1). Instruktionen till databasen är då att minst ett ord ur varje block måste finnas i varje referens av sökresultatet. Nu specificeras sökningen och sökresultatet snävas in.
Ett smidigt sätt att kombinera block är att använda respektive funktion för sökhistorik som finns i de flesta databaser.
Den booleska operatorn ”NOT” ger databasen instruktionen att något inte ska förekomma i sökresultatet. Vanligen används NOT med stor försiktighet eftersom det finns en risk att man missar relevanta referenser. Om översikten exempelvis gäller typ 2-diabetes men inte typ 1-diabetes, och informationsspecialisten begränsar sökresultatet med ”NOT” för termer om diabetes typ 1, kan sökningen missa referenser som ska ingå i sökresultatet, om de till exempel nämner att ”de inte utvärderat typ 1”.
3.1.3.3 Parentessökning
Parenteser används i en sökstrategi där olika booleska operatorer ingår för att bestämma i vilken ordning databasen ska söka söktermerna och operatorerna.
Exempel: gambl* AND (excessive OR pathologic* OR addict* OR disorder* OR problem* OR heavy OR sever* OR compulsive)
Parentesen instruerar databasen att först utföra sökningen inom parentesen. Detta sökresultat kombineras sedan med söktermen gambl* och ett booleskt ”AND”.
3.1.3.4 Olika typer av sökord – indexeringsord och fritextord
En sökstrategi till en systematisk översikt ska bestå av både indexeringsord och fritextord, för att den ska fånga så många av de relevanta studierna som möjligt.
Indexeringsorden hämtas från den särskilda alfabetiskt hierarkiskt uppställda ordlista, tesaurus, som varje stor internationell ämnesdatabas har. MEDLINE:s (PubMed) tesaurus kallas exempelvis för MeSH, PsycINFO:s kallas “Thesaurus of Psychological Index Terms” och Sociological Abstracts tesaurus heter “Sociological Thesaurus”. Eftersom olika databasers ordlistor använder olika begrepp och uttryck, olika indexeringsord eller kontrollerade sökord, måste alla sökstrategier omformuleras och anpassas till varje specifik databas. Det går inte att överföra samma söktermer rakt av från en databas till en annan.
Huvuddelen av alla artikelreferenser som läggs in i en databas indexeras, det vill säga att ett antal termer ur en tesaurus läggs till varje referens. Referensen ”taggas”, antingen av en indexerare eller med hjälp av en automatiserad indexeringsprocess. Dessa indexeringsord ska beskriva innehållet i en artikel och kan ibland även ange studiedesign, publikationstyp med mera. En tesaurus syftar till att försöka skapa ett enhetligt sätt att benämna innehållet i en databas samtidigt som den skapar relationer mellan begreppen i det hierarkiska systemet.
Den andra typen av sökord kallas fritextord. Det är söktermer som man väljer för att matcha ord som förekommer i databasens referens till varje specifik artikel. Referensen är uppdelad i olika fält och en vanlig begränsning är att låta fritextorden matcha ord som finns i fälten för titlar, abstrakt och författarnas egna ämnesord.
Fördelen med att söka med hjälp av databasernas indexeringsord är att de är enhetliga. Artikelns abstrakt ska idealiskt beskriva en artikels innehåll, men att söka på ord i en beskrivande text kan leda till irrelevanta träffar. Med indexeringsord behöver den som söker inte ta hänsyn till synonymer och stavningsvarianter, vilket krävs med fritextord. Detta är en stor fördel. En nackdel kan vara att de ibland är för generella för att passa den aktuella frågeställningen. Artikelförfattarens val av titel och hur abstraktet är skrivet kommer ha betydelse för hur artikeln indexeras, vilket innebär att den mänskliga faktorn vad gäller felindexering också måste beaktas.
Fördelar med fritextord är att även studier som ännu inte hunnit bli indexerade fångas in. Det betyder att för att fånga de allra senaste publicerade artiklarna i till exempel den viktiga databasen MEDLINE/PubMed, räcker det inte att söka med indexeringsord. En kombination av indexeringsord och fritexttermer kommer alltså att behövas. Fritexttermer kan också vara till hjälp när databasens indexeringsord är för generella för att passa den aktuella frågeställningen, exempelvis vid specifika namngivna insatser.
3.1.3.5 Identifiera söktermer
En sökstrategi identifierar både indexeringstermer och fritexttermer för varje block. Några metoder för att identifiera termer är att:
- Använda sökstrategier som andra utformat, helt eller delvis.
- Titta i databasens tesaurus efter tips på synonyma termer. I MeSH kallas de ”entry terms”.
- Titta i svenska MeSH, som är utvecklad av och underhålls av Karolinska Institutets bibliotek.
- Använda en tesaurusterm som en fritextterm.
- Analysera en samling nyckelartiklar som ämnesmässigt motsvarar det man söker efter, antingen manuellt eller med ett ordfrekvensverktyg, till exempel PubReMiner.
- Använda funktionen ”Related articles” i till exempel PubMed som ger tips på andra artiklar relaterade till sökresultatet.
- Göra en citeringssökning.
- Fråga sakkunniga inom ämnet.
- Söka på internet.
3.1.3.6 Avgränsningar i sökningen
Formuleringen av frågeställningens PICO, eller motsvarande, innebär att frågeställningens avgränsningar blir tydliga. Avgränsningar kan exempelvis vara populationens ålder, kön, språk, begränsningar i tid eller studiedesign.
Nästa fråga blir om dessa ska ingå i sökstrategin eller gallras fram vid genomgång av abstrakt. Frågan om huruvida olika avgränsningar ska göras i litteratursökningen eller inte handlar till stor del om att balansera mellan att i möjligaste mån minimera risk för bias och samtidigt ta hänsyn till tidsramar och resurser. Alla beslut om avgränsningar tas gemensamt av översiktsförfattarna.
Internationella databaser har inbyggda funktioner för avgränsningar, så kallade Limits. I en del databaser, som till exempel MEDLINE/PubMed, är användandet av vissa Limits liktydigt med att söka med MeSH-termer, vilket betyder att man inte får träff på nya artiklar som ännu inte är indexerade. Det gäller bland annat funktionerna Ages, Article type och Species. Andra avgränsningar som språk och tid är inte kopplade till MeSH, utan man får träff även på oindexerade artiklar. Om Limits används i sökningen, kontrollera noga i hjälpsidorna för respektive databas vad som gäller.
3.1.3.6.1 Språk
I de flesta databaser är abstrakten på engelska, även om artikeln är skriven på ett annat språk. Det är lätt att avgränsa sökningen till olika språk. En risk med en sådan begränsning är att relevanta studier på andra språk inte fångas in av sökningen. Cochranes handbok rekommenderar därför att man inte gör någon språkbegränsning och [33] hänvisar bland annat till studier som har gjorts av Egger och medarbetare från år 1997 [38] och Morrison och medarbetare från år 2012 [39]. Flera studier visar dock att riskerna att missa särskilt många relevanta studier med sökning endast på engelska inte är särskilt stora [39] [40] [41].
3.1.3.6.2 Tidsperiod
Begränsningar i tid handlar oftast om startår, det vill säga hur gamla studierna ska vara. Det kan finnas goda skäl att begränsa tidsperioden i sökstrategin. Prata med sakkunniga som känner forskningsområdena väl. Om det finns en tidsbegränsning så ska grunden till det beslutet anges. Ett alternativ är också att söka utan tidsbegränsning och sedan sätta den i efterhand. Mot slutet av projektet bör sökningarna uppdateras sökningarna för att få ett så aktuellt sökresultat som möjligt. Det är viktigt att datumet för den senaste sökningen framgår tydligt.
3.1.3.6.3 Studiedesign
Översiktsförfattarna behöver besluta om primärstudiernas forskningsdesign ska ingå i själva sökstrategin eller bara vara en del av de inklusionskriterier som hanteras i abstraktgranskningen, det vill säga att man väljer att ta med eller exkludera en studie baserat på i förhand fastställda kriterier då vid gallring av sökresultatets alla abstrakt. Att begränsa sökningen till studiedesign innebär, precis som med andra avgränsningar, en risk att missa relevant litteratur. För många typer av studiedesign finns det utvärderade sökfilter.
3.1.3.6.4 Sökfilter
Sökfilter (eng. search filters, hedges) är sökstrategier som redan är utformade och utvärderade för att fånga en viss typ av studier, till exempel en viss studiedesign. Sökfiltren är testade mot en guldstandard av relevanta artiklar och räknar ut de olika sökstrategiernas så kallade recall och precision, se Faktaruta 3.2. Sökfiltren är utformade för att passa olika databaser men olika versioner av samma databas kan ha olika filter. Ett filter som är gjort för PubMed passar till exempel inte Ovid Medline.
Sökfiltret kombineras med sökstrategins övriga block. Kontrollera använda sökfilter regelbundet, eftersom nya indexeringstermer tillkommer, och termer blir föråldrade. För systematiska översikter ska sökfiltren generellt sett ha en hög recall, det vill säga fånga så många relevanta studier som möjligt.
En betydande samling sökfilter för olika ändamål finns vid ISSG Search Filter Resource, där informationsspecialister i InterTASC Information Specialists' Sub-Group Search Filter Resource, samlar, utvärderar och publicerar sökfilter.
3.1.3.7 Litteratursökningens omfattning – en balansgång
Förhoppningen är att systematiska översikter baseras på all existerande relevant litteratur. Den optimala litteratursökningen för ett sådant projekt vore därför en sökning som både hittar alla relevanta studier och ingenting annat än de relevanta studierna, det vill säga en sökning med 100 procents precision. I praktiken är detta i princip omöjligt att uppnå.
Precision och recall är två mått som som beskriver sökresultatet, och därför kan de räknas ut först efter att sökningen utförts och resultatet har granskats. Ett sökresultat kan ha mer eller mindre hög recall, och mer eller mindre hög precision, och dessa mått står nästan alltid i motsatsförhållande till varandra (Faktaruta 3.2). Medan en sökstrategi konstrueras är de okänt hur den kommer att prestera. Då handlar det snarare om att ha en ansats i sökarbetet som möjliggör för en viss typ av resultat. Det leder till antingen så kallade breda eller smala sökningar [42].
3.1.4 Breda och smala sökningar
3.1.4.1 Bred sökning
En bred sökning är en strukturerad och uttömmande litteratursökning för att fånga alla potentiellt relevanta studier (Faktaruta 3.3). I arbetet med en systematisk översikt ska litteratursökningen vara både strukturerad och ha en uttömmande ansats. Sökningen behöver alltså vara bred.
Att sökningen ska vara strukturerad innebär att den ska följa både en förutbestämd sökmetod och uppsatta kriterier (till exempel PICO), samt genomföras i ett antal förutbestämda databaser. Till det strukturerade arbetet hör också att tillvägagångssättet är transparent och att det dokumenteras.
Att sökningen ska vara uttömmande innebär att den ska ha hög recall, det vill säga att sökningen har hittat så många som möjligt av de studier som svarar på frågan. Vid breda sökningar behövs hänsyn tas till att indexeringen kan variera eller brista, att vissa studier kan sakna indexering och att terminologin kan variera i titel och abstrakt.
Inför en sökning vet förstås ingen hur många relevanta studier som finns och vilka de är, vilket innebär att recall är svårt att räkna ut. En bred sökning ökar möjligheterna att finna det mesta. Nackdelen är att ju bredare en sökning är, desto fler irrelevanta träffar kommer den att fånga, och därför blir sökningens precision lägre (Figur 3.2). Systematiska översikter har i genomsnitt en precision på tre procent [43].
3.1.4.2 Smal sökning
För litteratursökningar som är till för andra ändamål än systematiska översikter, behöver sökarbetet inte vara lika uttömmande (Faktaruta 3.3). Det kan exempelvis handla om sökningar till narrativa översikter eller andra typer av kunskapssammanställningar. Det kan också handla om litteratursökningar där syftet helt enkelt är att bara hitta några bra artiklar om ett ämne och där precisionen därför väger tyngst. Vid sådana arbeten kan man alltså göra medvetna avgränsningar i sökningen. Det innebär att en sökning kan vara både strukturerad, det vill säga följa en noggrann metodik, och samtidigt vara precis. I boken ”Systematic approaches to a successful literature review” och i en publicerad rapport beskriver Booth och medarbetare utmärkande kriterier för olika typer av översikter och utformning av litteratursökningar med olika syften [44].
Ett exempel på en mycket smal litteratursökning är att söka efter två ord i artikelns titelfält och kombinera dessa med ett booleskt ”AND”. En sådan sökning ger antagligen få träffar och träffarna bör till stor del vara relevanta. Samtidigt innebär en sådan sökning att stora delar av den relevanta litteraturen inte kommer med eftersom man inte tagit hänsyn till varierande terminologi och endast sökt efter dessa ord i titelfältet. Om de två sökorden inte är helt relevanta för frågeställningen finns det också en risk att den smala sökningen inte alls träffar ”mitt i prick” utan snarare helt utanför.
3.1.5 Number needed to read
Sökningens precision kan också uttryckas som number needed to read (NNR), ett mått som tar i beaktande antalet abstrakt man behöver granska för att finna en relevant artikel (NNR=1/precisionen). Om projektets syfte är att besvara en frågeställning där det finns få publicerade studier, är det ganska okomplicerat att göra en bred sökning. En sådan sökning riskerar inte att missa särskilt många relevanta artiklar, samtidigt som arbetsbördan inte behöver bli så stor för dem som granskar de abstrakt sökningen identifierat.
Om projektet däremot vill besvara en frågeställning inom ett område där det finns ett stort antal publicerade studier ställs frågan om sökningens bredd på sin spets. Hur många abstrakt är projektgruppen beredda att läsa igenom manuellt för att vara säkra på att ingenting missats?
Hur smal eller bred sökningen är blir en fråga om hur mycket tid som finns till förfogande, hur många personer som arbetar i projektet och vem som ska gallra bland abstrakten. Ibland går det kanske snabbare och enklare att granska ett stort antal referenser jämfört med den tid det tar att snäva in sökningen på ett sätt som gör att man inte missar alltför många relevanta studier. Å andra sidan är alternativet med ett för stort antal sökträffar med högt NNR (dvs att granska ett stort antal irrelevanta artiklar för att hitta en relevant) inte heller oproblematiskt. Den mänskliga faktorn gör att det kan vara svårt att hålla koncentrationen uppe vid granskning av ett stort antal abstrakt, och på så vis riskerar man också att relevanta studier sållas bort av misstag. Det behöver dock inte ta alltför mycket tid i anspråk att granska en abstraktlista, trots att antalet abstrakt vid första anblicken kan se ut att vara ohanterbart:
”At a conservatively-estimated reading rate of two abstracts per minute, the results of a database search can be ‘scan-read’ at the rate of 120 per hour (or approximately 1 000 over an 8-hour period)” [45].
3.1.6 Att söka studier med kvalitativ ansats
Hur litteratursökningarna utformas för synteser med kvalitativ ansats, är helt beroende av vilken typ av syntes (Avsnitt 7.7) projektet väljer att göra. Booth och medarbetare publicerade år 2016 ett stöd för val av syntesmetod, och ett stöd för planering av sökning av studier med kvalitativ ansats. Stödet kallas 7S och står för
- Sampling
- Sources
- Structured questions
- Search procedures
- Strategies
- Supplementary searching
- Standards of reporting [46].
Om syntesen syftar till att beskriva ett fenomen är det av stor vikt att alla relevanta studier identifieras, då kommer litteratursökningen att vila på samma grund som den systematiska översikten. Om syftet däremot är att tolka data eller att generera teori kan sökningen också vara mer uttömmande, men den kan också vara upplagd på ett iterativt sätt [47].
För frågor som handlar om erfarenheter och upplevelser av att leva med ett visst tillstånd eller om bemötande kan sökstrategin bestå av ett block för population och ett block med söktermer för erfarenheter och upplevelser, respektive bemötande. Om en smalare sökning ska göras kan ytterligare ett block med termer för studiedesign läggas till. Andra frågor kan handla om erfarenheter och upplevelser av en insats, eller upplevelser av ett tillstånd eller en särskild insats. Frågeställningen kan också handla om professionens attityder, erfarenheter eller upplevelser.
Det kan vara mer tidskrävande att utforma sökstrategier för att identifiera studier med kvalitativ ansats inom det samhällsvetenskapliga området, där socialt arbete och funktionshinderforskning ingår, än för studier med kvantitativ ansats. Det kan bero både på författarnas val och på forskningsområdets tradition att namnge en studie och skriva abstrakt. Det kan också saknas viktig information ur ett sökperspektiv, som information om studiedesign, eller så används många olika begrepp för samma insats eller tillstånd. Andra orsaker kan vara brister i hur ämnesorden har indexerats i databasen, eller att tesaurusen i en databas innehåller för få kontrollerade ämnesord inom området [48] [49].
För sökning efter studier med kvalitativ ansats finns en användbar lista över sökfilter för det på ISSG Search Filter Resource.
3.1.7 Databaser och andra informationskällor
Det är alltid frågeställningen som styr valet av databaser, oavsett vilken typ av studier som är i fokus. Om sökningarna av studier med kvalitativ ansats är en del av en systematisk översikt, utförs litteratursökningen i samma databaser som huvudsökningen, ofta med tillägg av databaserna CINAHL och Scopus [49]. PsycINFO kan utgöra ytterligare ett tillägg. En annan möjlighet är att söka i flera databaser samtidigt via ett gemensamt gränssnitt, exempelvis EBSCO.
Projektgruppen behöver diskutera om grå litteratur ska ingå i sökningen. Grå litteratur är material som inte riktigt går att kategorisera som de vanligaste publikationstyperna som man söker efter när man söker efter studier. Det kan till exempel handla om rapporter, avhandlingar, manuskript eller kliniska riktlinjer.
Det finns dessutom kompletterande metoder för att identifiera studier. Framför allt är det en god idé att kontrollera referenslistorna i relevanta studier och dokument.
Se Faktaruta 3.4 för exempel på databaser som innehåller både systematiska översikter och primärstudier inom hälso- och sjukvårdsområdet respektive socialt arbete.
3.1.7.1 Sökningar till systematiska översikter
Att söka till systematiska översikter görs i flera databaser. Hur många och vilka som är lämpligast beror på frågeställningen. För frågor inom hälso- och sjukvårdsområdet kan det räcka med sökningar i Ovid MEDLINE eller PubMed, Embase och Cochrane Library. För multidisciplinära frågor och frågor inom socialt arbete och funktionshinderområdet används vanligen APA PsycINFO, SocINDEX, Sociological Abstract/Social Services Abstracts eller en kombination av dessa samt Ovid MEDLINE eller PubMed. Scopus har ofta visat sig vara en bra kompletterande databas.
3.1.7.2 Kompletterande söksätt
Även om översikten huvudsakligen kommer identifiera relevanta studier i elektroniska databaser, behövs också kompletterande söksätt. Den viktigaste metoden är ofta att gå igenom referenslistorna i relevanta systematiska översikter och primärstudier [50] [51]. Vid behov går det också att komplettera sökningarna med citeringssökningar i Scopus och den kostnadsfria Google Scholar. En annan stor licensierad citeringsdatabas är Web of Science. Det är viktigt att redovisa vilka kompletterande söksätt som har använts. För- och nackdelar med olika kompletterande sätt att hitta relevanta studier finns i en artikel av Cooper och medarbetare [52].
3.1.8 Huvudsökning
När sökstrategin är genomarbetad är det dags för huvudsökningen. De flesta internationella metodböcker inom området, till exempel Cochrane Handbook for Systematic Reviews of Interventions [53] och Developing NICE guidelines [54], anger att det inte räcker att bara söka i en databas när syftet är att hitta alla studier som besvarar frågeställningen. För att undvika risk för snedvridning av översiktens resultat genom missade artiklar behövs sökning i flera databaser [55] [56] [57].
Insatser inom socialt arbete, funktionshinderområdet och det beteendevetenskapliga området är ofta multidisciplinära. Då kan det krävas mer specifik kunskap om både vilka olika databaser som finns tillgängliga och vilka andra källor som kan vara lämpliga för projektet. Vilka databaser som är lämpliga att söka i beror helt på frågeställningen.
Eftersom samma referens kan vara indexerad, eller ”taggad”, på olika sätt i olika databaser kan kompletterande sökningar vara värdefulla även av den anledningen. Men det går inte att kompensera för en bristfällig sökstrategi genom att söka i flera databaser. Det går inte heller att använda samma sökstrategi rakt av för olika databaser eftersom olika databaser har olika krav på sökstrategins format. När en första sökning i den databas som har mest detaljerad ämnesordlista är utförd, blir nästa steg därför att anpassa sökstrategin till de andra databaserna. Sökning sker i första hand i de databaser som är angivna i protokollet, men kompletteras med andra databaser efterhand om det behövs. Om hälsoekonomiska och etiska aspekter ska ingå i utvärderingen söks dessa utifrån formulerade sökstrategier i detta steg.
3.1.9 Litteratursökningar för ekonomiska aspekter
Det kan vara tillämpligt att inkludera ekonomiska aspekter i den systematiska översikten då dessa kan ge information om vilka resurser som krävs för att exempelvis införa en insats, se Kapitel 11. Sökstrategin för att hitta studier med ekonomiska aspekter följer i stort upplägget för att hitta det övergripande projektets studier, och kan bestå av ett block för populationen, ett block för insatsen och ett block med ekonomiska termer.
Ibland, till exempel om det finns få studier men många insatser, kan en förenklad sökstrategi bestå av ett block för populationen och ett block med ekonomiska termer.
3.1.9.1 Databaser
För ekonomiska utvärderingar inom hälso- och sjukvård rekommenderas sökningar i databaserna Embase, International HTA database, Ovid MEDLINE/PubMed och Scopus [58] [59].
För ämnesområdet socialt arbete och andra närliggande områden finns det betydligt mindre publicerat kring sökningar av ekonomiska utvärderingar, men ett exempel är ett bokkapitel av Glanville och medarbetare, ”Searching for evidence for cost-effectiveness decisions” [60]. För frågeställningar om insatser inom socialtjänsten gäller vanligen att sökningarna görs i samma databaser som huvudsökningen. Ibland finns behov av att lägga till en eller flera databaser med ett generellt innehåll, såsom Scopus, om den inte redan ingår i huvudsökningen. Andra tänkbara databaser med generellt innehåll är Web of Science eller Academic Search Elite, och en kontroll i International HTA database är också viktig att göra.
Det går också att använda kompletterande söksätt, såsom att kontrollera referenslistor, webbsidor och olika register.
3.1.9.2 Sökfilter för hälsoekonomi
Vid hälsoekonomiska sökningar kombineras en ämnessökning med ett sökfilter som innehåller termer för ekonomiska aspekter. Ett vanligt filter i sammanhanget är NHS EED, som är utvärderat och publicerat av den kanadensiska HTA-organisationen Canadian Agency for Drugs and Technologies in Health (CADTH). I en utvärdering av flera filter visade sig det här filtret ha den bästa balansen mellan recall och precision [61].
Det finns ett flertal andra utvärderade relevanta hälsoekonomiska sökfilter. Hur de presterar med avseende på precision och recall varierar. Det finns filter med högre precision och lägre recall som går bra att använda om sökningen inte behöver vara uttömmande. [62].
Här finns en lista över sökfilter för ekonomiska utvärderingar (ISSG Search Filter Resource).
3.1.10 Att söka opublicerade data och övrig grå litteratur
Grå litteratur är material som inte riktigt går att kategorisera som de vanligaste publikationstyperna vid sökning efter studier. Till grå litteratur räknas bland annat avhandlingar, konferenspublikationer och rapporter som inte är utgivna av kommersiella förlag.
The Third International Conference on Grey Literature (1997) definierade grå litteratur som
”litteratur som produceras på alla nivåer i det offentliga, på universitet, företag och industri, oavsett i vilket format, och som inte är kontrollerad av kommersiella förlag och som inte har publicering som viktigaste aktivitet”.
En särskild typ av grå litteratur är opublicerade data. Det är data från studier som antingen kan vara i form av icke-publicerade abstrakt eller fulltexter (unpublished data), eller data som finns men som forskarna har valt att inte ta med i sina publicerade abstrakt eller fulltexter (missing data). Risken för publikationsbias har länge varit känd, det vill säga att nollresultat eller negativa resultat i studier inte publiceras i samma utsträckning som positiva resultat. Då finns risk för snedvridning av den systematiska översikten resultat. Det betyder att det finns en risk för överskattning av de publicerade positiva insatseffekterna eftersom de eventuella negativa effekterna av insatserna inte publiceras i vetenskapliga tidskrifter [63] [64] [65] [66] [67] [68]. Se avsnitt 7.1.9 för mer information om publikationsbias.
Opublicerade data kan finnas i flera olika typer av källor, till exempel konferenshandlingar, olika register för kliniska studier, läkemedelsbolagens kliniska studierapporter (eng. clinical study reports, CSR) och i handlingar publicerade av tillståndsgivande myndigheter.
Frågan om sökning av opublicerade data till utvärderingar av effektstudier har uppmärksammats och de flesta internationella metodböcker tar upp det som obligatoriskt eller mycket önskvärt [29] [30] [69] [70] [71] [72]. En av anledningarna till det är att data som tidigare varit svåråtkomliga nu har blivit alltmer tillgängliga genom högre krav på att pågående kliniska studier ska registreras i register och att läkemedelsbolagens tidigare svåråtkomliga rapporter av kliniska studier delvis publiceras på webbplatsen hos den myndighet som utfärdar tillstånd för att använda till exempel ett nytt läkemedel. En CSR är en detaljerad beskrivning av resultaten och hur arbetet med den kliniska prövningen har gått till, och som lämnas av läkemedelsbolagen som underlag när de söker tillstånd för att ge ut läkemedlet från en myndighet [68] [73]. Den myndighet som ger ut sådana tillstånd inom EU är European Medicines Agency (EMA) och den amerikanska motsvarigheten är US Food & Drug Administration (FDA).
Den internationella litteraturen är inte entydig om i vilken utsträckning opublicerade data kan ändra resultatet av exempelvis en metaanalys. Eftersom det kan vara mycket resurskrävande att söka efter opublicerade data, diskuteras också om det är möjligt att bestämma under vilka förutsättningar omfattande, detaljerade rapporter som exempelvis CSR ska sökas [64] [65] [67].
3.1.10.1 Konferensabstrakt
Ungefär hälften av alla studier som publiceras som ett konferensabstrakt kommer senare också att publiceras i fulltext [74]. I den vetenskapliga litteraturen finns motstridiga uppgifter om värdet av just konferensabstrakt för att undvika publikationsbias. Li och medarbetare (2017) kom i sin genomgång fram till att konferensabstrakt ofta är ofullständiga och kan innehålla motstridiga uppgifter jämfört med de publicerade artiklarna och att de därför kan vara vilseledande [78] [79]. Scherer och Saldanha (2019) menar å andra sidan att det finns exempel på när konferensabstrakt har haft betydelse för en översikts slutresultat och inte bara för resultatets precision. Det kan vara värt att söka efter dem, särskilt när det inte finns så många studier eller om flera studier kommer fram till olika resultat [75]. Konferensabstrakt är sällan fackgranskade på samma sätt som en peer reveiw-publikation, och den fulltexten är alltid att fördra om båda kommer med i sökningen.
3.1.10.2 Register för kliniska studier
Två vanliga register för kliniska studier är: ClinicalTrials.gov och WHO:s databas ICTRP (International Clinical Trials Registry Platform). ICTRP innehåller ett antal regionala register, inklusive ClinicalTrials.gov, men har mindre utvecklade databasfunktioner. Därför ger kombinationen av dessa två register ett bättre sökresultat. Registren innehåller både pågående och avslutade kliniska prövningar. Flera studier har visat att registren bör sökas. En studie av Baudard och medarbetare från år 2017 visade att i 43 procent av de systematiska översikter som författarna kontrollerade kunde ytterligare RCT-studier identifieras genom sökningar i register för kliniska studier. De gjorde sedan om 14 metaanalyser, med de nya studierna inkluderade, vilket resulterade i främst en ökad precision av resultaten [76] [77] [81] [82] [83] [84].
3.1.10.3 CSR och tillståndsgivande myndigheters data
Flera studier har kontrollerat om opublicerade data tillför något och i så fall vad. Det resultatet har sedan satts i relation till resurs- och tidsåtgång. I en artikel av Schmucker och medarbetare (2017) kom forskarna fram till att opublicerade data har en oklar betydelse för metaanalysers resultat i medicinsk forskning och därför måste översiktsförfattare värdera om de ska göra det resurskrävande arbetet med att söka opublicerade data överhuvudtaget [78]. Halfpenny och medarbetare kom år 2016 fram till en liknande slutsats när det gäller sökningar i olika källor som register för kliniska prövningar (CSR) och i myndigheters handlingar. Eftersom det är mycket resurskrävande att söka i alla källor, rekommenderar författarna att arbetet ska ske stegvis med en noggrann genomgång av sökresultatet. Rekommendationen är att börja med att söka i register, därefter handlingar från tillståndsgivande myndigheter och till sist de omfattande och detaljerade CSR-rapporterna [79]. I en annan studie av Jefferson och medarbetare från år 2018 identifierade författarna kriterier för när mer resurskrävande sökningar efter till exempel CSR-rapporter ska göras. Bland kriterierna finns kostnaden för insatsen, sjukdomsbördan (eng. burden of disease), antalet människor som kommer att kunna använda produkten, om produkten är ny, om läkemedelsgruppen är ny eller om en stor del av RCT-studierna är finansierade av läkemedelsbolagen [68].
3.1.10.4 Sökning av grå litteratur inom socialt arbete och andra tvärvetenskapliga ämnesområden
Vid sökning efter studier inom ämnesområden som socialt arbete kan det finnas anledning att söka efter grå litteratur eftersom det inte alltid är den vetenskapligt granskade artikeln som är den självklara publikationstypen. Det gäller ofta inom olika tvärvetenskapliga områden. I en utvärdering som SBU har gjort framkom att det var värdefullt att identifiera ”genomförbarhetsstudier” kring flera av de utvärderade insatserna, även om alla inte var av hög kvalitet. På så sätt kunde man få en överblick över vilka rapporter som har gjorts i Sverige via den grå litteratur som identifierades. Det är också ett sätt att kartlägga var det saknas studier [80]. Erfarenheterna från SBU har också stöd i litteraturen. Adams och medarbetare från år 2016 menar att den grå litteraturen kan ge viktig information som handlar om sammanhanget: hur, varför och för vilka en insats kan vara effektiv [81]. En annan studie av Mahood och medarbetare (2014) framhåller att sökning av grå litteratur kan ge en överblick över vilka insatser som finns för ett visst problem, vilka utvärderingar som har gjorts och inom vilka områden studier saknas [82]. En annan viktig aspekt som tas upp i studien är att det kan vara utmanande att söka efter grå litteratur och samtidigt upprätthålla den systematiska översiktens krav på att litteratursökningen ska vara systematisk, transparent och reproducerbar.
3.1.11 Uppdateringssökning
Eftersom processen med att ta fram en systematisk översikt kan vara lång finns ofta behov av att göra en uppdaterad sökning i slutet av projektet. Det är för att säkerställa att inga nya relevanta studier har tillkommit under arbetets gång. Det är viktigt att datumet för den senaste sökningen framgår tydligt. Riktmärket från Cochrane handbook är att det inte bör vara längre än 6–12 månader från sista sökdatum till dess att översikten publiceras.
3.1.12 Sökdokumentation
Två bärande principer i arbetet med systematiska översikter är att transparens och reproducerbarhet ska genomsyra hela arbetsprocessen. Det betyder att sökdokumentation och annan information om hur arbetet med litteratursökningen har utförts ska finnas tillgängligt så att den som vill kan ta del av det i den systematiska översikten. Brister i rapporteringen av arbetet med litteratursökningen har uppmärksammats inom flera områden [83] [84] [85]. Ett krav i PRISMA statement är att en reproducerbar sökdokumentation för alla databaser ska finnas tillgänglig i översikten, och att eventuella avgränsningar i sökningen och sökdatum finns med. Atkinson och medarbetare har år 2015 arbetat fram en detaljerad checklista på hur arbetet med litteratursökningar kan presenteras och dokumenteras [34], se Faktaruta 3.5. Exempel på hur SBU dokumenterar sina sökstrategier presenteras i Faktaruta 3.6.
3.1.1.3 Verktyg för referenshantering
Sökresultaten importeras därefter vanligen till ett referenshanteringsprogram där dubblettkontroll görs, men kan även importeras direkt i många program som används för relevansgranskning eller för hela processen, till exempel Covidence. Exempel på program för referenshantering är EndNote och Zotero. När alla sökningar är gjorda och alla dubbletter är borttagna är det dags för nästa steg i processen: granskningen av de framsökta abstraktens relevans (Kapitel 4).
4. Bedömning av relevans
Det här kapitlet handlar om bedömning av relevansen för de artiklar som fångats upp i litteratursökningen.
Urvalet av studier görs i flera steg och bygger på att minst två personer först oberoende av varandra bedömer studierna varefter en gemensam slutbedömning görs av om en studie ska ingå eller exkluderas (konsensusförfarande).
De studier som ska ingå i översikten måste vara relevanta, det vill säga uppfylla PICO, PIRO, SPICE eller motsvarande samt övriga urvalskriterier. Vid tillämpning av breda sökkriterier kommer sökresultaten innehålla en stor mängd referenser som inte är relevanta. I ett första steg gallras sådana studier bort utifrån information från titel och abstrakt. Exempel på program som kan användas vid relevansgranskning är Rayyan, SR accelarator, EPPI Reviewer eller Covidence. Artiklar som av titel och abstrakt att döma skulle kunna uppfylla urvalskriterierna beställs i fulltext. Observera att det enligt PRISMA inte är nödvändigt att sammanställa orsak till att abstrakts exkluderas utan det räcker att notera antalet.
I ett andra steg granskas fulltextartiklarna. De studier som inte bedöms vara relevanta exkluderas. Det kan finnas flera anledningar till att de inte uppfyller PICO, SPICE eller motsvarande. Studien kan ha fel publikationsformat, till exempel brev till redaktören, eller vara av diskuterande natur utan egna resultat. Dubbelpublikationer kan förekomma, det vill säga att samma studie publiceras i två tidskrifter, och då ska den ena exkluderas. Om de båda granskarna i detta skede tycker olika behöver en tredje person (eller en hel projektgrupp) involveras för att komma till ett beslut. När granskarna kommit överens om vilka artiklar som ska exkluderas upprättas en förteckning över dessa där orsakerna till att de har gallrats bort anges. Observera att endast en orsak ska anges per artikel, även om det kan finnas flera skäl till att exkludera artikeln.
5. Bedömning av risk för bias
Detta kapitel handlar om att bedöma risken för att resultaten i de inkluderade studierna kan ha snedvridits, det vill säga risken för bias. Risk för bias kan uppstå i såväl design av studien, som i dess genomförande. Bedömning av risk för bias innehåller subjektiva inslag och det är därför är det viktigt att försöka minska graden av subjektivitet. Ett sätt att minska subjektiviteten är att minst två personer granskar studierna, först oberoende av varandra och därefter gemensamt med en samordnad bedömning. Målet med den samordnade bedömningen är att nå konsensus i bedömningen. Om personerna inte är eller kan bli överens om en enad bedömning kan en eller fler andra granskare avgöra vilken bedömning som ska gälla.
Ett annat sätt att minska subjektiviteten är att använda standardiserade granskningsmallar eller checklistor som stöd för bedömningen, och att utgå från riktlinjer för rapporters genomförande. Bedömningen av risk för bias kan underlättas genom att så tidigt som möjligt gemensamt gå igenom aktuella granskningsmallar samt att stämma av de bedömningar och avväganden som gjorts för några få utvalda artiklar.
SBU har valt att i möjligaste mån använda internationellt vedertagna granskningsmallar varav många är framtagna av Cochrane-organisationen. Mallarna från Cochrane är anpassade för tillförlitlighetbedömning med GRADE eller CERQual. Läsa mer om det i Kapitel 8.
Samtliga mallar har en likartad uppbyggnad och består av domäner (eng. domains). Varje domän representerar vanligen en typ av risk för bias, till exempel selektionsbias och bias som följd av selektiv rapportering. För varje domän finns hjälp i form av ett antal stödfrågor (eng. signalling questions). Risken för bias bedöms utifrån svaren på stödfrågorna och vad eventuella brister kan betyda för utfallet. Vikten av en bedömd risk kan variera både beroende på forskningsområde och sammanhang. Antalet enskilda bedömningar (det vill säga en numerisk summa) bör inte ligga till grund för en övergripande bedömning av risk för bias. Det viktigaste är att ta hänsyn till om den gjorda bedömningen visar att det finns en risk att resultatet kan snedvridas.
Klassificeringen av risk för bias varierar mellan mallarna och graderas vanligen mellan hög, måttlig och låg risk. För icke-randomiserade studier finns även bedömningen oacceptabelt hög risk för bias. Studier som bedömts ha oacceptabelt hög risk för bias inom en domän bör lämpligen inte tas med i den vidare analysen då resultatet på ett påtagligt sätt kan snedvridas.
Granskningen av risk för bias avser dels risken per domän, dels den övergripande risken för bias per utfall. Resultatet från ett utfall som bedömts ha övergripande hög risk för bias kan undantas från att tas med i den vidare analysen då detta kan snedvrida resultatet. Det är bra att tidigt i arbetet, till exempel i protokollet, överväga hur detta påverkar det fortsatta arbetet med översikten (Faktaruta 2.1 och Avsnitt 5.1.3). Det kan vara värt att notera att även om studier med hög risk för bias inte är med i analysen bör de dock alltid redovisas.
Denna del av metodboken beskriver översiktligt dels vilka risker som finns för primärstudier, dels hur mallarna bör användas. Texten ska alltså ses om en bakgrund och ett komplement till de detaljerade instruktioner som finns beskrivet för respektive mall. För granskning av risk för bias för systematiska översikter se Kapitel 10 om tillämning av publicerade systematiska översikter.
För mer detaljerad information om olika typer av bias se https://catalogofbias.org/.
5.1 Risk för bias i studier där deltagarna har fått en insats
Studier som utvärderar effekter av insatser har oftast en eller flera jämförelsegrupper. När studiedeltagarna slumpmässigt delas in i insats- eller jämförelsegrupp kallas studien för randomiserad kontrollerad studie (RCT, randomised controlled trial). Detta avsnitt beskriver hur risken för bias systematiskt bedöms i RCT-studier och i icke-randomiserade studier (NRSI, non-randomised studies of interventions), se Tabell 5.1 utifrån de två mallar som SBU använder (Faktaruta 5.1). Det är värt att notera att NRSI-mallen är en mer generell mall som till exempel omfattar både tilldelning och beslut om insats såväl som människors egna val (till exempel rökning). Den kan användas för bias-bedömningar av bland annat kohortstudier, före/efter-designer, och avbrutna tidsserier. Ibland kallas sådana studier med sådana designer sammanfattande för observationsstudier.
Båda mallarna innehåller frågor kopplade till sex domäner. De aspekter som tas upp i det första domänen, om fördelning mellan grupperna, är det som skiljer en RCT från en NRSI. De övriga domänerna är gemensamma för båda studietyperna, se Tabell 5.1 Domän 6 om jäv och intressekonflikter finns inte med i granskningsmallarna från Cochrane (ROB 2 och ROBINS-I) utan är ett tillägg som SBU valt att ta med.
Domän | RCT | NRSI |
---|---|---|
1 | Gruppindelning: Randomisering |
Gruppindelning: A) Confounders/Förväxlingsfaktorer B) Selektion/Gruppindelning C) Klassificering/ Avgränsning av deltagare och insatser |
2 | Avvikelser från planerade insatser | |
3 | Bortfall | |
4 | Mätning av utfallet | |
5 | Rapportering | |
6 | Jäv och intressekonflikter |
5.1.1 Delmoment 1: Bedöm risken för bias i olika domäner
Det första delmomentet i arbetet med risk för bias granskning är att göra en bedömning för var och en av de sex domänerna. I Avsnitt 5.1.1.1 beskrivs hur domän ett granskas i en RCT studie och i Avsnitt 5.1.1.2 till 5.1.1.5 beskrivs hur domän ett granskas i en NRSI-studie. Överväganden för domän två till fem sker på likartat sätt för båda studiedesignerna.
5.1.1.1 Domän 1: Bias som en följd av gruppindelning (RCT-studier)
I studier där forskarna jämför en eller flera insatsgrupper och jämförelsegrupper med varandra bör deltagaregenskaper som ålder, kön eller typ av funktionsnedsättning vara jämnt fördelade mellan grupperna för både insatsen och jämförelsen. Om de är ojämnt fördelade kan det avgöra vilket utfall insatsen visar.
Syftet med randomisering är att förebygga sådan bias som kan uppstå i samband med att deltagarna delas in i grupper. En välgjord randomisering gör att både kända och okända deltagaregenskaper fördelas slumpmässigt mellan grupperna. Om antalet deltagare är tillräckligt stort blir det oftast en jämn spridning av deltagaregenskaper i grupperna. På så sätt balanseras också okända faktorer som kan förutsäga utfallet, till exempel ålder, svårighetsgrad av sjukdom, socioekonomi, samsjuklighet eller flera olika samtidiga funktionstillstånd.
Bedömningen av risken för bias i en RCT-studie kopplat till gruppindelning utgår från hur de som utfört och rapporterat studien har genererat sekvensen för att slumpmässigt dela in deltagarna i grupper och om den sekvensen har kunnat påverkas. Det finns flera sätt att ta fram slumpmässiga sekvenser som styr hur gruppdeltagarna ska fördelas, alltifrån enkla manuella metoder som att singla slant till att använda en slumpgenerator eller webbaserade program för randomisering. Det är dock viktigt är att det inte går att påverka sekvensen eftersom fördelningen då inte blir slumpmässig. Med enkla manuella metoder ökar risken för att sekvensen kan ha påverkats. Ibland läggs dock begränsningar in i processen för att få jämna proportioner mellan grupperna, till exempel 1:1 där grupperna blir lika stora. Sådana begränsningar kan påverka randomiseringen, se Faktaruta 5.2.
Om principen för randomiseringen är känd kan det vara möjligt att påverka vilka individer som hamnar i vilka grupper, därför är det fördelaktigt om sekvensen är dold för de inblandade i studien tills insatsen ges till deltagarna Det kallas för dold allokering. Det effektivaste sättet att dölja gruppindelningen är att tilldelningen hanteras av en tredje part.
Ibland kallas metoder som randomiserar utifrån exempelvis födelsedatum, veckodatum, datum för besök hos läkare, olika skolor, sjukhus, regioner för kvasirandomiseringar. Dessa metoder är oftast minde lämpliga då de kan leda till en ojämn gruppindelning för insats- och jämförelsegruppen.
Den första mätningen av deltagarnas olika egenskaper, tillstånd eller behov kallas ofta baslinjemätning och resultaten från den bör finnas presenterade i en tabell. Mätningen bör vara gjord före randomiseringen om insatsen inte kan blindas. Se Faktaruta 5.3 för mer information om blinding.
Baslinjemätningen behövs när för att kunna granska hur väl randomiseringen har lyckats. Om det finns skillnader mellan grupperna kan randomiseringen ha misslyckats. Små skillnader kan bero på slumpen men det finns anledning att misstänka att randomiseringen inte har lyckats om det är ovanligt stora skillnader i gruppstorlek och deltagaregenskaper, en överdriven likhet mellan grupperna och om det helt saknas vissa egenskaper eller tillstånd i grupperna som borde finnas där.
5.1.1.2 Risk för bias i samband med gruppindelning (NRSI-studier) – Domän 1A, 1B, 1C
När det är praktiskt svårt eller till och med oetiskt att randomisera deltagarna kan studien genomföras utan randomisering. Det kallas för en NRSI-studie (eng. non-randomized study of interventions). Utan randomisering riskerar deltagaregenskaperna att bli ojämnt fördelade mellan grupperna, vilket kan leda till hög risk för bias, se Faktaruta 5.4. Resultaten från en NRSI-studie bör därför ställas i relation till vilka resultat som skulle kunna ha uppnåtts om studien hade varit randomiserad. Cochrane Collaboration rekommenderar att projektgruppen definierar en idealisk randomiserad studie, utan några praktiska, etiska eller ekonomiska hinder som kan finnas för en sådan, och fråga sig hur populationen då skulle väljas och insatsen ges? Hur och när ska utfall(en) mätas? Tanken är att den idealiska studien sedan fungerar som en jämförelse för de inkluderade studierna för att avgöra hur hög deras risk för bias är.
5.1.1.3 Domän 1A: Risk för bias från identifiering och kontroll av confounders (NRSI-studier)
Confounders, ibland kallade störfaktorer eller förväxlingsfaktorer, är faktorer som påverkar både det som ska studeras, till exempel vilken effekt en viss insats har eller konsekvenserna av en exponering, och utfallet. De kan bestå av egenskaper, tillstånd och karakteristika som kan bli ojämnt fördelade mellan de grupper som ska jämföras och därigenom påverka resultaten. Vanliga confounders är svårighetsgrad av sjukdom, omfattning av funktionstillstånd eller problematik, samsjuklighet eller flera samtidigt förekommande funktionstillstånd, ålder och socioekonomiska faktorer. Confounders som är betydelsefulla för forskningsfrågan bör identifieras av de som utför den systematiska översikten (projektgruppen eller författarna) innan bedömningen risk för bias inleds. Det är en styrka om valet av confounders baseras på tillförlitliga forskningsdata, så att det finns goda skäl att tro att de förväxlingsfaktorer som väljs verkligen påverkar utfallet.
Confounders som bedömts vara jämnt fördelade vid studiestarten och den första mätningen (baslinjemätningen) kan dessutom förändras över tid. Confounding som varierar över tid (eng. time-varying confounders) beror på faktorer som förändras efter det att insatserna har startat.
Det händer också att primärstudiernas författare lägger till faktorer i analysen när baslinjemätningen är avslutad och insatsen har startat (eng. post-intervention variables). I en prospektiv studie kan det bero på brister i planeringen eller att nya egenskaper, behov eller tillstånd hos deltagarna har noterats, exempelvis en reaktion på insatsen eller ett försämrat funktionstillstånd orsakat av skov. Författarna till studien ska ha beräknat effekten av insatsen på variabler som mätts upp vid baslinjen innan insatsen gavs. Om de tar in nya variabler efter att insatsen getts går det inte att bedöma om utfallet har påverkats av insatsen.
När confounders är kända går det att ta hänsyn till dem genom att justera för dem statistiskt om det finns tillgång till valida och reliabla data. Med en sådan analys får man en mer rättvisande skattning av orsakssambandet. När sådana data saknas kan de i vissa fall ersättas av data som motsvarar confoundern, exempelvis viktnedgång, för att kontrollera för allvarlighetsgrad av tillstånd, eller utbildningsnivå och inkomst för att kontrollera för socioekonomisk status.
Det är sällsynt att en NRSI-studie har en låg grad av confounding. Vid bedömning av risk för bias i studier där forskarna har kontrollerat för confounders är det därför viktigt att bedöma om analysen varit genomtänkt och om det finns risk för kvarvarande confounding (eng. residual confounding). Det kan dock vara svårt att upptäcka och det är rimligt att anta att det alltid finns en kvarvarande risk för confounding. Läs mera om hantering av confounders i Faktaruta 5.5.
5.1.1.4 Domän 1B: Risk för selektionsbias (NRSI-studier)
Selektionsbias, så som den definieras i Cochranes granskningsmall, inträffar när studiedeltagare eller utfall exkluderas på ett sätt som påverkar sambandet mellan insatsen och utfallet. Selektionsbias kan alltså kopplas till både insats och utfall. Till skillnad från confounders uppstår selektionsbias som en följd av brister i studieprocessen. Det finns flera typer av selektionsbias och de kan uppstå både vid baslinjen och efter att insatsen påbörjats, se Faktaruta 5.6. Selektionsbias ska inte blandas ihop med bortfall (Domän 3 Avsnitt 5.1.2.6).
Exempel på selektionsbias: Författarna till en studie vill studera om balansträning förebygger fallolyckor bland äldre. Om de väljer bort de äldsta deltagarna i insatsgruppen riskerar de att introducera selektionsbias. Det beror på att de förlorar data för de deltagare som både har den största risken att råka ut för en fallolycka och den minsta möjligheten att genomföra ett träningsprogram. Författarna kan till exempel välja bort de äldsta redan vid baslinjen för att de bedömde att det skulle bli alltför ansträngande för dem att delta, eller senare för att fler skador uppstod hos dem än hos övriga deltagare.
Det finns statistiska metoder, till exempel invers probabilitetsviktning (Faktaruta 5.7), som statistiskt kan justera för selektionsbias men ofta saknas data för att genomföra sådana.
5.1.1.5 Domän 1C: Risk för bias från klassificering av deltagaregenskaper och insatser (NRSI-studier)
Denna typ av bias uppstår främst i retrospektiva studier. I prospektiva studier finns ofta en ordningsföljd för arbetsprocessen som liknar den i randomiserade studier (Faktaruta 5.8).
Felklassificering behöver inte leda till bias. Bias uppstår endast om felklassificeringen påverkas av utfallet (eng. differential misclassification). Risken för bias minskar om data som används till klassificeringen samlas in innan resultatet är känt. Om det inte är möjligt kan data samlas in på ett sätt som förhindrar kännedom om insats och resultat före klassificering och gruppindelning, exempelvis genom att data om utfallet hålls dolt för de som klassificerar grupperna, se Faktaruta 5.9.
5.1.1.6 Domän 2: Risk för bias från avvikelser från planerade insatser (RCT- och NRSI-studier)
Om det uppstår avvikelser från de insatser som författarna hade planerat att undersöka behöver de beskriva orsaken till att avvikelserna uppstått, hur stora de är och om de skett i lika stor utsträckning i alla grupperna.
För information om val av mall ITT eller PP, se Faktaruta 5.10.
Risken för bias ökar om deltagarna i studien eller de forskare och personal som genomför, beslutar om eller utför insatsen känner till vilken grupp deltagarna tillhör, och självklart också om de båda känner till det. Det kan påverka en deltagares upplevelse både positivt och negativt om hen känner till vilken grupp hen tillhör. Till exempel kan en deltagare ändra sitt beteende eller uppleva ett större behov av en insats om man vet att man ingår i en jämförelsegrupp. Det kan leda till att resultaten i någon av grupperna blir felaktiga eller överdrivna. De som utför insatsen kan också börja behandla eller bemöta deltagare olika på grund av att de känner till vilken grupp de tillhör, exempelvis genom att ge extra uppmärksamhet, stöd eller omsorg till någon av grupperna.
Ytterligare exempel på avvikelser som kan uppstå är att deltagare byter, låter bli att använda eller inte längre beviljas en insats och deras grupptillhörighet därmed förändras. Förändrad grupptillhörighet kan vara frivillig eller ofrivillig. Ett exempel på det senare är att ansökan om assistansersättning eller ekonomiskt bistånd inte längre beviljas vid omprövning av beslut. Att avstå från att använda en beviljad hemtjänstinsats, som inte behöver innebära att behovet saknas utan istället bero på att den enskilda personen upplever hemtjänstinsatsens utformning negativ och att anhöriga istället tillgodoser behovet, är ett exempel på avvikelse av mer frivillig karaktär. Det kan också vara i linje med hur vård normalt brukar ges.
Deltagare kan också avvika från en planerad insats för att grupptillhörigheten inte är dold, vilket är vanligt inom svensk socialtjänst och funktionshinderrelaterade insatser. För att få erbjudande om en sådan insats måste den enskilde nämligen i de flesta fall själv ansöka om den. Om en stor andel av deltagarna förändrar sin grupptillhörighet kan det i randomiserade studier medföra att den slumpmässiga fördelningen går förlorad. Ett riktmärke ur en statistisk synvinkel är att 5 procent kan räknas som en stor andel.
Ytterligare avvikelser som kan uppstå är så kallad bristande metodtrohet, det vill säga avvikelser från instruktioner eller steg som ingår i en insats. Som exempel kan vi utgå från en utvärdering av insatsen individanpassat stöd till arbete (IPS) som är en arbetslivsinriktad insats för personer med funktionsnedsättning och baseras på ett antal grundprinciper. Om den som ger det individanpassade stödet inte följer grundprinciperna uppstår avvikelse i form av bristande metodtrohet.
Avvikelser kan också uppstå av exempelvis kliniska eller praktiska anledningar som skulle ha inträffat oavsett om det pågick en studie eller inte.
5.1.1.7 Domän 3: Risk för bias från bortfall (RCT- och NRSI-studier)
Med bortfall menas sådana datautfall som planerats att ingå i analysen men av olika orsaker inte finns tillgängliga. Bortfall kan kopplas till enskilda individer eller enstaka mätpunkter, som exempelvis saknas för att:
- deltagarna avbryter medverkan eller inte kan lokaliseras (eng. lost to follow-up)
- deltagarna inte deltar fullt ut eller inte kan delta i en uppföljningsmätning
- mätresultat förloras eller inte finns tillgängliga av andra anledningar (eng. missing data).
Bias kan exempelvis uppstå om bortfallet är obalanserat mellan grupperna, att orsakerna till bortfall är obalanserat eller om det finns skillnader i utfallen mellan de som föll bort och de som var kvar i studien.
Det finns inga tydliga regler för vad som kan anses vara ett högt bortfall. I manualen för ROB-2 står att för kontinuerliga utfallsmått är det osannolikt att resultatet snedvridits om bortfallet understiger 5 procent. För dikotoma utfallsmått är risken för bias förknippad med risken för utfallet, vilket betyder att ett lågt bortfall kan leda till bias om utfallet är sällsynt. Läs mer här.
Även om bortfallet är lika stort i grupperna kan orsakerna till det skilja sig åt mellan dem. Ett exempel är att deltagare kan vara mer benägna att avbryta sin medverkan i en studie om de till exempel drabbas av biverkningar eller oönskade händelser, och om det i högre grad inträffar i gruppen som får insatsen kan resultatet bli snedvridet. Biverkningar kan exempelvis vara viktförändringar vid behandling med SSRI-läkemedel som påverkar deltagarnas motivation att medverka i en sådan läkemedelsstudie. En oönskad händelse kan vara att deltagarna förblir arbetslösa för att de inte erbjuds en aktiv arbetsmarknadsinsats.
Trots bortfall kan resultatet av en studie vara robust om författarna hanterar bortfallet i analysen och gör sensitivitetsanalyser (känslighetsanalyser). Detta är en metod för att bedöma hur undersökningsresultat påverkas av olika förändringar.
Det finns sätt för studieförfattarna att hantera bortfallet statistiskt och alla har fördelar och nackdelar. Nedan finns tre exempel:
- ta bort ofullständiga observationer (eng. complete case analysis), men tänk på att detta riskerar att introducera bias och att den statistiska teststyrkan minskar
- imputera genom att lägga in saknade värden före analysen (Faktaruta 5.11).
- analysera ofullständiga data med en metod som inte kräver ett komplett dataset (Faktaruta 5.12).
5.1.1.8 Domän 4: Risk för bias från mätning av utfallet (RCT- och NRSI-studier)
Om de som mäter utfallet är medvetna om vilken grupp deltagarna tillhör finns det risk för bias för att de medvetet eller omedvetet kan bidra till att snedvrida resultatet. Därför är det viktigt att de som mäter utfallet är blindade. Om de känner till grupptillhörigheten kan det exempelvis leda till att effekterna av en insats överskattas. Överskattningen blir ofta större när utfallsmåtten grundas på en subjektiv bedömning.
När den som har mätt utfallet i en studie inte har blivit blindad och det kan ha påverkat utfallet finns det flera saker att ta hänsyn till vid bedömning av risk för bias. Exempel är att beakta vilka förväntningar och preferenser den som mäter utfallet kan ha haft, hur mycket denne har medverkat i deltagarens insatser och om andra parter i studien kan ha påverkat.
Den som mäter utfallet kan vara:
- deltagaren själv
- den som beslutar om eller utför insatsen
- en observatör.
När deltagaren själv mäter utfallet kallas det självrapporterat utfall, och kan till exempel vara livskvalitet och poäng på en skattningsskala. Data erhålls exempelvis genom intervjuer, frågeformulär eller dagböcker. Deltagaren betraktas som bedömare även om en blindad intervjuare ställer frågor och fyller i ett formulär. Bedömningen kan ha påverkats genom kännedom om insatsen.
Den som beslutar om eller utför insatsen kan också mäta utfallet genom att undersöka eller bedöma deltagarnas behov av stöd, eller fatta ett beslut grundat på den undersökningen eller behovsbedömningen. Utfallet blir då själva beslutet. Ett exempel på det är beslut om sjukhusinläggning eller ledsagarservice, beslut om att avsluta en insats, remittera vidare eller att avslå en ansökan. Om den som ska fatta beslutet vet vilken grupp en deltagare tillhör eller vilka förutsättningar hen har kan det påverka bedömningen och beslutet.
En observatör som inte är direkt inblandad i insatsen kan också mäta utfallet. Om utfallet inte påverkas är det inte ett problem att ha kännedom om insatsen. Exempel på detta är dödlighet oavsett orsak. Om utfallet däremot kräver en viss grad av bedömning, som att bedöma vem som har rätt till insatser enligt SoL eller LSS, granska röntgenbilder eller bedöma kliniska händelser, kan utfallet påverkas om observatören känner till vilken grupp deltagaren tillhör eller vilka förutsättningar denne har för insatsen.
5.1.1.9 Domän 5: Risk för bias från rapportering (RCT- och NRSI-studier)
Selektiv rapportering kan innebära att vissa utfallsmått inte rapporteras i en studie även om de har mätts. Selektiv rapportering kan också innebära att endast utvalda mätningar eller analyser av ett utfallsmått redovisas och ingår i bedömningen av risk för bias. Observera att denna domän inte omfattar bias som uppkommer på grund av att vissa primärstudier inte publiceras. Sådana avvikelser bör behandlas i samband med att man gör en bedömning av publikationsbias i GRADE (Avsnitt 8.1.5).
För att kunna bedöma om författarna medvetet valt ut vissa mätningar eller analyser behöver man gå igenom innehållet och tidpunkten för publicering av studiens protokoll eller statistiska analysplan, se Faktaruta 5.13 [30]. Det är viktigt att kontrollera att de publicerade analyserna verkligen var planerade före studien startades.
Vid risk för bias-bedömning ska såväl storlek som riktning och statistisk signifikans för estimaten tas i beaktande. Om det exempelvis finns bevis för att några mått eller analyser i en placebokontrollerad studie inte har rapporterats, men det redovisade resultatet är icke-signifikant, eller visar på nära ingen effekt, kan det antas att det är mindre sannolikt att studieförfattarna har valt det rapporterade estimatet baserat på dess resultat.
5.1.1.10 Domän 6: Intressekonflikter och jäv
Bedömningen av risken för att resultatet påverkats av intressekonflikter görs först i delmoment 3, som beskrivs nedan. Först sammanvägs risken för bias i enskilda utfall.
5.1.2 Delmoment 2: Sammanvägd risk för bias i ett enskilt utfall
Bedömningen avslutas med en sammanvägning av risken för bias för varje utfall per studie. Den grundar sig på överväganden om hur riskerna påverkar utfallet totalt sett. Som tumregel gäller följande för låg respektive hög risk för bias:
- för att utfallet ska bedömas ha låg risk för bias totalt sett ska risken ha bedömts som låg i samtliga domäner
- för att utfallet ska bedömas ha hög risk för bias totalt sett ska risken vara hög i minst en domän eller studien ha måttlig risk i flera domäner.
Det är värt att notera att detta endast är en tumregel och det viktigaste är att bedöma och redovisa hur risken för bias kan ha påverkat utfallet. Om projektgruppen har valt som princip för sitt arbete att ta med studier med hög risk för bias (Faktaruta 2.1) gäller att denna dels fullföljs, dels har beskrivits och motiverats.
NRSI-studier kan också ha en oacceptabelt hög risk, då minst en av domänerna bedöms ha oacceptabelt hög risk för bias. Utfallet från sådana primärstudier bör inte ingå i det fortsatta arbetet då det påtagligt kan snedvrida resultatet.
5.1.3 Delmoment 3: Sammanställning av total risk för bias per utfall för samtliga primärstudier
Det kan vara bra att sammanställa bedömningarna av risk för bias för samtliga inkluderade primärstudier. Exempelvis går det att göra en översiktlig tabell över risk för bias i Excel. Studiernas bedömda risk för bias visas lämpligen med färger och symboler för de olika domänerna. Ett grönt fält kan symbolisera att studien har låg risk för bias i den specifika domänen, en gul markering symboliserar måttlig risk för bias, medan ett rött fält symboliserar hög risk för bias. Med hjälp av exempelvis RevMan, ett verktygsprogram för systematiska översikter framtaget av Cochrane Collaboration, eller verktyget robvis, kan man också ta fram en sådan tabell.
5.2 Risk för bias i primärstudier om exponering
Primärstudier som utvärderar exponering undersöker om det finns ett samband mellan en exponeringsfaktor och ett utfall. Exponeringsfaktorer kan exempelvis vara en socialtjänstinsats som särskilt boende för äldre, buller på en arbetsplats eller substansmissbruk. Det är dock mycket svårt att dra slutsatser om orsakssambandet (det kausala sambandet) mellan exponeringsfaktor och utfallet i exponeringsstudier, eftersom confounding utgör ett hinder för detta. Det kan också vara praktiskt omöjligt eller oetiskt att tilldela deltagare vissa insatser för att sedan kunna mäta ett utfall. Den som vill studera effekter av tobaksbruk eller höga krav i arbetet kan inte vänta sig att finna studier där deltagarna blivit tilldelade en intervention. Detsamma gäller om en insats förutsätter att den enskilde personen själv ansöker om en sådan, såsom flertalet av socialtjänstens insatser. Det är inte aktuellt att ”tilldela” en insats i dessa sammanhang, utan insatsen kräver en enskild ansökan och därefter beslut om att bevilja insats. Då är observationsdata lämpliga för att undersöka sambandet mellan en exponeringsfaktor, självvald eller inte, och ett utfall.
SBU har tagit fram en granskningsmall för exponeringsstudier. Syftet med mallen är att vara ett stöd för de projekt som utvärderar olika typer av samband och bör justeras för att passa frågeställningarna i det aktuella projektet. Granskningsmallen kan användas för såväl prospektiva som retrospektiva studier, inklusive registerstudier.
5.2.1 Delmoment 1: Innan bedömning av enskilda domäner, selektionsbias som tillägg och om confounders
Risken för selektionsbias behöver övervägas innan bedömningen påbörjas. Om detta inte redan är gjort i relevansgranskingen så behöver detta läggas till som en domän i mallen.
Confounders är avgörande vid bedömning för risk för bias av exponeringsstudier. Om frågeställningen är om det finns ett orsakssamband mellan exponering och utfall kan dessa studier ofta inte medge sådan slutsats. Identifiering och hanteringen av confounders behöver diskuteras innan risk för bias-granskningen påbörjas. En rekommendation är om några confounders är betydande och en studie inte alls har beaktat dessa, bör den anses ha en oacceptabelt hög risk för bias.
SBU:s granskningsmall för exponeringsstudier omfattar 6 olika domäner.
5.2.1.1 Domän 1: Risk för bias från confounding
I exponeringsstudier finns det ofta flera confounders. Ibland har författarna till studien justerat för många confounders, och då kan det finnas en viss risk för överjustering. Ibland har de tvärtom justerat för få eller inga confounders. Olika studieförfattare justerar inte heller nödvändigtvis för samma confounders. Första steget är därför att bedöma om studien har tagit hänsyn till confounders som är viktiga, om de är mätta på valida och reliabla sätt och hanterade på ett rättvisande sätt.
Graden av exponering kan variera över tid och hänsyn behöver tas till om exponeringen är någorlunda stabil över tid. Om den inte är det ökar risken för bias. Saknas upprepade mätpunkter som visar på hur exponeringen varierar över tid är det dock mycket svårt att bedöma detta.
Det finns avancerade metoder för att ta ställning till vilka confounders som bör justeras för, till exempel kausal analys med hjälp av DAG (directed acyclic graphs), eller olika matchningsmetoder, som till exempel propensity scores. Om sådana metoder använts kan det visa att författarna väl har hanterat confounding-problematik.
5.2.1.2 Domän 2: Risk för bias från exponering
Exponeringen behöver vara väl definierad och beskriven i primärstudierna för att det ska vara möjligt att jämföra olika exponeringar eller studera hur olika exponeringsnivåer eller exponeringssätt påverkar olika utfall. Om det är otydligt hur deltagarna har klassificerats kan det leda till högre risk för bias. Vid bedömning av risk för bias från exponering kan det därför vara bra att fundera på hur studien har hanterat exponering och vilka mätmetoder författarna har använt. Är exponeringsdata till exempel insamlade med subjektiva eller objektiva metoder? Är exponeringen mätt på samma sätt för alla individer, grupper eller observationer? Många exponeringar är inte kategoriska utan har snarare gradskillnader. Då kan det vara bra att först bedöma om det finns en rimlig kontrast mellan att vara exponerad och icke-exponerad.
5.2.1.3 Domän 3: Risk för bias på grund av bortfall
Vad som räknas som ett stort bortfall är olika beroende på vad som studeras. Det är därför ofta svårt att bedöma den här domänen i exponeringsstudier. Ibland finns det ett högt bortfall på grund av att deltagare faller bort, till exempel i en kohortstudie där personer kan flytta eller hoppa av studien, eller på grund av många saknade data, exempelvis på grund av låg svarsfrekvens för enskilda frågor. En rekommendation kan därför vara att framför allt fokusera på om det finns selektivt bortfall, det vill säga där bortfallet skiljer sig mellan grupperna för insats och jämförelse. Ibland kan studiepopulationen vara definierad på ett sådant sätt att inget bortfall förekommer. Studiepopulationer och data som kommer från register är till exempel ofta definierade utifrån att det finns värden på exponering och utfall för alla individer men saknar de individer som inte hade alla värden. Resultaten kan då bli svåra att överföra till den aktuella frågeställningen. Om sådana problem finns kan avdrag göras i GRADE på grund av brister i överförbarhet.
5.2.1.4 Domän 4: Risk för bias från mätning av utfallet
Bedömning av denna domän baseras i möjligaste mån på samma överväganden som för randomiserade studier. Om det är subjektiva utfallsmått som ska utvärderas, där till exempel studiedeltagare själva gjort bedömningarna, är det viktigt att bedöma om deltagarna kan ha påverkats av vetskapen om sin exponering.
5.2.1.5 Domän 5: Risk för bias från selektiv rapportering
Selektiv rapportering kan innebära att studieförfattarna inte rapporterar vissa utfallsmått även om de har mätts. Exempel på detta kan vara att de bara rapporterar resultat från en mätning med en särskild metod trots att de har använt flera metoder eller att de bara redovisar en del av mätpunkterna. Studieförfattarna kan också ha valt att bara redovisa en specifik analys från flera analyser de har gjort eller resultatet för utvalda subgrupper och inte för hela kohorten. Denna domän är svår att bedöma för just exponeringsstudier eftersom det kan finnas många analysmöjligheter och kanske inget självklart svar på hur data bör analyseras. För att frågan ska kunna besvaras säkert behövs tillgång till studiens protokoll och analysplan för att kunna ta reda på vad som planerades från början av studien. Hur ett specifikt projekt ska hantera detta diskuteras lämpligen inom projektgruppen innan bedömningen risk för bias påbörjas.
Utfall som inte är tillräckligt redovisade betraktas som del av publikationsbias. Dessa hanteras i en eventuell GRADE-bedömning.
5.2.1.6 Domän 6. Intressekonflikter och jäv
För att bedöma om det förekommer någon jävs- eller intresseproblematik i studien kan man behöva ta hänsyn till olika personspecifika förhållanden. Här kan det vara bra att ta hjälp av någon som har kännedom om det aktuella forskningsområdet, förutom det författarna själva uppger.
5.2.2 Delmoment 2: Sammanvägd risk för bias i ett enskilt utfall
Nästa steg är att bedöma studiernas övergripande risk för bias totalt sett för varje utfall. I ROB-mallarna står det att om en domän bedöms ha hög risk för bias ska utfallet totalt sett bedömas ha hög risk för bias. Avsteg från denna princip kan bli aktuell vid bedömning av exponeringsstudier.
5.2.3 Delmoment 3: Sammanställning av total risk för bias per utfall för samtliga studier
Det kan vara bra att sammanställa bedömningarna av risk för bias för samtliga inkluderade primärstudier. Exempelvis går det att göra en översiktlig tabell över risk för bias i Excel. Studiernas bedömda risk för bias visas lämpligen med färger och symboler för de olika domänerna. Ett grönt fält kan symbolisera att studien har låg risk för bias i den specifika domänen, en gul markering symboliserar måttlig risk för bias, medan ett rött fält symboliserar hög risk för bias. Med hjälp av exempelvis RevMan, ett verktygsprogram för systematiska översikter framtaget av Cochrane Collaboration, eller verktyget robvis, kan man också ta fram en sådan tabell.
5.3 Risk för bias i studier om diagnostisk tillförlitlighet
Sensitivitet och specificitet påverkas av olika typer av bias. Några av dem överensstämmer med de som finns för andra studietyper, till exempel bias som uppstår när den som tolkar resultaten inte är blindad (Faktaruta 5.3). Andra är specifika för diagnostisk tillförlitlighet. Det finns en systematisk översikt som undersökt hur sensitivitet och specificitet påverkas av olika typer av bias [90]. Resultatet har sammanfattats i en tabell som finns här.
Studier om diagnostisk tillförlitlighet bedöms med stöd av granskningsmallen QUADAS-2 (quality assessment of diagnostic accuracy studies version 2) [91]. QUADAS-2 är i första hand utvecklad för att bedöma tvärsnittsstudier. Den är inte avsedd för att bedöma studier om prediktion. SBU har översatt mallen till svenska, som nås här. Den engelskspråkiga versionen med sina detaljerade instruktioner finns på webbplatsen för Bristol University.
Om frågeställningen gäller en jämförelse mellan flera olika tester eller bedömningsmetoder och referenstest finns en granskningsmall med anpassade frågor som heter QUADAS-C. Denna återfinns i sin helhet här.
Om frågeställningen gäller psykometriska egenskaper har COSMIN olika typer av granskningsmallar tillgängliga.
QUADAS-2 består av fyra domäner med tillhörande stödfrågor (eng. signalling questions) om:
- population
- indextest
- referenstest
- tid och flöde.
Precis som i övriga granskningsmallar bedöms först risken för varje enskild domän och sedan görs en sammanvägd bedömning av den totala risken. Till skillnad från övriga granskningsmallar tar QUADAS-2 upp såväl risk för bias som aspekter på tillämpbarhet, det vill säga hur väl studierna svarar på översiktens frågeställning, under varje domän (Figur 5.1).
Översiktsförfattare kan behöva anpassa QUADAS-2-mallen innan granskning. Några signalfrågor kan vara överflödiga och andra kan behöva läggas till. Ett tips är att försöka undvika att lägga till för många signalfrågor. Det kan även vara bra att besluta om en acceptabel tid mellan indextestet och referenstestet. Ett tips är att testa signalfrågorna på ett mindre antal studier innan huvudbedömning.
QUADAS-2 rekommenderar att den som granskar en studie först ritar upp ett flödesschema för hur studien har genomförts. Det underlättar den fortsatta granskningen.
5.3.1 Domäner i QUADAS-2
5.3.1.1 Domän 1: Population (urval av deltagare)
1 a) Risk för bias: I idealfallet ska en studie rekrytera ett brett spektrum av deltagare genom antingen ett konsekutivt urval, det vill säga ett urval där alla deltagare uppfyller ett antal specificerade kriterier, eller ett randomiserat urval med olika risk för att deltagarna har tillståndet, behovet eller problemet i fråga. Om spektrumet är smalt finns det risk för att sensitiviteten överskattas, så kallad spektrumbias [90]. Undvik fall–kontrollstudier eftersom de endast inkluderar deltagare som antingen har eller inte har det aktuella tillståndet eller behovet. Spektrumbias uppstår även i studier med randomiserat eller konsekutivt urval om vissa deltagare systematiskt utesluts, vilket kan leda till att resultaten överskattas såväl som att de underskattas.
1 b) Tillämpbarhet: Det kan finnas flera orsaker till att en studie brister i tillämpbarhet. För att identifiera bristerna undersöks i vilket skede av den diagnostiska processen som testet eller bedömningsmetoden är tänkt att användas och om deltagarna är mer eller mindre selekterade. Demografiska skillnader kan också påverka hur tillämpbara resultatet från en studie är, liksom hur svårt eller vanligt det undersökta tillståndet, behovet eller problemet är i olika populationer. En högre prevalens ökar sensitiviteten och minskar specificiteten [90].
5.3.1.2 Domän 2: Indextest och bedömningsmetod
2 a) Risk för bias: Denna domän avser två aspekter, blindning och val av tröskelvärde. Om testet eller bedömningsmetoden genomförs efter referenstestet och författarna känner till resultatet från referenstestet kan det påverka deras tolkning.
Många tester eller bedömningsmetoder har tröskelvärden, som kan vara mer eller mindre etablerade. I en del studier kan författarna ha valt att inte definiera tröskelvärdet i förväg utan välja det efteråt för att optimera testets eller metodens prestanda, ett så kallat datadrivet tröskelvärde. Det kan höja risken för bias.
2 b) Tillämpbarhet: Om testet eller bedömningsmetoden genomförs eller tolkas på ett annorlunda sätt än författarna angav i forskningsfrågan kan tillämpbarheten minska. Resultaten från testet kan till exempel tolkas av specialister i studien, medan det i praktiken är tänkt att användas av personer med mindre kunskap och erfarenhet. Specialistens kunskap om testet kan vara avgörande och testet fungerar då inte på samma sätt för de med mindre kunskap. Olika versioner av test och bedömningsmetoder kan också utgöra ett problem eftersom de kan skilja sig åt.
5.3.1.3 Domän 3. Referenstest eller jämförande bedömningsmetod
3 a) Risk för bias: Referenstestet kan ge upphov till risk för bias. Ett referenstest är till för att klassificera tillståndet eller problemet med hundraprocentig korrekthet. Resultatet kan dock påverkas om referenstestet har genomförts eller tolkats på ett bristfälligt sätt. Det kallas felklassifikationsbias och leder vanligen till att sensitiviteten överskattas [88].
Om studieförfattarna har gjort indextestet eller den bedömningsmetod som utvärderas före referenstestet kan det också öka risken för att de blir påverkade av vad indextestet visade.
3 b) Tillämpbarhet: Frågan om tillämpbarhet gäller främst om tillståndet, behovet eller problemet är definierat på samma sätt i studien som i projektets frågeställning, det vill säga PIRO.
5.3.1.4 Domän 4: Tid och flöde
Om det går tid mellan testerna och bedömningarna kan det finnas risk för att tillståndet, behovet eller problemet hunnit förändras (till det bättre eller sämre), det vill säga att det finns risk för felklassificering eller felbedömning. Risken för att en fördröjning mellan tester eller bedömningar påverkar tillförlitligheten varierar mellan olika tillstånd, behov och problem. Några dagars fördröjning spelar till exempel mindre roll vid en kronisk sjukdom, bestående funktionstillstånd eller behov av hjälp i hemmet, men kan spela stor roll vid exempelvis akuta infektioner eller akut behov av skyddat boende vid våld i nära relation. Ett problem i sammanhanget är att vissa referenstester kan göras först efter en längre tid, till exempel referenstest vid en sjukdom där samtliga diagnostiska kriterier måste vara uppfyllda.
Flödet kan här syfta på tid men också till exempel patientflödet. Här kan verifikationsbias uppstå. Det innebär att studieförfattarna endast undersöker eller bedömer en del av deltagarna med det optimala referenstestet. Övriga deltagare undersöker eller bedömer de inte med något referenstest alls. Då rör det sig om partiell verifikationsbias. Men de kan också byta till en annan, enklare metod. Orsaker till ett sådant beslut kan vara att referenstestet är dyrt, integritetskränkande eller medför risker för deltagaren. Då rör det sig om differentiell verifikationsbias. Om resultatet av testet eller den bedömningsmetod som utvärderas påverkar valet av referenstest uppstår systematisk bias.
En andra aspekt av flöde rör bortfallet. Om inte alla deltagare som rekryterats finns med i analysen uppstår bias eftersom sådana som fallit bort tenderar att skilja sig systematiskt från dem som är kvar.
5.4 Risk för bias i studier om prediktionsfaktorer och prediktionsmodeller
Liksom för övriga granskningsmallar bedöms först risken för varje enskild domän och sedan görs en sammanvägd bedömning av den totala risken. Innan granskningen påbörjas kan mallarna behöva anpassas. Några signalfrågor kan vara överflödiga beroende på förutsättningarna för översikten och andra kan behöva läggas till. När projektgruppen kommit överens om vilka signalfrågor som ska ingå bör granskningsmallen testas på ett mindre antal studier.
5.4.1 Prediktionsfaktorer – QUIPS och QUAPAS
Studier om prediktionsfaktorer bedöms med stöd av granskningsmallarna QUIPS eller QUAPAS. QUIPS är i första hand utvecklad för att bedöma tvärsnittsstudier. Mallen är framtagen av Hayden och medförfattare [92], och en uppdatering av den pågår. QUAPAS är en mall som bygger på såväl QUADAS 2 som QUIPS och riktar sig mot studier som undersöker den prognostiska träffsäkerheten hos bedömningsinstrument eller tester. QUAPAS är framtagen av Lee och medförfattare [93]. SBU har inte översatt dessa mallar till svenska utan hänvisar till originalmallarna på engelska.
QUIPS-mallen består av sex domäner med tillhörande stödfrågor (eng. signalling questions):
- study participation
- study attrition
- prognostic factor measurement
- outcome measurement
- covariate adjustment
- statistical analysis and reporting.
QUIPS har i stödfrågorna ofta mer fokus på rapportering än risk för bias. Till dess att den uppdaterade varianten har publicerats kan mallen behöva ses över och eventuellt anpassas utifrån projekts frågeställning.
QUAPAS består av fem domäner med tillhörande stödfrågor (eng. signalling questions):
- participants
- index test/bedömningsmetod
- outcome
- flow and timing
- analysis.
Likt QUADAS-2 så tar QUAPAS upp såväl risk för bias som aspekter på tillämpbarhet, det vill säga hur väl studierna svarar på översiktens frågeställning, under relevanta domäner.
5.5 Metodbrister i studier med kvalitativ metodik
Det finns flera sätt att beskriva tillförlitligheten hos resultat som baseras på kvalitativa studier [27]. Ett av dem bygger på den kvantitativa traditionen och bedömer validitet, reliabilitet och generaliserbarhet. Ett annat är att utgå från begrepp inom kvalitativ forskningstradition är trovärdighet (eng. trustworthiness) [94], som består av fyra komponenter (Faktaruta 5.14). Ett tredje sätt är att utgå från vetenskaplig stringens (eng. scientific rigour), ett begrepp som används bland annat i Cochrane Handbook.
Det är viktigt att kvalitativ syntes av forskning bygger på tillförlitliga studier. Det är också betydelsefullt att de kriterier som används för att bedöma trovärdigheten i kvalitativa studier i huvudsak bör överensstämma med de som används för att bedöma trovärdighet i studier med kvantitativ metodik.
För att en studie med kvalitativ metodik ska bedömas som trovärdig ska studiens frågeställning bäst besvaras med en kvalitativ metod, och valet av kvalitativ ansats ska motiveras. Forskaren bör även redovisa hur data och resultat relaterar till varandra, hur analysprocessen gått till och om det finns någon teorianknytning. Resultat och tolkningar ska beskrivas logiskt och begripligt.
Trovärdigheten ökar om tolkningen har verifierats, exempelvis genom att flera forskare analyserar materialet oberoende av varandra eller genom att preliminära tolkningar diskuteras med utomstående [27].
Det finns drygt 100 publicerade checklistor som stöd för att identifiera brister i genomförande och rapportering av kvalitativa studier [96] där Critical Appraisal Skills Programme (CASP) är ett av de mer etablerade. Ingen av checklistorna stödjer en bedömning av risken för att identifierade brister påverkar fyndens trovärdighet, något som även noterats av Cochrane Collaboration [97].
SBU har utvecklat en granskningsmall som ger stöd för en bedömning av risken för att identifierade brister påverkar fyndens trovärdighet. Den är uppbyggd av olika domäner med tillhörande stödfrågor. Fokus ligger på att bedöma risk för att metodbrister påverkar resultaten. Detaljerad beskrivning av hur mallen används finns i dess vägledning.
5.5.1 Aspekter av metodbrister
Metodbrister granskas utifrån fem aspekter:
- överensstämmelse mellan vetenskapsteoretisk underbyggnad av studien och dess syfte
- urvalet av deltagare
- datainsamling
- analys av data
- forskarens roll.
Varje aspekt ovan består i sin tur av tre moment:
- För att underlätta rapportskrivningen görs innan bedömningen först en kort beskrivning av till exempel urvalsprinciper eller vilka metoder som användes för att samla in data.
- Besvara frågorna som ska stödja bedömningen.
- Överväg de identifierade bristerna och i vilken utsträckning det finns risk för att de påverkar fynden. Det finns tre fasta bedömningsalternativ:
1) Ja det finns en allvarlig risk; 2) Nej, risken bedöms inte vara allvarlig och 3) Oklart, det finns inte tillräcklig information för att bedöma risken.
Den sista delen av granskningen är att bedöma om studien sammanlagt har så allvarliga brister att den inte bör ingå i syntesen. Observera att en studie kan vara så klent beskriven att det inte finns underlag att bedöma de metodologiska riskerna och bör då inte ingå i syntesen.
6. Extraktion av data
Detta kapitel handlar om att extrahera data, det vill säga information från de inkluderade studierna och lägga in den i tabeller. Syftet är att de som läser översikten ska få en uppfattning om studiernas karakteristika utan att själva behöva läsa dem, samt att presentera resultaten från studierna överskådligt. Även detta steg bör göras av minst två personer för att minska risken för misstag. Antingen extraherar personerna information oberoende av varandra från samma studier och jämför sedan resultatet, eller så extraherar en person information och den andra kontrollerar.
Typiska uppgifter som bör finnas i tabellerna är
- författare
- beskrivning av populationen
- beskrivning av den miljö som studien genomförts i
- beskrivning av deltagarna i studien utifrån till exempel ålder och kön
- beskrivning av insats och jämförelseinsats, alternativt indextest och referenstest
- studiedesign
- de utfallsmått som använts i studien.
Utöver detta så behöver även resultaten från studierna extraheras. Det händer att dessa behöver bearbetas så att de blir användbara i kommande metaanalyser och jämförbara mellan de inkluderade studierna.
När det gäller studier med kvalitativ metodik gäller att extrahera de meningsbärande enheterna från de inkluderade studierna. De aspekter av studien som är viktiga för förståelsen av studierna, såsom forskarens position, vetenskapsteoretisk ansats, sammanhang, datainsamlingssätt, analysmetod och resultat, ska också tabelleras.
7. Sammanvägning av resultat
Detta kapitel handlar om att undersöka och väga samman resultaten från de studier som har inkluderats i den systematiska översikten och som utgör det vetenskapliga underlaget, och att bedöma om det går att dra några slutsatser utifrån dem. Detta kapitel tar upp några vanliga metoder för att väga samman empiriska resultat. För studier som bygger på kvantitativ metodik, till exempel effekter av insatser eller diagnostisk tillförlitlighet, kan det vara lämpligt att använda metaanalys. Beroende på analysmodell ger metaanalysen antingen en uppskattning av en antagen gemensam underliggande effekt (eller sensitivitet och specificitet) eller ett medelvärde av effekterna (eller sensitiviteten och specificiteten).
I kapitlet beskriver vi också principerna för nätverksmetaanalys och syntes utan metaanalys (eng. synthesis without meta-analysis, SWiM). För studier som har använt kvalitativ metodik finns flera metoder för att göra syntes av kvalitativ evidens. Några av dem beskrivs med exempel i Avsnitt 7.7.
7.1 Metaanalys för studier om effekter av insatser
Här nedan beskrivs översiktligt metoden för metaanalys. Mer detaljerad information finns till exempel i Introduction to Meta-analysis av Borenstein och medarbetare år 2009 [98], i Cochranes handbok för systematiska översikter från år 2023 [31] eller i litteratur som Handbook of Meta-analysis från år 2020 [99].
Metaanalysen utvecklades för att få fram mera pålitliga resultat genom att lägga samman data från flera enskilda studier med hjälp av statistiska metoder. Det gemensamma, sammanvägda resultatet uttrycks sedan vanligen som ett punktestimat med ett tillhörande osäkerhetsintervall, även kallat konfidensintervallet.
Eftersom en metaanalys består av flera studier och innehåller mer data än en enskild studie, leder det till att den så kallade teststyrkan (eng. power) ökar. En ökad teststyrka ger bättre möjligheter att upptäcka effekter som faktiskt finns, som skillnader mellan en insats- och en jämförelsegrupp. Eftersom både teststyrkan och antalet individer och händelser som ingår i metaanalysen är större än i enskilda studier kan man skatta ett effektmått som troligen ligger närmare det sanna värdet för den bakomliggande populationen, och inte bara för de individer som ingår i en viss studie (Faktaruta 7.1).
Ibland kan de studier som finns att tillgå vara alltför olika varandra för att det ska vara meningsfullt att beräkna ett sammantaget estimat. Det kan också vara så att resultaten i primärstudierna är rapporterade på sätt som inte alltid kan konverteras till en gemensam skala. Men även när en metaanalys inte kan användas för att beräkna punktestimatet kan tekniken ge värdefull information. Metaanalysen kan till exempel användas för att analysera olika källor till variation i materialet (till exempel urvalsfel och heterogenitet), och för att undersöka risken för publikationsbias i det vetenskapliga underlaget.
7.1.1 Utfallsmått i en metaanalys
En metaanalys gäller ett specifikt utfall som mätts på ett specifikt sätt. Ofta har dock studierna mätt utfallet på olika sätt, det vill säga informationen finns i fel format. Projektgruppen behöver då räkna om resultaten för att det ska gå att använda dem i analysen. Se Faktaruta 7.2 för en kortfattad genomgång av olika effektstorlekar som rapporteras i primärstudier.
Utfallsmått kan klassificeras som kategoriska eller kontinuerliga. Kategoriska mått hanterar ett begränsat antal nivåer, till exempel kan hjärtsvikt klassificeras som nedsatt, lätt, måttlig eller svår. Ett specialfall bland kategoriska mått är dikotoma, eller binära, mått som hanterar händelser som kan översättas till ettor och nollor. Det betyder att en händelse antingen har inträffat eller inte, till exempel om en individ har dött eller blivit dömd för ett brott. Kontinuerliga variabler hanterar mått som inte har några fasta nivåer, till exempel blodtryck, och uttrycks ofta som medelvärden eller medelvärdesskillnader.
För resultat som uttrycks med dikotoma eller kategoriska mått kan det sammanvägda resultatet, estimatet, uttryckas på flera sätt (Faktaruta 7.3).
Kontinuerliga mått mäts på en oavbruten skala och kommer i en jämförande analys att ge ett estimat uttryckt som medelvärdesskillnad, MD, eller standardiserad medelvärdesskillnad, SMD. Om alla inkluderade studier redovisar resultat från samma mätskala bör MD användas. I vissa fall går det också att konvertera resultat från olika mätskalor till en och sedan uttrycka resultatet som MD. Om studierna har använt samma skala kan det sammanslagna effektmåttet presenteras som medelvärdesskillnaden i originalskalans skalsteg. Fördelen med det är att inga konverteringar behöver göras. Läsaren måste dock ges tillräckligt med information för att kunna bedöma storleken på effekten. Det är därför en fördel om skalan är väletablerad och används ofta inom forskningsområdet, eller om den är intuitiv för läsaren att förstå. Skalan bör samtidigt förklaras på så sätt att både dess minimum och maximum samt betydelsen av negativa och positiva värden är begripligt. Om det finns tillgång till pålitliga skattningar av dess minsta kliniskt betydelsefulla skillnad (eng. minimal important difference, MID, eller minimal clinically important difference, MCID) kan det vara värdefull information (Faktaruta 2.6).
Använd SMD när resultaten kommer från mätningar med olika skalor. En förutsättning för att kunna göra det är dock att skalorna mäter likartade egenskaper. Det är därför viktigt att en bedömning görs av vilka mätskalor som kan ingå i metaanalysen. Flera metaanalyser kan behöva göras där endast resultat läggs ihop från de studier som använt samma skala eller mätt utfallet på samma sätt.
Om utfallen mätts på alltför olika sätt, och det inte är möjligt att konvertera de olika måtten, bör man inte göra en metaanalys. Då kan en syntes utan metaanalys vara lämplig istället (Avsnitt 7.6).
7.1.2 Heterogenitet
Olika studier skiljer sig oftast från varandra sett till upplägg, stickprovets eller studiepopulationens sammansättning, sammanhang, insatsernas exakta innehåll, jämförelseinsatserna, sättet att mäta utfallen, studiedesign och annat. Om olikheterna mellan studierna är stora riskerar det att leda till stora olikheter även i hur de skattar effekten. Denna så kallade heterogenitet innebär att de olika studierna kan såväl över- som underskatta effekten av en insats i den bakomliggande populationen.
Studier som är alltför heterogena bör inte slås ihop i en metaanalys. Orsaken är dels att det uppstår en variation som beror på annat än det som undersöks vilket kan dölja verkliga effekter, dels riskerar man att dra felaktiga slutsatser från data.
Heterogenitet innebär att det finns en variation i effektstorleken mellan studier, utöver den slumpvariation som alltid kan förväntas (variation inom studier). Metaanalysen ger tre mått för att undersöka heterogeniteten i ett material: I2, τ2 och Q. Måttet I2 ger en uppfattning om hur stor andel av den totala variationen som kommer från skillnader mellan studierna i metaanalysen, där den totala variationen innehåller både variation mellan studier och slumpvariationer inom respektive studie. Det är det mått som oftast förekommer i litteraturen (Figur 7.1). Enligt en omtvistad tumregel sägs heterogeniteten vara låg om I2 ligger runt 0,25, måttlig om I2 ligger runt 0,50 och hög om I2 ligger runt 0,75. Men att endast använda I2 som ett direkt mått på heterogenitet rekommenderas inte. Måttet τ2 (Tau2) ger en uppfattning om hur stor skillnaden är i genomsnitt mellan punktestimaten för de olika studierna som ingår i analysen, medan måttet Q istället visar den genomsnittliga skillnaden mellan punktestimaten för studierna och metaanalysens gemensamma, sammanvägda estimat.
Ofta är det omöjligt att få korrekta skattningar av heterogenitet. Om metaanalysen bygger på få studier finns det en risk att uppskattningen felaktigt visar att det inte finns någon mellanstudievarians, det vill säga att den ger ett falskt intryck av homogenitet. Rent generellt har heterogenitetstest en låg statistisk teststyrka och heterogeniteten underskattas ofta i metaanalyser. τ2, I2 och Q kan dock vara användbara för att få en uppfattning om heterogeniteten i en metaanalys. De kan därför vara en grund till diskussion. Ett kompletterande sätt är att visuellt inspektera forest-diagrammet (skogsdiagrammet), för att få en uppfattning om heterogeniteten i de inkluderade studiernas effekter.
Det finns olika sätt att hantera att studier som ska väga samman inte är helt lika, till exempel olika statistiska modeller eller subgruppsanalyser. Mer information om det finns i avsnitten nedan. Ett annat sätt är att utföra en metaregression, vilket är möjligt när en kontinuerligt mätt variabel kan användas som en prediktor eller kovariat och där det är variationer i effektstorlekar hos de inkluderade studierna som ska förklaras.
7.1.3 Subgrupper i en metaanalys
Ett sätt att hantera heterogenitet mellan studier är att göra subgruppsanalyser. Sådana analyser ska vara planerade i förväg i protokollet, och det ska finnas en tydlig orsak till att de är valda, till exempel att det finns en anledning att misstänka att kvinnor och män reagerar olika på en viss insats. Att skapa subgrupper i efterhand, på basis av hur redan analyserade data ser ut, är inte att rekommendera. Det är också viktigt att överväga teststyrkan i de olika subgrupperna. Eftersom varje subgruppsanalys utgör ett mindre stickprov än vad som skulle ha varit fallet utan subgrupperingar så kommer teststyrkan att minska, och därmed minskar också möjligheten att upptäcka eventuella skillnader som kan finnas i materialet.
Några exempel på när det kan vara en bra idé att göra subgruppsanalyser är när studierna rapporterar olika varianter av insatsen, kommer från olika länder med olika välfärdssystem eller olika organisation för social omsorg, har olika uppföljningstider eller när äldre studier använder en annan teknik än nyare studier. Subgruppsanalyser genererar ett nytt punktestimat med vidhängande konfidensintervall för varje subgrupp. Dessa kan sedan jämföras för att se om effekten av insatsen är statistiskt skild för de olika subgrupperna.
7.1.4 Känslighetsanalyser i en metaanalys
För att undersöka hur stabilt resultatet av en metaanalys är kan olika varianter av känslighetsanalyser göras. Det innebär att samma analys görs om med en eller flera studier exkluderade, och sedan undersöks hur stor påverkan det får på det sammanvägda resultatet. Denna information är värdefull bland annat när tillförlitligheten ska bedömas med GRADE. Exempel på känslighetsanalyser kan vara att göra analys med eller utan studier som publicerats innan ett visst årtal, studier som kommer från låg och medelinkomstländer eller studier med få deltagare. En variant av känslighetsanalys är att analysen upprepas flera gånger och varje gång tas en enskild studie bort för att undersöka om resultaten drivs av en enskild studie (eng. one study removed).
7.1.5 Val av modell för metaanalys
Det finns två huvudtyper av metaanalyser, fixed effect model (FEM) och random effects model (REM). Vilken av modellerna som ska användas bestäms redan i protokollet utifrån vilket syfte översikten har. Observera att FEM i modern statistisk litteratur ofta benämns som common-effect model (till exempel av Schmid och medarbetare från år 2021 [99]).
FEM utgår från antagandet att alla studier som ingår i metaanalysen är stickprov som har dragits från en och samma population. Det finns en gemensam effekt som gäller för den bakomliggande population som alla studierna har dragits ifrån, och det är denna gemensamma effekt som metaanalysen estimerar.
För REM antas att de inkluderade studierna har dragits från olika bakomliggande populationer. Det går då inte längre att anta att det finns en gemensam effekt, eftersom effekten kan förväntas vara olika i de olika studiepopulationerna. REM ger i stället en skattning av medelvärdet över alla olika populationer i studierna. Metaanalysen ger därmed inte ett direkt mått på hur effekten ser ut i en enskild population. Å andra sidan kan skattningen ge en uppfattning om var effekten ligger mer generellt, i genomsnitt.
Eftersom varje studie i REM blir den enda representanten för just sin population så får små avvikande studier större vikt än vid FEM, och konfidensintervallet blir bredare. En annan konsekvens är att den statistiska teststyrkan blir lägre för REM jämfört med FEM, och möjligheten att upptäcka faktiska skillnader mellan grupperna minskar något. Ju mindre heterogenitet som finns i en analys, desto mer lika blir dock de två modellerna. Formeln för att räkna ut den viktade effektstorleken är densamma med den viktiga skillnaden att REM-modellen innehåller en term τ2. Det innebär att om detta mått på heterogenitet är mycket lågt kommer FEM- och REM-skattningarna att bli mycket lika. De båda modellerna är dock skilda åt konceptuellt, och författare av översikter bör alltid specificera vilken modell de ska använda före analysen – inte köra båda och välja den som verkar bäst i efterhand. REM är i de allra flesta fall utgångspunkten. Endast när de inkluderade studierna är väldigt lika varandra sett till studiedesign, utfallsmått och andra viktiga karakteristika, är det godtagbart att använda en FEM.
7.1.6 Forest plot
En metaanalys brukar presenteras som en så kallad forest plot (skogsdiagram). Det visar skattningar av effekt från de enskilda studierna, en sammanvägd effekt, konfidensintervall för såväl de enskilda effektskattningarna som för den sammanvägda effektskattningen samt mått på heterogenitet. Figur 7.2 visar ett exempel på en forest plot som har tagits fram med REM, där sju studier har jämfört effekten av två insatser (A och B). Effektmåttet är i det här exemplet SMD. Studiernas resultat redovisas som punktestimat i kvadraterna med tillhörande konfidensintervall i de horisontella linjerna. Storleken på kvadraten beror på hur stor vikt studien får i sammanvägningen, vilket visas i kolumnen med rubriken Weight. Generellt får en studie större tyngd ju snävare konfidensintervall den har, eftersom det brukar innebära att studien är större och har data som ligger väl samlade. Skillnaden i vikt mellan de olika studierna blir större vid FEM än vid REM. Det sammanvägda resultatet av metaanalysen, 1,13 i exemplet i Figur 7.2, visas med en romb. De horisontella ändarna på romben utgör konfidensintervallets gränser, som i exemplet är 0,22 till 2,04. Resultatet visar alltså sammantaget på en fördel för insats A.
I Figur 7.3 har studierna och resultaten delats upp i två subgrupper. Resultatet för respektive subgrupp visas som två unika romber. I det här exemplet finns det inte någon skillnad mellan interventionerna för Subgrupp 1 (SMD= –0,02, p=0,97), medan interventionerna skilde sig signifikant för Subgrupp 2 (SMD=1,94, p <0,00001). Det gemensamma resultatet för hela metaanalysen syns i romben längst ner och är samma som i Figur 7.3, utan subgrupper. Om skillnaden mellan subgrupperna är stor är kanske den gemensamma sammanvägningen inte så intressant och behöver då inte redovisas.
7.1.7 Tolkning av resultat
Metaanalys kan användas på flera olika sätt och den är ett bra analysverktyg för att få en bättre förståelse för data. Vilka tolkningar och slutsatser som kan dras från resultatet av en metaanalys beror på hur lika studierna som ingår i analysen är. Översiktligt kan detta beskrivas i tre nivåer:
- de studier som ingår är i allt väsentligt lika
- de studier som ingår skiljer sig åt, men på slumpartade vis
- de studier som ingår skiljer sig åt vad gäller viktiga aspekter.
I den första nivån bedöms effekten som robust för de studerade populationerna. I den andra nivån rapporteras medeleffekten. Vad kan spridningen av data bero på och vad detta har för betydelse? I den tredje nivån är medeleffekten däremot inte relevant. Här är det spridningen av data och vad denna kan bero på som är av intresse. Fundera även på möjligheten att göra subgruppsanalyser eller att sammanställa resultaten på annat sätt, till exempel genom att göra en syntes utan metaanalys.
7.1.8 Tolkning av utfallet uttryckt som SMD
Alla mätbara dimensioner kan inte omvandlas till dikotoma mått utan visst mått av förenkling. Det gäller exempelvis många psykologiska mått. Människor är inte antingen eller vad gäller exempelvis emotioner eller psykisk hälsa utan befinner sig någonstans på en kontinuerlig skala. Att använda SMD som effektmått är en vanlig metod som gör det möjligt att väga samman sådana skalor och göra en metaanalys trots det.
Att använda SMD gör det dock något svårare att kvalitativt uppskatta effektens storlek eftersom SMD anger effektstorleken i antal standardavvikelser. Faktorer som påverkar standardavvikelsen, till exempel urvalet och antalet personer i varje grupp, påverkar därmed även effektensstorleken uttryckt i SMD. SMD är därmed mer påverkat av stickprovsstorleken än till exempel OR. Ett resultat som uttrycks i SMD-termer är inte heller lika tolkningsbart för den som arbetar inom till exempel hälso- och sjukvården eller socialtjänsten. För att öka tolkningsbarheten är det därför en bra idé att komplettera resultat uttryckt i SMD med ett eller flera alternativa effektmått som inte är beroende av standardavvikelsen, som exempelvis NNT (eng. number needed to treat). Att uttrycka resultatet av en utvärderad insats på olika sätt är generellt sett önskvärt. Se Faktaruta 7.4 för råd kring metaanalyser av kontinuerliga mått.
7.1.9 Publikationsbias påverkan på metaanalysen
Publikationsbias innebär att studier av olika skäl inte publiceras alls eller med tidsfördröjning [100]. Den vanligaste orsaken till det är att studien inte kunnat finna tillförlitliga eller trovärdiga resultat som ger svar på eller stöd för frågeställningen, vilket kan göra såväl forskaren som eventuella finansiärer men också tidskrifter mindre benägna att publicera den.
Det finns följaktligen en risk att resultaten i en metaanalys eller fynden i en syntes av kvalitativ evidens har snedvridits på grund av att opublicerade studier inte finns med. Störst är risken att de har överskattats. Översiktens författare bör försöka bedöma risken för publikationsbias och redovisa resultatet av den bedömningen. Det är ofta mycket svårt att fastställa om det råder publikationsbias, men det finns verktyg som stöd för att bedöma det [101] [102]. Ett annat sätt är att söka i databaser över registrerade studieprotokoll, för att se om det finns fler studier som har påbörjats men ännu inte publicerats.
En vanlig metod som kan användas för att få en uppfattning om risken är att göra ett så kallat trattdiagram (eng. funnel plot, se Figur 7.4). Trattdiagrammet kan konstrueras i RevMan eller CMA om det finns många publicerade studier, ofta behövs ett minimum på 12 studier. I diagrammet jämförs storlek och resultat från varje enskild studie. Om det inte finns någon publikationsbias liknar resultatet en symmetrisk upp-och-nervänd tratt – därav namnet. Om grafen däremot är asymmetrisk kan det finnas skäl att misstänka publikationsbias, framför allt om små studier med negativa resultat saknas. Det kan dock finnas andra orsaker bakom asymmetrin, så att enbart använda trattdiagram räcker inte för att fullt ut påvisa publikationsbias [101], se Faktaruta 7.5.
7.2 Metaanalys av icke-randomiserade studier och exponeringsstudier
Metaanalyser baseras huvudsakligen på resultat från randomiserade studier. Det går att göra metaanalyser som grundar sig på resultat från icke-randomiserade studier, men det är ofta mer arbetskrävande. Grundprincipen är dock den samma: att analysera resultaten för insatsens och jämförelsegruppens effekter. Ett problem med att göra metaanalyser av studier utan randomisering är att de ofta använt olika metodik. Det kan till exempel bero på om det finns en matchad jämförelsegrupp vid baslinjen, det vill säga de mätningar som görs före insatsen, eller om författarna har skapat en matchning i efterhand genom någon form av multivariat metodik. Variationen kan också bero på att studierna har olika många jämförelsegrupper och mäter utfallen vid olika tidpunkter.
En annan viktig aspekt vid metaanalys av icke-randomiserade studier är att ta hand om frågorna om confounding (förväxlingsfaktorer) och kausalitet (orsakssamband), se Avsnitt 5.1.2.2. Ofta är det orsakssambandet som är av intresse; om en viss faktor A påverkar utfallet B. Ibland kan det dock finnas förväxlingsfaktorer, så att det verkar som att faktor A leder till utfallet B, men i själva verkat är det förväxlingsfaktor C som påverkar sambandet. Att en viss faktor ofta förekommer tillsammans med ett problem bevisar inte att det är den som orsakar problemet och ännu mindre att problemet skulle försvinna om faktorn togs bort. Vid tillräckligt stora randomiserade studier är tanken att olika förväxlingsfaktorer som kan påverka utfallet kommer att fördelas jämnt mellan grupperna som jämförs, och därmed kommer deras påverkan på utfallet att bli marginell eller obefintlig. I icke-randomiserade studier finns istället olika statistiska analysmetoder som justerar för att grupperna har olika fördelning av förväxlingsfaktorer. Till exempel kan grupperna skilja sig åt vad gäller ålder och kön, vilket i så fall går att justera för. Grundregeln är att sammanväga studier som har justerat för samma eller snarlika förväxlingsfaktorer. Ett större problem är att det kan finnas dolda skillnader mellan grupperna som inte kan justeras för eftersom det är okänt att de finns där. Sammanfattningsvis behöver mer avancerade statistiska metoder användas för att hantera data från icke-randomiserade studier när orsakssamband undersöks. I stället är det vanligt att försöka analysera risk- och skyddsfaktorer eller funktionshindrande och funktionsfrämjande faktorer, det vill säga faktorer som förekommer tillsammans med ett hälsotillstånd, behov eller problem och som statistiskt är kopplade, antingen associerade eller korrelerade, till problemet men inte nödvändigtvis orsakar det.
7.2.1 Sammanvägning när underlaget består av både RCT-studier och andra studiedesigner
Randomiserade och icke-randomiserade studier bör inte läggas in i samma metaanalys [30]. Om det finns randomiserade studier kommer de nästan alltid att ge ett tillförlitligare resultat. Kvasirandomiserade studier och klusterrandomiserade studier kan dock gå bra att väga ihop med RCT-studier om grupperna är likartade vid baslinjen. Observationsstudier bör dock oftast hantera separat. Om underlaget består av ett fåtal små, randomiserade studier och flera stora icke-randomiserade studier kan separata metaanalyser göras för att undersöka om de visar samma eller avvikande resultat.
7.2.2 Val av programvara
Det finns flera programvaror som kan användas för att göra metaanalyser för insatsstudier. Ett vanligt program är RevMan från Cochrane Collaboration. När mer komplicerade beräkningar behövs finns möjlighet att använda till exempel programmen Comprehensive Meta-analysis (CMA) eller R (paketet metafor). Det finns också gratisprogramvaror som JASP och JAMOVI.
7.3 Metaanalys för diagnostisk tillförlitlighet
Studier om diagnostisk tillförlitlighet skiljer sig från insats- och observationsstudier på flera sätt, vilket ställer andra krav på vilka metoder som kan användas för att göra en metaanalys. Tre viktiga skillnader är:
- effektmåtten
- tröskelvärden
- hög heterogenitet.
Sensitivitet och specificitet är beroende av varandra så att en ökad sensitivitet sker på bekostnad av en sänkt specificitet och vice versa. Metoden för metaanalysen måste kunna hantera två olika utfallsmått i en och samma analys. Tröskelvärdet påverkar sensitiviteten och specificiteten. Ett lägre tröskelvärde kommer göra att sensitiviteten ökar och omvänt leder ett högt tröskelvärde till att specificiteten ökar. Om studierna har använt olika tröskelvärden måste metaanalysen kunna ta hänsyn till det.
Diagnostiska studier uppvisar dessutom oftast heterogena resultat om de har olika individsammansättning, om deras tröskelvärde varierar eller om båda föreligger. Att väga samman resultaten från dem i metaanalyser är därför inte alltid lämpligt.
För att kunna gör en metaanalys om diagnostisk tillförlitlighet behövs metoder som tar hänsyn till både sensitivitet och specificitet, förhållandet mellan dem och heterogeniteten i testets tillförlitlighet (eng. test accuracy). Metoderna som används för metaanalys finns utförligare beskrivna i Cochrane Collaborations handbok [104].
7.3.1 Hierarkiska modeller
För att kunna ta hänsyn till den oftast negativa korrelationen mellan sensitivitet och specificitet, heterogeniteten och att studier använder olika tröskelvärden behövs multivariata metoder för att utföra metaanalys [104] [106] [107].
Det har utvecklats två så kallade hierarkiska modeller för metaanalyser av diagnostiska studier: den bivariata modellen och den hierarkiska sROC-modellen (HSROC). Modellerna består av två nivåer för att modellera data. På den första nivån behandlar modellerna variationen i sensitivitet och specificitet inom varje studie och på den andra nivån hanterar de variationer mellan studierna.
Parametrar som skattas med hjälp av båda modellerna läggs sedan in i RevMan-programmet. Resultatet blir antingen en sammanfattande punkt för sensitivitet och specificitet med bivariatmodellen eller en sROC-kurva (HSROC).
7.3.1.1 Sammanfattande punkt
Metaanalys som ger en sammanfattande punkt för sensitivitet och specificitet, en så kallad bivariat analys, användas när resultaten bygger på samma tröskelvärde. Förutom punkten ger metaanalysen en 95-procentig konfidensregion och en 95-procentig prediktionsregion, se exempel i Figur 7.5.
Konfidensregionen baseras på konfidensintervallet för den sammanfattande punkten. Prediktionsregionen uppskattar området inom vilket vi skulle förvänta oss resultat från en framtida studie. Den är därför bredare än konfidensregionen. Konfidens- respektive prediktionsregionen är användbara för att illustrera osäkerheten i punktens värden och graden av heterogenitet.
7.3.1.2 HSROC-kurva
När resultaten i studierna baseras på olika tröskelvärden är det bättre att beräkna en summerande hierarkisk ROC-kurva, en så kallad HSROC-kurva. Figur 7.6 visar exempel på en sådan. Den blå linjen visar samband mellan sensitiviteten och specificiteten utifrån olika tröskelvärden. Att punkterna är utspridda längs hela ROC-arean beror på att studierna använder olika tröskelvärden. Punkternas avstånd från kurvan ge dig en uppfattning om hur heterogena de är – ju längre bort från kurvan punkterna ligger, desto mer heterogena är resultaten.
7.3.1.3 Sammanfattande punkt eller HSROC-kurva?
Vilken hierarkisk modell man bör välja beror på om den diagnostiska tillförlitligheten ska gälla ett visst tröskelvärde eller över flera. Ibland kan det vara meningsfullt att beräkna både en sammanfattande punkt och en HSROC-kurva eftersom analyserna då kan ge olika information och komplettera varandra.
Studierna som har inkluderats kan rapportera resultat på olika sätt. Om alla studierna har använt liknande tröskelvärden går det med fördel att redovisa resultaten i en sammanfattande punkt. Även när det är möjligt att definiera ett gemensamt tröskelvärde kommer det finnas större eller mindre variationer mellan studieresultaten. Variation kan uppstå på grund av skillnader i kalibrering av instrument, subjektiv tolkning av resultat samt skillnader i genomförande av testet.
Om varje studie rapporterar sensitivitet och specificitet för ett tröskelvärde men har använt olika tröskelvärden är det meningslöst att presentera metaanalysresultat i en sammanfattande punkt. Då behövs en HSROC-kurva som beskriver hur sensitivitet och specificitet varierar med tröskelvärdet.
Om några eller alla studier rapporterar sensitivitet och specificitet för flera tröskelvärden kan man antingen räkna fram flera sammanfattande punkter, en för varje tröskelvärde, eller konstruera en HSROC-kurva över flera olika tröskelvärden. Tänk bara på att då enbart använda ett tröskelvärde per studie.
7.3.2 Heterogenitet
Heterogenitet i metaanalyser av diagnostiska studier är snarare regel än undantag. Testets sensitivitet och specificitet kan skilja sig åt mellan studierna beroende på deras studiedesign, genomförande, sammansättning av deltagare, insats, indextest, referenstest och tröskelvärde. Därtill tillkommer sådan heterogenitet som orsakas av slumpen, och sådan som orsakas av systematiska fel som följd av brister i genomförandet av studierna.
En kopplad forest plot kan ge dig en snabb visuell överblick över heterogeniteten, som den i Figur 7.7. Ett annat sätt att undersöka heterogeniteten är att inkludera variabler som är karakteristiska till studierna, så kallade kovariater, i de hierarkiska modellerna. Kovariaterna kan exempelvis vara kön, ålder, blindning, antal besök i familjeterapi eller läkemedelsdos. Genom att välja en kovariat åt gången går det att studera dess inverkan på effektestimaten. Bivariatmodellen och HSROC-modellen skiljer sig i hur kovariaterna är inkluderade. Med bivariatmodellen undersöker man hur kovariaterna påverkar testets sensitivitet och specificitet. Med HSROC-modellen undersöker man kovariaternas effekt på hur sROC-kurvan ser ut och var den placerar sig i ROC-arean.
I Faktaruta 7.6. finns ett detaljerat förslag till hur man kan lägga upp arbetet med en metaanalys på diagnostisk tillförlitlighet.
7.4 Metaanalys av prediktionsstudier
Liksom för studier som undersöker diagnostisk tillförlitlighet förekommer heterogenitet när resultaten från prediktionsstudier vägs samman. Överväg därför noga om det är lämpligt att kombinera resultatet från dem statistiskt i en metaanalys.
7.4.1 Metaanalys av studier om prediktionsfaktorer
Studier om prediktionsfaktorer presenterar vanligen resultaten i form av en hazardkvot (HR), en oddskvot (OR) eller en riskkvot (RR) [109]. Undersök alltid att samma effektmått används och tänk på att det inte alltid är möjligt att inkludera olika effektmått i en metaanalys. Ytterligare en sak som bör undersökas är om författarna har justerat för samma kovariater i analyserna. Studierna som ingår i en metaanalys bör som regel ha justerat för viktiga kovariater. Överväga om de är så pass olika att de inte bör vägas samman. Det är möjligt att i en metaanalys få en visuell översikt av resultaten för att se hur de förehåller sig till varandra oavsett om de går att väga samman eller inte.
Heterogeniteten bör alltid analyseras via exempelvis känslighetsanalyser genom att beräkna och presentera prediktionsintervall eller en metaregression. Mer information om metaanalyser av resultat från prediktionsfaktorer finns här [110] [111].
7.4.2 Metaanalys av studier om prediktionsmodeller
Det går att väga samman data från olika primärstudier om prediktionsmodeller. Heterogenitet i data kan förväntas och möjliga orsaker till den bör analyseras. De effektmått som då ska vägas samman är dels diskriminering, dels kalibrering. Se kap 3 för en närmare beskrivning av dessa begrepp. I Faktaruta 7.7 går det att läsa mer om statistiska överväganden vid metaanalyser av studier om prediktionsmodeller. Mer information om metaanalyser av resultat från prediktionsmodeller finns här [112] [113]:
7.5 Nätverksmetaanalys
Metaanalyser av randomiserade kontrollerade studier (RCT-studier) anses ofta vara den bästa möjliga studiedesignen vid utvärdering av evidens för insatseffekter, till exempel jämföra insats A med insats B. Ibland saknas dock möjlighet till den här typen av direkta jämförelser mellan insatser. Då finns möjlighet att göra nätverksmetaanalyser (NMA). Nätverksmetaanalyser är en vidareutveckling av metaanalyser där det dels är möjligt att jämföra insatser där direkta jämförelser saknas, dels jämföra fler än två insatser samtidigt. Se Figur 7.8 för ett exempel på en visuellt beskriven nätverksmetaanalys med hjälp av ett evidensnätverk.
Nätverksmetaanalys är ett paraplybegrepp som innefattar en rad olika statistiska modeller för att analysera data. Ett vanligt exempel på det är indirekt jämförelse (eng. indirect treatment comparison, ITC) där insatserna av intresse helt saknar direkta jämförelser med varandra och därför jämförs med någon annan gemensam insats, till exempel placebo. En variant av indirekt jämförelse är Buchermetoden där alla parvisa jämförelser som läggs in i analysen behöver vara oberoende av varandra, det vill säga det får inte förekomma studier med armar för flera insatser. En annan vanlig variant är mixed treatment comparison (MTC) där det finns både indirekta och direkta jämförelser som kompletterar varandra. MTC-analyser används för mer komplexa nätverksmetaanalyser, så kallade evidensnätverk. I evidensnätverken lägger man in alla insatser från studierna som noder, och aktiva jämförelser som streck mellan noderna. Streckade eller svagare linjer kan betyda indirekta jämförelser.
Förutsättningar för att göra en nätverksmetaanalys är att studierna som ingår ska vara lika varandra sett till exempelvis studiedesign, population, deltagarnas ålder och tillståndets svårighetsgrad eller behovets angelägenhetsgrad. Nätverket ska hypotetiskt kunna motsvara ”en enda stor RCT-studie” där en grupp deltagare slumpmässigt har fördelats till varje studie som ingår i det. För att få så lite heterogenitet som möjligt i analysen bör insatserna som tas med vara jämförbara i ett och samma nätverk.
Jämförelser görs normalt sett bara mellan insatser som sitter ihop i ett gemensamt nätverk och har någon form av gemensam koppling, till exempel att de har samma jämförelse som placebo eller sedvanlig insats. Det finns även metoder där också insatser utan gemensamma noder kan hanteras så kallat disconnected networks. I Faktaruta 7.8 finns mer att läsa om val av utfall och bedömning av nätverksmetaanalyser.
För bedömning av kvaliteten i en nätverksmetaanalys har ISPOR tagit fram en mall med en grundlig genomgång av de olika momenten [114]. För att bedöma evidens från en nätverksmetaanalys har GRADE Working Group tagit fram underlag [115] [116] [117] [118].
7.6 Syntes utan metaanalys
Om studierna är mycket heterogena och skiljer sig avsevärt åt sett till deltagare, insats, jämförelseinsats eller utfallsmått kan det vara olämpligt att sammanställa data i en metaanalys. Man kan då istället sammanfatta studiernas resultat genom att beskriva dem i text. Ibland kan det vara möjligt att göra en övergripande analys av sammanvägda resultat genom en syntes utan metaanalys. Det kan till exempel fungera om studierna undersöker samma fenomen men presenterar olika effektmått som inte går att väga samman statistiskt, eller när det finns både randomiserade kontrollerade studier och studier utan randomisering i samma underlag.
Vid en syntes utan metaanalys ställs krav på att tydligt i text eller tabell beskriva studiernas likheter och olikheter och vikten av de individuella resultaten. I stället för att visa ett specifikt metaresultat med konfidensintervall kan exempelvis tillförlitligheten i en resultatriktning bedömas. Exempelvis kan sinsemellan olika insatser eller olika uppföljningstider visa på en tydlig positiv resultattrend. En forest plot kan ibland också ge visuell hjälp om det exempelvis visar resultaten för varje enskild studie med samma utfallsmått, inklusive deras konfidensintervall. Diagrammet gör materialet mer överskådligt än om redovisning sker med de enskilda utfallen i separata figurer eller i löptext. Någon sammanvägd effekt ska däremot inte matematiskt räknas fram i detta fall. Istället blir det viktigt att tydligt beskriver hur syntesen har utförts, så att läsaren förstår vilka överväganden som har gjorts. I Cochranes handbok [120] finns mer detaljerad information om olika metoder för syntes utan metaanalys, och det finns riktlinjer för hur rapporteringen bör gå till: Synthesis Without Meta-analysis (SWiM).
7.7 Syntes av kvalitativ evidens
Några år efter att kvantitativ metaanalys hade etablerats som en metod inom samhällsvetenskaplig forskning presenterades en motsvarande metod för synteser av studier med kvalitativ metodik: metaetnografin [121]. Numera finns ett stort antal syntesmetoder beskrivna i litteraturen och i olika handböcker. Vissa används för att beskriva ett fenomen utan att vidare tolka resultaten, andra används för att tolka eller förklara och ytterligare andra kan innehålla såväl beskrivande analys som en tolkning. I många metoder är målet att syntesen ska gå utöver primärstudierna, det vill säga att syntesen leder till en helt ny tolkning som inte kan avläsas från de enskilda studierna [122]. Det finns för närvarande ingen metod för syntes av kvalitativ evidens som kan ses som ett givet förstahandsalternativ i systematiska översikter och HTA-rapporter, men ofta kan metoderna metaaggregering och tematisk syntes vara bra alternativ [24]. Gemensamt för många av metoderna är att de bygger på en stegvis kondensering eller aggregering. Hur detta kan se ut finns beskrivet i Figur 7.9.
EU har stöttat ett forskningsprojekt om kvalitativ syntes [46] som kom fram till att valet av syntesmetod påverkas av sju olika aspekter som sammanfattas i ramverket RETREAT (review question, epistemology, time, resources, expertise, audience and purpose och type of data) [24]. En utförligare beskrivning av dem finns i Faktaruta 7.9.
I avsnittet nedan beskrivs kortfattat två syntesmetoder som är vanliga i HTA-rapporter: metaaggregering och tematisk syntes. Det finns fler metoder som går att använda om de som utför syntesen har tillräcklig erfarenhet av och ser den som bäst lämpad för att besvara forskningsfrågan. Se information om andra metoder här [24].
7.7.1 Metaaggregering
Metaaggregering är en textnära metod som lämpar sig väl när underlaget består av många studier med ”tunna” data. Programvaran SUMARI (eng. the system for the unified management, assessment and review of information) och dess verktyg QARI (eng. qualitative assessment and review instrument) stödjer hela processen för metaaggregering, inklusive granskning av studierna. Den granskningen är däremot inte direkt användbar för bedömning av de syntetiserade fyndens tillförlitlighet med CERQual. Mer om detta går att läsa i Kapitel 8.
Metoden grundar sig i pragmatism och fenomenologi [105] [123]. Metaaggregering är ingen tolkande analys av data från primärstudierna. Istället koncentrerar sig metoden på ursprungsförfattarnas fynd i form av exempelvis kategorier och teman och sammanfattar gemensamma och motstridiga fynd från de inkluderade studierna så att de kan användas som grund för rekommendationer. Syftet är att balansera komplexiteten i primärstudierna med hur användbara fynden blir för praktiker och beslutsfattare.
Studier som använder olika ansatser kan inkluderas i samma syntes. Fynd från studierna betraktas här som resultat på nivå 1 och därefter aggregeras dessa vidare till kategorier på nivå 2 och syntetiserade fynd på nivå 3. Ett praktiskt exempel på hur metoden tillämpas finns här [105]. I Faktaruta 7.10 finns mer information om de steg som ingår i en metaaggregering.
7.7.2 Tematisk syntes
Även tematisk syntes lämpar sig väl om underlaget består av stora mängder studier och ”tunn” data, men tematisk syntes fungerar också med rika data. Metoden används ofta för frågor om behov och för frågor om hur acceptabla och lämpliga olika insatser är. Metoden, som utvecklades av Thomas och Harden [124], har ingen stark filosofisk komponent och studier inkluderas utan hänsyn till deras respektive vetenskapsteoretiska ansats. Enligt metodens principer granskas relevanta studiers metodologiska stringens och samtliga relevanta studier inkluderas i syntesen. Därefter görs en sorts sensitivitetsanalys för att undersöka om metodproblem slår igenom i resultaten.
Syntesen består av tre steg:
- koda primärstudiernas fynd
- konstruera deskriptiva teman
- utveckla analytiska teman.
De två första stegen är textnära (eng. data-driven) medan det tredje är teoridrivet. När forskningsfrågan handlar om till exempel behov kan frågan ses som ett teoretiskt ramverk. I Faktaruta 7.11 finns en beskrivning av de steg som ingår i en tematisk syntes.
8. Tillförlitlighet av det sammanvägda resultatet
Detta kapitel handlar om att bedöma hur tillförlitligt det sammanvägda resultatet är. SBU och många andra HTA-organisationer tillämpar GRADE (grading of recommendations assessment development and evaluation) [125] som stöd för att bedöma resultat från kvantitativa studier. Principerna för GRADE beskrivs i GRADE Handbook [126]. Mer information om GRADE finns på GRADE Working Group:s webbplats. Observera att GRADE Working group kontinuerligt utvecklar sina processer, och att GRADE därmed inte är ett fastslaget sätt att bedöma tillförlitlighet. För sammanvägningar av studier med kvalitativ metodik används GRADE CERQual, se vidare Avsnitt 8.2.
8.1 GRADE: Tillförlitlighet av sammanvägda resultat från studier med kvantitativ metodik
Detta avsnitt beskriver hur GRADE används liksom hur resultaten presenteras i en så kallad SoF-tabell (summary of findings). Det kan inte nog betonas att GRADE är ett stöd för att projektgruppen ska kunna göra en strukturerad bedömning och att bedömningarna alltid kommer att ha subjektiva inslag. GRADE bidrar genom att motiveringar och överväganden för bedömningarna framgår i SoF-tabellerna.
GRADE är avsett för såväl resultat från systematiska översikter som för rekommendationer i riktlinjer baserade på systematiska översikter. GRADE skiljer mellan en systematisk översikt, som förutsätts vara oberoende av sammanhang (eng. context) och rekommendationer, som är beroende på sammanhanget. För att läsa mer om hur GRADE kan tillämpas för att utarbeta styrkan i rekommendationer se GRADE Handbook [126].
Det sammanvägda resultatet från studier med kvantitativ metodik kan uttryckas på flera sätt, ofta i form av ett punktestimat med ett 95-procentigt konfidensintervall. Även tillförlitligheten av sammanvägda resultat från till exempel syntes utan metaanalys eller sambands- eller exponeringsstudier kan bedömas med GRADE.
Syftet med GRADE är att på ett strukturerat och transparent sätt bedöma osäkerheter och risker i det sammanvägda resultatet. En GRADE-bedömning görs per utfallsmått. Till skillnad från äldre system är inte kvaliteten på de studier som inkluderats i översikten den enda utgångspunkten för att bedöma om resultatet är tillförlitligt. Bristande samstämmighet mellan studierna och problem med överförbarhet är några andra faktorer som påverkar tillförlitligheten enligt GRADE. GRADE kan ses som ett teoretiskt ramverk där resultatet granskas ur olika synvinklar som brukar kallas domäner eller riskområden (eng. domains).
Med GRADE klassificeras tillförlitligheten som hög (), måttlig (), låg () eller mycket låg (). Beskrivningen av de olika nivåerna finns i Faktaruta 8.1.
Bedömningen inleds utifrån antagandet att resultatet har hög tillförlitlighet. Det motsvarar att underlaget består av studier med optimal design för att besvara frågan, till exempel randomiserade studier om frågan gäller effekter av insatser. Tidigare var utgångsbedömningen för icke-randomiserade studier (NRSI, non-randomised studies of interventions), att resultatet har låg tillförlitlighet (), på grund av risken för confounding (förväxlingsfaktorer eller störfaktorer) det vill säga att en eller flera variabler samvarierar med både insatsen och utfallet). Eftersom confounding numera hanteras inom risk för bias bedömningen är utgångsläget oftast hög tillförlitlighet även för NRSI-studier [127].
Därefter bedöms risken för att resultatet har påverkats av osäkerheter i de olika riskområdena. Om osäkerheten som introduceras i ett riskområde är allvarlig, sänker man tillförlitligheten med ett steg. Om osäkerheten är mycket allvarlig sänker man tillförlitligheten med två steg. För icke-randomiserade insatsstudier tillkommer möjligheten att tillförlitligheten ökar, till exempel om effekterna är stora. Observera att en brist i underlaget ibland kan ge avtryck i flera riskområden. Det får då inte bli en ”dubbelbestraffning” så att det görs avdrag flera gånger för samma problem.
8.1.1 Riskområde 1: Risk för bias
Detta riskområde gäller inte risken för bias i enskilda studier, som redan är granskade med stöd av mallarna i Kapitel 5, utan hur stor risken är att det sammanvägda estimatet påverkas av brister i studierna [128]. Ett praktiskt hjälpmedel för att bedöma denna övergripande risk är en sammanställning av riskerna över samtliga inkluderade studier, det vill säga en tabell över risk för bias.
En tumregel när gruppen bedömer risken för bias är att inte göra ett enkelt genomsnitt av bedömningarna av respektive studie. Om det till exempel finns två studier som har flera mycket allvarliga risker och två som har få och mindre allvarliga risker så ska man inte ge totalbedömningen ”allvarlig risk” och dra ner tillförlitligheten ett steg. Istället måste projektgruppen noggrant överväga hur mycket varje studie bidrar till resultatet. Ett sätt att göra det är att utesluta studien ur metaanalysen och se hur mycket det påverkar resultatet. Om studier med mycket allvarliga brister bidrar litet så påverkar de inte heller resultatet i avsevärd omfattning. Titta även på hur stora studierna är och antalet utfall eller händelser som en del av övervägandet. GRADE rekommenderar en försiktig hållning vad gäller att göra avdrag för risk för bias. Det ska finnas en välgrundad uppfattning om att det finns en avsevärd risk för bias i de flesta studierna för att dra av.
Som regel inkluderar inte SBU studier med hög risk för bias i sina analyser. Om man använder systematiska översikter som andra forskare har tagit fram där studier med hög risk för bias har inkluderats kan det vara värt att överväga att ta bort dem från analysen om de förefaller störa resultatet. Nackdelen är att precisionen försämras eftersom antalet deltagare minskar. Det är viktigt att vara rättvis mot materialet, inte exkludera studier med hög risk för bias och sedan vara alltför kritisk vid bedömningen med GRADE i de kvarvarande studierna.
8.1.2 Riskområde 2: Bristande samstämmighet
Bristande samstämmighet, även kallat heterogenitet, betyder att studierna visar olika resultat. Om effekten varierar kraftigt mellan studier kan förklaringar ligga till exempel i att deltagarna haft olika svårighetsgrad av ett tillstånd eller problem, att insatserna eller jämförelserna inte varit tillräckligt lika, att resultaten mätts vid olika tidpunkter eller att studierna haft olika risk för bias [128].
Om det inte går att förklara den bristande samstämmigheten minskar resultatets tillförlitlighet.
Bedömningen av samstämmighet beror på om syftet med analysen är att avgöra om det finns någon effekt över huvud taget eller hur stor effekten är. I Faktaruta 8.2 och i Figur 8.1 till 8.3 finns exempel på hur samstämmighet kan bedömas. Mer information finns också i denna artikel av Guyatt och medarbetare [129].
Ett sätt att undersöka orsaker bakom resultat som skiljer sig åt är att genomföra stratifierade analyser på subgrupper. Dessa ska vara definierade redan i protokollet och funktionellt motiverade, till exempel ha en bakomliggande teoretisk förklaring.
Om subgruppsanalysen ingår i en redan publicerad systematisk översikt föreslår GRADE att analysen undersöks utifrån en uppsättning kriterier [129]:
- författarna har definierat hypoteser om subgrupper och deras riktning på effekten i förväg
- det finns en rimlig mekanism för en subgruppseffekt
- man ser skillnader i effekt mellan olika subgrupper inom studier snarare än mellan studier
- en statistisk analys antyder att slumpen är en osannolik förklaring
- skillnaderna i effekt för en subgrupp är synliga genom studierna och med olika utfallsmått
- subgruppsanalysen är en av få testade hypoteser.
8.1.3 Riskområde 3: Bristande precision
Precisionsdomänen bedöms främst utifrån konfidensintervallet för det sammanvägda resultatet. Ju smalare konfidensintervall, desto högre precision. GRADE fokuserar på konfidensintervallet för den absoluta effekten vid bedömningen av osäkerheter i precisionen. Beroende på vilken fråga som undersöks, kan det vara relevant att undersöka de relativa effekterna. För relativa effekter kan konfidensintervallet dock bli brett även när resultatet baseras på ett stort antal deltagare om antalet händelser i jämförelsegruppen är lågt. Projektgruppen kan då överväga att utgå från konfidensintervallet för den absoluta effekten för att bedöma precisionen [128]. För SBU är den vanligaste utgångspunkten att enbart bredden och läget på konfidensintervallet som bedöms.
Precisionen kan även bedömas utifrån ett på förhand specificerat tröskelvärde. För en närmare beskrivning av hur tröskelvärden konstrueras och används i GRADE hänvisar vi till denna artikel av Guyatt och medarbetare [128]. Se Faktaruta 8.3 om brist i precision även när konfidensintervallen är smala.
8.1.4 Riskområde 4: Bristande överförbarhet
Överförbarhet innebär att resultatet från studierna kommer att vara likartat för det sammanhang som forskningsfrågan avser [130]. Brister i överförbarheten kan bero på skillnader i population, insats, välfärdsystem, utfallsmått samt på indirekta jämförelser.
8.1.4.1 Population och insats
I GRADE finns det sällan skäl att göra avdrag för skillnader i populationerna om det gäller grupper som patienter eller personer som får en omsorgs- eller funktionsfrämjande insatser. Det ska då finnas tunga argument för att till exempel biologiska mekanismer skiljer sig så mycket åt att insatseffektens storlek påverkas. Undantagsvis kan underlaget för ett resultat baseras på helt andra populationer. Ett exempel på det är när man studerar biverkningar på råttor eller penicillinresistens som kan mätas i provrörsmiljö. I dessa fall minskar överförbarheten och enligt GRADE görs då avdrag med två steg. Överförbarheten kan också påverkas av att det i olika välfärdsystem är olika populationer som får likartade omsorgs- eller funktionsfrämjande insatser.
Överförbarheten kan också påverkas av skillnader i sammanhang (eng. setting) och hur en insats implementeras. Studier där insatsen getts av forskare eller utförare där genomförandet kontrolleras noga ger till exempel sannolikt bättre effekter än när insatsen implementeras och genomförs utanför forskarens kontroll. Det kan motivera ett avdrag.
8.1.4.2 Utfall
Det finns två viktiga aspekter på vid valet av utfallsmått och hur det påverkar överförbarheten. Den ena är användningen av så kallade surrogatmått. GRADE bygger på att utfallet mäts med mått som är viktiga för patienten eller individen (se även Kapitel 2 om val av utfall). Utfall som dödlighet, svår sjukdom, hög grad av funktionsnedsättning eller mycket angelägna behov av en stödinsats kan inträffa mer sällan under studietiden. För att sådana utfall ska uppkomma och detta i en mängd som blir tillräckligt stor ur statistisk synvinkel krävs stora studier och långa uppföljningstider. Därför väljer forskare istället ofta indirekta mått. Ett exempel på det är att mäta skolnärvaro som ett indirekt mått för psykisk ohälsa, eftersom psykisk ohälsa är svårare att mäta än skolnärvaro. Andra exempel är att mäta effekter av blodtrycksinsatser som förändrat blodtryck istället för hjärtinfarkt eller död i hjärt–kärlhändelser, eller att mäta effekter av osteoporosinsats som bentäthet istället för frakturer. För att bedöma hur överförbart ett indirekt mått är måste hänsyn tas till bland annat verkningsmekanismer och naturalförlopp. I vissa fall kan det skapa stora brister i överförbarheten, som motiverar två stegs avdrag enligt GRADE. Ett exempel på det är insatser med fosfatsänkande läkemedel för personer med njursvikt och hyperfosfatemi. Om surrogatmåttet förkalkning av kranskärl istället för hjärtinfarkt använts kan ni behöva göra ett stegs avdrag, och surrogatmåttet mätningar av omsättningen av kalcium och fosfat använts kan det motivera två stegs avdrag.
Den andra aspekten att tänka på gäller uppföljningstider som avviker från forskningsfrågan. Effekter vid korttidsmätningar kan ha ett litet värde för att bedöma effekter på längre sikt. Många insatser för att förebygga psykisk ohälsa hos barn har till exempel enbart uppföljningstider på några få månader trots är tänkta att minska problemen på flera års sikt.
8.1.4.3 Indirekta jämförelser
Ytterligare en hörnsten i GRADE är att i första hand basera systematiska översikter på jämförelser mellan två insatser som har förmodad effekt. Ofta saknas sådana direkta jämförelser. Istället kan underlaget bygga på studier som till exempel jämför insatserna var för sig mot placebo eller mot att inte få någon insats alls. Enligt GRADE:s vägledning ska man då överväga att göra avdrag med minst ett steg för bristande överförbarhet [130]. Ett sätt att hantera det problemet är att göra en nätverksmetaanalys. Det är en avancerad statistisk metod som sammanställer såväl direkta som indirekta jämförelser av insatser även när de inte har prövats sida vid sida i samma studie (Avsnitt 7.5).
8.1.5 Riskområde 5: Publikationsbias
Fenomenet publikationsbias, det vill säga att studier av olika skäl inte publiceras alls eller med tidsfördröjning, är sannolikt mycket vanligt, oavsett om det gäller effekter av insatser eller värdet av diagnostiska tester. Se Figur 8.4 nedan för exempel. I Avsnitt 7.1.9 finns mer information om publikationsbias.
I exempelstudien ovan undersökte forskarna om effektstorleken för att minska symtom på egentlig depression med antidepressiva läkemedel påverkades av att de tog med resultat från opublicerade studier i en metaanalys [64]. Av de publicerade studierna visade de flesta av studierna att läkemedlen var effektiva. Ytterligare ett antal studier redovisade ingen signifikant skillnad på det primära utfallet men presenterade resultat för till exempel subgrupper (”positiv vinkel”). Av de opublicerade studierna såg endast två någon effekt av läkemedlen. Konsekvensen blev en överskattning av läkemedlens effekt.
Det kan vara svårt att bedöma hur allvarlig risken för publikationsbias är. Det finns flera metoder som kan ge en fingervisning om att det saknas studier men det behövs indicier från mer än en metod för att motivera avdrag för det. Till skillnad från övriga riskområden i GRADE kan bara ett stegs avdrag göras för publikationsbias. GRADE rekommenderar att man överväger att göra avdrag med ett steg om underlaget enbart består av små studier [131]. Om studierna dessutom är sponsrade av företag eller om studieförfattarna har någon annan form av intressekonflikter ökar risken för publikationsbias. Om underlaget består av många studier kan även risken för publikationsbias undersökas med hjälp av ett trattdiagram. Läs mer om trattdiagram i Avsnitt 7.1.9.
En viktig informationskälla för att bedöma risken för publikationsbias är sakkunniga på området. Fråga dem ifall de känner till att det finns studier som har presenterats på till exempel kongresser men som inte publicerats i vetenskapliga tidskrifter. Det går också att fråga forskare och forskande företag och organisationer om de har opublicerade studier. Ett annat bra komplement för insatsstudier är att undersöka om det finns några protokoll registrerade i forskningsdatabaserna, till exempel clinicaltrials.gov eller WHO:s databas ICTRP. Registrerade protokoll bör i normalfallet leda till en publicerad studie. Dock är det möjligt att studierna har avbrutits av fullt legitima skäl.
8.1.6 Att bedöma tillförlitlighet när det bara finns en eller ett fåtal små studier
Tillförlitligheten av ett resultat ska bedömas med stöd av GRADE även när det vetenskapliga underlaget är litet, det vill säga om det består av en enda studie eller ett fåtal små studier. Tillämpa GRADE på samma sätt som när det finns ett mer omfattande underlag när det gäller överförbarhet och publikationsbias. Brister i samstämmighet är endast relevant att bedöma om det finns mer än en studie. Ett resultat som bygger på ett klent underlag blir dock mer känsligt för brister som leder till bias eller dålig precision.
8.1.7 Ökar risken för bias när resultaten inte har upprepats?
Risken för bias ökar om en studie inte har upprepats av andra forskare eller forskargrupper. Ett undantag kan vara om underlaget består av en stor studie där flera vård- eller omsorgsgivare deltar, en så kallad multicenterstudie, och där resultaten är samstämmiga mellan de centrum som deltar. De olika centrumen bör då ha bidragit i likartad utsträckning – det får inte vara så att ett enskilt, stort center fått en dominerande effekt på studiens resultat.
Risken för att resultatet påverkats av bias minskar också om det finns en vetenskaplig grund, och inte bara en rimlig hypotes. Det gäller särskilt om det finns en känd verkningsmekanism eller om insatsen bygger på en teoretiskt välunderbyggd och allmänt vedertagen programteori. På samma sätt minskar risken att resultaten påverkats när det finns vedertagna likartade insatser inom samma område som har bekräftad effekt, till exempel läkemedel inom samma läkemedelsklass eller föräldrastödsprogram som bygger på liknande komponenter.
Slutligen minskar risken att resultaten påverkats om resultaten är likartade för olika utfallsmått, till exempel att samtliga visar en statistiskt signifikant effekt, eller om utfall med olika känslighet uppvisar samma trend. Om resultaten skiljer sig åt behöver det inte försvaga tillförlitligheten om det finns en bra förklaring, exempelvis om bortfallen för olika utfallsmått är olika stora.
8.1.8 Finns det risk för att förväntningar eller bristande forskningsetik påverkat resultatet?
När underlaget består av en enda studie eller av flera små studier där en enda forskare eller forskargrupp haft ett stort inflytande bör man vara extra uppmärksam på risken för att data har snedvridits. Studierna och de analyser som ingår kan nämligen ha vinklats för att bekräfta en viss hypotes och i värsta fall kan data vara fabricerade. Om projektgruppen bedömer att det finns en risk för felaktig rapportering kan det motivera ett extra avdrag i domänen risk för bias. Maximalt avdrag blir då alltså tre steg.
Resultatet kan anses vara mer tillförlitligt när studien är gjord av forskare som inte själva har utvecklat metoden eller insatsen som de studerar.
8.1.9 Är antalet observationer så litet att slumpen får en avgörande roll?
Det viktiga är inte hur många deltagare studien har utan hur många händelser som observerats. När det finns få händelser spelar slumpen en större roll. Det går dock inte att ge några generella råd om vad som är för få eller tillräckligt många observationer utan det behöver avgöras från fall till fall. Problem med få observationer hanteras inom domänen Precision.
Om den statistiska säkerheten i studien är övertygande med ett stort antal händelser så stärker det tillförlitligheten.
8.1.10 Faktorer som kan öka tillförlitligheten av det sammanvägda resultatet
För kontrollerade studier utan randomisering kan det enligt GRADE undantagsvis finnas skäl att gradera upp tillförlitligheten ett eller två steg [132]. Tre faktorer nämns som kan öka tillförlitligheten:
- den sammanvägda effekten av en insats är mycket stor
- det finns ett samband mellan exempelvis dos av ett läkemedel eller antal gånger en psykosocial insats genomförs och effekten på ett relevant utfall (medicinsk term: dos-responssamband)
- det finns kända confounders (förväxlingsfaktorer) som resulterar i en lägre effekt.
En förutsättning för att kunna gradera upp tillförlitligheten är dock att risken för bias inte får vara allvarlig.
8.1.11 Sammanställning i en SoF-tabell
Sammanvägda resultat för de olika måtten och deras tillförlitlighet ska redovisas i ett standardiserat format, en så kallad SoF-tabell (eng. summary of findings), se Tabell 8.1 [133] [134]. Syftet med tabellen är att underlätta för läsaren att förstå och tolka resultaten. Det måste framgå om det är ett punktestimat med konfidensintervall eller att det finns någon effekt överhuvudtaget som bedöms med hjälp av GRADE, För läsaren kan det vara intressant att kunna läsa om både relativa och absoluta effekter. Det kan också vara värdefullt att dela upp resultat för deltagare med olika risker vid baslinjen. Relativa effekter är visserligen mer likartade oavsett risk, men uppgifter om absolut risk kan underlätta beslut i vård och socialtjänst.
1 En effektskillnad vad gäller smärta med cirka 0,7 skalsteg på en skala 0–10 bedömer vi som mycket liten effekt. 2 Bristande överförbarhet: studiedeltagarna var i genomsnitt cirka 60 år. Vår frågeställning berör individer 65 år och äldre. KI = Konfidensintervall; RCT = Randomiserad kontrollerad studie; RD = Risk difference |
||||
Utfallsmått | Antal individer respektive studier | Sammanvägt resultat | Tillförlitlighet i vetenskapligt underlag | Kommentarer |
---|---|---|---|---|
Oxikodon 10–160 mg jämfört med placebo | ||||
Förändring på numerisk smärtskal (0–10) |
n=497 2 RCT |
Oxikodon minskar smärta med i genomsnitt 0,7 skalsteg (95 % KI, 0,29 till 1,12) mer än placebo | Måttlig tillförlitlighet för en mycket liten1 effekt av oxikodon vad gäller smärta |
Överförbarhet2: –1 |
Det är viktigt att ange motiveringarna till varje GRADE-bedömning i tabellen, antingen i en särskild kolumn eller i fotnoter. Det finns också en programvara, GRADE Pro, som kan användas som stöd för att fylla i tabellen. Mer information om hur uppgifter för dikotoma utfall kan beskrivas i SoF-tabellen finns här [133], och här finns information om kontinuerliga utfall [134].
Ett speciellt problem med att sammanställa resultat i tabellen uppstår när utfallsmåttet är kontinuerligt och beräknas som en standardiserad medelvärdesskillnad, uttryckt som SMD eller Cohen’s d (Faktaruta 7.2). Den standardiserade medelvärdesskillnaden kan vara svårtolkad. Den kan dock översättas direkt till effektstorlek uttryckt enligt tumreglerna för Cohen’s d eller Hedges g. För forskningsfält där de måtten är väl etablerade kan det därför vara en bra idé att presentera resultaten som Cohen’s d.
8.1.12 Diagnostisk tillförlitlighet
GRADE fokuserar på utfall som är viktiga för patienten, personen eller klienten, det vill säga värdet av att en metod förbättrar hälsa, minskar problem eller tillgodoser behov. Inom GRADE anses därför att sensitivitet och specificitet som surrogatmått för det viktiga utfallet. Resultaten får därmed minskad överförbarhet. När forskningsfrågan gäller vilken diagnostisk tillförlitlighet en metod har, det vill säga när de primära utfallsmåtten är just sensitivitet och specificitet, görs dock inget avdrag för brister i överförbarheten för denna aspekt.
Om en bedömning av tillförlitligheten för sensitivitet eller specificitet görs, presentera dem var för sig. Det innebär alltså att tillförlitligheten kan skilja sig mellan resultatet för sensitivitet och specificitet.
Eftersom dessa resultat kan vara svårtolkade är det bra att visa vad resultatet betyder för exempelvis 100 000 personer vid olika prevalens av tillståndet. I Tabell 8.2 finns ett exempel.
Resultat per 100 000 testade individer (95 % KI) | Antal deltagare(Studier) | GRADE | Kommentar | ||
---|---|---|---|---|---|
Utfall | Prevalens 5 % | Prevalens 10 % | |||
Sant positiva | 4 500 | 9 000 | 2 000 (10) | −1 Risk för bias | |
Falskt positiva | 19 000 | 18 000 | 2 000 (10) | −1 Risk för bias | |
Sant negativa | 76 000 | 72 000 | 2 000 (10) | −1 Risk för bias | |
Falskt negativa | 500 | 1 000 | 2 000 (10) | −1 Risk för bias |
Det går även att bedöma tillförlitligt det är att sensitiviteten respektive specificiteten överskrider ett visst tröskelvärde, till exempel att tillförlitligheten att testet eller bedömningsmetoden har minst 70 procents specificitet. Tröskelvärdet bör i dessa fall ha satts redan innan projektstarten utifrån vad som är relevant och tillräckligt bra inom sjukvård respektive socialtjänst eller arbetsmiljöområdet. Ett sådan värde påverkas också av i vilket skede av det diagnostiska flödet ett test utförs. Om man vid ett positivt resultat går vidare och validerar med ytterligare ett test eller bedömningsmetod så kan man troligen acceptera fler falskt negativa tester än annars.
8.1.13 Prediktion
Tillförlitligheten av sammanvägda resultat för prediktionsfaktorer bedöms utifrån samma fem domäner som för insatsstudier enligt GRADE [136]. Det gäller även tillförlitlighet hos den typ av prediktion som innefattar stratifierad medicin, det vill säga effekten av insatser baserat på en prediktionsfaktor eller -modell.
Det kan krävas särskilda ställningstaganden vid bedömning av tillförlitligheten hos resultat från prognostiska modeller. En arbetsgrupp inom GRADE arbetar med att ta fram underlag om detta.
8.2 CERQual: Tillförlitlighet av sammanvägda fynd från syntes av studier med kvalitativ metodik
Tillförlitligheten av fynd från kvalitativa synteser bedöms med stöd av GRADE-CERQual [137]. Syftet är att på ett transparent sätt bedöma och beskriva hur stor tilltro som beslutsfattare och andra kan ha till fynden. CERQual definierar tillförlitligheten som en bedömning av i vilken utsträckning fyndet är en rimlig representation av fenomenet. Ett alternativt sätt att formulera det är i vilken utsträckning fyndet är ”substantiellt” skiljt från fenomenet. Med det menas att skillnaden är så stor att den påverkar beslutsfattandet.
Med fynd avses resultatet från ett analytiskt arbete som beskriver ett fenomen eller en aspekt av ett fenomen baserat på data från primärstudier. CERQual är inspirerat av GRADE och har utvecklats i samarbete med GRADE Working Group. CERQual är avsett att fungera som ett strukturerat stöd för bedömningar och tolkningar som är subjektiva. I publicerade studier har CERQual hittills tillämpats för deskriptiva fynd och inte för tolkande, men utvecklingsarbete pågår inom det området. Organisationen bakom CERQual har också tagit fram ett gratisprogram som stöd för tillförlitlighetsbedömningen.
CERQual består av fyra riskområden, som också kallas komponenter eller domäner:
- metodologiska begränsningar
- relevans
- koherens
- tillräckliga data.
Precis som med GRADE utgår man från att fyndet är tillförlitligt och gör avdrag för brister som kan påverka tillförlitligheten. Tillförlitligheten klassificeras i fyra nivåer. I Faktaruta 8.4 beskrivs hur de olika nivåerna kan tolkas.
8.2.1 Riskområde 1: Metodologiska begränsningar
Med metodologiska begränsningar avses i vilken utsträckning design och genomförandet av studierna påverkar tillförlitligheten hos deras resultat [138]. Bedömningen grundar sig på resultatet av granskningen av de individuella studier som är underlag för fyndet. Man måste ta hänsyn till hur mycket varje enskild studie bidrar, vilka brister som identifieras och hur de kan påverka fyndet. Mer information om metodologiska begränsningar finns i [138].
Det går också att göra en matris som illustrerar metodbrister hos de olika studierna på samma sätt som för kvantitativa studier.
8.2.2 Riskområde 2: Relevans
Med relevans avses i vilken utsträckning de data som finns i de underliggande studierna är tillämpliga för forskningsfrågan och för sammanhanget [139] och motsvarar ungefär riskområdet bristande överförbarhet i GRADE. Ofta stämmer studierna väl överens med satta inklusionskriterier men ibland måste man acceptera vissa avvikelser. Relevansen kan då bli indirekt, partiell eller osäker. Mer information om relevanskomponenten finns här [139].
Bedömningen underlättas om relevansen i de enskilda studierna har noterats i samband med granskningen av metodbrister i primärstudierna.
8.2.3 Riskområde 3: Koherens
Kvalitativa fynd utvecklas genom att identifiera mönster i data över de studier som ingår. Med koherens avses att fyndet är väl underbyggt av data från studierna och ger en övertygande förklaring för de mönster som identifierats [140]. Koherensen kan vara kontextuell, där studierna är likartade beträffande population, sammanhang med mera, eller konceptuell, där mönstren kan förklaras i relation till en ny eller existerande teori. Teorin kan vara internt utvecklad, det vill säga härröra från en eller flera studier i underlaget, eller externt, det vill säga en etablerad teori. Ett tredje alternativ är att teorin utvecklas som del av syntesprocessen.
Fynd från synteser kan ses som transformationer av underliggande data till beskrivningar, tolkningar eller förklaringar av fenomenet. Beskrivningar är de minst transformerade formerna medan förklaringar är de mest transformerade. Mellan dessa ytterligheter finns fynd som till exempel visar mönster av samband eller länkar mönster i data till teoretiska koncept. Olika syntesmetoder ger också fynd med olika grad av transformation. Metaaggregation ger mer deskriptiva fynd medan till exempel metaetnografi ger mer förklarande fynd. Risken för bristande koherens ökar ju mer förklarande fynden är.
Deskriptiva fynd ger en sammanfattning av underliggande mönster av data som har extraherats från studierna. Om mönstren är komplexa eller varierande beror koherensen på hur väl komplexitet och variation beskrivs i fyndet. Det innebär att ett fynd kan behöva beskrivas detaljerat. Koherensen försämras om endast de mest dominanta mönstren i fyndet beskrivs och beskrivningen inte täcker oklara eller avvikande data. Ett exempel på det är fyndet ”kvinnor känner sig bekväma med att genomföra en medicinsk abort hemma” som är en alltför förenklad bild av fyndet ”kvinnors erfarenheter av att genomföra en medicinsk abort i hemmet varierade – några kände sig överväldigade, andra kände sig komfortabla och ’empowered’ och ytterligare några uppgav att det var precis som vilken annan mindre procedur som helst” [140].
Koherensen i mer förklarande fynd minskar om det finns data i de underliggande studierna som utmanar den tolkning eller förklaring som gjorts i översikten. Den minskar också om det finns andra möjliga tolkningar eller förklaringar.
Bedömning av koherens i en syntes ger en möjlighet till både reflexivitet och att överväga om det kan finnas andra sätt att syntetisera fynden på som bättre kan fånga underliggande data. Det är därför viktigt att aktivt leta efter data som komplicerar eller utmanar fynden och försöka förklara dessa variationer eller undantag. Om det inte går att komma fram till någon övertygande förklaring till dem minskar tillförlitligheten till att fyndet verkligen representerar fenomenet. Det kan finnas flera orsaker till att det är svårt att förklara undantag, som att dataunderlaget är för magert, teorin har brister eller att urvalet av studier till översikten var alltför begränsat. Undvik att släta över eller bortse från motstridiga fynd. Det kan vara frestande att till exempel formulera fyndet på ett vagare sätt för att öka koherensen, men hela syftet med bedömningen är att klarlägga graden av osäkerheter i fyndet.
Läs mer om koherensbedömningen i [140].
8.2.4 Riskområde 4: Tillräckliga data
Riskområdet handlar dels om hur rika data är, dels kvantiteten data [139]. Rika data ger tillräckligt med detaljer för att man ska förstå fenomenet, men den totala mängden data är också viktig. Om underlaget består av ett fåtal studier eller ett fåtal observationer minskar tillförlitligheten till att fyndet återspeglar fenomenet. Det är i så fall oklart om studier som genomförs i andra miljöer eller med andra grupper skulle ge samma bild.
Det finns inga regler som avgör när data är tillräckligt rika eller tillräckligt omfattande utan den bedömning som måste göra från översikt till översikt. CERQual föreslår att begreppet mättnad kan vara användbart i vissa fall eller att man överväger i vilket utsträckning ytterligare data skulle påverka fyndet. För övrigt kan ett mindre antal konceptuellt rika studier bidra mer till ett fynd än ett större antal studier med magra, deskriptiva data. Läs mer här kring bedömning av tillräckliga data [141].
8.2.5 Sammanvägd bedömning
För att underlätta den sammanvägda bedömningen av tillförlitligheten utifrån bedömningen från de olika domänerna kan en så kallad evidensprofil användas. Här finns ett förslag på en sådan från CERQual [142]. Precis som med GRADE sammanställs sedan fynden, antal underliggande studier och deltagare samt en sammanvägd bedömning av tillförlitligheten hos respektive fynd i en SoF-tabell. Motiven till eventuella avdrag ska framgå i anslutning till tabellen, till exempel i form av fotnoter eller i en egen kolumn. Exemplet i Tabell 8.2 visar en SoF-tabell med CERQual-bedömningar av sex underteman i ett projekt om erfarenheter av behandling av postpartumdepression.
Fynd på nivå 2: underteman | Antal studier Antal deltagare för undertemat |
Fyndets tillförlitlighet (CERQual) | Kommentar till gjorda avdrag |
---|---|---|---|
Viktiga förutsättningar för kvinnorna att få insats var de egna praktiska möjligheterna och socialt stöd. | 5 99 |
Låg tillförlitlighet |
–1 för metodbrister,totalt –1 för mindre brister i tillräckliga data och relevans |
Kvinnornas förväntningar, tidigare erfarenheter och syn på postpartumdepression inverkade på deras upplevelse av behandling och dess möjligheter. | 7 145 |
Måttlig tillförlitlighet |
–1 för metodbrister |
Den givna behandlingens format upplevdes av de flesta som positivt, men specifika önskemål framfördes angående individuell anpassning och omfattning. | 6 129 |
Måttlig tillförlitlighet |
–1 för metodbrister |
En god relationen till behandlaren, och tankar om dennes kompetens, hade betydelse för kvinnornas upplevelse av behandlingen. | 8 256 |
Måttlig tillförlitlighet |
–1 för metodbrister |
Kvinnorna uttryckte skilda åsikter om behandlingarnas innehåll, terapeutiska förhållningssätt och förväntad egen insats. | 7 234 |
Måttlig tillförlitlighet |
–1 för metodbrister |
Kvinnorna beskrev positiva resultat av behandlingen såsom högre självtillit och ökad föräldrakompetens, men enstaka kvinnor upplevde inte någon förbättring. | 8 256 |
Måttlig tillförlitlighet |
–1 för metodbrister |
9. Om vetenskapliga kunskapsluckor och behov av ytterligare forskning
Detta kapitel är avsett att ge vägledning för att skriva om vetenskapliga kunskapsluckor och behov av fortsatt forskning utifrån den systematiska översiktens frågeställning.
9.1 Viktigt att även lyfta var mer forskning behövs
Genom att granska och sammanställa forskning i en systematisk översikt går det att identifiera vilka insatser som har ett vetenskapligt stöd och var det finns oklarheter, det vill säga vetenskapliga kunskapsluckor. Det gör att systematiska översikter bör vara en självklar utgångspunkt vid prioritering och uppstart av nya forskningsprojekt.
I en välgjord systematisk översikten presenteras resultat för alla delar av ett förutbestämt PICO, PIRO eller annat frågeformat på ett transparent sätt, oavsett hur många relevanta studier som identifierats. Översikten kan peka ut vetenskapliga kunskapsluckor där det antingen helt saknas studier för frågan eller där de studier som finns är för få, för små, har hög risk för bias eller visar motstridiga resultat. Då behövs mer praktiknära forskning för att ta fram kunskap om för- och nackdelar med åtgärden eller metoden. Det är därför viktigt att publicera systematiska översikter även när de inte identifierar några primärstudier inom området. De visar på behov av ytterligare forskning.
9.2 De viktigaste kunskapsluckorna
De kunskapsluckor där det finns ett klart behov av vidare forskning bör anges i översikten. Fler studier ska kunna leda till att det blir tydligt vilka insatser som ger en tillräckligt bra effekt för att göra en relevant skillnad för patienter, personer och klienter, deras närstående och personal.
9.3 Vad som behövs i kommande forskning för att stärka det vetenskapliga underlaget
För att öka sannolikheten att framtida forskning kommer att stärka det vetenskapliga underlaget är det bra att beskriva hur de identifierade bristerna i översikten skulle kunna överbryggas, det vill säga hantering av orsaken till att tillförlitligheten inte är tillräckligt hög hos det slutliga resultatet. Det kan till exempel gälla vad som skulle behövas för att minska risken för bias och ge tillförlitliga resultat eller vilken studiedesign som skulle vara lämplig för att besvara frågan. Det kan också gälla viktiga utfall som saknas i de befintliga studierna, till exempel utifrån prioriterade utfall (eng. core outcome set). Om det är ett helt område som behöver en större satsning eller samordning för att komma till rätta med kunskapsluckorna bör detta tas upp i rapporten. I faktaruta 9.1 finns mer information om vetenskapliga kunskapsluckor och om SBU:s databas.
10. Tillämpning av redan publicerade systematiska översikter
Under de senaste 20 åren har antalet publicerade systematiska översikter och metaanalyser ökat kraftigt. Att återanvända publicerade systematiska översikter kan vara ett kostnadseffektivt arbetssätt som ökar hälso- och sjukvårdens tillgång till evidensbaserad kunskap; detta gäller också andra områden som socialtjänst, funktionshinder och arbetsmiljö. Systematiska översikter från andra aktörer kan användas antingen helt eller delvis (Figur 10.1).
10.1 Möjliga användningsområden för systematiska översikter
Förutsättningen för att man ska kunna använda delar av en redan publicerad systematisk översikt är att den ryms inom ditt projekts urvalskriterier. I ett första steg bedöms graden av användbarhetmed hjälp av formuläret SNABBSTAR , som bygger på frågorna i granskningsmallen AMSTAR [143] [144]. SNABBSTAR är uppbyggd så att den systematiska översikten granskas utifrån sex delsteg. Dessa delsteg är:
- Frågeställning och litteratursökning
- Relevansbedömning
- Risk för bias bedömning och datapresentation av de inkluderade studierna
- Sammanvägning och analys
- Evidensgradering och slutsatser
- Transparant dokumentering.
Syftet är att med minsta möjliga arbetsinsats avgöra vilka systematiska översikter som inte kan användas alls, vilka som kan vara grund för fortsatt arbete och vilka som redan är helt användbara. De översikter som bedöms som helt användbara bör granskas ytterligare med hjälp av ROBIS (Avsnitt 10.2) innan man inkluderar resultat från dem i sin översikt. Om man däremot enbart vill använda sig av sökstrategin eller inkluderade studier från en befintlig systematisk översikt behövs ingen ytterligare granskning. Man kan även använda sig av resultaten i en översikt men göra en ny bedömning av tillförlitligheten med hjälp av GRADE. I Faktaruta 10.1 finns exempel på SBU-rapporter som delvis bygger på andra systematiska översikter.
10.2 Bedömning av risk för bias för systematiska översikter med ROBIS-mallen
ROBIS-mallen är utvecklad för att bedöma av systematiska översikters risk för bias och kan integreras i GRADE (Kapitel 9). ROBIS har utvecklats av Cochrane Collaboration. Originalformuläret på engelska med en detaljerad manual finns här. Den som inte har tidigare erfarenhet av att bedöma systematiska översikter med ROBIS rekommenderas att läsa igenom manualen. SBU har översatt formuläret till svenska och till skillnad från Cochranes original-mall har den svenska översättning en tilläggsfråga (en domän) för att bedöma intressekonflikter. För skillnader och val mellan AMSTAR och ROBIS, se Faktaruta 10.2.
10.2.1 Struktur på ROBIS
Detta avsnitt beskriver översiktligt de olika riskområdena i ROBIS-mallen. Mer detaljerad information finns i SBU:s steg-för-steg-instruktioner och i den tillhörande manualen.
ROBIS är uppbyggd på samma sätt som mallarna för primärstudier, med metodologiska domäner och stödfrågor. Bedömningen görs i tre steg:
- relevansbedöm översikten, granska den sedan med hjälp av ROBIS
- identifiera eventuella brister i översiktens metodologiska arbetsprocess utifrån fyra domäner: kriterier för val av studier (PICO, SPICE eller motsvarande), identifiering och val av studier, datainsamling och bedömning av studierna och de inkluderade utfallens risk för bias samt analys och slutsatser
- bedöm den sammantagna risken för bias som låg, hög eller oklar med stöd av fyra frågor.
10.2.2 Domän 1: Kan urvalskriterierna leda till risk för bias?
Författarna bör ha specificerat sin frågeställning och sina kriterier för vad de ska inkludera redan innan de påbörjar arbetet med litteratursökningen. För att kunna bedöma om de har gjort avsteg från sin frågeställning eller kriterierna för inkludering behövs tillgång till översiktens protokoll, alternativt studieplanen eller forskningsplanen. Protokollen kan exempelvis finnas registrerade i databasen PROSPERO. Författare publicerar också ibland protokollet som en vetenskaplig artikel.
10.2.3 Domän 2: Leder brister i litteratursökning och relevansbedömning till att relevanta studier saknas?
En bristande sökstrategi kan leda till att relevanta studier inte kommer med i litteratursökningen och att översiktens resultat blir otillförlitligt. Om sökstrategin bedöms bristfällig bedöms denna domän som hög risk för bias. Det kan vara svårt att avgöra om en sökstrategi fångat den nödvändiga litteraturen. Ett tips kan då vara att ta hjälp av en informationsspecialist (en specialist på att söka vetenskaplig litteratur) för att bedöma om hur sökstrategin påverkat sökresultatet.
Ytterligare en aspekt som bedöms inom domän 2 är hur urvalet av studier genomförts. Har utförarna gjort oberoende abstrakt och relevansgranskning? Först därefter görs en slutlig bedömning för hela domänen.
10.2.4 Domän 3: Har den systematiska översiktens resultat snedvridits genom bedömning av studierna eller vid dataextraktion?
I den här domänen bedöms om översiktsförfattarna har hanterat data från de inkluderade studier på ett lämpligt sätt. Här bedöms också om dataextraktionen kontrollerades av flera personer oberoende av varandra och om all essentiell information om studien finns tillgänglig och redovisad.
10.2.5 Domän 4: Påverkas den systematiska översiktens resultat av brister i dess syntes och analys?
I den här domänen bedöms risk för bias vid syntes och analys samt om utfallet är pålitligt utifrån till exempel publikationsbias. Fundera på om de metoder författarna har använt för att väga samman studiernas resultat är lämpliga. Ett första övervägande är om de har gjort metaanalyser eller kvalitativa synteser och om det var lämpligt att göra sådana. Är studierna som ingår i metaanalysen tillräckligt homogena? Har författarna motiverat sitt val av metod för metaanalysen eller den kvalitativa syntesmetoden (se Kapitel 7 för närmare beskrivning av olika metoder).
10.3 Granskning av metodproblem i systematiska översikter av kvalitativ forskning
Det finns ytterst få mallar eller checklistor framtagna som stöd för att bedöma risk för att fynden har påverkats av metodproblem för systematiska översikter av studier med kvalitativ metodik. Många aspekter i bedömningen är samma som för kvantitativ forskning men några skiljer sig åt. SBU har tagit fram två granskningsmallar (en kort och en mer utförlig) som bygger på ROBIS och ENTREQ:s riktlinjer för att genomföra och rapportera kvalitativa översikter [6].
10.4 Publicerade och befintliga systematiska översikter som huvuddel till en ny systematisk översikt
En redan publicerad systematisk översikt kan utgöra ett underlag en ny systematisk översikt. Den systematiska översikten behöver först risk för bias-bedömas med stöd av ROBIS eller granskningsmallen för kvalitativa översikter. För att kunna godta översiktens resultat bör den systematiska översikten ha bedömts ha låg risk för bias. Exempelvis bör författarna ha genomfört en uttömmande litteratursökning och redovisat den på ett transparent sätt. Även systematiska översikter som bedömts ha måttlig risk för bias kan ibland utgöra underlag till en ny systematisk översikt om till exempel bristen ligger i att författarna inte har bedömt risken för bias för enskilda studier. Då får man bedöma risken för bias i de studier som inkluderats och därefter göra en ny tillförlitlighetsbedömning.
Om den systematiska översikten redan används som underlag i en ny systematisk översikt är det också möjligt att göra en ny bedömning av tillförlitligheten hos utfallet med hjälp av GRADE. Översiktsförfattarnas bedömning kan nämligen ändras.
10.4.1 Flera systematiska översikter som bedömts ha låg risk för bias finns publicerade
Ibland kan det publiceras flera systematiska översikter för samma frågeställning och tidsperiod och samtliga kan ha bedömts ha låg risk för bias. Dock kan de rapporterade resultaten skilja sig åt. Ett första viktigt steg i att granska dem är att noggrant gå igenom deras PICO, SPICE eller liknande frågeformat samt deras övriga urvalskriterier. Det kan förekomma skillnader genom att urvalskriterierna inte är exakt lika. Exempelvis kanske en systematisk översikt enbart inkluderar studier där populationen fått sin diagnos satt enligt specifika kriterier, medan en annan inte har samma avgränsning. Andra saker som ofta kan skilja är att primärstudier med olika språk har inkluderats, att studier som inte genomgått en peer review inkluderats i vissa översikter eller att vissa författare i vissa översikter har exkluderat studier som har få deltagare, till exempel färre än tio personer i varje undersökningsgrupp.
Det finns vägledande principer som Agency for Healthcare Research and Quality (AHRQ) i USA tagit fram [151] [152]. De kan sammanfattas som att den bästa översikten, det vill säga den mest relevanta med minst risk för systematisk bias, som är publicerad senast är den översikt som ska användas. Ett alternativt sätt att välja, enligt AHRQ, är att enligt förbestämda kriterier för aktualitet redovisa de översikter som bedöms vara relevanta och har låg risk för bias. Den metoden kräver dock att översikterna är samstämmiga. Om de visar motsägande resultat kan det vara en tydlig signal om att det behövs en ny oberoende systematisk översikt. Det finns mycket att vinna på att utgå från samtliga primärstudier som ingår i de identifierade systematiska översikterna och utifrån det göra om analysen och tillförlitlighetsbedömningen.
11. Ekonomiska aspekter
Detta kapitel är avsett att ge en inblick i ekonomiska utvärderingar inom hälso- och sjukvården, socialtjänst och funktionshinderområdet. Kapitlet inleds med en överblick över grundläggande metoder och centrala begrepp. Sedan diskuteras tolkningen av resultaten från hälsoekonomiska utvärderingar. Slutligen presenteras kortfattat SBU:s arbetssätt med hälsoekonomiska utvärderingar inom hälso- och sjukvård, socialtjänst och funktionshinderområdet.
11.1 Inledning
I Sverige finansieras hälso- och sjukvård och socialtjänst främst med offentliga medel. Eftersom samhällets resurser är begränsade finns det ett glapp mellan vad samhället kan erbjuda och vad som efterfrågas. När efterfrågan på insatser överstiger vad samhället kan erbjuda måste man därför prioritera.
Ekonomiska utvärderingar syftar till att underlätta den prioriteringen genom att på ett strukturerat och systematiskt vis jämföra olika insatsers kostnader och effekter. De blir på så sätt ett stöd för beslutsfattare att bedöma om en kostnad är rimlig i förhållande till den effekt som en insats ger. Genom att länka samman data och evidens från olika källor med syfte att belysa konsekvenserna av ett beslut ur flera perspektiv utgör ekonomiska utvärderingar viktiga faktaunderlag för beslutsfattande.
Det finns vedertagna metoder för att göra ekonomiska utvärderingar av insatser inom hälso- och sjukvården. Inom området för exempelvis socialtjänst och funktionshinder finns inte samma tradition av att göra ekonomiska utvärderingar. Det finns därför vissa olikheter i hur man utvärderar dem ekonomiskt som till exempel beror på hur insatserna ser ut och vilket sammanhang de implementeras i. De grundläggande metoderna för hur analyserna ska struktureras skiljer sig dock inte nämnvärt mellan områdena.
I detta kapitel använder vi genomgående begreppet hälsoekonomi när vi talar om ekonomiska utvärderingar inom hälso- och sjukvården, socialtjänsten samt funktionshinderområdet. I de fall där det finns en tydlig skillnad mellan hur den ekonomiska utvärderingen ska genomföras inom hälso- och sjukvård och socialtjänsten kommer detta att behandlas separat.
11.2 Hälsoekonomiska utvärderingar inom hälso- och sjukvård och socialtjänst
En hälsoekonomisk utvärdering utgår alltid från ett beslutsproblem. Det kan till exempel handla om att det finns en ny insats tillgänglig; beslutsproblemet blir då om man ska införa den nya insatsen i stället för att fortsätta med den insats som ges idag. Det finns olika metoder för att göra en hälsoekonomisk utvärdering. De vanligaste presenteras i Tabell 11.1. I samtliga analysmetoder jämförs två eller flera alternativa insatser, både vad de kostar och vilka effekter de har i syfte att analysera kostnadseffektiviteten [153]. Det som skiljer analysmetoderna åt är hur effekterna uttrycks.
Kostnadsintäktsanalyser (eng. cost benefit analysis, CBA) har traditionellt använts för att bedöma hur lönsamma olika investeringar är. I en kostnadsintäktsanalys uttrycks fördelar och nackdelar av en investering i pengar för att på så vis undersöka om vinsterna med att genomföra investeringen överstiger kostnaderna. Vid ekonomiska utvärderingar av insatser inom hälso- och sjukvården och socialtjänsten är det däremot problematiskt att uttrycka effekter på liv, hälsa och välfärd i pengar. I en hälsoekonomisk utvärdering ställs därför kostnader i relation till effekter som exempelvis sänkt blodtryck, antal undvikna amputationer, minskat antal återfall eller antal vunna levnadsår.
ᵃ QALY, efter engelskans Quality-Adjusted Life Year ᵇ ICER, efter engelskans Incremental Cost-Effectiveness Ratio |
||
Typ av utvärdering | Effektmått | Hur analysens resultat presenteras |
---|---|---|
Kostnadsintäktsanalys (Cost Benefit Analysis, CBA) | Uttryckt i monetära termer | Nettokostnad |
Kostnadseffektanalys (Cost-Effectiveness Analysis, CEA) | Uttryckt i naturliga enheter, till exempel levnadsår, antal personer med lyckat resultat, genomsnittlig minskning i riskmarkör | Inkrementell kostnadseffektkvot (ICERᵇ) |
Kostnadsnyttoanalys (Cost-Utility Analysis, CUA) | Uttryckt i QALYsᵃ, mått som kombinerar överlevnad och livskvalitet | Inkrementell kostnadseffektkvot (ICERᵇ) |
Kostnadsminimeringsanalys (Cost-Minimisation Analysis, CMA) | Inget effektmått då effekterna förutsätts vara helt lika över tid | Endast kostnader |
De vanligaste analysmetoderna vid utvärderingar av insatser inom hälso- och sjukvården är kostnadseffektivitetsanalys (CEA) eller kostnadsnyttoanalys (CUA). Kostnadsnyttoanalysen är en form av kostnadseffektivitetsanalys men med skillnaden att kvalitetsjusterade levnadsår (QALY) alltid används som effektmått. Resultatet från en kostnadseffektivitetsanalys och en kostnadsnyttoanalys presenteras som en inkrementell kostnadseffektivitetskvot (ICER). Denna kvot är inkrementell eftersom den utgörs av skillnaden i kostnader och effekter mellan de två alternativen.
En ICER anger vad det kostar att uppnå ytterligare en effektenhet, till exempel ett extra levnadsår, när man väljer den ena metoden framför den andra. På det sättet tar analysen hänsyn till den så kallade alternativkostnaden, det vill säga värdet av det alternativ som väljs bort. I avsnitt 11.3 finns en fördjupning om hur resultat från en hälsoekonomisk utvärdering ska tolkas.
Metoderna ovan är jämförande analyser, det vill säga en insats, A, jämförs med en annan insats, B. Valet av metod beror på frågeställningen, men även av tillgången på relevanta data. Om utvärderingen ska användas för att välja mellan två insatser där både positiva och negativa effekter är desamma över tid, är det naturligt att nöja sig med en kostnadsminimeringsanalys (CMA). Om beslutsfattaren behöver mer information finns det också andra typer av hälsoekonomiska analyser, till exempel budgetpåverkansanalyser och cost of illness-studier (COI). I en budgetpåverkananalys (eng. budget impact analysis) beskrivs hur en eller flera budgetar påverkas om man inför en insats och vilka konsekvenser som kan förväntas. Mer vägledning om budgetpåverkansanalyser finns bl a här [154]). I cost of illness-studier (COI) beskriver man istället övergripande en sjukdomsbörda eller sociala problem genom att beräkna vilka samlade kostnader de innebär för samhället [155] [156]. Däremot utvärderar varken budgetpåverkansanalyser eller cost of illnes-studier relationen mellan insatsers kostnader och deras effekter. Därmed kan man inte göra den typen av prioriteringar utifrån kostnadseffektivitet [157] [158].
11.2.1 Val av perspektiv
Vilka kostnader och effekter som ska inkluderas i analysen beror på vilket perspektiv som används. Ett budgetperspektiv tar endast hänsyn till kostnader som faller inom budgeten för den huvudman som genomför insatsen. Ett budgetperspektiv för hälso- och sjukvården innefattar exempelvis kostnader för läkartid och operationsutrustning, medan ett budgetperspektiv inom socialtjänsten exempelvis innefattar kostnader för personlig assistans och färdtjänst. I Sverige brukar en analys som utgår från ett samhällsperspektiv förespråkas [159]. Det innebär att man försöker identifiera och inkludera alla kostnader och effekter i samhället som kan tänkas påverkas av insatsen, oavsett om de faller på region, kommun, stat eller den enskilde individen. Kostnader till följd av produktionsbortfall, som uppstår när en person inte kan arbeta på grund av till exempel sjukdom, eller kostnader för informell vård, det vill säga vården man får av närstående eller anhöriga, är båda exempel på aspekter som inkluderas i ett samhällsperspektiv.
11.2.2 Tidshorisont
Den valda tidshorisonten i en analys bör vara tillräckligt lång för att fånga alla de kostnader och effekter som insatserna ger upphov till. Om en insats väntas ge livslånga effekter på kostnader eller utfallsmått som livskvalitet bör ett livstidsperspektiv appliceras, medan en insats som inte har några bestående effekter tillåter en kortare tidshorisont.
När analyser sträcker sig över en längre tid behöver man ta hänsyn till att kostnader och effekter generellt värderas högre idag än de kommer att göra i framtiden [153]. Detta antagande innebär att en tidshorisont längre än ett år kräver att kostnader och effekter diskonteras för att spegla deras nutida värde; det innebär att kostnader eller effekter som infaller i framtiden värderas lägre än de som infaller här och nu. Tandvårds- och läkemedelsförmånsverket (TLV) rekommenderar en diskonteringsränta på tre procent för både kostnader och effekter [159].
11.2.3 Kostnader
1. Olika typer av kostnader
Kostnader relaterade till insatser som ges inom hälso- och sjukvården eller socialtjänsten kan delas in i direkta och indirekta kostnader [160]. Direkta kostnader är den resursförbrukning som uppstår som en direkt följd av en insats, som personal, lokal, utrustning och förbrukningsmaterial, men även kostnader för transport kopplat till insatsen. Indirekta kostnader består huvudsakligen av kostnader för produktionsbortfall, det vill säga kostnader kopplat till att man inte kan arbeta på grund av ohälsa eller en funktionsnedsättning.
I en hälsoekonomisk analys tar man hänsyn till både kostnader och kostnadsbesparingar. Kostnader uppstår när resurser förbrukas för att man genomför en insats. Kostnadsbesparingar uppstår när den resursförbrukningen minskar. Kostnaderna för en insats beräknas i tre steg [161]. Steg ett kallas identifiering, och där identifieras vilka kostnadsposter, både direkta och indirekta, som påverkas av de insatser som utvärderas. Steg två kallas kvantifiering, och där undersöks hur mycket respektive kostnadspost påverkas av insatsen. Den informationen kan till exempel hämtas från studier som undersöker resursåtgången för insatser eller genom att be experter göra antaganden om resursåtgången. I det tredje och sista steget, som är värdering, ska resursförbrukningen värderas, vilket innebär att ett monetärt värde appliceras per enhet av resursförbrukningen. Det kan till exempel handla om kostnaden per operation, kostnaden per dygn i slutenvård eller kostnaden per dygn i särskild bostad för äldre. Man kan ofta hämta underlag för att beräkna kostnader från svenska register eller statistikkällor. Läs mer om källor för att beräkna kostnader i Faktaruta 11.1.
I en ekonomisk analys är det den totala kostnaden för en insats som är av intresse, även om den faller på flera aktörer eller huvudmän. Det innebär exempelvis att eventuella avgifter som den enskilde betalar ska tas med i beräkningen men endast om de påverkar totalkostnaden. Om en enskild person betalar avgifter eller får bidrag som inte påverkar den totala samhällskostnaden klassas det istället som en transferering och tas därför inte med i beräkningen. Annars skulle det leda till dubbelräkning. Däremot kan det vara intressant ur ett fördelningspolitiskt perspektiv att analysera hur kostnaden fördelas på olika aktörer eller huvudmän för att tydliggöra var effekterna och kostnaderna uppstår.
2. Att beräkna värdet av produktion
När en individ inte kan arbeta på grund av sjukdom eller funktionsnedsättning uppstår kostnader för produktionsbortfall. Även sjuknärvaro, det vill säga att individen arbetar men har lägre produktivitet än tidigare till följd av sin sjukdom eller skada, räknas som produktionsbortfall.
Det finns två metoder för att skatta värdet av produktion: humankapitalmetoden och friktionskostnadsmetoden [153]. Med humankapitalmetoden görs värderingen av produktion vanligtvis under antagande att produktionen kan värderas till marknadspris, det vill säga lön plus arbetsgivaravgifter och sociala avgifter (så kallat lönekostnadspåslag). Med friktionskostnadsmetoden görs en värdering av hur mycket tid som går innan en tidigare arbetslös individ fullt ut kan ersätta en person och vad det skulle kosta, men också kostnaden för att kollegor kan täcka upp en viss andel [172] [173]. Humankapitalmetoden är vanligast medan friktionskostnadsmetoden är mer teoretiskt förankrad, eftersom den tar hänsyn till en naturlig arbetslöshet och att individer kan ersättas på arbetsmarknaden.
Produktionspåverkan inkluderas enbart i den ekonomiska analysen om den relevanta populationen är i arbetsför ålder. Detta har kritiserats eftersom ålderspensionärer ofta bidrar med informell produktion, vilket är sådana aktiviteter som inte är lönearbete men ändå är värdefulla för samhället [174] [175]. Att inkludera effekter på produktion i hälsoekonomiska analyser har också debatterats utifrån ett etiskt perspektiv [160] [175]. Om man tar med effekter på produktion har insatser som riktas till personer i arbetsför ålder, allt annat lika, möjlighet att visa sig vara mer kostnadseffektiva. Det har argumenterats att detta skulle kunna få fördelningsmässiga konsekvenser där insatser riktade till yngre arbetsföra grupper prioriteras framför insatser riktade till äldre icke arbetsföra grupper. Det skulle strida mot människovärdesprincipen som säger att prioriteringar inte får styras av kronologisk ålder [176] [177]. Det har därför rekommenderats att resultatet från hälsoekonomiska analyser ska presenteras så att det går att urskilja vilka kostnader som uppstått till följd av produktionspåverkan och hur det inverkar på resultatet [153] [176]. Detta förhållningssätt rekommenderas även av SBU.
11.2.4 Relevanta utfallsmått inom hälsoekonomiska utvärderingar
Utfallsmåttet i hälsoekonomiska utvärderingar ska reflektera målet med verksamheten som genomförs inom hälso- och sjukvården eller socialtjänsten, det vill säga att skapa hälsa och välfärd hos befolkningen. Vid en jämförelse av olika insatser kan man därigenom se vilken insats som bäst främjar målet givet våra tillgängliga resurser. I kliniska prövningar och insatsstudier använder man ofta intermediära, tillståndsspecifika effektmått, som blodtryck, minskning på en depressionsskala eller minskat antal återfall. Även om dessa mått går att ställa i relation till kostnader så är kopplingen mellan dem och exempelvis hälsa och välfärd inte given. Dessutom är resultatet svårtolkat när det jämförs med andra insatser som använder andra intermediära utfallsmått.
För att kunna jämföra kostnadseffektiviteten av olika insatser som syftar till att främja hälsa rekommenderas ofta att man ska använda kvalitetsjusterade levnadsår (eng. quality adjusted life-years) eller QALY som effektmått [159] [178] [179]. QALY är ett mått på hälsa som väger samman livslängd och hälsorelaterad livskvalitet och kan appliceras inom olika områden eftersom det inte är ett sjukdoms- eller tillståndsspecifikt mått. Hur man beräknar en QALY beskrivs i Faktaruta 11.3.
Att använda QALYs kan emellertid vara problematiskt om det saknas tillräckligt säkra och generellt giltiga livskvalitetsvikter, så kallade QALY-vikter. QALY-vikter kan skattas med både direkta och indirekta metoder. Läs mer om dem i Faktaruta 11.4.
Sjukdom, ohälsa, funktionsnedsättning och sociala problem kan beskrivas och mätas med olika instrument och utifrån olika perspektiv. Inom socialtjänstområdet råder ännu inte konsensus om vilken typ av utfallsmått som ska användas vid ekonomiska utvärderingar. Vid utvärdering av insatser som sträcker sig över flera sektorer kan det dessutom vara nödvändigt att använda ett utfallsmått som inte enbart fokuserar på hälsorelaterad livskvalitet. Det pågår därför arbeten inom flera forskargrupper för att utveckla mått med en bredare ansats än hälsorelaterad livskvalitet. Några forskargrupper har tagit avstamp från Sens kapabilitetsteori (capability approach) [192] [193] [194] och utvecklat mått för att bedöma en persons förmåga. Ett exempel på detta är ICEpop CAPability measure (ICECAP) [195] [196] [197]. Ett annat exempel är capability adjusted life-years (CALY) [198] [199] som utvecklas utifrån ett svenskt sammanhang [200]. För att möjliggöra en översättning till QALYs har vissa forskargrupper fokuserat på mer generiska mått för både hälsa och välmående, exempelvis EQ-HWB [201].
11.2.5 Modellanalyser
Det finns generellt två typer av hälsoekonomiska studier: empiriska och modellbaserade. I en empirisk hälsoekonomisk studie samlas data över kostnader och livskvalitet som del av en klinisk prövning, vilket innebär att data kring resursförbrukning och utfall kommer från en enda källa. Denna typ av studier har kritiserats bland annat för att de inte alltid inkluderar alla relevanta jämförelsealternativ, för att tidshorisonten är begränsad till uppföljningstiden i den kliniska prövningen eller empiriska studien och för att all evidens som är relevant för beslutsproblemet inte inkluderas [202].
En modellbaserad hälsoekonomisk studie syftar till att belysa ett beslutsproblem utifrån bästa tillgängliga information. I modellanalyser används data från insatsstudier tillsammans med uppgifter från andra källor, exempelvis register, epidemiologiska studier och prislistor. Modellanalyser är till exempel aktuella när det saknas relevanta empiriska studier, eller när de inte inkluderar data på kostnader och QALY. Modeller tillåter extrapolering av intermediära utfallsmått, exempelvis från blodtryck till hjärtinfarkt, och resultaten kan då anpassas till ett givet sammanhang, till exempel behandlingsmönster eller förväntad population i klinisk eller praktisk verksamhet [153] [203]. En fördel med modellstudier är också att de gör det lättare att utvärdera olika typer av osäkerhet. Det finns både bra och dåliga exempel på såväl empiriska hälsoekonomiska analyser som modellanalyser och det är viktigt att noggrant granska de antaganden och källor som analyserna baseras på.
De vanligaste metoderna vid modellanalyser inom hälsoekonomin är så kallade beslutsträd och Markovmodeller [203]. Principerna för dessa två metoder är i stort sett lika, men ett beslutsträd visar en sekvens av händelser under en bestämd tidsperiod vilket Markovmodellen inte gör. Det har även blivit vanligt att använda sig av händelsestyrda modeller (eng. discrete event simulation, DES) [204]. För smittsamma sjukdomar är dynamiska modeller (eng. dynamic transmission models) oftast mest lämpade [205]. Läs mer om olika modeller i Faktaruta 11.5.
11.2.6 Osäkerhet i hälsoekonomiska utvärderingar
Resultatet från en hälsoekonomisk utvärdering är alltid förknippat med en viss osäkerhet, till exempel på grund av att man har behövt göra olika antaganden och utgå från de datakällor som finns. Baserat på vad som orsakar osäkerheten brukar man prata om parameterosäkerhet och strukturell osäkerhet. Parameterosäkerhet är när man inte känner till det sanna värdet av en parameter som har inkluderat i en hälsoekonomisk modell. Strukturell osäkerhet handlar om en mer övergripande osäkerhet och om vilka antagande modellen vilar på, exempelvis val av modellstruktur, kostnader, effekter eller tidsperspektiv [207]. För att beskriva osäkerheten i resultatet från hälsoekonomiska utvärderingar är det viktigt att göra känslighets- och scenarioanalyser [160]. Det innebär att man varierar en eller flera variabler eller antaganden i analysen för att undersöka vad som händer med analysens resultat då [207] [208].
För att undersöka parameterosäkerhet finns till exempel envägs-, flervägs-, och probabilistiska känslighetsanalyser. I en envägsanalys varieras en parameter åt gången för att se hur resultatet påverkas. I en flervägsanalys varieras två eller flera parametrar samtidigt. I hälsoekonomiska modeller brukar probabilistisk känslighetsanalys (eng. probabilistic sensitivity analysis, PSA) tillämpas [203], vilket innebär att den statistiska osäkerheten kring modellens variabler analyseras [209]. Vid empiriska studier kan den statistiska osäkerheten undersökas med hjälp av bootstrapping-metoden. Läs mer om PSA och bootstrapping i Faktaruta 11.6.
Den strukturella osäkerheten är minst lika viktig som parameterosäkerheten, men den är ofta svårare att analysera på ett uttömmande vis. En möjlighet är att använda scenarioanalyser, där man jämför flera olika scenarier som har andra antaganden eller förutsättningar än vad grundscenariot har [210] [211].
Osäkerheten i parametrarna ska inte förväxlas med osäkerhet i själva beslutet att till exempel införa eller inte införa en insats. Även om en känslighetsanalys visar att kostnadseffektiviteten har låg precision och därmed stor spridning över kostnadseffektivitetsplanet, behöver inte det innebära att det finns stor osäkerhet kring beslutet, till exempel för att alla skattningarna visar att insatsen har högre kostnad och lägre effekt än jämförelsealternativet.
11.3 Tolkning av resultat från hälsoekonomiska utvärderingar
Resultatet av en hälsoekonomisk utvärdering kan beskrivas i ett så kallat kostnadseffektivitetsplan, där värdet för den inkrementella kostnadseffektivitetskvoten (ICERn) placeras i en figur med fyra kvadranter (Figur 11.4).
I kvadrant II har den nya insatsen lägre kostnad och bättre effekt än den jämförda insatsen. Den nya insatsen kallas då ”dominant” och valet mellan insatserna är enkelt ur en hälsoekonomisk synpunkt. I kvadrant IV har den nya insatsen sämre effekt och högre kostnad. Här dominerar alltså den gamla insatsen.
I allmänhet fokuserar man främst på ICERs som hamnar i kvadrant I och III. I dessa återfinns resultatet när den nya insatsen har större effekt till en högre kostnad eller sämre effekt till en lägre kostnad, jämfört med alternativet. Om man vet hur stor den maximala betalningsviljan är för en effektenhet kan man rita in en gräns för vad som är kostnadseffektivt, ett så kallat tröskelvärde. Linjen som motsvarar tröskelvärdet går då igenom kvadranterna I och III och alla insatser som har en ICER som hamnar till höger om linjen uppfattas som kostnadseffektiva.
Men det är inte bara den skattade kostnadseffektiviteten som avgör om insatsen anses vara kostnadseffektiv, vilket i praktiken innebär att olika aspekter påverkar betalningsviljan för en QALY. I Sverige ska prioriteringar inom offentligt finansierad hälso- och sjukvård göras utifrån den etiska plattformen [212], som omfattar människovärdesprincipen, behovs- och solidaritetsprincipen samt kostnadseffektivitetsprincipen. Enligt kostnadseffektivitetsprincipen ska det råda en rimlig relation mellan kostnader och effekter [212]. Det finns alltså inte ett specifikt tröskelvärde att jämföra ICERn med som avgör om insatsen är kostnadseffektiv. Normativa aspekter som exempelvis svårighetsgrad, sällsynthet eller att insatsen berör en särskilt utsatt population kan också påverka betalningsviljan. Tolkningen av en ICER måste därför alltid göras utifrån sitt sammanhang.
11.3.1 Tolkning av tröskelvärden för kostnadseffektivitet
Kostnadseffektivitet är alltså ett relativt begrepp. Resultatet från en hälsoekonomisk utvärdering ska därför inte ses som en beslutsregel utan som beslutsunderlag [213] . En metod bedöms som kostnadseffektiv om dess ICER är lägre än betalningsviljan för en enhet av utfallsmåttet, till exempel en QALY. Gränsen för betalningsviljan kallas för tröskelvärde. Hur mycket vi är villiga att betala för exempelvis en QALY beror på hur tröskelvärdet definieras.
För en beslutsfattare kan det dock vara till hjälp att få en uppfattning om vad som kan anses vara en rimlig kostnad för en QALY. I dagsläget förekommer ofta fyra alternativa metoder för att sätta ett tröskelvärde i ett svenskt sammanhang:
- konsumtionsvärdet av en QALY
- marginalproduktiviteten inom hälso- och sjukvården
- TLV:s beslut
- kategorisering av kostnadseffektivitet i Socialstyrelsens riktlinjearbete.
1. Konsumtionsvärdet av en QALY
En metod för att skatta tröskelvärdet för kostnadseffektivitet är att studera hur mycket individer är villiga att betala för en QALY. Det kan då benämnas konsumtionsvärdet eller betalningsviljan för en QALY [214]. Flera empiriska skattningar har gjorts av betalningsviljan för en QALY. Resultaten från dem varierar mycket vilket kan förklaras av att de har använt olika metoder för att skatta det. I en svensk studie från år 2018 har betalningsviljan uppskattats till 2,4 miljoner kronor för en QALY [215], men att den kan variera mellan 1,5 och 5,3 miljoner kronor beroende på hur allvarligt tillståndet är [216].
2. Marginalproduktiviteten inom hälso- och sjukvården
Marginalproduktiviteten inom hälso- och sjukvården motsvarar vad det kostar att producera ytterligare en QALY inom svensk hälso- och sjukvård. Grundidén med denna typ av ansats bygger på att antalet QALYs ska maximeras givet en fast hälso- och sjukvårdsbudget. Då skulle betalningsviljan för en QALY motsvara alternativkostnaden. Det innebär att om en insats med högre ICER än hälso- och sjukvårdens marginalproduktivitet implementeras, skulle den nya insatsen tränga undan andra aktiviteter som genererade högre effekt. Vi skulle då få ut mindre hälsa än vi får när resurserna är fördelade som de redan är med de insatser vi har idag. Den svenska hälso- och sjukvårdens marginalproduktivitet har i en avhandling från år 2022 uppskattats ligga mellan 180 000 kronor och 420 000 kronor [217]. Detta antagande utgår från att hälso- och sjukvårdens primära syfte är att maximera hälsa. Det gör det svårt att bedöma tröskelvärdet om även andra samhällssektorer inkluderas i beslutet om deras primära syfte kanske inte är att maximera hälsa.
3. Tröskelvärde härlett från TLV:s subventionsbeslut
TLV:s subventionsbeslut kan också användas för att skatta tröskelvärdet för vad som kan anses kostnadseffektivt inom Sverige. Det indirekta tröskelvärdet i den baseras då på kostnadseffektiviteten för de läkemedel som TLV anser är tillräckligt kostnadseffektiva för att de ska subventioneras med statliga medel. En studie visade att den genomsnittliga ICERn uppgick till cirka 350 000 kronor per QALY mellan år 2005 och 2011 [218]. Kvoterna varierade från att vara negativa, alltså både kostnadsbesparande och ge bättre effekt, till 1,2 miljoner kronor per QALY [218]. Att även andra aspekter vägs ihop med kostnadseffektiviteten reflekteras också i TLV:s beslut där en högre kostnad per QALY i vissa fall accepteras för läkemedel som behandlar svåra tillstånd.
4. Kategorisering av kostnadseffektivitet i Socialstyrelsens riktlinjearbete
I Socialstyrelsens arbete med nationella riktlinjer har de valt att kategorisera den inkrementella kostnadseffektkvoten (ICERn) som låg (<100 000 kr), måttlig (100 000–499 999 kr), hög (500 000–1 000 000 kr) eller mycket hög (>1 000 000 kr) [219]. På detta sätt visar de att tröskelvärdet är flytande och att det inte finns ett enskilt tröskelvärde som kan appliceras i alla beslut. I Faktaruta 11.7 finns mer information om SBU:s arbete med hälsoekonomiska utvärderingar inom hälso- och sjukvård och socialtjänst.
12. Etiska aspekter
12.1 En del av beslutsunderlaget
I detta kapitel redogör vi för hur etiska aspekter kommer in i HTA och liknande rapporter, med fokus på SBU:s arbetssätt. Etiska aspekter på terapeutiska, stödjande eller diagnostiska insatser kan stå för en viktig del i beslutfattares underlag när de ska fatta beslut om att en metod ska införas, fortsätta användas eller utmönstras inom hälso- och sjukvården, socialtjänsten eller funktionshinderområdet. Till viss del är betydelsen av etiska bedömningar begränsade av tvingande lagar kring olika verksamheter. Samtidigt kräver andra lagar inom hälso- och sjukvård att man gör etiska avvägningar vid införandet av vissa nya metoder, som ”kan ha betydelse för människovärde och integritet” (HSL 5 kap 3§). Eller så ger lagrummet stöd och ramverk för etiska värderingar (prop 1996/97:60, HSL 3 kap 1§ och 4 kap 1§).
12.1.1 Arbetet med etiska aspekter
Etiska aspekter är inte en självklar del av alla systematiska översikter. Men om de ska ingå finns det vägledningar för hur arbetet ska utföras. Projektgruppen bör diskutera detta tidigt under projektprocessen. I projektplanen bör det beskrivas både vilken omfattning och inriktning det etiska arbetet ska ha, och specificera om det finns behov av att göra en särskild litteratursökning efter studier kring etiska aspekter. Beroende på frågeställning kan det ibland räcka med en kortare diskussion av etiska aspekter, medan det i andra fall behövs en mer omfattande etisk analys. För att identifiera viktiga etiska frågeställningar, intressentkonflikter och olika problemområden kan det vara värdefullt att tidigt i projektarbetet involvera företrädare för patient- och brukarorganisationer, anhörigorganisationer och berörda professioner. Projektgruppen bör också tidigt i processen överväga om det behövs en etikexpert, en mer omfattande etisk diskussion eller analys. I vissa fall kan ett samarbete med Statens medicinsk-etiska råd (Smer) bli aktuellt. Formerna för detta samarbete bör tydliggöras innan arbetet startar. Slå till exempel fast vem som äger den slutliga utformningen av analysen och hur analysen ska presenteras i relation till huvudrapporten.
Processen för att arbeta med etiska aspekter beskrivs närmare i de etiska vägledningar som SBU tagit fram. Läs mer om dessa nedan.
12.1.2 Identifiering av etiska aspekter
För att underlätta arbetet med att identifiera och beskriva etiska aspekter på utvärderade insatser har SBU utarbetat vägledningar för att identifiera etiska aspekter vid utvärdering av insatser inom hälso- och sjukvården respektive socialtjänsten och funktionshinderområdet. De är tänkta att användas som stöd och för att undvika att viktiga etiska aspekter glöms bort. De innehåller ett antal frågor som kan ställas i den aktuella utvärderingen men endast de aspekter som är aktuella för översikten bör tas upp och beskrivas i rapportens etikkapitel. I vägledningarna understryks vikten av att en initial diskussion hålls inom projektgruppen för att identifiera relevanta etiska aspekter innan frågelistorna ni gås igenom. Det är för att säkerställa att ni varken missar vägledningens eller projektgruppens intuitivt identifierade aspekter. Exempel på aspekter som lyfts i vägledningarna är hur åtgärden påverkar jämlikhet, rättvisa, autonomi, integritet och strukturella faktorer med etiska implikationer. Det är av största betydelse att också lyfta de etiska problem som kan uppstå på grund av den systematiska översiktens resultat.
12.1.3 Speciella förutsättningar för det sociala området
Socialtjänsten i Sverige arbetar under särskilda förutsättningar som kan ha etisk betydelse, som den tydliga lokala politiska styrningen och att socialtjänstens uppdrag ställer stora krav på lagtolkning. Socialtjänstlagen ger inte stöd att prioritera mellan olika gruppers behov, utan alla behov ska tillgodoses. Däremot kan socialtjänsten behöva prioritera mellan olika insatser och en viss målgrupp. Det kan påverka möjligheten att väga in sådant som hur stora behov en särskild individ har eller kostnadseffektivitet, vilka är centrala begrepp inom hälso- och sjukvårdens prioriteringar.
12.1.4 Identifiering av mål- och intressekonflikter
En viktig del i arbetet med att beskriva etiska aspekter är att identifiera de olika grupper som berörs i översikten, och vilka etiska konflikter eller motsättningar som kan finnas. Det kan exempelvis vara att patienter, enskilda individer, olika professioner, anhöriga eller andra patientgrupper drabbas av alternativa kostnader men också medborgarna om skattemedel inte används effektivt. SBU:s roll är i allmänhet inte att klargöra vilka intressen som har företräde, utan snarare att beskriva hur själva konflikten ser ut och vilka intressen som behöver balanseras. Den så kallade aktörsmodellen är ett sätt att strukturera arbetet. Den beskrivs närmare i Smer:s handbok. Där finns också mer information om andra etiska principer och begrepp som kan användas som stöd i arbetet.
12.2 Prioriteringsetik
I översiktens etikkapitel bör resultaten från den hälsoekonomiska utvärderingen också diskuteras. De bör diskuteras i relation till den etiska värdegrund eller plattform som gäller för prioriteringar av metoder i hälso- och sjukvård (se t ex fråga 8 i SBU:s dokument etiska aspekter på insatser inom hälso- och sjukvården).
12.3 Forskningsetiska frågor
Att etiskt kontroversiell forskning har använts när man tagit fram kunskap om den aktuella insatsen som utvärderas utgör som regel inte ett etiskt dilemma för beslutet om insatsen kan användas eller inte ute i verksamheten. Men om det saknas kunskap om insatsens effekt, säkerhet eller båda dessa är det viktigt att identifiera om det skulle innebära etiska dilemman eller forskningsetiska problem att ta fram sådan kunskap, och om det medför att forskningen kan vara svår att genomföra. Det är i sådana fall viktigt att tydliggöra etiska konsekvenser av olika alternativa sätt att hantera denna kunskapsbrist (se fråga 3 i SBU:s dokument etiska aspekter på insatser inom hälso- och sjukvården). Diskussionen om forskningsetiska frågeställningar bör grundas på etikprövningslagen och Helsingforsdeklarationen.
13. Sammanfattning och slutsatser
När arbetet med att sammanställa och bedöma tillförlitligheten av de sammanvägda resultaten är färdigt, återstår den sista delen av arbetet med den systematiska översikten. Slutsatser ska formuleras och hela rapporten ska sammanfattas på ett strukturerat sätt.
Det finns olika sätt att skriva slutsatser. Inspiration kan hämtas från redan publicerade SBU-rapporter och från internationella HTA-organisationer, till exempel Cochrane och Campbell Collaboration.
Sammanfattningen ska innehålla en självständig kondenserad version av översiktens syfte, metod och resultat, förutom slutsatserna. Olika HTA-organisationer har olika sätt att skriva sammanfattningar. Det kan finnas både en längre, mer teknisk, sammanfattning och en kortare plain language-sammanfattning. Den senare vänder sig till allmänhet och andra intressenter som inte är insatta i specifik metodologisk vokabulär.
14. Referenser
- Pollock M, Fernandes RM, Becker LA, Pieper D, Hartling L. Chapter V: Overviews of Reviews. In: Higgins JPT, Thomas J, Chandler J, Cumpston M, Li T, Page MJ, Welch VA (editors). Cochrane Handbook for Systematic Reviews of Interventions version 6.4 (updated August 2023). Cochrane, 2023. Available from: www.training.cochrane.org/handbook.
- Aromataris E, Munn Z. JBI Manual for Evidence Synthesis: JBI; 2020. [accessed April 24 2023]. Available from: https://synthesismanual.jbi.global.
- Evidence and gap maps (EGMs). Philadelphia, USA: Campbell Collaboration. [accessed April 24 2023]. Available from: https://www.campbellcollaboration.org/evidence-gap-maps.html.
- Socialstyrelsen. Att arbeta evidensbaserat. Ett stöd för praktiskt arbete. Stockholm: Socialstyrelsen; 2020. [accessed April 24 2023]. Available from: https://www.socialstyrelsen.se/globalassets/sharepoint-dokument/artikelkatalog/ovrigt/2020-10-6930.pdf.
- Moher D, Liberati A, Tetzlaff J, Altman DG. Preferred reporting items for systematic reviews and meta-analyses: the PRISMA statement. Bmj. 2009;339:b2535. Available from: https://doi.org/10.1136/bmj.b2535.
- Tong A, Flemming K, McInnes E, Oliver S, Craig J. Enhancing transparency in reporting the synthesis of qualitative research: ENTREQ. BMC Med Res Methodol. 2012;12(1):181. Available from: https://doi.org/10.1186/1471-2288-12-181.
- Boutron I, Page MJ, Higgins JPT, Altman DG, Lundh A, Hróbjartsson A. 7.6.2 Including risk-of-bias assessments in analyses. In: Higgins JPT, Thomas J, Chandler J, Cumpston M, Li T, Page MJ, et al., editors. Cochrane Handbook for Systematic Reviews of Interventions version 63 (updated February 2022): Cochrane; 2022. Available from: www.training.cochrane.org/handbook.
- Ramsay CR, Matowe L, Grilli R, Grimshaw JM, Thomas RE. Interrupted time series designs in health technology assessment: lessons from two systematic reviews of behavior change strategies. Int J Technol Assess Health Care. 2003;19(4):613-23. Available from: https://doi.org/10.1017/s0266462303000576.
- Penfold RB, Zhang F. Use of interrupted time series analysis in evaluating health care quality improvements. Acad Pediatr. 2013;13(6 Suppl):S38-44. Available from: https://doi.org/10.1016/j.acap.2013.08.002.
- Bernal JL, Cummins S, Gasparrini A. Interrupted time series regression for the evaluation of public health interventions: a tutorial. Int J Epidemiol. 2017;46(1):348-55. Available from: https://doi.org/10.1093/ije/dyw098.
- Anttila S, Persson J, Rosén M, Vareman N, Vitols S, Sahlin N-E. Ruling out risks in medical research. Journal of Risk Research. 2019;22(6):796-802. Available from: https://doi.org/10.1080/13669877.2019.1586750.
- Piaggio G, Elbourne DR, Pocock SJ, Evans SJ, Altman DG. Reporting of noninferiority and equivalence randomized trials: extension of the CONSORT 2010 statement. Jama. 2012;308(24):2594-604. Available from: https://doi.org/10.1001/jama.2012.87802.
- Jaikumar V. Cochrane UK. 2022. Available from: https://s4be.cochrane.org/blog/2022/03/18/understanding-non-inferiority-trials/.
- Williamson P, Clarke M. The COMET (Core Outcome Measures in Effectiveness Trials) Initiative: Its Role in Improving Cochrane Reviews. Cochrane Database Syst Rev. 2012(5):Ed000041. Available from: https://doi.org/10.1002/14651858.Ed000041.
- Ferreira-González I, Permanyer-Miralda G, Busse JW, Bryant DM, Montori VM, Alonso-Coello P, et al. Methodologic discussions for using and interpreting composite endpoints are limited, but still identify major concerns. J Clin Epidemiol. 2007;60(7):651-7; discussion 8-62. Available from: https://doi.org/10.1016/j.jclinepi.2006.10.020.
- Reitsma JB, Rutjes AW, Khan KS, Coomarasamy A, Bossuyt PM. A review of solutions for diagnostic accuracy studies with an imperfect or missing reference standard. J Clin Epidemiol. 2009;62(8):797-806. Available from: https://doi.org/10.1016/j.jclinepi.2009.02.005.
- Rutjes AW, Reitsma JB, Coomarasamy A, Khan KS, Bossuyt PM. Evaluation of diagnostic tests when there is no gold standard. A review of methods. Health Technol Assess. 2007;11(50):iii, ix-51. Available from: https://doi.org/10.3310/hta11500.
- Hanley JA, McNeil BJ. The meaning and use of the area under a receiver operating characteristic (ROC) curve. Radiology. 1982;143(1):29-36. Available from: https://doi.org/10.1148/radiology.143.1.7063747.
- Mandrekar JN. Receiver operating characteristic curve in diagnostic test assessment. J Thorac Oncol. 2010;5(9):1315-6. Available from: https://doi.org/10.1097/JTO.0b013e3181ec173d.
- Hemingway H, Croft P, Perel P, Hayden JA, Abrams K, Timmis A, et al. Prognosis research strategy (PROGRESS) 1: a framework for researching clinical outcomes. Bmj. 2013;346:e5595. Available from: https://doi.org/10.1136/bmj.e5595.
- Riley RD, Hayden JA, Steyerberg EW, Moons KG, Abrams K, Kyzas PA, et al. Prognosis Research Strategy (PROGRESS) 2: prognostic factor research. PLoS Med. 2013;10(2):e1001380. Available from: https://doi.org/10.1371/journal.pmed.1001380.
- Steyerberg EW, Moons KG, van der Windt DA, Hayden JA, Perel P, Schroter S, et al. Prognosis Research Strategy (PROGRESS) 3: prognostic model research. PLoS Med. 2013;10(2):e1001381. Available from: https://doi.org/10.1371/journal.pmed.1001381.
- Hingorani AD, Windt DA, Riley RD, Abrams K, Moons KG, Steyerberg EW, et al. Prognosis research strategy (PROGRESS) 4: stratified medicine research. Bmj. 2013;346:e5793. Available from: https://doi.org/10.1136/bmj.e5793.
- Booth A, Noyes J, Flemming K, Gerhardus A, Wahlster P, van der Wilt GJ, et al. Structured methodology review identified seven (RETREAT) criteria for selecting qualitative evidence synthesis approaches. J Clin Epidemiol. 2018;99:41-52.
- Craig P, Dieppe P, Macintyre S, Michie S, Nazareth I, Petticrew M. Developing and evaluating complex interventions: the new Medical Research Council guidance. Bmj. 2008;337:a1655. Available from: https://doi.org/10.1136/bmj.a1655.
- Noyes J, Booth A, Cargo M, Flemming K, Harden A, Harris J, et al. Chapter 21: Qualitative evidence. In: Higgins JPT, Thomas J, Chandler J, Cumpston M, Li T, Page MJ, et al., editors. Cochrane Handbook for Systematic Reviews of Interventions version 63 (updated February 2022): Cochrane; 2019. Available from: www.training.cochrane.org/handbook.
- Patton MQ. Qualitative Research & Evaluation Methods. 3 edition: Sage publications INC; 2002. 832 p.
- Noyes J, Hendry M, Booth A, Chandler J, Lewin S, Glenton C, et al. Current use was established and Cochrane guidance on selection of social theories for systematic reviews of complex interventions was developed. J Clin Epidemiol. 2016;75:78-92. Available from: https://doi.org/10.1016/j.jclinepi.2015.12.009.
- EUnetHTA. Process of information retrieval for systematic reviews and health technology assessments on clinical effectiveness: EUnetHTA (European Network for Health Technology Assessment); 2017. [accessed October 2019].
- Higgins JPT, Thomas J, Chandler J, Cumpston M, Li T, Page MJ, et al. Cochrane Handbook for Systematic Reviews of Interventions version 6.0 (updated July 2019). London: Cochrane; 2019. Available from: www.training.cochrane.org/handbook.
- Rutter D, Francis J, Coren E, Fisher M. SCIE systematic research reviews: guidelines (2nd edition). London: Social Care Institute for Excellence (SCIE); 2013.
- Kugley S, Wade A, Thomas J, Mahood Q, Jørgensen AMK, Hammerstrøm K, et al. Searching for studies: a guide to information retrieval for Campbell systematic reviews. Oslo: The Campbell Collaboration; 2017.
- Lefebvre C, Glanville J, Briscoe S, Littlewood A, Marshall C, Metzendorf MI, et al. Technical Supplement to Chapter 4: Searching for and selecting studies. In: Higgins JPT, Thomas J, Chandler J, Cumpston MS, Li T, Page MJ, et al., editors. Cochrane Handbook for Systematic Reviews of Interventions Version 6 Cochrane2019. Available from: www.training.cochrane.org/handbook.
- Atkinson KM, Koenka AC, Sanchez CE, Moshontz H, Cooper H. Reporting standards for literature searches and report inclusion criteria: making research syntheses more transparent and easy to replicate. Res Synth Methods. 2015;6(1):87-95. Available from: https://doi.org/10.1002/jrsm.1127.
- Cooper C, Booth A, Varley-Campbell J, Britten N, Garside R. Defining the process to literature searching in systematic reviews: a literature review of guidance and supporting studies. BMC Med Res Methodol. 2018;18(1):85. Available from: https://doi.org/10.1186/s12874-018-0545-3.
- Rethlefsen ML, Farrell AM, Osterhaus Trzasko LC, Brigham TJ. Librarian co-autors correlated with higher quality reported search strategies in general internal medicine systematic reviews. Journal of Clinical Epidemilogy. 2015:999-1000. Available from: https://doi.org/10.1016/j.clinepi.2014.11.025.
- Kelly MP, Noyes J, Kane RL, Chang C, Uhl S, Robinson KA, et al. AHRQ series on complex intervention systematic reviews-paper 2: defining complexity, formulating scope, and questions. J Clin Epidemiol. 2017;90:11-8. Available from: https://doi.org/10.1016/j.jclinepi.2017.06.012.
- Egger M, Zellweger-Zahner T, Schneider M, Junker C, Lengeler C, Antes G. Language bias in randomised controlled trials published in English and German. Lancet. 1997;350(9074):326-9. Available from: https://doi.org/10.1016/s0140-6736(97)02419-7.
- Morrison A, Polisena J, Husereau D, Moulton K, Clark M, Fiander M, et al. The effect of English-language restriction on systematic review-based meta-analyses: a systematic review of empirical studies. Int J Technol Assess Health Care. 2012;28(2):138-44. Available from: https://doi.org/10.1017/s0266462312000086.
- Hartling L, Featherstone R, Nuspl M, Shave K, Dryden DM, Vandermeer B. Grey literature in systematic reviews: a cross-sectional study of the contribution of non-English reports, unpublished studies and dissertations to the results of meta-analyses in child-relevant reviews. BMC Med Res Methodol. 2017;17(1):64. Available from: https://doi.org/10.1186/s12874-017-0347-z.
- Nussbaumer-Streit B, Klerings I, Dobrescu AI, Persad E, Stevens A, Garritty C, et al. Excluding non-English publications from evidence-syntheses did not change conclusions: a meta-epidemiological study. J Clin Epidemiol. 2019. Available from: https://doi.org/10.1016/j.jclinepi.2019.10.011.
- Harbour J, Fraser C, Lefebvre C, Glanville J, Beale S, Boachie C, et al. Reporting methodological search filter performance comparisons: a literature review. Health Info Libr J. 2014;31(3):176-94. Available from: https://doi.org/10.1111/hir.12070.
- Sampson M, Tetzlaff J, Urquhart C. Precision of healthcare systematic review searches in a cross-sectional sample. Res Synth Methods. 2011;2(2):119-25. Available from: https://doi.org/10.1002/jrsm.42.
- Booth A, Papaioannou D, Sutton A. Systematic approaches to a successful literature review. London: Sage; 2012.
- Lefebvre C, Glanville J, Briscoe S, Featherstone R, Littlewood A, Marshall C, et al. Chapter 4: Searching for and selecting studies. In: Higgins J, Thomas J, Chandler J, Cumpston M, Li T, Page M, et al., editors. Cochrane Handbook for Systematic Reviews of Interventions version 6.3 (updated February 2022): Cochrane; 2022. [accessed Oct 11 2023]. Available from: www.training.cochrane.org/handbook.
- Booth A, Noyes J, Flemming K, Gerhardus A, Wahlster P, van der Wilt GJ, et al. Guidance on choosing qualitative evidence synthesis methods for use in health technology assessments of complex interventions2016.
- Booth A. Searching for qualitative research for inclusion in systematic reviews: a structured methodological review. Syst Rev. 2016;5:74. Available from: https://doi.org/10.1186/s13643-016-0249-x.
- Papaioannou D, Sutton A, Carroll C, Booth A, Wong R. Literature searching for social science systematic reviews: consideration of a range of search techniques. Health Info Libr J. 2010;27(2):114-22. Available from: https://doi.org/10.1111/j.1471-1842.2009.00863.x.
- Frandsen TF, Gildberg FA, Tingleff EB. Searching for qualitative health research required several databases and alternative search strategies: a study of coverage in bibliographic databases. J Clin Epidemiol. 2019;114:118-24. Available from: https://doi.org/10.1016/j.jclinepi.2019.06.013.
- Horsley T, Dingwall O, Sampson M. Checking reference lists to find additional studies for systematic reviews. Cochrane Database Syst Rev. 2011(8):Mr000026. Available from: https://doi.org/10.1002/14651858.MR000026.pub2.
- Cooper C, Booth A, Britten N, Garside R. A comparison of results of empirical studies of supplementary search techniques and recommendations in review methodology handbooks: a methodological review. Syst Rev. 2017;6(1):234. Available from: https://doi.org/10.1186/s13643-017-0625-1.
- Cooper C, Lovell R, Husk K, Booth A, Garside R. Supplementary search methods were more effective and offered better value than bibliographic database searching: A case study from public health and environmental enhancement. Res Synth Methods. 2018;9(2):195-223. Available from: https://doi.org/10.1002/jrsm.1286.
- Higgins J, Thomas J, Chandler J, Cumpston M, Li T, Page M, et al. Cochrane Handbook for Systematic Reviews of Interventions version 6.4 (updated August 2023): Cochrane; 2023. [accessed Oct 11 2023]. Available from: www.training.cochrane.org/handbook.
- NICE. Developing NICE guidelines: the manual: process and methods. Last updated: 02 August 2023 National Institute for Health and Care Excellence; 2018. [accessed 11 Oct 2023]. Available from: https://www.nice.org.uk/process/pmg20/resources/developing-nice-guidelines-the-manual-pdf-72286708700869.
- Stevinson C, Lawlor DA. Searching multiple databases for systematic reviews: added value or diminishing returns? Complement Ther Med. 2004;12(4):228-32. Available from: https://doi.org/10.1016/j.ctim.2004.09.003.
- Bramer WM, Rethlefsen ML, Kleijnen J, Franco OH. Optimal database combinations for literature searches in systematic reviews: a prospective exploratory study. Syst Rev. 2017;6(1):245. Available from: https://doi.org/10.1186/s13643-017-0644-y.
- Mayo-Wilson E, Li T, Fusco N, Dickersin K. Practical guidance for using multiple data sources in systematic reviews and meta-analyses (with examples from the MUDS study). Res Synth Methods. 2018;9(1):2-12. Available from: https://doi.org/10.1002/jrsm.1277.
- Pitt C, Goodman C, Hanson K. Economic Evaluation in Global Perspective: A Bibliometric Analysis of the Recent Literature. Health Econ. 2016;25 Suppl 1:9-28. Available from: https://doi.org/10.1002/hec.3305.
- Arber M, Glanville J, Isojarvi J, Baragula E, Edwards M, Shaw A, et al. Which databases should be used to identify studies for systematic reviews of economic evaluations? . Int J Technol Assess Health Care. 2018;34(6):547-54. Available from: https://doi.org/10.1017/s0266462318000636.
- Glanville J, Paisley S. Searching for evidence for cost-effectiveness decisions. In: Shemilt I, Mugford M, Vale L, Marsh K, Donaldson C, editors. Evidence-based decisions and economics: health care, social welfare, education and criminal justice. 2 ed. Chichester: Wiley; 2010.
- Glanville J, Fleetwood K, Yellowlees A, Kaunelis D, Mensinkai S. Development and Testing of Search Filters to Identify Economic Evaluations in MEDLINE and EMBASE. Ottawa: Canadian Agency for Drugs and Technologies in Health (CADTH); 2009. 2019-11-20]]. Available from: https://www.cadth.ca/media/pdf/H0490_Search_Filters_for_Economic_Evaluations_mg_e.pdf.
- Glanville J, Kaunelis D, Mensinkai S. How well do search filters perform in identifying economic evaluations in MEDLINE and EMBASE. Int J Technol Assess Health Care. 2009;25(4):522-9. Available from: https://doi.org/10.1017/s0266462309990523.
- Hemminki E. Study of information submitted by drug companies to licensing authorities. Br Med J. 1980;280(6217):833-6. Available from: https://doi.org/10.1136/bmj.280.6217.833.
- Turner EH, Matthews AM, Linardatos E, Tell RA, Rosenthal R. Selective publication of antidepressant trials and its influence on apparent efficacy. New England Journal of Medicine. 2008;358(3):252-60.
- Eyding D, Lelgemann M, Grouven U, Harter M, Kromp M, Kaiser T, et al. Reboxetine for acute treatment of major depression: systematic review and meta-analysis of published and unpublished placebo and selective serotonin reuptake inhibitor controlled trials. Bmj. 2010;341:c4737. Available from: https://doi.org/10.1136/bmj.c4737.
- Song F, Parekh S, Hooper L, Loke YK, Ryder J, Sutton AJ, et al. Dissemination and publication of research findings: an updated review of related biases. Health Technol Assess. 2010;14(8):iii, ix-xi, 1-193. Available from: https://doi.org/10.3310/hta14080.
- Jefferson T, Jones MA, Doshi P, Del Mar CB, Hama R, Thompson MJ, et al. Neuraminidase inhibitors for preventing and treating influenza in healthy adults and children. Cochrane Database Syst Rev. 2014(4):Cd008965. Available from: https://doi.org/10.1002/14651858.CD008965.pub4.
- Jefferson T, Doshi P, Boutron I, Golder S, Heneghan C, Hodkinson A, et al. When to include clinical study reports and regulatory documents in systematic reviews. BMJ Evid Based Med. 2018;23(6):210-7. Available from: https://doi.org/10.1136/bmjebm-2018-110963.
- Agency for Healthcare Research and Quality (AHRQ). Methods guide for effectiveness and comparative effectiveness reviews: AHRQ publication no. 10(14)-EHC063-EF2014. 2019-11-13]]. Available from: https://effectivehealthcare.ahrq.gov/sites/default/files/pdf/cer-methods-guide_overview.pdf.
- IQWIG. General Methods Version 6.1: IQWIG Institute for Quality and Efficiency in Health Care (IQWiG); 2022. [accessed Oct 11 2023]. Available from: https://www.iqwig.de/en/about-us/methods/methods-paper/.
- IQWIG. General Methods Version 7.0 (German version): IQWIG Institute for Quality and Efficiency in Health Care (IQWiG); 2023. [accessed Oct 11 2023]. Available from: https://www.iqwig.de/en/about-us/methods/methods-paper/.
- The Campbell Collaboration. Campbell systematic reviews: policies and guidelines. Version 1.8.2020. [accessed Oct 11 2023]. Available from: https://onlinelibrary.wiley.com/pb-assets/assets/18911803/Campbell%20Policies%20and%20Guidelines%20_May3%202022-1653054593497.pdf.
- Isojarvi J, Wood H, Lefebvre C, Glanville J. Challenges of identifying unpublished data from clinical trials: Getting the best out of clinical trials registers and other novel sources. Res Synth Methods. 2018. Available from: https://doi.org/10.1002/jrsm.1294.
- Scherer RW, Meerpohl JJ, Pfeifer N, Schmucker C, Schwarzer G, von Elm E. Full publication of results initially presented in abstracts. Cochrane Database Syst Rev. 2018;11:Mr000005. Available from: https://doi.org/10.1002/14651858.MR000005.pub4.
- Scherer RW, Saldanha IJ. How should systematic reviewers handle conference abstracts? A view from the trenches. Syst Rev. 2019;8(1):264. Available from: https://doi.org/10.1186/s13643-019-1188-0.
- Baudard M, Yavchitz A, Ravaud P, Perrodeau E, Boutron I. Impact of searching clinical trial registries in systematic reviews of pharmaceutical treatments: methodological systematic review and reanalysis of meta-analyses. Bmj. 2017;356:j448. Available from: https://doi.org/10.1136/bmj.j448.
- Knelangen M, Hausner E, Metzendorf MI, Sturtz S, Waffenschmidt S. Trial registry searches for randomized controlled trials of new drugs required registry-specific adaptation to achieve adequate sensitivity. J Clin Epidemiol. 2018;94:69-75. Available from: https://doi.org/10.1016/j.jclinepi.2017.11.003.
- Schmucker CM, Blumle A, Schell LK, Schwarzer G, Oeller P, Cabrera L, et al. Systematic review finds that study data not published in full text articles have unclear impact on meta-analyses results in medical research. PLoS One. 2017;12(4):e0176210. Available from: https://doi.org/10.1371/journal.pone.0176210.
- Halfpenny NJ, Quigley JM, Thompson JC, Scott DA. Value and usability of unpublished data sources for systematic reviews and network meta-analyses. Evid Based Med. 2016;21(6):208-13. Available from: https://doi.org/10.1136/ebmed-2016-110494.
- Brolund A. Söka grå litteratur till systematiska översikter: Vad säger ett urval metodböcker och nyare studier? SBU praxis? Stockholm: SBU Statensberedning för medicinsk och social utvärdering; 2018.
- Adams J, Hillier-Brown FC, Moore HJ, Lake AA, Araujo-Soares V, White M, et al. Searching and synthesising 'grey literature' and 'grey information' in public health: critical reflections on three case studies. Syst Rev. 2016;5(1):164. Available from: https://doi.org/10.1186/s13643-016-0337-y.
- Mahood Q, Van Eerd D, Irvin E. Searching for grey literature for systematic reviews: challenges and benefits. Res Synth Methods. 2014;5(3):221-34. Available from: https://doi.org/10.1002/jrsm.1106.
- Sampson M, McGowan J, Tetzlaff J, Cogo E, Moher D. No consensus exists on search reporting methods for systematic reviews. J Clin Epidemiol. 2008;61(8):748-54.
- Koffel JB, Rethlefsen ML. Reproducibility of Search Strategies Is Poor in Systematic Reviews Published in High-Impact Pediatrics, Cardiology and Surgery Journals: A Cross-Sectional Study. PLoS One. 2016;11(9):e0163309. Available from: https://doi.org/10.1371/journal.pone.0163309.
- Biocic M, Fidahic M, Puljak L. Reproducibility of search strategies of non-Cochrane systematic reviews published in anaesthesiology journals is suboptimal: primary methodological study. Br J Anaesth. 2019;122(6):e79-e81. Available from: https://doi.org/10.1016/j.bja.2019.02.014.
- Higgins JPT, Sterne JAC, Savović J, Page MJ, Hróbjartsson A, Boutron I, et al. A revised tool for assessing risk of bias in randomized trials. Issue 10 (Suppl 1). In: Chandler J, ., McKenzie J, Boutron I, Welch VA, editors. Cochrane Methods: Cochrane Database of Systematic Reviews; 2016. Available from: https://www.cochranelibrary.com/cdsr/doi/10.1002/14651858.CD201601/full.
- Sterne JA, Hernán MA, Reeves BC, Savović J, Berkman ND, Viswanathan M, et al. ROBINS-I: a tool for assessing risk of bias in non-randomised studies of interventions. Bmj. 2016;355:i4919. Available from: https://doi.org/10.1136/bmj.i4919.
- Altman DG, Bland JM. Treatment allocation by minimisation. Bmj. 2005;330(7495):843. Available from: https://doi.org/10.1136/bmj.330.7495.843.
- de Waal T, Pannekoek J, Scholtus S. Handbook of Statistical Data Editing and Imputation: Wiley Handbooks in Survey Methodology; 2011.
- Whiting PF, Rutjes AW, Westwood ME, Mallett S. A systematic review classifies sources of bias and variation in diagnostic test accuracy studies. J Clin Epidemiol. 2013;66(10):1093-104. Available from: https://doi.org/10.1016/j.jclinepi.2013.05.014.
- Whiting PF, Rutjes AW, Westwood ME, Mallett S, Deeks JJ, Reitsma JB, et al. QUADAS-2: a revised tool for the quality assessment of diagnostic accuracy studies. Ann Intern Med. 2011;155(8):529-36. Available from: https://doi.org/10.7326/0003-4819-155-8-201110180-00009.
- Hayden JA, van der Windt DA, Cartwright JL, Côté P, Bombardier C. Assessing Bias in Studies of Prognostic Factors. Annals of Internal Medicine. 2013;158(4):280-6. Available from: https://doi.org/10.7326/0003-4819-158-4-201302190-00009.
- Lee J, Mulder F, Leeflang M, Wolff R, Whiting P, Bossuyt PM. QUAPAS: An Adaptation of the QUADAS-2 Tool to Assess Prognostic Accuracy Studies. Annals of Internal Medicine. 2022;175(7):1010-8. Available from: https://doi.org/10.7326/M22-0276.
- Lincoln YS, Guba EG. But is it rigorous? Trustworthiness and authenticity in naturalistic evaluation. New Directions for Program Evaluation. 1986;1986(30):73-84. Available from: https://doi.org/https://doi.org/10.1002/ev.1427.
- Graneheim UH, Lundman B. Qualitative content analysis in nursing research: concepts, procedures and measures to achieve trustworthiness. Nurse Educ Today. 2004;24(2):105-12. Available from: https://doi.org/10.1016/j.nedt.2003.10.001.
- Munthe-Kaas HM, Glenton C, Booth A, Noyes J, Lewin S. Systematic mapping of existing tools to appraise methodological strengths and limitations of qualitative research: first stage in the development of the CAMELOT tool. BMC Med Res Methodol. 2019;19(1):113. Available from: https://doi.org/10.1186/s12874-019-0728-6.
- Noyes J, Booth A, Flemming K, Garside R, Harden A, Lewin S, et al. Cochrane Qualitative and Implementation Methods Group guidance series-paper 3: methods for assessing methodological limitations, data extraction and synthesis, and confidence in synthesized qualitative findings. J Clin Epidemiol. 2018;97:49-58. Available from: https://doi.org/10.1016/j.jclinepi.2017.06.020.
- Borenstein M, Hedges LV, Higgins JPT, Rothstein HR. Introduction to meta-analysis. Chichester: John Wiley & Sons Ltd; 2009.
- Schmid C, Stijnen T, White I. Handbook of Meta-Analysis (1st ed.): Chapman and Hall/CRC; 2020. Available from: https://www.perlego.com/book/1705208/handbook-of-metaanalysis-pdf.
- Dwan K, Gamble C, Williamson PR, Kirkham JJ. Systematic review of the empirical evidence of study publication bias and outcome reporting bias - an updated review. PLoS One. 2013;8(7):e66844. Available from: https://doi.org/10.1371/journal.pone.0066844.
- Sterne JA, Egger M, Smith GD. Systematic reviews in health care: Investigating and dealing with publication and other biases in meta-analysis. Bmj. 2001;323(7304):101-5. Available from: https://doi.org/10.1136/bmj.323.7304.101.
- van Aert RCM, Wicherts JM, van Assen M. Publication bias examined in meta-analyses from psychology and medicine: A meta-meta-analysis. PLoS One. 2019;14(4):e0215052. Available from: https://doi.org/10.1371/journal.pone.0215052.
- Shi L, Lin L. The trim-and-fill method for publication bias: practical guidelines and recommendations based on a large database of meta-analyses. Medicine (Baltimore). 2019;98(23):e15987. Available from: https://doi.org/10.1097/md.0000000000015987.
- Macaskill P, Gatsonis C, Deeks J, Harbord R, Takwoingi Y. Chapter 10: Analysing and presenting results. In: Deeks J, Bossuyt P, Gatsonis CA, editors. Cochrane Handbook for Systematic Reviews of Diagnostic Test Accuracy Version 10: The Cochrane Collaboration; 2010. Available from: http://srdta.cochrane.org/.
- Hannes K, Lockwood C. Pragmatism as the philosophical foundation for the Joanna Briggs meta-aggregative approach to qualitative evidence synthesis. J Adv Nurs. 2011;67(7):1632-42. Available from: https://doi.org/10.1111/j.1365-2648.2011.05636.x.
- Rutter CM, Gatsonis CA. A hierarchical regression approach to meta-analysis of diagnostic test accuracy evaluations. Stat Med. 2001;20(19):2865-84. Available from: https://doi.org/10.1002/sim.942.
- Reitsma JB, Glas AS, Rutjes AW, Scholten RJ, Bossuyt PM, Zwinderman AH. Bivariate analysis of sensitivity and specificity produces informative summary measures in diagnostic reviews. J Clin Epidemiol. 2005;58(10):982-90. Available from: https://doi.org/10.1016/j.jclinepi.2005.02.022.
- Takwoingi Y, Guo B, Riley RD, Deeks JJ. Performance of methods for meta-analysis of diagnostic test accuracy with few studies or sparse data. Stat Methods Med Res. 2017;26(4):1896-911. Available from: https://doi.org/10.1177/0962280215592269.
- Parmar MKB, Torri V, Stewart L. Extracting summary statistics to perform meta-analyses of the published literature for survival endpoints. Statistics in Medicine. 1998;17(24):2815-34. Available from: https://doi.org/https://doi.org/10.1002/(SICI)1097-0258(19981230)17:24<2815::AID-SIM110>3.0.CO;2-8.
- Riley RD, Moons KGM, Snell KIE, Ensor J, Hooft L, Altman DG, et al. A guide to systematic review and meta-analysis of prognostic factor studies. Bmj. 2019;364:k4597. Available from: https://doi.org/10.1136/bmj.k4597.
- Tierney JF, Stewart LA, Ghersi D, Burdett S, Sydes MR. Practical methods for incorporating summary time-to-event data into meta-analysis. Trials. 2007;8(1):16. Available from: https://doi.org/10.1186/1745-6215-8-16.
- Debray TPA, Damen JAAG, Snell KIE, Ensor J, Hooft L, Reitsma JB, et al. A guide to systematic review and meta-analysis of prediction model performance. Bmj. 2017;356:i6460. Available from: https://doi.org/10.1136/bmj.i6460.
- Debray TPA, Koffijberg H, Nieboer D, Vergouwe Y, Steyerberg EW, Moons KGM. Meta-analysis and aggregation of multiple published prediction models. Statistics in Medicine. 2014;33(14):2341-62. Available from: https://doi.org/https://doi.org/10.1002/sim.6080.
- Jansen JP, Trikalinos T, Cappelleri JC, Daw J, Andes S, Eldessouki R, et al. Indirect treatment comparison/network meta-analysis study questionnaire to assess relevance and credibility to inform health care decision making: an ISPOR-AMCP-NPC Good Practice Task Force report. Value Health. 2014;17(2):157-73. Available from: https://doi.org/10.1016/j.jval.2014.01.004.
- Brignardello-Petersen R, Murad MH, Walter SD, McLeod S, Carrasco-Labra A, Rochwerg B, et al. GRADE approach to rate the certainty from a network meta-analysis: avoiding spurious judgments of imprecision in sparse networks. J Clin Epidemiol. 2019;105:60-7. Available from: https://doi.org/10.1016/j.jclinepi.2018.08.022.
- Brignardello-Petersen R, Mustafa RA, Siemieniuk RAC, Murad MH, Agoritsas T, Izcovich A, et al. GRADE approach to rate the certainty from a network meta-analysis: addressing incoherence. J Clin Epidemiol. 2019;108:77-85. Available from: https://doi.org/10.1016/j.jclinepi.2018.11.025.
- Brignardello-Petersen R, Guyatt GH, Mustafa RA, Chu DK, Hultcrantz M, Schünemann HJ, et al. GRADE guidelines 33: Addressing imprecision in a network meta-analysis. J Clin Epidemiol. 2021;139:49-56. Available from: https://doi.org/10.1016/j.jclinepi.2021.07.011.
- Brignardello-Petersen R, Bonner A, Alexander PE, Siemieniuk RA, Furukawa TA, Rochwerg B, et al. Advances in the GRADE approach to rate the certainty in estimates from a network meta-analysis. J Clin Epidemiol. 2018;93:36-44. Available from: https://doi.org/10.1016/j.jclinepi.2017.10.005.
- Laws A, Tao R, Wang S, Padhiar A, Goring S. A Comparison of National Guidelines for Network Meta-Analysis. Value Health. 2019;22(10):1178-86. Available from: https://doi.org/10.1016/j.jval.2019.05.013.
- McKenzie JE, Brennan SE. Chapter 12: Synthesizing and presenting findings using other methods. In: Higgins JPT, Thomas J, Chandler J, Cumpston M, Li T, Page MJ, et al., editors. Cochrane Handbook for Systematic Reviews of Interventions version 64 (updated August 2023): Cochrane; 2023. Available from: www.training.cochrane.org/handbook.
- Noblit GW, Hare RD. Meta-Ethnography: Synthesizing Qualitative Studies. Newbury Park: Sage publications; 1988.
- Thorne S, Jensen L, Kearney MH, Noblit G, Sandelowski M. Qualitative metasynthesis: reflections on methodological orientation and ideological agenda. Qual Health Res. 2004;14(10):1342-65. Available from: https://doi.org/10.1177/1049732304269888.
- Lockwood C, Munn Z, Porritt K. Qualitative research synthesis: methodological guidance for systematic reviewers utilizing meta-aggregation. Int J Evid Based Healthc. 2015;13(3):179-87. Available from: https://doi.org/10.1097/xeb.0000000000000062.
- Thomas J, Harden A. Methods for the thematic synthesis of qualitative research in systematic reviews. BMC Med Res Methodol. 2008;8(1):45. Available from: https://doi.org/10.1186/1471-2288-8-45.
- Atkins D, Best D, Briss PA, Eccles M, Falck-Ytter Y, Flottorp S, et al. Grading quality of evidence and strength of recommendations. Bmj. 2004;328(7454):1490. Available from: https://doi.org/10.1136/bmj.328.7454.1490.
- Schünemann HJ. Handbook for grading the quality of evidence and the strength of recommendations using the GRADE approach. (Updated October 2013); 2013. [accessed April 24 2023]. Available from: https://gdt.gradepro.org/app/handbook/handbook.html.
- Schünemann HJ, Cuello C, Akl EA, Mustafa RA, Meerpohl JJ, Thayer K, et al. GRADE guidelines: 18. How ROBINS-I and other tools to assess risk of bias in nonrandomized studies should be used to rate the certainty of a body of evidence. J Clin Epidemiol. 2019;111:105-14. Available from: https://doi.org/10.1016/j.jclinepi.2018.01.012.
- Guyatt GH, Oxman AD, Kunz R, Brozek J, Alonso-Coello P, Rind D, et al. GRADE guidelines 6. Rating the quality of evidence--imprecision. J Clin Epidemiol. 2011;64(12):1283-93. Available from: https://doi.org/10.1016/j.jclinepi.2011.01.012.
- Guyatt GH, Oxman AD, Kunz R, Woodcock J, Brozek J, Helfand M, et al. GRADE guidelines: 7. Rating the quality of evidence--inconsistency. J Clin Epidemiol. 2011;64(12):1294-302. Available from: https://doi.org/10.1016/j.jclinepi.2011.03.017.
- Guyatt GH, Oxman AD, Kunz R, Woodcock J, Brozek J, Helfand M, et al. GRADE guidelines: 8. Rating the quality of evidence--indirectness. J Clin Epidemiol. 2011;64(12):1303-10. Available from: https://doi.org/10.1016/j.jclinepi.2011.04.014.
- Guyatt GH, Oxman AD, Montori V, Vist G, Kunz R, Brozek J, et al. GRADE guidelines: 5. Rating the quality of evidence--publication bias. J Clin Epidemiol. 2011;64(12):1277-82. Available from: https://doi.org/10.1016/j.jclinepi.2011.01.011.
- Guyatt GH, Oxman AD, Sultan S, Glasziou P, Akl EA, Alonso-Coello P, et al. GRADE guidelines: 9. Rating up the quality of evidence. J Clin Epidemiol. 2011;64(12):1311-6. Available from: https://doi.org/10.1016/j.jclinepi.2011.06.004.
- Guyatt GH, Oxman AD, Santesso N, Helfand M, Vist G, Kunz R, et al. GRADE guidelines: 12. Preparing summary of findings tables-binary outcomes. J Clin Epidemiol. 2013;66(2):158-72. Available from: https://doi.org/10.1016/j.jclinepi.2012.01.012.
- Guyatt GH, Thorlund K, Oxman AD, Walter SD, Patrick D, Furukawa TA, et al. GRADE guidelines: 13. Preparing summary of findings tables and evidence profiles-continuous outcomes. J Clin Epidemiol. 2013;66(2):173-83. Available from: https://doi.org/10.1016/j.jclinepi.2012.08.001.
- SBU. Läkemedelsbehandling av vanliga smärttillstånd hos äldre personer – effekter, biverkningar samt upplevelser av vård: en systematisk litteraturöversikt. Stockholm: Statens beredning för medicinsk och social utvärdering (SBU); 2020. SBU Uvärderar 315. [accessed May 5 2023]. Available from: https://www.sbu.se/315.
- Foroutan F, Guyatt G, Zuk V, Vandvik PO, Alba AC, Mustafa R, et al. GRADE Guidelines 28: Use of GRADE for the assessment of evidence about prognostic factors: rating certainty in identification of groups of patients with different absolute risks. J Clin Epidemiol. 2020;121:62-70. Available from: https://doi.org/https://doi.org/10.1016/j.jclinepi.2019.12.023.
- Lewin S, Glenton C, Munthe-Kaas H, Carlsen B, Colvin CJ, Gülmezoglu M, et al. Using qualitative evidence in decision making for health and social interventions: an approach to assess confidence in findings from qualitative evidence syntheses (GRADE-CERQual). PLoS Med. 2015;12(10):e1001895. Available from: https://doi.org/10.1371/journal.pmed.1001895.
- Munthe-Kaas H, Bohren MA, Glenton C, Lewin S, Noyes J, Tunçalp Ö, et al. Applying GRADE-CERQual to qualitative evidence synthesis findings-paper 3: how to assess methodological limitations. Implement Sci. 2018;13(Suppl 1):9. Available from: https://doi.org/10.1186/s13012-017-0690-9.
- Noyes J, Booth A, Lewin S, Carlsen B, Glenton C, Colvin CJ, et al. Applying GRADE-CERQual to qualitative evidence synthesis findings–paper 6: how to assess relevance of the data. Implementation Science. 2018;13(1):4. Available from: https://doi.org/10.1186/s13012-017-0693-6.
- Colvin CJ, Garside R, Wainwright M, Munthe-Kaas H, Glenton C, Bohren MA, et al. Applying GRADE-CERQual to qualitative evidence synthesis findings—paper 4: how to assess coherence. Implementation Science. 2018;13(1):13. Available from: https://doi.org/10.1186/s13012-017-0691-8.
- Glenton C, Carlsen B, Lewin S, Munthe-Kaas H, Colvin CJ, Tunçalp Ö, et al. Applying GRADE-CERQual to qualitative evidence synthesis findings—paper 5: how to assess adequacy of data. Implementation Science. 2018;13(1):14. Available from: https://doi.org/10.1186/s13012-017-0692-7.
- Lewin S, Bohren M, Rashidian A, Munthe-Kaas H, Glenton C, Colvin CJ, et al. Applying GRADE-CERQual to qualitative evidence synthesis findings—paper 2: how to make an overall CERQual assessment of confidence and create a Summary of Qualitative Findings table. Implementation Science. 2018;13(1):10. Available from: https://doi.org/10.1186/s13012-017-0689-2.
- Shea BJ, Bouter LM, Peterson J, Boers M, Andersson N, Ortiz Z, et al. External validation of a measurement tool to assess systematic reviews (AMSTAR). PLoS One. 2007;2(12):e1350. Available from: https://doi.org/10.1371/journal.pone.0001350.
- Shea BJ, Grimshaw JM, Wells GA, Boers M, Andersson N, Hamel C, et al. Development of AMSTAR: a measurement tool to assess the methodological quality of systematic reviews. BMC Med Res Methodol. 2007;7(1):10. Available from: https://doi.org/10.1186/1471-2288-7-10.
- SBU. Tidig koordinerad utskrivning och fortsatt rehabilitering i hemmiljö för äldre efter stroke. En systematisk litteraturöversikt. ISBN 978-91-85413-77-5. Stockholm: Statens beredning för medicinsk utvärdering (SBU); 2015 234. [accessed May 5 2023]. Available from: https://www.sbu.se/234.
- SBU. Rehabilitering av äldre personer med höftfrakturer – interdisciplinära team. En systematisk litteraturöversikt. ISBN 978-91-85413-79-9. Stockholm: Statens beredning för medicinsk utvärdering (SBU); 2015 235. [accessed May 5 2023]. Available from: https://www.sbu.se/235.
- SBU. Ljusbehandling och systemisk behandling av psoriasis. En systematisk översikt och utvärdering av medicinska, hälsoekonomiska och etiska aspekter. ISBN 978-91-88437-20-4. Stockholm: Statens beredning för medicinsk och social utvärdering (SBU); 2018 278. [accessed May 5 2023]. Available from: https://www.sbu.se/278.
- SBU. Att förebygga missbruk av alkohol, droger och spel hos barn och unga. ISBN 978-91-85413-87-4. Stockholm: Statens beredning för medicinsk och social utvärdering (SBU); 2015 243. [accessed May 5 2023]. Available from: https://www.sbu.se/243.
- Shea BJ, Hamel C, Wells GA, Bouter LM, Kristjansson E, Grimshaw J, et al. AMSTAR is a reliable and valid measurement tool to assess the methodological quality of systematic reviews. J Clin Epidemiol. 2009;62(10):1013-20. Available from: https://doi.org/10.1016/j.jclinepi.2008.10.009.
- Whiting P, Savović J, Higgins JP, Caldwell DM, Reeves BC, Shea B, et al. ROBIS: A new tool to assess risk of bias in systematic reviews was developed. J Clin Epidemiol. 2016;69:225-34. Available from: https://doi.org/10.1016/j.jclinepi.2015.06.005.
- White CM, Ip S, McPheeters M, Carey TS, Chou R, Lohr KN, et al. Using Existing Systematic Reviews To Replace De Novo Processes in Conducting Comparative Effectiveness Reviews. In: Methods Guide for Effectiveness and Comparative Effectiveness Reviews. Rockville: Agency for Healthcare Research and Quality, USA; 2009.
- Whitlock EP, Lin JS, Chou R, Shekelle P, Robinson KA. Using existing systematic reviews in complex systematic reviews. Ann Intern Med. 2008;148(10):776-82. Available from: https://doi.org/10.7326/0003-4819-148-10-200805200-00010.
- Drummond MF, Culpher M, G.W. T, O´Brien B, Stoddart G. Methods for the Economic Evaluation of Health Care Programmes: Oxford University Press; 2005.
- Mauskopf JA, Sullivan SD, Annemans L, Caro J, Mullins CD, Nuijten M, et al. Principles of Good Practice for Budget Impact Analysis: Report of the ISPOR Task Force on Good Research Practices—Budget Impact Analysis. Value in Health. 2007;10(5):336-47. Available from: https://doi.org/https://doi.org/10.1111/j.1524-4733.2007.00187.x.
- Hodgson TA, Meiners MR. Cost-of-Illness Methodology: A Guide to Current Practices and Procedures. The Milbank Memorial Fund Quarterly Health and Society. 1982;60(3):429-62. Available from: https://doi.org/10.2307/3349801.
- Rice DP. Estimating the cost of illness. Am J Public Health Nations Health. 1967;57(3):424-40. Available from: https://doi.org/10.2105/ajph.57.3.424.
- Byford S, Torgerson DJ, Raftery J. Economic note: cost of illness studies. Bmj. 2000;320(7245):1335. Available from: https://doi.org/10.1136/bmj.320.7245.1335.
- Drummond M. Cost-of-illness studies: a major headache? Pharmacoeconomics. 1992;2(1):1-4. Available from: https://doi.org/10.2165/00019053-199202010-00001.
- TLV. Tandvårds- och läkemedelsförmånsverkets allmänna råd om ekonomiska utvärderingar. TLVAR 2017:1. Stockholm: Tandvårds- och läkemedelsförmånsverket (TLV); 2017. Available from: https://www.tlv.se/download/18.467926b615d084471ac3230c/1510316374332/TLVAR_2017_1.pdf.
- Gold M, Siegel J, Russell L, Weinstein MC. Cost-Effectiveness in Health and Medicine: Oxford University Press; 1996.
- Bernfort L. Hälsoekonomiska utvärderingar. Vad menas och hur gör man? CMT Rapport 2009:2: Linköpings universitet; 2002. [accessed May 5 2023]. Available from: http://liu.diva-portal.org/smash/get/diva2:235003/FULLTEXT01.pdf.
- Socialstyrelsen. Uppdrag statistik på hjälpmedelsområdet – slutrapport. Stockholm: Socialstyrelsen; 2021. [accessed Feb 21 2022]. Available from: https://www.socialstyrelsen.se/globalassets/sharepoint-dokument/artikelkatalog/statistik/2021-12-7696.pdf.
- SKR. Kostnad per patient, KPP. Stockholm: Sveriges Kommuner och Regioner; 2023. [accessed May 16 2023]. Available from: https://skr.se/skr/halsasjukvard/ekonomiavgifter/kostnadperpatientkpp.1076.html.
- SKR. KPP Databas. Stockholm: Sveriges Kommuner och Regioner; 2023. [accessed May 16 2023]. Available from: https://skr.se/skr/halsasjukvard/ekonomiavgifter/kostnadperpatientkpp/kppdatabas.46722.html.
- Regionala priser och ersättningar för Södra sjukvårdsregionen 2021: Södra Regionvårdsnämnden; 2020. [accessed May 16 2023]. Available from: https://sodrasjukvardsregionen.se/download/regionala-priser-och-ersattningar-for-sodra-sjukvardsregionen-2021/?wpdmdl=21717&refresh=637269c580c3c1668442565.
- Priser och ersättningar för Sydöstra sjukvårdsregionen 2022: Samverkansnämnden; Region Jököpings län, Region Kalmar län, Region Östergötland; 2022. [accessed May 16 2023]. Available from: https://sydostrasjukvardsregionen.se/wp-content/uploads/2022/05/Priser_och_ersattningar_20220401.pdf.
- SKR. Sjukvårdsregionernas prislistor. Stockholm: Sveriges Kommuner och Regioner; 2023. [accessed May 16 2023]. Available from: https://skr.se/skr/halsasjukvard/ekonomiavgifter/utomlansvardriksavtal/regionernasprislistor.31055.html.
- RKA. Stöd och omsorg - analysmaterialet "Koll på...". Stockholm: Rådet för främjande av kommunala analyser; 2023. [accessed May 16 2023]. Available from: https://rka.nu/radetforframjandeavkommunalaanalyser/analys/stodochomsorg.44775.html.
- SKR. Publikationer och databaser. Stockholm: Sveriges Regioner och Kommuner; 2023. [accessed May 16 2023]. Available from: https://skr.se/skr/ekonomijuridik/ekonomi/sektornisiffror/publikationerochdatabaser.1885.html.
- RKA. Koll på funktionshinderområdet. Stockholm: Rådet för främjande av kommunala analyser; 2023. [accessed May 16 2023]. Available from: https://rka.nu/radetforframjandeavkommunalaanalyser/analys/stodochomsorg/kollpafunktionshinderomradet.44777.html.
- RKA. Koll på hemtjänsten - en handledning för analys av hemtjänstkostnader. Stockholm: Rådet för främjande av kommunala analyser; 2022. [accessed May 16 2023]. Available from: https://rka.nu/radetforframjandeavkommunalaanalyser/analys/stodochomsorg/kollpahemtjansten.44779.html.
- Johannesson M, Karlsson G. The friction cost method: a comment. J Health Econ. 1997;16(2):249-55; discussion 57-9. Available from: https://doi.org/10.1016/s0167-6296(97)00006-4.
- Koopmanschap MA, Rutten FF, van Ineveld BM, van Roijen L. The friction cost method for measuring indirect costs of disease. J Health Econ. 1995;14(2):171-89. Available from: https://doi.org/10.1016/0167-6296(94)00044-5.
- Prioriteringar i hälso- och sjukvården: Region Skånes etiska råd; 2013. [accessed May 16 2023]. Available from: http://www.diva-portal.se/smash/get/diva2:955701/FULLTEXT01.pdf.
- Heinz E, Davidson T, Rosén M. Prioritera utifrån produktivitet – ett etiskt problem? Läkartidningen. 2013;38.
- Sahlén KG, Löfgren C, Lindholm L. Är det lönsamt med prevention efter 65? : ålderns betydelse i hälsoekonomiska utvärderingsmetoder : förebyggande hembesök i Nordmaling. Stockholm: Statens folkhälsoinstitut; 2007. Available from: https://www.yumpu.com/sv/document/view/8888439/ar-det-lonsamt-med-prevention-efter-65-1.
- Sculpher MJ, Drummond M. The role and estimation of productivity costs in economic evaluation. In: McGuire A, editor. Economic evaluation in health care: merging theory with practice: Oxford University Press; 2001.
- NICE. Guide to the methods of technology appraisal 2013: National Institute for Health and Clinical excellence; 2013. [accessed May 8 2023]. Available from: https://www.nice.org.uk/process/pmg9/chapter/foreword.
- ISPOR. Lawrenceville, USA. [accessed May 8 2023]. Available from: https://www.ispor.org/heor-resources/more-heor-resources/pharmacoeconomic-guidelines/pe-guideline-detail.
- von Neumann J, Morgenstern O. Theory of Games and Economic Behavior. Princeton, New Jersey, USA: Princeton University Press; 1944.
- Torrance GW, Thomas WH, Sackett DL. A utility maximization model for evaluation of health care programs. Health Serv Res. 1972;7(2):118-33.
- Patrick DL, Bush JW, Chen MM. Methods for measuring levels of well-being for a health status index. Health Serv Res. 1973;8(3):228-45.
- EuroQol--a new facility for the measurement of health-related quality of life. Health Policy. 1990;16(3):199-208. Available from: https://doi.org/10.1016/0168-8510(90)90421-9.
- Brazier J, Roberts J, Deverill M. The estimation of a preference-based measure of health from the SF-36. Journal of Health Economics. 2002;21(2):271-92. Available from: https://doi.org/https://doi.org/10.1016/S0167-6296(01)00130-8.
- Ware JE, Snow KK, Kosinski M, Gandek B, New England Medical Center Hospital Health I. SF-36 health survey : manual and interpretation guide. Boston: Health Institute, New England Medical Center Boston; 1993.
- Hays RD, Sherbourne CD, Mazel RM. The RAND 36-Item Health Survey 1.0. Health Econ. 1993;2(3):217-27. Available from: https://doi.org/10.1002/hec.4730020305.
- Feeny D, Furlong W, Torrance GW, Goldsmith CH, Zhu Z, DePauw S, et al. Multiattribute and single-attribute utility functions for the health utilities index mark 3 system. Med Care. 2002;40(2):113-28. Available from: https://doi.org/10.1097/00005650-200202000-00006.
- Mihalopoulos C, Chen G, Iezzi A, Khan MA, Richardson J. Assessing outcomes for cost-utility analysis in depression: comparison of five multi-attribute utility instruments with two depression-specific outcome measures. Br J Psychiatry. 2014;205(5):390-7. Available from: https://doi.org/10.1192/bjp.bp.113.136036.
- Rowen D, Keetharuth AD, Poku E, Wong R, Pennington B, Wailoo A. A Review of the Psychometric Performance of Selected Child and Adolescent Preference-Based Measures Used to Produce Utilities for Child and Adolescent Health. Value in Health. 2021;24(3):443-60. Available from: https://doi.org/https://doi.org/10.1016/j.jval.2020.09.012.
- Dolan P. Modeling valuations for EuroQol health states. Med Care. 1997;35(11):1095-108. Available from: https://doi.org/10.1097/00005650-199711000-00002.
- Burström K, Sun S, Gerdtham UG, Henriksson M, Johannesson M, Levin L, et al. Swedish experience-based value sets for EQ-5D health states. Qual Life Res. 2014;23(2):431-42. Available from: https://doi.org/10.1007/s11136-013-0496-4.
- Sen A. Commodities and Capabilities. Amsterdam: North-Holland; 1985.
- Sen A. Development as Freedom: Oxford University Press; 1999.
- Sen A. Capabilities, Lists, and Public Reason: Continuing the Conversation. Feminist Economics. 2004;10(3):77-80. Available from: https://doi.org/10.1080/1354570042000315163.
- Flynn TN, Huynh E, Peters TJ, Al-Janabi H, Clemens S, Moody A, et al. Scoring the Icecap-a capability instrument. Estimation of a UK general population tariff. Health Econ. 2015;24(3):258-69. Available from: https://doi.org/10.1002/hec.3014.
- Coast J, Flynn TN, Natarajan L, Sproston K, Lewis J, Louviere JJ, et al. Valuing the ICECAP capability index for older people. Soc Sci Med. 2008;67(5):874-82. Available from: https://doi.org/10.1016/j.socscimed.2008.05.015.
- Huynh E, Coast J, Rose J, Kinghorn P, Flynn T. Values for the ICECAP-Supportive Care Measure (ICECAP-SCM) for use in economic evaluation at end of life. Soc Sci Med. 2017;189:114-28. Available from: https://doi.org/10.1016/j.socscimed.2017.07.012.
- Månsdotter A, Ekman B, Meili KW, Feldman I, Hagberg L, Hurtig A-K, et al. Towards capability-adjusted life years in public health and social welfare: Results from a Swedish survey on ranking capabilities. PLoS One. 2020;15(12):e0242699. Available from: https://doi.org/10.1371/journal.pone.0242699.
- Meili K. In Pursuit of Weights For CALY: Exploring Methods for Measuring And Calculating Capability Adjusted Life Year Weights. Umeå: Umeå universitet, Medicinska fakulteten, Institutionen för folkhälsa och klinisk medicin, Epidemiologi och global hälsa.; 2017. Centre for Public Health Report Series, ISSN 1651-341X ; 2017:36. [accessed May 16 2023]. Available from: http://umu.diva-portal.org/smash/record.jsf?language=sv&pid=diva2%3A1167340&dswid=-1461.
- Meili KW, Månsdotter A, Sundberg LR, Hjelte J, Lindholm L. An initiative to develop capability-adjusted life years in Sweden (CALY-SWE): Selecting capabilities with a Delphi panel and developing the questionnaire. PLoS One. 2022;17(2):e0263231. Available from: https://doi.org/10.1371/journal.pone.0263231.
- Brazier J, Peasgood T, Mukuria C, Marten O, Kreimeier S, Luo N, et al. The EQ-HWB: Overview of the Development of a Measure of Health and Wellbeing and Key Results. Value Health. 2022;25(4):482-91. Available from: https://doi.org/10.1016/j.jval.2022.01.009.
- Sculpher MJ, Claxton K, Drummond M, McCabe C. Whither trial-based economic evaluation for health care decision making? Health Econ. 2006;15(7):677-87. Available from: https://doi.org/10.1002/hec.1093.
- Briggs A, Sculpher M, Claxton K. Decision Modelling for Health Economic Evaluation. : Oxford University Press; 2006.
- Caro JJ, Möller J, Getsios D. Discrete event simulation: the preferred technique for health economic evaluations? Value Health. 2010;13(8):1056-60. Available from: https://doi.org/10.1111/j.1524-4733.2010.00775.x.
- Pitman R, Fisman D, Zaric GS, Postma M, Kretzschmar M, Edmunds J, et al. Dynamic transmission modeling: a report of the ISPOR-SMDM Modeling Good Research Practices Task Force--5. Value Health. 2012;15(6):828-34. Available from: https://doi.org/10.1016/j.jval.2012.06.011.
- Claxton K, Sculpher M, McCabe C, Briggs A, Akehurst R, Buxton M, et al. Probabilistic sensitivity analysis for NICE technology assessment: not an optional extra. Health Econ. 2005;14(4):339-47. Available from: https://doi.org/10.1002/hec.985.
- Gruneau L, Svensson M, Henriksson M. Precision i hälsoekonomiska utvärderingsresultat och osäkerhet i prioriteringsbeslut. CMT Rapport 2022:1. Linköpings universitet: CMT – Centrum för utvärdering av medicinsk teknologi; 2022. [accessed May 8 2023]. Available from: https://www.diva-portal.org/smash/get/diva2:1657435/FULLTEXT01.pdf.
- Bojke L, Claxton K, Palmer S, Sculpher M. Defining and Characterising Structural Uncertainty in Decision Analytic Models. York, UK: Centre of Health Economics, The University of York; 2006. [accessed May 8 2023]. Available from: https://www.york.ac.uk/media/che/documents/papers/researchpapers/rp9_structural_uncertainty_in_decision_analytic_models.pdf.
- Briggs AH, Weinstein MC, Fenwick EA, Karnon J, Sculpher MJ, Paltiel AD. Model parameter estimation and uncertainty analysis: a report of the ISPOR-SMDM Modeling Good Research Practices Task Force Working Group-6. Med Decis Making. 2012;32(5):722-32. Available from: https://doi.org/10.1177/0272989x12458348.
- Bojke L, Claxton K, Sculpher M, Palmer S. Characterizing Structural Uncertainty in Decision Analytic Models: A Review and Application of Methods. Value in Health. 2009;12(5):739-49. Available from: https://doi.org/https://doi.org/10.1111/j.1524-4733.2008.00502.x.
- Strong M, Oakley JE, Chilcott J. Managing structural uncertainty in health economic decision models: a discrepancy approach. Journal of the Royal Statistical Society: Series C (Applied Statistics). 2012;61(1):25-45. Available from: https://doi.org/https://doi.org/10.1111/j.1467-9876.2011.01014.x.
- Sveriges Riksdag. Prioriteringar inom hälso- och sjukvården Proposition 1996/97:60. Stockholm. [Available from: https://www.riksdagen.se/sv/dokument-lagar/dokument/proposition/prioriteringar-inom-halso--och-sjukvarden_GK0360.
- Tinghög G. Alternativkostnadens psykologi – känslor och kostnadseffektivitet vid beslut i offentlig sektor: SNS Analys 77; 2021.
- Henriksson M, Siverskog J, Johannesen K, Eriksson T. Tröskelvärden och kostnadseffektivitet - innebörd och implikationer för ekonomiska utvärderingar och beslutsfattande i hälso- och sjukvården. CMT Rapport 2018:3: CMT – Centrum för utvärdering av medicinsk teknologi, Linköpings universitet; 2018. [accessed May 8 2023]. Available from: https://www.diva-portal.org/smash/get/diva2:1267099/FULLTEXT01.pdf.
- Persson U, Olofsson S. Ett QALY är värt mer än två miljoner kronor. 115:E96F. Läkartidningen. 2018.
- Olofsson S, Persson U, Hultkrantz L, Gerdtham UG. Betalningsviljan för att minska risken för icke-dödliga och dödliga skador i samband med vägtrafikolyckor – en studie med kedje-ansats. IHE Rapport 2016:7. Lund: Institutet för Hälso- och Sjukvårdsekonomi (IHE); 2016. [accessed May 8 2023]. Available from: Betalningsviljan för att minska risken för icke-dödliga och dödliga skador i samband med vägtrafikolyckor – en studie med kedje-ansats - IHE.
- Sieverskog J. Opportunity cost in healthcare priority setting: Linköpings universitet, Institutionen för hälsa, medicin och vård, Avdelningen för samhälle och hälsa. Linköpings universitet, Medicinska fakulteten; 2022. [accessed May 16 2023]. Available from: https://www.diva-portal.org/smash/record.jsf?pid=diva2%3A1643930&dswid=48.
- Svensson M, Nilsson FO, Arnberg K. Reimbursement Decisions for Pharmaceuticals in Sweden: The Impact of Disease Severity and Cost Effectiveness. Pharmacoeconomics. 2015;33(11):1229-36. Available from: https://doi.org/10.1007/s40273-015-0307-6.
- Socialstyrelsen. Nationella riktlinjer. Metodbeskrivning. Stockholm: Socialstyrelsen; 2021. [accessed Sep 19 2023]. Available from: https://www.socialstyrelsen.se/globalassets/sharepoint-dokument/dokument-webb/nationella-riktlinjer/nationella-riktlinjer-metodbeskrivning.pdf.
- Brunetti M. Chapter 10: Grading economic evidence. In: Shemilt I, Mugford M, Vale L, Marsh K, Donaldson C, editors. Evidence-Based Decisions and Economics: Health Care, Social Welfare, Education and Criminal Justice (2 ed) Wiley-Blackwell; 2010.
- Evers S, Goossens M, de Vet H, van Tulder M, Ament A. Criteria list for assessment of methodological quality of economic evaluations: Consensus on Health Economic Criteria. Int J Technol Assess Health Care. 2005;21(2):240-5.
- Philips Z, Ginnelly L, Sculpher M, Claxton K, Golder S, Riemsma R, et al. Review of guidelines for good practice in decision-analytic modelling in health technology assessment. Health Technol Assess. 2004;8(36):iii-iv, ix-xi, 1-158. Available from: https://doi.org/10.3310/hta8360.
- Drummond M, Barbieri M, Cook J, Glick HA, Lis J, Malik F, et al. Transferability of economic evaluations across jurisdictions: ISPOR Good Research Practices Task Force report. Value Health. 2009;12(4):409-18. Available from: https://doi.org/10.1111/j.1524-4733.2008.00489.x.
- Mulligan JA, Fox-Rushby J. Transferring cost-effectiveness data across space and time. In: Fox-Rushby J, Cairns J, editors. Economic Evaluation: McGraw-Hill Companies, Incorporated; 2005.