Så granskar man om ett test ger tillförlitliga svar

Artikel från Vetenskap & Praxis | Publicerad december 2019

Innan ett bedömningsinstrument eller diagnostiskt test tas i bruk måste man säkerställa att det ger korrekta svar, att det är till nytta för patienter och brukare och är värt sitt pris. Det kräver relevanta och tillförlitliga studier.

Nyttan av en ny diagnos- eller bedömningsmetod måste bedömas utifrån metodens syfte och sammanhang. Syftet kan till exempel vara att ersätta en föråldrad teknik som är dyrare eller krångligare att använda eller som visat sig vara otillförlitlig. Eller att komplettera en befintlig metod för att förbättra dess tillförlitlighet. Eller att triagera, det vill säga dela in patienter och brukare i grupper som behöver olika fortsatt utredning, vård och omsorg. Vilket syftet är avgör vilken vetenskaplig prövning som testet måste genomgå, i vilka grupper, med vilka jämförelser och med vilket tidsperspektiv.

En grundläggande egenskap som undersöks är metodens diagnostiska tillförlitlighet (eng. diagnostic accuracy). Man vill veta i vilken utsträckning som den nya metoden, även kallad indextestet, korrekt påvisar att någon antingen har ett visst tillstånd eller saknar detta. Indextestet jämförs med bästa befintliga bedömningsmetod, ett referenstest.

Om det saknas ett enskilt referenstest som är tillräckligt bra, kan forskarna välja att kombinera flera tester för att få ett säkrare ”facit” att jämföra indextestet med. Ibland lägger man dessutom till ett konsensusförfarande där en expertgrupp får göra en gemensam bedömning av alla uppgifter som finns om försöksdeltagarna. Om det är möjligt, är det bra att pröva indextestet i prospektiva studier, där en grupp deltagare följs tills det blir uppenbart vilka som har tillståndet.

Studier av diagnostisk tillförlitlighet går ut på att undersöka hur många av försöksdeltagarna som blir sant respektive falskt klassificerade när indextestet visar att de har eller saknar tillståndet. Testsvaret kan vara något av följande:

sant positivt (när både index- och referenstestet visar att tillståndet föreligger)
falskt positivt (när indextestet tyder på att tillståndet föreligger men referenstestet visar att det saknas – indextestet ger alltså ”falsklarm”)
sant negativt (både index- och referenstestet visar att tillståndet saknas)
falskt negativt (när indextestet anger att tillståndet saknas trots att referens-testet visar att det föreligger, det vill säga indextestet ”missar fallet”).

Indextestets diagnostiska tillförlitlighet – dess förmåga att ge korrekta svar jämfört med referenstestet – beskrivs ofta som dess sensitivitet och specificitet.

Sensitiviteten, känsligheten, beskriver testets förmåga att påvisa tillståndet hos dem som (enligt referenstestet) faktiskt har detta. Det anger hur stor andel av alla försöksdeltagare som har tillståndet som indextestet lyckas identifiera.

Specificiteten, testets träffsäkerhet, beskriver dess förmåga att utesluta tillståndet bland de försöksdeltagare som (enligt referenstestet) saknar detta. Det anger hur stor andel försökdeltagare som indextestet förmår att korrekt frikänna från tillståndet.

Det som sagts hittills gäller tester av sådant som antingen finns eller saknas. När forskare ska testa tillförlitligheten hos diagnos- eller bedömningsmetoder som kräver att något kvantifieras – till exempel nivån av en tumörmarkör eller blodsockerhalten – brukar de ange det lägsta värde som antas påvisa tillståndet, ett slags diagnoströskel (eng. diagnostic threshold). Var på skalan som diagnoströskeln ska sättas i en sådan prövning är inte självklart. Avgörande är bland annat om tillståndet är vanligt eller sällsynt i den grupp som undersöks. Man vill välja det värde som säkrast skiljer mellan förekomst och avsaknad av tillståndet i den aktuella gruppen.

Få testmetoder är bra på allt. Det är svårt att hitta ett test som är både mycket känsligt och mycket träffsäkert. Som regel ger känsliga test oftare falsklarm medan träffsäkra test brukar innebära fler missade fall. Användningsområdena kan därför bli olika – ett test med hög sensitivitet är värdefullt i situationer där det viktigaste är att inte missa några fall – till exempel när en fördröjd diagnos kan medföra stor skada. Hög specificitet prioriteras när det är särskilt viktigt att undvika falsklarm som kan leda till onödig oro och obefogade åtgärder som i sig innebär risker.

Ett mått som sammanfattar både känslighet och träffsäkerhet hos en diagnosmetod – vilket säger en del om dess prestanda – är den så kallade likelihood-kvoten (LR). Det är kvoten mellan två sannolikheter: sannolikheten att metoden ger ett visst resultat hos någon som har tillståndet samt hos någon som saknar det. Det finns positiv respektive negativ likelihood-kvot (LR+ respektive LR–).

lr+ anger hur troligt det är att personer med positivt testsvar verkligen har tillståndet. LR+ är kvoten mellan sannolikheterna för att testet ska ge sant respektive falskt positiva svar – alltså sannolikheten för dem som har tillståndet att vara testpositiva, dividerat med sannolikheten för dem som saknar detta att vara testpositiva.

lr– anger hur troligt det är att personer med negativt testsvar verkligen är friska. LR– är kvoten mellan sannolikheterna för att testet ska ge falskt respektive sant negativa svar – sannolikheten att vara testnegativ trots att man har tillståndet dividerat med sannolikheten att vara testnegativ om man faktiskt är frisk.

Om sannolikheterna för sanna och falska testsvar är precis lika, blir kvoten 1 såväl för LR+ som för LR–, och testet är värdelöst. Ett test som är riktigt bra på att påvisa tillstånd har LR+ över 10, och om det är riktigt bra på att utesluta tillstånd är dess LR– under 0,1.

En fördel med likelihood-kvoter är att de påverkas mindre av ett tillstånds förekomst i den studerade gruppen än måtten sensitivitet och specificitet gör.
Ibland beräknas också arean under kurvan (AUC) som ett sammantaget mått på testmetoders prestanda. Den kurva som åsyftas är en så kallad ROC (receiver operating characteristics) som visar testmetodens sensitivitet och andel falskt positiva (1–specificitet) vid olika diagnoströskel-värden. AUC anger sannolikheten att en slumpmässigt vald person som har tillståndet får ett högre testvärde än en slumpmässigt vald person som inte har tillståndet. Om AUC = 1 (100 procent) så ger testet perfekta svar. Om AUC<0,5 (50 procent) är testet inte bättre än slumpen.

Även om det är mycket viktigt att vetenskapligt fastslå hur tillförlitliga, riskfyllda och kostsamma olika tester är, räcker det inte. Det intressanta är vad en effektivare diagnostik i praktiken innebär för patienternas och brukarnas hälsa, välfärd och livskvalitet samt för vårdens och omsorgens hushållning med sina resurser. I den analysen måste man också ta hänsyn till den eventuellt efterföljande behandlingens positiva och negativa effekter, kostnader för tester och behandlingar samt etiska aspekter. RL

Vad utmärker bra studier av diagnos- och bedömningsmetoder?

Försöksdeltagarna är representativa för den grupp som i praktiken ska genomgå testet.
Två krav ställs: försöksdeltagarna ska representera rätt målgrupp och de ska ha rekryterats på ett lämpligt sätt (helst enligt en på förhand bestämd forskningsplan och antingen med hjälp av slumpen eller i turordning). Ett och samma test kan fungera olika i olika populationer, till exempel beroende på tillståndets allvarlighetsgrad och förekomsten av andra samtidiga problem. Studien beskriver populationen tydligt och redovisar vilka kriterier som används för urval av försöksdeltagare. I en blandad grupp (där färre individer har tillståndet) blir tester ofta mindre känsliga men mer träffsäkra.
Referenstestet ger korrekt besked om deltagarnas tillstånd.
Referenstestet antas ha både maximal känslighet och maximal träffsäkerhet. Om index- och referenstest ger olika svar tolkas detta som brister hos indextestet. I praktiken är dock perfekta referenstest ovanligt, något som kan ge en felaktig bild av indextestets diagnostiska tillförlitlighet. Studier av diagnostisk tillförlitlighet ska bygga på ett eller flera acceptabla referenstester. Misstänker man att ett indextest kanske är bättre än tillgängliga referenstest, kan diagnostisk tillförlitlighet inte beräknas på sedvanligt sätt.
Referens- och indextesterna har genomförts så snart efter varandra att tillståndet inte hunnit förändras mellan testtillfällena.
Helst ska index-- och referenstest genomföras samtidigt – annars kan deltagarnas tillstånd hinna försämras eller förbättras (spontant eller genom insatser) i perioden däremellan. Vad som utgör längsta acceptabla fördröjning i en studie beror på vilket tillstånd som undersöks och är en bedömningsfråga.
Samtliga försöksdeltagare (eller åtminstone ett slumpmässigt urval) har undersökts med referenstestet.
Det är inte alltid möjligt eller lämpligt att utsätta samtliga försöksdeltagare för referenstestet, som kan vara kostsamt och obehagligt eller medföra vissa risker. Studier som tillåter att svar på indextestet avgör vilka som genomgår referenstestet riskerar att ge snedvridna resultat. Detta kan man undvika om ett slumpmässigt urval av försöksdeltagare får genomgå referenstestet.
Ett och samma referenstest har använts oavsett vad indextestet visat.
Ett referenstest som är kostsamt, obehagligt och riskfyllt reserveras ibland för deltagare som enligt indextestet verkar ha tillståndet. Men detta medför risk för snedvridning av den diagnostiska tillförlitligheten. Det viktigt att studien redovisar varför olika individer får olika referenstest och vilka skillnader i kvalitet man förväntar sig hos de olika referenstesterna.
Referenstestet är oberoende av indextestet, det vill säga indextestet utgör inte en del av referenstestet. Ibland utgörs referenstestet av flera delar och av infor-mation som har samlats in under en längre period. Ett exempel är diagnoser som fastställts i samband med utskrivning från sjukhus. När svaret på indextestet ingår i denna information, kommer indextestets tillförlitlighet att överskattas.
Svaren på index- och referenstest ska ha tolkats blindat, det vill säga utan kännedom om vad det andra testet har visat. Testsvar kan påverkas av att man vet svaret på ett annat test som man jämför med. Då kan indextestets tillförlitlighet överskattas, särskilt om testsvaret måste tolkas vilket lämnar utrymme för subjektivitet. När det handlar om labbtest från oberoende laboratorier är risken mindre. Studierna bör ange huruvida blindning har använts eller inte.
Testsvaren har tolkats med tillgång till samma information som man har vid rutinmässig användning av indextestet.
För vissa indextest kan tillgång till extra fyllig information om deltagarna påverka testsvaret, särskilt när detta kräver tolkning. Ett exempel är tolkning av bildgivande undersökningar, som kan påverkas av kännedom om förekomst, karaktär och lokalisering av symtom. De uppgifter som finns tillgängliga när indextestet bedöms, bör vara desamma som finns tillgängliga i praktiken. Om indextestet är avsett att ersätta andra kliniska test, bör resultat från dessa inte finnas tillgängliga vid tolkningen.
Förekomst av oklara testsvar redovisas.
Ibland ger diagnostiska test ofullständiga eller oklara svar. Problem av denna karaktär rapporteras sällan i studier av diagnostiska test.Studier som utesluter sådana svar från analysen kan ge en felaktig bild av testets tillförlitlighet om det finns ett samband mellan oklara testsvar och förekomst av tillståndet.
Bortfall av försöksdeltagare från studien redovisas.
Bortfall av försöksdeltagare kan förekomma både för index- eller referenstest. Om det finns systematiska skillnader mellan de deltagare som fullföljer studien och de som bortfaller ur analysen kan detta snedvrida studiens resultat.

Vetenskap & Praxis

SBU:s tidning refererar och sprider resultaten från SBU-rapporterna, berättar om pågående projekt vid myndigheten, informerar om utvärderingsprojekt vid systerorganisationer samt väcker intresse för vetenskaplig utvärdering och kritisk granskning av sjukvårdens och socialtjänstens metoder och insatser.