Random Forest för överlevnadsanalys med konkurrerande utfall : Prediktion av demens

Detta är en Kandidat-uppsats från Umeå universitet/Statistik

Författare: Jan Elfving; Sebastian Kalucza; [2021]

Nyckelord: ;

Sammanfattning: Statistik som ämnesområde är i ständig utveckling. I takt med att datorers beräkningskapacitet stadigt förbättrats har mer beräkningsintensiva metoder som tidigare varit krångliga att tillämpa nu blivit lättillgängliga. Random Forest är ett exempel på en sådan metod som vuxit fram ur dessa premisser och visat sig fungera väl på en rad statistiska problem, prediktionsproblem inkluderat. En sådan problemtyp är s.k. överlevnadsanalys. Ett sätt att göra överlevnadsmodellen mer verklighetsnära är att utöka den till att även beakta konkurrerande händelser. Konkurrerande händelser är händelser som tävlar med den huvudhändelse som studeras. Genom att beakta dessa konkurrerande händelser kan mer korrekta överlevnadsskattningar göras. I den här studien avser vi predikera demens med en Random Forest överlevnadsmodell som tar hänsyn till konkurrerande händelser (RF-SRC). Det data som analysen bygger på är från Betula-studien, en studie över tid som syftar till att identifiera riskfaktorer för demens samt tidiga, signaler på demens. Datat innehåller en del bakgrundsvariabler samt resultat från ett antal minnestester som deltagarna ombetts utföra. Den huvudsakliga konkurrerande händelsen i det här fallet är att den studerade deltagaren dör. Som ett resultat av demensprediktering får vi en skattning av respektive förklaringsvariabels relativa betydelse. Med undantag för den självskrivna variabeln ålder när individ påbörjar sitt deltagande i studien, så placerar sig ett prospektivt minnestest högst (prosp). Andra betydelsefulla förklaringsvariabler var två episodiska minnestest (sptb, sptcrc), genvarianten apoE4 samt ett visuospatialt minnestest (block). Vid jämförelse med traditionell överlevnadsanalys i form av Cox-regression utan och med hänsyn till konkurrerande händelser ser vi att samtliga kontinuerliga variabler som rankas högt i RF-SRC- modellen är signifikanta i Cox-modellerna. Däremot skiljer sig styrkeförhållandet åt en del för de två kategoriska förklaringsvariablerna apoE4 och kön, där dessa generellt sett värderas högre i Cox-modellerna. Att beslutsträd med en mix av kategoriska och kontinuerliga förklaringsvariabler tenderar att underskatta kategoriska variabler stöds av tidigare forskning. Gällande prediktionsförmåga så gjordes en jämförelse mellan RF-SRC-modellen och andra relevanta modeller med C-index som jämförelsesmått. Slutsatsen var att RF-SRC-modellen presterande aningen sämre än den traditionella prediktionsmodellen för överlevnadsanalys (Cox-regression) på detta data. Aningen förvånande var att RF-SRC modellen även presterade aningen sämre än en enklare Random Forest-modell som inte tar hänsyn till konkurrerande händelser, även om denna skillnad var liten och kan tänkas bero på slumpen.

  HÄR KAN DU HÄMTA UPPSATSEN I FULLTEXT. (följ länken till nästa sida)