Jämförelse av metoder för hantering av partiellt bortfall vid logistisk regressionsanalys

Detta är en Kandidat-uppsats från Linköpings universitet/Statistik och maskininlärning

Sammanfattning: Partiellt bortfall är en vanligt förekommande felkälla vid statistiska undersökningar. Med partiellt bortfall avses avsaknad av vissa variabelvärden för ett observationsobjekt, något som riskerar leda till förlust av statistisk styrka och skeva parameterskattningar. Ett stort antal metoder har utvecklats för att hantera denna problematik, och syftet med denna uppsats är att undersöka vilken effekt några av dessa metoder har på parameterskattningarna i en logistisk regressionsmodell, och huruvida dessa metoder är lämpliga att tillämpa på aktuellt datamaterial. De metoder som inkluderats i denna studie är complete case analysis, MICE och missForest. För ändamålet simuleras partiellt bortfall av olika omfattningar och under olika bortfallsmekanismer i ett verkligt datamaterial som består av 2987 observationer och fem variabler. Metoderna utvärderas sedan med avseende på normalized root mean squared error (NRMSE), samt genom att undersöka hur de regressionskoefficienter som skattats med de imputerade datamaterialen avviker från de regressionskoefficienter som skattats med det kompletta, observerade datamaterialet. missForest resulterar i lägst NRMSE. I den efterföljande logistiska regressionsanalysen resulterar dock MICE i betydligt lägre bias än missForest.

  HÄR KAN DU HÄMTA UPPSATSEN I FULLTEXT. (följ länken till nästa sida)