Variabelselektion för högdimensionella data : En jämförande simuleringsstudie av variabelselektionsmetoder

Detta är en Kandidat-uppsats från Umeå universitet/Statistik

Författare: Jesper Lindberg; Oscar Lidström; [2022]

Nyckelord: ;

Sammanfattning: Högdimensionella data är något som blir allt vanligare inom flera områden som ekonomi, medicin och geologi. Detta kan ofta vara svårt att hantera. Det är därför viktigt att veta hur olika metoder som skattar regressionsmodeller fungerar och presterar för att kunna använda den metod som passar bäst utefter det syfte som finns. Syftet för denna studie är att jämföra olika metoder som skattar regressionsmodeller på högdimensionella data baserat på prediktionsförmåga, variabelselektion och koefficientskattningar. Studien jämför metoderna Lasso, Ridge, Elastic net, adaptive Lasso och adaptive Elastic net. Metoderna jämförs genom att skapa åtta olika simuleringar med olika förutsättningar för linjär regression. Även metoden Random forest jämförs med metoderna ovan i variabelselektion på högdimensionella data, där risken för Bardet-Biedl Syndrom undersöks utifrån nivån av olika gener i däggdjurs ögon. Resultatet visar på att skattningsmetoden Elastic net är den metod som i våra simuleringar oftast ger den bästa prediktionen. Denna metod fungerar bra för både variabelselektion och koefficientskattningar på de påverkande variablerna medan den är sämre i att plocka bort ochskatta de icke-påverkande variablerna. Att peka ut en metod som alltid skapar den bästa modellen är däremot svårt. Olika förutsättningar på data gör att den metod som skapar den bästa modellen varierar. Syftet till att en modell skapas har också stor inverkan på vilken metod somkommer att ge den optimala modellen.

  HÄR KAN DU HÄMTA UPPSATSEN I FULLTEXT. (följ länken till nästa sida)