Hur relaterar det optimala valet av klassificeringsmetod till datamaterialets egenskaper? : En jämförande studie mellan logistisk regression, elastic net och boosting tillämpat på klassificeringsträd.

Detta är en Kandidat-uppsats från Umeå universitet/Statistik

Författare: Blaise Ngendangenzwa; Jonathan Sundin; [2015]

Nyckelord: ;

Sammanfattning: På sistone har allt mer kritik riktats mot forskning inom klassificering. Trots att forskningen har resulterat i en uppsjö av klassificeringsmetoder finns det de som menar att den har varit ett misslyckande och pekar på det faktum att ingen klassificeringsmetod anses vara systematiskt bättre än den andra eller ens rena gissningar. Detta leder till att valet av klassificeringsmetod i många fall vilar på individuella preferenser snarare än på vetenskaplig grund. Enligt litteraturen bottnar detta faktum i ett underliggande samband mellan det optimala valet av klassificeringsmetod och egenskaperna som karaktäriserar datamaterialet. Uppsatsen tar avstamp från denna problematik och syftar till att undersöka kopplingen mellan det optimala valet av klassificeringsmetod och datamaterialets egenskaper. Denna intention uppnår vi genom att tillämpa logistisk regression, elastic net och boosting tillämpat på klassificeringsträd på sex verkliga datamaterial med varierande statistiska egenskaper. Resultatet visar att den relativa klassificeringsförmågan varierar med datamaterialen. Elastic net är att föredra antalet förklaringsvariabler är större än antalet observationer, boosting tillämpat på klassificeringsträd är i sin tur det optimala valet när det förekommer multikolinjäritet medan logistisk regression äranvändbar under förutsättningen att datamängden är stor. Den generella slutsatsen från uppsatsen är således att det optimala valet beror på datamaterialet. Därmed bekräftar uppsatsen stor del av tidigare forskning inom ämnet.

  HÄR KAN DU HÄMTA UPPSATSEN I FULLTEXT. (följ länken till nästa sida)