IDENTIFIKATION AV RISKINDIKATORER I FINANSIELL INFORMATION MED HJÄLP AV AI/ML : Ökade möjligheter för myndigheter att förebygga ekonomisk brottslighet

Detta är en Uppsats för yrkesexamina på avancerad nivå från Umeå universitet/Institutionen för matematik och matematisk statistik

Sammanfattning: Ekonomisk brottslighet är mer lukrativt jämfört med annan brottslighet som narkotika, häleri och människohandel. Tidiga åtgärder som försvårar att kriminella kan använda företag för brottsliga syften gör att stora kostnader för samhället kan undvikas. En genomgång av litteraturen visade också att det finns stora brister i samarbetet mellan svenska myndigheter för att upptäcka grov ekonomisk brottslighet. Idag uppdagas brotten först ofta efter att en konkurs inletts. I studier har maskininlärningsmodeller prövats för att kunna upptäcka ekonomisk brottslighet och några svenska myndigheter använder maskininlärningsmodeller för att upptäcka brott men mer avancerade metoder används idag av danska myndigheter. Bolagsverket har idag ett omfattande register för bolag i Sverige och denna studie syftar till att undersöka om maskininlärning kan användas för att identifiera misstänkta bolag, genom att använda digitalt inlämnade årsredovisningar och information ur bolagsverkets register för att kunna träna klassificeringsmodeller att identifiera misstänkta bolag. För att träna modellen så har stämningsansökningar inhämtats från Ekobrottsmyndigheten som kunnat kopplas till specifika bolag av de inlämnade årsredovisningar. Principalkomponentanalys används för att visuellt visa på skillnader mellan grupperna misstänkta och icke misstänkta bolag och analyserna visade på ett överlapp mellan grupperna och ingen tydlig klustring av grupperna. Data var obalanserat med 38 misstänkta bolag av totalt 1009 bolag och därför användes översamplingstekniken SMOTE för att skapa mer syntetiskt data och för att öka antalet i gruppen misstänkta. Två maskininlärningsmodeller Random Forest och Stödvektormaskin (SVM) jämfördes i en 10 fold korsvalidering. Där båda uppvisade en recall på runt 0.91 men där Random Forest hade en mycket högre precision och med högre accuracy. Random Forest valdes och tränades på nytt och uppvisades en recall på 0.75 när den testades på osett data bestående av 8 misstänkta av 202 bolag. Ett sänkt tröskelvärde resulterade i en högre recall men med en större antal felklassificerade bolag. Studien visar tydligt problemet med obalans i data och de utmaningar man ställs inför med mindre data. Ett större data hade möjligjort ett strängare urval på brottstyper som hade kunnat ge en mer robust modell som skulle kunna användas av bolagsverket för att lättare kunna identifiera misstänkta bolag i deras register.

  HÄR KAN DU HÄMTA UPPSATSEN I FULLTEXT. (följ länken till nästa sida)