En jämförelse av maskininlärningsalgoritmer för uppskattning av cykelflöden baserat på cykelbarometer- och väderdata

Detta är en Kandidat-uppsats från Malmö högskola/Fakulteten för teknik och samhälle (TS)

Sammanfattning: Kontext. Maskininlärningsalgoritmer kan användas för att göra förutsägelser baserat påen mängd data. Vi använder oss utav data ifrån en cykelbarometer lokaliserad vid en cy-kelväg i Malmö i vår forskning. Denna barometer räknar antalet förbipasserande cyklarper dag. Tillsammans med väderdata, som består av temperatur och nederbörd, jämförvi precisionen hos algoritmer för uppskattning av antalet cyklister. I denna studie imple-menterar vi och testar en mängd olika maskininlärningsalgoritmer som finns tillgängliga iprogramvaran Weka. Vi tar hjälp av tidigare forskning inom ämnet för att identifiera vilkaalgoritmer som lämpar sig bäst för vår typ av data. Vi väljer sedan ut de tre algoritmermed bäst träffsäkerhet och undersöker dessa närmare.Mål. Målet med studien är att vi ska få fram vilken maskininlärningsalgoritm som gerdet mest tillförlitliga resultatet för att uppskatta antalet cyklister med hjälp av vår cykel-barometer- och väderdata.Metoder. Vi bearbetar datan ifrån cykelbarometern och väderstationen för att filtrera bortdagar som kan förvränga resultatet. Exempel på data som vi filtrerar bort är helgdagaroch skollov. Med den filtrerade datan implementerar vi ett flertal maskininlärningsalgorit-mer för att uppskatta antalet cyklister som kommer att passera barometern under en näraframtid. Resultaten ifrån algoritmerna använder vi för att jämföra och se vilken algoritmsom ger den mest tillförlitliga uppskattningen för den aktuella tillämpningen.Resultat. Enligt våra resultat är Random SubSpace och Bagging de överlägsna algorit-merna för att uppskatta cykelflöde. I samtliga av våra experiment åstadkommer dessa tvåbättre resultat än övriga algoritmer som finns tillgängliga i Weka. Resultaten därefter skil-jer sig från experiment till experiment men i genomsnitt är Wekas REPTree-algoritm dentredje mest precisa. Variabeln som bidrar mest till vår uppskattning av antalet cyklisterär datum. Utan denna variabel reduceras korrelationen till hälften för samtliga algoritmer.När vi avlägsnar temperatur-variabeln presterar däremot algoritmerna bättre genom attge högre korrelation.Analys. Vi har hittat en korrelation mellan datum och cykelflöden samt kunnat förutsägacykelflöden beroende på datum och väder. Vi förväntade oss inte att variabeln temperatur gör det svårare för algoritmer att uppskatta antal cyklister. Vi antar att detta beror på att människor väljer att cykla efter datum istället för temperatur.

  HÄR KAN DU HÄMTA UPPSATSEN I FULLTEXT. (följ länken till nästa sida)