Textanalys och Maskininlärning: En jämförelse av maskininlärningsalgoritmer för klassificering av fakturor och kvitton i e-postmeddelanden.

Detta är en Kandidat-uppsats från Lunds universitet/Högskoleingenjörsutbildning i datateknik

Sammanfattning: Enligt Skatteverket (Skatteverket, 2018-05-29) skall varje händelse som påverkar ekonomin i ett företag bokföras. Bokföringen skall grunda sig på skriftlig handling, också kallat verifikation. Bland typer av verifikationer kan en sådan vara ett kvitto eller en faktura. I ett företag där anställda gör köp åt företagets vägnar är det alltid nödvändigt att sammanställa verifikationer. Processen av att samla och sammanställa fakturor och kvitton sker oftast manuellt. Från detta kom idén att utveckla en mobilapplikation vars syfte är att samla fakturor och kvitton från en användares e-post och spara tid för användaren. För att idén för mobilapplikationen skall vara möjlig måste det finnas ett sätt att effektivt klassificera rätt dokument i ett e-postmeddelande. Ur detta kom idén till detta examensarbete. En möjlig användare till applikationen kan vara en anställd på ett företag som måste rapportera till företagets ekonomiavdelning. Syftet med examensarbetet är att hitta en lämplig lösning med hjälp av maskininlärning och språkbehandlingstekniker, som ordstam och Bag of Words, för att automatiskt kunna identifiera vad som är ett kvitto eller faktura från ett godtyckligt textdokument. Arbetet utfördes genom att jämföra tre olika maskininlärningsalgoritmer tillsammans med en modul för språkbehandling, Natural Language Toolkit, samt Bag of Words metoder. Två av algoritmerna är baserade på Naive Bayes teorem, multinomial naive bayes samt multivariate bernoulli naive bayes algoritm. Den tredje maskininlärningsmetoden är ett neuronnät. Resultatet i detta examensarbete visar att neuronnät med minst 80% framgång kan identifiera fakturor och kvitton korrekt. Naive bayes baserade maskininlärningsalgoritmer visar fluktuerande resultat. Klassificeringen av fakturor i multinomial naive bayes visar 100% framgång i klassificering av fakturor och i bästa fall 70% framgång i klassificering av kvitton. Multivariate bernoulli naive bayes algoritm visar i bästa fall 87% framgång i klassificering av fakturor och 13% framgång i klassificering av kvitton. Vid ökning av datamängden för träning av de naive bayes baserade algoritmerna försämrades det sammanställda resultatet för de båda algoritmerna. Neuronnätet visar konsekvent framgång av minst 80% oberoende av datamängden använd för träning i detta examensarbete. Sammanfattningsvis är metoder som liknar det sätt neuronnät behandlar och tolkar information bättre lämpat för denna typ av klassificeringsproblem. Anledningen till varför naive bayes algoritmerna presterar sämre är på grund av svårigheter att konsekvent formatera data av olika ursprung. Med ursprung menas olika filformat av de dokument som utgör data samt huruvida dokumentet ursprungligen har skapats genom användning av ett program, såsom Microsoft Word, eller ifall det är ett fotografi. Då data, orden i ett textdokument, inte konsekvent formateras med samma resultat är användningen av ett neuronnät fördelaktigt. Anledningen till detta är att neuronnätet inte har samma strikta riktlinjer att förhålla sig till. Nätet kommer genom många och återigen många iterationer försöka anpassa sig så att felen blir så minimala som möjligt. Ger vi nätet inkonsekvent data kommer det därav anpassa sig till det och producera bästa möjlig gissning givet den inkonsekventa träningsdatan. Naive Bayes har inte samma anpassning och måste förhålla sig till Bayes sats.

  HÄR KAN DU HÄMTA UPPSATSEN I FULLTEXT. (följ länken till nästa sida)