Automatisk dokumentklassificering med hjälp av maskininlärning

Detta är en Kandidat-uppsats från Örebro universitet/Institutionen för naturvetenskap och teknik

Sammanfattning: Att manuellt hantera och klassificera stora mängder textdokument tar mycket tid och kräver mycket personal, att göra detta med hjälp av maskininlärning är för ändamålet ett alternativ. Det här arbetet önskar ge läsaren en grundläggande inblick i hur automatisk klassificering av texter fungerar, samt ge en lätt samanställning av några av de vanligt förekommande algoritmerna för ändamålet. De exempel som visas använder sig av artiklar på engelska om teknik- och finansnyheter, men arbetet har avstamp i frågan om mognadsgrad av tekniken för hantering av svenska officiella dokument. Första delen är den vetenskapliga bakgrund som den andra delen vilar på, här beskrivs flera algoritmer och tekniker som sedan används i praktiska exempel. Rapporten ämnar inte beskriva en färdig produkt, utan fungerar så som ”proof of concept” för textklassificeringens användning. Avslutningsvis diskuteras resultaten från de tester som gjorts, och en av slutsatserna är att när det finns tillräckligt med data kan en enkel klassificerare prestera nästan likvärdigt med en tekniskt sett mer utvecklad och komplex klassificerare. Relateras prestandan hos klassificeraren till tidsåtgången visar detta på att komplexa klassificerare kräver hårdvara med hög beräkningskapacitet och mycket minne för att vara gångbara.  

  HÄR KAN DU HÄMTA UPPSATSEN I FULLTEXT. (följ länken till nästa sida)