En komparativ studie av OCR-verktyg för granskning av handlingar : Med prestanda och precision i fokus

Detta är en Kandidat-uppsats från Karlstads universitet/Handelshögskolan (from 2013)

Författare: Niklas Sjöstedt; [2023]

Nyckelord: Optisk teckenigenkänning; Artificiell Intelligens; Python; Komparativ; Automatisering; Dokumentgranskning; Dataset; Bildbehandling; Testning;

Sammanfattning: Dagens samhälle präglas av en exponentiell tillväxt av data, med förväntningar på en ökning från dagens 33 Zettabytes till 175 Zettabytes år 2025. Denna utveckling medför både fördelar och utmaningar för de individer och organisationer som arbetar med analys av denna massiva datamängd. För att underlätta granskning och analys av data i text- eller bildform kan ett OCR- verktyg användas. OCR-verktyg, byggda på AI-teknik, kan underlätta och automatisera granskningen av data. Det finns i dagsläget en mängd olika OCR-verktyg som presterar mer eller mindre bra. Denna studie genomfördes på uppdrag av Etteplan som i dagsläget upplever en hög tid- och resursåtgång för granskning av elnätsritningar. Syftet med denna studie var att undersöka och jämföra OCR-verktygen PyTesseract, EasyOCR och PaddleOCR utifrån ett antal prestandakriterier. De kriterium som jämfördes i denna studie var exekveringstid, precision, Levenshtein-avstånd, antal tecken per millisekund, CPU-, RAM- och GPU-användning. Studien var ämnad att kunna ge en rekommendation på vilket OCR-verktyg som presterar bäst till Etteplan. Tre likvärdiga testapplikationer skapades för de olika OCR-verktygen med hjälp av Python. Dessa testapplikationers uppgift var att läsa in textdata från bilder innehållande tabeller, för att sedan jämföra resultatet av inläsningen mot en lista innehållande den faktiska texten. Denna funktionalitet gjorde det möjligt för författaren av denna studie att mäta de olika prestandakriterierna och sedan ställa dem mot varandra. Resultatet av denna studie visar att PaddleOCR är det verktyg som presterar bäst när det kommer till precision, Levenshtein-avstånd och exekveringstid. Men detta på bekostnad av högre resursanvändning.

HÄR KAN DU HÄMTA UPPSATSEN I FULLTEXT. (följ länken till nästa sida)

En komparativ studie av OCR-verktyg för granskning av handlingar : Med prestanda och precision i fokus

Sökningar just nu

Populära sökningar

Uppsatser med många visningar igår (2024-04-27)