Sökning: "Text-extraction"

Visar resultat 1 - 5 av 17 uppsatser innehållade ordet Text-extraction.

  1. 1. En undersökning av metoder förautomatiserad text ochparameterextraktion frånPDF-dokument med NaturalLanguage Processing

    M1-uppsats, KTH/Hälsoinformatik och logistik

    Författare :Alexander Värling; Emil Hultgren; [2024]
    Nyckelord :portable document format; faktura; digitalisering; IT-lösningar; optisk teckenigenkänning; textextraktion; naturlig språkbehandling; generative pre-trained transformer; portable document format; faktura; digitalisering; IT-lösningar; optisk teckenigenkänning; textextraktion; naturlig språkbehandling; generative pre-trained transformer;

    Sammanfattning : I dagens affärsmiljö strävar många organisationer efter att automatisera processen för att hämta information från fakturor. Målet är att göra hanteringen av stora mängder fakturor mer effektiv. Trots detta möter man utmaningar på grund av den varierande strukturen hos fakturor. LÄS MER

  2. 2. Prisestimering på bostadsrätter : Implementering av OCR-metoder och Random Forest regression för datadriven värdering

    Uppsats för yrkesexamina på avancerad nivå, Uppsala universitet/Avdelningen för systemteknik

    Författare :Sofia Lövgren; Marcus Löthman; [2023]
    Nyckelord :OCR; Optical Character recognition; Random Forest regression; price estimation; housing cooperatives; machine learning; OCR; Optisk teckenigenkänning; Random Forest regression; Prisestimering; Bostadsrätter; Maskininlärning;

    Sammanfattning : This thesis explores the implementation of Optical Character Recognition (OCR) – based text extraction and random forest regression analysis for housing market valuation, specifically focusing on the impact of value factors, derived from OCR-extracted economic values from housing cooperatives’ annual reports. The objective is to perform price estimations using the Random Forest model to identify the key value factors that influence the estimation process and examine how the economic values from annual reports affect the sales price. LÄS MER

  3. 3. Accurately extracting information from a finite set of different report categories and formats

    Master-uppsats, KTH/Skolan för elektroteknik och datavetenskap (EECS)

    Författare :Jonatan Holmbäck; [2023]
    Nyckelord :Text Extraction; PDF; Excel; Text Parsing; Data Analysis; Text Extrahering; PDF; Excel; Text Parsing; Data Analys;

    Sammanfattning : POC Sports (hereafter simply POC) is a company that manufactures gear and accessories for winter sports as well as cycling. Their mission is to “Protect lives and reduce the consequences of accidents for athletes and anyone inspired to be one”. LÄS MER

  4. 4. Automated Image Pre-Processing for Optimized Text Extraction Using Reinforcement Learning and Genetic Algorithms

    Kandidat-uppsats,

    Författare :Rahmat Rohoullah; Månsson Joakim; [2023]
    Nyckelord :BRISK; YOLO; Reinforcement learning; Evolutionary algorithm; OCR; Image pre-processing; Computer vision; BRISK; YOLO; Förstärkningslärning; Evolutionär algorithm; OCR; Bildförbehandling; Datorseende;

    Sammanfattning : This project aims to develop an automated image pre-processing chain to extract valuable information from appliance labels before recycling. The primary goal is to improve optical character recognition accuracy by addressing noise issues using reinforcement learning and an evolutionary algorithm. LÄS MER

  5. 5. Generic Data Harvester

    Kandidat-uppsats, KTH/Skolan för elektroteknik och datavetenskap (EECS)

    Författare :William Asp; Johannes Valck; [2022]
    Nyckelord :News; Articles; Newspapers; Web crawler; Web site parsing; Optimization; Web robot; Web spider; Web data extraction; HTML; Scrapy; Nyheter; Artiklar; Tidningar; Sökrobot; Analys av hemsida; Optimering; Webbrobot; Webbspindel; Data extrahering hemsidor; HTML; Scrapy;

    Sammanfattning : This report goes through the process of developing a generic article scraper which shall extract relevant information from an arbitrary web article. The extraction is implemented by searching and examining the HTML of the article, by using Python and XPath. LÄS MER