Sökning: "webbskrapning"

Visar resultat 1 - 5 av 17 uppsatser innehållade ordet webbskrapning.

  1. 1. The One Spider To Rule Them All : Web Scraping Simplified: Improving Analyst Productivity and Reducing Development Time with A Generalized Spider

    Kandidat-uppsats, KTH/Skolan för elektroteknik och datavetenskap (EECS)

    Författare :Rikard Johansson; [2023]
    Nyckelord :Web scraping; Web crawlers; HTML; Scrapy; Optimization; Web data extraction; Webbskrapning; Webbsökrobotar; HTML; Scrapy; Optimering; Webbdataextraktion;

    Sammanfattning : This thesis addresses the process of developing a generalized spider for web scraping, which can be applied to multiple sources, thereby reducing the time and cost involved in creating and maintaining individual spiders for each website or URL. The project aims to improve analyst productivity, reduce development time for developers, and ensure high-quality and accurate data extraction. LÄS MER

  2. 2. Neural Cleaning of Swedish Textual Data : Using BERT-based methods for Token Classification of Running and Non-Running Text

    Master-uppsats, KTH/Skolan för elektroteknik och datavetenskap (EECS)

    Författare :Andreas Ericsson; [2023]
    Nyckelord :Natural Language Processing; Text Cleaning; Transformers; BERT; Token Classification; Deep Learning; Språkteknologi; Textrensning; Transformers; BERT; Token-klassificering; Djupinlärning;

    Sammanfattning : Modern natural language processing methods requires big textual datasets to function well. A common method is to scrape the internet to acquire the needed data. This does, however, come with the issue that some of the data may be unwanted – for instance, spam websites. LÄS MER

  3. 3. Evaluating and comparing different key phrase-based web scraping methods for training domain-specific fasttext models

    Master-uppsats, KTH/Skolan för elektroteknik och datavetenskap (EECS)

    Författare :Love Book; [2023]
    Nyckelord :Machine Learning; Natural Language Processing; Word2vec; fasttext; KeyBERT; Web scraping; Transformers; Embeddings.; Maskininlärning; språkteknologi; Word2vec; fasttext; KeyBERT; Webbskrapning; Transformatorer; Inbäddningar.;

    Sammanfattning : The demand for automation of simple tasks is constantly increasing. While some tasks are easy to automate because the logic is fixed and the process is streamlined, other tasks are harder because the performance of the task is heavily reliant on the judgment of a human expert. LÄS MER

  4. 4. Ladok Browser Extension : An Evaluation of Browser Extension API:s

    Kandidat-uppsats, Mittuniversitetet/Institutionen för informationssystem och –teknologi

    Författare :Mukti Flora Rahman; [2022]
    Nyckelord :Browser extension; Web Scraping; API; JavaScript; TamperMonkey; GreaseMonke; Browser extension; Web Scraping; API; JavaScript; TamperMonkey; GreaseMonke;

    Sammanfattning : Syftet med denna studie har varit att undersöka ifall det är möjligt att utveckla ett användargränssnitt i form av ett webbläsartillägg för Ladok som är ett resultatsystem för universitet och högskolor i Sverige. En del av studien har också varit att kunna utvärdera minst ett sätt att skapa webbläsartillägg. LÄS MER

  5. 5. Data mining historical insights for a software keyword from GitHub and Libraries.io; GraphQL

    Kandidat-uppsats, Linköpings universitet/Institutionen för datavetenskap

    Författare :Gustaf Bodemar; [2022]
    Nyckelord :Data mining; Web scraping; Historical data analysis; GitHub; Libraries.io; GraphQL; Datautvinning; Webbskrapning; Historisk dataanalys; GitHub; Libraries.io; GraphQL;

    Sammanfattning : This paper explores an approach to extracting historical insights into a software keyword by data mining GitHub and Libraries.io. We test our method using the keyword GraphQL to see what insights we can gain. We managed to plot several timelines of how repositories and software libraries related to our keyword were created over time. LÄS MER