Computational Pipeline for Analyses of Genome-Wide Nascent Transcription from PRO-seq Data

Detta är en Master-uppsats från KTH/Genteknologi

Sammanfattning: Celler har en rad olika sätt att försvara sig mot stress för att överleva, främst genom att reglera transkriptionen av gener. En metod för att undersöka hur cellens transkription förändras vid cellulär stress är precision run-on sequencing (PRO-seq). PRO-seq utnyttjar biotinkopplade nukleotider som förhindrar RNA polymeras från att inkorporera fler nukloetider efter den biotinkopplade. De olika RNA fragmenten med biotinkopplad nukleotid kan sedan separeras från all annan RNA i cellen och sedan sekvenseras. Målet med detta examensarbete är att förenkla analysen av sekvenserad PRO-seq data genom att utveckla en dataanalys-pipeline som gör denna typ av analys mer tillgänglig. Denna pipeline består av fem shell skript och tre R skript som skapar ett genomindex, laddar ned eller läser in experimentdata, anpassar data till genomet och producerar .bed och .bigWig filer för vidare analys. Genom att använda polymerasprofilen av nysyntetiserat RNA kan programmet vidare kartlägga funktionella genomregioner och analysera förändringen av genuttryck. I detta arbete användes data från värmechockade Homo sapiens, Canis lupis familiaris, Mus musculus, och Drosophila melanogaster celler. Denna analys ger en metod att studera genlängd, kartlägga funktionella genomregioner, kvantifiera mängden transkriberande RNA polymeras samt identifiera tidigare oidentifierade gener och genetiska förstärkare. Analysen visade att nyttjande av dubbelriktad transkription för att studera cellstress fungerar något bättre i däggdjur än insekter samt att gener som kodar för olika chaperoner var upreglerade i samtliga organismer. Denna pipeline är ett användarvänligt och standardiserat verktyg som hanterar storskaligt data och automatiserar analysen.

  HÄR KAN DU HÄMTA UPPSATSEN I FULLTEXT. (följ länken till nästa sida)