Waiting
Processando Login

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

RNA neste generasjons sekvensering og en bioinformatikk rørledning for å identifisere uttrykt linje-1s på det geometriske-spesifikke nivået

Published: May 19, 2019 doi: 10.3791/59771

Summary

Her presenterer vi en Bioinformatic tilnærming og analyser for å identifisere linje-1-uttrykk på det spesifikke nivået for geometriske steder.

Abstract

Long ispedd elementer-1 (LINEs/L1s) er repeterende elementer som kan kopiere og tilfeldig inn i Genova resulterer i genomisk ustabilitet og mutagenese. Forstå uttrykket mønstre av L1 Loci på den enkelte nivå vil låne til forståelsen av biologi av denne mutagent element. Denne autonome element utgjør en betydelig del av den menneskelige Genova med over 500 000 eksemplarer, men 99% er avkortet og defekt. Men deres overflod og dominerende antall defekte Kopier gjør det vanskelig å identifisere autentisk uttrykt L1s fra L1-relaterte sekvenser uttrykt som en del av andre gener. Det er også utfordrende å identifisere hvilke spesifikke L1 geometrisk er uttrykt på grunn av repeterende naturelementene. Overvinne disse utfordringene, presenterer vi en RNA-SEQ Bioinformatic tilnærming for å identifisere L1 uttrykk på det geometriske spesifikke nivå. Oppsummert samler vi inn cytoplasmatiske RNA, velger for polyadenylated transkripsjoner, og bruker tråd spesifikke RNA-SEQ-analyser til å kartlegge leser til L1-Loci i den menneskelige referanse-Genova. Vi visuelt kapellan hver L1 geometriske med unikt kartlagt leser for å bekrefte transkripsjon fra sin egen promoter og justere kartlagt transkripsjon leser å gjøre rede for mappability av hver enkelt L1 geometriske. Denne tilnærmingen ble brukt på en prostata tumor cellelinje, DU145, for å demonstrere evnen til denne protokollen til å oppdage uttrykk fra et lite antall av full lengde L1 elementer.

Introduction

Retrotransposons er repeterende DNA elementer som kan "hoppe" i Genova i en kopi-og-lim mekanisme via RNA mellom produkter. Et delsett av retrotransposons er kjent som Long ispedd elementer-1 (LINEs/L1s) og utgjør en sjette av den menneskelige Genova med over 500, 0000 eksemplarer1. Til tross for sin overflod, de fleste av disse kopiene er defekt og avkortet med bare anslagsvis 80-120 L1 elementer antas å være aktiv2. En full-lengde L1 er ca 6 KB i lengde med 5 ' og 3 ' uoversatt regioner, en intern promoter og tilhørende anti-Sense promoter, to ikke-overlappende åpne-lesing rammer (ORFs), og et signal og polyA hale3,4,5 . Hos mennesker, L1s består av underfamilier kjennetegnes av evolusjonær alder med de eldre familiene har akkumulert mer unik sekvens mutasjoner over tid i forhold til den yngste gruppe, L1HS6,7. L1s er den eneste autonome, menneskelige retrotransposons og deres ORFs koder en omvendt transkriptase, endonuclease, og RNPs med RNA-binding og Anstandsdame aktiviteter som kreves for å retrotranspose og sette inn i Genova i en prosess referert til som mål-primet omvendt transkripsjon8,9, 10,11,12.

Retrotransposition av L1s har blitt rapportert å forårsake menneskelige germline sykdommer av en rekke mekanismer inkludert insertional mutagenese, mål-site slettinger, og rearrangements13,14,15, 16. nylig har det vært hypotetisk gjennomsnitt at L1s kan spille en rolle i oncogenesis og/eller tumorprogresjon som økt uttrykk og innsetting hendelser av dette mutagent element har blitt observert i en rekke epitel kreft17,18 . Det er anslått at det er en ny L1 innsetting i hver 200 fødsler19. Derfor er det viktig å bedre forstå biologi av aktivt uttrykker L1s. Den repeterende natur og overflod av defekte eksemplarer funnet innenfor transkripsjoner av andre gener har gjort dette analyse nivået utfordrende.

Heldigvis med bruk av høy gjennomstrømming sekvensering teknologier, har fremskritt blitt gjort for å analysere ut og identifisere autentisk uttrykke L1s på geometriske-spesifikke nivå. Det er ulike filosofier om hvordan du best kan identifisere uttrykt L1s bruker RNA neste generasjons sekvensering. Det har vært bare to rimelige tilnærminger foreslått for kartlegging L1 transkripsjoner på det geometriske-spesifikke nivå. Man fokuserer bare på potensielle transkripsjon som leser gjennom L1 polyadenylation signalet og inn flankerer sekvenser20. Vår tilnærming utnytter små sekvens forskjeller mellom L1-elementer og bare kart de RNA-SEQ leser som unikt kart til ett geometrisk element21. Begge disse metodene har begrensninger i form av kvantifisering av transkripsjon nivåer. Kvantifisering kan forbedres potensielt ved å legge til en korreksjon for den "unike mappability" av hver L1-geometrisk21, eller bruke mer komplekse algoritmer som redistribuere multi-kartlagt leser som ikke kunne unikt kartlagt til et bestemt geometrisk senter22. Her vil vi detalj i en trinnvis måte RNA utvinning og neste generasjons sekvensering og bioinformatikk protokoll for å identifisere uttrykt L1-elementer på det geometriske-spesifikke nivå. Vår tilnærming tar maksimal nytte av vår kunnskap om biologi av funksjonelle L1-elementer. Dette inkluderer å vite at funksjonell L1-elementer må genereres fra L1 arrangøren, initiert i begynnelsen av L1-elementet, må oversettes i cytoplasma og at deres transkripsjoner bør co-lineær med Genova. Kort, samler vi frisk, cytoplasmatiske RNA, velger for polyadenylated transkripsjoner, og utnytte tråd-spesifikke RNA-SEQ analyser til unikt kartleser til L1 Loci i den menneskelige referanse Genova. Disse justert leser deretter fortsatt krever omfattende manuelle håndplukking å avgjøre om transkripsjon leser stammer fra L1 arrangøren før utpeke et geometrisk som en autentisk uttrykt L1. Vi bruker denne tilnærmingen på DU145 prostata tumor cellelinje prøven for å demonstrere hvordan den identifiserer en relativt få aktivt transkribere L1 medlemmer fra massen av inaktive kopier.

Protocol

1. cytoplasmatiske RNA-ekstraksjon

  1. Skaff celler via følgende metoder.
    1. Samle levende celler fra 2.75% – 100% confluent, T-75 flasker.
      1. Vask flasken 2 ganger i 5 mL kald PBS, og i siste vask skrape av celler og overføre til en 15 mL konisk rør. Sentrifuger for 2 min ved 1 000 x g og 4 ° c, og forsiktig fjerne og forkaste Supernatanten (tabell av materialer).
    2. Samle celler fra vevsprøver.
      1. Forbered vev for cytoplasmatiske RNA-ekstraksjon innen en time fra å være dissekert og alltid holde på isen. For langtidsoppbevaring bør du bruke RNA-inhibitor-løsninger til å lagre vev i opptil 72 timer etter disseksjon etter produsentens protokoll (Material tabell).
      2. Dice en 10 μm3 prøve og homogenisere den friske prøven med 5 ml kald PBS i en steril dounce homogenisator, overføring til et 15 ml konisk rør, sentrifuge for 2 min ved 1 000 x g ved 4 ° c, og forsiktig fjerne og forkaste Supernatanten (tabell av materialer < /c8>).
  2. Tilsett 2 mL lyseringsbuffer til Cellular pellet-mix og ruge på is i 5 min.
    1. Klargjør frisk lyseringsbuffer med 150 mM NaCl, 50 mM HEPES (pH 7,4) og 25 μg/mL digitonin (tabell med materialer).
    2. Ettersom den minste konsentrasjonen av digitonin i lyseringsbufferen som kreves for å trenge gjennom plasma membranen kan variere etter celle type, bekrefter mikroskopisk at celler behandlet med lyseringsbuffer mister plasma membranen og beholder den intakte kjerne membranen.
    3. Rett før bruk, tilsett 1 000 U/mL RNase-inhibitor (tabell med materialer).
  3. Sentrifuger for 1 min ved 1 000 x g og 4 ° c, og samle supernatanten.
  4. Legg supernatanten til pre-kjølt 7,5 mL av Trizol og 1,5 mL kloroform. Alle trinnene som krever kloroform må gjøres inne i en ren kjemisk hette (tabell over materialer).
  5. Sentrifuger for 35 min ved 3 220 x g og 4 ° c.
  6. Overfør den vandige delen (øverste lag) til en frisk pre-kjølt 15 mL tube.
  7. Tilsett 4,5 mL kloroform og Vortex.
  8. Sentrifuger for 10 min ved 3 220 x g og 4 ° c.
  9. Overfør den vandige delen til frisk pre-kjølt tube.
  10. Tilsett 4,5 mL isopropanol, rist godt og ruge ved-80 ° c over natten (tabell med materialer).
  11. Sentrifuger ved 3 220 x g og 4 ° c i 45 minutter.
  12. Fjern isopropanol, tilsett 15 mL 100% etanol (tabell av materialer).
  13. Sentrifuger på 3 220 x g i 10 min.
  14. Fjern etanol, avløp og tørk i ca 1 time.
    1. Bruk en steril bomullspinne til å viske ut gjenværende etanol (tabell over materialer).
  15. Re-suspendere prøven i 100 til 200 μL av RNase fritt vann avhengig av pellet størrelse (tabell av materialer).
  16. Fractionate prøver ved hjelp av elektroforese teknologi for å bestemme kvalitet og konsentrasjon av prøver i henhold til produsentens intructions23 (tabell av materialer).
    1. Eksempler kvalifiserer for RNA-SEQ-analyse hvis RIN > 824.

2. neste generasjons sekvensering

  1. Send inn cytoplasmatiske RNA-prøver for å bli sekvensert med neste generasjons sekvensering plattform som tar sikte på å generere minst 50 000 000 sammenkoblet-end 100 BP leser.
  2. Velg for Poly-adenylated RNAs og tråd spesifikke sekvenser.

3. Opprett merknader (valgfritt hvis en har en eksisterende merknad)

  1. Opprette i sin helhet-lengden L1 merknad eller dataoverføre det i sin helhet-lengden L1 merknad (ekstra arkiv 1a-b).
    1. Dataoverføre gjentagelse masker merknader for LINE-1 Component fra det UCSC Genova kikker med det bord kikker verktøyet (https://genome.ucsc.edu/cgi-bin/hgTables). Angi pattedyret klade, den menneskelige Genova, den hg19 forsamlingen (eller hg38 for en mer oppdatert Genova), og filter for "LINJE1" underklasse navn. Last ned som en. GTF-fil og etikett som FL-L1-BLAST. GTF.
    2. Kjør en lokal BLAST søk av de første 300 BP av L 1.3 full lengde L1 element som omfatter arrangøren regionen i den menneskelige Genova og legge 6 000 BP nedstrøms for å opprette en slutten av L1 koordinater til merknads filen. Lagre i en GTF fil og etikett som FL-L1-RM. GTF.
    3. Krysser RepeatMasker-merknaden og promoter-baserte L1-merknaden ved hjelp av bedtools, og etikett som FL-L1-BLAST_RM. txt (programvarepakker).
      1. Bruk denne kommandoen i Linux-terminalen: bedtools skjærer-en fl-L1-blast. GTF-b fl-L1-RM. gtf > fl-L1-BLAST_RM. txt.
    4. Skill krysses FL-L1 merknad ved toppen og bunnen strand.
      1. Avskrift over det FL-L1-BLAST_RM. txt i regnearkprogram vare og slag av det "minus" og "addisjonstegn" strand og så slag av kromosom plasseringen.
      2. Lag to nye regnearkdokumenter, ett med krysses koordinater for full lengde L1s på minus tråden og en på den nederste tråden, og lagre som FL-L1-BLAST_RM_minus. xls og FL-L1-BLAST_RM_plus. xls.
      3. Lagre de to nye dokumentene som txt-filer.
    5. Bruk mac2unix-programmet til å konvertere txt-filene til de riktige merknads filene (programvarepakker).
      1. Bruk denne kommandoen i terminalen: Mac2unix.sh fl-L1-BLAST_RM_minus. gff.
      2. Bruk denne kommandoen i terminalen: Mac2unix.sh fl-L1-BLAST_RM_plus. gff.
      3. Lagre nye filer med. gff forlengelse.
    6. Alternativt kan du bruke AWK til å filtrere rader som er knyttet til + og – strand.
      1. Bruk følgende kommando for å få + tråd: AWK '/+/' fl-L1_BLAST_RM. gtf > fl-L1_BLAST_RM_plus. GTF.
      2. Bruk følgende kommandolinje for å få-strand: AWK '/-/' fl-L1_BLAST_RM. gtf > fl-L1_BLAST_RM_minus. GTF.

4. Les justering rørledning for å identifisere uttrykt L1s

Alternativet Beskrivelse
– p Dette beskriver hvor mange tråder datamaskinen skal bruke til å kjøre justeringen. Større datamaskinminne vil tillate flere tråder og bør være empirisk d.
– m 1 Denne forteller programmet å bare godkjenne leser det ha ettall kamp inne det Genova det er bedre enn alle annet Genova kamp.
-y Dette er tryhard bryteren som gjør kartlegging Søk etter alle mulige kamper og ikke tillate det å slutte etter et bestemt antall kamper er nådd.
-v 3 Denne bare innrømmer programmet å anvende hukommelse for kartlegger leser med 3 eller færre uoverensstemmelser å det Genova.
– X 600 Dette tillater bare sammenkoblet leser som kart innen 600 baser av hverandre. Dette gjør at lese parene er co-lineære i Genova og velger mot s involverer behandlet RNA molekyler.
– chunkmbs 8184 Denne kommandoen tildeler ekstra minne for å håndtere den store mengden justering som er mulig for hver L1-relatert lese.

Tabell 1: kommandolinjealternativer for Bowtie.

  1. Kjør justering sammenkoblet-end sekvensering fastq filer med RNA-SEQ utvalg av interesse ved hjelp Bowtie.
    Merk: Bowtie1 må brukes og ikke Bowtie2 fordi parametrene som kreves for unik justering er spesielt bare finnes i denne versjonen av Bowtie (Software Packages). Bowtie brukes over skjøte-Aware aligners som STAR for evaluere konkordante, sammenhengende leser mer relevant for L1 biologi og uttrykk.
    1. Bruk denne kommandolinjen i Linux-terminalen: Bowtie-p 10-m 1-S-y-v 3-X 600--chunkmbs 8184 hg_X_Y_M_index-1 hg_sample_1. FQ-2 hg_sample_2. FQ | samtools View-hbuS-| samtools sortering-hg_sample_sorted. Bam. Se tabell 1 for en beskrivelse av kommandolinjealternativer for Bowtie.
  2. Strand skille utgang Bam filen ved hjelp samtools (Software Packages) og følgende Linux-kommandoer. Legg merke til at de faktiske flaggverdiene kan variere hvis man ikke bruker standard neste generasjons sekvensering protokoller.
    1. Bruk denne kommandolinjen til å velge for topp-strand: samtools-visning-h hg_sample_sorted. Bam | AWK ' substr ($ 0, 1, 1) = = "@" | | $2 = = 83 | | $2 = = 163 {print} ' | samtools-visning-BS-> hg_sample_sorted_topstrand. Bam.
    2. Bruk denne kommandolinjen til å velge for den nederste strand: samtools-visning-h hg_sample_sorted. Bam | AWK ' substr ($ 0, 1, 1) = = "@" | | $2 = = 99 | | $2 = = 147 {print} ' | samtools-visning-BS-> hg_sample_sorted_bottomstrand. Bam.
  3. Generer lese telling mot merknader for L1-Loci ved hjelp av bedtools (programvarepakker).
    1. Bruk denne kommandolinjen til å generere lese teller for L1s i den forstand retning på toppen strand: bedtools dekning-abam fl-L1-BLAST_RM_plus. gff-b hg_sample_sorted_topstrand. bam > hg_sample_sorted_bowtie_tryhard_plus_top. txt.
    2. Bruk denne kommandolinjen til å generere lese teller for L1s i den forstand retning på den nederste strand: bedtools dekning-abam fl-L1-BLAST_RM_minus. gff-b hg_sample_sorted_bottomstrand. bam > hg_sample_sorted_bowtie_tryhard_minus_bottom. txt.
  4. Index Bam fil fra trinn 5.1.1 å gjøre den synlig i Integrative Genomics Viewer (IGV)25 (programvarepakker).
    1. Bruk denne kommandere line: samtools indeks hg_sample_sorted. Bam
  5. Hvis du vil bruke en batch-modus for å øke antall RNA-SEQ prøvene rør gjennom om gangen, bruk en superdatamaskin skript for å fullføre trinn 4,1 kalt human_bowtie. sh, et skript for å fullføre trinn 4.2-4.3 har blitt opprettet kalt human_L1_pipeline. sh, og et skript for å fullføre Trinn 4,4 har blitt opprettet kalt bam_index. sh. Disse skriptene kan finnes i supplerende fil 2 med tilhørende superdatamaskin kommandoer for å kjøre skript.

5. manuell håndplukking

  1. Opprett et regneark for lesing som er tilordnet til hvert enkelt kommentert L1-geometrisk.
    1. Avskrift over hg_sample_sorted_bowtie_tryhard_minus_bottom. txt skapt inne steg 4.3.2 og avmerke side idet "minus-bunnen"
      1. Sorter alle kolonner basert på høyeste til laveste antall leser funnet i kolonne J.
    2. Avskrift over hg_sample_sorted_bowtie_tryhard_plus_top. txt skapt i takt 4.3.1 og avmerke idet "topp-addisjonstegn" inne en annen regneark.
      1. Sorter alle kolonner basert på høyeste til laveste antall leser funnet i kolonne J.
    3. Lag en tredje side merket som "kombinert" og legge til alle Loci med ti eller flere leser fra "minus-bunn" og "pluss-Top" sider.
      1. Sorter alle kolonner basert på høyeste til laveste antall leser funnet i kolonne J.
    4. Belaste det fulgte fil-størrelse i IGV25 (programvarepakkene): 1) henvisning Genova av interesse å visualisere kommenterte gener, 2) fl-L1-BLAST_RM. gff å visualisere L1 merknad, 3) hg_sample_sorted. Bam å visualisere kartlagt transkripsjoner fra prøve av interesse, og 4) hg_genomicDNA_sorted. Bam å vurdere mappability av genomisk regioner.
    5. Fjern deknings-og koblings rader som er knyttet til hver Bam-fil.
    6. Omslag hg_sample_sorted. Bam og hg_genomicDNA_sorted. Bam så alle IGV spor anfall opp på ettall skjermen.
  2. Manuell kapellan.
    1. Ved hjelp av koordinater fra Loci som er oppført på regnearket "kombinert", vises kalt Loci i IGV25 (programvarepakker).
    2. Kapellan en geometrisk for å være autentisk uttrykt av seg selv hvis det ikke er noen leser oppstrøms i L1 retning opp til 5 kb.
      1. Label raden grønn i fargen og Legg merke til hvorfor det er en autentisk uttrykt L1.
        Merk: et unntak til denne regelen finnes hvis regionen oppstrøms for L1 ikke er som kan tilordnes. Hvis dette er tilfelle, etiketten raden rød i fargen og Merk at uttrykket av regionen oppstrøms av L1 arrangøren ikke kan evalueres, og derfor L1's uttrykket ikke er i stand til å være trygt bestemmes.
    3. Kapellan en geometrisk for ikke å være autentisk uttrykt av sin egen promoter hvis det er leser oppstrøms opptil 5 kb.
      1. Label raden rød i fargen og Legg merke til hvorfor det ikke er en autentisk uttrykt L1.
      2. Kapellan et geometrisk som falskt hvis det uttrykkes i en Intronets opprinnelse av et uttrykt gen i samme retning med leser oppstrøms av L1, hvis det er nedstrøms av et uttrykt gen i samme retning med leser oppstrøms av L1, eller for un-kommenterte uttrykks mønstre med re annonser oppstrøms av L1.
        Merk: et unntak til denne regelen gjelder når det er minimal leser direkte overlappende L1 promoter startside, men litt oppstrøms av L1. Hvis det ikke er andre leser oppstrøms av en L1 sak som dette, bør du vurdere dette L1 å være autentisk uttrykt. Label rad grønn farge og Legg merke til hvorfor det er en autentisk uttrykt L1.
    4. Viser et L1-geometrisk som sannsynligvis vil være falskt Hvis mønsteret for tilordnede leser til den geometriske siden ikke samsvarer med de spesifikke L1's-regionene i mappability.
      Merk: for eksempel, hvis en L1 er svært som kan tilordnes, men bare har en haug av leser i en kondensert region i L1, er det mindre sannsynlighet for å være relatert til L1 uttrykk av sin egen promoter og mer sannsynlig å være fra un-kommentert kilder som exoner eller LTRs. I slike tilfeller, Loci som oransje og Legg merke til hvorfor det er mistenkelig. Bekrefte kilder av mistenksom bunke-ups av avmerker det L1 plasseringen inne UCSC Genova kikker.
    5. Kapellan et geometrisk sted å ikke være autentisk uttrykt hvis det er innenfor et genomisk miljø av sporadisk uttrykt un-kommenterte regioner
      Merk: for eksempel, leser kan uttrykkes 10 kB oppstrøms av L1, men hver 10 kB eller så er det kartlagt leser og noen av disse leser align med L1. Disse L1s er mindre sannsynlighet for å bli uttrykt av sin egen promoter, og mer sannsynlig å ha kartlagt leser på grunn av un-kommentert mønstre av genomisk uttrykk. I slike tilfeller, Loci som oransje og Legg merke til hvorfor det er mistenkelig.

6. Les justering strategi for å vurdere mappability i referanse Genova (valgfritt hvis man har et eksisterende justert genomisk DNA datasett)

  1. Last ned hele Genova DNA sekvens filer og konvertere til. FQ filer
    1. Gå til NCBI nettsted finner du her: https://www.ncbi.nlm.nih.gov/sra
    2. Type inne WGS jakten sammenkoblet end.
    3. Velg for homo sapiens under resultater etter takson.
    4. Velg et eksempel som er sammenkoblet slutten og har lest med 100 eller mer BP som følgende eksempel: https://www.ncbi.nlm.nih.gov/sra/ERX457838 [accn]
    5. Bekreft lese lengde ved å velge Kjør og deretter metadata som vist her: https://Trace.ncbi.nlm.nih.gov/Traces/SRA/?Run=ERR492384
    6. Hvis du vil laste ned hele Genova sekvens data, skriver du inn denne kommandoen i Linux -terminalen: sratoolkit. 2.9.2-mac64/bin/forhåndshenting-X 100G ERR492384
      Merk: SRA verktøykasse forhåndshenting funksjonen laster ned tiltredelse nummer "ERR492384" funnet i NCBI området (programvarepakker). "100G" begrenser mengden nedlastede data til 100 gigabyte.
    7. Skriv inn denne kommandoen i Linux-terminalen: fastq-dump--Split-filer ERR492384
      Merk: Dette deler den nedlastede genomisk DNA-datasett i to fastq filer.
  2. Kjør justering ved hjelp av Bowtie.
    1. Bruk denne kommandoen i Linux for justering: Bowtie-p 10-m 1-S-y-v 3-X 600--chunkmbs 8184 hg_X_Y_M_index-1 hg_genomicDNA_1. FQ-2 hg_genomicDNA_2. FQ | samtools View-hbuS-| samtools Sorter – hg_genomicDNA_sorted. Bam.
      1. Se trinn 4,1 for å forstå parameterne som brukes i Bowtie-justeringen (programvarepakker).
      2. Dataoverføre det genomically oppstilt Bam arkiv å vurdere mappability anvendelig på forfatteren anmodning.
  3. File index Bam fra trinn 4.2.1 bruker samtools å gjøre den synlig i IGV25 (Software pakker) for ytterligere å informere manuell håndplukking.
    1. Bruk denne kommandere line inne Linux: samtools indeks hg_genomicDNA_sorted. Bam
  4. Vurder mappability for hver L1-Loci
    1. Bestem antall unikt kartlagt leser til L1-Loci ved hjelp av bedtools programmet, FL-L1-merknaden og de justerte genomisk sekvens dataene (programvarepakker).
      1. Bruk denne kommandolinjen i Linux: bedtools dekning-abam fl-L1-BLAST_RM. GTF-b hg_genomicDNA_sorted. bam ≫ L1_Mappability_hg_genomicDNA. txt.
    2. Utpeke et L1-geometrisk til å ha full dekning mappability når 400 unike leser er justert til det.
    3. Bestem faktoren som kreves for å skalere opp eller ned genomisk DNA justert leser til 400 for hver enkelt L1.
    4. Hvis du vil ha en skalert mål på uttrykk i henhold til individuelle L1-geometriske mappability, multipliserer du faktoren som bestemmes i trinn 6.4.3, med antall RNA-transkripsjon som er justert til autentisk uttrykt L1s bestemt i punkt 4 – 5.

Representative Results

Trinnene beskrevet ovenfor og beskrevet grafisk i figur 1 ble brukt på en menneskelig prostata tumor cellelinje DU145. RNA-prøven var cytoplasmically klar og ble neste generasjons sekvensert i en Poly-A valgt, tråd spesifikk, sammenkoblet ende protokoll. Ved hjelp av Bowtie ble de sammenkoblede filene justert slik at bare unike treff der den sammenkoblede enden ble matchet bedre til en genomisk plassering sammenlignet med andre genomisk plassering. Den DU145 sekvensen filene ble justert til den menneskelige referanse Genova opprette en Bam fil, som er tilgjengelig på forfatteren forespørsel. Bruke bedtools, data ble Hentet fra DU145 strand-separerte Bam filer på antall leser som er tilordnet til full lengde L1s. De leser ble sortert i et regneark fra største til minste og manuelt vurdert ved å undersøke det genomisk miljøet rundt hvert L1-geometrisk i IGV for å bekrefte ektheten (supplerende tabell 1). Hvis et utvalg var vurdert å være autentisk uttrykt, det var fargekodet grønn med en forklaring på sin aksept i den høyre kolonnen. Eksempler på L1-Loci som er akseptert å være autentisk uttrykt i følgende retningslinjer beskrevet i delen metoder er vist i figur 2a-b. Hvis et utvalg ble avvist for å være autentisk uttrykt, ble det fargekodet som rødt med årsaken til avvisning på den høyre kolonnen. Eksempler på L1-Loci forkastet på grunn av uttrykk fra en formidler annet enn sine egne følgende retningslinjer beskrevet i fremgangsmåte delen er beskrevet i figur 2c-e.

Her, bare full-lengde L1s med en intakt promoter regionen ble studert. Hvis dette skillet ikke er gjort, en stor kilde til transcriptional støy som stammer fra avkortet L1s er innført. Eksempler på avkortet L1s i DU145 er vist i Figur 3a-b der de ble identifisert som har unikt kartlagt RNA-SEQ leser. I IGV, er det imidlertid tydelig at disse transkripsjoner ikke ble initiert fra avkortet L1, men fra inkluderingen av L1 sekvensen i et gen eller nedstrøms fra en uttrykt genet.

Samlet i DU145, prosentandelen av full lengde L1 Loci og leser som er avvist som autentisk uttrykt L1s etter manuell håndplukking er ca 50% (supplerende tabell 2) demonstrere det høye nivået av L1 kartlagt transkripsjon leser som ville ellers være registrert idet false positiv uten håndbok håndplukking. Nærmere bestemt i DU145 var det 114 totalt full lengde L1 Loci å ha unikt kartlagt leser i den forstand retning med totalt 3 152 leser, men det var bare 60 Loci identifisert å bli uttrykt av sin egen promoter etter manuell håndplukking med 1 879 leser ( Tilleggs tabell 1). Dette er tilfelle selv når skritt ble tatt for å redusere uttrykket irrelevant for L1 biologi ved å velge for cytoplasmatiske mRNA. Legg merke til at den geometriske siden med det høyeste nivået av kartlagt transkripsjoner i DU145 ble avvist fordi det ikke var en autentisk uttrykt L1 (Figur 4). Totalt antall tilordnede transkripsjoner til bestemte L1-Loci områder på samme måte mellom den godtatte og avviste L1-Loci som autentisk uttrykt etter manuell håndplukking (Figur 4).

Etter manuell håndplukking, antall leser som kart unikt til autentisk uttrykt spesifikke L1-Loci i DU145 spenner fra 175 leser til en vilkårlig valgt minimum avskåret av 10 leser (figur 5). Denne tilnærmingen til å identifisere unikt kartlagt transkripsjon leser til L1s begrenser evnen til å nøyaktig kvantifisere uttrykk. For å gjøre rede for dette, ble det opprettet en korrigerings faktor for hvert enkelt knutepunkt basert på mappability. For å opprette denne korreksjon faktor, første bedtools ble brukt til å trekke ut antall unikt kartlagt leser fra HeLa genomisk Bam fil som er justert til alle full-lengde L1 Loci og grafisk de Loci fra høyeste til laveste kartlagt transkripsjon leser (supplerende Figur 1). Det var vilkårlig utpekt som L1s med 400 leser hadde full dekning mappability. Antallet leser i stand til å kartlegge en L1 geometrisk i HeLa genomisk sekvensering prøven ble skalert i forhold til 400 leser og at skalert antall ble deretter multiplisert til antall leser som er tilordnet til hver autentisk uttrykt L1 Loci i DU145 (supplerende tabell 2) . Som forventet kom L1-elementene som hadde større korrigerings resultater for mappability, fra yngre underfamilier som L1PA2 (supplerende tabell 2). Når leser ble justert for mappability score i hvert geometrisk, kvantifisering for uttrykk for de fleste Loci økt (figur 6). Antallet leser som kartlagt unikt til autentisk uttrykt spesifikke L1 Loci med mappability korreksjoner i DU145 varierte fra 612 til 4 leser og det var en re-bestilling av høyeste til laveste uttrykker Loci (figur 6).

Figure 1
Figur 1: arbeidsflyt skjematisk.
Grafisk beskrevet er fremgangsmåten for å identifisere uttrykt L1s i en menneskelig prøve. Vær oppmerksom på at trinn 1 og 2 ikke trenger å gjentas hvis de aktuelle filene allerede er tilgjengelige. Disse riktige filene kan lastes ned fra supplement fil 1a-b og supplement fil 2. Boksene i rødt indikerer trinnene der bedtools dekning programmet brukes til å telle antall leser kartlegging til L1s i samme forstand retning. Disse Loci med sans orientert kartlegging leser er L1s som bør være manuelt utvalgte. Vennligst klikk her for å se en større versjon av dette tallet.

Figure 2
Figur 2: eksempler på utvalgte L1-Loci i DU145.
Lastet inn i IGV er referansen Genova, full lengde L1 gff merknad fil som samsvarer med referanse Genova versjon (supplement fil 1), den DU145 Bam fil, og til slutt genomisk HeLa Bam fil for å vurdere mappability, som alle er tilgjengelige på forfatter Forespørsel. Piler er lagt til hjelp i visualisering av retning av kommenterte L1. Piler og leser i rødt er orientert i rekkefølge fra høyre til venstre. Piler og leser i blått er orientert i rekkefølge fra venstre mot høyre. a) i IGV, dette L1 geometriske synes å være uttrykt av sin egen promoter som det ikke er noen leser oppstrøms av L1 i den forstand orientering for over 5 kb. Dette L1 har lav mappability, det er ikke i et gen, og har bevis for forventet antisens promoter aktivitet26. b) i IGV, dette L1 geometriske synes å være uttrykt av sin egen promoter som det ikke er noen leser oppstrøms på L1 i den forstand orientering for over 5 kb. Dette L1 har lav mappability og er innenfor et gen i motsatt retning. c) i IGV ble dette L1-geometrisk avvist som en uttrykt L1 som det er oppstrøms leser i samme retning innen 5 kb. Dette L1 er innenfor et gen i samme retning, slik at transkripsjon leser er mest sannsynlig kommer fra formidler av den uttrykte genet. d) i IGV, dette L1-geometrisk ble avvist som en uttrykt L1 som det er oppstrøms leser i samme retning innen 5 kb. Dette L1 er nedstrøms av en svært uttrykt genet i samme retning, slik at transkripsjon leser er mest sannsynlig kommer fra formidler av det uttrykte genet og strekker seg utover det normale genet Terminator. e) i IGV, dette L1 geometrisk ble avvist som en uttrykt L1 som det er oppstrøms leser i samme retning innen 5 kb. Dette L1 er ikke innenfor eller i nærheten av en kommenterte genet i referanse genet slik opprinnelsen til disse transkripsjoner innenfor og oppstrøms av L1 element tyder på en un-kommentert promoter. Vennligst klikk her for å se en større versjon av dette tallet.

Figure 3
Figur 3: bakgrunnsstøyen kommer også fra avkortet L1s.
Våre L1 merknaden inkluderer ikke avkortet L1s som de er en viktig kilde til bakgrunnsstøy. Piler er lagt til hjelp i visualisering av retning av kommenterte L1. Piler og leser i blått er orientert i rekkefølge fra venstre mot høyre. a) demonstrert er et eksempel på en avkortet L1 i L1MB5-sufamily som er 2706 bps. I IGV er det tydelig at de leser kommer fra nedstrøms forlengelsen av et uttrykt gen. b) vises er et annet eksempel på en avkortet L1. Dette L1 er en L1PA11 som er 4767 bps lang. I IGV er det tydelig at leser kartlegging unikt til L1 stammer fra den uttrykte ekson, som L1 er innenfor. Vennligst klikk her for å se en større versjon av dette tallet.

Figure 4
Figur 4: transkripsjon leser at kartet unikt til alle full-lengde intakt L1s i den menneskelige Genova uttrykt i DU145 prostata tumor cellelinje.
I svart er de spesifikke Loci som skal identifiseres som autentisk uttrykt etter manuell håndplukking og i rødt er de spesifikke Loci som skal avvises som autentisk uttrykt leser etter manuell håndplukking. I grått er Loci med mindre enn ti leser kartlegging til hver. Ettersom disse Loci representerer en liten brøkdel av transkripsjon leser, var de ikke manuelt kapellan. X-aksen tick merkene betegne hver 100 full-lengde, intakt L1s. omtrent 4 500 Loci er ikke grafisk vist som de hadde null kartlagt leser. Vennligst klikk her for å se en større versjon av dette tallet.

Figure 5
Figur 5: transkripsjon leser at kartet unikt til autentisk uttrykt full lengde intakt L1s i DU145 prostata tumor cellelinje.
Vist er antall transkripsjon leser som kart til bestemte Loci i DU145 celler etter manuell håndplukking. Vennligst klikk her for å se en større versjon av dette tallet.

Figure 6
Figur 6: leser kartlegging til autentisk uttrykt L1 når justert av mappability.
Vist er antall transkripsjon leses justert av Loci-spesifikke mappability score som kart til manuelt utvalgte L1 Loci i DU145 celler. Vennligst klikk her for å se en større versjon av dette tallet.

Tilleggsfil 1: merknader for full-length, intakt Human L1s henhold til orientering. a) FL-L1-BLAST_RM_minus. gff. b) fl-L1-BLAST_RM_plus. gff. Vennligst klikk her for å laste ned denne filen.

Tilleggsfil 2: superdatamaskin skript som brukes til å automatisere den bioinformatikk rørledningen som er beskrevet i avsnitt 4. Vennligst klikk her for å laste ned denne filen.

Supplerende figur 1: genomisk DNA-prøve som brukes til å bestemme L1-mappability.
Vist er antall genomisk transkripsjon leser fra HeLa cellelinjen prøven som kart unikt til alle 5 000 full lengde L1 Loci i Genova. Det ble utpekt som en L1 har full dekning mappability når 400 leser kart til L1. Vennligst klikk her for å laste ned dette tallet.

Supplerende tabell 1: manuell håndplukking av L1s i DU145. Vennligst klikk her for å laste ned denne tabellen.

Tilleggs tabell 2: Utvalgte L1s i DU145 med mappability justering. Vennligst klikk her for å laste ned denne tabellen.

Discussion

L1 aktivitet har vist å forårsake genetisk skade og ustabilitet bidra til sykdom27,28,29. Av de omtrent 5 000 i full lengde L1 eksemplarer, bare noen få dusin evolutionarily unge L1s står for flertallet av retrotransposition aktivitet2. Men det er bevis for at selv noen eldre, retrotranspositionally-incompentent L1s er fortsatt i stand til å produsere DNA skadelige proteiner30. For å få fullt utbytte av rollen til L1s i genomisk ustabilitet og sykdom, må L1-uttrykket på det geometriske-spesifikke nivået forstås. Men den høye bakgrunn av L1-relaterte sekvenser innlemmet i andre RNAs relatert til L1 retrotransposition utgjør en betydelig utfordring i å tolke autentiske L1 uttrykk. En annen utfordring med å identifisere og derfor forstå uttrykks mønstre av individuelle L1-Loci oppstår på grunn av deres repeterende natur som ikke tillater mange korte lese sekvenser å kartlegge til et enkelt unikt geometrisk sted. For å overvinne disse utfordringene, utviklet vi den ovenfor beskrevne tilnærmingen for å identifisere uttrykk for individuelle L1-Loci ved hjelp av RNA-SEQ-data.

Vår tilnærming filtrerer det høye nivået (over 99%) av transcriptional støy generert fra L1-sekvenser som ikke er relatert til L1-retrotransposition ved å ta en rekke trinn. Det første trinnet innebærer utarbeidelse av cytoplasmatiske RNA. Ved å velge for cytoplasmatiske RNA, L1-relaterte leser funnet innenfor uttrykt intronic mRNA i kjernen er betydelig oppbrukt. I sekvensering biblioteket forberedelse, et skritt tatt for å redusere transcriptional støy som ikke er relatert til L1s inkludere valg av polyadenylated transkripsjoner. Dette fjerner L1-relaterte transkripsjon støy funnet i ikke-mRNA arter. Et annet trinn inkluderer tråd-spesifikke sekvensering for å identifisere og eliminere antisens L1-relaterte transkripsjoner. Bruken av en merknad for full-length L1s med funksjonell promoter regioner når identifisere antall RNA-SEQ transkripsjoner som kart til L1s også eliminerer bakgrunnsstøy som ellers kommer fra avkortet L1s. Til slutt, det siste kritiske trinnet i å eliminere transcriptional støy av L1 sekvenser relatert til L1 retrotransposition er manuell håndplukking av full lengde L1s identifisert å ha kartlagt RNA-SEQ transkripsjoner. Den manuelle håndplukking innebærer visualisering av hver bioinformatically identifisert-å-være-uttrykt L1 geometriske i sammenheng med sine omkringliggende genomisk miljø for å bekrefte at uttrykket kommer fra L1 arrangøren. Denne tilnærmingen ble brukt til DU145, en prostata tumor cellelinje. Selv med all utarbeidelse-relaterte tiltak for å redusere bakgrunnsstøy, ca 50% av L1 Loci identifisert bioinformatically i DU145 ble avvist som L1 bakgrunnsstøy som stammer fra andre transcriptional kilder (Figur 4), understreker rigor som kreves for å produsere pålitelige resultater. Denne tilnærmingen ved hjelp av manuelle håndplukking er arbeidsintensiv, men nødvendig i utviklingen av denne rørledningen for å evaluere og forstå genomisk miljøet rundt en full-lengde L1. De neste trinnene inkluderer å redusere mengden av nødvendige manuelle håndplukking ved å automatisere noen av håndplukking regler, men på grunn av fortsatt ikke helt kjent natur genomisk uttrykk, un-kommentert kilder til uttrykk i referanse Genova, regioner av lav mappability, og selv kompliserer faktorer involvert i byggingen av en referanse Genova er det ikke være mulig å fullt automatisere L1 håndplukking på dette tidspunktet.

Den andre utfordringen i å identifisere uttrykk for individuelle L1-Loci med sekvensering relaterer seg til kartlegging av repeterende L1-transkripsjoner. I denne justeringen strategien er det nødvendig at en transkripsjon må justere unikt og co-lineært til referanse-Genova for å bli tilordnet. Ved å velge for sammenkoblede sekvenser som kart concordantly, øker antall transkripsjoner som entydig justerer til L1-Loci som finnes i referanse-Genova. Denne unike kartlegging strategien gir trygghet i kallet av leser kartlegging spesielt til en enkelt L1 geometrisk, selv om det potensielt undervurderer uttrykket antall hver identifisert-å-være-autentisk uttrykt, repeterende L1. For å være tilnærmet korrekt for denne undervurdering, ble en «mappability»-poengsum for hvert L1-geometrisk basert på dens mappability utviklet og brukt på antallet unikt kartlagt transkripsjon leser (figur 6). Det er en note det ideal, mappability burde være snes å i sin helhet dekket leser vannrett det i sin helhet-lengden L1 alt etter passet WGS eksemplar. Her bruker vi WGS av HeLa celler for å bestemme mappability score til hver L1 Loci for å blåse eller tømming leser kartlegging til L1 Loci i DU145 prostata tumor cellelinjer. Dette mappability beregningen er en grov korreksjon score, men den valgte "fullstendig dekning mappability" av 400 leser ble bestemt med dynamisk natur tumor cellelinjer i tankene. Det kan observeres i supplerende figur 1, at det er noen L1 Loci med HeLa WGS med ekstremt høyt antall kartlagt leser. Disse sannsynligvis kommer fra duplisert kromosom sekvenser innen HeLa som ikke er innenfor referanse Genova, som er grunnen til at disse Loci ikke ble valgt til å være representative for fullstendig mappability dekning. I stedet ble det fastslått at gjennomsnittet av 100% lese dekningen skjer rundt 400 leser i henhold til supplerende figur 1 og ble deretter antatt at dette gjennomsnittet gjelder for DU145 tumor prostata cellelinje også.

Denne justeringen strategi med 100-200 BP leser fra RNA-SEQ teknologi også fortrinnsvis velger for evolutionarily eldre L1s innenfor referanse Genova som eldre L1s har akkumulert over tid unike mutasjoner som gjør dem mer som kan tilordnes. Denne tilnærmingen har derfor begrenset følsomhet når det gjelder å identifisere den yngste av L1s så vel som ikke-referanse, polymorfe L1s. For å identifisere den yngste av L1s, foreslår vi at du bruker 5 ' RACE utvalg av L1 transkripsjoner og sekvensering teknologi som PacBio som gjør bruk av lengre leser21. Dette tillater mer unike kartlegging og derfor trygg identifisering av den uttrykte, unge L1s. Bruk av RNA-SEQ og PacBio tilnærminger sammen kan føre til en mer omfattende liste av autentisk uttrykt L1s. Å identifisere autentisk uttrykt polymorfe L1s, de første neste trinnene inkluderer bygging og innsetting av polymorfe sekvenser i referanse Genova.

De biologiske og tekniske utfordringene i å studere gjenta sekvenser er store, men med den ovennevnte strenge prosedyren for å fjerne transcriptional støy av L1-sekvenser un-relatert til retrotransposition ved hjelp av RNA-sekvensering teknologi, begynner vi å sile gjennom de store nivåene av transcriptional bakgrunnsstøy og å være trygt og strengt identifisere L1 uttrykks mønstre og kvantitet på det enkelte geometriske nivå.

Disclosures

Forfatterne har ingenting å avsløre.

Acknowledgments

Vi vil gjerne takke Dr. Yan Dong for DU145 prostata tumorceller. Vi vil gjerne takke Dr. Nathan Ungerleider for hans veiledning og råd i å lage superdatamaskin skript. Noe av dette arbeidet ble finansiert av NIH tilskudd R01 GM121812 til PD, R01 AG057597 til VPB, og 5TL1TR001418 til TK. Vi vil også erkjenne støtte fra kreft korsfarerne og Tulane Cancer Center bioinformatikk Core.

Materials

Name Company Catalog Number Comments
1 M HEPES Affymetrix AAJ16924AE
5 M NaCl Invitrogen AM9760G
Agilent bioanalyzer 2100 Agilent technologies
Agilent RNA 6000 Nano Kit Agilent technologies 5067-1511
bedtools.26.0 https://bedtools.readthedocs.io/en/latest/content/installation.html
bowtie-0.12.8 https://sourceforge.net/projects/bowtie-bio/files/bowtie/0.12.8/
Cell scraper Olympus plastics 25-270
Chloroform Fisher C298-500
Digitonin Research Products International Corp 50-488-644
Ethanol Fisher A4094
Gibco (Phosphate Buffered Saline) Invitrogen 10-010-049
Homogenizer Thomas Scientific BBI-8541906
IGV 2.4 https://software.broadinstitute.org/software/igv/download
Isopropanol Fisher A416-500
mac2unix https://sourceforge.net/projects/cs-cmdtools/files/mac2unix/
Q-tips Fisher 23-400-122
RNAse later solution Invitrogen AM7022
RNaseZap RNase Decontamination Solution Invitrogen AM9780
samtools-1.3 https://sourceforge.net/projects/samtools/files/
sratoolkit.2.9.2 https://github.com/ncbi/sra-tools/wiki/Downloads
SUPERase·In RNase Inhibitor Invitrogen AM2694
Trizol Invitrogen 15-596-018
Water (DNASE, RNASE free) Fisher BP2484100

DOWNLOAD MATERIALS LIST

References

  1. International Human Genome Sequencing. Initial sequencing and analysis of the human genome. Nature. 409, 860 (2001).
  2. Brouha, B., et al. Hot L1s account for the bulk of retrotransposition in the human population. Proceedings of the National Academy of Sciences of the United States of America. 100 (9), 5280-5285 (2003).
  3. Dombroski, B. A., Mathias, S. L., Nanthakumar, E., Scott, A. F., Kazazian, H. H. Isolation of an active human transposable element. Science. 254 (5039), 1805 (1991).
  4. Swergold, G. D. Identification, characterization, and cell specificity of a human LINE-1 promoter. Molecular and Cellular Biology. 10 (12), 6718-6729 (1990).
  5. Speek, M. Antisense promoter of human L1 retrotransposon drives transcription of adjacent cellular genes. Molecular and Cellular Biology. 21 (6), 1973-1985 (2001).
  6. Deininger, L., Batzer, M. A., Hutchison, C. A., Edgell, M. H. Master genes in mammalian repetitive DNA amplification. Trends in Genetics. 8 (9), 307-311 (1992).
  7. Boissinot, S., Chevret, P., Furano, A. L1 (LINE-1) Retrotransposon Evolution and Amplification in Recent Human History. Molecular Biology and Evolution. 17 (6), 915-918 (2000).
  8. Khazina, E., Weichenrieder, O. Non-LTR retrotransposons encode noncanonical RRM domains in their first open reading frame. Proceedings of the National Academy of Sciences of the United States of America. 106 (3), 731-736 (2009).
  9. Martin, S. L., Bushman, F. D. Nucleic acid chaperone activity of the ORF1 protein from the mouse LINE-1 retrotransposon. Molecular and Cellular Biology. 21 (2), 467-475 (2001).
  10. Feng, Q., Moran, M. H., Kazazian, H. H., Boeke, J. D. Human L1 Retrotransposon Encodes a Conserved Endonuclease Required for Retrotransposition. Cell. 87 (5), 905-916 (1996).
  11. Mathias, S. L., Scott, A. F., Kazazian, H. H., Boeke, J. D., Gabriel, A. Reverse transcriptase encoded by a human transposable element. Science. 254 (5039), 1808 (1991).
  12. Luan, D. D., Korman, M. H., Jakubczak, J. L., Eickbush, T. H. Reverse transcription of R2Bm RNA is primed by a nick at the chromosomal target site: A mechanism for non-LTR retrotransposition. Cell. 72 (4), 595-605 (1993).
  13. van den Hurk, J. A. J. M., et al. Novel types of mutation in the choroideremia (CHM) gene: a full-length L1 insertion and an intronic mutation activating a cryptic exon. Human Genetics. 113 (3), 268-275 (2003).
  14. Miné, M., et al. A large genomic deletion in the PDHX gene caused by the retrotranspositional insertion of a full-length LINE-1 element. Human Mutation. 28 (2), 137-142 (2007).
  15. Solyom, S., et al. Pathogenic orphan transduction created by a nonreference LINE-1 retrotransposon. Human Mutation. 33 (2), 369-371 (2012).
  16. Hancks, D. C., Kazazian, H. H. Roles for retrotransposon insertions in human disease. Mobile DNA. Mobile DNA. 7, 9-9 (2016).
  17. Tubio, J. M. C., et al. Mobile DNA in cancer. Extensive transduction of nonrepetitive DNA mediated by L1 retrotransposition in cancer genomes. Science. 345 (6196), 1251343-1251343 (2014).
  18. Ewing, A. D., et al. Widespread somatic L1 retrotransposition occurs early during gastrointestinal cancer evolution. Genome Research. 25 (10), 1536-1545 (2015).
  19. Beck, C. R., Garcia-Perez, J. L., Badge, R. M., Moran, J. V. LINE-1 elements in structural variation and disease. Annual Review of Genomics and Human Genetics. 12, 187-215 (2011).
  20. Philippe, C., et al. Activation of individual L1 retrotransposon instances is restricted to cell-type dependent permissive loci. eLife. 5, e13926 (2016).
  21. Deininger, P., et al. A comprehensive approach to expression of L1 loci. Nucleic Acids Research. 45 (5), e31-e31 (2017).
  22. Jin, Y., Tam, O. H., Paniagua, E., Hammell, M. TEtranscripts: a package for including transposable elements in differential expression analysis of RNA-seq datasets. Bioinformatics. 31 (22), 3593-3599 (2015).
  23. Agilent RNA 6000 Nano Kit Guide. , Agilent. (2017).
  24. Mueller, O. L., Schroeder, A. RNA Integrity Number (RIN) –Standardization of RNA Quality Control. , Agilent Technologies. (2016).
  25. Robinson, J. T., et al. Integrative genomics viewer. Nature Biotechnology. 29, 24 (2011).
  26. Speek, M. Antisense promoter of human L1 retrotransposon drives transcription of adjacent cellular genes. Molecular Cellular Biology. 21 (6), 1973-1985 (2001).
  27. Belancio, V. P., Deininger, L., Roy-Engel, A. M. LINE dancing in the human genome: transposable elements and disease. Genome Medicine. 1 (10), 97-97 (2009).
  28. Iskow, R. C., et al. Natural Mutagenesis of Human Genomes by Endogenous Retrotransposons. Cell. 141 (7), 1253-1261 (2010).
  29. Scott, E. C., et al. A hot L1 retrotransposon evades somatic repression and initiates human colorectal cancer. Genome Research. 26 (6), 745-755 (2016).
  30. Kines, K. J., Sokolowski, M., deHaro, D. L., Christian, C. M., Belancio, V. P. Potential for genomic instability associated with retrotranspositionally-incompetent L1 loci. Nucleic Acids Research. 42 (16), 10488-10502 (2014).

Tags

Genetikk linje-1 Loci repeterende elementer retrotranspsosons transkripsjon RNA-SEQ mappability korreksjon
RNA neste generasjons sekvensering og en bioinformatikk rørledning for å identifisere uttrykt linje-1s på det geometriske-spesifikke nivået
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Kaul, T., Morales, M. E., Smither,More

Kaul, T., Morales, M. E., Smither, E., Baddoo, M., Belancio, V. P., Deininger, P. RNA Next-Generation Sequencing and a Bioinformatics Pipeline to Identify Expressed LINE-1s at the Locus-Specific Level. J. Vis. Exp. (147), e59771, doi:10.3791/59771 (2019).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter