Waiting
Processando Login

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

RNA Next-generations sekvensering og en Bioinformatik pipeline til identificering af udtrykte linje-1s på det locus-specifikke niveau

Published: May 19, 2019 doi: 10.3791/59771

Summary

Her præsenterer vi en bioinformatisk tilgang og analyser til at identificere line-1 udtryk på søgsmåls specifikke niveau.

Abstract

Lange INterspersed elementer-1 (LINEs/L1s) er gentagne elementer, der kan kopiere og tilfældigt indsætte i genomet resulterer i genomisk ustabilitet og mutagenese. Forståelse af udtryks mønstrene for L1 loci på det individuelle niveau vil give et indblik i dette mutagene Elements biologi. Dette autonome element udgør en betydelig del af det menneskelige genom med over 500.000 eksemplarer, selv om 99% er afkortet og defekt. Deres mange og dominerende antal defekte kopier gør det imidlertid vanskeligt at identificere autentisk L1s fra L1-relaterede sekvenser udtrykt som en del af andre gener. Det er også udfordrende at finde ud af, hvilke specifikke L1 søgsmåls der udtrykkes på grund af elementernes repetitive karakter. Overvinde disse udfordringer, præsenterer vi en RNA-SEQ af Bioinformatik tilgang til at identificere L1 udtryk på søgsmåls specifikke niveau. Sammenfattende indsamler vi cytoplasmatiske RNA, vælger for polyadenylerede udskrifter og udnytter streng specifikke RNA-SEQ-analyser til entydigt at kort læse til L1 loci i det humane reference genom. Vi justerer visuelt hver L1-søgsmåls med unikt kortlagte læsninger for at bekræfte transkription fra sin egen promotor og justere kort læste udskrifter for at tage højde for hver enkelt L1 søgsmåls ' mappabilitet. Denne tilgang blev anvendt til en prostata tumor cellelinje, DU145, for at demonstrere muligheden for denne protokol til at detektere udtryk fra et lille antal af den fulde længde L1 elementer.

Introduction

Retrotransposons er gentagne DNA-elementer, der kan "hoppe" i genomet i en kopi-og-pasta mekanisme via RNA-mellemprodukter. En delmængde af retrotransposons er kendt som Long INterspersed elementer-1 (LINEs/L1s) og udgør en sjettedel af det menneskelige genom med over 500, 0000 eksemplarer1. På trods af deres overflod, de fleste af disse kopier er defekte og forkortet med kun en anslået 80-120 L1 elementer menes at være aktiv2. En fuld-længde L1 er omkring 6 KB i længden med 5 ' og 3 ' uoversat regioner, en intern promotor og tilhørende anti-sense promotor, to ikke-overlappende åbne-læsning frames (orfs), og et signal og polya hale3,4,5 . Hos mennesker består L1s af underfamilier, der er kendetegnet ved evolutionær alder, hvor ældre familier har akkumuleret mere unikke sekvens mutationer over tid sammenlignet med denyngste underfamilie, L1HS. L1s er de eneste autonome, humane retrotransposoner og deres Orf'er koder en omvendt transkriptase, endonuklease og Rnp'er med RNA-binding og chaperone aktiviteter, der kræves for at retrotransponere og indsætte i genomet i en proces, der betegnes som målprimet omvendt transskription8,9,10,11,12.

Efter montering af L1s er blevet rapporteret at forårsage menneskelige kimcelle sygdomme ved en række mekanismer, herunder mutationer mutagenese, mål-site sletninger, og omordning13,14,15, 16. for nylig har det været en hypotese, at L1s kan spille en rolle i oncogenesis og/eller tumorprogression som øget ekspression og indsættelse hændelser af dette mutagene element er blevet observeret i en række af epitel kræft17,18 . Det anslås, at der er en ny L1 indsættelse i hver 200 fødsler19. Derfor er det bydende nødvendigt at bedre at forstå biologi af aktivt at udtrykke L1s. Den repetitive karakter og overflod af defekte eksemplarer findes i udskrifter af andre gener har gjort dette niveau af analyse udfordrende.

Heldigvis, med fremkomsten af høj gennemløb sekvensering teknologier, er der gjort fremskridt at analysere ud og identificere autentisk udtrykke L1s på locus-specifikke niveau. Der er forskellige filosofier om, hvordan man bedst kan identificere udtrykte L1s ved hjælp af RNA næste generations sekventering. Der er kun blevet foreslået to fornuftige tilgange til kortlægning af L1-udskrifter på det locus-specifikke niveau. Man fokuserer kun på den potentielle transskription, der læser gennem L1 polyadenyleringsignalet og i flankerende sekvenser20. Vores tilgang udnytter små sekvens forskelle mellem L1 elementer og kun kort disse RNA-SEQ læser, der unikt kort til en søgsmåls21. Begge disse metoder har begrænsninger med hensyn til kvantitering af transskription niveauer. Kvantitation kan muligvis forbedres ved at tilføje en korrektion for den "unikke mappabilitet" for hver L1 søgsmåls21, eller ved at bruge mere komplekse algoritmer, der videredistribuerer de multi-kortlagte læsninger, som ikke kunne knyttes entydigt til en specifik søgsmåls22. Her vil vi detalje i en trin-for-trin måde RNA udvinding og næste generations sekventering og bioinformatik protokol til at identificere udtrykte L1 elementer på locus-specifikke niveau. Vores tilgang tager maksimal fordel af vores viden om biologi funktionelle L1 elementer. Dette omfatter at vide, at funktionelle L1-elementer skal genereres fra L1-promotoren, initieret i begyndelsen af L1-elementet, skal oversættes i cytoplasma, og at deres udskrifter skal være co-lineær med genomet. Kort, vi indsamler friske, cytoplasmatiske RNA, vælge for polyadenylerede udskrifter, og udnytte streng-specifikke RNA-SEQ analyser til unikt kortlæser til L1 loci i det menneskelige reference genom. Disse justerede læser derefter stadig kræver omfattende manuel curation for at afgøre, om udskrift læser stammer fra L1-promotoren før udpegning af en søgsmåls som en autentisk udtrykt L1. Vi anvender denne tilgang på DU145 prostata tumor cellelinje prøve for at demonstrere, hvordan det identificerer en relativt få aktivt transskriberet L1 medlemmer fra massen af inaktive kopier.

Protocol

1. cytoplasmisk RNA-ekstraktion

  1. Hent celler via følgende metoder.
    1. Saml levende celler fra 2,75%-100% konflydende, T-75 kolber.
      1. Kolben vaskes 2 gange i 5 mL kold PBS, og i den sidste vask skrabes cellerne ud og overføres til et 15 mL konisk rør. Der centrifugeres i 2 min ved 1.000 x g og 4 °c, og supernatanten fjernes og kasseres forsigtigt (tabel over materialer).
    2. Indsamle celler fra vævsprøver.
      1. Forbered væv til cytoplasmisk RNA-ekstraktion inden for en time fra at blive dissekeret og altid holde på is. Ved langtidsopbevaring skal du bruge RNA-inhibitor opløsninger til at opbevare væv i op til 72 timer efter en dissektion efter producentens protokol (tabel over materialer).
      2. En 10 μm3 prøve og homogeniser den friske prøve med 5 ml kold PBS i en steril dounce-homogenisator, overførsel til et 15 ml konisk rør, centrifuge i 2 min ved 1.000 x g ved 4 °c, og fjern forsigtigt og kassér supernatanten (tabel over materialer < /C8 >).
  2. Der tilsættes 2 mL lysis-buffer til cellulær pellet blanding, og der inkuleeres på is i 5 minutter.
    1. Forbered frisk lysis buffer med 150 mM NaCl, 50 mM HEPES (pH 7,4), og 25 μg/mL digitonin (tabel af materialer).
    2. Da den minimale koncentration af digitonin i lysis-bufferen, der kræves for at trænge ind i plasma membranen, kan variere efter celletype, skal mikroskopisk bekræfte, at celler behandlet med lysis buffer mister plasma membranen og bevarer den intakte kerne membran.
    3. Lige før brug tilsættes 1.000 U/mL RNase-hæmmer (tabel over materialer).
  3. Der centrifugeres i 1 min ved 1.000 x g og 4 °c, og supernatanten opsamles.
  4. Der tilsættes supernatanten til præ-kølede 7,5 mL Trizol og 1,5 mL chloroform. Alle de skridt, der kræver chloroform skal ske inde i en ren kemisk hætte (tabel over materialer).
  5. Der centrifugeres i 35 min ved 3.220 x g og 4 °c.
  6. Den vandige del (øverste lag) overføres til et frisk, forkølet 15 mL rør.
  7. Tilsæt 4,5 mL chloroform og vortex.
  8. Der centrifugeres i 10 min ved 3.220 x g og 4 °c.
  9. Den vandige del overføres til fersk, præ-kølet rør.
  10. Der tilsættes 4,5 mL isopropanol, rystes godt, og der inkubeeres ved-80 °C natten over (tabel med materialer).
  11. Der centrifugeres ved 3.220 x g og 4 °c i 45 minutter.
  12. Fjern isopropanol, tilsæt 15 mL 100% ethanol (tabel over materialer).
  13. Der centrifugeres ved 3.220 x g i 10 min.
  14. Fjern ethanol, dræn og tør i ca. 1 time.
    1. Brug en steril vatpind til at udvisker eventuel resterende ethanol (tabel over materialer).
  15. Prøven gensuspenderes i 100 til 200 μL af RNase frit vand afhængigt af pellet størrelse (tabel over materialer).
  16. Fraktionere prøver ved hjælp af elektroforese teknologi til at bestemme kvaliteten og koncentrationen af prøver i henhold til producentens indtrængen23 (tabel over materialer).
    1. Prøver er berettiget til RNA-SEQ-analyse, hvis RIN > 824.

2. næste generations sekvensering

  1. Indsend cytoplasmatiske RNA-prøver, der skal sekvenseres ved hjælp af næste generations sekvensering platform med henblik på at generere mindst 50.000.000 parret-end 100 BP læser.
  2. Vælg for poly-adenylerede RNAs og streng-specifik sekvensering.

3. Opret anmærkninger (valgfri, hvis man har en eksisterende anmærkning)

  1. Opret L1-anmærkning i fuld længde, eller Hent L1-annoteringen i fuld længde (supplerende fil 1a-b).
    1. Hent REPEAT masker-anmærkninger for linje 1-elementer fra UCSC-genombrowseren med tabellens browser værktøj (https://genome.ucsc.edu/cgi-bin/hgTables). Angiv pattedyr clade, det menneskelige genom, hg19-samlingen (eller hg38 for et mere opdateret genom), og Filtrer efter "linje1" under klassenavn. Hent som en. GTF-fil, og mærk som FL-L1-BLAST. GTF.
    2. Kør en lokal BLAST søgning af den første 300 BP af L 1.3 fuld længde L1-element, der omfatter promotor regionen i det menneskelige genom og tilsæt 6.000 BP downstream for at skabe en ende af L1-koordinaterne til anmærknings filen. Gem i en GTF-fil og etiket som FL-L1-RM. GTF.
    3. Skærer RepeatMasker-anmærkningen og den promotor-baserede L1-anmærkning ved hjælp af bedtools og etiket som FL-L1-BLAST_RM. txt (software pakker).
      1. Brug denne kommando i Linux-terminalen: bedtools skærer-en fl-L1-blast. GTF-b fl-L1-RM. gtf > fl-L1-BLAST_RM. txt.
    4. Adskil den intersekterede FL-L1-anmærkning med den øverste og nederste streng.
      1. Kopier over FL-L1-BLAST_RM. txt i regneark software og sortere efter "minus" og "plus" streng og derefter sortere efter kromosom placering.
      2. Opret to nye regnearksdokumenter, en med de gennemskærer koordinater for fuld længde L1s på minus strengen og en på den nederste streng, og Gem som FL-L1-BLAST_RM_minus. xls og FL-L1-BLAST_RM_plus. xls.
      3. Gem de to nye dokumenter som. txt-filer.
    5. Brug mac2unix-programmet til at konvertere. txt-filerne til de korrekte anmærknings filer (software pakker).
      1. Brug denne kommando i terminalen: Mac2unix.sh fl-L1-BLAST_RM_minus. GFF.
      2. Brug denne kommando i terminalen: Mac2unix.sh fl-L1-BLAST_RM_plus. GFF.
      3. Gem nye filer med filtypenavnet. GFF.
    6. Alternativt kan du bruge AWK til at filtrere rækker, der er knyttet til + og – linje.
      1. Brug følgende kommando til at få +-strengen: AWK '/+/' fl-L1_BLAST_RM. gtf > fl-L1_BLAST_RM_plus. GTF.
      2. Brug følgende kommandolinje til at hente-streng: AWK '/-/' fl-L1_BLAST_RM. gtf > fl-L1_BLAST_RM_minus. GTF.

4. Læs justerings pipeline for at identificere udtrykte L1s

Mulighed Beskrivelse
– p Dette beskriver antallet af tråde, som computeren skal bruge ved kørsel af justeringen. Større computerhukommelse vil tillade flere tråde og bør empirisk d.
– m 1 Dette fortæller programmet til kun at acceptere læsninger, der har en kamp i genomet, der er bedre end nogen anden genom match.
– j Dette er den tryhard switch, som gør mapping søgning for alle mulige kampe og ikke tillade det at holde op efter et fast antal kampe er nået.
– v 3 Dette gør det kun muligt for programmet at udnytte hukommelsen til kortlæser med 3 eller mindre mismatch til genomet.
– X 600 Dette tillader kun parret læser, der kort inden for 600 baser af hinanden. Dette sikrer, at læse parret er co-lineære i genomet og vælger mod s involverer forarbejdede RNA molekyler.
– chunkmbs 8184 Denne kommando tildeler ekstra hukommelse til håndtering af den store mængdejusteringer, der er mulige for hver L1-relateret læsning.

Tabel 1: kommandolinjeindstillinger for Bowtie.

  1. Kør justerende parrede sekvensering fastq filer med RNA-SEQ sample af interesse ved hjælp af Bowtie.
    Bemærk: Bowtie1 skal bruges og ikke Bowtie2, fordi de parametre, der kræves til entydig justering, specifikt kun findes i denne version af Bowtie (software pakker). Bowtie bruges over Splice-bevidste aligners som STAR for at evaluere concordant, sammenhængende læser mere relevant for L1 biologi og udtryk.
    1. Brug denne kommandolinje i Linux-terminalen: Bowtie-p 10-m 1-S-y-v 3-X 600--chunkmbs 8184 hg_X_Y_M_index-1 hg_sample_1. FQ-2 hg_sample_2. FQ | samtools visning-hbuS-| samtools sort – hg_sample_sorted. bam. Se tabel 1 for en beskrivelse af kommandolinjeindstillingerne for Bowtie.
  2. Strand adskille output Bam fil ved hjælp af samtools (software pakker) og følgende Linux-kommandoer. Bemærk, at de faktiske flagværdier kan variere, hvis man ikke bruger standard næste generations sekvente Rings protokoller.
    1. Brug denne kommandolinje til at vælge for den øverste streng: samtools-visning-h hg_sample_sorted. bam | AWK ' substr ($ 0, 1, 1) = = "@" | | $2 = = 83 | | $2 = = 163 {print} ' | samtools visning-BS-> hg_sample_sorted_topstrand. bam.
    2. Brug denne kommandolinje til at vælge for den nederste streng: samtools visning-h hg_sample_sorted. bam | AWK ' substr ($ 0, 1, 1) = = "@" | | $2 = = 99 | | $2 = = 147 {print} ' | samværktøjer View-BS-> hg_sample_sorted_bottomstrand. bam.
  3. Generer læse tællinger mod anmærkninger for L1 loci ved hjælp af bedtools (software pakker).
    1. Brug denne kommandolinje til at generere læse tæller for L1s i den rigtige retning på den øverste streng: bedtools dækning-ABAM fl-L1-BLAST_RM_plus. GFF-b hg_sample_sorted_topstrand. bam > hg_sample_sorted_bowtie_tryhard_plus_top. txt.
    2. Brug denne kommandolinje til at generere læse tællinger for L1s i den rigtige retning på den nederste streng: bedtools dækning-ABAM fl-L1-BLAST_RM_minus. GFF-b hg_sample_sorted_bottomstrand. bam > hg_sample_sorted_bowtie_tryhard_minus_bottom. txt.
  4. Index Bam fil fra trin 5.1.1 for at gøre det synligt i integrative Genomics Viewer (IGV)25 (software pakker).
    1. Brug denne kommandolinje: samtools index hg_sample_sorted. bam
  5. Hvis du vil bruge en batchtilstand til at øge antallet af RNA-SEQ-prøver, der er gennemført ad gangen, skal du bruge et supercomputer-script til at fuldføre trin 4,1 kaldet human_bowtie. sh, et script til at fuldføre trin 4.2-4.3 er blevet oprettet kaldet human_L1_pipeline. sh, og et script til at fuldføre trin 4,4 er blevet oprettet kaldet bam_index. sh. Disse scripts kan findes i supplerende fil 2 med tilhørende supercomputer kommandoer til at køre scripts.

5. manuel curation

  1. Opret et regneark til læsninger, der er knyttet til hver annoteret L1-locus.
    1. Kopier over hg_sample_sorted_bowtie_tryhard_minus_bottom. txt oprettet i trin 4.3.2 og etiketside som "minus-bund".
      1. Sortér alle kolonner baseret på højest til lavest antal læsninger fundet i kolonne J.
    2. Afskrift hg_sample_sorted_bowtie_tryhard_plus_top. txt skabt i skridt 4.3.1 og etiket nemlig prima-plus i en anden regneark.
      1. Sortér alle kolonner baseret på højest til lavest antal læsninger fundet i kolonne J.
    3. Opret en tredje side mærket som "kombineret" og Tilføj alle loci med ti eller flere læsninger fra "minus-bund" og "plus-top" sider.
      1. Sortér alle kolonner baseret på højest til lavest antal læsninger fundet i kolonne J.
    4. Indlæs følgende filer i IGV25 (software pakker): 1) reference genom af interesse at visualisere annoterede gener, 2) fl-L1-BLAST_RM. GFF at visualisere L1 annotation, 3) hg_sample_sorted. bam at visualisere kortlagte udskrifter fra stikprøve af interesse, og 4) hg_genomicDNA_sorted. bam til at vurdere genøkonomiske regioners omsættelighed.
    5. Fjern dæknings-og samlings rækker, der er knyttet til hver Bam-fil.
    6. Komprimer hg_sample_sorted. bam og hg_genomicDNA_sorted. Bam, så alle IGV-sporene passer på én skærm.
  2. Curate manuelt.
    1. Brug koordinater fra loci opført på regnearket "kombineret" side, visning kaldet loci i IGV25 (software pakker).
    2. Curate en søgsmåls at være autentisk udtrykkes ud af sin egen, hvis der er ingen læser opstrøms i L1 retning op til 5 KB.
      1. Mærk rækken grøn i farve og Bemærk, hvorfor det er en autentisk udtrykt L1.
        Bemærk: der findes en undtagelse til denne regel, hvis området opstrøms for L1 ikke kan tilknyttes. Hvis det er tilfældet, skal du mærke rækken rød i farve og bemærke, at udtrykket for området opstrøms for L1-promotoren ikke kan evalueres, og derfor er L1's-udtrykket ikke i stand til at blive fastlagt med sikkerhed.
    3. Curate en søgsmåls til ikke autentisk udtrykkes ud af sin egen promotor, hvis der er læser upstream op til 5 KB.
      1. Mærk rækken rød i farve, og Bemærk, hvorfor det ikke er en autentisk angivet L1.
      2. Curate en søgsmåls som falsk, hvis det udtrykkes i en intron af et udtrykt gen i samme retning med læsninger opstrøms for L1, hvis det er neden for et udtrykt gen i samme retning med læsninger opstrøms for L1, eller for un-kommenteret udtryks mønstre med re annoncer opstrøms for L1.
        Bemærk: en undtagelse fra denne regel gælder, når der er minimale læsninger, der direkte overlapper startsiden for L1-promotoren, men lidt opstrøms for L1. Hvis der ikke er andre læsninger opstrøms for en L1-sag som denne, skal du betragte denne L1 som autentisk. Mærk rækken grøn farve og Bemærk, hvorfor det er en autentisk udtrykt L1.
    4. Curate en L1 søgsmåls som sandsynligt, at være falsk, hvis mønsteret af kortlagte læsninger til søgsmåls ikke korrelerer med de specifikke L1's regioner af mappability.
      Bemærk: for eksempel, hvis en L1 er meget kan tilknyttes, men kun har en bunke af læsninger i en kondenseret region inden for L1, er det mindre sandsynligt, at være relateret til L1 udtryk fra sin egen promotor og mere tilbøjelige til at være fra un-kommenteret kilder som exons eller Ltrs. I tilfælde som dette, organisere loci som orange og Bemærk, hvorfor søgsmåls er mistænkelige. Bekræft kilder til mistænkelige bunke-ups ved at kontrollere L1 placering i UCSC genom browser.
    5. Curate en søgsmåls til ikke autentisk udtrykkes, hvis det er inden for et genomisk miljø af sporadiske udtrykte un-kommenteret regioner
      Bemærk: for eksempel kan læsninger udtrykkes 10 KB opstrøms for L1, men hver 10 KB eller deromkring der er kortlagt læser og nogle af dem læser justere med L1. Disse L1s er mindre tilbøjelige til at blive udtrykt ud af sin egen promotor, og mere tilbøjelige til at have kortlagt læsninger på grund af un-kommenteret mønstre af genomisk udtryk. I tilfælde som dette, organisere loci som orange og Bemærk, hvorfor søgsmåls er mistænkelige.

6. læse justerings strategi for at vurdere mappabilitet i reference genom (valgfri, hvis man har et eksisterende justeret genomisk DNA-datasæt)

  1. Download hele genomet DNA sekvens filer og konvertere til. FQ filer
    1. Gå til NCBI hjemmeside fundet her: https://www.ncbi.nlm.nih.gov/sra
    2. Type i WGS Hela parret ende.
    3. Vælg for homo sapiens under resultater af systematisk enhed.
    4. Vælg en prøve, der er parret ende og har læser med 100 eller mere BP som følgende eksempel: https://www.ncbi.nlm.nih.gov/sra/ERX457838 [accn]
    5. Bekræft læse længde ved at vælge Kør og derefter metadata som vist her: https://Trace.NCBI.NLM.NIH.gov/Traces/SRA/?Run=ERR492384
    6. For at downloade hele genomet DNA sekvensdata, skal du indtaste denne kommando i Linux-terminalen: sratoolkit. 2.9.2-mac64/bin/Prefetch-X 100G ERR492384
      Bemærk: SRA-værktøjssættets Prefetch-funktion henter tiltrædelses nummeret "ERR492384", som findes på NCBI-webstedet (software pakker). Den "100G" grænser mængden af downloadede data til 100 gigabyte.
    7. Indtast denne kommando i Linux-terminalen: fastq-dump--split-filer ERR492384
      Bemærk: Dette opdeler det downloadede genomiske DNA-datasæt i to fastq-filer.
  2. Kør justering ved hjælp af Bowtie.
    1. Brug denne kommando i Linux til justering: Bowtie-p 10-m 1-S-y-v 3-X 600--chunkmbs 8184 hg_X_Y_M_index-1 hg_genomicDNA_1. FQ-2 hg_genomicDNA_2. FQ | samtools visning-hbuS-| samtools sort – hg_genomicDNA_sorted. bam.
      1. Se trin 4,1 for at forstå de parametre, der anvendes i Bowtie-tilpasningen (software pakker).
      2. Download den genomisk justerede Bam fil for at vurdere mappability tilgængelig efter forfatter anmodning.
  3. Index Bam fil fra trin 4.2.1 ved hjælp af samtools at gøre det synligt i IGV25 (software pakker) for yderligere at informere manuel curation.
    1. Brug denne kommandolinje i Linux: samtools index hg_genomicDNA_sorted. bam
  4. Vurder mappabilitet for hver L1-loci
    1. Bestem antallet af unikt kortlagte læsninger til L1-loci ved hjælp af bedtools-programmet, FL-L1-annoteringen og de justerede genomsekvensdata (software pakker).
      1. Brug denne kommandolinje i Linux: bedtools dækning-ABAM fl-L1-BLAST_RM. GTF-b hg_genomicDNA_sorted. bam ≫ L1_Mappability_hg_genomicDNA. txt.
    2. Udpeg en L1-søgsmåls, så den har fuld dækning, når 400 entydige læsninger er justeret til den.
    3. Bestem den faktor, der kræves for at skalere op eller ned genomisk DNA justeret læsninger til 400 for hver enkelt L1.
    4. Hvis du vil have et skaleret udtryk i forhold til individuelle L1 søgsmåls-mappabilitet, skal du multiplicere den faktor, der er bestemt i trin 6.4.3, med antallet af RNA-udskrifter, der er justeret til autentisk L1s, som fastlagt i afsnit 4 – 5.

Representative Results

Trinene beskrevet ovenfor og beskrevet grafisk i figur 1 blev anvendt på en menneskelig prostata tumor cellelinje DU145. RNA-prøven var cytoplasmisk præppet og blev næste generations sekvenseret i en poly-A valgt, streng-specifik, parret-end-protokol. Ved hjælp af Bowtie blev de parrede sekvente Rings filer justeret, så der kun var unikke kampe, hvor parret-end læste bedre matchede end en genomisk placering sammenlignet med andre genomiske steder. DU145 sekvens filer blev justeret til den menneskelige reference genom oprettelse af en Bam fil, som er tilgængelig efter forfatter anmodning. Ved hjælp af bedtools, data blev udvundet fra DU145 streng-separeret Bam filer på antallet af læsninger, der er knyttet til fuld længde L1s. Disse læsninger blev sorteret i et regneark fra største til mindste og manuelt kureret ved at undersøge det genomiske miljø omkring hver L1 søgsmåls i igv for at bekræfte dets ægthed (supplerende tabel 1). Hvis en prøve blev kureret til at være autentisk udtrykt, det var farve-kodet grøn med en forklaring på dens accept i højre mest kolonne. I figur 2a-bvises eksempler på L1 loci, der er godkendt til at være autentisk udtrykt i henhold til retningslinjerne beskrevet i afsnittet med metoder. Hvis en prøve blev afvist til at være autentisk udtrykt, blev den farvekodet som rød med årsagen til afvisningen i højre kolonne. Eksempler på L1 loci afvist på grund af et udtryk fra en promotor, der ikke er deres egen følgende retningslinjer beskrevet i afsnittet med metoder, er beskrevet i figur 2c-e.

Her blev kun fuld længde L1s med en intakt promotor region undersøgt. Hvis denne sondring ikke foretages, indføres en stor kilde til transskriptional støj fra trunkeret L1s. Eksempler på afkortede L1s i DU145 er vist i figur 3a-b , hvor de blev identificeret som havende unikt kortlagt RNA-SEQ-læsninger. I IGV er det imidlertid klart, at disse udskrifter ikke blev initieret fra den afkortede L1, men fra optagelsen af L1-sekvensen i et gen eller neden for et udtrykt gen.

Samlet i DU145, procentdelen af fuld længde L1 loci og læser, der afvises som autentisk udtrykt L1s efter manuel curation er ca 50% (supplerende tabel 2) demonstrerer det høje niveau af L1 kortlagt udskrifter, der ville ellers registreres som falske positiver uden manuel curation. Specifikt, i DU145 var der 114 samlede fuld længde L1 loci at have unikt kortlæser i den forstand retning med i alt 3.152 læser, men der var kun 60 loci identificeret til at være udtrykt fra deres egen promotor efter manuel curation med 1.879 læser ( Supplerende tabel 1). Dette er tilfældet, selv når der er taget skridt til at reducere udtrykket irrelevant for L1 biologi ved at vælge for cytoplasmatiske mRNA. Bemærk, at søgsmåls med det højeste niveau af kortlagte udskrifter i DU145 blev afvist, fordi det ikke var en autentisk angivet L1 (figur 4). Samlet set er antallet af kortlagte udskrifter til specifikke L1 loci intervaller på samme måde mellem den accepterede og afviste L1 loci som autentisk udtrykt efter manuel curation (figur 4).

Efter manuel curation, antallet af læsninger, der kort unikt til autentisk udtrykt specifikke L1 loci i DU145 spænder fra 175 læser til en vilkårligt valgt minimum cut ud af 10 læsninger (figur 5). Denne fremgangsmåde til identificering af entydigt kortlagte udskrifter til L1s begrænser muligheden for præcist at kvantificere udtryk. For at tage højde for dette blev der oprettet en korrektionsfaktor for hver søgsmåls baseret på dens mappabilitet. For at skabe denne korrektionsfaktor, blev første bedtools brugt til at udtrække antallet af unikt kortlagte læsninger fra Hela genomisk Bam fil, der er justeret til alle fuld-længde L1 loci og graferet dem loci fra højest til lavest kortlagt udskrift (supplerende Figur 1). Det blev vilkårligt udpeget, at L1s med 400 læser havde fuld dækning mappability. Antallet af læsninger i stand til at kortlægge til en L1 søgsmåls i Hela genomisk sekvenencing prøve blev skaleret i forhold til 400 læser og at skaleret antal blev derefter ganget med antallet af læsninger, der er knyttet til hver authentisk udtrykt L1 loci i DU145 (supplerende tabel 2) . Som forventet kom de L1-elementer, der havde større korrektions score for mappability, fra yngre underfamilier som L1PA2 (supplerende tabel 2). Når læsninger blev justeret for mappability scoringer i hver locus steg kvantitation for ekspression for de fleste loci (figur 6). Antallet af læsninger, der kortlagt entydigt til autentisk udtrykte specifikke L1 loci med rettelser af mappabilitet i DU145 varierede fra 612 til 4 læsninger, og der var en genbestilling af højeste til laveste udtryk loci (figur 6).

Figure 1
Figur 1: skematisk arbejdsgang.
Grafisk beskrevet er de trin til at identificere udtrykte L1s i en menneskelig prøve. Bemærk, at trin 1 og 2 ikke behøver at blive gentaget, hvis de relevante filer allerede er tilgængelige. Disse relevante filer kan downloades fra supplement fil 1a-b og supplement fil 2. Boksene i rødt angiver de trin, hvor bedtools dækning program bruges til at tælle antallet af læser mapping til L1s i samme forstand retning. Disse loci med Sense orienterede kortlæser er L1s, der skal manuelt kurated. Klik her for at se en større version af dette tal.

Figure 2
Figur 2: eksempler på kureret L1 loci i DU145.
Indlæst i IGV er reference genomet, den fulde længde L1 GFF annotation fil matcher reference genom version (supplement fil 1), den DU145 Bam fil, og endelig den genomiske Hela Bam fil til at vurdere mappability, som alle er tilgængelige på forfatteren Anmodning. Pile er blevet tilføjet til støtte i visualisering af retning af annoteret L1. Pile og læsninger i rødt er orienteret i rækkefølge fra højre mod venstre. Pile og læsninger i blåt er orienteret i rækkefølge fra venstre mod højre. a) i igv synes denne L1 søgsmåls at være udtrykt ud af sin egen promotor, da der ikke er nogen læsninger opstrøms for L1 i den forstand orientering for over 5 KB. Denne L1 har lav mappability, det er ikke i et gen, og har bevis for forventet antisense promotor aktivitet26. b) i igv synes denne L1 søgsmåls at være udtrykt ud af sin egen promotor, da der ikke er nogen læser upstream L1 i den forstand orientering for over 5 KB. Denne L1 har lav mappabilitet og er inden for et gen af modsat retning. c) i igv blev denne L1 søgsmåls afvist som en udtrykt L1, da der er upstream læsninger i samme retning inden for 5 KB. Denne L1 er inden for et gen af samme retning, så udskriften læser er mest sandsynligt stammer fra promotoren for det udtrykte gen. d) i igv blev denne L1 søgsmåls afvist som en udtrykt L1, da der er upstream læsninger i samme retning inden for 5 KB. Denne L1 er nedstrøms for et højt udtrykt gen i samme retning, så afskriften er mest sandsynligt stammer fra initiativtageren til det udtrykte gen og strækker sig ud over den normale genterminator. e) i igv blev denne L1 søgsmåls afvist som en udtrykt L1, da der er upstream læsninger i samme retning inden for 5 KB. Denne L1 er ikke inden for eller i nærheden af et kommenteret gen i reference genet, så oprindelsen af disse udskrifter inden for og opstrøms for L1-elementet antyder en un-kommenteret promotor. Klik her for at se en større version af dette tal.

Figure 3
Figur 3: baggrundsstøj stammer fra trunkeret L1s samt.
Vores L1 annotation inkluderer ikke trunkeret L1s da de er en stor kilde til baggrundsstøj. Pile er blevet tilføjet til støtte i visualisering af retning af annoteret L1. Pile og læsninger i blåt er orienteret i rækkefølge fra venstre mod højre. a) demonstreret er et eksempel på en trunkeret L1 i L1MB5 sufamily, der er 2706 bps. I IGV er det tydeligt, at aflæsninger stammer fra efterfølgende udvidelse af et udtrykt gen. b) vist er et andet eksempel på en trunkeret L1. Denne L1 er en L1PA11, der er 4767 bps lang. I IGV er det klart, at den læser kortlægning entydigt til L1 stammer fra den udtrykte exon, som L1 er inden for. Klik her for at se en større version af dette tal.

Figure 4
Figur 4: Transkriptet læser, at kortet unikt til alle fuld-længde intakt L1s i det menneskelige genom udtrykt i DU145 prostata tumor cellelinje.
I sort er den specifikke loci, der skal identificeres som autentisk udtrykt efter manuel curation og med rødt er den specifikke loci, der skal afvises som autentisk udtrykt læser efter manuel curation. I grå er loci med mindre end ti læser kortlægning til hver. Da disse loci repræsenterer en lille brøkdel af udskrifter læser, var de ikke manuelt curate. X-aksen aksemærkerne betegner hver 100 fuld længde, intakt L1s. ca 4.500 loci er ikke grafisk vist som de havde nul kortlæser. Klik her for at se en større version af dette tal.

Figure 5
Figur 5: transkripter læser dette kort unikt til autentisk udtrykt fuld længde intakt L1s i DU145 prostata tumor cellelinje.
Vist er antallet af udskrifter læser, der kort til specifikke loci i DU145 celler efter manuel curation. Klik her for at se en større version af dette tal.

Figure 6
Figur 6: læser tilknytningen til authentisk udtrykt L1, når den justeres ved mappabilitet.
Vist er antallet af transskription læsninger justeret af loci-specifikke mappability scoringer, der kort til manuelt kureret L1 loci i DU145 celler. Klik her for at se en større version af dette tal.

Supplerende fil 1: anmærkninger for fuld længde, intakt Human L1s ifølge orientering. a) FL-L1-BLAST_RM_minus. GFF. b) fl-L1-BLAST_RM_plus. GFF. Venligst klik her for at downloade denne fil.

Supplerende fil 2: supercomputer-scripts, der bruges til at automatisere Bioinformatik-rørledningen beskrevet i afsnit 4. Venligst klik her for at downloade denne fil.

Supplerende figur 1: genomisk DNA-prøve, der bruges til at bestemme L1-mappabilitet.
Vist er antallet af genomisk transkripter læser fra HeLa cellelinje prøve, der kort entydigt til alle 5.000 fuld længde L1 loci i genomet. Det blev udpeget, at en L1 har fuld dækning mappability når 400 læser kort til L1. Venligst klik her for at downloade dette tal.

Supplerende tabel 1: manuel kurering af L1s i DU145. Klik her for at downloade denne tabel.

Supplerende tabel 2: curated L1s i DU145 med justering af mappabilitet. Klik her for at downloade denne tabel.

Discussion

L1 aktivitet har vist sig at forårsage genetiske skader og ustabilitet, der bidrager til sygdom27,28,29. Af de ca 5.000 fuld længde L1 eksemplarer, kun et par dusin evolutionært unge L1s tegner for størstedelen af tilbagevirkende kraft2. Men, der er tegn på, at selv nogle ældre, retrotranspositionelt-incompentent L1s stadig i stand til at producere DNA skadelige proteiner30. For fuldt ud at værdsætte L1s rolle i genomisk ustabilitet og sygdom skal L1-ekspression på det locus-specifikke niveau forstås. Den høje baggrund for L1-relaterede sekvenser, der er indarbejdet i andre RNA'er, der ikke er relateret til L1-retrotransponering, udgør imidlertid en betydelig udfordring i fortolkningen af autentisk L1-udtryk. En anden udfordring i at identificere og derfor forstå udtryks mønstre af individuelle L1 loci opstår på grund af deres repetitive karakter, der ikke tillader mange korte læse sekvenser til at kortlægge til en enkelt unik locus. For at overvinde disse udfordringer udviklede vi den ovenfor beskrevne tilgang til identificering af individuelle L1 loci ved hjælp af RNA-SEQ-data.

Vores tilgang filtrerer det høje niveau (over 99%) af transkriptional støj genereret fra L1-sekvenser, der ikke er relateret til L1-retrotransponering, ved at tage en række skridt. Det første skridt indebærer forberedelse af cytoplasmatiske RNA. Ved at vælge for cytoplasmatiske RNA er L1-relaterede læsninger, der findes inden for udtrykt intronic mRNA i kernen, betydeligt udtømt. I sekvensering bibliotek forberedelse, et andet skridt til at reducere transkriptional støjrelateret til L1s omfatter udvælgelsen af polyadenylerede udskrifter. Dette fjerner L1-relateret transskription støj fundet i ikke-mRNA arter. Et andet trin omfatter streng specifik sekvensering for at identificere og eliminere antisense L1-relaterede udskrifter. Brugen af en anmærkning for fuld længde L1s med funktionelle promotionsområder ved identificering af antallet af RNA-SEQ-udskrifter, der knyttes til L1s, eliminerer også baggrundsstøj, der ellers stammer fra afkortet L1s. Endelig er det sidste kritiske skridt i elimineringen af transkriptionelle støj fra L1-sekvenser, der ikke er relateret til L1-retrotransponering, manuel curation af fuld længde L1s identificeret til at have kortlagt RNA-SEQ-udskrifter. Den manuelle curation involverer visualisering af hver bioinformatisk identificeret-til-være-udtrykte L1 søgsmåls i forbindelse med det omgivende genomiske miljø for at bekræfte, at udtrykket stammer fra L1-promotoren. Denne tilgang blev anvendt til DU145, en prostata tumor cellelinje. Selv med alle de forberedelses relaterede skridt, der er taget for at reducere baggrundsstøjen, blev ca. 50% af L1 loci identificeret som bioinformatisk i DU145 blevet afvist som L1 baggrundsstøj fra andre transskriptionelle kilder (figur 4). understreger den stringens, der kræves for at producere pålidelige resultater. Denne tilgang ved hjælp af manuel curation er arbejdskraftintensiv, men nødvendig i udviklingen af denne pipeline til at evaluere og forstå det genomiske miljø omkring en fuld længde L1. De næste skridt omfatter at reducere mængden af nødvendige manuel kurering ved at automatisere nogle af de curation regler, men på grund af stadig ikke helt kendt karakter af genomisk udtryk, un-kommenteret kilder til udtryk i reference genomet, regioner i lav mappabilitet, og selv komplicerende faktorer, der er involveret i opbygningen af et reference genom er det ikke muligt fuldt ud at automatisere L1-curation på dette tidspunkt.

Den anden udfordring i at identificere udtryk for individuelle L1 loci med sekventering relaterer til kortlægningen af gentagne L1-udskrifter. I denne justerings strategi kræves det, at en udskrift skal tilpasse sig entydigt og samlinetil reference genomet for at blive kortlagt. Ved at vælge for parrede-end-sekvenser, der kort er overensstemmende, øges mængden af udskrifter, der entydigt tilpasser sig til L1 loci, der findes i reference genomet. Denne unikke kortlægnings strategi giver tillid til kaldelsen af læser kortlægning specifikt til en enkelt L1 locus, selv om det potentielt undervurderer udtryks mængden af hver identificeret-til-være-autentisk udtrykt, gentagende L1. Til omtrent korrekt for denne undervurdering, en "mappability" score for hver L1 søgsmåls baseret på dens mappabilitet blev udviklet og anvendt til antallet af unikt kortlagt udskrift aflæsninger (figur 6). Det er af den opfattelse, at mappabilitet ideelt set skal være scoret til fuld dækning læser på tværs af fuld længde L1 i henhold til den matchede WGS prøve. Her bruger vi WGS af HeLa celler til at bestemme mappability snesevis af hver L1 loci for at puste eller deflatere læser kortlægning til L1 loci i DU145 prostata tumorcellelinjer. Denne mappability beregning er en grov korrektion score, men den valgte ' komplet dækning mappability ' af 400 læsninger blev bestemt med den dynamiske karakter af tumorcellelinjer i tankerne. Det kan observeres i supplerende figur 1, at der er et par L1 loci med Hela WGS med ekstremt stort antal kortlagt læser. Disse sandsynligvis kommer fra duplikerede kromosom sekvenser inden HeLa, der ikke er inden for reference genomet, hvilket er grunden til disse loci ikke blev valgt til at være repræsentative for fuldstændig mappability dækning. I stedet blev det fastslået, at gennemsnittet af 100% læse dækning sker omkring 400 læser i henhold til supplerende figur 1 og blev derefter antaget, at dette gennemsnit gælder for DU145 tumor prostata cellelinje samt.

Denne tilpasningsstrategi med 100-200 BP læser fra RNA-SEQ-teknologien vælger også fortrinsvis for evolutionært ældre L1s inden for reference genomet som ældre L1s har akkumuleret over tid unikke mutationer, der gør dem mere mappable. Denne tilgang har derfor begrænset følsomhed, når det kommer til at identificere den yngste af L1s samt ikke-reference, polymorfe L1s. For at identificere den yngste af L1s, foreslår vi at bruge 5 ' RACE udvalg af L1 udskrifter og sekventering teknologi som PacBio, der gør brug af længere læser21. Dette giver mulighed for mere unik kortlægning og derfor sikker identifikation af de udtrykte, unge L1s. ved hjælp af RNA-SEQ-og PacBio-tilgange kan sammenføre til en mere omfattende liste over autentisk udtrykte L1s. For at identificere autentisk udtrykt polymorfe L1s, omfatter de første næste trin opførelse og indsættelse af polymorfe sekvenser i reference genomet.

De biologiske og tekniske udfordringer i at studere gentagne sekvenser er store, men med ovenstående strenge procedure for at fjerne transkriptionelle støj af L1-sekvenser un-relateret til retrogennemførelse ved hjælp af RNA-sekvensering teknologi, begynder vi at støvtætte gennem de store niveauer af transskriptional baggrundsstøj og være til trygt og stringent at identificere L1 udtryks mønstre og kvantitet på det individuelle søgsmåls niveau.

Disclosures

Forfatterne har intet at afsløre.

Acknowledgments

Vi vil gerne takke Dr. Yan DONG for DU145 prostata tumorceller. Vi vil gerne takke Dr. Nathan Ungerleider for hans vejledning og Råd i at skabe supercomputer scripts. Noget af dette arbejde blev finansieret af NIH Grants R01 GM121812 til PD, R01 AG057597 til VPB, og 5TL1TR001418 til TK. Vi vil også gerne anerkende støtte fra Cancer Crusaders og Tulane Cancer Center Bioinformatics Core.

Materials

Name Company Catalog Number Comments
1 M HEPES Affymetrix AAJ16924AE
5 M NaCl Invitrogen AM9760G
Agilent bioanalyzer 2100 Agilent technologies
Agilent RNA 6000 Nano Kit Agilent technologies 5067-1511
bedtools.26.0 https://bedtools.readthedocs.io/en/latest/content/installation.html
bowtie-0.12.8 https://sourceforge.net/projects/bowtie-bio/files/bowtie/0.12.8/
Cell scraper Olympus plastics 25-270
Chloroform Fisher C298-500
Digitonin Research Products International Corp 50-488-644
Ethanol Fisher A4094
Gibco (Phosphate Buffered Saline) Invitrogen 10-010-049
Homogenizer Thomas Scientific BBI-8541906
IGV 2.4 https://software.broadinstitute.org/software/igv/download
Isopropanol Fisher A416-500
mac2unix https://sourceforge.net/projects/cs-cmdtools/files/mac2unix/
Q-tips Fisher 23-400-122
RNAse later solution Invitrogen AM7022
RNaseZap RNase Decontamination Solution Invitrogen AM9780
samtools-1.3 https://sourceforge.net/projects/samtools/files/
sratoolkit.2.9.2 https://github.com/ncbi/sra-tools/wiki/Downloads
SUPERase·In RNase Inhibitor Invitrogen AM2694
Trizol Invitrogen 15-596-018
Water (DNASE, RNASE free) Fisher BP2484100

DOWNLOAD MATERIALS LIST

References

  1. International Human Genome Sequencing. Initial sequencing and analysis of the human genome. Nature. 409, 860 (2001).
  2. Brouha, B., et al. Hot L1s account for the bulk of retrotransposition in the human population. Proceedings of the National Academy of Sciences of the United States of America. 100 (9), 5280-5285 (2003).
  3. Dombroski, B. A., Mathias, S. L., Nanthakumar, E., Scott, A. F., Kazazian, H. H. Isolation of an active human transposable element. Science. 254 (5039), 1805 (1991).
  4. Swergold, G. D. Identification, characterization, and cell specificity of a human LINE-1 promoter. Molecular and Cellular Biology. 10 (12), 6718-6729 (1990).
  5. Speek, M. Antisense promoter of human L1 retrotransposon drives transcription of adjacent cellular genes. Molecular and Cellular Biology. 21 (6), 1973-1985 (2001).
  6. Deininger, L., Batzer, M. A., Hutchison, C. A., Edgell, M. H. Master genes in mammalian repetitive DNA amplification. Trends in Genetics. 8 (9), 307-311 (1992).
  7. Boissinot, S., Chevret, P., Furano, A. L1 (LINE-1) Retrotransposon Evolution and Amplification in Recent Human History. Molecular Biology and Evolution. 17 (6), 915-918 (2000).
  8. Khazina, E., Weichenrieder, O. Non-LTR retrotransposons encode noncanonical RRM domains in their first open reading frame. Proceedings of the National Academy of Sciences of the United States of America. 106 (3), 731-736 (2009).
  9. Martin, S. L., Bushman, F. D. Nucleic acid chaperone activity of the ORF1 protein from the mouse LINE-1 retrotransposon. Molecular and Cellular Biology. 21 (2), 467-475 (2001).
  10. Feng, Q., Moran, M. H., Kazazian, H. H., Boeke, J. D. Human L1 Retrotransposon Encodes a Conserved Endonuclease Required for Retrotransposition. Cell. 87 (5), 905-916 (1996).
  11. Mathias, S. L., Scott, A. F., Kazazian, H. H., Boeke, J. D., Gabriel, A. Reverse transcriptase encoded by a human transposable element. Science. 254 (5039), 1808 (1991).
  12. Luan, D. D., Korman, M. H., Jakubczak, J. L., Eickbush, T. H. Reverse transcription of R2Bm RNA is primed by a nick at the chromosomal target site: A mechanism for non-LTR retrotransposition. Cell. 72 (4), 595-605 (1993).
  13. van den Hurk, J. A. J. M., et al. Novel types of mutation in the choroideremia (CHM) gene: a full-length L1 insertion and an intronic mutation activating a cryptic exon. Human Genetics. 113 (3), 268-275 (2003).
  14. Miné, M., et al. A large genomic deletion in the PDHX gene caused by the retrotranspositional insertion of a full-length LINE-1 element. Human Mutation. 28 (2), 137-142 (2007).
  15. Solyom, S., et al. Pathogenic orphan transduction created by a nonreference LINE-1 retrotransposon. Human Mutation. 33 (2), 369-371 (2012).
  16. Hancks, D. C., Kazazian, H. H. Roles for retrotransposon insertions in human disease. Mobile DNA. Mobile DNA. 7, 9-9 (2016).
  17. Tubio, J. M. C., et al. Mobile DNA in cancer. Extensive transduction of nonrepetitive DNA mediated by L1 retrotransposition in cancer genomes. Science. 345 (6196), 1251343-1251343 (2014).
  18. Ewing, A. D., et al. Widespread somatic L1 retrotransposition occurs early during gastrointestinal cancer evolution. Genome Research. 25 (10), 1536-1545 (2015).
  19. Beck, C. R., Garcia-Perez, J. L., Badge, R. M., Moran, J. V. LINE-1 elements in structural variation and disease. Annual Review of Genomics and Human Genetics. 12, 187-215 (2011).
  20. Philippe, C., et al. Activation of individual L1 retrotransposon instances is restricted to cell-type dependent permissive loci. eLife. 5, e13926 (2016).
  21. Deininger, P., et al. A comprehensive approach to expression of L1 loci. Nucleic Acids Research. 45 (5), e31-e31 (2017).
  22. Jin, Y., Tam, O. H., Paniagua, E., Hammell, M. TEtranscripts: a package for including transposable elements in differential expression analysis of RNA-seq datasets. Bioinformatics. 31 (22), 3593-3599 (2015).
  23. Agilent RNA 6000 Nano Kit Guide. , Agilent. (2017).
  24. Mueller, O. L., Schroeder, A. RNA Integrity Number (RIN) –Standardization of RNA Quality Control. , Agilent Technologies. (2016).
  25. Robinson, J. T., et al. Integrative genomics viewer. Nature Biotechnology. 29, 24 (2011).
  26. Speek, M. Antisense promoter of human L1 retrotransposon drives transcription of adjacent cellular genes. Molecular Cellular Biology. 21 (6), 1973-1985 (2001).
  27. Belancio, V. P., Deininger, L., Roy-Engel, A. M. LINE dancing in the human genome: transposable elements and disease. Genome Medicine. 1 (10), 97-97 (2009).
  28. Iskow, R. C., et al. Natural Mutagenesis of Human Genomes by Endogenous Retrotransposons. Cell. 141 (7), 1253-1261 (2010).
  29. Scott, E. C., et al. A hot L1 retrotransposon evades somatic repression and initiates human colorectal cancer. Genome Research. 26 (6), 745-755 (2016).
  30. Kines, K. J., Sokolowski, M., deHaro, D. L., Christian, C. M., Belancio, V. P. Potential for genomic instability associated with retrotranspositionally-incompetent L1 loci. Nucleic Acids Research. 42 (16), 10488-10502 (2014).

Tags

Genetik LINE-1 loci gentagne elementer retrotranspsosons transkription RNA-SEQ mappability korrektion
RNA Next-generations sekvensering og en Bioinformatik pipeline til identificering af udtrykte linje-1s på det locus-specifikke niveau
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Kaul, T., Morales, M. E., Smither,More

Kaul, T., Morales, M. E., Smither, E., Baddoo, M., Belancio, V. P., Deininger, P. RNA Next-Generation Sequencing and a Bioinformatics Pipeline to Identify Expressed LINE-1s at the Locus-Specific Level. J. Vis. Exp. (147), e59771, doi:10.3791/59771 (2019).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter