Genetics

RNA nästa generations sekvensering och en bioinformatik pipeline för att identifiera uttryckta LINE-1s på Locus-specifik nivå

Published: May 19, 2019 doi: 10.3791/59771

Tiffany Kaul¹, Maria E. Morales¹, Emily Smither¹, Melody Baddoo^1,2, Victoria P. Belancio^1,3, Prescott Deininger^1,4

¹Tulane Cancer Center, Tulane University, ²Department of Pathology, Tulane University, ³Department of Structural and Cellular Biology, Tulane University, ⁴Department of Epidemiology, Tulane University

Summary

Här presenterar vi en Bioinformatisk strategi och analyser för att identifiera LINE-1 uttryck på Locus specifika nivå.

Abstract

Långa varvat element-1 (LINEs/L1s) är repetitiva element som kan kopiera och slumpmässigt infoga i genomet resulterar i genomisk instabilitet och mutesis. Förstå uttrycks mönstren för L1 loci på individ nivå kommer att låna ut till förståelsen av biologi av denna mutagena element. Detta autonoma elementet utgör en betydande del av den mänskliga arvs massan med över 500 000 kopior, men 99% är trunkerad och defekt. Emellertid, deras överflöd och dominerande antal defekta kopior gör det svårt att identifiera autentiskt uttryckt L1s från L1-relaterade sekvenser uttrycks som en del av andra gener. Det är också utmanande att identifiera vilken specifik L1-Locus uttrycks på grund av den repetitiva karaktären av elementen. Genom att övervinna dessa utmaningar presenterar vi ett RNA-seq bioinformatiskt förhållnings sätt för att identifiera L1-uttryck på Locus specifika nivå. Sammanfattnings vis samlar vi in cytoplasmatiska RNA, väljer för polyadenylerade transkriptioner och använder strandspecifika RNA-seq-analyser för att unikt kartlägga läsningar till L1 loci i människans referensgenomet. Vi visuellt komminister varje L1 Locus med unikt kartlagda läsningar för att bekräfta transkription från sin egen promotor och justera mappade avskrift läsningar att redogöra för mappability av varje enskild L1 Locus. Detta tillvägagångs sätt tillämpades på en prostata tumör cellinjen, DU145, att demonstrera förmågan hos detta protokoll för att upptäcka uttryck från ett litet antal av ful längds L1 element.

Introduction

Retrotransposons är repetitiva DNA-element som kan "hoppa" i genomet i en mekanism för att kopiera och klistra in via RNA-intermediärer. En delmängd av retrotransposons är känd som long varvat Elements-1 (LINEs/L1s) och utgör en sjättedel av människans arvs massa med över 500, 0000 exemplar¹. Trots deras överflöd, de flesta av dessa kopior är defekta och trunkeras med endast en beräknad 80-120 L1 element tros vara aktiv². En ful längds L1 är ungefär 6 KB lång med 5 ' och 3 ' oöversatta regioner, en intern promotor och tillhör ande anti-Sense promotor, två icke-överlappande Open-Reading ramar (ORFS), och en signal och Polya svans³^,^4,5. Hos människor, L1s består av under familjer kännetecknas av evolutionär ålder med de äldre familjerna har samlat mer unika sekvens mutationer över tiden jämfört med den yngsta under familjen, L1HS⁶^,⁷. L1s är de enda autonoma, mänskliga retrotransposons och deras ORFS koda en omvänd transkriptase, endonuclease, och rnps med RNA-bindande och förkläde verksamhet som krävs för att retrotransponera och infoga i genomet i en process som kallas målprimade omvänd transkription⁸^,⁹^,¹⁰^,¹¹^,¹².

Retrotransponering av L1s har rapporter ATS orsaka humana köns celler-sjukdomar genom en mängd olika mekanismer, inklusive insertionella mutesis, borttagningar av mål platser och omordningar¹³^,¹⁴^,¹⁵^, ¹⁶. nyligen har det varit en hypotes om att L1s kan spela en roll i onkogenes och/eller tumör progression som ökat uttryck och införande händelser av detta mutagena element har observerats i en mängd epitelial cancer¹⁷^,¹⁸. Det uppskattas att det finns en ny L1 insättning i varje 200 födda¹⁹. Därför är det absolut nödvändigt att bättre förstå biologin av aktivt uttrycka L1s. Den repetitiva karaktären och förekomsten av defekta kopior som hittats inom transkriptioner av andra gener har gjort denna analys nivå utmanande.

Lyckligt vis, med tillkomsten av hög genom strömning sekvenserings teknik, har framsteg gjorts för att tolka ut och identifiera autentiskt uttrycka L1s på Locus-specifik nivå. Det finns olika filosofier om hur man bäst identifiera uttryckte L1s med hjälp av RNA nästa generations sekvensering. Det har bara funnits två rimliga metoder som föreslagits för mappning av L1-utskrifter på den Locus-specifika nivån. En fokuserar endast på den potentiella transkription som läser genom L1 polyadenylering signalen och i kompletterande sekvenser²⁰. Vårt tillvägagångs sätt drar nytta av små sekvensskillnader mellan L1 element och bara kartor de RNA-seq läser att unikt karta till en Locus²¹. Båda dessa metoder har begränsningar när det gäller kvantitering av avskrift nivåer. Kvantitation kan förbättras potentiellt genom att lägga till en korrigering för "unika mappability" av varje L1 Locus²¹, eller med hjälp av mer komplexa algoritmer som omfördela flera mappade läsningar som inte kunde unikt mappas till en specifik Locus²². Här kommer vi att detaljerat i ett steg-för-steg sätt RNA utvinning och nästa generations sekvensering och bioinformatik protokoll för att identifiera uttryckta L1 element på Locus-specifik nivå. Vår strategi tar maximal nytta av vår kunskap om biologi funktionella L1 element. Detta inkluderar att veta att funktionella L1 element måste genereras från L1 Promotorn, initieras i början av L1 elementet, måste översättas i cytoplasman och att deras avskrifter bör vara co-linjär med genomet. Kortfattat samlar vi in färskt, cytoplasmiskt RNA, väljer för polyadenylerade transkriptioner och använder strandspecifika RNA-seq-analyser för att unikt kartlägga läsningar till L1 loci i människans referensgenomet. Dessa justerade läsningar sedan fortfarande kräver omfattande manuell Curation för att avgöra om utskriften läser kommer från L1 Promotorn innan utse en Locus som en autentiskt uttryckt L1. Vi tillämpar denna metod på DU145 prostata tumör cellinjen provet för att visa hur det identifierar en relativt få aktivt transkriberat L1 medlemmar från massan av inaktiva kopior.

Protocol

1. Cytoplasmatisk RNA-extraktion

Hämta celler via följande metoder.
1. Samla levande celler från 2,75%-100% konflytande, T-75 kolvar.
  1. Tvätta kolven 2 gånger i 5 mL kallt PBS och i sista tvätten skrapa av cellerna och överför till ett 15 mL koniskt rör. Centrifugera i 2 min vid 1 000 x g och 4 ° c och ta försiktigt bort och Kassera supernatanten (material tabell).
2. Samla celler från vävnadsprover.
  1. Förbered vävnad för Cytoplasmatisk RNA-extraktion inom en timme från dissekeras och alltid hålla på is. För långtids lagring, Använd RNA-hämmare lösningar för att lagra vävnad för upp till 72 timmar efter dissektion efter tillverkarens protokoll (tabell över material).
  2. Tärna en 10 μm³ prov och homogenisera det färska provet med 5 ml kallt PBS i en steril dounce Homogenisatorer, överföring till en 15 ml konisk tub, Centrifugera för 2 min vid 1 000 x g vid 4 ° c, och försiktigt ta bort och Kassera supernatanten (material tabell < /C8 >).
Tillsätt 2 mL lyseringsbuffert till cellulär pelletblandning och inkubera på is i 5 min.
1. Förbered färsk lyseringsbuffert med 150 mM NaCl, 50 mM HEPES (pH 7,4), och 25 μg/mL digitonin (tabell över material).
2. Eftersom den minsta koncentrationen av digitonin i den lyseringsbuffert som krävs för att tränga in i plasma membranet kan variera beroende på cell typ, bekräftar mikroskopiskt att celler som behandlats med lyseringsbuffert tappar plasma membranet och behåller den intakta kärn membranet.
3. Strax före användning, tillsätt 1 000 U/mL RNase hämmare (material tabell).
Centrifugera i 1 min vid 1 000 x g och 4 ° c och samla upp supernatanten.
Tillsätt supernatanten till pre-kylda 7,5 mL TRIzol och 1,5 mL kloroform. Alla steg som kräver kloroform måste göras inuti en ren kemisk huva (tabell över material).
Centrifugera för 35 min vid 3 220 x g och 4 ° c.
Överför den vattenhaltiga delen (översta lagret) till en fräsch förkyld 15 mL tub.
Tillsätt 4,5 mL kloroform och virvel.
Centrifugera i 10 min vid 3 220 x g och 4 ° c.
Överför den vattenhaltiga delen till färskt förkylt rör.
Tillsätt 4,5 mL isopropanol, skaka flaskan väl och inkubera vid-80 ° c över natten (material tabell).
Centrifugera vid 3 220 x g och 4 ° c i 45 minuter.
Ta bort isopropanol, tillsätt 15 mL 100% etanol (material tabell).
Centrifugera vid 3 220 x g i 10 min.
Ta bort etanol, avlopp och torka i ca 1 h.
1. Använd en steril bomulls pinne för att utplåna eventuell kvarvarande etanol (material tabell).
Återsuspendera provet i 100 till 200 μL av RNase fritt vatten beroende på pelletstorlek (material tabell).
Fraktionera prover med hjälp av elektrofores teknik för att bestämma kvalitet och koncentration av prover enligt tillverkarens intruktioner²³ (tabell över material).
1. Prover kvalificerar sig för RNA-seq-analys om RIN > 8²⁴.

2. nästa generations sekvensering

Skicka in cytoplasmatiska RNA-prover som ska sekvenseras med nästa generations sekvenserings plattform som syftar till att generera minst 50 000 000 Parade 100 BP läsningar.
Välj för Poly-adenylerade RNAs och programspecifik sekvensering.

3. skapa annoteringar (valfritt om det finns en befintlig anteckning)

Skapa full längd L1 anteckning eller ladda ner ful längds L1 anteckning (kompletterande fil 1a-b).
1. Ladda ner REPEAT masker för LINE-1 element från UCSC genom webbläsare med verktyget tabell webbläsare (https://genome.ucsc.edu/cgi-bin/hgTables). Specificera däggdjurs kladen, människans arvs massa, hg19-sammansättningen (eller hg38 för en mer uppdaterad genomet) och filtrera efter "LINE1" under klass namn. Ladda ner som en. GTF fil och etikett som FL-L1-BLAST. GTF.
2. Kör en lokal BLAST sökning av den första 300 BP av L 1.3 ful längds L1 element som omfattar Promotorn regionen i det mänskliga genomet och tillsätt 6 000 BP nedströms för att skapa ett på L1 koordinater till antecknings filen. Spara i en GTF-fil och etikett som FL-L1-RM. GTF.
3. Skär den RepeatMasker anteckning och promotor-baserade L1 anteckning med hjälp av bedtools, och etikett som FL-L1-BLAST_RM. txt (program varu paket).
  1. Använd detta kommando i Linux-terminalen: bedtools skär-en fl-L1-blast. GTF-b fl-L1-RM. GTF > fl-L1-BLAST_RM. txt.
4. Separera den genomskuren fl-L1-annoteringen med den övre och undre strängen.
  1. Kopiera över FL-L1-BLAST_RM. txt till kalkyl program och sortera efter "minus" och "plus" sträng och sedan Sortera efter kromosom plats.
  2. Skapa två nya kalkyl blads dokument, ett med de genomskuren koordinaterna för full längd L1s på minus strängen och ett på den nedersta strängen, och spara som fl-L1-BLAST_RM_minus. xls och fl-L1-BLAST_RM_plus. xls.
  3. Spara de två nya dokumenten som. txt-filer.
5. Använd mac2unix-programmet för att konvertera. txt-filerna till rätt anteckningsfiler (programpaket).
  1. Använd detta kommando i terminalen: Mac2unix.sh fl-L1-BLAST_RM_minus. GFF.
  2. Använd detta kommando i terminalen: Mac2unix.sh fl-L1-BLAST_RM_plus. GFF.
  3. Spara nya filer med. GFF förlängning.
6. Alternativt kan du använda AWK för att filtrera rader som är associerade med + och-strängen.
  1. Använd följande kommando för att få + strängen: awk '/+/' fl-L1_BLAST_RM. gtf > fl-L1_BLAST_RM_plus. GTF.
  2. Använd följande kommando rad för att få-strängen: awk '/-/' fl-L1_BLAST_RM. gtf > fl-L1_BLAST_RM_minus. GTF.

4. Läs anpassningen pipeline för att identifiera uttryckte L1s

Alternativet	Beskrivning
– p	Detta specificerar antalet trådar som datorn ska använda för att köra justeringen. Större dator minne kommer att tillåta fler trådar och bör empiriskt d.
– m 1	Detta talar om för programmet att bara acceptera läsningar som har en matchning i genomet som är bättre än någon annan arvs massa.
– y	Det här är tryhard-växeln som gör att mappningen söker efter alla möjliga matchningar och inte tillåter att den avslutas efter att ett fast antal matchningar har nåtts.
– v 3	Detta tillåter endast programmet att använda minne för mappade läsningar med 3 eller mindre Miss matchningar till genomet.
– X 600	Detta tillåter endast Parade läsningar som kartan inom 600 baser av varandra. Detta säkerställer att Läs paren är samlinjära i genomet och väljer mot s som involverar bearbetade RNA-molekyler.
– chunkmbs 8184	Detta kommando tilldelar extra minne för hantering av den stora mängd justeringar som är möjliga för varje L1-relaterad läsning.

Tabell 1: kommando rads flaggor för Bowtie.

Kör justering Parade-end sekvensering fastq filer med RNA-seq urval av intresse med Bowtie.
Obs: Bowtie1 måste användas och inte Bowtie2 eftersom de parametrar som krävs för unik anpassning är specifikt endast finns i denna version av Bowtie (programpaket). Bowtie används över skarvar-medvetna aligners som STAR för att utvärdera Concordant, sammanhängande läser mer relevant för L1 biologi och uttryck.
1. Använd denna kommando rad i Linux-terminalen: Bowtie-p 10-m 1-S-y-v 3-X 600--chunkmbs 8184 hg_X_Y_M_index-1 hg_sample_1. FQ-2 hg_sample_2. FQ | samtools Visa-hbuS-| samtools sortera-hg_sample_sorted. BAM. Se tabell 1 för en beskrivning av kommando rads flaggor för Bowtie.
Strand separera utdata BAM-filen med samtools (programpaket) och följande Linux-kommandon. Observera att de faktiska flagg värden kan variera om man inte använder standard nästa generations sekvenserings protokoll.
1. Använd den här kommando raden för att välja för den översta strängen: samtools View-h hg_sample_sorted. BAM | awk ' substr ($ 0, 1, 1) = = "@" | | $2 = = 83 | | $2 = = 163 {Skriv ut} ' | samtools View-BS-> hg_sample_sorted_topstrand. BAM.
2. Använd denna kommando rad för att välja för den nedersta strängen: samtools View-h hg_sample_sorted. BAM | awk ' substr ($ 0, 1, 1) = = "@" | | $2 = = 99 | | $2 = = 147 {Skriv ut} ' | samtools View-BS-> hg_sample_sorted_bottomstrand. BAM.
Generera Läs räknare mot annoteringar för L1 loci med hjälp av bedtools (programpaket).
1. Använd denna kommando rad för att generera Läs räknare för L1s i avkänningen riktningen på den bästa strängen: bedtools coverage-Abam fl-L1-BLAST_RM_plus. GFF-b hg_sample_sorted_topstrand. bam > hg_sample_sorted_bowtie_tryhard_plus_top. txt.
2. Använd den här kommando raden för att generera Läs räknare för L1s i avkänningen riktningen på den nedersta strängen: bedtools coverage-Abam fl-L1-BLAST_RM_minus. GFF-b hg_sample_sorted_bottomstrand. bam > hg_sample_sorted_bowtie_tryhard_minus_bottom. txt.
Index BAM-fil från steg 5.1.1 för att göra den synlig i integrativ Genomics Viewer (IGV)²⁵ (mjukvaru paket).
1. Använd denna kommando rad: samtools index hg_sample_sorted. BAM
För att använda ett batch-läge för att öka antalet RNA-seq prover leds genom i taget, använda en superdator skript för att slutföra steg 4,1 kallas human_bowtie. sh, ett manus för att slutföra steg 4,2-4.3 har skapats kallas human_L1_pipeline. sh, och ett manus för att slutföra steg 4,4 har skapats kallas bam_index. sh. Dessa skript kan hittas i kompletterande fil 2 med tillhör ande superdator kommandon för att köra skripten.

5. manuell kurering

Skapa ett kalkyl blad för läsningar som mappas till varje kommenterad L1-Locus.
1. Kopiera över hg_sample_sorted_bowtie_tryhard_minus_bottom. txt som skapades i steg 4.3.2 och etikett sidan som "minus-bottom."
  1. Sortera alla kolumner baserat på högsta till lägsta antal läsningar som finns i kolumn J.
2. Kopiera över hg_sample_sorted_bowtie_tryhard_plus_top. txt som skapades i steg 4.3.1 och märk som "Top-plus" i ett annat kalkyl blad.
  1. Sortera alla kolumner baserat på högsta till lägsta antal läsningar som finns i kolumn J.
3. Skapa en tredje sida märkt som "kombinerad" och Lägg till alla loci med tio eller fler läsningar från "minus-bottom" och "plus-Top" sidor.
  1. Sortera alla kolumner baserat på högsta till lägsta antal läsningar som finns i kolumn J.
4. Ladda följande filer till IGV²⁵ (programpaket): 1) referens genom av intresse för att visualisera kommenterade gener, 2) fl-L1-BLAST_RM. GFF att visualisera L1 anteckning, 3) hg_sample_sorted. BAM att visualisera kartlagda utskrifter från urval av intresse, och 4) hg_genomicDNA_sorted. BAM att bedöma mappability av genomiska regioner.
5. Ta bort täcknings-och Knut punkts rader som associeras med varje BAM-fil.
6. Komprimera hg_sample_sorted. Bam och hg_genomicDNA_sorted. BAM så alla IGV spåren passar på en skärm.
Manuellt curate.
1. Använda koordinater från loci listas på kalkyl bladet "kombinerade" sida, Visa kallas loci i IGV²⁵ (mjukvaru paket).
2. Curate en Locus att autentiskt uttryckas av sin egen om det inte finns några läsningar uppströms i L1 riktning upp till 5 KB.
  1. Märk raden grön i färg och notera varför det är en autentiskt uttryckt L1.
    Anmärkning: ett undantag till den här regeln finns om regionen uppströms L1 inte kan mappas. Om så är fallet ska du märka den röda raden i färg och notera att uttrycket för regionen uppströms för L1-Promotorn inte kan utvärderas och att L1's-uttrycket därför inte kan bestämmas med tillförsikt.
3. Curate en Locus att inte autentiskt uttryckas av sin egen Promotorn om det finns läsningar uppströms upp till 5 KB.
  1. Märk raden röd i färg och notera varför det inte är en autentiskt uttryckt L1.
  2. Curate en Locus som falskt, om det uttrycks inom en intron av en uttryckt gen i den samma riktningen med läser upstream av L1, om den är downstream av en uttryckt gen i den samma riktningen med läser upstream av L1, eller för un-kommenterade uttrycks mönster med Re annonser uppströms L1.
    Anmärkning: ett undantag från denna regel gäller när det finns minimala läsningar som direkt överlappar start platsen för L1-Promotorn, men något uppströms L1. Om det inte finns några andra läsningar uppströms ett L1-fall som detta, anser man att detta L1 är autentiskt uttryckt. Märk raden grön färg och notera varför det är en autentiskt uttryckt L1.
4. Curate en L1 Locus som sannolikt att vara falskt om mönstret av mappade läsningar till Locus inte korrelerar med de specifika L1's regioner i mappability.
  Anmärkning: till exempel, om en L1 är mycket mappnings bar men bara har en hög med läsningar i en kondenserad region inom L1, är det mindre sannolikt att vara relaterade till L1 uttryck utanför sin egen promotor och mer sannolikt att vara från un-kommenterade källor som exoner eller l. I fall som detta, komminister loci som orange och notera varför Locus är misstänkt. Kontrol lera källorna till misstänkta högen-UPS genom att kontrol lera L1 plats i UCSC genom webbläsare.
5. Curate en Locus att inte vara autentiskt uttryckt om det är inom en genomisk miljö av sporadiskt uttryckta un-kommenterad regioner
  Anmärkning: till exempel kan läsningar uttryckas 10 kB uppströms L1, men var 10 KB eller så det finns mappade läsningar och några av dessa läser justera med L1. Dessa L1s är mindre benägna att uttryckas utanför sin egen promotor, och mer benägna att ha kartlagt läsningar på grund av un-kommenterade mönster av genomiskt uttryck. I fall som detta, komminister loci som orange och notera varför Locus är misstänkt.

6. Läs inriktnings strategi för att bedöma mappability i referensgenomet (frivilligt om man har en befintlig justerad genomisk DNA dataset)

Ladda ner hela genom DNA-sekvensfiler och konvertera till. FQ filer
1. Gå till NCBI webbplats finns här: https://www.ncbi.nlm.nih.gov/sra
2. Skriv in WGS hela Parade änden.
3. Välj för Homo sapiens under resultat av taxon.
4. Välj ett exempel som är parad och har läsningar med 100 eller mer BP som följande exempel: https://www.ncbi.nlm.nih.gov/sra/ERX457838 [accn]
5. Bekräfta Läs längd genom att välja kör och sedan metadata som visas här: https://trace.ncbi.NLM.NIH.gov/traces/SRA/?Run=ERR492384
6. För att ladda ner hela genom DNA sekvensdata, ange detta kommando i Linux-terminalen: sratoolkit. 2.9.2-mac64/bin/prefetch-X 100G ERR492384
  Obs: SRA Toolkit prefetch funktionen hämtar anslutnings numret "ERR492384" som finns på NCBI webbplats (programpaket). Den "100G" begränsar mängden hämtade data till 100 gigabyte.
7. Ange detta kommando i Linux-terminalen: fastq-dump--Split-files ERR492384
  Obs: detta delar den hämtade genomisk DNA dataset i två fastq filer.
Kör anpassningen med Bowtie.
1. Använd detta kommando i Linux för anpassning: Bowtie-p 10-m 1-S-y-v 3-X 600--chunkmbs 8184 hg_X_Y_M_index-1 hg_genomicDNA_1. FQ-2 hg_genomicDNA_2. FQ | samtools View-hbuS-| samtools sortera-hg_genomicDNA_sorted. BAM.
  1. Se steg 4,1 för att förstå parametrar som används i Bowtie-anpassningen (programpaket).
  2. Hämta den genomiskt justerade BAM-filen för att bedöma mappnings barheten som finns på författarens begäran.
Index BAM fil från steg 4.2.1 med hjälp av samtools att göra den synlig i IGV²⁵ (program varu paket) för att ytterligare informera manuell Curation.
1. Använd denna kommando rad i Linux: samtools index hg_genomicDNA_sorted. BAM
Bedöm mappability för varje L1 loci
1. Bestäm antalet unikt mappade läsningar till L1 loci med hjälp av bedtools programmet, den FL-L1 anteckning, och den justerade genomisk sekvens data (mjukvaru paket).
  1. Använd denna kommando rad i Linux: bedtools täckning-Abam fl-L1-BLAST_RM. GTF-b hg_genomicDNA_sorted. bam ≫ L1_Mappability_hg_genomicDNA. txt.
2. Utse en L1 Locus att ha full täckning mappability när 400 unika läsningar är inriktade på den.
3. Bestäm vilken faktor som krävs för att skala upp eller ner genomiska DNA-justerade läsningar till 400 för varje enskild L1.
4. För att ha ett skalat mått på uttryck enligt individuella L1-Locus mappability, multiplicera faktorn bestäms i steg 6.4.3 till antalet RNA avskrift läser att anpassa sig till autentiskt uttryckt L1s bestäms i avsnitten 4 – 5.

Representative Results

De steg som beskrivs ovan och beskrivs grafiskt i figur 1 tillämpades på en mänsklig prostata tumör cellinjen DU145. RNA-provet var cytoplasmiskt prepped och var nästa generations sekvenserade i en poly-A valda, strand-specifika, Parade-end protokoll. Använda Bowtie, den Parade-end sekvensering filer justerade tillåter endast unika matcher där Parade-end läsa matchas bättre till en genomisk plats jämfört med någon annan genomisk plats. Den DU145 sekvens filer anpassades till den mänskliga referensen genom att skapa en BAM-fil, som är tillgänglig på författarens begäran. Med hjälp av bedtools, data extraherades från DU145 strand-separerade BAM-filer på antalet läsningar som mappas till full längd L1s. Dessa läsningar sorterades i ett kalkyl blad från största till minsta och manuellt curerade genom att undersöka genomisk miljö runt varje L1-Locus i IGV för att bekräfta dess äkthet (kompletterande tabell 1). Om ett prov var utvalda att vara autentiskt uttryckt, det var färgkodade grönt med en förklaring till dess acceptans i den högra kolumnen. Exempel på L1 loci accepteras att vara autentiskt uttryckt följande rikt linjer som beskrivs i avsnittet metoder visas i figur 2a-b. Om ett prov förkastades att vara autentiskt uttryckt, det var färgkodade som rött med orsaken till avslag på den högra kolumnen. Exempel på L1 loci avvisas på grund av uttryck från en promotor annan än sin egen följande rikt linjer som beskrivs i avsnittet metoder är detaljerade i figur 2c-e.

Här studerades endast ful längds L1s med en intakt promotor region. Om denna åtskillnad inte görs, införs en stor källa till transkriptionella buller från trunkerade L1s. Exempel på trunkerade L1s i DU145 visas i figur 3a-b där de IDENTIFIERADES som unikt mappade RNA-seq-läsningar. I IGV är det dock uppenbart att dessa avskrifter inte initierades från den trunkerade L1, utan från införandet av L1-sekvensen i en gen eller nedströms från en uttryckt gen.

Totalt i DU145, andelen full längd L1 loci och läsningar som avvisas som autentiskt uttryckt L1s efter manuell Curation är cirka 50% (kompletterande tabell 2) visar den höga nivån på L1 kartlagd avskrift läser som skulle annars registreras som falska positiva identifieringar utan manuell Curation. Specifikt, i DU145 fanns det 114 totalt full längd L1 loci att ha unikt kartlagt läser i avkänningen riktning med totalt 3 152 läser, men det fanns bara 60 loci identifierade att uttryckas av sin egen promotor efter manuell Curation med 1 879 läsningar ( Kompletterande tabell 1). Detta är fallet även när åtgärder vidtagits för att minska uttryck irrelevant för L1 biologi genom att välja för cytoplasmatiska mRNA. Observera att Locus med den högsta nivån av mappade utskrifter i DU145 avvisades eftersom det inte var en autentiskt uttryckt L1 (figur 4). Totalt sett varierar antalet mappade utskrifter till specifika L1-loci på samma sätt mellan den accepterade och avvisade L1 loci som autentiskt uttryckt efter manuell kurering (figur 4).

Efter manuell Curation, antalet läsningar som kartan unikt för att autentiskt uttryckt specifika L1 loci i DU145 varierar från 175 läser till ett godtyckligt valt minimum skära av 10 läsningar (figur 5). Den här metoden för att identifiera unikt mappade avskriften läser till L1s begränsar möjligheten att exakt kvantifiera uttryck. För att ta hänsyn till detta skapades en korrektions faktor för varje Locus baserat på dess mappnings barhet. För att skapa denna korrigerings faktor, första bedtools användes för att extrahera antalet unikt mappade läsningar från hela genomisk BAM fil som anpassats till alla ful längds L1 loci och grafiskt de loci från högsta till lägsta mappade avskrift läsningar (kompletterande Figur 1). Det var godtyckligt designerat att L1s med 400 läsningar hade full täckning mappability. Antalet läsningar som kan mappas till en L1-Locus i HeLa genomisk sekvenserings provet skalades i förhållande till 400 läsningar och det skalade talet multiplicerades sedan med antalet läsningar som mappas till varje autentiskt uttryckt L1 loci i DU145 (kompletterande tabell 2) . Som väntat kom L1 element som hade större korrigering poäng för mappability från yngre under familjer som L1PA2 (kompletterande tabell 2). En gång läsningar justerades för mappability poäng i varje Locus, kvantitation för uttryck för de flesta loci ökade (figur 6). Antalet läsningar som mappas unikt till autentiskt uttryckta specifika L1 loci med mappability korrigeringar i DU145 varierade från 612 till 4 läser och det fanns en omordning av högsta till lägsta uttrycka loci (figur 6).

Figur 1: Schematisk arbets flöde.
Grafiskt beskrivs är de steg för att identifiera uttryckte L1s i ett mänskligt prov. Observera att steg 1 och 2 inte behöver upprepas om rätt filer redan är tillgängliga. Dessa lämpliga filer kan laddas ner från tillägg fil 1a-b och tillägg fil 2. Rutorna i rött anger de steg där bedtools täckning program används för att räkna antalet läsningar mappning till L1s i samma mening riktning. Dessa loci med Sense orienterad kart läggning läsningar är L1s som bör manuellt curated. Vänligen klicka här för att se en större version av denna siffra.

Figur 2: exempel på kurerad L1 loci i DU145.
Laddad i IGV är referengenomet, ful längds L1 GFF anteckning fil som matchar referensgenomet version (supplement fil 1), den DU145 BAM fil, och slutligen genomisk hela BAM fil för att bedöma mappability, som alla tillgängliga på författaren Begäran. Pilar har lagts till stöd i visualisering av riktningen på den kommenterade L1. Pilar och läsningar i rött orienteras i sekvens från höger till vänster. Pilar och läsningar i blått är orienterade i sekvens från vänster till höger. a) i IGV, denna L1 Locus verkar uttryckas av sin egen promotor eftersom det inte finns några läsningar uppströms L1 i avkänningen orientering för över 5 KB. Detta L1 har låg mappability, det är inte i en gen, och har bevis för förväntad antisense promotor verksamhet²⁶. b) i IGV, detta L1 Locus verkar uttryckas av sin egen promotor som det finns inga läsningar uppströms L1 i avkänningen orientering för över 5 KB. Detta L1 har låg mappability och är inom en gen av motsatt riktning. c) i IGV förkastades denna L1-Locus som en uttryckt L1, eftersom det finns uppströms läser i samma riktning inom 5 KB. Detta L1 är inom en gen i samma riktning så att avskriften läser sannolikt kommer från initiativtagaren till den uttryckta genen. d) i IGV förkastades denna L1-Locus som en uttryckt L1, eftersom det finns uppströms läser i samma riktning inom 5 KB. Detta L1 är nedströms en högt uttryckt gen i samma riktning så att avskriften läser sannolikt kommer från initiativtagaren till den uttryckta genen och sträcker sig bortom den normala genen terminatorn. e) i IGV, denna L1 Locus avvisades som en uttryckt L1 som det finns uppströms läser i samma riktning inom 5 KB. Detta L1 är inte inom eller nära en kommenterad gen i referens genen så ursprunget av dessa utskrifter inom och uppströms L1 elementet tyder på en un-kommenterad promotor. Vänligen klicka här för att se en större version av denna siffra.

Figur 3: bakgrunds brus kommer från trunkerad L1s också.
Vår L1 anteckning inkluderar inte trunkerade L1s eftersom de är en viktig källa till bakgrunds ljud. Pilar har lagts till stöd i visualisering av riktningen på den kommenterade L1. Pilar och läsningar i blått är orienterade i sekvens från vänster till höger. a) demonstrerat är ett exempel på en trunkerad L1 i L1MB5 sufamily som är 2706 bps. I IGV är det uppenbart att de läsningar härstammar från nedströms utvidgning av en uttryckt gen. b) visas är ett annat exempel på en stympad L1. Detta L1 är en L1PA11 som är 4767 bps lång. I IGV är det uppenbart att Läs mappningen unikt till L1 kommer från den uttryckta eXoN, som L1 är inom. Vänligen klicka här för att se en större version av denna siffra.

Figur 4: avskrift läser att kartan unikt för alla ful längds intakt L1s i det mänskliga genomet uttrycks i DU145 prostata tumör cellinjen.
I svart är den specifika loci som skall identifieras som autentiskt uttryckt efter manuell Curation och i rött är den specifika loci att avvisas som autentiskt uttryckt läsningar efter manuell Curation. I grått är loci med mindre än tio läser kart läggning till varje. Eftersom dessa loci representerar en liten bråkdel av utskriften läser, de var inte manuellt curate. X-axelns skal streck betecknar varje 100 ful längds, intakt L1s. ungefär 4 500 loci visas inte grafiskt eftersom de hade noll mappade läsningar. Vänligen klicka här för att se en större version av denna siffra.

Figur 5: avskriften läser att kartan unikt till autentiskt uttryckt ful längds intakt L1s i DU145 prostata tumör cellinjen.
Visas är antalet avskrifter läser som karta till specifika loci i DU145 celler efter manuell Curation. Vänligen klicka här för att se en större version av denna siffra.

Figur 6: läser mappning till autentiskt uttryckt L1 när den justeras med mappability.
Visas är antalet avskrifter läsningar justeras av loci-specifika mappability poäng som mappas till manuellt utvalda L1 loci i DU145 celler. Vänligen klicka här för att se en större version av denna siffra.

Kompletterande fil 1: anteckningar för ful längds, intakt mänsklig L1s enligt orientering. a) FL-L1-BLAST_RM_minus. GFF. b) fl-L1-BLAST_RM_plus. GFF. Vänligen klicka här för att ladda ner denna fil.

Kompletterande fil 2: Superdatorskript som används för att automatisera pipelinen för bioinformatik som beskrivs i avsnitt 4. Vänligen klicka här för att ladda ner denna fil.

Kompletterande figur 1: genomiskt DNA-prov som används för att bestämma L1 mappability.
Visat är antalet genomisk avskrift läser från HeLa cellinjen prov som karta unikt till alla 5 000 ful längds L1 loci i genomet. Det designerades att en L1 har fullständig täckning mappability när 400 läser karta till L1. Vänligen klicka här för att ladda ner denna siffra.

Kompletterande tabell 1: manuell Kurering av L1s i DU145. Vänligen klicka här för att ladda ner denna tabell.

Kompletterande tabell 2: curated L1s i DU145 med mappability justering. Vänligen klicka här för att ladda ner denna tabell.

Discussion

L1-aktivitet har visat sig orsaka genetisk skada och instabilitet som bidrar till sjukdomen²⁷^,²⁸^,²⁹. Av de cirka 5 000 ful längds L1 kopior, endast ett fåtal dussin evolutionärt unga L1s står för majoriteten av retroinförlivande verksamhet². Det finns dock belägg för att även vissa äldre, retrotranspositionally-incompentent L1s fortfarande kan producera DNA skadliga proteiner³⁰. För att till fullo förstå L1s roll i genomisk instabilitet och sjukdom måste L1-uttryck på den Locus-specifika nivån förstås. Men den höga bakgrunden av L1-relaterade sekvenser som ingår i andra RNAs utan samband med L1-retroinförlivandet utgör en betydande utmaning vid tolkningen av autentiskt L1-uttryck. En annan utmaning i att identifiera och därmed förstå uttrycks mönster av enskilda L1 loci uppstår på grund av deras repetitiva karaktär som inte tillåter många korta läsa sekvenser för att mappa till en enda unik Locus. För att övervinna dessa utmaningar utvecklade vi den ovan beskrivna metoden för att identifiera uttryck för enskilda L1 loci med hjälp av RNA-seq data.

Vårt tillvägagångs sätt filtrerar den höga nivån (över 99%) av transkriptionella buller som genereras från L1 sekvenser som inte är relaterade till L1 retroinförlivande genom att ta ett antal steg. Det första steget innebär beredning av cytoplasmatiska RNA. Genom att välja för cytoplasmatiska RNA, L1-relaterade läsningar Funna inom uttryckta intronic mRNA i kärnan är signifikant uttömda. I ordningsföljd biblioteket förberedelse, ett annat steg vidtas för att minska transkriptionella buller samband med L1s inkluderar urvalet av polyadenylerade utskrifter. Detta tar bort L1-relaterade transkription brus som finns i icke-mRNA arter. Ett annat steg inkluderar programspecifik sekvensering för att identifiera och eliminera antisense L1-relaterade utskrifter. Användningen av en anteckning för ful längds L1s med funktionella promotor regioner när man identifierar antalet RNA-seq-utskrifter som mappas till L1s eliminerar också bakgrunds brus som annars kommer från trunkerad L1s. Slutligen, det sista kritiska steget för att eliminera transkriptionella buller av L1 sekvenser utan samband med L1 retroinförlivande är den manuella Curation av ful längds L1s identifieras ha kartlagt RNA-seq avskrifter. Den manuella curationen innebär visualisering av varje bioinformatiskt identifierad-att-vara-uttryckt L1 Locus i samband med dess omgivande genomisk miljö för att bekräfta att uttrycket härstammar från L1 Promotorn. Detta tillvägagångs sätt tillämpades på DU145, en prostata tumör cellinjen. Även med alla förberedande åtgärder som vidtagits för att minska bakgrunds bullret, var cirka 50% av L1 loci identifierade bioinformatiskt i DU145 förkastas som L1 bakgrunds brus från andra transkriptionella källor (figur 4), betona den noggrannhet som krävs för att producera pålitliga resultat. Detta tillvägagångs sätt med manuell Curation är arbets intensiva, men nödvändigt i utvecklingen av denna pipeline för att utvärdera och förstå genomisk miljö kring en ful längds L1. Nästa steg är att minska mängden nödvändig manuell kurering genom att automatisera några av de Curation regler, men på grund av den fortfarande inte helt känd karaktär genomiskt uttryck, un-kommenterad källor till uttryck i referensgenomet, regioner med låg mappability, och även komplicerande faktorer som är inblandade i byggandet av en referens genomet är det inte möjligt att helt automatisera L1 Curation vid denna tid.

Den andra utmaningen när det gäller att identifiera uttryck för enskilda L1 loci med sekvensering avser kart läggningen av repetitiva L1-utskrifter. I denna inriktnings strategi krävs det att en transkription måste justeras unikt och samlinjärt med referengenomet för att kunna kartläggas. Genom att välja för parad-end sekvenser som mappas concordantly, mängden utskrifter som unikt anpassa sig till L1 loci finns i referens genomet ökar. Denna unika kart läggning strategi ger förtroende för anrop av läser mappning specifikt till en enda L1 Locus, även om det potentiellt unders katta uttrycket kvantitet av varje identifierad-till-vara-authentically uttryckt, repetitiva L1. För att ungefär korrekt för denna underskattning, en "mappability" poäng för varje L1 Locus baserat på dess mappability utvecklades och tillämpas på antalet unikt kartlagd avskrift läsningar (figur 6). Det är att notera att idealiskt, mappability bör poängsättas till full täckning läser över ful längds L1 enligt matchade WGS provet. Här använder vi WGS av HeLa celler för att bestämma mappability betyg för varje L1 loci för att blåsa eller tömma läser mappning till L1 loci i DU145 prostata tumör cellinjer. Denna mappability beräkning är en rå korrigering poäng, men den valda "fullständig täckning mappability" av 400 läsningar bestämdes med den dynamiska karaktären av tumör cellinjer i åtanke. Det kan observeras i kompletterande figur 1, att det finns några L1 loci med hela WGS med extremt stort antal mappade läsningar. Dessa sannolikt kommer från duplicerade kromosom sekvenser inom HeLa som inte är inom referengenomet, vilket är varför de loci inte valdes att vara representativ för fullständig mappability täckning. Istället var det fastställt att genomsnittet av 100% läsa täckning sker runt 400 läser enligt kompletterande figur 1 och antogs då att detta genomsnitt gäller för DU145 tumör prostata cell linje också.

Denna anpassning strategi med 100-200 BP läser från RNA-seq-teknik också företrädes vis väljer för evolutionärt äldre L1s inom referens genomet som äldre L1s har ackumulerats med tiden unika mutationer som gör dem mer mappnings bar. Detta tillvägagångs sätt har därför begränsad känslighet när det gäller att identifiera de yngsta av L1s samt icke-referens, polymorfa L1s. För att identifiera den yngsta av L1s, föreslår vi att använda 5 ' RACE urval av L1 utskrifter och sekvenserings teknik som PacBio som använder sig av längre läsningar²¹. Detta möjliggör en mer unik kart läggning och därmed säker identifiering av de uttryckta, unga L1s. med hjälp av RNA-seq och PacBio metoder tillsammans kan leda till en mer omfattande lista över autentiskt uttryckt L1s. För att identifiera autentiskt uttryckt polymorfa L1s, de första nästa steg inkluderar konstruktion och införande av polymorfa sekvenser i referengenomet.

De biologiska och tekniska utmaningarna i att studera upprepade sekvenser är stora, men med ovanstående rigorösa förfarande för att ta bort transkriptionella buller av L1 sekvenser FN-relaterade till retroinförlivande med RNA-sekvenserings teknik, börjar vi att sålla igenom de stora nivåerna av transkriptionella bakgrunds ljud och att man tryggt och strikt identifierar mönster och mängd för L1-uttryck på den individuella Locus-nivån.

Disclosures

Författarna har inget att avslöja.

Acknowledgments

Vi vill tacka Dr Yan Dong för DU145 prostata tumör celler. Vi vill tacka Dr Nathan Ungerleider för hans vägledning och råd i att skapa superdator skript. En del av detta arbete finansierades av NIH Grants r01 GM121812 till PD, r01 AG057597 till VPB, och 5TL1TR001418 till TK. Vi skulle också vilja erkänna stöd från cancer Crusaders och Tulane Cancer Center bioinformatik core.

Materials

Name	Company	Catalog Number	Comments
1 M HEPES	Affymetrix	AAJ16924AE
5 M NaCl	Invitrogen	AM9760G
Agilent bioanalyzer 2100	Agilent technologies
Agilent RNA 6000 Nano Kit	Agilent technologies	5067-1511
bedtools.26.0			https://bedtools.readthedocs.io/en/latest/content/installation.html
bowtie-0.12.8			https://sourceforge.net/projects/bowtie-bio/files/bowtie/0.12.8/
Cell scraper	Olympus plastics	25-270
Chloroform	Fisher	C298-500
Digitonin	Research Products International Corp	50-488-644
Ethanol	Fisher	A4094
Gibco (Phosphate Buffered Saline)	Invitrogen	10-010-049
Homogenizer	Thomas Scientific	BBI-8541906
IGV 2.4			https://software.broadinstitute.org/software/igv/download
Isopropanol	Fisher	A416-500
mac2unix			https://sourceforge.net/projects/cs-cmdtools/files/mac2unix/
Q-tips	Fisher	23-400-122
RNAse later solution	Invitrogen	AM7022
RNaseZap RNase Decontamination Solution	Invitrogen	AM9780
samtools-1.3			https://sourceforge.net/projects/samtools/files/
sratoolkit.2.9.2			https://github.com/ncbi/sra-tools/wiki/Downloads
SUPERase·In RNase Inhibitor	Invitrogen	AM2694
Trizol	Invitrogen	15-596-018
Water (DNASE, RNASE free)	Fisher	BP2484100

DOWNLOAD MATERIALS LIST

References

International Human Genome Sequencing. Initial sequencing and analysis of the human genome. Nature. 409, 860 (2001).
Brouha, B., et al. Hot L1s account for the bulk of retrotransposition in the human population. Proceedings of the National Academy of Sciences of the United States of America. 100 (9), 5280-5285 (2003).
Dombroski, B. A., Mathias, S. L., Nanthakumar, E., Scott, A. F., Kazazian, H. H. Isolation of an active human transposable element. Science. 254 (5039), 1805 (1991).
Swergold, G. D. Identification, characterization, and cell specificity of a human LINE-1 promoter. Molecular and Cellular Biology. 10 (12), 6718-6729 (1990).
Speek, M. Antisense promoter of human L1 retrotransposon drives transcription of adjacent cellular genes. Molecular and Cellular Biology. 21 (6), 1973-1985 (2001).
Deininger, L., Batzer, M. A., Hutchison, C. A., Edgell, M. H. Master genes in mammalian repetitive DNA amplification. Trends in Genetics. 8 (9), 307-311 (1992).
Boissinot, S., Chevret, P., Furano, A. L1 (LINE-1) Retrotransposon Evolution and Amplification in Recent Human History. Molecular Biology and Evolution. 17 (6), 915-918 (2000).
Khazina, E., Weichenrieder, O. Non-LTR retrotransposons encode noncanonical RRM domains in their first open reading frame. Proceedings of the National Academy of Sciences of the United States of America. 106 (3), 731-736 (2009).
Martin, S. L., Bushman, F. D. Nucleic acid chaperone activity of the ORF1 protein from the mouse LINE-1 retrotransposon. Molecular and Cellular Biology. 21 (2), 467-475 (2001).
Feng, Q., Moran, M. H., Kazazian, H. H., Boeke, J. D. Human L1 Retrotransposon Encodes a Conserved Endonuclease Required for Retrotransposition. Cell. 87 (5), 905-916 (1996).
Mathias, S. L., Scott, A. F., Kazazian, H. H., Boeke, J. D., Gabriel, A. Reverse transcriptase encoded by a human transposable element. Science. 254 (5039), 1808 (1991).
Luan, D. D., Korman, M. H., Jakubczak, J. L., Eickbush, T. H. Reverse transcription of R2Bm RNA is primed by a nick at the chromosomal target site: A mechanism for non-LTR retrotransposition. Cell. 72 (4), 595-605 (1993).
van den Hurk, J. A. J. M., et al. Novel types of mutation in the choroideremia (CHM) gene: a full-length L1 insertion and an intronic mutation activating a cryptic exon. Human Genetics. 113 (3), 268-275 (2003).
Miné, M., et al. A large genomic deletion in the PDHX gene caused by the retrotranspositional insertion of a full-length LINE-1 element. Human Mutation. 28 (2), 137-142 (2007).
Solyom, S., et al. Pathogenic orphan transduction created by a nonreference LINE-1 retrotransposon. Human Mutation. 33 (2), 369-371 (2012).
Hancks, D. C., Kazazian, H. H. Roles for retrotransposon insertions in human disease. Mobile DNA. Mobile DNA. 7, 9-9 (2016).
Tubio, J. M. C., et al. Mobile DNA in cancer. Extensive transduction of nonrepetitive DNA mediated by L1 retrotransposition in cancer genomes. Science. 345 (6196), 1251343-1251343 (2014).
Ewing, A. D., et al. Widespread somatic L1 retrotransposition occurs early during gastrointestinal cancer evolution. Genome Research. 25 (10), 1536-1545 (2015).
Beck, C. R., Garcia-Perez, J. L., Badge, R. M., Moran, J. V. LINE-1 elements in structural variation and disease. Annual Review of Genomics and Human Genetics. 12, 187-215 (2011).
Philippe, C., et al. Activation of individual L1 retrotransposon instances is restricted to cell-type dependent permissive loci. eLife. 5, e13926 (2016).
Deininger, P., et al. A comprehensive approach to expression of L1 loci. Nucleic Acids Research. 45 (5), e31-e31 (2017).
Jin, Y., Tam, O. H., Paniagua, E., Hammell, M. TEtranscripts: a package for including transposable elements in differential expression analysis of RNA-seq datasets. Bioinformatics. 31 (22), 3593-3599 (2015).
Agilent RNA 6000 Nano Kit Guide. , Agilent. (2017).
Mueller, O. L., Schroeder, A. RNA Integrity Number (RIN) –Standardization of RNA Quality Control. , Agilent Technologies. (2016).
Robinson, J. T., et al. Integrative genomics viewer. Nature Biotechnology. 29, 24 (2011).
Speek, M. Antisense promoter of human L1 retrotransposon drives transcription of adjacent cellular genes. Molecular Cellular Biology. 21 (6), 1973-1985 (2001).
Belancio, V. P., Deininger, L., Roy-Engel, A. M. LINE dancing in the human genome: transposable elements and disease. Genome Medicine. 1 (10), 97-97 (2009).
Iskow, R. C., et al. Natural Mutagenesis of Human Genomes by Endogenous Retrotransposons. Cell. 141 (7), 1253-1261 (2010).
Scott, E. C., et al. A hot L1 retrotransposon evades somatic repression and initiates human colorectal cancer. Genome Research. 26 (6), 745-755 (2016).
Kines, K. J., Sokolowski, M., deHaro, D. L., Christian, C. M., Belancio, V. P. Potential for genomic instability associated with retrotranspositionally-incompetent L1 loci. Nucleic Acids Research. 42 (16), 10488-10502 (2014).

Genetics

RNA nästa generations sekvensering och en bioinformatik pipeline för att identifiera uttryckta LINE-1s på Locus-specifik nivå

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.