Biology

3' enden sekventering bibliotek forberedelse med A-seq2

Published: October 10, 2017 doi: 10.3791/56129

Georges Martin¹, Ralf Schmidt¹, Andreas J. Gruber¹, Souvik Ghosh¹, Walter Keller¹, Mihaela Zavolan^1,2

¹Computational and Systems Biology, Biozentrum, University of Basel, ²Swiss Institute of Bioinformatics, Biozentrum, University of Basel

Summary

Denne protokol beskriver en metode til kortlægning pre-mRNA 3' enden forarbejdning websteder.

Abstract

Undersøgelser i det sidste årti har afsløret en kompleks og dynamisk udvalg af pre-mRNA kavalergang og polyadenylation reaktioner. mRNAs med lange 3' utranslaterede regioner (UTRs) er genereret i differentierede celler boer prolifererende celler fortrinsvis express udskrifter med korte 3' UTRs. Vi beskriver A-seq-protokollen nu på sin anden version, som blev udviklet for at kortlægge polyadenylation websteder genome-wide og studere regulering af pre-mRNA 3' enden behandling. Denne aktuelle protokol tager også fordel af polyadenylate (poly(A)) haler, der er tilføjet under Biogenese af mest pattedyr mRNAs at berige for fuldt forarbejdet mRNAs. En DNA-adapter med deoxyuracil på sin fjerde position giver mulighed for præcis forarbejdning af mRNA 3' enden fragmenter til sekvensering. Ikke herunder cellekultur og de overnight ligations kræver protokollen om 8 h hands-on tid. Sammen med det tilbydes en nem at bruge softwarepakke til analyse af den afledte sequencing data. A-seq2 og den tilknyttede analyse software giver en effektiv og pålidelig løsning til kortlægning af pre-mRNA 3' ender i en lang række betingelser, fra 10⁶ eller færre celler.

Introduction

Opsamling og sekventering af mRNA 3' ender giver mulighed for undersøgelse af mRNA forarbejdning og kvantificering af genekspression. På grund af deres poly(A) haler, kan eukaryote mRNAs blive effektivt renset fra samlede cellelysater med perle-immobiliseret oligo-deoxythymidine (oligo(dT)) molekyler, som kan også prime cDNA syntese. Denne tilgang har dog to ulemper. Første kan strækninger af A, der er internt i udskrifter også prime cDNA syntese, hvilket resulterer i uægte poly(A) websteder. Andet, homogene poly(A) strækninger udgøre særlige udfordringer til sekvensering, bortset fra ikke at være informativ for udskrift identifikation. Forskellige metoder er blevet foreslået at omgå disse begrænsninger, såsom reverse transkription gennem poly(A) haler efterfulgt af RNase H fordøjelsen (3 P-seq ¹), brug af en brugerdefineret sekventering primer slutter i 20 Ts (2 P-seq ²), Forhåndsudvælgelse af RNA fragmenter med poly(A) haler af over 50 nukleotider med en CU₅T₄₅ primer efterfulgt af RNase H fordøjelsen (læser 3' ³), og brugen af en oligo-dT primer, der indeholder 3'-adapter i en hårnål (A-seq ⁴).

Den nyligt udviklede A-seq2 metode ⁵ har til formål at omgå sekventering gennem poly(A) og samtidig minimere andelen af dimerer, der er genereret af selvstændig ligatur af adaptere, især opstår når den molære koncentration af adaptere opvejer Indsæt koncentration. Dette problem kan undgås, når begge adaptere er forbundet til den samme type af polynucleotide ender som A-seq2, hvor 3' adapterne er forbundet til 5'-enden af RNA fragmenter og 5'-adaptere til 5' enderne af cDNAs efter reverse transkription. Metoden er mere praktisk end vores tidligere foreslåede A-seq - hvor sekventering var i 5'-til-3' retning dermed kræver netop kontrollerede RNA fragmentering-, samtidig opretholde en høj præcision af poly(A) site identifikation. Omkring 80% af den omkostningsstyring læser i typiske prøver kort entydigt til genomet og føre til identifikation af over 20.000 poly(A) site klynger, mere end 70% af hvilke overlappende med kommenteret 3' UTRs.

Kort sagt, starter A-seq2-protokollen med mRNA fragmentering og ligatur af reverse-supplement 3' adaptere til 5'-enden af RNA fragmenter. Poly (A)-indeholdende RNA'er er derefter omvendt transskriberet med en 25 nukleotid (nt) lang oligo(dT) primer, der indeholder en anker nukleotid på 3'-enden, en dU ved position 4 og et biotin for 5' enden, så binding af cDNA til magnetiske streptavidin perler. De fleste af primer, herunder biotin, fjernes fra cDNA ved spaltning på dU ved bruger enzymet blanding, der indeholder Uracil DNA glycosylase (UDG) og DNA glycosylase-lyase Liv1975 VIII. Denne reaktion forlader intakt ender for ligatur af en 5' adapter, og tre Ts venstre efter kavalergang fortsat for at markere placeringen af poly(A) hale. Fordi både 5' og 3' adaptere er fastgjort ved ligatur til modtagerens 5' ender, genereres der ingen adapter dimerer. Fire nukleotid random-mers indført i begyndelsen af læser tillader klynge opløsning på state-of-the-art sekventering instrumenter og kan også tjene som unikke molekylære id (UMI) for detektering og fjernelse af PCR forstærkning artefakter. Størrelsen på UMI kan øges yderligere, som gjort i andre studier ⁶. Protokollen genererer læsninger, der er omvendt supplement til mRNA 3' ender, alle starter med en randomiseret tetramer efterfulgt af 3 Ts. behandling af læser, der har de 3 diagnostiske Ts på deres 5' ende starter med korrektion af PCR forstærkning artefakter af at udnytte (UMIS) velkommen, fjernelse af 3' adapter sekvenser, og reverse komplementering. Læser, der kan stamme fra oligo(dT) priming på interne A-rige lokaliteter er også identificeret beregningsmæssigt og kasseres. De falske websteder generelt mangler en af de 18 vel karakteriseret og bevarede poly(A) signaler, som bør være beliggende ~ 21 nukleotider opstrøms af tilsyneladende kavalergang site ⁷.

Protokollen kræver ca. 8 h hands-on tid, ikke tælle cellekultur og overnatning ligations. De tilknyttede læse analyse software giver mulighed for en meget præcis poly(A) site identifikation. Fra webstedet poly(A) klynger skabt på grundlag af 4 prøver yderligere fremhævet i dette manuskript (to biologiske replikater af kontrol siRNA og si-HNRNPC-behandlede celler) 84% overlap med en kommenteret gen, og af disse, 75% overlap med en 3' UTR og 86% med enten en 3' UTR eller en terminal exon. Pearson korrelationskoefficienten af udtryk for 3' ender i Kontraprøverne, der udtages er 0,92, og værdier over 0,9 er typisk fremstillet med metoden. A-seq2 er således en praktisk metode, der giver meget reproducerbare resultater.

Protocol

1. cellevækst og mRNA Isolation

vokse celler efter dine eksperimentelle design i 6-godt plader til ~ 1 x 10 ⁶ celler pr. brønd på 80% confluence.
Fjerne vækstmediet og vaske cellerne en gang med fosfatbufferet saltvand. Direkte lyse celler på pladen ved tilsætning af 1 mL af lysisbuffer fra mRNA-isolering kit. Overføre den tyktflydende lysate ind i en 15 mL plastik rør med 1 mL pipette spids. Bruger en gummi spatel til helt frigøre celle materiale fra pladen overflade.
Shear lysate indeholdende tyktflydende DNA med 1 mL sprøjte tilknyttet en 23 G kanyle med flere kraftige op og ned bevægelser af stemplet, indtil den lysate er ikke længere tyktflydende. Punkt sprøjte nål til midten af bunden for at undgå udsmidning af lysate ud af røret.
Overførsel af lysate ind i en 1,5 mL rør ved hjælp af sprøjten. Spin 5 min på 20.000 x g og 4 ° C for at fjerne snavs. Bruge DNA lav binde 1,5 mL hætteglas hele protokollen.
Mens centrifugen kører, vaske 300 µL af resuspenderede oligo (dT) ₂₅ magnetiske perler på en magnetisk rack med 500 µL af lysisbuffer. Bland rør 2 - 3 gange på rack. Fjerne bufferen, når løsningen er klar. Indsamle klart supernatanten fra trin 1.4 og tilføje til perlerne. Resuspend og placere rør på et roterende hjul for 10 min.
Sted rør på et magnetisk rack. Fjern den klare væske efter 2 min. Tilføj 0,8 mL buffer A fra mRNA-isolering kit. Slå røret ved 180° grader på rack, 2 - 3 gange. Gentag trinnet vask igen med buffer A.
Vaske perlerne 2 gange med 0,8 mL buffer B som beskrevet i trin 1,6.
At eluere den bundne mRNA fra perler, tilføje 33 µL H ₂ O og resuspend perlerne. Opvarmes til 75 ° C i 5 min på en opvarmet blok. Straks spin rør for 1 s og placere dem på den magnetiske rack. Overføre supernatanten til en ny tube. Prøver kan opbevares ved-80 ° C indtil videre anvendelse.
Tilføje 66 µL alkalisk hydrolyse buffer til 33 µL mRNA (trin 1.8), blandes og opvarmes i nøjagtigt 5 min. ved 95 ° C på en varme blok. Straks chill rør på ice.
Isolere RNA med en RNA oprydning kit.
NOTE: Bekræfte volumen; Det bør være 100 µL.
1. Tilføje 350 µL RLT buffer fra sættet og 250 µL ethanol. Belastning på kolonne og spin for 30 s på 8.000 x g ved stuetemperatur (RT). Vask med 500 µL ÅV buffer fra sættet. Vask med 500 µL 80% ethanol. Spin i 5 min på 20.000 x g tørre kolonnen. Tilføje 36 µL H ₂ O til kolonne og spin på 1 min på 20.000 x g. slette kolonnen og gemme eluatet.

2. 5 ' ende fosforylering og DNase behandling

tilføje 5 µL polynucleotide kinase buffer, 5 µL 10 mM ATP, 1 µL ribonuklease-inhibitor, 1 µL DNase og 2 µL polynucleotide kinase til prøver og inkuberes ved 37 ° C i 30 min. eventuelt forberede master reaktion blander hele protokollen ved at blande 1.1 diskenheder x n (n = antallet af udtagne prøver) af hver komponent.
Ændre buffer og fjerne ATP på en spin-kolonne for at forhindre poly(A) tilsætning i næste trin.
1. Prespin spin-kolonner på 735 x g i 1 min. overføre kolonnerne til nye 1,5 mL hætteglas og indlæse kinase reaktioner på kolonnerne. Spin kolonner 2 min på 735 x g. kassere kolonnerne og placere rør med indsamlede reaktioner på is eller opbevares ved-80 ° C.

3. Blokering 3 ' ender med Cordycepin trifosfat

NOTE: det er vigtigt at blokere 3 ' ender af RNA fragmenter til at undgå deres concatemerization i den efterfølgende ligatur reaktioner. 3 ' ender, der ikke allerede er blokeret af en ( cyklisk) phosphat efter hydrolyse behandles ved tilsætning af en 3 ' dATP (cordycepin trifosfat) kæde terminator nukleotid ved hjælp af poly(A) polymerase. Her, blev gær poly(A) polymerase (yPAP), der blev udtrykt og renset som beskrevet i ⁸ brugt i en koncentration på 0,5 mg/mL. Gær eller E. coli PAP begge har næsten den samme aktivitet for tilsætning af 3 ' dATP og kan købes kommercielt (se tabel materialer).

Tilføje 13,5 µL 5 x koncentreret poly(A) polymerase reaktion buffer, 2 µL af 10 mM 3 ' dATP, 1 µL RNase inhibitor og 1 µL poly(A) polymerase til reaktion fra trin 2.2.1. Mix og spin for 1 s. Incubate ved 37 ° C i 30 min. tilføje 32,5 µL H ₂ O til hver reaktion. Rense RNA som i trin 1.10.1. Elueres RNA med 14 µL H ₂ O.

4. Ligatur af Reverse 3 ' adaptere til 5 ' slutningen af RNA fragmenter

sted reaktioner i en vakuum koncentrator i 10 min at reducere lydstyrken til 6 µL. tilføje 3 µL 10 x T4 RNA ligatur buffer, 3 µL 10 mM ATP , 15 µL PEG-8000, 1 µL RNase inhibitor, 1 µL af 0,1 mM omvendt supplement 3 ' adapter " revRA3 " (se tabel materialer) og 1 µL høj koncentration RNA ligase 1, bland.
Ruger reaktioner på 24 ° C i 16 timer på et opvarmet mixer med intermitterende blanding ved 1000 rpm. Tilføje 70 µL H ₂ O til hver reaktion og bland. Rense RNA som i trin 1.10.1. Elueres RNA med 14 µL H ₂ O. prøver kan opbevares ved-80 ° C på dette punkt.

5. Reverse transkription (RT)

sted eluater i et vakuum koncentrator i 3 min. at reducere lydstyrken til 11 µL. overførsel reaktioner på 200 µL PCR rør. Tilføj 1 µL 0,05 mM RT primer " Bio-dU-dT25 ". Varme i 5 min. ved 70 ° C i en PCR cycler og henstår ved RT i 5 min.
Tilføje 1 µL 10 mM dNTP'er, 4 µL 5 x reverse transkriptase buffer, 1 µL 0,1 M DTT, 1 µL RNase inhibitor og 1 µL reverse transkriptase. Bland og varme reaktioner i 10 min til 55 ° C og 10 min til 80 ° C i en PCR cycler. Holde paa is eller paa-80 ° C til længere opbevaring.

6. Fordøjelse med Uracil DNA Glycosylase enzym Mix

afpipetteres 100 µL Streptavidin-perler i et 1,5 mL hætteglas, resuspend i 800 µL biotin binding buffer og placere på en magnetisk rack. Invertere rør 2 - 3 gange. Fjerne buffer når klar. Gentag trinnet vask. Resuspend perlerne i 200 µL biotin binding buffer.
Tilføje reverse transkription reaktion på perler løsning og inkuberes 20 min. ved 4 ° C på en roterende hjul. Vaske perlerne 2 x med biotin binding buffer som i trin 6.1 og 2 x med ti buffer på en magnetisk rack. Resuspend perlerne i 50 µL ti buffer, tilsættes 2 µL Uracil DNA glycosylase enzym mix, og der inkuberes 1 h ved 37 ° C i en mixer med intermitterende blanding.
Tilsættes 50 µL H ₂ O, 11 µL af RNase H buffer og 1 µL RNase H til reaktioner. Der inkuberes ved 37 ° C i 20 min. sted rør på et magnetisk rack og overføre den væske, der indeholder den kløvet cDNA til en ny tube
rense den kløvet cDNA.
1. Tilføje 550 µL af buffer PB fra PCR rensning kit Reaktionerne kavalergang. Tilsæt 10 µL af 3 M natriumacetat, pH 5.2 til at sænke pH. Indlæse reaktioner på minimal eluering spin kolonner og spin på 17.000 x g i 1 min.
2. Tilføje 750 µL buffer PE kolonner og spin på 17.000 x g i 1 min. kassere gennemstrømnings. Spin kolonner på 17.000 x g i 1 min til tørre. Overføre kolonnerne til en 1,5 mL hætteglas, tilføje 16 µL H ₂ O og spin på 17.000 x g i 1 min. Læg reaktionerne i et vakuum koncentrator til 8 min til koncentreres til en volumen på 7 µL.

7. Ligatur af 5 ' adaptere til 5 ' ender af cDNA

til den isolerede cDNA, tilføje 3 µL 10 x T4 RNA ligase 1 buffer, 3 µL 10 mM ATP, 15 µL PEG-8000, 1 µL 50 µM " revDA5 " oligo , og 1 µL høj koncentration T4 RNA ligase 1. Inkuber ved 24 ° C i 20 h. tilføje 70 µL H ₂ O til hver reaktion. Prøver kan opbevares ved-20 ° C på dette punkt.

8. Pilot PCR, forstærkning af biblioteker og størrelse udvalg

i en pilot reaktion, bestemme det optimale antal PCR-cykler for at nå bibliotek forstærkning inden for den eksponentielle fase.
1. Med pipette overfoeres 25 µL DNA polymerase mix, 20 µL ligatur reaktion, 2 µL H ₂ O, 1,5 µL 10 µM fremad PCR primer (RP1) og 1,5 µL 10 µM omvendt PCR indeks primer ind i 200 µL PCR rør.
2. Køre cycler med følgende program: 3 min 95 ° C, efterfulgt af 20 cyklusser af 20 s 98 ° C, 20 s 67 ° C og 30 s 72 ° C. indsamle 7 µL delprøver efter 6, 8, 10, 12, 14, 16 og 18 cykler direkte fra cycler. Tilføj 1 µL 10 x loading bufferen (50% glycerol, 0,05% xylen cyanol). Bemærk: Følg anbefalingerne fra leverandøren anvender multiplexing når kombinere stregkoder.
3. Særskilte produkter i lille slots på en 2%-agarosegel i 1 x TBE buffer indeholder en 1:10, 00 fortynding af fluorescerende grøn farve.
  1. Belastning delprøver på en 2% Agarosen gel og Kør gelen på 100 volt i 15 min. Visualiser migration af PCR-produkter på en gel dokumentationssystem.
Bruge antallet cyklusser i begyndelsen af eksponentielle forstærkning i den pilot reaktion for en storstilet PCR reaktion med to gange diskenhederne, som anvendes til pilot reaktion ( figur 2).
1. For storstilet PCR reaktioner, koncentrere sig og desalt reaktioner først med en PCR rensning kit og separate produkter bred slots på 2% agarosegelitris 1 x TBE buffer.
Skære gel skiver indeholdende 200-350 nt DNA produkter. Smelt gel i chaotropic buffer på RT for op til 30 min. Uddrag DNA fra gel skiver med en gel udvinding kit. Ikke opvarmes til 50 ° C for at undgå bias i bindingen af A-rige DNA ⁹.
Send til sekvensering.
Bemærk: Typisk 50 cykler single-Læs (SR50) er tilstrækkelig (jf. for eksempel, https://www.illumina.com/technology/next-generation-sequencing.html).

9. Databehandling

NOTE: de resulterende sequencing data (i fastq format) behandles med software til rådighed i gitlab repository (https://git.scicore.unibas.ch/zavolan_public/A-seq2-processing). Analysen omfatter fire hovedtrin: (1) downloading git repository, (2) installationen af et virtuelt miljø, (3) indstilling specifikke parametre i konfigurationsfilen og (4) lancere analyse gennem ‘ snakemake ’ ¹⁰. hele analysen udført i trin 4 kræver kun én kommando. En detaljeret trin for trin beskrivelse af analysen kan findes i den readme-fil i arkivet gitlab og en kort beskrivelse findes nedenfor. Alle individuelle behandlingstrin er udført af udførelsen af offentligt tilgængelige værktøjer, enten fra eksterne kilder eller forberedt in-house. Den beregningsmæssige pipeline afhænger en anaconda-baserede ¹¹ python 3 virtuelt miljø med snakemake pakke tilgængelig ¹⁰. Det kører på maskiner med Unix-lignende operativsystem og blev testet i et Linux-miljø med CentOS 6,5 operativsystem installeret og 40 GB RAM til rådighed. Software afhængigheder styres automatisk i det virtuelle miljø. Følgende offentligt tilgængelige softwareværktøjer er nødvendige og dermed installeret sammen med miljøet: snakemake (v3.9.1) ¹⁰, fastx toolkit (v0.0.14) ¹², STAR (v2.5.2a) ¹³, cutadapt (v1.12) ¹⁴, samtools (v1.3.1) ¹⁴ ^, ¹⁵, bedtools (v2.26.0) ¹⁶ ^, ¹⁷.

Data forbehandling fra læser til cDNAs
Bemærk: sekventering dybde kan variere mellem kørsler og, afhængigt af instrumentet, data fra én prøve kan være fordelt over flere sekvens filer. Hvis dette er tilfældet, sammenkæde de filer, der svarer til én prøve til en enkelt input fil, som bruges i følgende trin.
1. Konvertere filen fra fastq til fasta format.
2. Ekstrakt læser med en korrekt struktur (3 thymidines på Læs holdninger 5, 6 og 7).
  Bemærk: En læser, der er korrekt forberedt efter eksperimentel protokol beskrevet ovenfor bør have struktur (fra 5 ' ende): 4-nukleotid stregkode - 3 thymidines - vende supplement af udskrift 3 ' slutningen.
3. Gemme oplysninger om den begyndende tetramer i linjen beskrivelse af sekvensen.
  Bemærk: Tetramer tjener som en entydig molekylære identifikation (UMI), der letter korrektion af forstærkning artefakter senere i analysen.
4. Fjerne de første syv nukleotider fra Læs ' s 5 ' slutningen.
5. Rette for forstærkning artefakter ved at holde kun én kopi af læser med det samme sæt sekvens og UMI.
6. Fjerner del af 3 ' ende, der svarer til adapteren sekvens og derefter omvendt supplement sekvensen. Kun fortsætte med læser, der har en minimumslængde (standard: 15 nt).
  Bemærk: afhængigt af længden af den oprindelige mRNA fragment og antallet af sekventering cyklusser, 3 ' slutningen af Læs kan indeholde en del af 3 ' adapter, der er fjernet i dette trin.
Uddrag al læser, der opfylder følgende kriterier: maksimalt 2 ukendte nukleotider (' N '), højst 80% som og sidste nukleotid af Læs ikke A. Disse læser anses for at være af tilstrækkelig høj kvalitet til at blive brugt i analysen.
Kort i læser til genom med et værktøj, der håndterer splejset læsninger og genererer en output-fil i BAM format.
1. Hvis STAR bruges, oprettes en fil med indekset for det genom, som læser skal være tilknyttet. For det menneskelige genom, kræver dette trin 35 GB hukommelse (RAM).
2. Kort i læser til genomet.
  Bemærk: (STAR-specifikke noter) Soft-klipning er deaktiveret for at tvinge kortlægning af 3 ' udgangen af hvert Læs da dette er nukleotid umiddelbart opstrøms af webstedet kavalergang.
Konvertere BAM til en BED-fil. Hvis en læser knyttes til flere placeringer, holder kun dem med de laveste edit afstand.
Bemærk: Kopi antal Læs kortlagt på en bestemt lokation bruges som score. Læser, der knyttes til flere steder tælles fraktioneret på hver lokation med en vægt svarende til 1/antal af steder som en læse kort.
Sammenbrud læsninger, der varierer efter fejlen sandsynligvis sekvensering. Hvis to forskellige læsninger knyttes til den samme placering (start- og sluttidspunkt placering af tilknytningerne er identiske) og de deler den samme UMI, betragte dem som PCR dubletter og holde kun et.
Udlede alle individuelle pre-mRNA 3 ' ende forarbejdning websteder.
Bemærk: En individuel læse fremlægger bevis for en 3 ' ende når sine sidste fire nucleotider knyttes til genom uden fejl. Holdning, som 3 ' slutningen af Læs kortene er gemt som kavalergang site.
Find 3 ' ende websteder, der kunne stamme fra interne priming. Definere webstedet som interne priming artefakt, når 10 nt nedstrøms kavalergang websted i genomet opfylder et af følgende kriterier: indeholder mere end seks som, indeholder seks på hinanden følgende som eller starter med en af de følgende tetramers: AAAA, AGAA, AAGA, AAAG .
Genererer en tabel af individuelle 3 ' ende forarbejdning websteder i seng format.
Identificere uafhængigt reguleret poly(A) site klynger.
Bemærk: Trinene beskrevet her følge den procedure, der blev indført i en forudgående offentliggørelse ⁵.
1. Starte ved at indsamle individuelle 3 ' ende forarbejdning websteder, der blev opnået i alle prøver af undersøgelsen.
2. Anmærke kendte poly(A) signaler ⁷ i regionen i -60 til + 10 nukleotider omkring hver enkelte 3 ' udgangen forarbejdning hjemmeside.
3. Identificere poly(A) websteder udtrykt over baggrunden i hver prøve som følger.
  1. Sorter websteder efter deres rå udtryk inden for den nuværende prøve. Krydse af listen over lokaliteter fra top til bund, knytte lavere rangeret websteder med et højere rangeret websted, hvis de er placeret inden for en foruddefineret afstand i genomet (standard: 25 nt op - eller downstream) fra webstedet højtstående.
    Bemærk: Alle lav-ranking websteder knyttet til en højtstående websted definere en klynge, hvis udtryk er antallet af læser dokumenterer alle disse steder.
  2. Sortere disse klynger af udtryk og krydse listen over klynger fra højeste til laveste udtryk, bestemmelse af udtryk tærskel c som procentdelen af klynger med en kommenteret poly(A) signal dråbe under en foruddefineret tærskel ( standard: 90%).
  3. Kassere websteder fra en klynge under cutoff.
4. Klynge tæt afstand 3 ' ende websteder opnået over prøver.
  Bemærk: Sortering 3 ' udgangen forarbejdning steder først med antallet af støtte prøver og derefter med summen af de normaliserede læse count (læser million (RPM)) på tværs af prøver. Gennemkører på listen fra top til bund, knytte lavere rangerede websteder med højere rangerede websteder, når deres afstand til webstedet højere rang ikke er større end en foruddefineret grænse (standard: 12 nt). Når nogen af de der udgør 3 ' ende site overlapper med en kommenteret poly(A) signal eller har et poly(A) signal direkte downstream, den tilsvarende klynge er markeret for yderligere inspektion at opdage indre priming.
5. Flet poly(A) site klynger.
  Bemærk: Når en klynge er markeret som formodede interne priming kandidat, det er enten flettes en downstream klynge, hvis de to klynger deler deres poly(A) signaler eller bevaret hvis webstedet mest downstream i klyngen har et poly(A) signal beliggende på et minimum afstand til opstrøms (standard: 15 nt). Endelig, tætliggende klynger flettes, hvis: a de deler den samme poly(A) signal(s), eller (ii) span af den resulterende klynge ikke overstiger et maksimum (standard: 25 nt).
6. Gemme klynger i seng-filformat med det samlede normaliseret læse tæller fra alle 3 ' ende websteder i hver klynge som score.

Representative Results

Poly (A)-der indeholder RNA blev isoleret fra dyrkede celler, fragmenteret af alkalisk hydrolyse og cDNAs blev foretaget ved reverse transkription med oligo(dT) primere. Den resulterende cDNA var usejldygtigt på streptavidin perler, dU blev kløvet i uracil specifikke excision reaktion, adaptere var forbundet til 5' og 3' ender af kløvet fragmentet og indsætter blev sekventeret. Figur 1 viser en grafisk oversigt over eksperimentet.

For HeLa og HEK293 celler var 10⁶ celler tilstrækkelige til at identificere poly(A) websteder for det store flertal af protein-kodning gener i slutningen af proceduren. Men for andre celletyper eller væv kan det være nødvendigt at teste mætning i antallet af identificerede poly(A) websteder som antallet af celler, der bruges i eksperimentet øges. Repræsentative resultater af det pilot PCR trin og af DNA-fragmentet analyse af prøven før sekventering er vist i figur 2.

Figur 3 viser de forbehandling trin af den beregningsmæssige analyse, startende fra filen fastq fremstillet af sequencer og slutter med de kvalitet-tjekket, adapter-trimmet læser, der er klar til at være tilknyttet genomet. Figur 4 viser trinene analyse, der starter med kortlægning af læser til det tilsvarende genom og ende med kataloget af mRNA 3' enden forarbejdning websteder, der er identificeret i en særlig prøve. Når flere prøver er analyseret, udføres yderligere trin til at matche 3' udgangen forarbejdning websteder, der blev fundet i individuelle prøver og rapportere deres overflod på tværs af prøver. Disse trin er vist i figur 5.

Således, når prøverne er blevet sekventeret, analysen af de resulterende sekventering læse filer (i fastq format) tilgængelige behandling pipeline er ligetil. Når du har tilføjet oplysninger om prøverne til konfigurationsfilen, udførelse af rørledningen vil resultere i to hovedtyper af output-filer: 1) BED-filer med alle 3' ende forarbejdning websteder identificeret i individuelle prøver (f.eks. " sample1.3pSites.noIP.Bed.gz"), og 2) et BED-fil med alle poly(A) site klynger (clusters.merged.bed) på tværs af alle prøver af undersøgelsen. Outputtet indeholder også genom koordinater til alle læser fra hver individuel prøve (f.eks. "sample1. STAR_out/Aligned.sortedByCoord.out.bam") der senere kan gennemses i en genom-browser som IGV¹⁶. Visuel inspektion af den Læs profil(er) generelt giver et første glimt af fordelingen af poly(A) steder i genomet og de forandringer, der sker på de specifikke perturbationer, der blev gennemført i undersøgelsen. For eksempel, i figur 6 er svar på et specifikt gen knock-down af HNRNPC proteinet vist.

Resuméer af disse genome-wide distributioner leveres også (tabel 1). Specifikt, outputfiler i mappen "tæller/annotation_overlap" indeholder brøkdele af websteder, der overlapper med specifikke kommenteret funktioner (fra filen gtf leveres som input; kommenteret er: 3' UTR, terminal exon, exon, intron, intergenic). Endelig, for hver prøve, resultaterne af individuelle behandlingstrin er også gemt (f.eks. "sample1.summary.tsv"). Dette omfatter antallet af: rå læsninger i hver prøve, læser, der har den forventede struktur af 5'-enden, læser, der er tilbage efter at være kollapset fuld PCR dubletter, høj kvalitet læser kriterier defineret på trin 9.2, læser dette kort entydigt til genomet (efter at være kollapset dem, der førte fra sekventering fejl, se trin 9.5), multi kortlægning læser (efter at være kollapset dem, der førte fra sekventering fejl, se trin 9.5), rå (ikke grupperet) 3' enden forarbejdning websteder i hver prøve, rå 3' ende forarbejdning websteder uden indre priming kandidatlande, unikke 3' ende forarbejdning websteder fra alle prøver uden indre priming kandidater og endelige sæt poly(A) site klynger.

Figur 1: vigtigste trin A-seq2-protokollens. Enkelte trin er angivet i venstre side af figuren. Indsæt RNA fragmenter er afbildet som grønne linjer, der bliver røde for cDNA efter reverse transkription; adaptere er farvet i lys blå eller orange. Venligst klik her for at se en større version af dette tal.

Figur 2: Pilot PCR og slutproduktet profil. (en) delprøver fra PCR reaktion blev indsamlet på forskellige cyklusser og adskilt på 2% agarosegelitris. Tal til venstre angiver størrelsen i nukleotider af de respektive bands i DNA ladder. I dette eksperiment blev 12 cyklusser (*) valgt for storstilet PCR reaktionen. (b) eksempel på en prøve efter størrelse udvælgelse køre på et fragment størrelse analyzer afslører en gennemsnitlig størrelse på omkring 280 nukleotider. Tal til venstre [FU] angiver relativ signal intensitet. Venligst klik her for at se en større version af dette tal.

Figur 3: skitse til forbehandling af sekventering læsninger. Fastq-filer med læsninger, der er genereret af sekventering instrument-associerede software behandles for at identificere høj kvalitet læsninger, der skal knyttes til den tilsvarende genom. Figuren viser input/output specifikation af enkelte trin i støbeskeen, med links til de enkelte trin af den protokol, der er beskrevet i afsnittet "Behandling". Venligst klik her for at se en større version af dette tal.

Figur 4: skitse af sekvens læse behandling, fra trin i tilknytning til genom til generation af individuelle 3' enden forarbejdning websteder. Figuren viser input/output specifikation af enkelte trin i støbeskeen, med links til iNDIVIDUELLE trin af den protokol, der er beskrevet i afsnittet "Behandling". De vigtigste output-fil, der leveres til brugeren er markeret med fed skrift. Venligst klik her for at se en større version af dette tal.

Figur 5: oversigt over de trin, der er truffet for at generere klynger af co reguleret 3' enden sekventering websteder. Figuren viser input/output specifikation af enkelte trin i støbeskeen, med links til de enkelte trin af den protokol, der er beskrevet i afsnittet "Behandling". Den primære outputfil er markeret med fed skrift. Venligst klik her for at se en større version af dette tal.

Figur 6: eksempel resultater af profilen af 3' ende forarbejdning læser langs den terminal exon af NUP214-genet, vist i IGV ¹⁶ genom browser. A-seq2 læser var tilberedt af to prøver af HEK 293 celler, behandles enten med en kontrol-siRNA eller med en HNRNPC siRNA. De læser, der dokumenteret poly(A) websteder, der blev kommenteret af analyse rørledningen blev gemt i BAM-format, der blev brugt som input til IGV genom-browser. 3'-ender af Læs toppene kort til mRNA 3' ender, som er kommenteret i Ensembl. Profilerne viser en øget brug af lange 3' UTR isoform ved HNRNPC knock-down. Venligst klik her for at se en større version af dette tal.

	si-kontrol replikere 1	si-kontrol replikere 2
	id: 29765	id: 32682
antallet af rå læsninger	44210258	68570640
antallet af gyldige læser efter trimning og filtrering	14024538	21211793
antal entydigt kortlægning læser	6953674	13946436
antal læser tilknytning til flere loci	2040646	2925839
antallet af individuelle 3' ende forarbejdning websteder	1107493	1710353

Tabel 1: eksempel output analyse rørledningens. Resuméer af læser, der blev opnået på enkelte trin.

Discussion

Væld af kerne og hjælpeansatte faktorer, der er involveret i pre-mRNA 3' enden behandling afspejles i en tilsvarende kompleks polyadenylation landskab. Polyadenylation er desuden også lydhøre over for ændringer i andre processer såsom transskription og splicing. 3' enden kavalergang websteder i pre-mRNAs identificeres typisk baseret på karakteristiske poly(A) haler, der er føjet til spaltningsprodukter 5'. De fleste metoder bruger oligo(dT) primere af variabel længde, der tillader specifikke omdannelse af poly (A)-indeholdende mRNAs til cDNAs i en omvendt transkription reaktion. Et fælles problem i denne tilgang er interne priming til A-rige sekvenser resulterer i kunstig kavalergang websteder. To metoder, der har til formål at omgå denne genstand på scenen til forberedelse af prøven er blevet foreslået. I 3P-seq metode ¹, er adaptere specielt forbundet til enderne af poly(A) haler med hjælp fra en skinne oligo efterfulgt af delvis RNase T1 fordøjelse og omvendt transskription med TTP reaktion som den eneste deoxynucleotide. De resulterende poly(A)-poly(dT) heteroduplexes der derefter fordøjes med RNase H og de resterende RNA fragmenter er isoleret, forbundet til adaptere og sekventeret. En enklere og elegante metode, 2P-FF., der bruger en brugerdefineret sekventering primer springe over de resterende oligo(dT) strækning i sekventering reaktion blev rapporteret af de samme forfattere ². I en relateret metode, 3' læser ³, en usædvanlig lang primer 5 os og 45 Ts, som også indeholder et biotin er udglødet til fragmenterede RNA, efterfulgt af strenge vasker vælge for RNA molekyler med poly(A) haler af over 50 nukleotider. Selvom 3' lyder drastisk reducerer hyppigheden af interne priming, fjerner det helt ikke den ³. Protokoller til direkte RNA sekvensering er også blevet foreslået, men de resulterende læsninger er korte og har en høj erhvervsfrekvens blandt fejl og denne tilgang er ikke blevet yderligere udviklet ¹⁸^,¹⁹^,²⁰. PolyA-FF. og protokollerne kommercialiseret Quant Seq kombinere oligo(dT) baseret priming med en tilfældig priming skridt for cDNA anden strand syntese ²⁰. Brug af skabelon switch reverse transkription reaktion med Moloney Murine leukæmi Virus (MMLV) reverse transkriptase fører til generation af cDNAs med linkers i et enkelt trin og dermed ingen adapter dimerer kan vises i PAS-FF. og SAPAS metoder ²¹ ^, ²².

A-seq2 metode præsenteres her skiller sig ud i sin udnyttelse af en cleavable nukleotid (dU) inden for en biotinylated oligo(dT) primer. Denne ændring kombinerer nytten af berigende oligo(dT) hybridiseret, polyadenylated mål med fjernelse af de fleste af oligo (dT)₂₅ sekvens fra de isolerede fragmenter før biblioteker er forberedt og bevarelse af tre t'er, som angive den forudgående tilstedeværelse af poly(A) hale. I modsætning hertil er forlader metoder, der udnytter RNase H for at fjerne poly(A) fra RNA molekyler tilfældigt flere som. Siden i A-seq2, er sekventering gøres fra 3'-enden af antisense-strenge, er kavalergang websteder forudsagt til at være placeret efter NNNNTTT motiv i begyndelsen af rå sekvens læser. De randomiserede tetramers tjene ikke kun at tillade base ringer men også eliminering af PCR forstærkning artefakter. Også kan være plads til længere (UMIS) velkommen. Muligheden for interne priming forbliver i A-seq2 og er adresseret beregningsmæssigt, først ved at kassere 3' ender med en gentisk kodet, A-rige downstream sekvens og derefter ved at kassere 3' enden klynger, der kan forklares ved intern priming på den A-rige poly(A) signal, selv. En nylig analyse af poly(A) websteder udledes entydigt af et stort antal protokoller angiver, at de websteder, der er unikke for A-seq2 har den forventede nukleotid distribution og placering inden for gener, ligner andre 3' ende sekventering protokoller.

Et kritisk trin i A-seq2 er udvalg af polyadenylated RNA og fjernelse af ribosomale RNA'er og forskellige små RNA'er. Dette gøres lettest ved en mRNA-isolering kit med oligo (dT)₂₅ magnetiske perler. I princippet giver total RNA isoleret med phenol som indeholder løsninger også høj kvalitet RNA, der kan være yderligere udsat for udvælgelse af mRNA-isolering kit eller oligo (dT) agarosegelelektroforese. Et skridt, der kan varieres i A-seq2 er behandling med alkalisk hydrolyse, som kan afkortes eller forlænges for at få RNA fragmenter af forskellige størrelser. Kritisk er også, at tilsætning af 3' dATP til 3' enderne af RNA fragmenter af poly(A)-polymerase er effektiv. Protokollen beskrevet her, gælder denne behandling alle RNA fragmenter, til at undgå concatemerization under ligatur reaktion. Endelig, vi konstatere, at selvom RNA ligase 1 bruges normalt som en RNA ligase, det også ligates effektivt enkelt strandede DNA, som vi har gjort her for at ligate en adapter til 5'-enden af cDNA molekyler.

A-seq2 er således en effektiv og let at gennemføre protokollen til identifikation af pre-mRNA 3' enden forarbejdning websteder. Fremtidige udvikling kunne omfatte yderligere at reducere kompleksitet i protokollen og mængden af krævede materialer. Det tilknyttede sæt beregningsmæssige data analyseværktøjer yderligere aktiverer den ensartede behandling af 3' enden sekventering læser fremstillet med en bred vifte af protokoller.

Disclosures

Forfatterne har ikke noget at oplyse.

Acknowledgments

Forfatterne takke fru Béatrice Dimitriades hjælp til cellekultur. Dette arbejde blev støttet af den schweiziske National Science Foundation støtte #31003A_170216 og 51NF40_141735 (NCCR RNA & sygdom).

Materials

Name	Company	Catalog Number	Comments
Materials
Agarose, ultra pure	Invitrogen	16500-500
2100 Bioanalyzer	Agilent	G2940CA
Cordycepin triphosphate (3’ dATP)	SIGMA	C9137
DNA low bind vials, 1.5 ml	Eppendorf	22431021
Dulbecco’s Phosphate Buffered Saline	SIGMA	D8637
Dynabeads mRNA-DIRECT Kit	Ambion	AM61012
GR-Green dye	Excellgen	EG-1071	use 1:10,000 dillution
HiSeq 2500 or NextSeq 500 next generation sequencers	Illumina	inquire with supplier
KAPA HiFi Hotstart DNA polymerase mix	KAPA/Roche	KK2602
Nuclease free water	Ambion	AM9937
Poly(A) polymerase, yeast	Thermo Fisher Scientific	74225Z25KU
Poly(A) polymerase, E.coli	New England Biolabs	M0276L
Polynucleotide kinase	Thermo Fisher Scientific	EK0032
QIAEX II Gel Extraction Kit	Qiagen	20021
QIAquick PCR Purification Kit	Qiagen	28104
QIAquick Gel Extraction Kit	Qiagen	28704
RNA ligase 1, high concentration	New England Biolabs	M0437M	includes PEG-8000
RNeasy MinElute RNA Cleanup kit	Qiagen	74204
RNase H	New England Biolabs	M0279
RNasin Plus, ribonuclease inhibitor	Promega	N2618
Superscript IV reverse transcriptase	Thermo Fisher Scientiific	18090050
Turbo DNase	Ambion	AM2238
USER enzyme mix	New England Biolabs	M5505
Dyna-Mag-2 magnetic rack	Thermo Fisher Scientific	12321D
Thermomixer C	Eppendorf	5382000015	Heated mixer with heated lid
MicroSpin columns	GE-Healthcare	27-5325-01
Name	Company	Catalog Number	Comments
Buffers
Alkaline hydrolysis buffer, 1.5 x			Mix 1 part 0.1 M Na2CO3 and 9 parts 0.1 M NaHCO3. Add EDTA to 1 mM. Adjust pH to 9.2. Store aliquots at -20 °C.
5x poly(A) polymerase buffer	Thermo Fisher Scientiific		100 mM Tris-HCl, pH 7.0, 3 mM MnCl2, 0.1 mM EDTA, 1 mM DTT, 0.5 mg/ml acetylated BSA, 50% glycerol
Biotin binding buffer			20 mM TrisCl pH 7.5, 2 M NaCl, 0.1% NP40
TEN buffer			10 mM TrisCl, pH 7.5, 1 mM EDTA, 0.02% NP40
Name	Company	Catalog Number	Sequence
Oligonucleotides according to Illumina TruSeq Small RNA Sample Prep Kits, for GA-IIx and Hiseq2000/2500 sequencers	Microsynth
revRA3 (RNA)	Microsynth		5’ amino CCUUGGCACCCGAGAAUUCCA 3’
revDA5	Microsynth		5’ amino GTTCAGAGTTCTACAGTCCGAC GATCNNNN-3’
Bio-dU-dT25, RT primer	Microsynth		5' Biotin-TTTTTTTTTTTTTTTTTTTTTTTTTT-dU-TTTVN 3' (V = G, A or C)
PCR primer forward, RP1	Microsynth		5' AATGATACGGCGACCACCGAGA TCTACACGTTCAGAGTTCTACAG TCCGA 3'
PCR primer reverse, RPI1, barcode in bold	Microsynth		5' CAAGCAGAAGACGGCATACGAG ATCGTGATGTGACTGGAGTTCCT TGGCACCCGAGAATTCCA 3'
Name	Company	Catalog Number	Comments
Oligonucleotides according to Illumina TruSeq HT-Small RNA Sample Prep Kits, for HiSeq2000/2500 and NextSeq500 sequencers
HT-rev3A (DNA/RNA)	Microsynth		5'-amino-GTGACTGGAGTTCAGACGTGTG CTCTTCCrGrAUrC-3'
HT-rev5A	Microsynth		5' amino-ACACTCTTTCCCTACACGACGCT CTTCCGATCTNNNN 3'
Bio-dU-dT25, RT primer	Microsynth		5' Biotin-TTTTTTTTTTTTTTTTTTTTTTTTTT-dU-TTTVN 3'
PCR primers forward (D501-506)	Microsynth or Illumina		5'-AATGATACGGCGACCACCGAGAT CTACAC[i5]ACACTCTTTCCCTACA CGACGCTCTTCCGATCT -3'
PCR primers reverse (D701-D712)	Microsynth or Illumina		5'-CAAGCAGAAGACGGCATACGAG A[i7]GTGACTGGAGTTCAGACGTG TGCTCTTCCGATC-3'
Documentation for Illumina multiplexing:	Illumina		https://support.illumina.com/content/dam/illumina-support/documents/documentation/chemistry_documentation/experiment-design/illumina-adapter-sequences_1000000002694-01.pdf

DOWNLOAD MATERIALS LIST

References

Jan, C. H., Friedman, R. C., Ruby, J. G., Bartel, D. P. Formation, regulation and evolution of Caenorhabditis elegans 3'UTRs. Nature. 469 (7328), 97-101 (2011).
Spies, N., Burge, C. B., Bartel, D. P. 3' UTR-isoform choice has limited influence on the stability and translational efficiency of most mRNAs in mouse fibroblasts. Genome Res. 23 (12), 2078-2090 (2013).
Hoque, M., Ji, Z., et al. Analysis of alternative cleavage and polyadenylation by 3' region extraction and deep sequencing. Nat. methods. 10 (2), 133-139 (2013).
Martin, G., Gruber, A. R., Keller, W., Zavolan, M. Genome-wide analysis of pre-mRNA 3’ end processing reveals a decisive role of human cleavage factor I in the regulation of 3' UTR length. Cell Rep. 1 (6), 753-763 (2012).
Gruber, A. R., Martin, G., et al. Global 3' UTR shortening has a limited effect on protein abundance in proliferating T cells. Nat. Commun. 5, 5465 (2014).
Kivioja, T., Vähärautio, A., et al. Counting absolute numbers of molecules using unique molecular identifiers. Nat. methods. 9 (1), 72-74 (2011).
Gruber, A. J., Schmidt, R., et al. A comprehensive analysis of 3' end sequencing data sets reveals novel polyadenylation signals and the repressive role of heterogeneous ribonucleoprotein C on cleavage and polyadenylation. Genome Res. 26 (8), 1145-1159 (2016).
Lingner, J., Keller, W. 3'-end labeling of RNA with recombinant yeast poly(A) polymerase. Nucleic Acids Res. 21 (12), 2917-2920 (1993).
Quail, M. A., Kozarewa, I., et al. A large genome center's improvements to the Illumina sequencing system. Nat. methods. 5 (12), 1005-1010 (2008).
Rahmann, S. Snakemake--a scalable bioinformatics workflow engine. Bioinformatics. 28 (19), 2520-2522 (2012).
Analytics, C. Anaconda Software Distribution. , Available from: https://continuum.io (2016).
Lab, H. FASTX-Toolkit - Hannon Lab. , Available from: http://hannonlab.cshl.edu/fastx_toolkit/index.html (2017).
Dobin, A., Davis, C. A., et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 29 (1), 15-21 (2013).
Martin, M. Cutadapt removes adapter sequences from high-throughput sequencing reads. EMBnet.journal. 17 (1), 10-12 (2011).
Li, H., Handsaker, B., et al. The Sequence Alignment/Map format and SAMtools. Bioinformatics. 25 (16), 2078-2079 (2009).
Robinson, J. T., Thorvaldsdóttir, H., et al. Integrative genomics viewer. Nat. Biotechnol. 29 (1), 24-26 (2011).
Quinlan, A. R., Hall, I. M. BEDTools: a flexible suite of utilities for comparing genomic features. Bioinformatics. 26 (6), 841-842 (2010).
Ozsolak, F., Platt, A. R., et al. Direct RNA sequencing. Nature. 461 (7265), 814-818 (2009).
Yao, C., Biesinger, J., et al. Transcriptome-wide analyses of CstF64-RNA interactions in global regulation of mRNA alternative polyadenylation. Proc. Natl. Acad. Sci. U. S. A. 109 (46), 18773-18778 (2012).
Lin, Y., Li, Z., et al. An in-depth map of polyadenylation sites in cancer. Nucleic Acids Res. 40 (17), 8460-8471 (2012).
Shepard, P. J., Choi, E. -A., Lu, J., Flanagan, L. A., Hertel, K. J., Shi, Y. Complex and dynamic landscape of RNA polyadenylation revealed by PAS-Seq. RNA. 17 (4), 761-772 (2011).
Fu, Y., Sun, Y., et al. Differential genome-wide profiling of tandem 3' UTRs among human breast cancer and normal cells by high-throughput sequencing. Genome Res. 21 (5), 741-747 (2011).

Biology

3' enden sekventering bibliotek forberedelse med A-seq2

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.