Biology

3 slutten sekvensering biblioteket forberedelser med A-seq2

Published: October 10, 2017 doi: 10.3791/56129

Georges Martin¹, Ralf Schmidt¹, Andreas J. Gruber¹, Souvik Ghosh¹, Walter Keller¹, Mihaela Zavolan^1,2

¹Computational and Systems Biology, Biozentrum, University of Basel, ²Swiss Institute of Bioinformatics, Biozentrum, University of Basel

Summary

Denne protokollen beskriver en metode for kartlegging pre-mRNA 3 slutten behandler steder.

Abstract

Studier i det siste tiåret har avdekket mange komplekse og dynamiske pre-mRNA hals og polyadenylation reaksjoner. mRNAs med lang 3' uoversatt regioner (UTRs) er generert i differensierte celler mens voksende celler uttrykke fortrinnsvis utskrifter med kort 3' UTRs. Vi beskriver den A-seq-protokollen, nå på den andre versjonen, som ble utviklet til kart polyadenylation nettsteder genomet-bred og studere regulering av pre-mRNA 3 slutten behandling. Denne gjeldende protokollen drar også fordel av polyadenylate (poly(A)) haler som er lagt ved biogenesis av de fleste pattedyr mRNAs å berike for fullt behandlet mRNAs. Et DNA-adapter med deoxyuracil på sin fjerde posisjon tillater presis behandlingen av mRNA 3 slutten fragmenter for sekvenser. Ikke inkludert i cellekultur og overnatting ligations, protokollen krever ca 8 h hands-on tid. Sammen med den, er en lett-å-bruke programvarepakke for analyse av de avledede sekvensering dataene gitt. A-seq2 og tilknyttet analyseprogramvare gir en effektiv og pålitelig løsning tilordningen av pre-mRNA 3 ender i en rekke forhold, fra 10⁶ eller færre celler.

Introduction

Fangst og sekvensering av mRNA 3 ender kan studere mRNA behandling og måling av genuttrykk. På grunn av deres poly(A) haler, kan eukaryote mRNAs effektivt rense fra total-celle lysates med perle-immobilisert oligo-deoxythymidine (oligo(dT)) molekyler, som kan også prime cDNA syntese. Denne tilnærmingen har imidlertid to ulemper. Først kan strekninger av som er interne for utskrifter også prime cDNA syntese, som resulterer i falske poly(A) områder. Andre, homogen poly(A) strekninger positur bestemt utfordringer for sekvensering, bortsett fra ikke å være informativ for transkripsjon identifikasjon. Ulike tilnærminger er foreslått å omgå disse begrensningene som omvendt transkripsjon gjennom poly(A) haler etterfulgt av RNase H fordøyelse (3 P-seq ¹), bruk av en egendefinert sekvensering primer i 20 Ts (2 P-seq ²), forhåndsvalg av RNA fragmenter med poly(A) haler av over 50 nukleotider med en CU₅T₄₅ primer etterfulgt av RNase H fordøyelse (3 leser ³) og bruk av en oligo-dT primer som inneholder 3 kortet i en hårnål (A-seq ⁴).

Nylig utviklet A-seq2 metoden ⁵ mål å omkjøringsvei sekvensering gjennom poly(A) og samtidig minimere andelen dimers som genereres av selvtillit ligation av kort, særlig forekommer når molar konsentrasjonen av kort enn sett inn konsentrasjonen. Dette problemet kan fjernes når begge kortene er samskrevet til samme type polynucleotide ender som A-seq2, hvor 3 kortene er samskrevet til 5' slutten av RNA fragmenter og 5' kortene til 5' ender i cDNAs etter omvendt transkripsjon. Metoden er mer praktisk enn våre tidligere foreslåtte A-seq - der sekvensering var i 5-til-3' retningen krever dermed presist kontrollert RNA fragmentering-, samtidig opprettholde en høy nøyaktighet av poly(A) nettstedet identifikasjon. Rundt 80% av de sekvensert i typisk prøver tilordnes unikt genomet og føre til identifikasjon av over 20.000 poly(A) nettstedet klynger, mer enn 70% av som overlapper med kommenterte 3' UTRs.

I korte trekk, starter A-seq2 protokollen med mRNA fragmentering og ligation av reverse-komplement 3' adaptere til 5' endene av RNA fragmenter. Poly (A)-inneholder RNAs er så omvendt transkribert med en 25 nukleotid (nt) lang oligo(dT) primer som inneholder et anker nukleotid på 3 slutten, en dU på plassering 4 og en biotin på 5' slutten, slik at binding av cDNA til magnetisk streptavidin perler. De fleste av primer, inkludert biotin, er fjernet fra cDNA ved spalting du ved bruker enzym blanding, som inneholder Uracil DNA glycosylase (UDG) og DNA glycosylase-lyase Endonuclease VIII. Dette forlater intakt ender for ligation av en 5'-adapter, og tre Ts venstre etter cleavage gjenstår for å markere plasseringen av poly(A) halen. Fordi både 5' og 3 er knyttet av hemorroider mottaker 5' endene, genereres ikke kortet dimers. Fire nukleotid tilfeldig-mers introdusert i begynnelsen av lar klyngen oppløsning med state-of-the-art sekvensering instrumenter og kan også tjene som unik molekylær identifikator (UMI) for oppdagelse og fjerning av PCR forsterkning gjenstander. Størrelsen på UMI kan økes ytterligere som gjort i andre studier ⁶. Protokollen genererer leser som er reversere utfyllende til mRNA 3 ender, alle starter med en randomisert tetramer etterfulgt av 3 Ts. behandling av lyder som har 3 diagnostiske Ts på deres 5' slutten begynner med korreksjon av PCR forsterkning gjenstander av utnytte UMIs, fjerning av 3 kort sekvenser, og reversere complementation. Leser som kan komme fra oligo(dT) grunning på interne A-rike områder er også identifisert beregningsmessig og forkastet. Falske nettsteder vanligvis mangler en av 18 godt karakterisert og bevart poly(A) signaler som skal ligger ~ 21 nukleotider oppstrøms av tilsynelatende cleavage område ⁷.

Protokollen krever ca 8 h hands-on tid, ikke medregnet cellekultur og overnatting ligations. Den tilknyttede lese analyse programvare gir en svært nøyaktig poly(A) nettstedet identifikasjon. Fra poly(A) området klynger laget basert på 4 prøver ytterligere understreket dette manuskriptet (to biologiske gjentak av kontroll siRNA og si HNRNPC-behandlet celler) 84% overlapping med en annotert genet, og av disse, 75% overlapper med en 3' UTR og 86% med enten en 3' UTR eller en terminal exon. Den Pearson korrelasjonskoeffisienten uttrykk for 3 ender i Repliker prøvene er 0,92 verdier over 0,9 vanligvis oppnås med metoden. Dermed er A-seq2 en praktisk metode som gir svært reproduserbar resultater.

Protocol

1. cellevekst og mRNA isolasjon

vokse celler i henhold til din eksperimentell design i 6-vel plater ~ 1 x 10 ⁶ celler per brønn på 80% samløpet.
Fjerne vekstmediet og vask cellene gang med fosfat bufret saltvann. Direkte lyse cellene på platen ved å legge til 1 mL av lyseringsbuffer fra mRNA-isolering kit. Overføre den flytende lysate i et 15 mL plastrør med 1 mL pipette tips. Bruk en gummi stekespade helt fjerne celle materialet fra tallerken overflaten.
Skjær lysate inneholder tyktflytende DNA med en 1 mL sprøyte knyttet til en 23 G sprøyte nål av flere kraftig opp og ned bevegelser av stempelet til den lysate er ikke lenger tyktflytende. Pek sprøytenålen på midten av bunnen for å unngå utkasting den lysate av røret.
Overfører til lysate til en 1,5 mL tube med sprøyten. Spinne 5 min på 20.000 x g og 4 ° C fjerne rusk. Bruke DNA lav bind 1,5 mL ampuller gjennom protokollen.
Mens sentrifuge kjører, vask 300 µL av resuspended oligo (dT) ₂₅ magnetiske perler på en magnetisk rack med 500 µL av lyseringsbuffer. Bland rør 2 - 3 ganger på stativet. Fjerne bufferen når løsningen er klart. Samle klart nedbryting fra trinn 1.4 og legger til perler. Resuspend og rør på et roterende hjul for 10 min.
Legg rør på en magnetisk rack. Fjerne klar væske etter 2 min. Legg 0,8 mL buffer A fra mRNA-isolering kit. Slå røret ved 180° grader på stativet, 2 - 3 ganger. Repeter dette vask igjen med buffer A.
Vask perlene 2 ganger med 0,8 mL buffer B som beskrevet i trinn 1.6.
å elute den bundne mRNA fra perler, legge til 33 µL H ₂ O og resuspend perler. Varme til 75 ° C i 5 min på en oppvarmet blokk. Umiddelbart spinne rør for 1 s og plass på magnetiske stativet. Overføre nedbryting til en ny tube. Eksempler kan lagres på-80 ° C til fremme bruk.
Legge til 66 µL alkalisk hydrolyse buffer 33 µL mRNA (trinn 1.8), bland og varme for nøyaktig 5 min på 95 ° C på oppvarming blokk. Umiddelbart chill rør på ice.
Isolere RNA med en RNA opprydding kit.
Merk: Bekreft lydstyrken Det bør være 100 µL.
1. Legge til 350 µL RLT buffer fra settet og 250 µL etanol. Last på kolonnen, og spinn for 30 s 8000 x g ved romtemperatur (RT). Vask med 500 µL RPE buffer fra kit. Vask med 500 µL 80% etanol. Spinne i 5 min på 20.000 x g tørke kolonnen. Legge til 36 µL H ₂ O kolonne og spinn for 1 min på 20.000 x g. utelate kolonnen og lagre eluate.

2. 5 ' fosforylering og DNase behandling

legge til 5 µL polynucleotide kinase buffer, 5 µL 10 mM ATP, 1 µL ribonuclease hemmere, 1 µL DNase og 2 µL polynucleotide kinase til eksempler og Inkuber på 37 ° C for 30 min. eventuelt forberede master reaksjon mikser gjennom protokollen ved å blande 1.1 volumer x n (n = antall utdrag) for hver komponent.
Endre buffer og fjerne ATP på en spin-kolonne for å forhindre poly(A) tillegg i neste trinn.
1. Prespin spinn 735 x g i 1 overføre kolonnene til nye 1,5 mL ampuller og laste kinase reaksjonene på kolonnene. Spinner kolonnene 2 min på 735 x g. forkaste kolonnene og plassere rør med samlet reaksjoner på is eller lagre på-80 ° C.

3. Blokkerer 3 ' slutter med Cordycepin trifosfat

Merk: det er viktig å blokkere 3 ' endene av RNA å unngå deres concatemerization i den påfølgende ligation reaksjoner. 3 ' ender som ikke allerede er blokkert av en ( syklisk) fosfat etter hydrolyse behandles av tillegg av en 3 ' dATP (cordycepin trifosfat) kjeden terminator nukleotid ved hjelp av poly(A) utvalg. Her, ble gjær poly(A) utvalg (yPAP), som ble uttrykt og renset som beskrevet i ⁸ brukt i en konsentrasjon på 0,5 mg/mL. Gjær eller E. coli PAP begge har nesten samme aktiviteten for tillegg av 3 ' dATP og kan kjøpes kommersielt (se tabell av materialer).

Legge til 13,5 µL 5 x konsentrert poly(A) polymerase reaksjon buffer, 2 µL av 10 mM 3 ' dATP, 1 µL RNase hemmer og 1 µL poly(A) utvalg til reaksjonen fra trinn 2.2.1. Blanding og spinn for 1 s. Incubate ved 37 ° C i 30 min. legge 32,5 µL H ₂ O til hver reaksjon. Rense RNA som i trinn 1.10.1. Elute RNA med 14 µL H ₂ O.

4. Ligation av omvendt 3 ' adaptere til 5 ' slutten av RNA fragmenter

Sett reaksjonene i et vakuum munnstykke for 10 min å redusere volumet til 6 µL. legge 3 µL 10 x T4 RNA ligation buffer, 3 µL 10 mM ATP , 15 µL PEG-8000, 1 µL RNase hemmer, 1 µL 0,1 mM omvendt supplement 3 ' kortet " revRA3 " (se tabell for materiale) og 1 µL høy konsentrasjon RNA ligase 1, bland.
Ruge reaksjonene på 24 ° C 16 h på en oppvarmet mikser med intermitterende blande 1000 RPM. Legg 70 µL H ₂ O til hver reaksjon og bland. Rense RNA som i trinn 1.10.1. Elute RNA med 14 µL H ₂ O. prøver kan lagres på-80 ° C på dette punktet.

5. Omvendt transkripsjon (RT)

sted eluates i et vakuum munnstykke for 3 min å redusere volumet til 11 µL. overføring reaksjoner på 200 µL PCR-rør. Legge 1 µL 0.05 mM RT primer " Bio-dU-dT25 ". Varme i 5 min på 70 ° C i en PCR cycler og la på RT for 5 min.
Legge til 1 µL 10 mM dNTPs, 4 µL 5 x revers transkriptase buffer, 1 µL 0.1 M DTT, 1 µL RNase hemmer og 1 µL revers transkriptase. Blande og heten reaksjonene på 10 min til 55 ° C og 10 minutter til 80 ° C i en PCR cycler. Holde på is eller ved-80 ° C for lengre lagring.

6. Fordøyelsen Uracil DNA Glycosylase enzym blanding

Pipetter 100 µL Streptavidin-perler i 1,5 mL ampuller, resuspend i 800 µL biotin bindende buffer og Legg på en magnetisk rack. Invertere rør 2 - 3 ganger. Fjerne bufferen når klar. Gjenta trinnet vask. Resuspend perler i 200 µL biotin bindende buffer.
Legg omvendt transkripsjon reaksjon perler løsningen og ruge 20 min på 4 ° C på et roterende hjul. Vask perlene 2 x med biotin binding buffer som i trinn 6.1 og 2 x med ti buffer på en magnetisk rack. Resuspend perler i 50 µL ti buffer legge 2 µL Uracil DNA glycosylase enzym blanding og ruge 1t på 37 ° C i en mikser med intermitterende blande.
Legge til 50 µL H ₂ O, 11 µL RNase h buffer og 1 µL RNase H til reaksjoner. Inkuber ved 37 ° C i 20 min. sted rør på en magnetisk rack og overføre væske som inneholder den cleaved cDNA til en ny tube
rense den cleaved cDNA.
1. Legge til 550 µL bufferen PB fra PCR rensing kit til spalting reaksjoner. Legge til 10 µL av 3 M natrium acetate, pH 5.2 å senke pH. Laste reaksjonene minimal elueringsrør spinn kolonner og spinn 17000 x g i 1
2. Legge til 750 µL buffer PE kolonner og spinn 17000 x g i 1 kast gjennomflytsenhet. Spinne kolonnene 17000 x g for 1 min tørke. Overføre kolonnene til 1,5 mL ampuller, legge til 16 µL H ₂ O og spinn 17000 x g i 1 plasser reaksjonene i et vakuum munnstykke for 8 min å konsentrere seg til et volum på 7 µL.

7. Ligation av 5 ' adaptere til 5 ' endene av cDNA

den isolerte cDNA, legge til 3 µL 10 x T4 RNA ligase 1 buffer, 3 µL 10 mM ATP, 15 µL PEG-8000, 1 µL 50 µM " revDA5 " oligo , og 1 µL høy konsentrasjon T4 RNA ligase 1. Ruge på 24 ° C i 20 h. legge 70 µL H ₂ O til hver reaksjon. Eksempler kan lagres på 20 ° C på dette punktet.

8. Pilot PCR, forsterkning av biblioteker og størrelse

i en pilot reaksjon, finne det optimale antallet PCR sykluser for å nå biblioteket forsterkning i den eksponentielle fasen.
1. Pipetter 25 µL DNA polymerase blanding, 20 µL ligation reaksjon, 2 µL H ₂ O, 1,5 µL 10 µM frem PCR primer (RP1) og 1,5 µL 10 µM omvendt PCR-indeksen primer inn 200 µL PCR røret.
2. Kjøre cycler med følgende program: 3 min 95 ° C, etterfulgt av 20 sykluser av 20 s 98 ° C, 20 s 67 ° C og 30 s 72 ° C. samle 7 µL dele etter 6, 8, 10, 12, 14, 16 og 18 sykluser direkte fra cycler. Legg 1 µL 10 x lasting buffer (50% glyserol, 0,05% xylen cyanol). Merk: Følg anbefalingene fra leverandøren hvis bruker multipleksing kombineres strekkoder.
3. Separate produkter i små spor på en 2% agarose gel 1 x TBE buffer inneholder en 1:10:00 fortynning av fluorescerende grønne Food coloring.
  1. Last dele på en 2% agarose gel og kjøre gel på 100 volt i 15 min. Visualiser migrering av PCR-produkter på en gel dokumentasjonssystemer.
Bruke antall sykluser i begynnelsen eksponentiell forsterkning i piloten reaksjonen for en storstilt PCR reaksjon med dobbelt volumene som brukes for pilot reaksjonen ( figur 2).
1. For store PCR reaksjoner, konsentrere og desalt reaksjonene først med en PCR rensing kit og skille produktene på brede slisser på 2% agarose gels i 1 x TBE buffer.
Kuttet ut gel sektorer som inneholder 200-350-nt DNA produkter. Smelt gel i chaotropic bufferen på RT for opp til 30 min. Pakk ut DNA fra gel skiver med en gel utvinning kit. Ikke varme til 50 ° C å hindre skjevhet i binding av A-rik DNA ⁹.
Send for sekvensering.
Merk: Vanligvis 50 kretsløpene enkelt lese (SR50) er tilstrekkelig (se, for eksempel https://www.illumina.com/technology/next-generation-sequencing.html).

9. Databehandling

Merk: sekvensering resultatdataene (i fastq format) behandles med programvare som er tilgjengelig i gitlab depotet (https://git.scicore.unibas.ch/zavolan_public/A-seq2-processing). Analysen omfatter fire hovedtrinn: (1) nedlasting git depotet, (2) installasjon av et virtuelt miljø, (3) sette spesifikke parametere i konfigurasjonsfilen og (4) lanserer analyse gjennom ‘ snakemake ’ ¹⁰. hele analyse gjort i trinn 4 krever bare én kommando. En detaljert steg for steg beskrivelse av analysen kan finnes i viktig-filen i repositoriet for gitlab og en kort beskrivelse er tilgjengelige. Alle personlige behandlingstrinnene ved kjøring av offentlig tilgjengelige verktøy, enten fra eksterne kilder eller forberedt internt. Rørledningen beregningsorientert avhenger av en anakonda-baserte ¹¹ python 3 virtuelt miljø med snakemake pakken tilgjengelig ¹⁰. Det kjører på maskiner med Unix-lignende operativsystem og ble testet i et Linux-miljø med CentOS 6.5 operativsystemet installert og 40 GB RAM tilgjengelig. Programvare avhengigheter kontrolleres automatisk i det virtuelle miljøet. Følgende offentlig tilgjengelig programvareverktøy er nødvendig og dermed installert sammen med miljøet: snakemake (v3.9.1) ¹⁰, fastx toolkit (v0.0.14) ¹², STAR (v2.5.2a) ¹³, cutadapt (v1.12) ¹⁴, samtools (v1.3.1) ¹⁴ ^, ¹⁵, bedtools (v2.26.0) ¹⁶ ^, ¹⁷.

Før behandling fra leser til cDNAs
Merk: sekvensering dybden kan variere mellom kjører og, avhengig av instrumentet, data fra ett utvalg kan deles over flere bildesekvensfiler. Hvis dette er tilfelle, kan du sette sammen filene som tilsvarer ett utvalg i en enkelt inndatafilen som brukes i fremgangsmåten.
1. Konvertere filen fra fastq til fasta format.
2. Pakke leser med en riktig struktur (3 thymidines posisjoner 5, 6 og 7 i leser).
  Merk: En leser som er riktig utarbeidet etter eksperimentelle protokollen beskrevet ovenfor må strukturen (fra 5 ' slutten): 4-nukleotid strekkode - 3 thymidines - reversere bemanning av transkripsjon 3 ' slutten.
3. Lagre informasjon om den første tetramer i beskrivelseslinjen til sekvensen.
  Merk: Tetramer fungerer som en unik molekylær ID (UMI) som forenkler korreksjon av forsterkning artefakter senere i analysen.
4. Fjerne de første sju nukleotider fra lese ' s 5 ' slutten.
5. Rette for forsterkning gjenstander ved å holde bare én kopi av lest med samme sett inn sekvens og UMI.
6. Fjerne delen av 3 ' slutten som samsvarer med kortet sekvensen og deretter omvendt supplement sekvensen. Bare gå med leser som har minimumslengden (standard: 15 nt).
  Merk: avhengig av lengden på opprinnelige mRNA fragmentet og antall sekvenser sykluser, 3 ' slutten av lese kan inneholde delen av 3 ' kortet, som er fjernet i dette trinnet.
Ekstra alle leser som oppfyller følgende kriterier: maksimalt 2 ukjent nukleotider (' N '), maksimum 80% som og siste nucleotide i leser ikke A. Disse leser anses å være av tilstrekkelig kvalitet i analysen.
Lest tilordnet Genova med et verktøy som håndterer skjøtes leser og genererer en utdatafil i BAM format.
1. Hvis STAR brukes, opprette en fil med indeks av genomet som lest skal tilordnes. Det menneskelige genomet, dette trinnet krever 35 GB minne (RAM).
2. Tilordnes lest genomet.
  Merk: (STAR-spesifikke notater) myk-klipping er deaktivert for å tvinge koblingen fra 3 ' slutten av lese som dette nukleotid umiddelbart oppstrøms webområdet cleavage.
Konvertere BAM til en SENG-fil. Hvis en leser kart til flere steder, beholder bare de med lavest redigere avstand.
Merk: Kopien antall lese kartlagt på en bestemt plassering brukes som resultat. Lyder som tilordnes til flere steder telles fractionally hver plassering med en vekt som er lik 1/nummer av steder som lese kart.
Skjul leser som varierer fra en sannsynlig sekvensering feil. Hvis to distinkte leser tilordner til samme sted (start- og posisjon tilordningene er identisk) og de deler samme UMI, som PCR duplikater og holde eneste.
Antyde alle individuelle pre-mRNA 3 ' ende behandling områder.
Merk: En enkelt lese gir bevis for en 3 ' avslutte når de siste fire nukleotider tilordnes genomet uten feil. Stillingen som 3 ' slutten av Les kartene lagres som spalting.
Finn 3 ' ende nettsteder som kan ha sin opprinnelse fra interne grunning. Definere området som interne grunning gjenstand når 10 nt nedstrøms av cleavage området i genomet oppfyller ett av følgende kriterier: inneholder mer enn seks som inneholder seks påfølgende som og starter med ett av de følgende tetramers: AAAA, AGAA, AAGA, AAAG .
Genererer en personlige 3 ' ende behandling områder i SENGEN format.
Identifisere uavhengig regulert poly(A) nettstedet klynger.
Merk: Trinnene som beskrives her følger du fremgangsmåten som ble introdusert i en tidligere publikasjon ⁵.
1. Starte ved å samle personlige 3 ' ende behandling områder som er oppnådd i alle prøver av studien.
2. Kommentere kjent poly(A) signaler ⁷ i regionen-60 til 10 nukleotider rundt hver individuelle 3 ' slutten behandlingssted.
3. Identifiserer poly(A) nettsteder uttrykt ovenfor bakgrunnen i hvert utvalg som følger.
  1. Sortere områdene av deres rå uttrykk i dagens utvalg. Traversere listen over områder fra topp til bunn, knytte lavere rangerte nettsteder med en høyere rangert området hvis de er plassert i forhåndsdefinerte avstand i genomet (standard: 25 nt-opp - eller nedstrøms) fra webområdet høytstående.
    Merk: Alle lav områder knyttet en høytstående området definerer en klynge med uttrykket er antall leser dokumentere alle disse områdene.
  2. Sortere disse klyngene av uttrykk og bla gjennom listen over klynger fra høyeste til laveste uttrykk, bestemme uttrykk terskelen c som andelen klynger med en kommenterte poly(A) signal falle under en forhåndsdefinert terskelverdi ( standard: 90%).
  3. Forkaste nettsteder fra en klynge under cut-off.
4. Cluster tett linjeavstand 3 ' ende nettsteder innhentet i et datautvalg.
  Merk: Sortere 3 ' slutten behandler steder først ved antall støtte prøver og deretter summen av den normaliserte antall leste (leser million (RPM)) over prøver. Traversering listen fra topp til bunn, knytte lavere områder med høyere rangerte nettsteder når deres avstand til høyere rangering nettstedet ikke er større enn en forhåndsdefinert (standard: 12 nt). Når noen av konstituere 3 ' slutten området overlapper med en kommenterte poly(A) signalet eller har poly(A) signal direkte nedstrøms, tilsvarende sektorgruppen er merket for videre inspeksjon å oppdage interne grunning.
5. Flette poly(A) nettstedet klynger.
  Merk: Når en klynge er merket som antatte interne grunning kandidat, det er enten slått sammen til en nedstrøms klynge Hvis to klynger deler sine poly(A) signaler eller beholdes hvis mest nedstrøms området i klyngen har et poly(A) signal på et minimum avstand oppstrøms (standard: 15 nt). Til slutt, tett linjeavstand klynger flettes hvis: (i) de deler den samme poly(A)-signal(s) eller (ii) at resulterende klyngen ikke overstiger maksimalt (standard: 25 nt).
6. Lagre klynger i SENG-filformat med totalen normalisert antall leste fra alle 3 ' ende områder hver sektorgruppe som score.

Representative Results

Poly (A)-som inneholder RNA ble isolert fra kulturperler celler, fragmentert av alkalisk hydrolyse og cDNAs ble gjort av omvendt transkripsjon med oligo(dT) primer. Den resulterende cDNA var immobilisert på streptavidin perler, dU var kløyvde i uracil bestemt excision reaksjonen, kort var samskrevet til 5' og 3 endene av cleaved fragmentet og skivene var sekvensielt. Figur 1 viser en skisse av eksperimentet.

HeLa og HEK293 celler var 10⁶ celler tilstrekkelig til å identifisere poly(A) nettsteder for majoriteten av protein-koding gener på slutten av prosedyren. Men for andre celletyper eller vev kan det være nødvendig å teste metning i antall identifisert poly(A) områder som antall celler som brukes i eksperimentet øker. Representant resultatene av pilot PCR trinn og av DNA fragment analyse av prøven før sekvensering er vist i figur 2.

Figur 3 viser forhåndsbehandling trinnene av beregningsorientert analyse, fra filen fastq innhentet fra sequenceren og slutter med den kvalitetssjekket, kort-trimmet lest som er klare til genomet. Figur 4 viser analyse trinnene som starter med tilordningen i lyder til tilsvarende genomet og slutten med katalogen av mRNA 3 slutt behandler steder som identifiseres i et bestemt utvalg. Når flere eksempler er analysert, utføres flere trinn å matche 3 slutten behandler steder som ble funnet i enkelte prøver og rapportere sin overflod over prøver. Disse trinnene er vist i figur 5.

Således, når prøver har blitt sekvensert, analyse av den resulterende sekvensering lese filer (i fastq format) gjennom rørledningen tilgjengelig behandling er enkelt. Etter tilføyer informasjon om prøvene i konfigurasjonsfilen, gjennomføring av rørledningen vil resultere i to hovedtyper av utdatafiler: 1) BED-filer med alle 3' ende behandling områder identifisert i individuelle eksempler (f.eks " sample1.3pSites.noIP.Bed.gz"), og 2) en SENG-fil med alle poly(A) nettstedet klynger (clusters.merged.bed) over alle prøver av studien. Produksjonen omfatter også genomet koordinatene for alle leser fra hver enkelt prøve (f.eks "sample1. STAR_out/Aligned.sortedByCoord.out.Bam") som kan senere vises i en genome nettleser som IGV¹⁶. Visuell inspeksjon av du lese profilene vanligvis gir et første glimt av distribusjonen av poly(A) i genomet og endringene som oppstår på bestemte forstyrrelser som ble utført i studien. For eksempel i figur 6 vises svaret med et bestemt sammenleggbare HNRNPC protein.

Sammendrag av disse genomet hele distribusjoner tilbys også (tabell 1). Spesielt utdatafiler i mappen "teller/annotation_overlap" inneholder fraksjoner av områder som overlapper med spesifikke egenskaper for kommentert (fra filen gtf gitt som inndata, kommenterte er: 3' UTR, terminal ekson, ekson, intron, intergenisk). Til slutt, for hver prøve, resultatene av personlige behandlingstrinnene lagres også (f.eks "sample1.summary.tsv"). Dette inkluderer antall: rå lyder i hvert eksempel, leser som har forventet strukturen i 5' slutten, leser som gjenstår etter kollapset full PCR duplikater, høy kvalitet leser i henhold til kriteriene definert på trinn 9.2, leser at kartet for genomet (etter kollapset som resulterte fra sekvensering feil, se trinn 9.5), flere kartlegging leser (etter kollapset som resulterte fra sekvensering feil, se trinn 9.5), rå (ikke gruppert) 3' slutten behandler steder hver prøve, rå 3' slutt behandler steder uten potensielle interne grunning kandidater, unik 3' ender behandling områder fra alle prøver uten interne grunning kandidater, og endelige settet med poly(A) nettstedet klynger.

Figur 1: hovedtrinnene av A-seq2-protokollen som. Individuelle trinnene angis på venstre side av figuren. Sett inn RNA fragmenter vises som grønne linjene som blir røde for cDNA etter omvendt transkripsjon; adaptere er farget i lys blå eller oransje. Klikk her for å se en større versjon av dette tallet.

Figur 2: Pilot PCR og sluttproduktet profil. (en) dele PCR reaksjonen var samlet på ulike sykluser og skilt på 2% agarose gels. Tall til venstre angir størrelsen i nukleotider respektive band i DNA stigen. I dette eksperimentet ble 12 sykluser (*) valgt for storskala PCR reaksjonen. (b) eksempel på en prøve etter størrelse utvalg kjøres på et fragment størrelse analysator avsløre en gjennomsnittlig størrelse på rundt 280 nukleotider. Tall til venstre [FU] angir relativ signal intensitet. Klikk her for å se en større versjon av dette tallet.

Figur 3: omrisset av pre-prosessering av sekvensering leser. Fastq filer med lyder som er generert av sekvensering instrument-assosiert programvaren behandles for å identifisere høykvalitets lyder som tilordnes til tilsvarende genomet. Figuren viser til inndata/utdata-spesifikasjonen i enkelttrinn i rørledningen, med koblinger til de individuelle trinnene av protokollen beskrevet i delen "Behandling". Klikk her for å se en større versjon av dette tallet.

Figur 4: oversikt over sekvensen lese behandling, fra trinn av kartlegging til genomet til generasjon av personlige 3' slutten behandling områder. Figuren viser til inndata/utdata-spesifikasjonen i enkelttrinn i rørledningen, med lenker til individual trinn av protokollen beskrevet i delen "Behandling". Viktigste utdatafilen som leveres til brukeren er merket med fet skrift. Klikk her for å se en større versjon av dette tallet.

Figur 5: oversikt over trinnene som er tatt for å generere klynger av co regulert 3' slutten sekvensering områder. Figuren viser til inndata/utdata-spesifikasjonen i enkelttrinn i rørledningen, med koblinger til de individuelle trinnene av protokollen beskrevet i delen "Behandling". Viktigste utdatafilen er merket med fet skrift. Klikk her for å se en større versjon av dette tallet.

Figur 6: eksempel resultatene av profilen til 3 slutt behandling leser langs den terminal ekson av NUP214 genet, vises i IGV ¹⁶ genomet nettleseren. A-seq2 leser var forberedt fra to eksempler på HEK 293 celler, behandlet enten en kontroll-siRNA eller med en HNRNPC siRNA. Lest som dokumentert poly(A) områder som ble kommentert av rørledningen analyse var lagret i BAM formatet som ble brukt som inndata IGV genomet leseren. 3 endene av Les toppene tilordnes mRNA 3 ender som er kommentert i Ensembl. Profiler indikerer økt bruk av den lange 3' UTR isoformen på HNRNPC sammenleggbare. Klikk her for å se en større versjon av dette tallet.

	si-kontroll gjenskape 1	si-kontroll gjenskape 2
	ID: 29765	ID: 32682
Antall lese rådata	44210258	68570640
antall gyldige leser etter trimming og filtrering	14024538	21211793
antall unikt kartlegging leser	6953674	13946436
antall leser tilordning til flere loci	2040646	2925839
antall individuelle 3' slutten behandler steder	1107493	1710353

Tabell 1: eksempel resultatet av rørledningen analyse. Sammendrag av lyder som er oppnådd i enkelttrinn.

Discussion

Mangfoldet av kjernen og ekstra faktorer som er involvert i pre-mRNA 3 slutten behandling gjenspeiles i et tilsvarende komplekse polyadenylation landskap. I tillegg svarer polyadenylation også endringer i andre prosesser som transkripsjon og skjøting. 3 slutten cleavage steder i pre-mRNAs identifiseres vanligvis basert på de karakteristiske poly(A) haler som legges til 5' cleavage produkter. De fleste metoder bruke oligo(dT) primere med variabel lengde som tillater spesifikk konvertering av poly (A)-som inneholder mRNAs til cDNAs i en omvendt transkripsjon reaksjon. Et vanlig problem med denne tilnærmingen er interne grunning til A-rik sekvenser som resulterer i artifactual cleavage nettsteder. To metoder som mål å omgå denne gjenstand på scenen for eksempel forberedelse foreslått. I 3P-seq metode ¹, er adaptere spesielt samskrevet til poly(A) haler ender med hjelp av en skinne oligo etterfulgt av delvis RNase T1 fordøyelsen og omvendt transkripsjon med TTP i reaksjonen som den eneste deoxynucleotide. De resulterende poly(A)-poly(dT) heteroduplexes er da fordøyd med RNase H og gjenværende RNA fragmenter er isolert samskrevet nettverkskort og sekvensielt. En enklere og elegante metode, 2P-seq, som bruker en egendefinert sekvensering primer hoppe gjenværende oligo(dT) strekningen sekvensering reaksjon ble rapportert av de samme forfattere ². I en relatert metode 3 leser av ³, en uvanlig lang primer 5 oss og 45 Ts, også inneholder en biotin er herdet til fragmentert RNA, etterfulgt av strenge vasker velge for RNA molekyler med poly(A) haler av over 50 nukleotider. Selv om 3' leser drastisk reduserer hyppigheten av interne grunning, eliminere det ikke fullstendig den ³. Protokoller for direkte RNA sekvensering har også vært foreslått, men den resulterende lest er kort og har et høyt antall feil og denne tilnærmingen er ikke lenger utviklet ¹⁸^,¹⁹^,²⁰. PolyA-Seq og kommersialiserte Quant Seq protokoller kombineres oligo(dT) basert grunning med en tilfeldig grunning steg for cDNA andre strand syntese ²⁰. Bruk av mal bryteren omvendt transkripsjon reaksjon med Moloney Murine leukemi Virus (MMLV) revers transkriptase fører til generering av cDNAs med linkers i ett enkelt trinn, og dermed ingen kort dimers kan vises i PAS-Seq og SAPAS metoder ²¹ ^, ²².

A-seq2 metoden presentert her skiller seg ut i dens utnyttelse av en cleavable nukleotid (dU) i en biotinylated oligo(dT) primer. Denne endringen kombinerer nytten av berikende oligo(dT) hybridiserte, polyadenylated mål med fjerning av de fleste av oligo (dT)₂₅ sekvensen fra isolert fragmenter før biblioteker er utarbeidet og bevaring av tre Ts, som Angi tidligere tilstedeværelsen av poly(A) halen. I kontrast la metoder som bruker RNase H å fjerne poly(A) fra RNA molekyler tilfeldig flere som. Siden i A-seq2, sekvensering er gjort fra 3 slutten av anti-følelse tråder, er cleavage nettsteder spådd for å ligge etter NNNNTTT motivet i begynnelsen av rå sekvens. De randomiserte tetramers tjener ikke bare å tillate base ringer men også eliminering av PCR forsterkning gjenstander. Lengre UMIs kan også tilpasses. Muligheten for interne grunning forblir i A-seq2 og er adressert beregningsmessig, først ved å forkaste 3 ender med en genomically-kodet, A-rik nedstrøms sekvens, og deretter ved å forkaste 3 slutten klynger som kan forklares med intern grunning på den A-rike poly(A) signalet selv. En fersk analyse av poly(A) nettsteder utledes unikt av et stort antall protokoller angir at nettsteder som er unike for A-seq2 har forventet nukleotid distribusjon og plassering i gener, ligner andre 3' ende sekvensering protokoller.

Et viktig skritt i A-seq2 er valg av polyadenylated RNA og fjerning av ribosomal RNAs og ulike små RNAs. Dette gjøres enkelt ved en mRNA-isolering kit med oligo (dT)₂₅ magnetiske perler. I prinsippet gir totale RNA isolert med fenol som inneholder løsninger også høy kvalitet RNA som kan bli ytterligere utsatt for valg av mRNA-isolering kit eller oligo (dT) agarose. Et trinn som kan varieres i A-seq2 er behandlingen med alkalisk hydrolyse som kan bli forkortet eller utvidet til å få RNA fragmenter av forskjellige størrelser. Kritisk er også at tillegg av 3 dATP 3 endene av RNA fragmenter av poly(A) utvalg er effektiv. Protokoll beskrevet her, brukes denne behandlingen alle RNA bruddstykker, å unngå concatemerization under ligation reaksjonen. Til slutt, vi merke at selv RNA ligase 1 er vanligvis brukt som en RNA-ligase, det også ligates effektivt enkelt strandet DNA, som vi har gjort her for å ligate en adapter til 5' slutten av cDNA molekyler.

Dermed er A-seq2 en effektiv og enkel å implementere protokoll for identifikasjon av pre-mRNA 3 slutt behandler steder. Fremtidig utvikling kan inneholde ytterligere redusere kompleksiteten i protokollen og mengden av nødvendige materiale. Det tilhørende settet med ytterligere beregningsorientert dataanalyseverktøyene aktiverer homogen behandlingen av 3 slutten sekvensering leser med en rekke protokoller.

Disclosures

Forfatterne ikke avsløre.

Acknowledgments

Forfatterne takke fru Béatrice Dimitriades for hjelp med cellekultur. Dette arbeidet ble støttet av det sveitsiske National Science Foundation tilskudd #31003A_170216 og 51NF40_141735 (NCCR RNA & sykdom).

Materials

Name	Company	Catalog Number	Comments
Materials
Agarose, ultra pure	Invitrogen	16500-500
2100 Bioanalyzer	Agilent	G2940CA
Cordycepin triphosphate (3’ dATP)	SIGMA	C9137
DNA low bind vials, 1.5 ml	Eppendorf	22431021
Dulbecco’s Phosphate Buffered Saline	SIGMA	D8637
Dynabeads mRNA-DIRECT Kit	Ambion	AM61012
GR-Green dye	Excellgen	EG-1071	use 1:10,000 dillution
HiSeq 2500 or NextSeq 500 next generation sequencers	Illumina	inquire with supplier
KAPA HiFi Hotstart DNA polymerase mix	KAPA/Roche	KK2602
Nuclease free water	Ambion	AM9937
Poly(A) polymerase, yeast	Thermo Fisher Scientific	74225Z25KU
Poly(A) polymerase, E.coli	New England Biolabs	M0276L
Polynucleotide kinase	Thermo Fisher Scientific	EK0032
QIAEX II Gel Extraction Kit	Qiagen	20021
QIAquick PCR Purification Kit	Qiagen	28104
QIAquick Gel Extraction Kit	Qiagen	28704
RNA ligase 1, high concentration	New England Biolabs	M0437M	includes PEG-8000
RNeasy MinElute RNA Cleanup kit	Qiagen	74204
RNase H	New England Biolabs	M0279
RNasin Plus, ribonuclease inhibitor	Promega	N2618
Superscript IV reverse transcriptase	Thermo Fisher Scientiific	18090050
Turbo DNase	Ambion	AM2238
USER enzyme mix	New England Biolabs	M5505
Dyna-Mag-2 magnetic rack	Thermo Fisher Scientific	12321D
Thermomixer C	Eppendorf	5382000015	Heated mixer with heated lid
MicroSpin columns	GE-Healthcare	27-5325-01
Name	Company	Catalog Number	Comments
Buffers
Alkaline hydrolysis buffer, 1.5 x			Mix 1 part 0.1 M Na2CO3 and 9 parts 0.1 M NaHCO3. Add EDTA to 1 mM. Adjust pH to 9.2. Store aliquots at -20 °C.
5x poly(A) polymerase buffer	Thermo Fisher Scientiific		100 mM Tris-HCl, pH 7.0, 3 mM MnCl2, 0.1 mM EDTA, 1 mM DTT, 0.5 mg/ml acetylated BSA, 50% glycerol
Biotin binding buffer			20 mM TrisCl pH 7.5, 2 M NaCl, 0.1% NP40
TEN buffer			10 mM TrisCl, pH 7.5, 1 mM EDTA, 0.02% NP40
Name	Company	Catalog Number	Sequence
Oligonucleotides according to Illumina TruSeq Small RNA Sample Prep Kits, for GA-IIx and Hiseq2000/2500 sequencers	Microsynth
revRA3 (RNA)	Microsynth		5’ amino CCUUGGCACCCGAGAAUUCCA 3’
revDA5	Microsynth		5’ amino GTTCAGAGTTCTACAGTCCGAC GATCNNNN-3’
Bio-dU-dT25, RT primer	Microsynth		5' Biotin-TTTTTTTTTTTTTTTTTTTTTTTTTT-dU-TTTVN 3' (V = G, A or C)
PCR primer forward, RP1	Microsynth		5' AATGATACGGCGACCACCGAGA TCTACACGTTCAGAGTTCTACAG TCCGA 3'
PCR primer reverse, RPI1, barcode in bold	Microsynth		5' CAAGCAGAAGACGGCATACGAG ATCGTGATGTGACTGGAGTTCCT TGGCACCCGAGAATTCCA 3'
Name	Company	Catalog Number	Comments
Oligonucleotides according to Illumina TruSeq HT-Small RNA Sample Prep Kits, for HiSeq2000/2500 and NextSeq500 sequencers
HT-rev3A (DNA/RNA)	Microsynth		5'-amino-GTGACTGGAGTTCAGACGTGTG CTCTTCCrGrAUrC-3'
HT-rev5A	Microsynth		5' amino-ACACTCTTTCCCTACACGACGCT CTTCCGATCTNNNN 3'
Bio-dU-dT25, RT primer	Microsynth		5' Biotin-TTTTTTTTTTTTTTTTTTTTTTTTTT-dU-TTTVN 3'
PCR primers forward (D501-506)	Microsynth or Illumina		5'-AATGATACGGCGACCACCGAGAT CTACAC[i5]ACACTCTTTCCCTACA CGACGCTCTTCCGATCT -3'
PCR primers reverse (D701-D712)	Microsynth or Illumina		5'-CAAGCAGAAGACGGCATACGAG A[i7]GTGACTGGAGTTCAGACGTG TGCTCTTCCGATC-3'
Documentation for Illumina multiplexing:	Illumina		https://support.illumina.com/content/dam/illumina-support/documents/documentation/chemistry_documentation/experiment-design/illumina-adapter-sequences_1000000002694-01.pdf

DOWNLOAD MATERIALS LIST

References

Jan, C. H., Friedman, R. C., Ruby, J. G., Bartel, D. P. Formation, regulation and evolution of Caenorhabditis elegans 3'UTRs. Nature. 469 (7328), 97-101 (2011).
Spies, N., Burge, C. B., Bartel, D. P. 3' UTR-isoform choice has limited influence on the stability and translational efficiency of most mRNAs in mouse fibroblasts. Genome Res. 23 (12), 2078-2090 (2013).
Hoque, M., Ji, Z., et al. Analysis of alternative cleavage and polyadenylation by 3' region extraction and deep sequencing. Nat. methods. 10 (2), 133-139 (2013).
Martin, G., Gruber, A. R., Keller, W., Zavolan, M. Genome-wide analysis of pre-mRNA 3’ end processing reveals a decisive role of human cleavage factor I in the regulation of 3' UTR length. Cell Rep. 1 (6), 753-763 (2012).
Gruber, A. R., Martin, G., et al. Global 3' UTR shortening has a limited effect on protein abundance in proliferating T cells. Nat. Commun. 5, 5465 (2014).
Kivioja, T., Vähärautio, A., et al. Counting absolute numbers of molecules using unique molecular identifiers. Nat. methods. 9 (1), 72-74 (2011).
Gruber, A. J., Schmidt, R., et al. A comprehensive analysis of 3' end sequencing data sets reveals novel polyadenylation signals and the repressive role of heterogeneous ribonucleoprotein C on cleavage and polyadenylation. Genome Res. 26 (8), 1145-1159 (2016).
Lingner, J., Keller, W. 3'-end labeling of RNA with recombinant yeast poly(A) polymerase. Nucleic Acids Res. 21 (12), 2917-2920 (1993).
Quail, M. A., Kozarewa, I., et al. A large genome center's improvements to the Illumina sequencing system. Nat. methods. 5 (12), 1005-1010 (2008).
Rahmann, S. Snakemake--a scalable bioinformatics workflow engine. Bioinformatics. 28 (19), 2520-2522 (2012).
Analytics, C. Anaconda Software Distribution. , Available from: https://continuum.io (2016).
Lab, H. FASTX-Toolkit - Hannon Lab. , Available from: http://hannonlab.cshl.edu/fastx_toolkit/index.html (2017).
Dobin, A., Davis, C. A., et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 29 (1), 15-21 (2013).
Martin, M. Cutadapt removes adapter sequences from high-throughput sequencing reads. EMBnet.journal. 17 (1), 10-12 (2011).
Li, H., Handsaker, B., et al. The Sequence Alignment/Map format and SAMtools. Bioinformatics. 25 (16), 2078-2079 (2009).
Robinson, J. T., Thorvaldsdóttir, H., et al. Integrative genomics viewer. Nat. Biotechnol. 29 (1), 24-26 (2011).
Quinlan, A. R., Hall, I. M. BEDTools: a flexible suite of utilities for comparing genomic features. Bioinformatics. 26 (6), 841-842 (2010).
Ozsolak, F., Platt, A. R., et al. Direct RNA sequencing. Nature. 461 (7265), 814-818 (2009).
Yao, C., Biesinger, J., et al. Transcriptome-wide analyses of CstF64-RNA interactions in global regulation of mRNA alternative polyadenylation. Proc. Natl. Acad. Sci. U. S. A. 109 (46), 18773-18778 (2012).
Lin, Y., Li, Z., et al. An in-depth map of polyadenylation sites in cancer. Nucleic Acids Res. 40 (17), 8460-8471 (2012).
Shepard, P. J., Choi, E. -A., Lu, J., Flanagan, L. A., Hertel, K. J., Shi, Y. Complex and dynamic landscape of RNA polyadenylation revealed by PAS-Seq. RNA. 17 (4), 761-772 (2011).
Fu, Y., Sun, Y., et al. Differential genome-wide profiling of tandem 3' UTRs among human breast cancer and normal cells by high-throughput sequencing. Genome Res. 21 (5), 741-747 (2011).

Biology

3 slutten sekvensering biblioteket forberedelser med A-seq2

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.