Biology

3' slutet sekvensering bibliotek förberedelser med A-seq2

Published: October 10, 2017 doi: 10.3791/56129

Georges Martin¹, Ralf Schmidt¹, Andreas J. Gruber¹, Souvik Ghosh¹, Walter Keller¹, Mihaela Zavolan^1,2

¹Computational and Systems Biology, Biozentrum, University of Basel, ²Swiss Institute of Bioinformatics, Biozentrum, University of Basel

Summary

Det här protokollet beskriver en metod för kartläggning pre-mRNA 3' slutet bearbetning platser.

Abstract

Studier under det senaste decenniet har avslöjat en komplex och dynamisk mängd pre-mRNA klyvning och polyadenylation reaktioner. mRNA med långa translaterade 3' regioner (utr) genereras i differentierade celler medan prolifererande celler uttrycker prioriterat avskrifter med kort 3' utr. Vi beskriver A-seq protokollet, nu i sin andra version, som utvecklades för att mappa polyadenylation platser genome-wide och studera regleringen av pre-mRNA 3' slutet bearbetning. Också tar detta nuvarande protokoll fördel av polyadenylate (poly(A)) svansar som läggs under biogenes av mest däggdjur mRNA att berika för fullständigt bearbetad mRNA. En DNA-adapter med deoxyuracil på sin fjärde position tillåter exakt bearbetning av mRNA 3' slutet fragment för sekvensering. Inte inklusive cellkulturen och de natten nering, protokollet kräver ca 8 h hands-on tid. Tillsammans med det tillhandahålls en lätt-till-använda programpaket för analys av härledda sekvensering data. A-seq2 och det associerade analysprogrammet ger en effektiv och tillförlitlig lösning till kartläggningen av pre-mRNA 3' slutar i en rad olika tillstånd, från 10⁶ eller färre celler.

Introduction

Avskiljning och sekvensering av mRNA 3' ändarna kan studien av mRNA bearbetning och kvantifiering av genuttryck. På grund av deras poly(A) svansar, kan eukaryota mRNA effektivt renas från summacell lysates med pärla-orörlig oligo-deoxythymidine (oligo(dT)) molekyler, som kan också prime cDNA syntes. Detta tillvägagångssätt har dock två nackdelar. Det första kan sträckor av A: s som är interna för avskrifter också prime cDNA-syntes, vilket resulterar i falska poly(A) platser. Andra, homogen poly(A) sträckor utgör särskilda utmaningar för sekvensering, bortsett från att inte vara informativ för avskrift identifiering. Olika metoder har föreslagits att kringgå dessa begränsningar, till exempel omvänd Transkription genom poly(A) svansar följt av RNase H matsmältningen (3 P-seq ¹), användning av en anpassad sekvensering primer slutar på 20 Ts (2 P-seq ²), förval av RNA fragment med poly(A) svansar av över 50 nukleotider med CU₅T₄₅ primer följt av RNase H matsmältningen (3' läser ³) och användning av en oligo-dT primer som innehåller den 3'-adaptern i en hårnål (A-seq ⁴).

Den nyligen utvecklade A-seq2 metod ⁵ syftar till att kringgå sekvensering genom poly(A) och samtidigt minimera andelen dimerer som genereras av egen ligatur av adaptrar, särskilt som inträffar när den molära koncentrationen av adaptrar uppväger infoga koncentrationen. Detta problem kan elimineras när båda adaptrarna är sammanskrivna till samma typ av polynucleotide slutar som A-seq2, där de 3' adaptrarna är sammanskrivna till 5' slutet av RNA fragment och adaptrarna 5' 5' ändarna på cDNAs efter omvänd Transkription. Metoden är mer praktiskt än vår tidigare föreslagna A-seq - där sekvensering var i 5'-till-3' riktning vilket kräver exakt kontrollerade RNA fragmentering-, samtidigt som en hög noggrannhet av poly(A) platsidentifiering. Omkring 80% av sekvenserade läser i typiska prover karta unikt att genomet och leda till identifiering av över 20.000 poly(A) webbplats kluster, mer än 70% av som överlappar kommenterad 3' utr.

I korthet, börjar A-seq2 protokollet med mRNA fragmentering och ligering av omvänd-komplement 3' adaptrar till 5' ändarna av RNA fragment. Poly (A)-innehållande RNAs är sedan omvänd transkriberas med 25 nukleotid (nt) lång oligo(dT) primer som innehåller ett ankare nukleotid i slutet 3', en nedströmsanvändare i position 4 och en biotin i slutet 5', så att bindningen av cDNA till magnetiska streptividin pärlor. De flesta av primer, inklusive biotin, avlägsnas från cDNA genom klyvning på dU av användaren enzym mixen, som innehåller Uracil DNA glykosylas (UDG) och den DNA glykosylas-lyasen Amiiiiin VIII. Denna reaktion lämnar intakt ändar för ligering av en 5'-adapter och tre Ts vänster efter klyvning återstår markera platsen för poly(A) svansen. Eftersom både 5' och 3' adaptrar bifogas av ligatur till mottagarens 5' topparna, genereras ingen adapter dimerer. Fyra nukleotid random-mers infördes i början av läser kan klustret upplösning på state-of-the-art sekvensering instrument och kan också fungera som unik molekylär identifierare (UMI) för identifiering och borttagning av PCR-amplifiering artefakter. Storleken på UMI kan ökas ytterligare som gjort i andra studier ⁶. Protokollet genererar läsningar som är vända komplement till mRNA 3' ändarna, allt börjar med en randomiserad tetramer följt av 3 Ts. beredning av läser som har 3 diagnostiska Ts på sin 5' slutet börjar med korrigering av PCR-amplifiering artefakter av att utnyttja UMIs, borttagning av 3' adapter sekvenser, och vända komplettering. Läsningar som kan ha sitt ursprung från oligo(dT) grundning på inre A-rika platser också identifieras beräkningsmässigt och kasseras. De falska webbplatserna saknar ofta en av 18 välkarakteriserad och bevarade poly(A) signaler som bör vara beläget ~ 21 nukleotider uppströms av uppenbara klyvning plats ⁷.

Protokollet kräver ca 8 h hands-on tid, oräknat cellkultur och de natten nering. Tillhörande Läs analys programvara möjliggör en mycket noggrann poly(A) platsidentifiering. Från webbplatsen poly(A) kluster skapas baserat på 4 prov ytterligare betonas i detta manuskript (två biologiska replikat för kontroll siRNA och si-HNRNPC-behandlade celler) 84% överlappning med en kommenterad gen, och av dessa, 75% överlappning med en 3' UTR och 86% med antingen en 3' UTR eller en terminal exon. Pearsons korrelationskoefficient uttryck för 3' slutar i identiska prover är 0,92 och värden på över 0,9 erhålls vanligtvis med metoden. A-seq2 är alltså en bekväm metod som ger mycket reproducerbara resultat.

Protocol

1. celltillväxt och mRNA isolering

odla cellerna enligt din experimentell design i 6-väl plattor till ~ 1 x 10 ⁶ celler per brunn på 80% confluence.
Ta bort odlingsmedium och tvätta cellerna en gång med fosfatbuffrad saltlösning. Direkt lysera celler på plattan genom att tillsätta 1 mL lyseringsbuffert från mRNA-isolering kit. Överföra den trögflytande lysate i en 15 mL plaströr med en 1 mL pipettspetsen. Använd en gummi spatel att helt lösgöra cell materialet från den platta ytan.
Skeva lysate innehållande trögflytande DNA med en 1 mL spruta bifogas 23 G injektionsnål av flera kraftfulla upp och ner rörelser kolven tills den lysate inte längre trögflytande. Peka i mitten av botten för att undvika utkastande den lysate ur röret sprutans nål.
Överför den lysate i ett 1,5 mL rör med hjälp av sprutan. Snurra 5 min vid 20 000 x g och 4 ° C för att ta bort skräpet. Använda DNA låg bind 1,5 mL injektionsflaskor i hela protokollet.
Medan centrifugen är igång, tvätta 300 µL återsuspenderad oligo (dT) ₂₅ magnetiska pärlor på en magnetisk rack med 500 μl lyseringsbuffert. Blanda rören 2 - 3 gånger på sträckbänken. Ta bort bufferten när lösningen är klar. Samla in klara supernatanten från steg 1.4 och lägga till pärlorna. Återsuspendera och placera rören på ett roterande hjul för 10 min.
Placera rören på en magnetisk rack. Ta bort den klar vätskan efter 2 min. Lägg till 0,8 mL buffert A från mRNA-isolering kit. Vrid röret 180° grader på sträckbänken, 2 - 3 gånger. Upprepa detta tvätt en gång till med buffert A.
Rengör pärlorna 2 gånger med 0,8 mL buffert B såsom beskrivs i steg 1,6.
Till eluera bundna mRNA från pärlorna, Lägg till 33 µL H ₂ O och resuspendera pärlorna. Värm till 75 ° C i 5 min på en uppvärmd block. Omedelbart snurra rören för 1 s och placera dem på det magnetiska racket. Överför supernatanten till en ny tub. Prover kan lagras vid-80 ° C tills vidare användning.
Lägg till 66 µL alkalisk hydrolys buffert 33 µL mRNA (steg 1,8), blanda och värma för exakt 5 min vid 95 ° C i ett värmeblock. Omedelbart chill rören på ice.
Isolera RNA med en RNA Clean kit.
Obs: Bekräfta volymen; Det bör vara 100 µL.
1. Lägg till 350 µL RLT buffert från kitet och 250 µL etanol. Belastning på den kolumnen och spin för 30 s vid 8 000 x g vid rumstemperatur (RT). Tvätta med 500 µL RPE buffert från kit. Tvätta med 500 µL 80% etanol. Snurra för 5 min vid 20 000 x g torka kolumnen. Lägga till 36 µL H ₂ O i kolumn och snurra för 1 min vid 20 000 x g. Kassera kolumnen och spara eluatet.

2. 5 ' slut fosforylering och DNAS behandling

Tillsätt 5 µL polynucleotide kinase buffert, 5 µL 10 mM ATP, 1 µL ribonukleasinhibitor, 1 µL DNAS och 2 µL polynucleotide kinase till prover och inkubera vid 37 ° C för 30 min. Alternativt förbereda master reaktionsmixar i hela protokollet genom att blanda 1.1 volymer x n (n = antal prover) för varje komponent.
Ändra buffert och ta bort ATP på en spinn-kolumnen för att förhindra poly(A) tillägg i nästa steg.
1. Prespin spin-kolumner vid 735 x g i 1 min. överföra kolumnerna till nya 1,5 mL injektionsflaskor och ladda kinase reaktionerna på kolumnerna. Spin kolumnerna 2 min på 735 x g. Kassera kolumnerna och placera rören med samlade reaktioner på is eller förvaras vid -80 ° C.

3. Blockerar 3 ' slutar med Cordycepin trifosfat

Obs: det är viktigt att blockera 3 ' ändarna av RNA fragment att undvika deras concatemerization i den efterföljande ligering reaktioner. 3 ' ändar som inte redan blockeras av en ( cyklisk) fosfat efter hydrolys behandlas genom tillsats av en 3 ' dATP (cordycepin trifosfat) kedja terminator nukleotid med hjälp av poly(A) polymeras. Här, användes jäst poly(A) polymeras (yPAP), som var uttryckt och renat som beskrivs i ⁸ vid en koncentration av 0,5 mg/mL. Jäst eller E. coli PAP båda har nästan samma aktivitet för tillägg av 3 ' dATP och kan köpas kommersiellt (se tabell av materialen).

Lägg till 13,5 µL 5 x koncentrerad poly(A) polymeras reaktion buffert, 2 µL 10 mm 3 ' dATP, 1 µL RNase inhibitor och 1 µL poly(A) polymeras att reaktionen från steg 2.2.1. Mix och spin för 1 s. Inkubera vid 37 ° C i 30 min. Lägg till 32,5 µL H ₂ O till varje reaktion. Rena RNA som i steg 1.10.1. Eluera RNA med 14 µL H ₂ O.

4. Ligering av omvänd 3 ' adaptrar till 5 ' slutet av RNA fragment

Placera reaktionerna i ett vakuum fönmunstycke för 10 min att minska volymen till 6 µL. Add 3 µL 10 x T4 RNA ligering buffert, 3 µL 10 mM ATP , 15 µL PEG-8000, 1 µL RNase inhibitor, 1 µL 0,1 mM omvänd komplement 3 ' adapter " revRA3 " (se tabell av material) och 1 µL hög koncentration RNA ligase 1, blanda.
Inkubera reaktionerna vid 24 ° C i 16 h på en uppvärmd mixer med intermittent blandning vid 1000 rpm. Lägga till 70 µL H ₂ O i varje reaktion och blanda. Rena RNA som i steg 1.10.1. Eluera RNA med 14 µL H ₂ O. prover kan lagras vid-80 ° C vid denna tidpunkt.

5. Omvänd Transkription (RT)

plats i eluat i ett vakuum fönmunstycke för 3 min att minska volymen till 11 µL. överföring reaktioner till 200 µL PCR-rör. Lägg till 1 µL 0,05 mM RT primer " Bio-dU-dT25 ". Värme i 5 min vid 70 ° C i en PCR-apparat och lämna vid RT för 5 min.
Lägg till 1 µL 10 mM dNTP, 4 µL 5 x omvänt transkriptas buffert, 1 µL 0,1 M DTT, 1 µL RNase inhibitor och 1 µL omvänt transkriptas. Blanda och värma reaktionerna i 10 min till 55 ° C och 10 min till 80 ° C i en PCR-apparat. Hålla på is eller vid-80 ° C för längre lagring.

6. Uppslutning med Uracil DNA glykosylas enzym Mix

Pipettera 100 µL streptividin-pärlor i ett 1,5 mL injektionsflaska, Återsuspendera i 800 µL biotin bindande buffert och placera på en magnetisk rack. Invertera rör 2 - 3 gånger. Ta bort bufferten när klart. Upprepa detta tvätt. Återsuspendera pärlorna i 200 µL biotin bindande buffert.
Lägg till omvänd Transkription reaktion till pärlor lösningen och inkubera 20 minuter vid 4 ° C på en roterande hjul. Tvätta pärlor 2 x med biotin bindande buffert som i steg 6,1 och 2 x med tio buffert på en magnetisk rack. Återsuspendera pärlorna i 50 µL tio buffert, tillsätt 2 µL Uracil DNA glykosylas enzym mix och inkubera 1 h vid 37 ° C i en mixer med intermittent blandning.
Lägga till 50 µL H ₂ O, 11 µL av RNase H buffert och 1 µL RNase H på reaktionerna. Inkubera vid 37 ° C i 20 min. plats rören på en magnetisk rack och överför vätskan som innehåller den klyvs cDNA till en ny tub
rena den klyvs cDNA.
1. Lägg till 550 µL buffert PB från PCR-rening kit till klyvning reaktionerna. Tillsätt 10 µL av 3 M natriumacetat, pH 5.2 att sänka pH. Ladda reaktionerna på minimal eluering spin kolumner och snurra vid 17 000 x g i 1 min.
2. Lägg till 750 µL buffert PE till kolumner och spinn vid 17 000 x g i 1 min. Kassera genomflöde. Snurra kolumnerna vid 17 000 x g för 1 min torka. Flytta kolumner till en 1,5 mL injektionsflaska, tillsätt 16 µL H ₂ O och snurra vid 17 000 x g i 1 min. Placera reaktionerna i en vakuum koncentrator i 8 min att koncentrera till en volym på 7 µL.

7. Ligering av 5 ' adaptrar till 5 ' ändarna av cDNA

till den isolerade cDNA, tillsätt 3 µL 10 x T4 RNA ligase 1 buffert, 3 µL 10 mM ATP, 15 µL PEG-8000, 1 µL 50 µM " revDA5 " oligo , och 1 µL hög koncentration T4 RNA ligase 1. Inkubera vid 24 ° C under 20 h. lägga 70 µL H ₂ O till varje reaktion. Prover kan förvaras vid-20 ° C vid denna tidpunkt.

8. Pilot PCR, förstärkning av bibliotek och storlek urval

i en pilot reaktion, fastställa det optimala antalet PCR cykler för att nå bibliotek förstärkning inom den exponentiella fasen.
1. Pipettera 25 µL DNA-polymeras mix, 20 µL ligering reaktion, 2 µL H ₂ O, 1,5 µL 10 µM framåt PCR-primer (RP1) och 1,5 µL 10 µM omvänd PCR index primer i 200 µL PCR-röret.
2. Kör apparat med följande program: 3 min 95 ° C, följt av 20 cykler av 20 s 98 ° C, 20 s 67 ° C och 30 s 72 ° C. samla 7 µL portioner efter 6, 8, 10, 12, 14, 16 och 18 cykler direkt från apparat. Tillsätt 1 µL 10 x laddar buffert (50% glycerol, 0,05% xylen cyanol). Obs: Följ rekommendationerna från leverantören om använder multiplexing när man kombinerar streckkoder.
3. Separata produkter i små platser på en 2% agarosgel i 1 x TBE buffert innehållande en 1:10, 00 utspädning av fluorescerande grön dye.
  1. Belastning portioner på en 2% agaros gel och kör gelen vid 100 volt 15 min. visualisera migration av PCR-produkter på en geldokumentationssystem.
Använda antalet cykler i början av exponentiell amplifiering i pilot reaktionen för en storskalig PCR-reaktion med två gånger volymerna som används för pilot reaktionen ( figur 2).
1. För storskaliga PCR-reaktioner, koncentrera och avsalta reaktionerna först med en PCR-rening kit och separata produkter på brett slots på 2% agaros gel i 1 x TBE buffert.
Klippa ut gel skivor som innehåller 200-350 nt DNA produkter. Smält gelen i chaotropic bufferten på RT för upp till 30 min. Extrahera DNA från gel skivor med en gel extraction kit. Värm inte till 50 ° C att förhindra partiskhet i bindningen av A-rika DNA ⁹.
Skicka för sekvensering.
Obs: Vanligtvis 50 cyklar single-Läs (SR50) är tillräcklig (se, för t.ex., https://www.illumina.com/technology/next-generation-sequencing.html).

9. Behandling av uppgifter

Obs: resulterande sekvensering uppgifterna (i fastq format) behandlas med mjukvaran tillgänglig i gitlab databasen (https://git.scicore.unibas.ch/zavolan_public/A-seq2-processing). Analysen omfattar fyra huvudsakliga steg: (1) Ladda ner git databasen, (2) installation av en virtuell miljö (3) inställning specifika parametrar i konfigurationsfilen och (4) starta analysen genom ‘ snakemake ’ ¹⁰. hela analysen görs i steg 4 kräver endast ett enda kommando. En detaljerad steg för steg beskrivning av analysen kan hittas i filen README i gitlab databasen och en kort beskrivning finns nedan. Alla enskilda bearbetningssteg är fulländad vid utförandet av allmänt tillgängliga verktyg, antingen från externa källor eller förberett internt. Computational rörledningen är beroende av en anaconda-baserade ¹¹ python 3 virtuell miljö med snakemake paketet tillgängliga ¹⁰. Det körs på datorer med Unix-liknande operativsystem och testades i en Linux-miljö med CentOS 6.5 arbetsdrift systemet installerat och 40 GB RAM tillgängligt. Programvaruberoenden styrs automatiskt inom den virtuella miljön. Följande offentligt tillgänglig programvaruverktyg krävs och därmed installeras tillsammans med miljön: snakemake (v3.9.1) ¹⁰, fastx toolkit (v0.0.14) ¹², STAR (v2.5.2a) ¹³, cutadapt (v1.12) ¹⁴, samtools (v1.3.1) ¹⁴ ^, ¹⁵, bedtools (v2.26.0) ¹⁶ ^, ¹⁷.

Data förbehandling från läsningar till cDNAs
Obs: sekvensering djupet kan variera mellan körningarna och, beroende på instrumentet, kan data från ett prov delas upp över flera följd filer. Om så är fallet, sammanfoga filer som motsvarar ett prov till en input fil som används i följande steg.
1. Konvertera filen från fastq till fasta format.
2. Extrakt läser med rätt struktur (3 thymidines i position 5, 6 och 7 av Läs).
  Obs: En läsning som är korrekt upprättad enligt den experimentellt protokoll som beskrivs ovan bör ha struktur (från 5 ' slutet): 4-nukleotid barcode - 3 thymidines - omvänd komplement av avskrift 3 ' slutet.
3. Lagrar information om den börjar tetramer i Beskrivningsraden av sekvensen.
  Obs: Tetramer fungerar som en unik molekylär identifierare (UMI) som underlättar korrigeringen av förstärkning artefakter senare i analysen.
4. Ta bort de första sju nukleotiderna från Läs ' s 5 ' slutet.
5. Korrigera för amplifiering artefakter genom att hålla bara en kopia av läser med samma infoga sekvens och UMI.
6. Ta bort delen av 3 ' slutet som matchar adaptern sekvens och sedan omvänd komplement sekvensen. Bara gå vidare med läser som har en minsta längd (standard: 15 nt).
  Obs: beroende på längden på det ursprungliga mRNA-fragmentet och antalet sekvensering cykler, 3 ' slutet av Läs kan innehålla en del av 3 ' adapter som tas bort i det här steget.
Extrahera alla läsningar som uppfyller följande kriterier: maximalt 2 okänd nukleotider (' N '), maximalt 80% som och sista nukleotid av Läs inte A. Dessa läsningar anses vara av tillräcklig kvalitet för att användas i analysen.
Mappa läser till genomet med ett verktyg som hanterar skarvade läsningar och skapar en utdatafil i BAM format.
1. Om STAR används, skapa en fil med index för genomet som läser ska mappas. För det mänskliga genomet, detta steg kräver 35 GB av minne (RAM).
2. Mappa läser till genomet.
  Obs: (STAR-specifika anteckningar) mjuk-klippning är inaktiverad för att tvinga kartläggningen av 3 ' slutet av varje läsa eftersom detta är nukleotid omedelbart uppströms webbplatsen klyvning.
Konvertera BAM till en säng-fil. Om en läsa kartor till flera platser, hålla bara de med den lägsta redigera avstånd.
Obs: Kopiera antalet Läs mappas på en viss plats används som poäng. Läsningar som mappas till flera platser räknas fraktionellt på varje plats med en vikt som är lika med 1/Antal platser som en läsa kartor.
Kollaps läsningar som varierar mellan ett sannolikt sekvensering fel. Om två distinkta läsningar mappar till samma plats (start och slut position mappningar är identiska) och de delar samma UMI, betrakta dem som PCR dubbletter och hålla bara en.
Härleda alla enskilda pre-mRNA 3 ' avsluta bearbetning platser.
Obs: En enskild läsning ger belägg för en 3 ' slut när dess sista fyra nukleotider mappas till genomet utan fel. Ståndpunkten som 3 ' slutet av Läs kartorna lagras som klyvning hemsida.
Identifiera 3 ' slut webbplatser som kan ha sitt ursprung från interna priming. Definiera platsen som interna priming artefakt när 10 nt nedströms av webbplatsen klyvning i genomet uppfyller ett av följande kriterier: innehåller fler än sex som innehåller sex på varandra följande som eller börjar med en av de följande tetramers: AAAA, AGAA, AAGA, AAAG .
Generera en tabell av enskilda 3 ' avsluta bearbetning platser i säng format.
Identifiera reglerat självständigt poly(A) webbplats kluster.
Obs: Steg som beskrivs här följa det förfarande som introducerades i en föregående offentliggörande ⁵.
1. Starta genom att samla enskilda 3 ' avsluta bearbetning platser som erhölls i samtliga prover av studien.
2. Kommentera kända poly(A) signaler ⁷ i regionen i -60 till + 10 nukleotider runt varje individuell 3 ' slutet bearbetning hemsida.
3. Identifiera poly(A) platser uttryckte över bakgrunden i varje prov som följer.
  1. Sortera webbplatser efter deras råa uttryck inom det aktuella provet. Bläddra i listan över platser från topp till botten, associera lägre rankade webbplatser med en högre rankad webbplats om de ligger i en fördefinierad sträcka i genomet (standard: 25 nt upp - eller nedströms) från webbplatsen högrankade.
    Obs: Alla lågrankade platser associerade med en högt uppsatt webbplats definiera ett kluster vars uttryck är antalet läsningar som dokumenterar alla dessa webbplatser.
  2. Sortera dessa kluster av uttryck och korsa listan över kluster från högsta till lägsta uttryck, att fastställa det uttryck tröskel c där andelen frögyttringar med en kommenterad poly(A) signalera sjunker under en fördefinierad tröskel ( standard: 90%).
  3. Kasta platser från valfri kluster nedan cutoff.
4. Kluster tätt placerade 3 ' avsluta platser erhålls över prover.
  Obs: Sortera 3 ' slutet behandlar platser först antalet stödja prover och sedan med summan av de normaliserade läsningar (läser miljon (RPM)) över prover. Gå igenom listan från topp till botten, associera lägre rankade webbplatser med högre rankade webbplatser när deras avstånd till webbplatsen högre-rank inte är större än en fördefinierad gräns (standard: 12 nt). När någon av de som utgöra 3 ' slutet webbplats överlappar en kommenterad poly(A) signal eller har en poly(A) signal direkt nedströms, motsvarande klustret har markerats för ytterligare inspektion att upptäcka interna priming.
5. Dokument poly(A) site kluster.
  Obs: När ett kluster markeras som en förmodad inre priming kandidat, det är antingen samman till en nedströms klustret om de två kluster delar deras poly(A) signaler eller behållas om webbplatsen mest nedströms i klustret har poly(A) signal ligger på minst avstånd uppströms (standard: 15 nt). Slutligen, tättliggande kluster slås samman om: (i) de delar de samma poly(A) signal(s), eller (ii) spännvidd av resulterande klustret inte överstiger maximalt (standard: 25 nt).
6. Lagra kluster i säng-filformat med den totala normaliserade läsningar från alla 3 ' avsluta platser i varje kluster som poäng.

Representative Results

Poly (A)-som innehåller RNA isolerades från odlade celler, fragmenterad av alkalisk hydrolys och cDNAs var gjorda av omvänd Transkription med oligo(dT) grundfärger. Den resulterande cDNA var orörlig på streptividin pärlor och dU var klyvs i uracil specifika excision reaktionen, adaptrar var sammanskrivna till 5' 3' ände klyvs fragmentet och skären var sekvenserade. Figur 1 visar en grafisk översikt över experimentet.

För HeLa och HEK293 celler var 10⁶ celler tillräcklig för att identifiera poly(A) platser för den stora majoriteten av protein-kodande gener i slutet av förfarandet. Men för andra typer av celler eller vävnader som det kan vara nödvändigt att testa mättnaden i antalet identifierade poly(A) webbplatser som antalet celler som används i experimentet ökar. Representativa resultat av pilot PCR steg och av DNA-fragment analys av provet innan sekvensering visas i figur 2.

Figur 3 visar Pre-processing steg i den computational analysen, start från filen fastq erhålls från sequencer och slutar med den kvalité-kollade, adapter-trimmade läser som är redo att mappas till genomet. Figur 4 visar analys steg som börjar med kartläggningen av läser till motsvarande genomet och slutet med katalogen av mRNA 3' slutet bearbetning platser som identifieras i ett särskilt prov. När flera prover analyseras, utförs ytterligare steg att matcha 3' slutet bearbetning platser som hittades i enskilda prover och rapportera sitt överflöd över prover. Stegen visas i figur 5.

Således när prover har varit sekvenserade, är analys av den resulterande sekvensering läsa filer (i fastq format) genom tillgängliga bearbetningen rörledningen okomplicerad. Efter att informationen om proverna till konfigurationsfilen, utförandet av rörledningen kommer att resultera i två huvudsakliga typer av utdatafiler: 1) säng-filer med alla 3' avsluta bearbetning platser identifieras i enskilda prover (t.ex ”. sample1.3pSites.noIP.Bed.gz ”), och 2) en säng-fil med alla poly(A) webbplats kluster (clusters.merged.bed) över alla prover av studien. I utdata ingår också genomet koordinaterna för alla läsningar från varje enskilt prov (t.ex. ”sample1. STAR_out/Aligned.sortedByCoord.out.BAM ”) som kan senare ses i en genomet webbläsare som IGV¹⁶. Visuell inspektion av den Läs profiler ger i allmänhet en första glimt av fördelningen av poly(A) platser i arvsmassan och de förändringar som sker på de specifika störningar som genomfördes i studien. Till exempel i figur 6 visas svaret av en specifik gen till den knock-down av proteinet HNRNPC.

Sammanfattningar av dessa genome-wide distributioner finns också (tabell 1). Specifikt, utdatafiler i katalogen ”räknas/annotation_overlap” innehåller bråkdelar av platser som överlappar med kommenterad särdrag (från gtf filen anges som indata, kommenterade är: 3' UTR, terminal exon, exon, intron, intergenic). Slutligen, för varje prov, resultat av enskilda bearbetningssteg sparas också (e.g. ”sample1.summary.tsv”). Detta inkluderar antalet: raw-läsningar i varje prov, läser som har 5' slutet förväntade struktur, läsningar som återstår efter kollapsar hela PCR dubbletter, högkvalitativa läser enligt de kriterier som definieras i steg 9.2, läser kartan unikt att genomet (efter kollapsar de som resulterade från sekvensering fel, se steg 9,5), multi mappning läser (efter kollapsar de som resulterade från sekvensering fel, se steg 9,5), rå (inte klustrade) 3' slutet bearbetning platser i varje prov, rå 3' ände bearbetning platser utan potentiella inre priming kandidater, unik 3' avsluta bearbetning platser från alla prover utan inre priming kandidater och slutgiltig uppsättning poly(A) webbplats kluster.

Figur 1: Main steg av protokollet A-seq2. Enskilda steg anges till vänster i figuren. Infoga RNA fragment skildras som gröna linjer som blir röda för cDNA efter omvänd Transkription; adaptrar är färgade i ljus blå eller orange. Klicka här för att se en större version av denna siffra.

Figur 2: Pilot PCR och slutprodukten profil. (en) alikvoter av PCR-reaktionen samlades på olika cykler och åtskilda på 2% agaros gel. Siffrorna till vänster anger storleken i nukleotider av respektive banden i den DNA-stegen. I detta experiment valdes 12 cykler (*) för storskaliga PCR-reaktionen. (b) exempel på ett prov efter storlek urval kör på ett fragment storlek analyzer avslöjar en genomsnittlig storlek på cirka 280 nukleotider. Siffrorna till vänster [FU] anger relativa signalintensitet. Klicka här för att se en större version av denna siffra.

Figur 3: Skissera av förbehandling av sekvensering läsningar. De fastq filerna med läsningar som genereras av programvaran instrument-associerade sekvensering bearbetas för att identifiera hög kvalitet läsningar som ska mappas till motsvarande genomet. Figuren visar indata/utdata specifikationen av enskilda steg i pipeline, med länkar till de enskilda stegen i det protokoll som beskrivs i avsnittet ”databehandling”. Klicka här för att se en större version av denna siffra.

Figur 4: Skissera av sekvens Läs bearbetning, från steg av kartläggning att genomet till generation av enskilda 3' slutet bearbetning webbplatser. Figuren visar indata/utdata specifikationen av enskilda steg i pipeline, med länkar till iindividuella stegen av det protokoll som beskrivs i avsnittet ”databehandling”. Huvudsakliga utdatafilen som levereras till användaren är markerade i fetstil. Klicka här för att se en större version av denna siffra.

Figur 5: Sammanfattning av de åtgärder som vidtas för att generera kluster av samtidig reglerade 3' slutet sekvensering platser. Figuren visar indata/utdata specifikationen av enskilda steg i pipeline, med länkar till de enskilda stegen i det protokoll som beskrivs i avsnittet ”databehandling”. Huvudsakliga utdatafilen är markerade i fetstil. Klicka här för att se en större version av denna siffra.

Figur 6: exempel på resultat av profilen för 3' avsluta bearbetning läser längs den terminal exon av NUP214 genen, visat i IGV ¹⁶ genomet webbläsaren. A-seq2 läsningar var beredda från två prover av HEK 293 celler, med en kontroll-siRNA eller med en HNRNPC siRNA behandlade. Den läser som dokumenterade poly(A) webbplatser som blev kommenterad av rörledningen analys sparades i BAM format som användes som underlag till IGV genomet webbläsaren. 3' ände Läs topparna mappa till mRNA 3' ändar som är kommenterad i häckning. Profilerna indikerar en ökad användning av den långa 3' UTR isoformen vid HNRNPC knock-down. Klicka här för att se en större version av denna siffra.

	Si-Control replikera 1	Si-Control replikera 2
	ID: 29765	ID: 32682
antal raw-läsningar	44210258	68570640
antal giltiga läser efter putsning och filtrering	14024538	21211793
antalet unikt mappa läsningar	6953674	13946436
antal läsningar mappning till flera loci	2040646	2925839
antal enskilda 3' slut bearbetning platser	1107493	1710353

Tabell 1: exempel utdata av rörledningen analys. Sammanfattningar av läsningar som erhölls vid enskilda stegen.

Discussion

Många core och extra faktorer som är inblandade i pre-mRNA 3' slutet bearbetning återspeglas i ett motsvarande komplexa polyadenylation landskap. Dessutom, är polyadenylation också lyhörd för förändringar i andra processer såsom transkription och skarvning. 3' slutet klyvning platser i pre-mRNA identifieras vanligtvis utifrån karakteristiska poly(A) svansar som läggs till sönderdelningsprodukterna 5'. De flesta metoder använda oligo(dT) primers av variabel längd som tillåter specifika omvandlingen av poly (A)-som innehåller mRNA till cDNAs i en omvänd Transkription reaktion. Ett vanligt problem med denna metod är interna priming till A-rika sekvenser som leder till artefaktiska klyvning platser. Två metoder som syftar till att kringgå denna artefakt i skedet av provberedning har föreslagits. 3P-seq metod ¹, är adaptrar specifikt sammanskrivna till ändarna av poly(A) svansar med hjälp av en bettskena oligo följt av partiell RNase T1 matsmältningen och omvänd Transkription med TTP i reaktionen som den enda deoxynucleotide. De resulterande poly(A)-poly(dT) heteroduplexer rötas sedan med RNase H och återstående RNA fragment är isolerade, sammanskrivna till adaptrar och sekvenserade. En enklare och elegant metod, 2P-seq, som använder en anpassad sekvensering primer hoppa över de återstående oligo(dT) stretch i den sekvensering reaktionen rapporterades av samma författare ². I en relaterad metod, 3' läser ³, en ovanligt lång primer 5 oss och 45 Ts, som också innehåller en biotin är glödgas fragmenterade RNA, följt av stränga tvättar du väljer för RNA-molekyler med poly(A) svansar av över 50 nukleotider. Även om 3' läser drastiskt minskar frekvensen av interna priming, eliminerar det helt inte det ³. Protokoll för direkta RNA-sekvensering har också föreslagits, men den resulterande läser är korta och har en hög frekvens av fel och detta tillvägagångssätt har inte varit vidare utvecklade ¹⁸^,¹⁹^,²⁰. Den PolyA-Seq och protokollen kommersialiserade Quant Seq kombinerar oligo(dT) baserat grundningen med en random priming steg för cDNA andra strand syntes ²⁰. Användning av mallen switch omvänd Transkription reaktionen med det Moloney murina leukemi Virus (MMLV) omvänt transkriptas leder till generationen cDNAs med linkers i ett enda steg och därmed ingen adapter dimerer kan visas i PAS-Seq och SAPAS metoder ²¹ ^, ²².

A-seq2 metoden presenteras här sticker ut i dess nyttjande av en cleavable nucleotide (dU) inom en biotinylerade oligo(dT) primer. Denna ändring kombinerar nyttan av berikande oligo(dT) hybridiseras, polyadenylated mål med avlägsnande av de flesta av oligo (dT)₂₅ sekvensen från isolerade fragment innan bibliotek är beredda och bevarandet av tre Ts, som Ange tidigare förekomst av poly(A) svansen. Metoder som utnyttjar RNase H ta bort poly(A) från de RNA-molekylerna slumpmässigt lämnar däremot flera som. Sedan i A-seq2, sekvensering är gjort från 3' ände anti känsla trådar, förutsägs klyvning platser ska placeras efter NNNNTTT motivet i början av rå sekvens läsningar. De randomiserade tetramers tjäna inte bara att tillåta bas ringer men också i elimineringen av PCR-amplifiering artefakter. Längre UMIs ryms också. Möjligheten till intern priming kvar i A-seq2 och riktar computationally, först genom att kasta 3' slutar med en genomiskt-kodade, A-rika nedströms sekvens och sedan kasta 3' slutet kluster som kunde förklaras av interna grundning på den A-rika poly(A) signal själv. En färsk analys av poly(A) platser innebäras unikt av ett stort antal protokoll anger att de webbplatser som är unika för A-seq2 har beräknade nukleotid distribution och läge inom gener, liknar andra 3' avsluta sekvensering protokoll.

Ett avgörande steg i A-seq2 är för urval av polyadenylated RNA och borttagning av ribosomalt RNA och olika små RNAs. Detta görs lättast genom en mRNA-isolering kit med oligo (dT)₂₅ magnetiska pärlor. I princip ger total-RNA isoleras med fenol innehållande lösningar också hög kvalitet RNA som ytterligare kan utsättas för urval av mRNA-isolering kit eller oligo (dT) agaros. Ett steg som kan varieras i A-seq2 är behandling med alkalisk hydrolys som kan förkortas eller förlängas för att erhålla RNA fragment av olika storlekar. Kritisk är också att tillägg av 3' dATP 3' ändarna på RNA fragment av poly(A) polymerasen är effektiv. I protokollet som beskrivs här, är denna behandling tillämpas alla RNA fragment, att undvika concatemerization under ligering reaktionen. Avslutningsvis noterar vi att även om RNA ligase 1 används normalt som en RNA-ligase, det också ligates effektivt enda stranded DNA, som vi har gjort här för att ligera en adapter till 5' slutet av cDNA molekylerna.

Sålunda, A-seq2 är en effektiv och lätt att genomföra protokollet för identifiering av pre-mRNA 3' slutet bearbetning platser. Framtida utvecklingen skulle kunna omfatta ytterligare minska komplexiteten i protokollet och mängden material som behövs. Den associera uppsättningen computational dataanalysverktyg ytterligare aktivera homogen bearbetning av 3' slutet sekvensering läsningar som erhålls med ett brett utbud av protokoll.

Disclosures

Författarna har något att avslöja.

Acknowledgments

Författarna tacka fru Béatrice Dimitriades för hjälp med cellkulturen. Detta arbete stöddes av den schweiziska National Science Foundation bidrag nr 31003A_170216 och 51NF40_141735 (NCCR RNA & sjukdom).

Materials

Name	Company	Catalog Number	Comments
Materials
Agarose, ultra pure	Invitrogen	16500-500
2100 Bioanalyzer	Agilent	G2940CA
Cordycepin triphosphate (3’ dATP)	SIGMA	C9137
DNA low bind vials, 1.5 ml	Eppendorf	22431021
Dulbecco’s Phosphate Buffered Saline	SIGMA	D8637
Dynabeads mRNA-DIRECT Kit	Ambion	AM61012
GR-Green dye	Excellgen	EG-1071	use 1:10,000 dillution
HiSeq 2500 or NextSeq 500 next generation sequencers	Illumina	inquire with supplier
KAPA HiFi Hotstart DNA polymerase mix	KAPA/Roche	KK2602
Nuclease free water	Ambion	AM9937
Poly(A) polymerase, yeast	Thermo Fisher Scientific	74225Z25KU
Poly(A) polymerase, E.coli	New England Biolabs	M0276L
Polynucleotide kinase	Thermo Fisher Scientific	EK0032
QIAEX II Gel Extraction Kit	Qiagen	20021
QIAquick PCR Purification Kit	Qiagen	28104
QIAquick Gel Extraction Kit	Qiagen	28704
RNA ligase 1, high concentration	New England Biolabs	M0437M	includes PEG-8000
RNeasy MinElute RNA Cleanup kit	Qiagen	74204
RNase H	New England Biolabs	M0279
RNasin Plus, ribonuclease inhibitor	Promega	N2618
Superscript IV reverse transcriptase	Thermo Fisher Scientiific	18090050
Turbo DNase	Ambion	AM2238
USER enzyme mix	New England Biolabs	M5505
Dyna-Mag-2 magnetic rack	Thermo Fisher Scientific	12321D
Thermomixer C	Eppendorf	5382000015	Heated mixer with heated lid
MicroSpin columns	GE-Healthcare	27-5325-01
Name	Company	Catalog Number	Comments
Buffers
Alkaline hydrolysis buffer, 1.5 x			Mix 1 part 0.1 M Na2CO3 and 9 parts 0.1 M NaHCO3. Add EDTA to 1 mM. Adjust pH to 9.2. Store aliquots at -20 °C.
5x poly(A) polymerase buffer	Thermo Fisher Scientiific		100 mM Tris-HCl, pH 7.0, 3 mM MnCl2, 0.1 mM EDTA, 1 mM DTT, 0.5 mg/ml acetylated BSA, 50% glycerol
Biotin binding buffer			20 mM TrisCl pH 7.5, 2 M NaCl, 0.1% NP40
TEN buffer			10 mM TrisCl, pH 7.5, 1 mM EDTA, 0.02% NP40
Name	Company	Catalog Number	Sequence
Oligonucleotides according to Illumina TruSeq Small RNA Sample Prep Kits, for GA-IIx and Hiseq2000/2500 sequencers	Microsynth
revRA3 (RNA)	Microsynth		5’ amino CCUUGGCACCCGAGAAUUCCA 3’
revDA5	Microsynth		5’ amino GTTCAGAGTTCTACAGTCCGAC GATCNNNN-3’
Bio-dU-dT25, RT primer	Microsynth		5' Biotin-TTTTTTTTTTTTTTTTTTTTTTTTTT-dU-TTTVN 3' (V = G, A or C)
PCR primer forward, RP1	Microsynth		5' AATGATACGGCGACCACCGAGA TCTACACGTTCAGAGTTCTACAG TCCGA 3'
PCR primer reverse, RPI1, barcode in bold	Microsynth		5' CAAGCAGAAGACGGCATACGAG ATCGTGATGTGACTGGAGTTCCT TGGCACCCGAGAATTCCA 3'
Name	Company	Catalog Number	Comments
Oligonucleotides according to Illumina TruSeq HT-Small RNA Sample Prep Kits, for HiSeq2000/2500 and NextSeq500 sequencers
HT-rev3A (DNA/RNA)	Microsynth		5'-amino-GTGACTGGAGTTCAGACGTGTG CTCTTCCrGrAUrC-3'
HT-rev5A	Microsynth		5' amino-ACACTCTTTCCCTACACGACGCT CTTCCGATCTNNNN 3'
Bio-dU-dT25, RT primer	Microsynth		5' Biotin-TTTTTTTTTTTTTTTTTTTTTTTTTT-dU-TTTVN 3'
PCR primers forward (D501-506)	Microsynth or Illumina		5'-AATGATACGGCGACCACCGAGAT CTACAC[i5]ACACTCTTTCCCTACA CGACGCTCTTCCGATCT -3'
PCR primers reverse (D701-D712)	Microsynth or Illumina		5'-CAAGCAGAAGACGGCATACGAG A[i7]GTGACTGGAGTTCAGACGTG TGCTCTTCCGATC-3'
Documentation for Illumina multiplexing:	Illumina		https://support.illumina.com/content/dam/illumina-support/documents/documentation/chemistry_documentation/experiment-design/illumina-adapter-sequences_1000000002694-01.pdf

DOWNLOAD MATERIALS LIST

References

Jan, C. H., Friedman, R. C., Ruby, J. G., Bartel, D. P. Formation, regulation and evolution of Caenorhabditis elegans 3'UTRs. Nature. 469 (7328), 97-101 (2011).
Spies, N., Burge, C. B., Bartel, D. P. 3' UTR-isoform choice has limited influence on the stability and translational efficiency of most mRNAs in mouse fibroblasts. Genome Res. 23 (12), 2078-2090 (2013).
Hoque, M., Ji, Z., et al. Analysis of alternative cleavage and polyadenylation by 3' region extraction and deep sequencing. Nat. methods. 10 (2), 133-139 (2013).
Martin, G., Gruber, A. R., Keller, W., Zavolan, M. Genome-wide analysis of pre-mRNA 3’ end processing reveals a decisive role of human cleavage factor I in the regulation of 3' UTR length. Cell Rep. 1 (6), 753-763 (2012).
Gruber, A. R., Martin, G., et al. Global 3' UTR shortening has a limited effect on protein abundance in proliferating T cells. Nat. Commun. 5, 5465 (2014).
Kivioja, T., Vähärautio, A., et al. Counting absolute numbers of molecules using unique molecular identifiers. Nat. methods. 9 (1), 72-74 (2011).
Gruber, A. J., Schmidt, R., et al. A comprehensive analysis of 3' end sequencing data sets reveals novel polyadenylation signals and the repressive role of heterogeneous ribonucleoprotein C on cleavage and polyadenylation. Genome Res. 26 (8), 1145-1159 (2016).
Lingner, J., Keller, W. 3'-end labeling of RNA with recombinant yeast poly(A) polymerase. Nucleic Acids Res. 21 (12), 2917-2920 (1993).
Quail, M. A., Kozarewa, I., et al. A large genome center's improvements to the Illumina sequencing system. Nat. methods. 5 (12), 1005-1010 (2008).
Rahmann, S. Snakemake--a scalable bioinformatics workflow engine. Bioinformatics. 28 (19), 2520-2522 (2012).
Analytics, C. Anaconda Software Distribution. , Available from: https://continuum.io (2016).
Lab, H. FASTX-Toolkit - Hannon Lab. , Available from: http://hannonlab.cshl.edu/fastx_toolkit/index.html (2017).
Dobin, A., Davis, C. A., et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 29 (1), 15-21 (2013).
Martin, M. Cutadapt removes adapter sequences from high-throughput sequencing reads. EMBnet.journal. 17 (1), 10-12 (2011).
Li, H., Handsaker, B., et al. The Sequence Alignment/Map format and SAMtools. Bioinformatics. 25 (16), 2078-2079 (2009).
Robinson, J. T., Thorvaldsdóttir, H., et al. Integrative genomics viewer. Nat. Biotechnol. 29 (1), 24-26 (2011).
Quinlan, A. R., Hall, I. M. BEDTools: a flexible suite of utilities for comparing genomic features. Bioinformatics. 26 (6), 841-842 (2010).
Ozsolak, F., Platt, A. R., et al. Direct RNA sequencing. Nature. 461 (7265), 814-818 (2009).
Yao, C., Biesinger, J., et al. Transcriptome-wide analyses of CstF64-RNA interactions in global regulation of mRNA alternative polyadenylation. Proc. Natl. Acad. Sci. U. S. A. 109 (46), 18773-18778 (2012).
Lin, Y., Li, Z., et al. An in-depth map of polyadenylation sites in cancer. Nucleic Acids Res. 40 (17), 8460-8471 (2012).
Shepard, P. J., Choi, E. -A., Lu, J., Flanagan, L. A., Hertel, K. J., Shi, Y. Complex and dynamic landscape of RNA polyadenylation revealed by PAS-Seq. RNA. 17 (4), 761-772 (2011).
Fu, Y., Sun, Y., et al. Differential genome-wide profiling of tandem 3' UTRs among human breast cancer and normal cells by high-throughput sequencing. Genome Res. 21 (5), 741-747 (2011).

Biology

3' slutet sekvensering bibliotek förberedelser med A-seq2

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.