Denna metod användes i forskning rapporteras i Vallania FML et al. Genome Research 2010. 1. Exempel på Pooling och PCR Capture riktade genomiska Loci Kombinera en normaliserad mängd av genomiskt DNA från varje individ i en bassäng (er). Med 0,3 ng DNA per person per PCR-reaktion kommer att innehålla cirka 50 diploida genomen per person i varje PCR-reaktion, vilket förbättrar sannolikheten för enhetliga förstärkning per allelen i poolen. De genomiska sekvenser kan erhållas från NCBI ( http://www.ncbi.nlm.nih.gov/ ) eller UCSC Genome Browser ( http://genome.ucsc.edu/index.html ). Se till att använda "RepeatMasker" (markerat med "N") vid erhållande av sekvensen för att undvika att utforma en primer i en repetitiv region. Använd det webbaserade primer3 (rimer3/input.htm "target =" _blank "> http://frodo.wi.mit.edu/primer3/input.htm) verktyg för att utforma primers genom att klippa och klistra in genomregionema av intresse plus några flankerande sekvenser (amplikoner av 600-2000 BP är oftast idealiska) De optimala primer design förutsättningar för Primer 3 som skall användas är 10: Minsta primer size = 19; Optimal primer size = 25; Max primer size = 30; Lägsta Tm = 64 ° C; Optimum Tm. = 70 ° C, Max Tm = 74 ° C; Max Tm skillnad = 5 ° C; Lägsta GC-halt = 45; Högsta GC-halt = 80; Antal återvända = 20 (detta är godtyckligt), Max 3 'änden stabilitet = 100 . utforma primrar för att amplifiera alla genomiska lokus av intresse. Vid mottagande av primrar, kan de lyofiliserade lagren spädas i 10 mM Tris, pH 7,5 + 0,1 mM EDTA till en slutlig koncentration av 100 pM följt av en ytterligare 10:01 utspädning i ddHaO 2 O till 10 iM. PCR-amplifiering: Vi rekommenderar att du använder en high-fidelity DNA-polymeras för att förstärka stora genomiskaamplikoner på grund av den lägre felgrad (10 -7) och generering av trubbiga ändar produkter (detta är nödvändigt för den efterföljande ligeringen steg). Vi har använt PfuUltra High-Fidelity, men enzymer med liknande egenskaper (såsom Phusion) bör ge jämförbara resultat. Varje PCR-reaktion innehåller en slutlig koncentration av 2,5 U PfuUltra Hi-fi-polymeras, 1 M betain, 400 nM av varje primer, 200 pM dNTP, 1 x PfuUltra buffert (eller en buffert innehållande ≥ 2 mM Mg 2 + för att bibehålla enzymatisk återgivning) , 5-50 ng poolade DNA i en slutvolym av 50 jil. Använd följande PCR-villkor: 1. 93-95 ° C under 2 minuter, 2. 93-95 ° C under 30 sekunder, 3. 58-60 ° C under 30 sekunder; 4. 65-70 ° C under 60-90 sekunder för amplikoner av 250-500 bp / 1,5-3 minuter för amplikoner 500-1000 bp / 3-5 minuter för amplikoner> 1 kb, 5. Upprepa steg 2-4 för 25-40 cykler, 6. 65 ° C under 10 minuter; 7. 4 ° C håll. Om så erfordras, kan PCR-resultat typiskt förbättras genom: 1)sänka hybridiseringstemperaturen för små amplikoner, 2) öka härdningstemperaturen för stora amplikoner; 3. förlänga förlängningen tiden för alla amplicon. Framställning av Splinter kontroller: Varje försök SPLINTER kräver närvaro av en negativ och positiv kontroll för att erhålla optimal noggrannhet. En negativ kontroll kan bestå av alla homozygota bas positioner i varje enskild person, bar-kodade prov som tidigare har sekvenserats (t.ex. en HapMap prov). Den positiva kontrollen skulle då utgöras av en blandning av två eller flera sådana prover. För denna rapport är den negativa kontrollen en 1.934 bp förstärks region från ryggraden i M13mp18 ssDNA vektorn. PCR-produkten var Sanger sekvenserat före dess användning i syfte att bekräfta att ingen sekvensvariation föreligger från källmaterialet eller PCR-amplifiering. Den positiva kontrollen består av en panel av pGEM-T Easy-vektorer med en 72 bp klonas in konstruerad med specifika insertioner, deletioner substitutions (tabell 1). Vi blandar vektorerna tillsammans mot en vildtyp bakgrund på molförhållanden så att de mutationer som är närvarande vid frekvensen av en enda allel i poolen (dvs. för en 100-allel pool, kommer frekvensen av en enda allel vara 1%). Vi sedan PCR-amplifiera det blandade styrmallen med användning av M13 pUC primerställena i pGEM-T Easy, generera en slutlig 355bp långa PCR-produkten. 2. Poolad PCR Bibliotek Förberedelser och sekvensering PCR-produkten pooling: Varje PCR-produkten bör rengöras från överskott primers. Vi använde Qiagen Qiaquick kolumnen rening eller 96-och filter plattor med vakuumförgreningsrör för storskalig rengöring. Efter rening, bör varje PCR-produkt kvantifieras med hjälp av standardtekniker. Kombinera alla PCR-produkten (inklusive kontroller) i en pool normaliserad för molekyl nummer som sammanslagning genom koncentration kommer att leda till överrepresentation av små amplikoner ovEr större produkter. Koncentrationer omvandlas till det absoluta antalet av DNA-molekyler per volym med hjälp av formeln: (g / l) x (1 mol x BP / 660 g) x (1 / # bp i amplikon) x (6 x 10 23 molekyler / 1 mol ) = molekyler / | il. Vi bestämma då volymen av varje reaktion som krävs för att samla en normaliserad antalet molekyler per amplikon. Detta antal är godtyckligt, kan justeras och är beroende på pipettering av volymer stora nog för att upprätthålla noggrannhet. Vi förenar vanligtvis 1-2 x 10 10 molekyler av varje amplikon. Ligering av PCR-produkter: Detta steg är nödvändigt för att uppnå jämn sekvensering täckning som ultraljudsbehandling av små PCR-amplikoner kommer partiska sin representation mot sina ändar. För att övervinna detta ligera vi sammanslagna PCR-produkterna i stora konkatemerer (> = 10 Kb) före fragmentering. Pfu Ultra HF-polymeras genererar trubbiga ändar, vilket leder till effektiv ligering (en Taq-baserad polymeras kommer att lägga ett 3p "A" överhäng som inte enllow ligering utan föregående fylla i eller avtrubbning). Denna reaktion kan skalas upp 2-3 gånger om det behövs. Ligeringsreaktionen innehåller 10 U T4-polynukleotidkinas, 200 U T4-ligas, 15% vikt / volym polyetylenglykol, 1X T4 ligasbuffert, glykol 8000 MW, upp till 2 ^ g av sammanslagna PCR-produkter i en slutlig volym av 50 pl. Reaktionerna inkuberas vid 22 ° C under 16 timmar följt av 65 ° C under 20 minuter och hölls vid 4 ° C därefter. Framgången med detta steg kan kontrolleras genom att ladda 50 ng av prov till en 1% agarosgel. Framgångsrik ligering resulterar i en hög molekylvikt bandet närvarande i spår (se fig 2, spår 3). DNA-fragmentering: Vid det här laget bör du ha stora konkatemerer (> 10kb) av PCR-produkter. Vi har en slumpmässig ultraljudsbehandling strategi med hjälp av en 24-prov Diagenode Bioruptor sonikator som kan fragment av dessa konkatemerer i 25 minuter (40 sec "på" / 20 sec "off" per minut). Sonikering inhiberas av viskositeten som införts av PEG, såDetta kan lösas genom att späda provet 10:1 i Qiagen PB buffert. Resultaten kan kontrolleras på ett 2% agarosgel (se Figur 2, spår 4 och 5). Provet är färdigt att inkorporera direkt in i Illumina genombibliotek Provberedning protokoll börjar med "Slut Reparation"-steget. Uppgifterna redovisas här är från samma utgång läser på Illumina Genome Analyzer IIx, men vi har använt HiSeq 2000 och utförde enkla eller parade slut läser med jämförbara resultat. Med tanke på omfattningen av den skapade biblioteket har vi också använt anpassade Streckkodsformulär adaptrar för att multiplexa flera sammanslagna bibliotek för att rymma den bandbredd som tillhandahålls av HiSeq plattformen (data visas ej). Följ tillverkarens protokoll och rekommendationer som följer med satsen. För att uppnå optimal känslighet och specificitet för detektion varianten, målet täckning av 25-faldigt eller mer per allel rekommenderas (figur 3). Denna uppskattning är oberoende av pool storlekoch typ av variant som skall detekteras. Vid behov flera banor och löper kan kombineras för att nå tillräcklig täckning. 3. Sekvensering Läser Justering och analys Filkomprimering och formatering: Raw sekvensering läsa filer bör antingen omvandlas till HALSDUK format eller komprimerad. Komprimering är valfri eftersom det sparar tid och utrymme för den efterföljande analysen steg utan att förlora någon relevant information. Detta uppnås genom att använda den medföljande skriptet RAPGAP_read_compressor_v2.pl med följande kommando: ./RAPGAP_read_compressor_v2.pl [Läs file]> [Komprimerad läsa filen] Godkända läsa filen inmatningsformat är Scarf och FASTQ, antingen gzippas eller okomprimerad: HALSDUK format exempel: HWI-EAS440: 7:1:0:316 # 0/1: NTCGATTCACTGCCCAACAACACCAGCTCCTCTCCC: DNWUQSPWWWWUVVPVVWVVVUVVUUPUUWWWWWUW FASTQ format exempel: @ HWI-EAS440_7_1_0_410 # 0/1 NGTGGTTTCTTCTTTGGCTGGGGAGAGGAGCTGGTG + & / 8888888888888888888854588767777666! Raw läste Placering: råa läsningar kan nu anpassas till den kommenterade FASTA hänvisningen sekvens som är specifik för de riktade regioner som ingår i PCR-reaktioner, samt positiva och de negativa kontrollerna. Inriktningen kan utföras med användning av den inkluderade RAPGAPHASH5d justeringsredskapet. Informatet vid denna punkt måste vara HALSDUK eller komprimeras. Kommandot för inriktningen är: ./RAPGAPHASH5d [Komprimerad läsa filen] [FASTA file] [antal redigeringar tillåtna]> [Aligned fil] Antalet felpassningar per läsning som tillåts i jämförelse med referenssekvensen är en användardefinierad parameter. Reads som har ett överskott antalet felpassningar kommer att kasseras. Vi rekommenderar att tillåta 2 obalanser för 36 bp läsningar, 4 felpassningar för 76 bp läser och 5 obalans för 101 bp läser. Att tillåta fler obalans kommer att öka sannolikheten för tillåter överskott ordningsföljden fel i aligned data. Som läser längder fortsätter att bli längre, kan detta värde ökas ytterligare. Märkning linje filer från samma flödescellen: Vid det här laget hela inriktade läsa filen bör ges en unik identifierare ("tag") i syfte att identifiera läsa filer som hör till samma sekvensering körning (dvs. flera banor från samma flödescellen kan aggregeras och ges en enda tagg). Taggen är nödvändigt eftersom varje maskin körning genererar en unik felprofil som kan karakteriseras via taggen. En tagg är en alfanumerisk teckensträng används för att skilja en uppsättning läser (understreck "_" bör inte användas för att analysera frågor). Olika taggar ska användas för riktade läsa filer som genereras på olika flytcellerna eller serier maskin. Taggar kan läggas med den medföljande RAPGAP_alignment_tagger.pl med följande kommando: . / RAPGAP_alignment_tagger.pl [Aligned file] [TAG]> [alliansfria taggad fil] Efter denna punkt i linjefiler från samma bibliotek som genereras på flera olika flytcellerna kan kombineras tillsammans som deras respektive taggar kommer att hålla dem separerade. Fel modell generationen: Som nämnts ovan genererar varje maskin körning en unik profil av sekvensering fel som måste präglas för noggrann variant samtal. Att modellera dessa fel för varje maskin sikt är en intern kontroll-sekvens känd för att sakna sekvensvariation ingår i varje poolade prov bibliotek. Från taggade linje filen kan ett fel modell-fil genereras med hjälp av den medföljande verktyget EMGENERATOR4 med den negativa kontrollen referenssekvensen. Alla de negativa kontroll-sekvensen kan användas eller alternativt endast en delmängd av den, som anges av 5 'och 3' mest baser i ingången. Unik läser och pseudocounts ska alltid användas: ./EMGENERATOR4 [Justerad taggad fil] [negativ kontroll-sekvens] [utfil namn] [5 mest bas negativa kontrollen ska användas] [3 mest basden negativa kontrollen ska användas] [bl.a. unik läser bara? = Y] [inriktning ändringar cutoff] [ange pseudocounts? = Y] Den EMGENERATOR4 Verktyget genererar 3 filer samma namn som utdatafilen parametern name följt av _0, _1 eller _2. Dessa filer motsvarar en 0: e, 1: a och 2: a ordningens felmodellen respektive. För variant ringa med splitterskydd, bör 2: a ordningens felmodellen alltid användas. För att visualisera profil felprocenten för en körning, kan error_model_tabler_v4.pl användas för att generera en PDF fel tomt i 0:e beställning felmodellen fil (Figur 4): ./error_model_tabler_v4.pl [Fel modell 0:e orderfil] [utfil namn] Plotten fil kommer att avslöja inför specifika fel trender och kan användas för att härleda det maximala antalet lästa baser som skall användas för analysen, vilket förklaras i nästa avsnitt. 4. Sällsynt Variant detektering med användning av SPLINTER Variant callinwenchg genom SPLINTER: Det första steget i analysen är att köra SPLINTER verktyget på linje filen med felet modellen och referenssekvensen. Kommandot för att göra så är: ./SPLINTER6r [Justerad taggad fil] [FASTA file] [2: a för felmodellen file] [antal läst underlag som ska användas] [läs baser eller cykler som ska undantas] [p-värde cutoff = -1,301] [använda unika läsningar = Y] [inriktning ändringar cutoff] [pool storlek från de tillgängliga alternativen] [Skriv ut absoluta täckningen Per Strand = Y]> [SPLINTER fil] Antalet lästa baser som kan användas varierar och bör utvärderas efter varje körning. Vi rekommenderar generellt att använda de första 2/3rds av läs när de representerar den högsta kvaliteten data (första 24 läste grunden för en 36 bp långa läsa till exempel). Enstaka läs baser kan uteslutas från analysen om de befinns vara defekt (separerade med ett kommatecken eller N, t.ex. 5,7,11 eller N). P-värdet cutoff dikterar hur stränga varianten ringer analysen kommer att bli. Vi ellernormalt börja analysen genom att låta en minsta gräns på -1,301 (motsvarande ett p-värde ≤ 0,05 i log 10 skala). Poolen Storleken optimeras den algoritmer "signal-to-noise" diskriminering genom att eliminera eventuella varianter med mindre allelfrekvensema mindre än en enda allel i själva poolen. Till exempel i en pool av 50 individer, kan den lägsta observerade varianten förväntas vid 0,01 frekvens eller 1 i 100 alleler. Därför bör poolstorlek alternativet inställt på den närmaste värde som är större än det faktiska antalet alleler som analyseras i försöket (dvs. om 40 personer är tillfrågade räknar vi med 80 alleler så närmaste alternativet skulle vara en pool storlek 100) . Varianter kallas vid frekvenser <0,01 kommer då att ignoreras som brus. Denna fil returnerar alla träffar som är statistiskt signifikant över provet, med en beskrivning av läget för varianten, typ av variant, p-värde per DNA-strängen, frekvens varianten och den totala täckning per DNA-strängen ( <strong> Tabell 2). Normalisera täckning för de kallade varianter: Variationer täckning över provet kan generera falska träffar. Detta kan korrigeras med hjälp av splinter_filter_v3.pl skriptet som följer: ./splinter_filter_v3.pl [SPLINTER file] [list file] [stringens]> [SPLINTER normaliserad fil] Om förteckningen filen är en lista över positiva kontroll hits i form av en tab-avgränsad fil. Det första fältet anger amplikon av intresse, medan det andra fältet indikerar positionen i vilken mutationen är närvarande. N indikerar att resten av sekvensen inte innehåller någon mutation. Fastställande av optimala p-värde med användning av den positiva kontrolldata: Efter normalisering, är analysen av den positiva kontrollen nödvändig för att maximera sensitivitet och specificitet för ett visst prov analys. Detta kan uppnås genom att hitta den optimala p-värdet cutoff med informationtion från den positiva kontrollen. Troligtvis kommer den initiala p-värde på -1,301 inte tillräckligt stränga, vilket i så fall kommer att resultera i kallelse falska positiva från den positiva eller negativa kontroll. Varje SPLINTER Analysen kommer att visa det verkliga p-värde för varje kallad variant (se kolumn 5 och 6 i tabell 2), som inte kunde förutses på förhand. Men kan hela analysen upprepas med hjälp av minst säkra p-värde som visas på den initiala produktionen för de kända sant positiva bas positioner. Detta kommer att bidra till att behålla alla sant positiva, men däremot inte de flesta, om inte alla, falska positiva och de har vanligen betydligt mindre p-värden jämfört med sant positiva. För att automatisera denna process kan cutoff_tester.pl användas cutoff_tester.pl kräver en fil SPLINTER utgång och en lista av positiva kontroll träffar i form av en tab-avgränsad fil som den som används för normalisering.: . / Cutoff_tester.pl [SPLINTER filtretED Arkiv] [list file] Den resulterande utsignalen kommer att vara en lista över cutoffs som successivt når den optimala (se tabell 3). Formatet är: [Avstånd från max känslighet och specificitet] [sensitivitet] [specificitet] [cutoff] Till exempel: 7.76946294170104e-07 1 0,999118554429264 -16,1019999999967 Den sista raden representerar den mest optimala cutoff för körningen och kan därför användas för dataanalys. Den optimala resultat är att åstadkomma känslighet och specificitet 1. Om detta resultat inte uppnås, kan SPLINTER analys upprepas genom ändring av antalet införlivade läsa baser tills den mest optimala tillstånd uppnås. Final variant filtrering: Den slutliga Cutoff kan tillämpas på data med hjälp cutoff_cut.pl script, som kommer filtrerar filen SPLINTER utsignalen från träffar under den optimala cutoff, . / Cutoff_cut.pl [SPLINTER filtrerad fil] [cutoff]> [SPLINTER sistafile] Detta steg kommer att generera den slutliga filen SPLINTER utgång, som kommer att innehålla SNP och Indels finns i provet. Observera att utmatningen för infogningar är något annorlunda än för substitutioner eller deletioner (tabell 2). 5. Representativa resultat Vi poolad en befolkning på 947 individer och riktade över 20 kb för sekvensering. Vi tillämpade SPLINTER för detektion av sällsynta varianter efter vår standardprotokoll. Varje enskild hade tidigare hade genotypning utföras av genomet rad olika genotypning. Överensstämmelse mellan genotypning av taggade och varianter nya kallas i det poolade provet var utmärkta (Figur 6). Tre varianter, varav två (rs3822343 och rs3776110) var sällsynt i befolkningen, kallades de novo från sekvensering resultat och validerades av enskilda Pyrosequencing. Mindre allel frekvenser (MAF) i poolen var liknande MAF rapporteras i dbSNP build 129. MAF överensstämmelse mellan pyrosekvensering och poolades sekvensering var utmärkt (tabell 3). Tabell 1. DNA oligonukleotidsekvenser för den positiva kontrollen. Varje sekvens består av ett DNA-fragment som skiljer sig från den vilda typen hänvisning antingen två substitutioner eller en insättning och en radering. Klicka här för att visa en större bild . Tabell 2. Exempel på SPLINTER utsignal. De första två raderna representerar standardavvikelsen SPLINTER utgång för en substitution eller en deletion (blå-huvudet). Den sista raden representerar standarden SPLINTER utgång för en insättning (lila header).rget = "_blank"> Klicka här för att visa en större bild. Tabell 3. Fem kända och tre nya varianter identifierades från stora populationer och validerats av enskilda genotypning. Individuell kontroll utfördes av Pyrosequencing (rader 1-3), TaqMan analys (v 4-6) eller Sanger-sekvensering (rader 7,8). För ett brett spektrum av allel frekvenser och med fem positioner med MAF <1%, överensstämmelse mellan samman-sekvensering allelfrekvensen uppskattning och individuell genotypning var stark. Positioner markerade med en asterisk (*) är anpassat från tidigare rapporterade data 9. Figur 1. Poolad DNA-sekvensering och SPLINTER analys översikt. Patient DNA sammanoch förstärks vid utvalda ställen. De slutliga PCR-produkterna förenas med en positiv och negativ kontroll vid ekvimolära förhållanden. Det poolade blandningen sekvenserades sedan och den resulterande läsningar mappas tillbaka till sin referens. Kartlagt negativ kontroll läsningar används för att generera en run-specifikt fel modell. SPLINTER kan sedan användas för att detektera sällsynt SNP och indels genom att införliva information från felmodellen och den positiva kontrollen. [Anpassad från Vallania FLM et al, Genome Research 2010] Klicka här för att se större bild . Figur 2. Poolad PCR-amplikon ligering och sonikering. Som en demonstration av ligering och slumpmässiga steg fragmentering i biblioteket preparatet protokollet var pUC19 vektor enzymatiskt till fragmenten visas i rad 2. Dessa fragment normastabiliserats genom molekyl antal, kombinerades och ligerades slumpmässigt enligt steg 1.7 ovan. De resulterande stora konkatamerer visas i spår 3. De ligerade konkatamerer var lika upp och utsättas för ultraljudsbehandling som beskrivs i steg 1,8 ovan. Den resulterande utstryk av DNA-fragment för varje replikat teknisk visas i fälten 4 och 5. Fästet belyser storleksintervallet för gel utvinning och sekvensering biblioteket skapande. Figur 3. Noggrannhet som en funktion av täckning för en enda allel i ett poolat prov. Noggrannhet beräknas som arean under kurvan (AUC) för en Receiver Operator Kurva (ROC), som sträcker sig från 0,5 (slumpmässiga) till 1,0 (perfekt precision). AUC är plottad som en funktion av täckning per allel för detektering av enstaka mutanta alleler i pooler av 200, 500 och 1000-allelerna (A). AUC är plottad som en funktion total täckning för substitutioner, insertioner och deletions (b). [Anpassad från Vallania FLM et al, Genome Research 2010]. Figur 4. Fel Plot visar sannolikheten för att införliva en felaktig bas vid en given position. Felet profilen visar att låga felfrekvenser med en ökande tendens mot 3 '-änden av sekvensering läsas. Anmärkningsvärt, olika referens nukleotider visa olika felsannolikheter (se till exempel sannolikheten att införliva ett C ges en G som referens). [Anpassad från Vallania FLM et al, Genome Research 2010]. Figur 5. Noggrannhet SPLINTER att uppskatta allel frekvens för positioner som hade mer än 25-faldig täckning per allel. Baserat på resultaten i panel A, figur 3 visar optimal känslighet för engångsbruk varianten detektion med ≥ 25-faldigt täckning, enjämförelse mellan poolade-DNA allelfrekvenser uppskattas genom SPLINTER med allel-pulser mätta genom GWAS resulterar i mycket hög korrelation (r = 0,999). [Anpassad från Vallania FLM et al, Genome Research 2010]. Figur 6. Jämförelse mellan allelfrekvensema mätt GWAS jämfört med Splinter uppskattningar från poolad sekvensering av 974 individer. Det fanns 19 gemensamma ståndpunkter mellan genotypade loci och regioner sekvens för jämförelse. Den resulterande korrelationen är mycket hög (r = 0,99538). Klicka här för att visa en större bild .