Detection of Rare Genomic Variants from Pooled Sequencing Using SPLINTER

Francesco Vallania; Enrique Ramos; Sharon Cresci; Robi D. Mitra; Todd E. Druley

doi:10.3791/3943

JoVE Journal > Biology

Please note that all translations are automatically generated. Click here for the English version.

Biology

Detektering av sällsynta genomiska varianter från poolad sekvensering med SPLINTER

Published: June 23, 2012

doi:

10.3791/3943

Francesco Vallania, Enrique Ramos, Sharon Cresci, Robi D. Mitra, Todd E. Druley³

¹Center for Genome Sciences and Systems Biology, Department of Genetics,Washington University School of Medicine, ²Department of Internal Medicine,Washington University School of Medicine, ³Department of Pediatrics,Washington University School of Medicine

Summary

Poolad DNA-sekvensering är en snabb och kostnadseffektiv strategi för att upptäcka sällsynta varianter som är förknippade med komplexa fenotyper i stora kohorter. Här beskriver vi beräkningsmässig analys av poolade, nästa generations sekvensering av 32 cancer-relaterade gener med användning av paketet SPLINTER mjukvara. Denna metod är skalbar och tillämplig på alla fenotyp av intresse.

Abstract

Såsom DNA-sekvensering Tekniken har markant framåt under senare år ^2, har det blivit alltmer uppenbart att mängden av genetisk variation mellan två individer är större än man tidigare trott ^3. Däremot har array-baserad genotypning misslyckades med att identifiera en betydande bidrag gemensamma sekvensvarianter till fenotypiska variabiliteten för vanlig sjukdom ^4,5. Sammantaget har dessa observationer lett till utvecklingen av den gemensamma Sjukdom / Sällsynta Variant hypotesen tyder på att majoriteten av den "felande ärftlighet" i gemensamma och komplexa fenotyper beror snarare på en individs personliga profil för sällsynta eller privata DNA-varianter ^6-8 . Men karakterisera hur sällsynt variation påverkar komplexa fenotyper kräver analys av många drabbade individer på många genomiska loci, och är idealiskt jämfört med en liknande undersökning i en opåverkad kohort. Trots sekvensering kraften som erbjuds av dagens plattformar, enbefolkningsbaserad undersökning av många genomiska loci och den efterföljande beräkningsmässiga analysen krävs fortfarande oöverkomliga för många forskare.

För att möta detta behov har vi utvecklat en poolad sekvensering synsätt ^1,9 och ett nytt programpaket ¹ för mycket noggrann sällsynta varianten upptäckt från de resulterande data. Förmågan att samla genomen från hela populationer av drabbade individer och kartlägga graden av genetisk variation på flera utvalda regioner i en enda sekvensering bibliotek erbjuder utmärkta kostnads-och tidsbesparingar till traditionell enda prov sekvensering metod. Med en genomsnittlig sekvensering täckning per allel av 25-faldig, använder våra kunder algoritm splittras, en intern variant kallar strategi för att ringa infogningar, borttagningar och ersättningar upp till fyra baspar i längd med hög känslighet och specificitet från pooler på upp till 1 mutantallelen i 500 individer. Här beskriver vi den metod för framställning av poolade sequencing biblioteket följt av steg-för-steg instruktioner om hur du använder SPLINTER paketet för poolad sekvensering analys ( http://www.ibridgenetwork.org/wustl/splinter ). Vi visar en jämförelse mellan poolad sekvensering av 947 individer, genomgick alla som också genom-brett utbud på över 20KB av sekvensering per person. Överensstämmelse mellan genotypning av taggade och varianter nya kallas i det poolade provet var utmärkta. Denna metod kan lätt skalas upp till vilket som helst antal av genomiska locus och varje rad individer. Genom att införliva de inre positiva och negativa amplicon kontroller vid förhållanden som efterliknar befolkningen som studeras kan algoritmen kalibreras för optimal prestanda. Denna strategi kan även modifieras för användning med hybridisering fånga eller individ-specifika streckkoder och kan tillämpas på sekvensering av naturligt heterogena prover, såsom tumör-DNA.

Protocol

Denna metod användes i forskning rapporteras i Vallania FML et al. Genome Research 2010. 1. Exempel på Pooling och PCR Capture riktade genomiska Loci Kombinera en normaliserad mängd av genomiskt DNA från varje individ i en bassäng (er). Med 0,3 ng DNA per person per PCR-reaktion kommer att innehålla cirka 50 diploida genomen per person i varje PCR-reaktion, vilket förbättrar sannolikheten för enhetliga förstärkning per allelen i poolen. De genomiska sekvenser kan erhållas från NCBI ( http://www.ncbi.nlm.nih.gov/ ) eller UCSC Genome Browser ( http://genome.ucsc.edu/index.html ). Se till att använda "RepeatMasker" (markerat med "N") vid erhållande av sekvensen för att undvika att utforma en primer i en repetitiv region. Använd det webbaserade primer3 (rimer3/input.htm "target =" _blank "> http://frodo.wi.mit.edu/primer3/input.htm) verktyg för att utforma primers genom att klippa och klistra in genomregionema av intresse plus några flankerande sekvenser (amplikoner av 600-2000 BP är oftast idealiska) De optimala primer design förutsättningar för Primer 3 som skall användas är 10: Minsta primer size = 19; Optimal primer size = 25; Max primer size = 30; Lägsta Tm = 64 ° C; Optimum Tm. = 70 ° C, Max Tm = 74 ° C; Max Tm skillnad = 5 ° C; Lägsta GC-halt = 45; Högsta GC-halt = 80; Antal återvända = 20 (detta är godtyckligt), Max 3 'änden stabilitet = 100 . utforma primrar för att amplifiera alla genomiska lokus av intresse. Vid mottagande av primrar, kan de lyofiliserade lagren spädas i 10 mM Tris, pH 7,5 + 0,1 mM EDTA till en slutlig koncentration av 100 pM följt av en ytterligare 10:01 utspädning i ddHaO 2 O till 10 iM. PCR-amplifiering: Vi rekommenderar att du använder en high-fidelity DNA-polymeras för att förstärka stora genomiskaamplikoner på grund av den lägre felgrad (10 -7) och generering av trubbiga ändar produkter (detta är nödvändigt för den efterföljande ligeringen steg). Vi har använt PfuUltra High-Fidelity, men enzymer med liknande egenskaper (såsom Phusion) bör ge jämförbara resultat. Varje PCR-reaktion innehåller en slutlig koncentration av 2,5 U PfuUltra Hi-fi-polymeras, 1 M betain, 400 nM av varje primer, 200 pM dNTP, 1 x PfuUltra buffert (eller en buffert innehållande ≥ 2 mM Mg 2 + för att bibehålla enzymatisk återgivning) , 5-50 ng poolade DNA i en slutvolym av 50 jil. Använd följande PCR-villkor: 1. 93-95 ° C under 2 minuter, 2. 93-95 ° C under 30 sekunder, 3. 58-60 ° C under 30 sekunder; 4. 65-70 ° C under 60-90 sekunder för amplikoner av 250-500 bp / 1,5-3 minuter för amplikoner 500-1000 bp / 3-5 minuter för amplikoner> 1 kb, 5. Upprepa steg 2-4 för 25-40 cykler, 6. 65 ° C under 10 minuter; 7. 4 ° C håll. Om så erfordras, kan PCR-resultat typiskt förbättras genom: 1)sänka hybridiseringstemperaturen för små amplikoner, 2) öka härdningstemperaturen för stora amplikoner; 3. förlänga förlängningen tiden för alla amplicon. Framställning av Splinter kontroller: Varje försök SPLINTER kräver närvaro av en negativ och positiv kontroll för att erhålla optimal noggrannhet. En negativ kontroll kan bestå av alla homozygota bas positioner i varje enskild person, bar-kodade prov som tidigare har sekvenserats (t.ex. en HapMap prov). Den positiva kontrollen skulle då utgöras av en blandning av två eller flera sådana prover. För denna rapport är den negativa kontrollen en 1.934 bp förstärks region från ryggraden i M13mp18 ssDNA vektorn. PCR-produkten var Sanger sekvenserat före dess användning i syfte att bekräfta att ingen sekvensvariation föreligger från källmaterialet eller PCR-amplifiering. Den positiva kontrollen består av en panel av pGEM-T Easy-vektorer med en 72 bp klonas in konstruerad med specifika insertioner, deletioner substitutions (tabell 1). Vi blandar vektorerna tillsammans mot en vildtyp bakgrund på molförhållanden så att de mutationer som är närvarande vid frekvensen av en enda allel i poolen (dvs. för en 100-allel pool, kommer frekvensen av en enda allel vara 1%). Vi sedan PCR-amplifiera det blandade styrmallen med användning av M13 pUC primerställena i pGEM-T Easy, generera en slutlig 355bp långa PCR-produkten. 2. Poolad PCR Bibliotek Förberedelser och sekvensering PCR-produkten pooling: Varje PCR-produkten bör rengöras från överskott primers. Vi använde Qiagen Qiaquick kolumnen rening eller 96-och filter plattor med vakuumförgreningsrör för storskalig rengöring. Efter rening, bör varje PCR-produkt kvantifieras med hjälp av standardtekniker. Kombinera alla PCR-produkten (inklusive kontroller) i en pool normaliserad för molekyl nummer som sammanslagning genom koncentration kommer att leda till överrepresentation av små amplikoner ovEr större produkter. Koncentrationer omvandlas till det absoluta antalet av DNA-molekyler per volym med hjälp av formeln: (g / l) x (1 mol x BP / 660 g) x (1 / # bp i amplikon) x (6 x 10 23 molekyler / 1 mol ) = molekyler / | il. Vi bestämma då volymen av varje reaktion som krävs för att samla en normaliserad antalet molekyler per amplikon. Detta antal är godtyckligt, kan justeras och är beroende på pipettering av volymer stora nog för att upprätthålla noggrannhet. Vi förenar vanligtvis 1-2 x 10 10 molekyler av varje amplikon. Ligering av PCR-produkter: Detta steg är nödvändigt för att uppnå jämn sekvensering täckning som ultraljudsbehandling av små PCR-amplikoner kommer partiska sin representation mot sina ändar. För att övervinna detta ligera vi sammanslagna PCR-produkterna i stora konkatemerer (> = 10 Kb) före fragmentering. Pfu Ultra HF-polymeras genererar trubbiga ändar, vilket leder till effektiv ligering (en Taq-baserad polymeras kommer att lägga ett 3p "A" överhäng som inte enllow ligering utan föregående fylla i eller avtrubbning). Denna reaktion kan skalas upp 2-3 gånger om det behövs. Ligeringsreaktionen innehåller 10 U T4-polynukleotidkinas, 200 U T4-ligas, 15% vikt / volym polyetylenglykol, 1X T4 ligasbuffert, glykol 8000 MW, upp till 2 ^ g av sammanslagna PCR-produkter i en slutlig volym av 50 pl. Reaktionerna inkuberas vid 22 ° C under 16 timmar följt av 65 ° C under 20 minuter och hölls vid 4 ° C därefter. Framgången med detta steg kan kontrolleras genom att ladda 50 ng av prov till en 1% agarosgel. Framgångsrik ligering resulterar i en hög molekylvikt bandet närvarande i spår (se fig 2, spår 3). DNA-fragmentering: Vid det här laget bör du ha stora konkatemerer (> 10kb) av PCR-produkter. Vi har en slumpmässig ultraljudsbehandling strategi med hjälp av en 24-prov Diagenode Bioruptor sonikator som kan fragment av dessa konkatemerer i 25 minuter (40 sec "på" / 20 sec "off" per minut). Sonikering inhiberas av viskositeten som införts av PEG, såDetta kan lösas genom att späda provet 10:1 i Qiagen PB buffert. Resultaten kan kontrolleras på ett 2% agarosgel (se Figur 2, spår 4 och 5). Provet är färdigt att inkorporera direkt in i Illumina genombibliotek Provberedning protokoll börjar med "Slut Reparation"-steget. Uppgifterna redovisas här är från samma utgång läser på Illumina Genome Analyzer IIx, men vi har använt HiSeq 2000 och utförde enkla eller parade slut läser med jämförbara resultat. Med tanke på omfattningen av den skapade biblioteket har vi också använt anpassade Streckkodsformulär adaptrar för att multiplexa flera sammanslagna bibliotek för att rymma den bandbredd som tillhandahålls av HiSeq plattformen (data visas ej). Följ tillverkarens protokoll och rekommendationer som följer med satsen. För att uppnå optimal känslighet och specificitet för detektion varianten, målet täckning av 25-faldigt eller mer per allel rekommenderas (figur 3). Denna uppskattning är oberoende av pool storlekoch typ av variant som skall detekteras. Vid behov flera banor och löper kan kombineras för att nå tillräcklig täckning. 3. Sekvensering Läser Justering och analys Filkomprimering och formatering: Raw sekvensering läsa filer bör antingen omvandlas till HALSDUK format eller komprimerad. Komprimering är valfri eftersom det sparar tid och utrymme för den efterföljande analysen steg utan att förlora någon relevant information. Detta uppnås genom att använda den medföljande skriptet RAPGAP_read_compressor_v2.pl med följande kommando: ./RAPGAP_read_compressor_v2.pl [Läs file]> [Komprimerad läsa filen] Godkända läsa filen inmatningsformat är Scarf och FASTQ, antingen gzippas eller okomprimerad: HALSDUK format exempel: HWI-EAS440: 7:1:0:316 # 0/1: NTCGATTCACTGCCCAACAACACCAGCTCCTCTCCC: DNWUQSPWWWWUVVPVVWVVVUVVUUPUUWWWWWUW FASTQ format exempel: @ HWI-EAS440_7_1_0_410 # 0/1 NGTGGTTTCTTCTTTGGCTGGGGAGAGGAGCTGGTG + & / 8888888888888888888854588767777666! Raw läste Placering: råa läsningar kan nu anpassas till den kommenterade FASTA hänvisningen sekvens som är specifik för de riktade regioner som ingår i PCR-reaktioner, samt positiva och de negativa kontrollerna. Inriktningen kan utföras med användning av den inkluderade RAPGAPHASH5d justeringsredskapet. Informatet vid denna punkt måste vara HALSDUK eller komprimeras. Kommandot för inriktningen är: ./RAPGAPHASH5d [Komprimerad läsa filen] [FASTA file] [antal redigeringar tillåtna]> [Aligned fil] Antalet felpassningar per läsning som tillåts i jämförelse med referenssekvensen är en användardefinierad parameter. Reads som har ett överskott antalet felpassningar kommer att kasseras. Vi rekommenderar att tillåta 2 obalanser för 36 bp läsningar, 4 felpassningar för 76 bp läser och 5 obalans för 101 bp läser. Att tillåta fler obalans kommer att öka sannolikheten för tillåter överskott ordningsföljden fel i aligned data. Som läser längder fortsätter att bli längre, kan detta värde ökas ytterligare. Märkning linje filer från samma flödescellen: Vid det här laget hela inriktade läsa filen bör ges en unik identifierare ("tag") i syfte att identifiera läsa filer som hör till samma sekvensering körning (dvs. flera banor från samma flödescellen kan aggregeras och ges en enda tagg). Taggen är nödvändigt eftersom varje maskin körning genererar en unik felprofil som kan karakteriseras via taggen. En tagg är en alfanumerisk teckensträng används för att skilja en uppsättning läser (understreck "_" bör inte användas för att analysera frågor). Olika taggar ska användas för riktade läsa filer som genereras på olika flytcellerna eller serier maskin. Taggar kan läggas med den medföljande RAPGAP_alignment_tagger.pl med följande kommando: . / RAPGAP_alignment_tagger.pl [Aligned file] [TAG]> [alliansfria taggad fil] Efter denna punkt i linjefiler från samma bibliotek som genereras på flera olika flytcellerna kan kombineras tillsammans som deras respektive taggar kommer att hålla dem separerade. Fel modell generationen: Som nämnts ovan genererar varje maskin körning en unik profil av sekvensering fel som måste präglas för noggrann variant samtal. Att modellera dessa fel för varje maskin sikt är en intern kontroll-sekvens känd för att sakna sekvensvariation ingår i varje poolade prov bibliotek. Från taggade linje filen kan ett fel modell-fil genereras med hjälp av den medföljande verktyget EMGENERATOR4 med den negativa kontrollen referenssekvensen. Alla de negativa kontroll-sekvensen kan användas eller alternativt endast en delmängd av den, som anges av 5 'och 3' mest baser i ingången. Unik läser och pseudocounts ska alltid användas: ./EMGENERATOR4 [Justerad taggad fil] [negativ kontroll-sekvens] [utfil namn] [5 mest bas negativa kontrollen ska användas] [3 mest basden negativa kontrollen ska användas] [bl.a. unik läser bara? = Y] [inriktning ändringar cutoff] [ange pseudocounts? = Y] Den EMGENERATOR4 Verktyget genererar 3 filer samma namn som utdatafilen parametern name följt av _0, _1 eller _2. Dessa filer motsvarar en 0: e, 1: a och 2: a ordningens felmodellen respektive. För variant ringa med splitterskydd, bör 2: a ordningens felmodellen alltid användas. För att visualisera profil felprocenten för en körning, kan error_model_tabler_v4.pl användas för att generera en PDF fel tomt i 0:e beställning felmodellen fil (Figur 4): ./error_model_tabler_v4.pl [Fel modell 0:e orderfil] [utfil namn] Plotten fil kommer att avslöja inför specifika fel trender och kan användas för att härleda det maximala antalet lästa baser som skall användas för analysen, vilket förklaras i nästa avsnitt. 4. Sällsynt Variant detektering med användning av SPLINTER Variant callinwenchg genom SPLINTER: Det första steget i analysen är att köra SPLINTER verktyget på linje filen med felet modellen och referenssekvensen. Kommandot för att göra så är: ./SPLINTER6r [Justerad taggad fil] [FASTA file] [2: a för felmodellen file] [antal läst underlag som ska användas] [läs baser eller cykler som ska undantas] [p-värde cutoff = -1,301] [använda unika läsningar = Y] [inriktning ändringar cutoff] [pool storlek från de tillgängliga alternativen] [Skriv ut absoluta täckningen Per Strand = Y]> [SPLINTER fil] Antalet lästa baser som kan användas varierar och bör utvärderas efter varje körning. Vi rekommenderar generellt att använda de första 2/3rds av läs när de representerar den högsta kvaliteten data (första 24 läste grunden för en 36 bp långa läsa till exempel). Enstaka läs baser kan uteslutas från analysen om de befinns vara defekt (separerade med ett kommatecken eller N, t.ex. 5,7,11 eller N). P-värdet cutoff dikterar hur stränga varianten ringer analysen kommer att bli. Vi ellernormalt börja analysen genom att låta en minsta gräns på -1,301 (motsvarande ett p-värde ≤ 0,05 i log 10 skala). Poolen Storleken optimeras den algoritmer "signal-to-noise" diskriminering genom att eliminera eventuella varianter med mindre allelfrekvensema mindre än en enda allel i själva poolen. Till exempel i en pool av 50 individer, kan den lägsta observerade varianten förväntas vid 0,01 frekvens eller 1 i 100 alleler. Därför bör poolstorlek alternativet inställt på den närmaste värde som är större än det faktiska antalet alleler som analyseras i försöket (dvs. om 40 personer är tillfrågade räknar vi med 80 alleler så närmaste alternativet skulle vara en pool storlek 100) . Varianter kallas vid frekvenser <0,01 kommer då att ignoreras som brus. Denna fil returnerar alla träffar som är statistiskt signifikant över provet, med en beskrivning av läget för varianten, typ av variant, p-värde per DNA-strängen, frekvens varianten och den totala täckning per DNA-strängen ( <strong> Tabell 2). Normalisera täckning för de kallade varianter: Variationer täckning över provet kan generera falska träffar. Detta kan korrigeras med hjälp av splinter_filter_v3.pl skriptet som följer: ./splinter_filter_v3.pl [SPLINTER file] [list file] [stringens]> [SPLINTER normaliserad fil] Om förteckningen filen är en lista över positiva kontroll hits i form av en tab-avgränsad fil. Det första fältet anger amplikon av intresse, medan det andra fältet indikerar positionen i vilken mutationen är närvarande. N indikerar att resten av sekvensen inte innehåller någon mutation. Fastställande av optimala p-värde med användning av den positiva kontrolldata: Efter normalisering, är analysen av den positiva kontrollen nödvändig för att maximera sensitivitet och specificitet för ett visst prov analys. Detta kan uppnås genom att hitta den optimala p-värdet cutoff med informationtion från den positiva kontrollen. Troligtvis kommer den initiala p-värde på -1,301 inte tillräckligt stränga, vilket i så fall kommer att resultera i kallelse falska positiva från den positiva eller negativa kontroll. Varje SPLINTER Analysen kommer att visa det verkliga p-värde för varje kallad variant (se kolumn 5 och 6 i tabell 2), som inte kunde förutses på förhand. Men kan hela analysen upprepas med hjälp av minst säkra p-värde som visas på den initiala produktionen för de kända sant positiva bas positioner. Detta kommer att bidra till att behålla alla sant positiva, men däremot inte de flesta, om inte alla, falska positiva och de har vanligen betydligt mindre p-värden jämfört med sant positiva. För att automatisera denna process kan cutoff_tester.pl användas cutoff_tester.pl kräver en fil SPLINTER utgång och en lista av positiva kontroll träffar i form av en tab-avgränsad fil som den som används för normalisering.: . / Cutoff_tester.pl [SPLINTER filtretED Arkiv] [list file] Den resulterande utsignalen kommer att vara en lista över cutoffs som successivt når den optimala (se tabell 3). Formatet är: [Avstånd från max känslighet och specificitet] [sensitivitet] [specificitet] [cutoff] Till exempel: 7.76946294170104e-07 1 0,999118554429264 -16,1019999999967 Den sista raden representerar den mest optimala cutoff för körningen och kan därför användas för dataanalys. Den optimala resultat är att åstadkomma känslighet och specificitet 1. Om detta resultat inte uppnås, kan SPLINTER analys upprepas genom ändring av antalet införlivade läsa baser tills den mest optimala tillstånd uppnås. Final variant filtrering: Den slutliga Cutoff kan tillämpas på data med hjälp cutoff_cut.pl script, som kommer filtrerar filen SPLINTER utsignalen från träffar under den optimala cutoff, . / Cutoff_cut.pl [SPLINTER filtrerad fil] [cutoff]> [SPLINTER sistafile] Detta steg kommer att generera den slutliga filen SPLINTER utgång, som kommer att innehålla SNP och Indels finns i provet. Observera att utmatningen för infogningar är något annorlunda än för substitutioner eller deletioner (tabell 2). 5. Representativa resultat Vi poolad en befolkning på 947 individer och riktade över 20 kb för sekvensering. Vi tillämpade SPLINTER för detektion av sällsynta varianter efter vår standardprotokoll. Varje enskild hade tidigare hade genotypning utföras av genomet rad olika genotypning. Överensstämmelse mellan genotypning av taggade och varianter nya kallas i det poolade provet var utmärkta (Figur 6). Tre varianter, varav två (rs3822343 och rs3776110) var sällsynt i befolkningen, kallades de novo från sekvensering resultat och validerades av enskilda Pyrosequencing. Mindre allel frekvenser (MAF) i poolen var liknande MAF rapporteras i dbSNP build 129. MAF överensstämmelse mellan pyrosekvensering och poolades sekvensering var utmärkt (tabell 3). Tabell 1. DNA oligonukleotidsekvenser för den positiva kontrollen. Varje sekvens består av ett DNA-fragment som skiljer sig från den vilda typen hänvisning antingen två substitutioner eller en insättning och en radering. Klicka här för att visa en större bild . Tabell 2. Exempel på SPLINTER utsignal. De första två raderna representerar standardavvikelsen SPLINTER utgång för en substitution eller en deletion (blå-huvudet). Den sista raden representerar standarden SPLINTER utgång för en insättning (lila header).rget = "_blank"> Klicka här för att visa en större bild. Tabell 3. Fem kända och tre nya varianter identifierades från stora populationer och validerats av enskilda genotypning. Individuell kontroll utfördes av Pyrosequencing (rader 1-3), TaqMan analys (v 4-6) eller Sanger-sekvensering (rader 7,8). För ett brett spektrum av allel frekvenser och med fem positioner med MAF <1%, överensstämmelse mellan samman-sekvensering allelfrekvensen uppskattning och individuell genotypning var stark. Positioner markerade med en asterisk (*) är anpassat från tidigare rapporterade data 9. Figur 1. Poolad DNA-sekvensering och SPLINTER analys översikt. Patient DNA sammanoch förstärks vid utvalda ställen. De slutliga PCR-produkterna förenas med en positiv och negativ kontroll vid ekvimolära förhållanden. Det poolade blandningen sekvenserades sedan och den resulterande läsningar mappas tillbaka till sin referens. Kartlagt negativ kontroll läsningar används för att generera en run-specifikt fel modell. SPLINTER kan sedan användas för att detektera sällsynt SNP och indels genom att införliva information från felmodellen och den positiva kontrollen. [Anpassad från Vallania FLM et al, Genome Research 2010] Klicka här för att se större bild . Figur 2. Poolad PCR-amplikon ligering och sonikering. Som en demonstration av ligering och slumpmässiga steg fragmentering i biblioteket preparatet protokollet var pUC19 vektor enzymatiskt till fragmenten visas i rad 2. Dessa fragment normastabiliserats genom molekyl antal, kombinerades och ligerades slumpmässigt enligt steg 1.7 ovan. De resulterande stora konkatamerer visas i spår 3. De ligerade konkatamerer var lika upp och utsättas för ultraljudsbehandling som beskrivs i steg 1,8 ovan. Den resulterande utstryk av DNA-fragment för varje replikat teknisk visas i fälten 4 och 5. Fästet belyser storleksintervallet för gel utvinning och sekvensering biblioteket skapande. Figur 3. Noggrannhet som en funktion av täckning för en enda allel i ett poolat prov. Noggrannhet beräknas som arean under kurvan (AUC) för en Receiver Operator Kurva (ROC), som sträcker sig från 0,5 (slumpmässiga) till 1,0 (perfekt precision). AUC är plottad som en funktion av täckning per allel för detektering av enstaka mutanta alleler i pooler av 200, 500 och 1000-allelerna (A). AUC är plottad som en funktion total täckning för substitutioner, insertioner och deletions (b). [Anpassad från Vallania FLM et al, Genome Research 2010]. Figur 4. Fel Plot visar sannolikheten för att införliva en felaktig bas vid en given position. Felet profilen visar att låga felfrekvenser med en ökande tendens mot 3 '-änden av sekvensering läsas. Anmärkningsvärt, olika referens nukleotider visa olika felsannolikheter (se till exempel sannolikheten att införliva ett C ges en G som referens). [Anpassad från Vallania FLM et al, Genome Research 2010]. Figur 5. Noggrannhet SPLINTER att uppskatta allel frekvens för positioner som hade mer än 25-faldig täckning per allel. Baserat på resultaten i panel A, figur 3 visar optimal känslighet för engångsbruk varianten detektion med ≥ 25-faldigt täckning, enjämförelse mellan poolade-DNA allelfrekvenser uppskattas genom SPLINTER med allel-pulser mätta genom GWAS resulterar i mycket hög korrelation (r = 0,999). [Anpassad från Vallania FLM et al, Genome Research 2010]. Figur 6. Jämförelse mellan allelfrekvensema mätt GWAS jämfört med Splinter uppskattningar från poolad sekvensering av 974 individer. Det fanns 19 gemensamma ståndpunkter mellan genotypade loci och regioner sekvens för jämförelse. Den resulterande korrelationen är mycket hög (r = 0,99538). Klicka här för att visa en större bild .

Discussion

Det finns ökande bevis för att incidensen och terapeutiska svaret av gemensamma, komplexa fenotyper och sjukdomar såsom fetma ^8, hyperkolesterolemi ^4, hypertoni ⁷ och andra kan modereras av personliga profiler av sällsynta variation. Identifiera gener och vägar där dessa varianter samlade i drabbade befolkningen kommer att få djupgående diagnostiska och terapeutiska konsekvenser, men att analysera drabbade individer var för sig kan vara tid och kostar oöverkomliga. Populationsbaserade analys erbjuder en mer effektiv metod för mätning genetisk variation vid multipla loci.

Vi presenterar en ny poolad-DNA-sekvensering protokoll ihop med SPLINTER mjukvarupaket för att identifiera den här typen av genetisk variation mellan populationer. Vi visar riktigheten av denna metod för att identifiera och kvantifiera mindre alleler i en poolad stor population av 947 individer, inklusive sällsynta varianter som varkallas de novo från poolade sekvensering och validerats av enskilda Pyrosequencing. Vår strategi skiljer sig främst från andra protokoll genom införlivandet av en positiv och en negativ kontroll inom varje experiment. Detta gör SPLINTER att nå mycket högre precision och kraft jämfört med andra metoder ^1. Den optimala täckningen av 25-faldig per allelen fastställs oberoende av storleken på poolen, vilket gör analys av stora pooler möjligt eftersom detta krav endast skalor linjärt med pool storlek. Vårt tillvägagångssätt är mycket flexibel och kan tillämpas på alla fenotyp av intresse utan också prover som av naturen är heterogena, såsom blandade cellpopulationer och tumörbiopsier. Med tanke på den ständigt ökande intresset för poolade sekvensering av stora målområden som exome eller genom, är vårt bibliotek prep och splittras analys kompatibel med specialanpassade avskiljning och hel-exome sekvensering, men inriktningen nytta i SPLINTER paketet inte konstruerade för storreferenser sekvenser. Därför har vi använt framgångsrikt dynamisk programmering Aligner, Novoalign för genomet hela inriktningar följt av variant ringer från samlingsprov (Ramos et al., Inlämnad). Således kan vi samman sekvenseringsstrategi skala framgångsrikt till större pooler med ökande mängder av målsekvensen.

Disclosures

The authors have nothing to disclose.

Acknowledgements

Detta arbete stöddes av Barnens Discovery Institute bidrag MC-II-2006-1 (RDM och TED), NIH Epigenetik färdplanen bidrag [1R01DA025744-01 och 3R01DA025744-02S1] (RDM och FLMV), U01AG023746 (SC), den Saigh Foundation (FLMV och TED), 1K08CA140720-01A1 och Alex Lemonade Stand "A" Award stöd (TED). Vi tackar Genome Center Technology Access i institutionen för genetik vid Washington University School of Medicine för att få hjälp med genomisk analys. Centret är delvis stöds av NCI Cancer Support Grant # P30 CA91842 till Siteman Cancer Center och IKT / CTSA Grant # UL1RR024992 från NationalCenter för forskning Resources (NCRR), en del av National Institutes of Health (NIH) och NIH Roadmap för medicinsk forskning. Denna publikation är endast ansvar författarnas egna och inte nödvändigtvis den officiella syn på NCRR och NIH.

Materials

Reagent Name	Company	Catalogue Number	Section
PfuUltra High-Fidelity	Agilent	600384	1.4
Betaine	SIGMA	B2629	1.4
M13mp18 ssDNA vector	NEB	N4040S	1.5
pGEM-T Easy	Promega	A1360	1.5
T4 Polynucleotide Kinase	NEB	M0201S	2.2
T4 Ligase	NEB	M0202S	2.2
Polyethylene Glycol 8000 MW	SIGMA	P5413	2.2
Bioruptor sonicator	Diagenode	UCD-200-TS	2.3

References

Vallania, F. L. M., Druley, T. E., Ramos, E., Wang, J., Borecki, I., Province, M., Mitra, R. D. High-throughput discovery of rare insertions and deletions in large cohorts. Genome Research. 20, 1391-1397 (2010).
Shendure, J., Mitra, R., Varma, C., Church, G. M. Advanced Sequencing Technologies: Methods and Goals. Nature Reviews of Genetics. 5, 335-344 (2004).
The 1000 Genomes Project Consortium. A map of human genome variation from population-scale sequencing. Nature. 467, 1061-1073 (2010).
Manolio, T. A., Collins, F. S., Cox, N. J., Goldstein, D. B., Hindorff, L. A., Hunter, D. J., McCarthy, M. I., Ramos, E. M., Cardon, L. R. Finding the missing heritability of complex diseases. Nature. 461, 747-753 (2009).
Reich, D. E., Lander, E. S. On the allelic spectrum of human disease. Trends Genet. 17, 502-510 (2001).
Cohen, J. C., Kiss, R. S., Pertsemlidis, A., Marcel, Y. L., McPherson, R., Hobbs, H. H. Multiple rare alleles contribute to low plasma levels of HDL cholesterol. Science. 305, 869-872 (2004).
Ji, W., Foo, J. N., O’Roak, B. J., Zhao, H., Larson, M. G., Simon, D. B., Newton-Cheh, C., State, M. W., Levy, D., Lifton, R. P. Rare independent mutations in renal salt handling genes contribute to blood pressure variation. Nat. Genet. 40, 592-599 (2008).
Ahituv, N., Kavaslar, N., Schackwitz, W., Ustaszewska, A., Martin, J., Hebert, S., Doelle, H., Ersoy, B., Kryukov, G., Schmidt, S. Medical sequencing at the extremes of human body mass. Am. J. Hum. Genet. 80, 779-791 (2007).
Druley, T. E., Vallania, F. L., Wegner, D. J., Varley, K. E., Knowles, O. L., Bonds, J. A., Robison, S. W., Doniger, S. W., Hamvas, A., Cole, F. S., Fay, J. C., Mitra, R. D. Quantification of rare allelic variants from pooled genomic DNA. Nat. Methods. 6, 263-265 (2009).
Mitra, R. D., Butty, V., Shendure, J., Housman, D., Church, G. M. Digital Genotyping and Haplotyping with Polymerase Colonies. Proc. Natl. Acad. Sci. 100, 5926-5931 (2003).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

Vallania, F., Ramos, E., Cresci, S., Mitra, R. D., Druley, T. E. Detection of Rare Genomic Variants from Pooled Sequencing Using SPLINTER. J. Vis. Exp. (64), e3943, doi:10.3791/3943 (2012).

Detektering av sällsynta genomiska varianter från poolad sekvensering med SPLINTER

Summary

Abstract

Protocol

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

Detektering av sällsynta genomiska varianter från poolad sekvensering med SPLINTER

Summary

Abstract

Protocol

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

✖

To prove you're not a robot, please enter the text in the image below