Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

Detektion af sjældne genomiske varianter fra poolet sekventering under anvendelse Splinter

Published: June 23, 2012 doi: 10.3791/3943

Summary

Pooled DNA-sekventering, er en hurtig og omkostningseffektiv strategi for at opdage sjældne varianter, der er forbundet med komplekse fænotyper i store årgange. Her beskriver vi den beregningsmæssige analyser af poolede, næste generation sekventering af 32 kræft-relaterede gener ved hjælp af Splinter softwarepakke. Denne metode er skalerbar, og anvendes på enhver fænotype af interesse.

Abstract

Som DNA-sekventeringsteknologi markant har fremskridt i de seneste år 2, er det blevet stadig mere tydeligt, at mængden af genetisk variation mellem to individer er større end tidligere antaget 3. I modsætning hertil er array-baserede genotypebestemmelse undladt at identificere et væsentligt bidrag af fælles sekvensvarianter til fænotypisk variation af almindelig sygdom 4,5. Tilsammen har disse observationer førte til udviklingen af den fælles Sygdom / Sjælden Variant hypotese, tyder på, at størstedelen af "the missing arveligheden" i almindelige og komplekse fænotyper er i stedet skyldes den enkeltes personlige profil af sjældne eller privat DNA varianter 6-8 . Men karakterisere hvordan sjældne variation påvirker komplekse fænotyper kræver analyse af mange berørte enkeltpersoner på mange genomiske loci, og det er ideelt i forhold til en lignende undersøgelse i en upåvirket kohorte. På trods af sekventering energi, som udbydes af nutidens platforme, enpopulation-baserede undersøgelse af mange genomiske loci, og den efterfølgende beregningsmæssige kræves analyse forbliver uoverkommelige for mange forskere.

For at imødekomme dette behov, har vi udviklet en samlet sekventering tilgang 1,9 og en ny softwarepakke 1 for meget præcise sjældne variant detektering af de resulterende data. Evnen til at samle genomer fra hele populationer af de ramte personer og syn graden af ​​genetisk variation på flere målrettede regioner i en enkelt sekventering bibliotek giver fremragende omkostnings-og tidsbesparelser til traditionel enkelt prøve sekventering metode. Med en gennemsnitlig sekventering dækning pr allel af 25-fold, bruger vores kunder algoritme, Splinter, en intern variant ringer kontrol strategi for at kalde indsættelser, sletninger og erstatninger på op til fire basepar i længden med høj følsomhed og specificitet fra puljer på op til 1 mutant allel i 500 individer. Her beskriver vi en fremgangsmåde til fremstilling af samlet sequencing bibliotek efterfulgt af trin-for-trin instruktioner om, hvordan du bruger Splinter pakke til samlet sekventering analyse ( http://www.ibridgenetwork.org/wustl/splinter ). Vi viser en sammenligning mellem samlet sekventering af 947 personer, som alle også gennemgik genom-bred vifte, som er over 20 kb sekventering per person. Overensstemmelse mellem genotypebestemmelse af mærket og nye varianter kaldes i samleprøve var fremragende. Denne fremgangsmåde kan let skaleres op til et vilkårligt antal af genomiske loci og et vilkårligt antal af individer. Ved at inkorporere de interne positive og negative amplicon kontroller ved forhold, som efterligner den undersøgte population, kan algoritmen kalibreres for optimal ydeevne. Denne strategi kan også modificeres til anvendelse med hybridisering indfangning eller individuel-specifikke stregkoder og kan anvendes til sekventering af naturligt heterogene prøver, såsom tumor-DNA.

Protocol

Denne fremgangsmåde blev anvendt i forskning rapporteret Vallania FML et al. Genome Research 2010.

1. Sample Pooling og PCR Capture målrettede Genomisk Loci

  1. Kombinere en normaliseret værdi af genomisk DNA fra hver enkelt i pulje (r). Anvendelse af 0,3 ng DNA pr person pr PCR-reaktion vil inkorporere ca 50 diploide genomer pr person i hver PCR-reaktion, hvilket forbedrer sandsynligheden for ensartet forstærkning pr allel i puljen.
  2. De genomiske sekvenser kan fås hos NCBI ( http://www.ncbi.nlm.nih.gov/ ) eller UCSC Genome Browser ( http://genome.ucsc.edu/index.html ). Sørg for at bruge den "RepeatMasker" (mærket med "N"), når opnåelse af sekvensen for at undgå at designe en primer i en repetitiv region.
  3. Brug web-baserede Primer3 (rimer3/input.htm "target =" _blank "> http://frodo.wi.mit.edu/primer3/input.htm) værktøj til at designe primere ved at klippe og indsætte genomiske regioner af interesse plus nogle flankerende sekvenser (ampliconer af 600-2000 bp er typisk ideelle) De optimale primer design betingelser for Primer 3, der skal anvendes, er 10: Minimum primer size = 19; Optimal primer size = 25; Maksimum primer size = 30; Minimum Tm = 64 ° C; Optimal Tm. = 70 ° C, maksimal Tm = 74 ° C, maksimal Tm forskel = 5 ° C; Minimum GC-indhold = 45; Maksimalt GC-indhold = 80; Antal at returnere = 20 (dette er vilkårlig) Maksimal 3'-enden stabilitet = 100 . designe primere til at amplificere alle genomiske loci af interesse. Ved modtagelse af primere, kan de frysetørrede lagre fortyndes i 10 mM Tris, pH 7,5 + 0,1 mM EDTA til en slutkoncentration på 100 uM, efterfulgt af en yderligere 10:01 fortynding ddh 2 O til 10 uM.
  4. PCR-amplifikation: Vi anbefaler brugen af ​​en high-fidelity DNA-polymerase til at forstærke store genomiskeampliconer grund af den lave fejlprocent (10 -7), og generering af stumpendede produkter (dette er nødvendigt for efterfølgende ligering trin). Vi har brugt PfuUltra High-Fidelity, men enzymer med lignende egenskaber (såsom Phusion) bør give sammenlignelige resultater. Hver PCR-reaktion indeholder en slutkoncentration på 2,5 U PfuUltra High-Fidelity polymerase, 1 M betain, 400 nM af hver primer, 200 uM dNTP'er, 1x PfuUltra buffer (eller en puffer indeholdende ≥ 2 mM Mg2 + for at opretholde enzymatisk fidelity) , 5-50 ng poolet DNA i et slutvolumen på 50 ul. Brug følgende PCR-betingelser: 1. 93-95 ° C i 2 minutter; 2. 93-95 ° C i 30 sekunder; 3. 58-60 ° C i 30 sekunder; 4. 65-70 ° C i 60-90 sekunder til amplikoner på 250-500 bp / 1,5-3 minutter amplikoner 500-1000 bp / 3-5 minutter for amplikoner> 1 kb, 5. Gentag trin 2-4 for 25-40 cykler; 6. 65 ° C i 10 minutter; 7. 4 ° C hold. Hvis det er påkrævet, kan PCR-resultater typisk blive forbedret ved: 1)sænkning af udglødningstemperaturen for små ampliconer, 2) tilvejebringelse af udglødningstemperaturen for store ampliconer 3. forlængelse forlængelsestiden for enhver amplikon.
  5. Udarbejdelse af Splinter kontrol: Hver Splinter eksperiment kræver tilstedeværelsen af en negativ og positiv kontrol for at opnå optimal nøjagtighed. En negativ kontrol kan bestå af alle homozygote base-positioner i hvert enkelt, stregkode prøve, der tidligere er blevet sekventeret (fx en HapMap prøve). Den positive kontrol vil da bestå af en blanding af to eller flere sådanne prøver. Til denne rapport, er den negative kontrol en 1.934 bp forstærket region fra rygraden af ​​M13mp18 ssDNA vektor. PCR-produktet blev Sanger sekventeret før dets anvendelse for at bekræfte, at ingen sekvensvariation eksisterer af udgangsmaterialet eller PCR-amplifikation. Den positive kontrol består af et panel af pGEM-T Easy vektorer med en 72 bp klonede insert manipuleret med specifikke insertioner, deletioner, substitutions (tabel 1). Vi blande vektorer sammen mod en vildtype baggrund ved molforhold, således at mutationer er til stede på frekvensen af ​​en enkelt allel i poolen (dvs. for en 100-allel pulje, vil frekvensen af ​​en enkelt allel være 1%). Vi derefter PCR amplificere det blandede kontrol-template ved anvendelse af M13 PUC primersitene i pGEM-T Easy, genererer en endelig 355bp lang PCR-produkt.

2. Pooled PCR Bibliotek Forberedelse og sekventering

  1. PCR-produktet pooling: Hver PCR-produkt skal renses for overskydende primere. Vi anvendte Qiagen Qiaquick søjleoprensning eller 96-brønds filterplader med vakuummanifold til storskalaproduktion oprensning. Efter oprensning, bør hvert PCR-produkt kan kvantificeres ved anvendelse af standardteknikker. Kombiner hver PCR-produkt (herunder kontrol) i en pulje normaliseret for molekyle nummer som pooling af koncentrationen vil resultere i overrepræsentation af små amplikoner ovER større produkter. Koncentrationer omdannes til det absolutte antal af DNA-molekyler pr volumen ved hjælp af formlen: (g / uL) x (1 mol x bp / 660 g) x (1 / # bp i amplikon) x (6 x 10 23-molekyler / 1 mol ) = molekyler / ul. Vi finder så lydstyrken fra hver reaktion påkrævet at samle et normaliseret antal molekyler pr amplikon. Dette nummer er vilkårlig, kan justeres og virkelig afhænger udtage store nok til at opretholde nøjagtighed. Vi typisk samler 1-2 x 10 10 molekyler af hver amplikon.
  2. Ligering af PCR-produkter: Dette trin er nødvendigt for at opnå en ensartet sekventering dækning som lydbehandling af små PCR-amplikonerne vil forudindtaget deres repræsentation over for deres ender. For at overvinde denne, vi ligere de samlede PCR-produkterne i store concatemerer (> = 10 Kb) forud for fragmentering. Pfu Ultra HF-polymerase frembringer stumpe ender, hvilket fører til effektiv ligering (a Taq-baseret polymerase vil tilføje et 3p "A" udhæng, der ikke erllow ligering uden forudgående fylde-eller afstumpningsorganet). Denne reaktion kan opskaleres 2-3 gange hvis nødvendigt. Ligeringsreaktionen indeholder 10 U T4 polynucleotidkinase, 200 U T4-ligase, 15% vægt / volumen polyethylenglycol, 1X T4 ligasepufferen glycol 8000 MW, op til 2 ug af poolede PCR-produkter i et slutvolumen på 50 ul. Reaktionerne inkuberes ved 22 ° C i 16 timer efterfulgt af 65 ° C i 20 minutter og holdt ved 4 ° C derefter. Succes dette trin kan kontrolleres ved at fylde 50 ng af prøver i en 1% agarosegel. Vellykket ligering vil resultere i en høj molekylvægt bånd er til stede i bane (se figur 2, bane 3).
  3. DNA fragmentering: På dette tidspunkt bør du have store concatemerer (> 10 kb) af PCR-produkter. Vi har en tilfældig sonikering strategi ved hjælp af en 24-prøve Diagenode Bioruptor sonikator, der kan fragment disse concatemerer i 25 minutter (40 sec "on" / 20 sec "off" per minut). Lydbehandling inhiberes af viskositeten indført ved PEG, såDette kan overvindes ved at fortynde prøven 10:01 i Qiagen PB buffer. Resultaterne kan kontrolleres på en 2% agarosegel (se figur 2, bane 4 & 5).
  4. Prøven er klar til at inkorporere direkte i Illumina qenomisk bibliotek Prøvefremstilling protokol begynder med "End Repair" trin. De indberettede data her er fra en enkelt ende læser på Illumina Genome Analyzer IIx, men vi har brugt HiSeq 2000 og udføres enkelt eller parret ende læser med sammenlignelige resultater. Betragtning af omfanget af den skabte biblioteket, har vi også anvendes tilpassede stregkodede adaptere for at multiplekse flere puljede biblioteker til at rumme den båndbredde leveret af HiSeq platformen (data ikke vist). Følg producentens protokol og anbefalinger, der følger med sættet. For at opnå optimal følsomhed og specificitet for variant påvisning mål dækning af 25-fold eller mere pr allel anbefales (figur 3). Dette skøn er uafhængig af pool størrelseog type variant, der skal detekteres. Hvis det er nødvendigt flere baner og løb kan kombineres for at nå en passende dækning.

3. Sekvensering Læser Justering og analyse

  1. Fil komprimering og formatering: Rå sekventering læse filer skal enten omdannes til HALSTØRKLÆDE format eller komprimeret. Kompression er valgfrit, da det sparer tid og plads til de efterfølgende analyser trin uden at miste alle relevante oplysninger. Dette opnås ved hjælp af det medfølgende script RAPGAP_read_compressor_v2.pl med følgende kommando:
    ./RAPGAP_read_compressor_v2.pl [Læs fil]> [Komprimeret Læs fil]
    Accepterede læse fil input formater er HALSTØRKLÆDE og FASTQ, enten gzip eller ukomprimeret:
    HALSTØRKLÆDE format eksempel:
    HWI-EAS440: 7:1:0:316 # 0/1: NTCGATTCACTGCCCAACAACACCAGCTCCTCTCCC: DNWUQSPWWWWUVVPVVWVVVUVVUUPUUWWWWWUW
    FASTQ format eksempel:
    @ HWI-EAS440_7_1_0_410 # 0/1
    NGTGGTTTCTTCTTTGGCTGGGGAGAGGAGCTGGTG
    +
    Og / 8888888888888888888854588767777666!
  2. Raw læses tilpasning: Den rå hits kan nu tilpasses til den kommenterede FASTA henvisningen sekvens specifik for de målrettede områder, der indgår i PCR-reaktioner, samt positive og de negative kontroller. Tilpasningen kan udføres ved hjælp af det medfølgende justeringsværktøj RAPGAPHASH5d. Input-formatet på dette punkt skal være tørklæde eller komprimeret. Kommandoen for tilpasningen er:
    ./RAPGAPHASH5d [Komprimeret Læs fil] [FASTA fil] [antal redigeringer tilladt]> [Alliancefri fil]
    Antallet af fejlparringer pr læses, der er tilladt i forhold til reference-sekvensen er et brugerdefineret parameter. Læser der har et overskydende antal fejlparringer vil blive kasseret. Vi anbefaler at tillade 2 misforhold til 36 bp hits, 4 misforhold til 76 bp læser og 5 paradoksproblemer til 101 bp læser. Tillade flere uoverensstemmelser vil øge sandsynligheden for, giver overskydende sekventering fejl i aligned data. Som læser længder fortsætte med at blive længere tid, kan denne værdi øges yderligere.
  3. Tagging tilpasset filer fra samme flowcelle: På dette tidspunkt hele justeret læse filen skal tildeles en entydig identifikator ("tag") med henblik på at identificere læse filer, der tilhører samme sekventering sigt (dvs. flere baner fra samme flow-cellen kan aggregeres og givet en enkelt tag). Mærket er nødvendig, fordi hver maskine kørsel genererer en unik fejl profil, som kan karakteriseres ved hjælp af mærket. Et tag er en alfanumerisk tegnstreng bruges til at skelne et sæt læser (understregningstegnet "_" bør ikke anvendes til parsing spørgsmål). Forskellige tags skal bruges til afstemt læse filer genereret på forskellige flowceller eller maskine kører. Tags kan tilføjes ved hjælp af det medfølgende RAPGAP_alignment_tagger.pl med følgende kommando:
    . / RAPGAP_alignment_tagger.pl [udsluttet fil] [TAG]> [Alliancefri tagged fil]
    Efter dette punkt, liniefiler fra det samme bibliotek frembringes på flere forskellige flowceller kan kombineres sammen som deres respektive mærker vil holde dem adskilt.
  4. Fejlmodel generation: Som nævnt ovenfor, idet hver maskine kørsel genererer en unik profil af sekventering fejl, der skal karakteriseres for nøjagtig variant opkald. For at modellere disse fejl for hver maskine kørsel, er en intern kontrol sekvens kendt for at være blottet for sekvensvariation indgår i hver samleprøve bibliotek. Fra justeret tagged fil, kan en fejl model-fil genereres ved hjælp af det medfølgende værktøj EMGENERATOR4 med den negative kontrol henvisningen sekvens. Alle negative kontrol sekvens kan anvendes, eller alternativt kun en delmængde af det, der er angivet ved 5 'og 3' fleste baser i input. Unik læser og pseudocounts bør altid anvendes:
    ./EMGENERATOR4 [Alliancefri tagged fil] [negativ kontrol sekvens] [Output file navn] [5 'mest bunden af ​​den negative kontrol, der skal benyttes] [3' mest bunden afden negative kontrol, der skal anvendes] [indeholde unikke læser kun? = Y] [tilpasning redigeringer cutoff] [indtaste pseudocounts? = Y]
    Den EMGENERATOR4 Værktøjet vil generere 3 filer navngivet som output filnavnet parameter efterfulgt af _0, _1 eller _2. Disse filer svarer til et 0., 1. og 2. orden fejl model hhv. For variant ringer med Splinter, bør 2. orden fejlen model altid bruges.
  5. For at visualisere fejlrate profilen af en løb kan error_model_tabler_v4.pl anvendes til at generere en PDF fejl plot af 0:e rækkefølge fejlmodel fil (figur 4):
    ./error_model_tabler_v4.pl [Error model 0:e for file] [output filnavn]
    Handlingen fil vil afsløre run-specifikke fejl tendenser og kan bruges til at udlede det maksimale antal læste baser, der skal anvendes til analysen, der er forklaret i næste afsnit.

4. Sjælden Variant detektion under anvendelse Splinter

  1. Variant Calling af Splinter: Det første trin i analysen er at køre Splinter værktøj på linje filen ved hjælp af fejlen modellen og referencen sekvens. Kommandoen til at gøre det, er:
    ./SPLINTER6r [Alliancefri tagged fil] [FASTA fil] [2. orden fejlmodel fil] [antal læste baser, der skal anvendes] [læs baser eller cykler, der skal undtages] [p-værdi cutoff = -1,301] [brug unik læser = Y] [tilpasning redigeringer cutoff] [pool størrelse fra de tilgængelige muligheder] [udskrive den absolutte dækning pr streng = Y]> [Splinter fil]
    Antallet af læse-baser, der skal anvendes, varierer og bør evalueres efter hvert løb. Vi anbefaler generelt bruger de første 2/3rds i læsning, da de repræsenterer den højeste kvalitet data (de første 24 læse grundlaget for en 36 bp lang læse, for eksempel). Enkelt læse baser kan udelukkes fra analysen, hvis sig at være defekt (adskilt af et komma eller N fx 5,7,11 eller N). Den p-værdi cutoff dikterer, hvordan strenge varianten kald analysen vil være. Vi heller ikkenormalt starte analysen ved at tillade mindst cutoff på -1,301 (svarende til en p-værdi ≤ 0,05 i log10 skala). Puljen størrelse option optimerer algoritmer "signal-støj" diskrimination ved at fjerne potentielle varianter med mindre allelfrekvenserne mindre end en enkelt allel i selve poolen. For eksempel i en pulje af 50 individer, kan den laveste observerede variant forventes ved 0,01 frekvens eller 1 ud af 100 alleler. Således bør poolen størrelse mulighed blive indstillet til den nærmeste værdi der er større end det faktiske antal alleler analyseret i eksperimentet (dvs. hvis 40 personer i undersøgelsen, forventer vi 80 alleler så den nærmeste alternativ ville være en pulje på 100) . Varianter kaldes ved frekvenser <0,01 vil derefter blive ignoreret som støj. Denne fil returnerer alle hits, der er statistisk signifikant på tværs af prøven, med en beskrivelse af placering af den variant, type variant, p-værdi pr DNA-streng, hyppigheden af ​​varianten og den samlede dækning pr DNA-streng (
  2. Normalisering dækning for de såkaldte varianter: Udsving i dækning på tværs af prøven kan generere falske hits. Dette kan korrigeres ved brug af splinter_filter_v3.pl scriptet som følger:
    ./splinter_filter_v3.pl [Splinter fil] [list file] [stringens]> [Splinter normaliseret fil]
    hvor listen filen er en liste over positive kontrol hits i form af en tabulatorsepareret fil.
    Det første felt angiver amplikon af interesse, hvorimod det andet felt angiver den position, i hvilken mutationen er til stede. N indikerer, at resten af ​​sekvensen ikke indeholder mutationen.
  3. Bestemmelse af de optimale p-værdi tærskler ved hjælp af de positive kontroldata: Efter normalisering, er analysen af den positive kontrol nødvendig for at maksimere følsomhed og specificitet af en særlig prøve analyse. Dette kan opnås ved at finde den optimale p-værdi cutoff ved hjælp af oplysningerning fra den positive kontrol. Sandsynligvis vil den initiale p-værdi på -1,301 ikke strenge nok, som i så fald vil resultere i kaldelse af falske positiver fra den positive eller negative kontrol. Hver Splinter analyse vil vise den faktiske p-værdien for hver såkaldte variant (se spalte 5 og 6 i tabel 2), som ikke kunne forudsiges på forhånd. Imidlertid kan hele analysen gentages ved anvendelse af de mindst stringente p-værdi vises på den første udgang for de kendte sande positive basepositioner. Dette vil tjene til at bevare alle sande positive, mens eksklusive fleste, hvis ikke alle, falske positiver, og de har typisk meget mindre signifikant p-værdier i forhold til sande positive. For at automatisere denne proces, kan cutoff_tester.pl bruges cutoff_tester.pl kræver en splint outputfil og en liste af positive kontrol hits i form af en tabulatorsepareret fil, som den, der anvendes til normalisering.:
    . / Cutoff_tester.pl [Splinter filterED-fil] [liste fil]
    Den resulterende output vil være en liste over cutoff der progressivt nå den optimale (se tabel 3). Formatet er:
    [Afstand fra maks. sensitivitet og specificitet] [Sensitivity] [specificitet] [cutoff]
    for eksempel:
    7.76946294170104e-07 1 0,999118554429264 -16,1019999999967
    Den sidste linje repræsenterer den mest optimale cutoff for kørslen, og kan derfor anvendes til dataanalyse. Det optimale resultat er at opnå følsomheden og specificiteten af ​​en. Hvis dette resultat ikke nås, kan Splinter analysen gentages ved at ændre antallet af inkorporerede læses baser, indtil den optimale tilstand er opnået.
  4. Endelig variant filtrering: Den endelige cutoff kan anvendes til data ved hjælp af cutoff_cut.pl script, der vil filtrere Splinter output fil fra hits under optimale cutoff,
    . / Cutoff_cut.pl [Splinter filtreret fil] [cutoff]> [Splinter endeligefil]
    Dette skridt vil generere den endelige Splinter output-fil, som vil indeholde SNPs og Indels til stede i prøven. Bemærk venligst, at output for indsættelser er lidt anderledes end for substitutioner eller deletioner (Tabel 2).

5. Repræsentative resultater

Vi samles en befolkning på 947 personer og målrettet over 20 kb til sekventering. Vi søgte Splinter til påvisning af sjældne varianter efter vores standard protokol. Enkelte tidligere var genotype udføres ved genom-bred vifte genotypebestemmelse. Overensstemmelse mellem genotypebestemmelse af mærket og nye varianter kaldes i samleprøve var fremragende (figur 6). Tre varianter, hvoraf to (rs3822343 og rs3776110) var sjældne i befolkningen, blev kaldt de novo fra Sekventeringsresultaterne og blev godkendt af de enkelte pyrosekventering. Mindre allelhyppigheder (MAF) i puljen var lig MAF rapporteret i dbSNP konstruktion 129. Den MAF overensstemmelse mellem pyrosekventering og samlet sekventering var fremragende (tabel 3).

Tabel 1
Tabel 1. DNA oligonukleotidsekvenser for den positive kontrol. Hver sekvens består af et DNA-fragment er forskellig fra Wild Typebetegnelse af enten to udskiftninger eller en indsættelse og en sletning. Klik her for at se et større billede .

Tabel 2
Tabel 2 nedenfor. Eksempel Splinter output. De første to rækker repræsenterer standard Splinter udgang for en substitution eller en deletion (blå header). Den sidste række repræsenterer standarden Splinter udgang til en indføring (lilla header).rget = "_blank"> Klik her for at se et større billede.

Tabel 3
Tabel 3. Fem kendte og tre nye varianter blev identificeret fra store befolkningsgrupper og valideres af de enkelte genotypebestemmelse. Individuel validering blev udført ved pyrosekventering (p 1-3), TaqMan-assay (p 4-6) eller Sanger-sekvensering (p 7,8). For en bred vifte af allelfrekvenserne og med fem positioner med MAF <1%, overensstemmelse mellem samlet sekventering allelfrekvens estimation og individuel genotypebestemmelse var stærk. Positioner, der er markeret med en stjerne (*) er tilpasset fra tidligere indberettede data 9.

Figur 1
Figur 1. Puljet-DNA-sekventering og Splinterne analyse overblik. Patienten DNA samlesog forstærkes på udvalgte loci. Det endelige PCR-produkterne pooles sammen med en positiv og en negativ kontrol ved ækvimolære forhold. Den samlede blanding bliver derefter sekventeret, og den resulterende læst mappes tilbage til deres reference. Kortlagt negativ kontrol hits bruges til at generere en run-specifik fejl model. Splinter kan derefter anvendes til at detektere sjældne SNP'er og indels ved inkorporering information fra fejlen model og den positive kontrol. [Tilpasset fra Vallania FLM et al, Genome Research 2010] Klik her for at se et større billede .

Figur 2
Figur 2. Puljet PCR-amplikon ligering og sonikering. Som en demonstration af ligeringen og vilkårlig fragmentering trin i biblioteket præparatet protokol blev pUC19 vektor enzymatisk fordøjet fragmenterne er vist i bane 2. Disse fragmenter blev NormaEgenproduktionen af ​​molekylet antal kombineret og tilfældigt ligeret ifølge trin 1.7. De resulterende store konkatamerer er vist i bane 3. De ligerede konkatamerer var ligeligt fordelt og underkastet sonikering som beskrevet i trin 1,8 ovenfor. Den resulterende udstrygning af DNA-fragmenter for hver teknisk replikat er vist i bane 4 og 5. Beslaget fremhæver den størrelse interval, der anvendes til gel udvinding og sekventering bibliotek skabelse.

Figur 3
Figur 3. Nøjagtighed som en funktion af dækning af en enkelt allel i en poolet prøve. Nøjagtigheden er estimeret som arealet under kurven (AUC) af en modtager Operator kurve (ROC), som strækker sig fra 0,5 (random) til 1,0 (perfekt nøjagtighed). AUC er plottet som en funktion af dækning pr allel til påvisning af en enkelt mutante alleler i puljer på 200, 500 og 1000-allelerne (A). AUC er plottet som en funktion total dækning af substitutioner, insertioner og deletions (B). [Tilpasset fra Vallania FLM et al, Genome Research 2010].

Figur 4 Figur 4. Fejl afbildning viser sandsynligheden for at inkorporere en fejlagtig base ved en given position. Fejlen profil viser, at lave fejlrater med en stigende tendens mod 3'-enden af ​​sekventering læst. Især forskellige referenceniveauer nukleotider vise forskellige fejl sandsynligheder (se for eksempel sandsynligheden for inkorporering af et C tildeles en G som reference). [Tilpasset fra Vallania FLM et al, Genome Research 2010].

Figur 5
Figur 5. Nøjagtighed af Splinter i estimering allelfrekvens til stillinger, der havde mere end 25-fold dækning pr allel. Baseret på resultaterne i panel A, figur 3 viser optimal følsomhed for variant påvisning med ≥ 25-folds dækning, ensammenligning mellem poolet-DNA allelhyppigheder anslået ved Splinter med allel tællinger målt ved GWAS resulterer i meget høj korrelation (r = 0,999). [Tilpasset fra Vallania FLM et al, Genome Research 2010].

Figur 6
Figur 6. Sammenligning mellem allelfrekvenserne målt ved GWAS forhold til Splinter skøn fra poolet sekventering af 974 personer. Der var 19 fælles holdninger mellem de genotypebestemmes loci og sekvens regioner til sammenligning. Den resulterende sammenhæng er meget høj (r = 0,99538). Klik her for at se større figur .

Discussion

Der er stigende tegn på, at forekomsten og terapeutiske respons af fælles, komplekse fænotyper og sygdomme som fedme 8, hyperkolesterolæmi 4, hypertension 7 og andre kan blive modereret af personlige profiler af sjældne variation. Identifikation af gener og stier, hvor disse varianter samlede i de berørte befolkninger vil få dybtgående diagnostiske og terapeutiske konsekvenser, men at analysere de ramte personer hver for sig kan være tid og koster uoverkommelige. Population-baseret analyse giver en mere effektiv fremgangsmåde til kortlægning genetisk variation på flere loci.

Vi præsenterer en ny samlet-DNA-sekventering protokol parret med Splinter softwarepakke designet til at identificere denne type af genetisk variation på tværs af befolkningsgrupper. Vi viser rigtigheden af ​​denne metode til at identificere og kvantificere mindre alleler i en stor samlet befolkning på 947 personer, herunder sjældne varianter, der varkaldes de novo fra den samlede sekvensering og valideret af de enkelte pyrosekventering. Vores strategi primært adskiller sig fra andre protokoller, ved inkorporering af en positiv og en negativ kontrol i hvert forsøg. Dette giver Splinter at opnå langt højere præcision og kraft i forhold til andre tilgange 1. Den optimal dækning af 25-gange pr allel er fastgjort uafhængigt af størrelsen af ​​den pulje, hvilket gør analyse af store puljer muligt, da dette krav kun skalaer lineært med puljen størrelse. Vores fremgangsmåde er meget fleksibel og kan anvendes på enhver fænotypen af ​​interesse, men også til prøver, der er naturligt heterogene, såsom blandede cellepopulationer og tumorbiopsier. I betragtning af den stadig stigende interesse for samlet sekventering fra store målområder såsom exome eller genom, vores bibliotek prep og Splinter analyse er kompatibel med custom-capture og hel-exome sekventering, men tilpasning nytte i Splinter pakken var ikke designet til storreferencer sekvenser. Derfor har vi med succes udnyttet dynamisk programmering aligner, Novoalign, for genom-dækkende alignments efterfulgt af variant ringer fra den samlede stikprøve (Ramos et al., Indsendt). Således kan vores samlede sekventeringsstrategien skalere held til større pools med stigende mængder af mål-sekvensen.

Disclosures

Ingen interessekonflikter erklæret.

Acknowledgments

Dette arbejde blev støttet af Børnenes Discovery Institute tilskud MC-II-2006-1 (RDM og TED), NIH Epigenetik køreplanen tilskud [1R01DA025744-01 og 3R01DA025744-02S1] (RDM og FLMV), U01AG023746 (SC), den Saigh Foundation (FLMV og TED), 1K08CA140720-01A1 og Alex Lemonade Stand "A" Award støtte (TED). Vi takker Genome Technology Access Center i Institut for Genetik ved Washington University School of Medicine for at få hjælp med genomisk analyse. Centeret er delvist støttet af NCI Cancer Support Grant # P30 CA91842 til Siteman Cancer Center og gennem IKT / CTSA Grant # UL1RR024992 fra NationalCenter for Research Resources (NCRR), en del af National Institutes of Health (NIH), og NIH køreplanen for Medical Research. Denne publikation er alene forfatternes ansvar og ikke nødvendigvis repræsenterer officielle holdning NCRR eller NIH.

Materials

Name Company Catalog Number Comments
PfuUltra High-Fidelity Agilent 600384 1.4
Betaine SIGMA B2629 1.4
M13mp18 ssDNA vector NEB N4040S 1.5
pGEM-T Easy Promega A1360 1.5
T4 Polynucleotide Kinase NEB M0201S 2.2
T4 Ligase NEB M0202S 2.2
Polyethylene Glycol 8000 MW SIGMA P5413 2.2
Bioruptor sonicator Diagenode UCD-200-TS 2.3

DOWNLOAD MATERIALS LIST

References

  1. Vallania, F. L. M., Druley, T. E., Ramos, E., Wang, J., Borecki, I., Province, M., Mitra, R. D. High-throughput discovery of rare insertions and deletions in large cohorts. Genome Research. 20, 1391-1397 (2010).
  2. Shendure, J., Mitra, R., Varma, C., Church, G. M. Advanced Sequencing Technologies: Methods and Goals. Nature Reviews of Genetics. 5, 335-344 (2004).
  3. The 1000 Genomes Project Consortium. A map of human genome variation from population-scale sequencing. Nature. 467, 1061-1073 (2010).
  4. Manolio, T. A., Collins, F. S., Cox, N. J., Goldstein, D. B., Hindorff, L. A., Hunter, D. J., McCarthy, M. I., Ramos, E. M., Cardon, L. R. Finding the missing heritability of complex diseases. Nature. 461, 747-753 (2009).
  5. Reich, D. E., Lander, E. S. On the allelic spectrum of human disease. Trends Genet. 17, 502-510 (2001).
  6. Cohen, J. C., Kiss, R. S., Pertsemlidis, A., Marcel, Y. L., McPherson, R., Hobbs, H. H. Multiple rare alleles contribute to low plasma levels of HDL cholesterol. Science. 305, 869-872 (2004).
  7. Ji, W., Foo, J. N., O'Roak, B. J., Zhao, H., Larson, M. G., Simon, D. B., Newton-Cheh, C., State, M. W., Levy, D., Lifton, R. P. Rare independent mutations in renal salt handling genes contribute to blood pressure variation. Nat. Genet. 40, 592-599 (2008).
  8. Ahituv, N., Kavaslar, N., Schackwitz, W., Ustaszewska, A., Martin, J., Hebert, S., Doelle, H., Ersoy, B., Kryukov, G., Schmidt, S. Medical sequencing at the extremes of human body mass. Am. J. Hum. Genet. 80, 779-791 (2007).
  9. Druley, T. E., Vallania, F. L., Wegner, D. J., Varley, K. E., Knowles, O. L., Bonds, J. A., Robison, S. W., Doniger, S. W., Hamvas, A., Cole, F. S., Fay, J. C., Mitra, R. D. Quantification of rare allelic variants from pooled genomic DNA. Nat. Methods. 6, 263-265 (2009).
  10. Mitra, R. D., Butty, V., Shendure, J., Housman, D., Church, G. M. Digital Genotyping and Haplotyping with Polymerase Colonies. Proc. Natl. Acad. Sci. 100, 5926-5931 (2003).

Tags

Genetik Genomics Cancer Biology Bioinformatik Pooled DNA-sekventering Splinter sjældne genetiske varianter genetisk screening fænotype high throughput beregningsmæssige analyser DNA PCR primere
Detektion af sjældne genomiske varianter fra poolet sekventering under anvendelse Splinter
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Vallania, F., Ramos, E., Cresci, S., More

Vallania, F., Ramos, E., Cresci, S., Mitra, R. D., Druley, T. E. Detection of Rare Genomic Variants from Pooled Sequencing Using SPLINTER. J. Vis. Exp. (64), e3943, doi:10.3791/3943 (2012).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter