Biology

Påvisning av sjeldne genomisk Varianter fra Pooled Sekvensering Bruke Splinter

Published: June 23, 2012 doi: 10.3791/3943

Francesco Vallania¹, Enrique Ramos¹, Sharon Cresci², Robi D. Mitra¹, Todd E. Druley^1,3

¹Center for Genome Sciences and Systems Biology, Department of Genetics, Washington University School of Medicine, ²Department of Internal Medicine, Washington University School of Medicine, ³Department of Pediatrics, Washington University School of Medicine

Summary

Pooled DNA sekvensering er en rask og kostnadseffektiv strategi for å oppdage sjeldne varianter assosiert med komplekse fenotyper i store kohorter. Her beskriver vi datamaskinell analyse av samlet, neste generasjons sekvensering av 32 kreft-relaterte gener ved hjelp av Splinter programvarepakken. Denne metoden er skalerbar, og gjelder for alle fenotype av interesse.

Abstract

Som DNA-sekvensering teknologi har markert avansert i de senere år ^2, har det blitt stadig tydeligere at mengden av genetisk variasjon mellom to individer er større enn tidligere antatt ^tre. I motsetning, har matrise-basert genotyping ikke klarte å identifisere et betydelig bidrag av felles sekvens varianter til den fenotypiske variasjon av vanlig sykdom ^4,5. Til sammen har disse observasjonene ført til utviklingen av vanlig sykdom / Sjeldne variant hypotese antyder at flertallet av "the missing arvbarhet" i vanlige og komplekse fenotyper er stedet på grunn av den enkeltes personlige profil av sjeldne eller private DNA-varianter ^6-8 . Men å karakterisere hvor sjelden variasjon påvirker komplekse fenotyper krever analyse av mange berørte enkeltpersoner på mange genomisk loci, og er ideelt i forhold til en tilsvarende undersøkelse i en upåvirket kohort. Til tross for sekvensering makten tilbys av dagens plattformer, enpopulasjonsbasert undersøkelse av mange genomisk loci og den påfølgende beregningsanalyse kreves fortsatt uoverkommelige for mange etterforskere.

For å møte dette behovet, har vi utviklet en samlet sekvensering tilnærming ^1,9 og en roman programvarepakke ^en for svært nøyaktig sjelden variant oppdagelse fra den resulterende data. Muligheten til å pool genomer fra hele bestander av berørte enkeltpersoner og kartlegge graden av genetisk variasjon på flere målrettede regioner i et enkelt sekvensering bibliotek gir utmerket kostnad og tidsbesparelser for tradisjonelle én-utvalg sekvensering metodikk. Med en gjennomsnittlig sekvensering dekning per allelet av 25-fold, bruker vår skikk algoritme, Splinter, en intern variant ringer kontroll strategi for å kalle innsettinger, slettinger og erstatninger på opptil fire basepar i lengde med høy sensitivitet og spesifisitet fra bassenger på opp til 1 mutant allel i 500 individer. Her kan vi beskrive metoden for å utarbeide den samlede sequencing bibliotek etterfulgt av steg-for-steg instruksjoner om hvordan du bruker Splinter pakke for samlet sekvensering analyse ( http://www.ibridgenetwork.org/wustl/splinter ). Vi viser en sammenligning mellom samlet sekvensering av 947 individer, som alle også gjennomgikk genom-wide array, på over 20KB av sekvensering per person. Samsvar mellom genotyping av merket og nye varianter kalles i samleprøve var utmerket. Denne metoden kan enkelt skaleres opp til en rekke av genomisk loci og en rekke enkeltpersoner. Ved å innlemme de interne positive og negative fragment kontroller på forhold som etterligner befolkningen som studeres, kan algoritmen kalibreres for optimal ytelse. Denne strategien kan også endres for bruk med hybridisering fangst eller individuell-spesifikke strekkoder og kan brukes til sekvensering av naturlig heterogene prøver, for eksempel svulst DNA.

Protocol

Denne metoden ble brukt i forskning rapportert i Vallania FML et al. Genome Forskning 2010.

1. Eksempel Pooling og PCR Capture av Målrettede genomisk Loci

Kombiner en normalisert mengde genomisk DNA fra hvert individ i bassenget (s). Bruke 0,3 ng DNA per person per PCR reaksjon vil innlemme omtrent 50 diploide genomer per person i hver PCR-reaksjon, som forbedrer sannsynligheten for uniform forsterkning per allel i bassenget.
De genomiske sekvenser kan fås fra NCBI ( http://www.ncbi.nlm.nih.gov/ ) eller UCSC Genome Browser ( http://genome.ucsc.edu/index.html ). Sørg for å bruke "RepeatMasker" (merket til "N") når skaffe sekvensen for å unngå å utforme en primer i en repeterende regionen.
Bruk web-baserte Primer3 (rimer3/input.htm "target =" _blank "> http://frodo.wi.mit.edu/primer3/input.htm) verktøyet for å designe primere ved å klippe og lime de genomiske regioner av interesse pluss noen flankerer sekvenser (amplikonene av 600-2000 bp er typisk ideelle) er de optimale grunning design vilkår for Primer 3 skal brukes ^10: Minimum primer size = 19; Optimum primer size = 25; Maksimal primer size = 30; Minimum Tm = 64 ° C; Optimum Tm. = 70 ° C; Maksimum Tm = 74 ° C; Maksimum Tm forskjell = 5 ° C; Minimum GC innhold = 45; Maksimum GC innhold = 80; Antall tilbake = 20 (dette er vilkårlig), Maks 3 'enden stabilitet = 100 . Design primere til å forsterke alle genomisk loci av interesse. Ved mottak av primere, kan de lyofiliserte bestandene fortynnes i 10 mM Tris, 7,5 pH + 0,1 mM EDTA til en endelig konsentrasjon på 100 UM etterfulgt av en ytterligere 10:01 fortynning i DDH ₂ O til 10 UM.
PCR amplifikasjon: Vi anbefaler bruk av en high-fidelity DNA polymerase til å forsterke store genomiskamplikonene grunn av lav feilrate (10 ^-7) og generering av butte endte produkter (dette er nødvendig for nedstrøms ligation trinn). Vi har brukt PfuUltra Høy Fidelity, men enzymer med lignende egenskaper (for eksempel Phusion) bør gi sammenlignbare resultater. Hver PCR reaksjon inneholder en endelig konsentrasjon på 2,5 U PfuUltra Høy Fidelity polymerase, 1 M Betaine, 400 nM hver primer, 200 mikrometer dNTPs, 1x PfuUltra buffer (eller en buffer som inneholder ≥ 2 mm Mg ^{2 +} i for å opprettholde enzymatisk fidelity) , 5-50 ng av samlet DNA i en endelig volum på 50 mL. Bruk følgende PCR betingelser: 1. 93-95 ° C i 2 minutter, to. 93-95 ° C i 30 sekunder, 3. 58-60 ° C i 30 sekunder; 4. 65-70 ° C i 60-90 sekunder for amplikonene på 250-500 bp / 1,5-3 minutter for amplikonene 500-1000 bp / 3-5 minutter for amplikonene> 1 kB; 5. Gjenta trinn 2-4 for 25-40 sykluser; 6. 65 ° C i 10 minutter; 7. 4 ° C hold. Ved behov kan PCR-resultater vanligvis bedres ved: 1)senke annealing temperaturen for små amplikonene, 2) heve annealing temperaturen for store amplikonene; tre. forlenge forlengelse tid til noe fragment.
Utarbeidelse av Splinter kontroller: Hvert Splinter eksperiment krever tilstedeværelse av en negativ og positiv kontroll for å oppnå optimal nøyaktighet. En negativ kontroll kan bestå av alle homozygote grunnleggende posisjoner i ethvert individ, bar-kodet prøven som tidligere har vært sekvensert (f.eks en HapMap prøve). Den positive kontrollen vil da bestå av en blanding av to eller flere slike prøver. For denne rapporten, er den negative kontrollen en 1934 bp forsterket region fra ryggraden i M13mp18 ssDNA vektoren. PCR produktet var Sanger sekvensert før bruken for å bekrefte at ingen sekvens variasjon eksisterer fra kildematerialet eller PCR forsterkning. Den positive kontrollen består av et panel av pGEM-T enkel vektorer med en 72 bp klonede sette konstruert med bestemte innsettinger, slettinger substitutions (Tabell 1). Vi blander vektorene sammen mot en villtype bakgrunn i molar forholdstall slik at mutasjoner er til stede på frekvensen av en enkelt allel i bassenget (dvs. for en 100-allel bassenget, vil frekvensen av en enkelt allel være 1%). Vi så PCR forsterke blandet kontroll malen ved hjelp av M13 PUC primer nettsteder i pGEM-T Easy, genererer en endelig 355bp lang PCR produktet.

2. Pooled PCR Bibliotek Forberedelse og sekvensering

PCR produkt pooling: Hver PCR produktet skal rengjøres av overskytende primere. Vi brukte Qiagen Qiaquick kolonne rensing eller 96-brønn filter plater med vakuum manifold for storstilt opprydding. Etter rensing, bør hver PCR produkt kvantifiseres ved hjelp av standard teknikker. Kombiner hvert PCR produkt (inkludert kontrollene) til en pool normalisert for molekyl nummer som pooling av konsentrasjonen vil resultere i overvekt av små amplikonene oveh større produkter. Konsentrasjoner konverteres til den absolutte antall DNA molekyler per volum ved hjelp av formelen: (g / mL) x (1 mol x bp / 660 g) x (1 / # bp i fragment) x (6 x 10 ²³ molekyler / 1 mol ) = molekyler / mL. Vi deretter avgjøre volumet fra hver reaksjon er nødvendig å samle en normalisert antall molekyler per fragment. Dette nummeret er vilkårlig, kan justeres og virkelig avhenger pipettering volumer store nok til å opprettholde nøyaktighet. Vi vanligvis Svømmebasseng 1-2 x 10 ¹⁰ molekyler for hvert fragment.
Ligation av PCR produktene: Dette trinnet er nødvendig for å oppnå jevn sekvensering dekning som sonikator av små PCR amplikonene vil partisk sin representasjon mot sin hensikt. For å overvinne dette, ligate vi oppsamlede PCR produktene inn i store concatemers (> = 10 Kb) før fragmentering. PFU Ultra HF Polymerase genererer butte endene, som fører til effektiv ligation (en Taq-basert polymerase vil legge en 3p "A" overheng som ikke vil enllow ligation uten forutgående fylle inn eller følelsesavflatning). Denne reaksjonen kan skaleres opp 2-3 ganger om nødvendig. Den ligation reaksjonen inneholder 10 U T4 polynucleotide kinase, 200 U T4 ligase, 15% w / v polyetylen, 1X-T4 ligase buffer, glykol 8000 MW, opp til 2 mikrogram av samlet PCR produkter i en endelig volum på 50 mL. Reaksjoner inkuberes ved 22 ° C i 16 timer etterfulgt av 65 ° C i 20 minutter og holdt ved 4 ° C etterpå. Suksessen til dette trinnet kan kontrolleres ved lasting 50 ng av prøver i en 1% agarose gel. Vellykket ligation vil resultere i en høy molekylær vekt bandet til stede i kjørefeltet (se figur 2, 3 kjørefelt).
DNA fragmentering: På dette punktet bør du ha store concatemers (> 10 KB) av PCR produktene. Vi har en tilfeldig sonikator strategi ved hjelp av en 24-sample Diagenode Bioruptor sonicator som kan fragmentere disse concatemers i 25 minutter (40 sek "på" / 20 sek "off" per minutt). Sonikator hemmes av viskositet introdusert av PEG, sådette kan overvinnes ved å fortynne prøven 10:01 i Qiagen PB buffer. Resultatene kan kontrolleres på en 2% agarose gel (se figur 2, baner 4 & 5).
Utvalget er klar til å innlemme direkte i Illumina Genomisk Bibliotek Prøvepreparering protokoll som begynner med "End Repair" trinn. Dataene som rapporteres her er fra én ende leser på Illumina Genome Analyzer IIx, men vi har brukt HiSeq 2000 og utført enkel eller parvise end leser med sammenlignbare resultater. Gitt omfanget av biblioteket laget, har vi også brukt egendefinerte strekkodet adaptere for å multiplekse flere sammenslåtte biblioteker for å imøtekomme den båndbredden leveres av HiSeq plattformen (data ikke vist). Følg produsentens protokollen og anbefalinger som følger med settet. For å oppnå optimal sensitivitet og spesifisitet for variant deteksjon, målet dekning av 25-fold eller mer per allel er anbefalt (figur 3). Dette anslaget er uavhengig av bassenget størrelseog type variant å bli oppdaget. Om nødvendig skal flere baner og løyper kan kombineres for å nå tilstrekkelig dekning.

3. Sekvensering Leser Justering og analyse

Filkomprimering og formatering: Rå sekvensering lese filer bør enten konverteres til SKJERF format eller komprimert. Kompresjon er valgfritt som det sparer tid og rom for de påfølgende analyse fremgangsmåten uten å miste all relevant informasjon. Dette oppnås ved hjelp av den medfølgende skriptet RAPGAP_read_compressor_v2.pl med følgende kommando:
./RAPGAP_read_compressor_v2.pl [Read file]> [Komprimert Les fil]
Aksepterte lese filen inngangsformater er SKJERF og FASTQ, enten gzip eller ukomprimert:
SKJERF format eksempel:
HWI-EAS440: 7:1:0:316 # 0/1: NTCGATTCACTGCCCAACAACACCAGCTCCTCTCCC: DNWUQSPWWWWUVVPVVWVVVUVVUUPUUWWWWWUW
FASTQ format eksempel:
@ HWI-EAS440_7_1_0_410 # 0/1
NGTGGTTTCTTCTTTGGCTGGGGAGAGGAGCTGGTG
+
& / 8888888888888888888854588767777666!
Raw lese justering: Den rå lesninger kan nå justert til annotert FASTA referanse sekvens spesifikk for de målrettede regionene som inngår i PCR reaksjoner, samt positive og de negative kontrollene. Justeringen kan utføres ved hjelp av den medfølgende justering verktøyet RAPGAPHASH5d. Inngangen formatet på dette punktet må være skjerf eller komprimert. Kommandoen for justeringen er:
./RAPGAPHASH5d [Komprimert lese filen] [FASTA file] [antall endringer tillates]> [alliansefrie fil]
Antallet mismatches per lest som er tillatt i forhold til referansen sekvensen er en brukerdefinert parameter. Lesninger som har et overskudd antall uoverensstemmelser vil bli forkastet. Vi anbefaler å la 2 mismatches for 36 bp lesninger, 4 mismatches for 76 bp leser og 5 mismatches for 101 bp leser. Tillater flere misforhold vil øke sannsynligheten for å tillate overskytende sekvensering feil inn i aligned data. Som leser lengder fortsette å bli lengre, kan denne verdien økes ytterligere.
Tagging justert filer fra samme flowcell: På dette punktet hele justert lese filen bør gis en unik identifikator ("tag") for å identifisere lese filer som tilhører samme sekvensering sikt (dvs. flere baner fra samme flowcell kan aggregeres og gitt en enkelt kode). Koden er nødvendig fordi hver maskin løp genererer en unik feil profil som kan karakteriseres via taggen. En kode er en alfanumerisk streng med tegn som brukes til å skille et sett leser (understrekingstegn "_" bør ikke brukes for parsing saker). Ulike koder bør brukes for innretta lese filer som genereres på ulike flowcells eller maskinen kjører. Tags kan legges ved hjelp av den medfølgende RAPGAP_alignment_tagger.pl med følgende kommando:
. / RAPGAP_alignment_tagger.pl [alliansefrie fil] [TAG]> [alliansefrie tagget fil]
Etter dette punktet, justertfiler fra samme bibliotek generert på flere forskjellige flowcells kan kombineres sammen som sine respektive koder vil holde dem adskilt.
Feil modell generasjon: Som nevnt ovenfor, genererer hver maskin kjører en unik profil for sekvensering feil som må karakteriseres for nøyaktig variant kall. For å modellere disse feilene for hver maskin løp, er en intern kontroll sekvens kjent for å være blottet for sekvens variasjon inngår i hver samleprøve bibliotek. Fra justert tagget fil, kan en feil modell filen være generert ved hjelp av den medfølgende verktøyet EMGENERATOR4 med den negative kontrollen referanse sekvens. All den negative kontrollen sekvensen kan brukes eller alternativt bare en undergruppe av den, fastsatt av 5 'og 3' fleste baser i inngang. Unik leser og pseudocounts bør alltid brukes:
./EMGENERATOR4 [Aligned tagget fil] [negativ kontroll sekvens] [Output filnavnet] [5 'mest bunnen av den negative kontrollen skal brukes] [3' mest base avnegativ kontroll skal brukes] [inkluderer unike leser bare? = Y] [justeringen endringer cutoff] [skriv pseudocounts? = Y]
Den EMGENERATOR4 Verktøyet vil generere 3 filer navngitt som output file name parameter etterfulgt av _0, _1 eller _2. Disse filene tilsvarer en 0th, første og andre orden feil modell henholdsvis. For variant ringer med Splinter, bør andre rekkefølgen feilen modell alltid brukes.
For å visualisere feilraten profilen et løp, kan error_model_tabler_v4.pl brukes til å generere en PDF feil tomt på 0th ordre feilen modell fil (figur 4):
./error_model_tabler_v4.pl [Feil modell 0th orden fil] [utdatafil navn]
Tomten filen vil avsløre run-spesifikke feilmeldinger trender og kan brukes til å utlede maksimalt antall leste baser som skal brukes for analyse, som er forklart i neste avsnitt.

4. Sjelden variant Detection Bruke Splinter

Variant calling av Splinter: Det første trinnet i analysen er å kjøre Splinter verktøyet på linje filen ved hjelp av feil modell og referanse sekvens. Kommandoen for å gjøre dette er:
./SPLINTER6r [Aligned tagget fil] [FASTA file] [andre for feil modell fil] [antall leste å bruke baser] [les baser eller sykluser som skal ekskluderes] [p-verdi cutoff = -1,301] [bruk unike leser = Y] [justeringen endringer cutoff] [basseng størrelse fra de tilgjengelige alternativene] [skrive ut den absolutte dekning per tråd = Y]> [Splinter fil]
Antallet lest baser som skal benyttes varierer og bør vurderes i henhold til hver kjøring. Vi anbefaler generelt å bruke de første 2/3rds av den lyde som de representerer den høyeste kvalitet dataene (den første 24 leste baser av en 36bp lang lese, for eksempel). Enkle lese baser kan bli ekskludert fra analysen hvis det blir funnet å være defekt (atskilt med et komma eller N f.eks 5,7,11 eller N). P-verdien cutoff dikterer hvor strenge varianten kallet analysen kommer til å være. Vi ellernormalt starte analysen ved å tillate et minimum tidsavgrensning av -1.301 (tilsvarer en p-verdi ≤ 0,05 i log10 skala). Bassenget størrelsesalternativet optimaliserer algoritmer "signal-til-støy" diskriminering ved å eliminere potensielle varianter med mindre allelfrekvensene mindre enn ett enkelt allel i selve bassenget. For eksempel i et basseng på 50 individer, kan den laveste observerte varianten forventes på 0,01 frekvens eller en i 100 alleler. Derfor bør bassenget størrelsesalternativet settes til nærmeste verdi som er større enn det faktiske antall alleler analysert i forsøket (dvs. hvis 40 personer er kartlagt, forventer vi 80 alleler så det nærmeste alternativet ville være en pool størrelse 100) . Varianter kalles på frekvenser <0.01 vil da bli ignorert som støy. Denne filen returnerer alle treff som er statistisk signifikant over prøven, med en beskrivelse av posisjon av den varianten, type variant, p-verdi per DNA-tråden, frekvens av den varianten og total dekning per DNA-tråden (
Normalisering dekning for de såkalte varianter: Svingninger i dekning over prøven kan generere falske treff. Dette kan rettes opp ved å påføre splinter_filter_v3.pl script som følger:
./splinter_filter_v3.pl [Splinter fil] [list file] [stringens]> [Splinter normalisert fil]
hvor listen filen er en liste over positive kontroll treff i form av en tabulatordelt fil.
Det første feltet indikerer fragment av interesse, mens det andre feltet angir posisjon der mutasjonen er til stede. N indikerer at resten av sekvensen ikke inneholder noen mutasjon.
Finne optimal p-verdi terskler ved hjelp av positive kontrolldata: Etter normalisering, er analysen av den positive kontrollen uunnværlig for å maksimere sensitivitet og spesifisitet av en spesiell analyse av prøver. Dette kan oppnås ved å finne den optimale p-verdi cutoff med informasjon fra den positive kontrollen. Mest sannsynlig vil den første p-verdi på -1,301 ikke være strenge nok, noe som i så fall vil resultere i kallet falske positiver fra den positive eller negative kontroll. Hver Splinter analyse vil vise den faktiske p-verdi for hver såkalt variant (se kolonne 5 og 6 på tabell 2), som ikke kunne spådd a priori. Imidlertid kan hele analysen gjentas ved å bruke minst strenge p-verdi vises på den første produksjonen for de kjente sanne positive baser posisjoner. Dette vil bidra til å beholde alle sanne positive og ekskluderer de fleste, om ikke alle, falske positiver, og de har vanligvis mye mindre signifikant p-verdier i forhold til sanne positive. For å automatisere denne prosessen, kan det cutoff_tester.pl brukes cutoff_tester.pl krever en Splinter utdatafilen og en liste over positive kontroll treff i form av en tabulatordelt fil som den som brukes til normalisering.:
. / Cutoff_tester.pl [Splinter filterEd fil] [list file]
Den resulterende produksjonen vil være en liste over tidsavgrensninger som gradvis oppnå optimal ett (se tabell 3). Formatet er:
[Avstand fra maks sensitivitet og spesifisitet] [sensitivitet] [spesifisitet] [cutoff]
for eksempel:
7.76946294170104e-07 1 0.999118554429264 -16.1019999999967
Den siste linjen representerer den mest optimale cutoff for løpet, og kan derfor brukes for dataanalyse. Den optimale resultatet er å oppnå sensitivitet og spesifisitet av en. I tilfelle dette resultatet ikke er nådd, kan Splinter analysen gjentas ved å endre antall inkorporerte lese baser til den mest optimale tilstanden er oppnådd.
Endelig variant filtrering: Den endelige cutoff kan brukes til data ved hjelp cutoff_cut.pl script, noe som vil filtrere Splinter utdatafilen fra treff under optimale cutoff,
. / Cutoff_cut.pl [Splinter filtrert fil] [cutoff]> [Splinter finalenfile]
Dette trinnet vil generere den endelige Splinter utdatafilen, som vil inneholde SNPs og Indels tilstede i prøven. Vær oppmerksom på at utgangen for innsettinger er litt annerledes enn for erstatninger eller slettinger (tabell 2).

5. Representative Resultater

Vi samlet en befolkning på 947 individer og målrettet over 20 kb for sekvensering. Vi søkte Splinter for påvisning av sjeldne varianter etter vår standard protokoll. Hver enkelt hadde tidligere hadde genotyping utført av genom-rekke genotyping. Samsvar mellom genotyping av merket og nye varianter kalles i samleprøve var utmerket (figur 6). Tre varianter, hvorav to (rs3822343 og rs3776110) var sjeldne i befolkningen, ble kalt de novo fra sekvensering resultatene og ble validert ved individuell pyrosequencing. Mindre allelfrekvensene (MAF) i bassenget var lik den MAF rapportert i dbSNP build 129. Den MAF samsvar mellom pyrosequencing og samlet sekvensering var utmerket (Tabell 3).

Tabell 1. DNA oligonukleotid sekvenser for den positive kontroll. Hver sekvens består av en DNA fragment forskjellig fra Wild Type referanse av enten to substitusjoner eller én innsetting og en sletting. Klikk her for å se større bilde .

Tabell 2. Eksempel på Splinter utgang. De to første radene representerer standard Splinter utgang for en innbytte eller en sletting (blå header). Den siste raden representerer standard Splinter utgang for en innsetting (lilla header).rget = "_blank"> Klikk her for å se større bilde.

Tabell 3. Fem kjente og tre nye varianter ble identifisert fra store populasjoner og validert av individuell genotyping. Individuell validering ble utført av pyrosequencing (rader 1-3), TaqMan analysen (rader 4-6) eller Sanger-sekvensering (rader 7,8). For et bredt spekter av allelfrekvensene og med fem stillinger med MAF <1%, samsvar mellom samlet sekvensering allelfrekvens estimering og individuell genotyping var sterk. Posisjoner merket med en stjerne (*) er tilpasset fra tidligere rapporterte data ^ni.

Figur 1
Figur 1. Pooled-DNA sekvensering og Splinter analyse oversikt. Pasient DNA er samletog forsterket på utvalgte loci. De endelige PCR produktene er samlet sammen med en positiv og negativ kontroll i equimolar forholdstall. Den sammenslåtte blandingen blir så sekvensert og det resulterende lesninger er kartlagt tilbake til referanse sin. Kartlagt negativ kontroll lesninger brukes til å generere en run-spesifikk feil modell. Splinter kan deretter brukes til å oppdage sjeldne SNPs og indels ved å innlemme informasjon fra feil modell og den positive kontrollen. [Hentet fra Vallania FLM et al, genomforskning 2010] Klikk her for å se større bilde .

Figur 2
Figur 2. Pooled PCR fragment ligation og sonikator. Som en demonstrasjon av ligation og tilfeldige fragmentering skritt i biblioteket forberedelse protokollen, ble pUC19 vektor enzymatisk fordøyd til de fragmenter vist i kjørefelt 2. Disse fragmentene var Normalized av molekyl nummer, kombinert og tilfeldig ligated henhold til trinn 1.7 ovenfor. De resulterende store concatamers er vist i kjørefeltet tre. De ligated concatamers var likt fordelt, og utsatt for sonikator som beskrevet i trinn 1.8 ovenfor. Den resulterende smear av DNA fragmenter for hver teknisk gjengivelse er vist i baner 4 og 5. Braketten fremhever størrelsen brukes til gel utvinning og sekvensering bibliotek skaperverket.

Figur 3
Figur 3. Nøyaktighet som en funksjon av dekning for en enkelt allel i en samleprøve. Nøyaktighet beregnes som arealet under kurven (AUC) av en mottaker Operator Curve (ROC), som spenner fra 0,5 (tilfeldig) til 1,0 (perfekt nøyaktighet). AUC er plottet som en funksjon av dekning pr allel for påvisning av single mutante alleler i bassenger på 200, 500 og 1000 alleler (A). AUC er plottet som en funksjon total dekning for byttinger, innsettinger og deletions (b). [Hentet fra Vallania FLM et al, genomforskning 2010].

Figur 4 Figur 4. Feil Plot viser sannsynligheten for å innlemme en feilaktig base på en gitt posisjon. Feilen Profilen viser lave feilrater med en økende trend mot 3 'enden av sekvensering lest. Spesielt forskjellige referansenummer nukleotider vise forskjellige feilmeldinger sannsynligheter (se for eksempel sannsynligheten for å innlemme en C gitt en G som referanse). [Hentet fra Vallania FLM et al, genomforskning 2010].

Figur 5
Figur 5. Nøyaktighet av Splinter i estimere allelfrekvens for stillinger som hadde mer enn 25 ganger dekning per allel. Basert på resultater i Panel A, Figur 3 viser optimal følsomhet for enkel variant deteksjon med ≥ 25-fold dekning, ensammenligning mellom sammenslåtte-DNA allelfrekvensene estimert av Splinter med allel teller målt ved GWAS resulterer i svært høy korrelasjon (r = 0,999). [Hentet fra Vallania FLM et al, genomforskning 2010].

Figur 6
Figur 6. Sammenligning mellom allelfrekvenser målt ved GWAS sammenlignet med Splinter estimater fra samlet sekvensering av 974 individer. Det var 19 felles posisjoner mellom genotypet loci og sekvensen regioner for sammenligning. Den resulterende Korrelasjonen er svært høy (r = 0,99538). Klikk her for å se større figur .

Discussion

Det er økende bevis for at forekomsten og terapeutisk respons av vanlige, komplekse fenotyper og sykdommer som fedme ^8, hyperkolesterolemi ^4, hypertensjon ⁷ og andre kan bli moderert av personlige profiler av sjeldne variasjon. Identifisere gener og gangstier hvor disse variantene aggregerte i berørte befolkninger vil ha dyptgripende diagnostiske og terapeutiske implikasjoner, men analysere berørte enkeltpersoner separat kan være tid og koste prohibitive. Befolkning-baserte analyser gir en mer effektiv metode for kartlegging genetisk variasjon på flere loci.

Vi presenterer en roman samlet DNA-sekvensering protokollen sammen med Splinter programvarepakken utformet for å identifisere denne typen genetisk variasjon på tvers av befolkningsgrupper. Vi viser nøyaktigheten av denne metoden for å identifisere og kvantifisere mindre alleler innen en stor samlet befolkning på 947 personer, inkludert sjeldne varianter som varringte de novo fra den samlede sekvensering og validert av individuell pyrosequencing. Vår strategi skiller seg hovedsakelig fra andre protokoller ved inkorporering av en positiv og en negativ kontroll i hvert eksperiment. Dette gjør Splinter å oppnå mye høyere nøyaktighet og kraft i forhold til andre tilnærminger ^1. Den optimale dekning av 25-fold per allel er fast uavhengig av størrelsen på bassenget, noe som gjør analyse av store bassenger gjennomførbar da dette kravet bare skalerer lineært med basseng størrelsen. Vår tilnærming er svært fleksibel og kan brukes på alle fenotype av interesse, men også til prøver som er naturlig heterogen, for eksempel blandede celle populasjoner og tumor biopsier. Gitt den stadig økende interessen samlet sekvensering fra store målet regioner som exome eller genom, er vårt bibliotek prep og Splinter analyse kompatibel med custom-fangst og hel-exome sekvensering, men justeringen verktøyet i Splinter pakken ble ikke konstruert for storreferanser sekvenser. Derfor har vi lykkes utnyttet dynamisk programmering aligner, Novoalign, for genom-wide alignments etterfulgt av variant ringer fra samleprøve (Ramos et al., Innsendt). Dermed kan vår samles sekvensering strategi skalere hell til større forekomster med økende mengder av målet sekvens.

Disclosures

Ingen interessekonflikter erklært.

Acknowledgments

Dette arbeidet ble støttet av Barnas Discovery Institute stipend MC-II-2006-1 (RDM og TED), NIH epigenetikk Roadmap stipend [1R01DA025744-01 og 3R01DA025744-02S1] (RDM og FLMV), U01AG023746 (SC), den Saigh Foundation (FLMV og TED), 1K08CA140720-01A1 og Alex 'Lemonade Stand "A" Award støtte (TED). Vi takker Genome Technology Access Center ved Institutt for genetikk ved Washington University School of Medicine for hjelp med genomisk analyse. Senteret støttes delvis av NCI Cancer Center Support Grant # P30 CA91842 til Siteman Cancer Center og ved IKT / CTSA Grant # UL1RR024992 fra NationalCenter for Research Resources (NCRR), en komponent av National Institutes of Health (NIH), og NIH Veikart for Medical Research. Denne publikasjonen er utelukkende ansvaret til forfatterne og ikke nødvendigvis representerer den offisielle syn NCRR eller NIH.

Materials

Name	Company	Catalog Number	Comments
PfuUltra High-Fidelity	Agilent	600384	1.4
Betaine	SIGMA	B2629	1.4
M13mp18 ssDNA vector	NEB	N4040S	1.5
pGEM-T Easy	Promega	A1360	1.5
T4 Polynucleotide Kinase	NEB	M0201S	2.2
T4 Ligase	NEB	M0202S	2.2
Polyethylene Glycol 8000 MW	SIGMA	P5413	2.2
Bioruptor sonicator	Diagenode	UCD-200-TS	2.3

DOWNLOAD MATERIALS LIST

References

Vallania, F. L. M., Druley, T. E., Ramos, E., Wang, J., Borecki, I., Province, M., Mitra, R. D. High-throughput discovery of rare insertions and deletions in large cohorts. Genome Research. 20, 1391-1397 (2010).
Shendure, J., Mitra, R., Varma, C., Church, G. M. Advanced Sequencing Technologies: Methods and Goals. Nature Reviews of Genetics. 5, 335-344 (2004).
The 1000 Genomes Project Consortium. A map of human genome variation from population-scale sequencing. Nature. 467, 1061-1073 (2010).
Manolio, T. A., Collins, F. S., Cox, N. J., Goldstein, D. B., Hindorff, L. A., Hunter, D. J., McCarthy, M. I., Ramos, E. M., Cardon, L. R. Finding the missing heritability of complex diseases. Nature. 461, 747-753 (2009).
Reich, D. E., Lander, E. S. On the allelic spectrum of human disease. Trends Genet. 17, 502-510 (2001).
Cohen, J. C., Kiss, R. S., Pertsemlidis, A., Marcel, Y. L., McPherson, R., Hobbs, H. H. Multiple rare alleles contribute to low plasma levels of HDL cholesterol. Science. 305, 869-872 (2004).
Ji, W., Foo, J. N., O'Roak, B. J., Zhao, H., Larson, M. G., Simon, D. B., Newton-Cheh, C., State, M. W., Levy, D., Lifton, R. P. Rare independent mutations in renal salt handling genes contribute to blood pressure variation. Nat. Genet. 40, 592-599 (2008).
Ahituv, N., Kavaslar, N., Schackwitz, W., Ustaszewska, A., Martin, J., Hebert, S., Doelle, H., Ersoy, B., Kryukov, G., Schmidt, S. Medical sequencing at the extremes of human body mass. Am. J. Hum. Genet. 80, 779-791 (2007).
Druley, T. E., Vallania, F. L., Wegner, D. J., Varley, K. E., Knowles, O. L., Bonds, J. A., Robison, S. W., Doniger, S. W., Hamvas, A., Cole, F. S., Fay, J. C., Mitra, R. D. Quantification of rare allelic variants from pooled genomic DNA. Nat. Methods. 6, 263-265 (2009).
Mitra, R. D., Butty, V., Shendure, J., Housman, D., Church, G. M. Digital Genotyping and Haplotyping with Polymerase Colonies. Proc. Natl. Acad. Sci. 100, 5926-5931 (2003).