Detection of Rare Genomic Variants from Pooled Sequencing Using SPLINTER

Francesco Vallania; Enrique Ramos; Sharon Cresci; Robi D. Mitra; Todd E. Druley

doi:10.3791/3943

JoVE Journal > Biology

Please note that all translations are automatically generated. Click here for the English version.

Biology

दुर्लभ जीनोमिक वेरिएंट के जमा अनुक्रमण का प्रयोग किरच से जांच

Published: June 23, 2012

doi:

10.3791/3943

Francesco Vallania, Enrique Ramos, Sharon Cresci, Robi D. Mitra, Todd E. Druley³

¹Center for Genome Sciences and Systems Biology, Department of Genetics,Washington University School of Medicine, ²Department of Internal Medicine,Washington University School of Medicine, ³Department of Pediatrics,Washington University School of Medicine

Summary

जमा डीएनए अनुक्रमण एक तेजी से और लागत प्रभावी करने के लिए दुर्लभ बड़े साथियों में जटिल phenotypes के साथ जुड़े वेरिएंट का पता लगाने के लिए रणनीति है. हम यहाँ जमा, 32 कैंसर से संबंधित किरच सॉफ्टवेयर पैकेज का उपयोग कर जीनों की अगली पीढ़ी के अनुक्रमण के कम्प्यूटेशनल विश्लेषण का वर्णन. इस विधि स्केलेबल है, और ब्याज की किसी भी फेनोटाइप के लिए लागू है.

Abstract

As DNA sequencing technology has markedly advanced in recent years², it has become increasingly evident that the amount of genetic variation between any two individuals is greater than previously thought³. In contrast, array-based genotyping has failed to identify a significant contribution of common sequence variants to the phenotypic variability of common disease^4,5. Taken together, these observations have led to the evolution of the Common Disease / Rare Variant hypothesis suggesting that the majority of the “missing heritability” in common and complex phenotypes is instead due to an individual’s personal profile of rare or private DNA variants^6-8. However, characterizing how rare variation impacts complex phenotypes requires the analysis of many affected individuals at many genomic loci, and is ideally compared to a similar survey in an unaffected cohort. Despite the sequencing power offered by today’s platforms, a population-based survey of many genomic loci and the subsequent computational analysis required remains prohibitive for many investigators.

To address this need, we have developed a pooled sequencing approach^1,9 and a novel software package¹ for highly accurate rare variant detection from the resulting data. The ability to pool genomes from entire populations of affected individuals and survey the degree of genetic variation at multiple targeted regions in a single sequencing library provides excellent cost and time savings to traditional single-sample sequencing methodology. With a mean sequencing coverage per allele of 25-fold, our custom algorithm, SPLINTER, uses an internal variant calling control strategy to call insertions, deletions and substitutions up to four base pairs in length with high sensitivity and specificity from pools of up to 1 mutant allele in 500 individuals. Here we describe the method for preparing the pooled sequencing library followed by step-by-step instructions on how to use the SPLINTER package for pooled sequencing analysis (http://www.ibridgenetwork.org/wustl/splinter). We show a comparison between pooled sequencing of 947 individuals, all of whom also underwent genome-wide array, at over 20kb of sequencing per person. Concordance between genotyping of tagged and novel variants called in the pooled sample were excellent. This method can be easily scaled up to any number of genomic loci and any number of individuals. By incorporating the internal positive and negative amplicon controls at ratios that mimic the population under study, the algorithm can be calibrated for optimal performance. This strategy can also be modified for use with hybridization capture or individual-specific barcodes and can be applied to the sequencing of naturally heterogeneous samples, such as tumor DNA.

Protocol

Vallania FML एट अल जीनोम. 2010 शोध रिपोर्ट में शोध में इस विधि का इस्तेमाल किया गया था. 1. नमूना Pooling और लक्षित जीनोमिक loci पीसीआर कैद जीनोमिक डीएनए के प्रत्येक व्यक्ति से एक सामान्यीकृत अपने पूल (ओं) में राशि का मिश्रण. पीसीआर प्रतिक्रिया प्रति व्यक्ति प्रति डीएनए की 0.3 एनजी का प्रयोग प्रत्येक पीसीआर प्रतिक्रिया, जो पूल के एलील प्रति वर्दी प्रवर्धन की संभावना में सुधार में लगभग 50 व्यक्ति प्रति द्विगुणित जीनोम को शामिल करेंगे. जीनोमिक दृश्यों (NCBI से प्राप्त किया जा सकता है http://www.ncbi.nlm.nih.gov/ ) या UCSC जीनोम (ब्राउज़र http://genome.ucsc.edu/index.html को ) उपयोग करने के लिए सुनिश्चित करें. "RepeatMasker" ("एन") के रूप में चिह्नित करने के लिए एक दोहराव क्षेत्र में एक किताब डिजाइन से बचने के अनुक्रम प्राप्त करने. वेब आधारित Primer3 का उपयोग करें (rimer3/input.htm "लक्ष्य =" "_blank http://frodo.wi.mit.edu/primer3/input.htm>) के लिए ब्याज के अलावा कुछ flanking दृश्यों के जीनोमिक क्षेत्रों को काटने और चिपकाने के द्वारा प्राइमरों डिजाइन उपयोगिता (amplicons 600-2000 बीपी आम तौर पर कर रहे हैं आदर्श) 3 प्राइमर के लिए इष्टतम प्रथम डिजाइन की स्थिति के लिए इस्तेमाल किया जा 10: न्यूनतम प्राइमर आकार = 19; इष्टतम प्राइमर आकार = 25, अधिकतम प्राइमर आकार = 30; न्यूनतम tm = 64 डिग्री सेल्सियस, इष्टतम Tm. = 70 ° सी, अधिकतम Tm = 74 डिग्री सेल्सियस, अधिकतम tm = 5 अंतर डिग्री सेल्सियस, न्यूनतम जीसी सामग्री 45 =; अधिकतम जीसी सामग्री 80 = 20 = वापसी (यह मनमाना है) संख्या, अधिकतम 3 'अंत स्थिरता = 100 डिजाइन प्राइमरों प्राप्त करने पर ब्याज के सभी जीनोमिक loci बढ़ाना प्राइमरों., lyophilized स्टॉक के 10 मिमी Tris, 7.5 पीएच + 0.1 मिमी EDTA में 100 उम की अंतिम एकाग्रता DDH में एक अतिरिक्त 10:01 कमजोर पड़ने के बाद पतला किया जा सकता है 2 हे से 10 उम. हम उच्च विश्वस्तता एक डीएनए पोलीमरेज़ का उपयोग बड़े जीनोमिक बढ़ाना करने की सलाह देते हैं पीसीआर प्रवर्धन:कम त्रुटि दर 10) (-7 और कुंद समाप्त उत्पादों (इस बहाव बंधाव कदम के लिए आवश्यक है) के उत्पादन के कारण amplicons. हम उच्च फिडेलिटी PfuUltra के इस्तेमाल किया है, लेकिन इसी तरह की विशेषताओं के (जैसे Phusion रूप में) के साथ एंजाइमों तुलनीय परिणाम प्रदान करना चाहिए. प्रत्येक पीसीआर प्रतिक्रिया 2.5 यू PfuUltra पोलीमरेज़ उच्च फिडेलिटी के अंतिम एकाग्रता शामिल हैं, 1 एम Betaine, 400 एनएम प्रत्येक प्राइमर, 200 माइक्रोन dNTPs, में 1x PfuUltra बफर (या एक ≥ 2 मिमी 2 मिलीग्राम से युक्त क्रम में एंजाइमी निष्ठा बनाए रखने के लिए बफर) 50 μL की एक अंतिम मात्रा में जमा डीएनए के 5-50 एनजी. 1: निम्नलिखित पीसीआर स्थितियों का उपयोग करें. 93-95 ° सी 2 मिनट के लिए, 2. 93-95 ° C 30 सेकंड के लिए, 3. 58-60 ° C 30 सेकंड के लिए, 4. 65-70 ° C 250-500 बीपी / 1.5-3 पहले amplicons 500-1000 बीपी /> 1 केबी amplicons के लिए 3-5 मिनट के लिए amplicons के लिए 60-90 सेकंड के लिए, 5. दोहराएँ 25-40 चक्र के लिए चरण 2-4, 6. 65 ° C 10 मिनट के लिए, 7. 4 डिग्री सेल्सियस पकड़. यदि आवश्यक हो, पीसीआर परिणाम आम तौर पर द्वारा सुधार किया जा सकता है: 1)2) बड़े amplicons के लिए annealing के तापमान को ऊपर उठाने,, छोटे amplicons के लिए annealing के तापमान को कम 3. किसी भी amplicon के लिए विस्तार के समय लंबी. : किरच नियंत्रण की तैयारी हर किरच प्रयोग इष्टतम शुद्धता को प्राप्त करने के लिए एक नकारात्मक और सकारात्मक नियंत्रण की उपस्थिति की आवश्यकता है. एक नकारात्मक नियंत्रण किसी भी व्यक्ति, बार कोड नमूना में सभी समयुग्मजी आधार पदों है कि पहले से अनुक्रम HapMap नमूना जैसे हो सकते हैं. सकारात्मक नियंत्रण तो ऐसे दो या दो से अधिक नमूनों का एक मिश्रण के शामिल होगा. इस रिपोर्ट के लिए, नकारात्मक नियंत्रण की M13mp18 ssDNA वेक्टर रीढ़ की हड्डी से एक 1934 बीपी प्रवर्धित क्षेत्र है. पीसीआर उत्पाद सेंगर अनुक्रम इसके उपयोग से पहले क्रम में पुष्टि करने के लिए कि कोई अनुक्रम भिन्नता स्रोत सामग्री या पीसीआर प्रवर्धन से मौजूद है. सकारात्मक नियंत्रण सम्मिलित क्लोन एक 72 बीपी साथ pGEM टी आसान वैक्टर के एक पैनल का विशिष्ट सम्मिलन, हटाना, substit के इंजीनियर के साथ होते हैंutions (तालिका 1). हम वैक्टर साथ दाढ़ अनुपात में एक जंगली प्रकार की पृष्ठभूमि के खिलाफ मिश्रण है कि इस तरह के परिवर्तन पूल में एक एलील (यानी 100 एलील पूल के लिए, एक ही एलील की आवृत्ति 1%) की आवृत्ति पर मौजूद हैं. हम तो पीसीआर मिश्रित नियंत्रण M13 pGEM – टी आसान में पीयूसी प्राइमर साइटों का उपयोग कर, एक अंतिम 355bp लंबे समय पीसीआर उत्पाद पैदा टेम्पलेट बढ़ाना. 2. जमा पीसीआर पुस्तकालय तैयारी और अनुक्रमण पीसीआर उत्पाद पूलिंग: प्रत्येक पीसीआर उत्पाद अतिरिक्त प्राइमरों की साफ किया जाना चाहिए. हम क्विएज़न Qiaquick स्तंभ शुद्धि या 96 में अच्छी तरह से बड़े पैमाने पर सफाई के लिए वैक्यूम कई गुना के साथ फिल्टर प्लेट का इस्तेमाल किया. शोधन के बाद, प्रत्येक पीसीआर उत्पाद मानक तकनीक का उपयोग मात्रा निर्धारित किया जाना चाहिए. एकाग्रता द्वारा पूलिंग के रूप में अणु संख्या से सामान्य पूल में हर पीसीआर उत्पाद (नियंत्रण सहित) का मिश्रण छोटे amplicons ov के overrepresentation में परिणाम होगाएर बड़ा उत्पादों. सांद्रता सूत्र का उपयोग मात्रा प्रति डीएनए अणु की निरपेक्ष संख्या में परिवर्तित कर रहे हैं: (छ / μL) (1 mol एक्स बीपी 660 / छ) (amplicon में 1 / # बीपी) एक्स (x 6 10 23 अणुओं / 1 mol ) = अणुओं / μL. हम तो प्रत्येक प्रतिक्रिया से एक normalized amplicon प्रति अणुओं की संख्या पूल के लिए आवश्यक मात्रा का निर्धारण करते हैं. इस संख्या में मनमाने ढंग से समायोजित किया जा सकता है और वास्तव में काफी बड़ी सटीकता बनाए रखने संस्करणों pipetting पर निर्भर करता है. हम आमतौर पर 1-2 एक्स 10 प्रत्येक amplicon के के 10 अणुओं पूल. पीसीआर उत्पादों की ligation: यह कदम वर्दी अनुक्रमण कवरेज प्राप्त करने के लिए आवश्यक है के रूप में छोटे पीसीआर amplicons की sonication उनके सिरों की ओर उनके प्रतिनिधित्व पक्षपाती है. इस पर काबू पाने के लिए, हम बड़े (> Kb = 10) concatemers के विखंडन के लिए पहले में जमा पीसीआर उत्पादों कटी घमनी को बांधना. Pfu अल्ट्रा HF पोलीमरेज़ कुंद समाप्त होता है उत्पन्न, कुशल बंधाव (Taq आधारित एक पोलीमरेज़ 3p "ए" की अधिकता है कि नहीं एक जोड़ देगा करने के लिए अग्रणीभरने में blunting या पूर्व के बिना llow बंधाव). इस प्रतिक्रिया को बढ़ाया जा सकता है यदि आवश्यक 2-3 गुना. बंधाव प्रतिक्रिया 10 यू टी -4 polynucleotide kinase, 200 यू टी -4 ligase, 15% polyethylene w / वी, में 1X टी -4 ligase बफर, ग्लाइकोल 8000 मेगावाट 50 μL की एक अंतिम मात्रा में जमा पीसीआर उत्पादों की 2 μg, शामिल हैं. प्रतिक्रियाओं 22 डिग्री सेल्सियस पर 20 मिनट के लिए 65 ° C के बाद और 4 डिग्री सेल्सियस उसके बाद में आयोजित 16 घंटे के लिए incubated हैं. इस कदम की सफलता के नमूने के एक 1% agarose जेल में 50 एनजी लोड द्वारा जाँच की जा सकती है. सफल ligation के एक उच्च आणविक वजन लेन बैंड वर्तमान में (चित्रा 2, 3 लेन देखें) में परिणाम होगा. डीएनए का बंटवारा: इस बिंदु पर आप पीसीआर उत्पादों की बड़ी concatemers (10kb>) होना चाहिए. हम एक यादृच्छिक sonication एक 24 – नमूना Diagenode Bioruptor sonicator का उपयोग रणनीति है कि टुकड़ा 25 मिनट में कर सकते हैं इन concatemers (40 सेकंड "पर" / प्रति मिनट 20 सेकंड "बंद"). Sonication खूंटी द्वारा शुरू की चिपचिपाहट से हिचकते है इतना,इस क्विएज़न पंजाब बफर में 10:01 नमूना गिराए द्वारा दूर किया जा सकता है. परिणाम 2% agarose जेल (चित्रा 2, 4 और 5 गलियों देखें) पर जाँच की जा सकती है. नमूना लिए Illumina जीनोमिक लाइब्रेरी नमूना तैयार प्रोटोकॉल शुरुआत एंड मरम्मत "कदम के साथ में सीधे शामिल करने के लिए तैयार है. यहां बताया डेटा एकल के अंत से हैं Illumina जीनोम एनालाइज़र IIx पर पढ़ता है, लेकिन हम 2000 HiSeq इस्तेमाल किया है और तुलनीय परिणाम के साथ एक या रखा अंत पढ़ता प्रदर्शन किया. बनाया पुस्तकालय के पैमाने को देखते हुए, हम भी कस्टम barcoded एडाप्टर का इस्तेमाल किया है मल्टीप्लेक्स कई पुस्तकालयों जमा करने के क्रम में HiSeq मंच (नहीं दिखाया डेटा) के द्वारा आपूर्ति की बैंडविड्थ को समायोजित. निर्माता प्रोटोकॉल और सिफारिशों है कि किट के साथ आने का पालन करें. आदेश में इष्टतम संस्करण, 25 गुना या एलील प्रति अधिक का लक्ष्य कवरेज का पता लगाने के लिए संवेदनशीलता और विशिष्टता प्राप्त करने के लिए (चित्रा 3) की सिफारिश की है. यह अनुमान पूल के आकार के स्वतंत्र हैऔर संस्करण के प्रकार का पता लगाया जा करने के लिए. यदि आवश्यक कई गलियों और रन के लिए पर्याप्त कवरेज तक पहुँचने के लिए जोड़ा जा सकता है. 3. अनुक्रमण संरेखण और विश्लेषण पुस्तकें फ़ाइल संपीड़न और स्वरूपण: कच्चे अनुक्रमण पढ़ा फाइलें या तो दुपट्टा प्रारूप या संकुचित में परिवर्तित किया जाना चाहिए. यह संपीड़न वैकल्पिक है के रूप में यह किसी भी प्रासंगिक जानकारी को खोने के बिना समय और बाद के विश्लेषण कदम के लिए अंतरिक्ष बचाता है. यह निम्न कमांड के साथ शामिल स्क्रिप्ट RAPGAP_read_compressor_v2.pl के का उपयोग करके प्राप्त किया जाता है: ./RAPGAP_read_compressor_v2.pl [पढ़ें] फ़ाइल [संपीडित फ़ाइल पढ़ें] पढ़ने के स्वीकार किए जाते हैं फ़ाइल इनपुट प्रारूपों दुपट्टा और FASTQ, या तो gzipped या असम्पीडित हैं: दुपट्टा प्रारूप उदाहरण: HWI – EAS440: 7:1:0:316 # 0/1: NTCGATTCACTGCCCAACAACACCAGCTCCTCTCCC: DNWUQSPWWWWUVVPVVWVVVUVVUUPUUWWWWWUW FASTQ प्रारूप उदाहरण: @ / 1 0 HWI के EAS440_7_1_0_410 के NGTGGTTTCTTCTTTGGCTGGGGAGAGGAGCTGGTG + और 8888888888888888888854588767777666 /! अब कच्चे पढ़ा संरेखण: कच्चे पढ़ता एनोटेट FASTA संदर्भ लक्षित पीसीआर प्रतिक्रियाओं, के रूप में के रूप में अच्छी तरह से सकारात्मक और नकारात्मक नियंत्रण में शामिल क्षेत्रों के लिए विशिष्ट अनुक्रम के लिए गठबंधन किया जा सकता है. संरेखण शामिल संरेखण उपकरण RAPGAPHASH5d के प्रदर्शन का उपयोग किया जा सकता है. इनपुट प्रारूप करने के लिए इस बिंदु पर दुपट्टा या संकुचित हो गया है. संरेखण के लिए आदेश है: ./RAPGAPHASH5d [संपीडित पढ़ें फ़ाइल] [FASTA फ़ाइल] [संपादन की संख्या की अनुमति]> [निरपेक्ष फ़ाइल] कि संदर्भ अनुक्रम की तुलना में अनुमति दी जाती है पढ़ने के प्रति बेमेल की संख्या एक प्रयोक्ता परिभाषित पैरामीटर है. पुस्तकें कि बेमेल की एक अतिरिक्त संख्या खारिज कर दिया जाएगा. हम 76 बीपी पढ़ता है और 5 के लिए 101 पढ़ता बीपी बेमेल के लिए 2 के लिए 36 बीपी पढ़ता, 4 बेमेल बेमेल की अनुमति की सलाह देते हैं. अल में अधिक बेमेल की अनुमति की अनुमति अतिरिक्त अनुक्रमण त्रुटियों की संभावना में वृद्धि होगीडेटा igned. के रूप में पढ़ा लंबाई के लिए अब हो गया जारी है, इस मान को आगे बढ़ाया जा सकता है. टैगिंग ही flowcell से फ़ाइलें गठबंधन: इस बिंदु पर पूरे गठबंधन फ़ाइल को पढ़ने के लिए एक अद्वितीय पहचानकर्ता ("टैग") दिया जाना चाहिए क्रम में पढ़ा वही अनुक्रमण रन (यानी एक ही flowcell से कई गलियों में एकत्रित किया जा सकता है संबंधित फाइलें की पहचान और एक टैग दिए गए). टैग आवश्यक है क्योंकि हर मशीन चलाने के एक अद्वितीय त्रुटि प्रोफ़ाइल है कि टैग के माध्यम से लक्षण वर्णन किया जा सकता है उत्पन्न. टैग वर्णों की एक अक्षरांकीय स्ट्रिंग पढ़ता है की एक सेट (अधोडैस संप्रतीक "_" पार्सिंग के मुद्दों के लिए नहीं किया जाना चाहिए) भेद किया है. अलग टैग गठबंधन पढ़ने विभिन्न flowcells या मशीन रन पर उत्पन्न फ़ाइलों के लिए इस्तेमाल किया जाना चाहिए. टैग निम्न कमांड के साथ शामिल RAPGAP_alignment_tagger.pl का उपयोग कर जोड़ा जा सकता है: . RAPGAP_alignment_tagger.pl / [निरपेक्ष फ़ाइल] [टैग]> [टैग फ़ाइल निरपेक्ष] इस बिंदु के बाद गठबंधनएक ही कई अलग flowcells पर उत्पन्न पुस्तकालय से फाइल उनके संबंधित टैग के रूप में साथ संयुक्त किया जा सकते हैं और उन्हें अलग रखना होगा. त्रुटि मॉडल पीढ़ी: जैसा कि ऊपर उल्लेख किया है, प्रत्येक मशीन चलाने अनुक्रमण त्रुटि है कि सही संस्करण फोन करने के लिए विशेषता की जरूरत है की एक अद्वितीय प्रोफ़ाइल उत्पन्न करता है. प्रत्येक मशीन चलाने के लिए इन त्रुटियों मॉडल, एक आंतरिक नियंत्रण अनुक्रम भिन्नता से रहित हो जाता अनुक्रम प्रत्येक जमा नमूना पुस्तकालय में शामिल है. गठबंधन टैग फ़ाइल से, एक त्रुटि मॉडल फ़ाइल नकारात्मक नियंत्रण संदर्भ अनुक्रम के साथ शामिल उपकरण EMGENERATOR4 के का उपयोग करते हुए उत्पन्न किया जा सकता है. सभी नकारात्मक नियंत्रण अनुक्रम या वैकल्पिक रूप से इस्तेमाल किया जा सकता है यह केवल एक सबसेट, 5 'और 3' इनपुट में अधिकांश कुर्सियां द्वारा निर्दिष्ट. अद्वितीय पढ़ता है और pseudocounts हमेशा इस्तेमाल किया जाना चाहिए: ./EMGENERATOR4 [निरपेक्ष टैग फ़ाइल] [नकारात्मक नियंत्रण अनुक्रम] [आउटपुट फ़ाइल नाम] [5 नकारात्मक नियंत्रण के सबसे आधार के लिए इस्तेमाल किया जा] 3 [अधिकांश के आधारनकारात्मक नियंत्रण करने के लिए इस्तेमाल किया जा] [अद्वितीय शामिल केवल पढ़ता है? Y =] [संरेखण cutoff के संपादन] [pseudocounts के दर्ज करें? Y =] EMGENERATOR4 उपकरण 3 फ़ाइलें आउटपुट फ़ाइल नाम _1 _0, या _2 द्वारा बाद पैरामीटर के रूप में नाम उत्पन्न होगा. इन फ़ाइलों 0, 1 और 2 क्रम त्रुटि क्रमशः मॉडल के अनुरूप किरच के साथ फोन संस्करण के लिए, 2 क्रम त्रुटि मॉडल हमेशा इस्तेमाल किया जाना चाहिए. एक रन की त्रुटि दर प्रोफ़ाइल दृश्यमान करने के लिए, error_model_tabler_v4.pl 0 क्रम त्रुटि मॉडल फ़ाइल (चित्रा 4) पर एक पीडीएफ त्रुटि साजिश उत्पन्न किया जा सकता है: ./error_model_tabler_v4.pl [त्रुटि मॉडल 0 क्रम फ़ाइल] [आउटपुट फ़ाइल का नाम] साजिश फ़ाइल रन विशिष्ट त्रुटि के रुझान का पता चलता है और पढ़ने के लिए विश्लेषण है, जो अगले भाग में समझाया जाता है के लिए इस्तेमाल किया जा अड्डों में से एक अधिकतम संख्या का अनुमान किया जा सकता है. 4. दुर्लभ प्रकार का उपयोग कर पता लगाने किरच Variant callinकिरच से छ: विश्लेषण में पहला कदम गठबंधन त्रुटि मॉडल और संदर्भ अनुक्रम का उपयोग कर फ़ाइल पर किरच उपकरण को चलाने के लिए है. ऐसा करने के लिए आदेश है: ./SPLINTER6r [निरपेक्ष टैग फ़ाइल] [FASTA फ़ाइल] [2 क्रम त्रुटि मॉडल फ़ाइल] [की संख्या अड्डों पढ़ने के लिए इस्तेमाल किया जा] [अड्डों या चक्र को बाहर रखा जा पढ़ने के] [पी – मूल्य cutoff. -1.301 =] [अद्वितीय उपयोग पढ़ता Y =] [संरेखण cutoff के संपादन] [उपलब्ध विकल्पों में से पूल आकार] [पूर्ण कवरेज प्रिंट किनारा प्रति Y =]> [किरच फ़ाइल] पढ़ने के लिए इस्तेमाल किया जा अड्डों की संख्या में बदलता है और प्रत्येक रन के हिसाब से मूल्यांकन किया जाना चाहिए. हम आम तौर पर पढ़ने के लिए पहली 2/3rds का उपयोग कर के रूप में वे उच्चतम गुणवत्ता डेटा (पहले 24 एक 36bp पढ़ने के लंबे समय के ठिकानों उदाहरण के लिए, पढ़ने) का प्रतिनिधित्व करते हैं. एकल पढ़ा अड्डों विश्लेषण से बाहर रखा जा सकता है अगर खराब हो (एक अल्पविराम या एन 5,7,11 जैसे या अलग) पाया गया है. cutoff के पी – मूल्य तय कर कैसे कठोर संस्करण बुला विश्लेषण होने जा रहा है. हम और न हीमैली -1.301 की एक न्यूनतम cutoff (एक पी के मूल्य के लिए इसी ≤ log10 पैमाने में 0.05) की अनुमति से विश्लेषण शुरू करते हैं. पूल आकार विकल्प एल्गोरिदम "संकेत करने वाली शोर मामूली एलील कि वास्तविक पूल में एक एलील की तुलना में कम आवृत्तियों के साथ संभावित वेरिएंट को नष्ट करने के द्वारा भेदभाव का अनुकूलन. 50 व्यक्तियों की एक पूल में उदाहरण के लिए, सबसे कम मनाया संस्करण को 0.01 आवृत्ति या 1 100 alleles में उम्मीद की जा सकती है. इस प्रकार, पूल आकार विकल्प निकटतम मूल्य है कि प्रयोग में विश्लेषण alleles की वास्तविक संख्या से अधिक है करने के लिए सेट किया जाना चाहिए (यानी अगर 40 लोगों का सर्वेक्षण कर रहे हैं, हम 80 alleles की उम्मीद तो निकटतम विकल्प 100 के एक पूल का आकार होगा) . <आवृत्तियों 0.01 पर बुलाया वेरिएंट तो शोर के रूप में नजरअंदाज कर दिया जाएगा. इस फ़ाइल में सभी हिट है कि सांख्यिकीय नमूना भर में महत्वपूर्ण हैं, संस्करण की स्थिति का वर्णन, संस्करण का प्रकार, डीएनए भूग्रस्त प्रति पी मूल्य, प्रकार की आवृत्ति और डीएनए भूग्रस्त प्रति कुल कवरेज (के साथ, देता है <stronछ> 2 तालिका). बुलाया वेरिएंट के लिए सामान्य कवरेज: नमूना भर में कवरेज के उतार चढ़ाव नकली हिट उत्पन्न कर सकते हैं. यह के रूप में splinter_filter_v3.pl स्क्रिप्ट को लागू करने के द्वारा सही किया जा सकता है: ./splinter_filter_v3.pl किरच [फ़ाइल] [सूची फ़ाइल] [तंगी]> [किरच सामान्यीकृत फ़ाइल] जहां सूची फ़ाइल एक टैब – सीमांकित फ़ाइल के रूप में सकारात्मक नियंत्रण हिट की एक सूची है. पहली क्षेत्र ब्याज की amplicon इंगित करता है, जबकि दूसरे क्षेत्र में स्थिति जिसमें उत्परिवर्तन वर्तमान है इंगित करता है. एन इंगित करता है कि अनुक्रम के बाकी किसी भी उत्परिवर्तन शामिल नहीं करता है. इष्टतम पी मूल्य थ्रेसहोल्ड सकारात्मक नियंत्रण डेटा का उपयोग कर निर्धारण: सामान्य बनाने के बाद, सकारात्मक नियंत्रण का विश्लेषण और एक विशेष नमूना विश्लेषण की संवेदनशीलता और विशिष्टता को अधिकतम करने के लिए अपरिहार्य है. यह इष्टतम पी मूल्य सूचना का उपयोग कर cutoff खोजने के द्वारा प्राप्त किया जा सकता हैसकारात्मक नियंत्रण से tion. सबसे अधिक संभावना है, -1.301 की प्रारंभिक पी – मूल्य पर्याप्त कठोर नहीं हो सकता है, अगर ऐसा है, जो सकारात्मक या नकारात्मक नियंत्रण से झूठी सकारात्मक के फोन में परिणाम होगा. हर किरच विश्लेषण प्रत्येक तथाकथित संस्करण के लिए वास्तविक पी मूल्य दिखा (तालिका 2 पर 5 कॉलम और 6), जो एक प्राथमिकताओं भविष्यवाणी नहीं किया जा सकता है. हालांकि, पूरे विश्लेषण का उपयोग करके ज्ञात सच सकारात्मक आधार पदों के लिए प्रारंभिक उत्पादन पर कम से कम पी मूल्य कड़े प्रदर्शित दोहराया जा सकता है. यह सब सच सकारात्मक बनाए रखने जबकि अधिकांश को छोड़कर, अगर सब नहीं है, झूठी सकारात्मक और वे आमतौर पर बहुत कम महत्वपूर्ण पी मूल्यों सच सकारात्मक की तुलना में सेवा करेंगे. इस प्रक्रिया को स्वचालित, cutoff_tester.pl इस्तेमाल किया जा सकता है cutoff_tester.pl एक किरच उत्पादन फ़ाइल और सामान्य बनाने के लिए इस्तेमाल एक के रूप में एक टैब – सीमांकित फ़ाइल के रूप में सकारात्मक नियंत्रण हिट की एक सूची की आवश्यकता है: /. Cutoff_tester.pl किरच [फिल्टरएड फ़ाइल] [सूची फ़ाइल] जिसके परिणामस्वरूप उत्पादन cutoffs कि उत्तरोत्तर इष्टतम तक पहुँचने (3 टेबल देखें) की एक सूची होगा. प्रारूप है: अधिकतम संवेदनशीलता और विशिष्टता से दूरी [] [संवेदनशीलता] [विशिष्टता] [cutoff] उदाहरण के लिए: 7.76946294170104e-07 1 0.999118554429264 -16.1019999999967 अंतिम पंक्ति चलाने के लिए सबसे इष्टतम cutoff का प्रतिनिधित्व करता है और इसलिए डेटा विश्लेषण के लिए इस्तेमाल किया जा सकता है. इष्टतम परिणाम और 1 की संवेदनशीलता विशिष्टता हासिल है. मामले में इस परिणाम तक पहुँच नहीं है, किरच विश्लेषण शामिल की संख्या पढ़ने के अड्डों तक सबसे इष्टतम स्थिति हासिल की है बदल द्वारा दोहराया जा सकता है. अंतिम संस्करण फ़िल्टरिंग अंतिम cutoff cutoff_cut.pl स्क्रिप्ट का उपयोग कर डेटा है, जो इष्टतम cutoff के नीचे हिट से किरच उत्पादन फ़ाइल फ़िल्टर करने के लिए लागू किया जा सकता है, Cutoff_cut.pl / [किरच फ़िल्टर फ़ाइल] [cutoff]> किरच [अंतिमफ़ाइल] इस कदम अंतिम किरच उत्पादन फ़ाइल, जो SNPs और Indels के नमूने में मौजूद शामिल होंगे उत्पन्न होगा. कृपया ध्यान दें कि सम्मिलन के लिए उत्पादन प्रतिस्थापन या विलोपन (तालिका 2) के लिए की तुलना में थोड़ा अलग है. 5. प्रतिनिधि परिणाम हम 947 व्यक्तियों की आबादी जमा और अनुक्रमण के लिए 20 केबी से अधिक लक्षित है. हम दुर्लभ वेरिएंट का पता लगाने के लिए किरच हमारे मानक प्रोटोकॉल के बाद लागू. प्रत्येक व्यक्ति पहले से जीनोटाइपिंग था जीनोम विस्तृत सरणी जीनोटाइपिंग द्वारा प्रदर्शन किया. टैग की जीनोटाइपिंग और उपन्यास नमूना जमा में कहा जाता है वेरिएंट के बीच क़बूल उत्कृष्ट (चित्रा 6). तीन वेरिएंट, जिनमें से दो (rs3822343 और rs3776110) की जनसंख्या में दुर्लभ थे, डी Novo की अनुक्रमण परिणाम से बुलाया गया और व्यक्ति pyrosequencing द्वारा मान्य किया गया. पूल में मामूली एलील आवृत्तियों (MAF) MAF के समान थे dbSNP निर्माण 129 में सूचना दी. Pyrosequencing और जमा अनुक्रमण के बीच MAF क़बूल उत्कृष्ट था (तालिका 3). टेबल सकारात्मक नियंत्रण के लिए 1. डीएनए oligonucleotide दृश्यों. प्रत्येक अनुक्रम डीएनए एक टुकड़ा या तो दो प्रतिस्थापन या एक प्रविष्टि और विलोपन एक जंगली प्रकार संदर्भ से भिन्न होते हैं. यहां क्लिक करें बड़ी छवि को देखने . तालिका 2 किरच उत्पादन का उदाहरण है. पहले दो पंक्तियों को एक प्रतिस्थापन या एक विलोपन (नीले हैडर) के लिए मानक किरच उत्पादन का प्रतिनिधित्व करते हैं. अंतिम पंक्ति एक प्रविष्टि (बैंगनी हैडर) के लिए मानक किरच उत्पादन का प्रतिनिधित्व करता है.rget => "_blank" बड़ी छवि देखने के लिए यहाँ क्लिक करें. तालिका 3. पांच जाना जाता है और तीन उपन्यास वेरिएंट बड़ी आबादी से पहचान की गई और व्यक्ति जीनोटाइपिंग द्वारा मान्य है. व्यक्तिगत सत्यापन (1-3 पंक्तियाँ) pyrosequencing, TaqMan परख (4-6 पंक्तियाँ) या सेंगर अनुक्रमण (7,8 पंक्तियों) द्वारा किया गया था. के एलील आवृत्तियों की एक व्यापक रेंज है और MAF साथ पांच पदों <1%, सहित के लिए जमा अनुक्रमण एलील आवृत्ति आकलन और व्यक्तिगत जीनोटाइपिंग के बीच क़बूल मजबूत था. एक तारांकन (*) से चिह्नित पदों पर पहले की रिपोर्ट 9 डेटा से अनुकूलित कर रहे हैं. चित्रा 1 जमा डीएनए अनुक्रमण और किरच विश्लेषण सिंहावलोकन. रोगी डीएनए जमा हैऔर चयनित loci में परिलक्षित. अंतिम पीसीआर उत्पादों के साथ equimolar अनुपात में एक सकारात्मक और नकारात्मक नियंत्रण के साथ जमा कर रहे हैं. जमा मिश्रण तो अनुक्रम और परिणामस्वरूप पढ़ता वापस अपने संदर्भ के लिए मैप किया जाता है. से प्रतिचित्रित नकारात्मक नियंत्रण पढ़ता है एक त्रुटि रन विशिष्ट मॉडल उत्पन्न करने के लिए उपयोग किया जाता है. किरच तो त्रुटि मॉडल और सकारात्मक नियंत्रण से जानकारी को शामिल करके दुर्लभ SNPs और indels के पता लगाने के लिए इस्तेमाल किया जा सकता है. [Vallania FLM एट अल, 2010 शोध जीनोम से अनुकूलित] बड़ी छवि को देखने के लिए यहां क्लिक करें . चित्रा 2. जमा पीसीआर amplicon बंधाव और sonication. बंधाव और पुस्तकालय तैयारी प्रोटोकॉल में यादृच्छिक विखंडन कदम के एक प्रदर्शन के रूप में, pUC19 वेक्टर enzymatically 2 लेन में दिखाया टुकड़े को पचा किया गया था. ये टुकड़े नॉरमा थेअणु संख्या के द्वारा lized विशेषांक, संयुक्त और बेतरतीब ढंग से 1.7 ऊपर कदम के अनुसार ligated. परिणामस्वरूप बड़े concatamers 3 लेन में दिखाया जाता है. ligated concatamers समान रूप से विभाजित और sonication के अधीन थे के रूप में 1.8 से ऊपर कदम में वर्णित है. प्रत्येक तकनीकी दोहराने के लिए डीएनए टुकड़े के परिणामस्वरूप धब्बा गलियों 4 और 5 में दिखाया जाता है. कोष्ठक आकार सीमा की जेल निष्कर्षण और अनुक्रमण पुस्तकालय रचना के लिए इस्तेमाल किया पर प्रकाश डाला गया. चित्रा 3 एक जमा नमूने में एक एकल एलील के लिए कवरेज के एक समारोह के रूप में परिशुद्धता. सटीकता एक रिसीवर ऑपरेटर (आरओसी) वक्र है, जो 1.0 से 0.5 (यादृच्छिक) (पूर्ण शुद्धता) पर्वतमाला की वक्र (नीलामी) के तहत क्षेत्र के रूप में अनुमान लगाया गया है. नीलामी एलील प्रति कवरेज के एक समारोह के रूप में 500, 200, और 1000 alleles (ए) के पूल में एक उत्परिवर्ती alleles का पता लगाने के लिए साजिश रची है. नीलामी substitutions के सम्मिलन, और घ के लिए एक समारोह कुल कवरेज के रूप में प्लॉट किए जाते है(बी) eletions. [Vallania FLM एट अल, जीनोम 2010 शोध से अनुकूलित]. चित्रा 4. त्रुटि प्लॉट किसी भी स्थिति में गलत आधार को शामिल करने की संभावना को दर्शाता है. त्रुटि प्रोफ़ाइल पढ़ने के अनुक्रमण के 3 'के अंत की ओर एक बढ़ती हुई प्रवृत्ति के साथ कम त्रुटि दर को दर्शाता है. विशेष रूप से, अलग संदर्भ न्यूक्लीओटाइड्स अलग त्रुटि संभावनाओं (उदाहरण के लिए एक संदर्भ के रूप में एक जी सी दिया शामिल करने की संभावना देखते हैं) प्रदर्शित करते हैं. [Vallania FLM एट अल, जीनोम 2010 शोध से अनुकूलित]. चित्रा 5 किरच की स्थिति है कि एलील प्रति 25 गुना से अधिक से अधिक कवरेज के लिए एलील आवृत्ति का आकलन करने में शुद्धता. कक्ष एक, चित्रा 3 ≥ कवरेज 25 गुना के साथ एकल संस्करण का पता लगाने के लिए इष्टतम संवेदनशीलता दिखाने में परिणाम के आधार पर एकजमा डीएनए एलील एलील GWAS परिणामों से बहुत ही उच्च सहसंबंध (नि. = .999) में मापा गिनती के साथ किरच से अनुमान लगाया आवृत्तियों के बीच तुलना. [Vallania FLM एट अल, जीनोम 2010 शोध से अनुकूलित]. चित्रा 6 एलील 974 व्यक्तियों के जमा अनुक्रमण से किरच अनुमान की तुलना में GWAS द्वारा मापा आवृत्तियों के बीच तुलना करें. वहाँ 19 genotyped loci और अनुक्रम क्षेत्रों के बीच तुलना के लिए आम पदों पर थे. परिणामस्वरूप सहसंबंध बहुत उच्च (नि. ०.९९,५३८ =). बड़ा आंकड़ा देखने के लिए यहाँ क्लिक करें

Discussion

वहाँ बढ़ती सबूत है कि घटनाओं और आम, जटिल phenotypes और ⁸ मोटापा, hypercholesterolemia ^{4, 7,} उच्च रक्तचाप और दूसरों जैसे रोगों का उपचार प्रतिक्रिया दुर्लभ भिन्नता के व्यक्तिगत प्रोफाइल के द्वारा संचालित किया जा सकता है. रास्ते जीन और जहां इन वेरिएंट प्रभावित आबादी में कुल गहरा नैदानिक और चिकित्सीय निहितार्थ हो जाएगा, लेकिन प्रभावित व्यक्तियों को अलग – अलग विश्लेषण की पहचान का समय हो और निषेधात्मक लागत कर सकते हैं. जनसंख्या आधारित विश्लेषण कई loci में आनुवंशिक भिन्नता सर्वेक्षण के लिए एक अधिक कुशल तरीका प्रदान करता है.

हम एक उपन्यास जमा डीएनए अनुक्रमण प्रोटोकॉल आबादी में आनुवंशिक परिवर्तन की इस प्रकार की पहचान करने के लिए डिज़ाइन किरच सॉफ्टवेयर पैकेज के साथ जोड़ा प्रस्तुत करते हैं. हम की पहचान करने और बढ़ाता 947 व्यक्तियों की एक बड़ी आबादी जमा भीतर मामूली alleles कि थे दुर्लभ वेरिएंट सहित, में इस पद्धति की सटीकता का प्रदर्शनजमा अनुक्रमण से नए सिरे से कहा जाता है और व्यक्ति pyrosequencing द्वारा मान्य है. हमारी रणनीति मुख्य रूप से एक सकारात्मक का समावेश है और हर प्रयोग के भीतर एक नकारात्मक नियंत्रण के अन्य प्रोटोकॉल से अलग है. यह किरच बहुत उच्च सटीकता और अन्य ^एक दृष्टिकोण की तुलना में शक्ति प्राप्त करने के लिए अनुमति देता है. एलील प्रति 25 गुना के इष्टतम कवरेज पूल के आकार के स्वतंत्र रूप से तय हो गई है, बड़े पूल के विश्लेषण इस आवश्यकता के रूप में पूल के आकार के साथ ही तराजू रैखिक संभव बना रही है. हमारा दृष्टिकोण बहुत लचीला है और ब्याज की किसी भी फेनोटाइप लेकिन यह भी नमूने, मिश्रित सेल आबादी और ट्यूमर बायोप्सी जैसे कि स्वाभाविक रूप से विषम रहे हैं लागू किया जा सकता है. Exome या जीनोम के रूप में बड़े लक्ष्य क्षेत्रों से जमा अनुक्रमण में बढ़ती रुचि को देखते हुए, हमारे पुस्तकालय प्रस्तुत करने का और किरच विश्लेषण कस्टम पर कब्जा और पूरे exome अनुक्रमण के साथ संगत है, लेकिन किरच पैकेज में संरेखण उपयोगिता के लिए तैयार नहीं था बड़ासंदर्भ दृश्यों. इसलिए, हम सफलतापूर्वक गतिशील प्रोग्रामिंग एलाइनर के उपयोग किया है, जीनोम चौड़ा जमा नमूना (रामोस एट अल., प्रस्तुत) से बुला संस्करण के बाद संरेखण के लिए, Novoalign. इस प्रकार, हमारे जमा अनुक्रमण रणनीति को सफलतापूर्वक लक्ष्य अनुक्रम की बढ़ती मात्रा के साथ एक बड़ा पूल के लिए पैमाने पर कर सकते हैं.

Disclosures

The authors have nothing to disclose.

Acknowledgements

इस काम के बच्चों के डिस्कवरी संस्थान MC-II 2006-1 अनुदान (RDM और टेड), NIH Epigenetics रोडमैप [1R01DA025744-01 और 3R01DA025744-02S1] अनुदान (RDM और FLMV), U01AG023746 (अनुसूचित जाति), Saigh द्वारा समर्थित किया गया फाउंडेशन (FLMV और टेड), 1K08CA140720-01A1 और एलेक्स नींबू पानी "एक" पुरस्कार समर्थन (टेड) खड़े हो जाओ. हम जीनोमिक विश्लेषण के साथ मदद के लिए वाशिंगटन विश्वविद्यालय के मेडिसिन स्कूल में जेनेटिक्स विभाग में जीनोम प्रौद्योगिकी प्रवेश केंद्र धन्यवाद. केंद्र आंशिक रूप से अनुसंधान संसाधन के लिए NationalCenter (NCRR), स्वास्थ्य (NIH) के राष्ट्रीय संस्थानों के एक घटक से NCI कैंसर केंद्र सहायता अनुदान Siteman कैंसर केंद्र CA91842 p30 द्वारा और आईसीटी / सीटीएसए अनुदान द्वारा UL1RR024992 # समर्थित है, और मेडिकल रिसर्च के लिए NIH रोडमैप. इस प्रकाशन केवल लेखकों की ज़िम्मेदारी है और NCRR या एनआईएच की आधिकारिक दृश्य जरूरी नहीं प्रतिनिधित्व करते हैं.

Materials

Reagent Name	Company	Catalogue Number	Section
PfuUltra High-Fidelity	Agilent	600384	1.4
Betaine	SIGMA	B2629	1.4
M13mp18 ssDNA vector	NEB	N4040S	1.5
pGEM-T Easy	Promega	A1360	1.5
T4 Polynucleotide Kinase	NEB	M0201S	2.2
T4 Ligase	NEB	M0202S	2.2
Polyethylene Glycol 8000 MW	SIGMA	P5413	2.2
Bioruptor sonicator	Diagenode	UCD-200-TS	2.3

References

Vallania, F. L. M., Druley, T. E., Ramos, E., Wang, J., Borecki, I., Province, M., Mitra, R. D. High-throughput discovery of rare insertions and deletions in large cohorts. Genome Research. 20, 1391-1397 (2010).
Shendure, J., Mitra, R., Varma, C., Church, G. M. Advanced Sequencing Technologies: Methods and Goals. Nature Reviews of Genetics. 5, 335-344 (2004).
The 1000 Genomes Project Consortium. A map of human genome variation from population-scale sequencing. Nature. 467, 1061-1073 (2010).
Manolio, T. A., Collins, F. S., Cox, N. J., Goldstein, D. B., Hindorff, L. A., Hunter, D. J., McCarthy, M. I., Ramos, E. M., Cardon, L. R. Finding the missing heritability of complex diseases. Nature. 461, 747-753 (2009).
Reich, D. E., Lander, E. S. On the allelic spectrum of human disease. Trends Genet. 17, 502-510 (2001).
Cohen, J. C., Kiss, R. S., Pertsemlidis, A., Marcel, Y. L., McPherson, R., Hobbs, H. H. Multiple rare alleles contribute to low plasma levels of HDL cholesterol. Science. 305, 869-872 (2004).
Ji, W., Foo, J. N., O’Roak, B. J., Zhao, H., Larson, M. G., Simon, D. B., Newton-Cheh, C., State, M. W., Levy, D., Lifton, R. P. Rare independent mutations in renal salt handling genes contribute to blood pressure variation. Nat. Genet. 40, 592-599 (2008).
Ahituv, N., Kavaslar, N., Schackwitz, W., Ustaszewska, A., Martin, J., Hebert, S., Doelle, H., Ersoy, B., Kryukov, G., Schmidt, S. Medical sequencing at the extremes of human body mass. Am. J. Hum. Genet. 80, 779-791 (2007).
Druley, T. E., Vallania, F. L., Wegner, D. J., Varley, K. E., Knowles, O. L., Bonds, J. A., Robison, S. W., Doniger, S. W., Hamvas, A., Cole, F. S., Fay, J. C., Mitra, R. D. Quantification of rare allelic variants from pooled genomic DNA. Nat. Methods. 6, 263-265 (2009).
Mitra, R. D., Butty, V., Shendure, J., Housman, D., Church, G. M. Digital Genotyping and Haplotyping with Polymerase Colonies. Proc. Natl. Acad. Sci. 100, 5926-5931 (2003).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

Vallania, F., Ramos, E., Cresci, S., Mitra, R. D., Druley, T. E. Detection of Rare Genomic Variants from Pooled Sequencing Using SPLINTER. J. Vis. Exp. (64), e3943, doi:10.3791/3943 (2012).

दुर्लभ जीनोमिक वेरिएंट के जमा अनुक्रमण का प्रयोग किरच से जांच

Summary

Abstract

Protocol

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

दुर्लभ जीनोमिक वेरिएंट के जमा अनुक्रमण का प्रयोग किरच से जांच

Summary

Abstract

Protocol

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

✖

To prove you're not a robot, please enter the text in the image below