Summary
जमा डीएनए अनुक्रमण एक तेजी से और लागत प्रभावी करने के लिए दुर्लभ बड़े साथियों में जटिल phenotypes के साथ जुड़े वेरिएंट का पता लगाने के लिए रणनीति है. हम यहाँ जमा, 32 कैंसर से संबंधित किरच सॉफ्टवेयर पैकेज का उपयोग कर जीनों की अगली पीढ़ी के अनुक्रमण के कम्प्यूटेशनल विश्लेषण का वर्णन. इस विधि स्केलेबल है, और ब्याज की किसी भी फेनोटाइप के लिए लागू है.
Protocol
Vallania FML एट अल जीनोम. 2010 शोध रिपोर्ट में शोध में इस विधि का इस्तेमाल किया गया था.
1. नमूना Pooling और लक्षित जीनोमिक loci पीसीआर कैद
- जीनोमिक डीएनए के प्रत्येक व्यक्ति से एक सामान्यीकृत अपने पूल (ओं) में राशि का मिश्रण. पीसीआर प्रतिक्रिया प्रति व्यक्ति प्रति डीएनए की 0.3 एनजी का प्रयोग प्रत्येक पीसीआर प्रतिक्रिया, जो पूल के एलील प्रति वर्दी प्रवर्धन की संभावना में सुधार में लगभग 50 व्यक्ति प्रति द्विगुणित जीनोम को शामिल करेंगे.
- जीनोमिक दृश्यों (NCBI से प्राप्त किया जा सकता है http://www.ncbi.nlm.nih.gov/ ) या UCSC जीनोम (ब्राउज़र http://genome.ucsc.edu/index.html को ) उपयोग करने के लिए सुनिश्चित करें. "RepeatMasker" ("एन") के रूप में चिह्नित करने के लिए एक दोहराव क्षेत्र में एक किताब डिजाइन से बचने के अनुक्रम प्राप्त करने.
- वेब आधारित Primer3 का उपयोग करें (rimer3/input.htm "लक्ष्य =" "_blank http://frodo.wi.mit.edu/primer3/input.htm>) के लिए ब्याज के अलावा कुछ flanking दृश्यों के जीनोमिक क्षेत्रों को काटने और चिपकाने के द्वारा प्राइमरों डिजाइन उपयोगिता (amplicons 600-2000 बीपी आम तौर पर कर रहे हैं आदर्श) 3 प्राइमर के लिए इष्टतम प्रथम डिजाइन की स्थिति के लिए इस्तेमाल किया जा 10: न्यूनतम प्राइमर आकार = 19; इष्टतम प्राइमर आकार = 25, अधिकतम प्राइमर आकार = 30; न्यूनतम tm = 64 डिग्री सेल्सियस, इष्टतम Tm. = 70 ° सी, अधिकतम Tm = 74 डिग्री सेल्सियस, अधिकतम tm = 5 अंतर डिग्री सेल्सियस, न्यूनतम जीसी सामग्री 45 =; अधिकतम जीसी सामग्री 80 = 20 = वापसी (यह मनमाना है) संख्या, अधिकतम 3 'अंत स्थिरता = 100 डिजाइन प्राइमरों प्राप्त करने पर ब्याज के सभी जीनोमिक loci बढ़ाना प्राइमरों., lyophilized स्टॉक के 10 मिमी Tris, 7.5 पीएच + 0.1 मिमी EDTA में 100 उम की अंतिम एकाग्रता DDH में एक अतिरिक्त 10:01 कमजोर पड़ने के बाद पतला किया जा सकता है 2 हे से 10 उम.
- हम उच्च विश्वस्तता एक डीएनए पोलीमरेज़ का उपयोग बड़े जीनोमिक बढ़ाना करने की सलाह देते हैं पीसीआर प्रवर्धन:कम त्रुटि दर 10) (-7 और कुंद समाप्त उत्पादों (इस बहाव बंधाव कदम के लिए आवश्यक है) के उत्पादन के कारण amplicons. हम उच्च फिडेलिटी PfuUltra के इस्तेमाल किया है, लेकिन इसी तरह की विशेषताओं के (जैसे Phusion रूप में) के साथ एंजाइमों तुलनीय परिणाम प्रदान करना चाहिए. प्रत्येक पीसीआर प्रतिक्रिया 2.5 यू PfuUltra पोलीमरेज़ उच्च फिडेलिटी के अंतिम एकाग्रता शामिल हैं, 1 एम Betaine, 400 एनएम प्रत्येक प्राइमर, 200 माइक्रोन dNTPs, में 1x PfuUltra बफर (या एक ≥ 2 मिमी 2 मिलीग्राम से युक्त क्रम में एंजाइमी निष्ठा बनाए रखने के लिए बफर) 50 μL की एक अंतिम मात्रा में जमा डीएनए के 5-50 एनजी. 1: निम्नलिखित पीसीआर स्थितियों का उपयोग करें. 93-95 ° सी 2 मिनट के लिए, 2. 93-95 ° C 30 सेकंड के लिए, 3. 58-60 ° C 30 सेकंड के लिए, 4. 65-70 ° C 250-500 बीपी / 1.5-3 पहले amplicons 500-1000 बीपी /> 1 केबी amplicons के लिए 3-5 मिनट के लिए amplicons के लिए 60-90 सेकंड के लिए, 5. दोहराएँ 25-40 चक्र के लिए चरण 2-4, 6. 65 ° C 10 मिनट के लिए, 7. 4 डिग्री सेल्सियस पकड़. यदि आवश्यक हो, पीसीआर परिणाम आम तौर पर द्वारा सुधार किया जा सकता है: 1)2) बड़े amplicons के लिए annealing के तापमान को ऊपर उठाने,, छोटे amplicons के लिए annealing के तापमान को कम 3. किसी भी amplicon के लिए विस्तार के समय लंबी.
- : किरच नियंत्रण की तैयारी हर किरच प्रयोग इष्टतम शुद्धता को प्राप्त करने के लिए एक नकारात्मक और सकारात्मक नियंत्रण की उपस्थिति की आवश्यकता है. एक नकारात्मक नियंत्रण किसी भी व्यक्ति, बार कोड नमूना में सभी समयुग्मजी आधार पदों है कि पहले से अनुक्रम HapMap नमूना जैसे हो सकते हैं. सकारात्मक नियंत्रण तो ऐसे दो या दो से अधिक नमूनों का एक मिश्रण के शामिल होगा. इस रिपोर्ट के लिए, नकारात्मक नियंत्रण की M13mp18 ssDNA वेक्टर रीढ़ की हड्डी से एक 1934 बीपी प्रवर्धित क्षेत्र है. पीसीआर उत्पाद सेंगर अनुक्रम इसके उपयोग से पहले क्रम में पुष्टि करने के लिए कि कोई अनुक्रम भिन्नता स्रोत सामग्री या पीसीआर प्रवर्धन से मौजूद है. सकारात्मक नियंत्रण सम्मिलित क्लोन एक 72 बीपी साथ pGEM टी आसान वैक्टर के एक पैनल का विशिष्ट सम्मिलन, हटाना, substit के इंजीनियर के साथ होते हैंutions (तालिका 1). हम वैक्टर साथ दाढ़ अनुपात में एक जंगली प्रकार की पृष्ठभूमि के खिलाफ मिश्रण है कि इस तरह के परिवर्तन पूल में एक एलील (यानी 100 एलील पूल के लिए, एक ही एलील की आवृत्ति 1%) की आवृत्ति पर मौजूद हैं. हम तो पीसीआर मिश्रित नियंत्रण M13 pGEM - टी आसान में पीयूसी प्राइमर साइटों का उपयोग कर, एक अंतिम 355bp लंबे समय पीसीआर उत्पाद पैदा टेम्पलेट बढ़ाना.
2. जमा पीसीआर पुस्तकालय तैयारी और अनुक्रमण
- पीसीआर उत्पाद पूलिंग: प्रत्येक पीसीआर उत्पाद अतिरिक्त प्राइमरों की साफ किया जाना चाहिए. हम क्विएज़न Qiaquick स्तंभ शुद्धि या 96 में अच्छी तरह से बड़े पैमाने पर सफाई के लिए वैक्यूम कई गुना के साथ फिल्टर प्लेट का इस्तेमाल किया. शोधन के बाद, प्रत्येक पीसीआर उत्पाद मानक तकनीक का उपयोग मात्रा निर्धारित किया जाना चाहिए. एकाग्रता द्वारा पूलिंग के रूप में अणु संख्या से सामान्य पूल में हर पीसीआर उत्पाद (नियंत्रण सहित) का मिश्रण छोटे amplicons ov के overrepresentation में परिणाम होगाएर बड़ा उत्पादों. सांद्रता सूत्र का उपयोग मात्रा प्रति डीएनए अणु की निरपेक्ष संख्या में परिवर्तित कर रहे हैं: (छ / μL) (1 mol एक्स बीपी 660 / छ) (amplicon में 1 / # बीपी) एक्स (x 6 10 23 अणुओं / 1 mol ) = अणुओं / μL. हम तो प्रत्येक प्रतिक्रिया से एक normalized amplicon प्रति अणुओं की संख्या पूल के लिए आवश्यक मात्रा का निर्धारण करते हैं. इस संख्या में मनमाने ढंग से समायोजित किया जा सकता है और वास्तव में काफी बड़ी सटीकता बनाए रखने संस्करणों pipetting पर निर्भर करता है. हम आमतौर पर 1-2 एक्स 10 प्रत्येक amplicon के के 10 अणुओं पूल.
- पीसीआर उत्पादों की ligation: यह कदम वर्दी अनुक्रमण कवरेज प्राप्त करने के लिए आवश्यक है के रूप में छोटे पीसीआर amplicons की sonication उनके सिरों की ओर उनके प्रतिनिधित्व पक्षपाती है. इस पर काबू पाने के लिए, हम बड़े (> Kb = 10) concatemers के विखंडन के लिए पहले में जमा पीसीआर उत्पादों कटी घमनी को बांधना. Pfu अल्ट्रा HF पोलीमरेज़ कुंद समाप्त होता है उत्पन्न, कुशल बंधाव (Taq आधारित एक पोलीमरेज़ 3p "ए" की अधिकता है कि नहीं एक जोड़ देगा करने के लिए अग्रणीभरने में blunting या पूर्व के बिना llow बंधाव). इस प्रतिक्रिया को बढ़ाया जा सकता है यदि आवश्यक 2-3 गुना. बंधाव प्रतिक्रिया 10 यू टी -4 polynucleotide kinase, 200 यू टी -4 ligase, 15% polyethylene w / वी, में 1X टी -4 ligase बफर, ग्लाइकोल 8000 मेगावाट 50 μL की एक अंतिम मात्रा में जमा पीसीआर उत्पादों की 2 μg, शामिल हैं. प्रतिक्रियाओं 22 डिग्री सेल्सियस पर 20 मिनट के लिए 65 ° C के बाद और 4 डिग्री सेल्सियस उसके बाद में आयोजित 16 घंटे के लिए incubated हैं. इस कदम की सफलता के नमूने के एक 1% agarose जेल में 50 एनजी लोड द्वारा जाँच की जा सकती है. सफल ligation के एक उच्च आणविक वजन लेन बैंड वर्तमान में (चित्रा 2, 3 लेन देखें) में परिणाम होगा.
- डीएनए का बंटवारा: इस बिंदु पर आप पीसीआर उत्पादों की बड़ी concatemers (10kb>) होना चाहिए. हम एक यादृच्छिक sonication एक 24 - नमूना Diagenode Bioruptor sonicator का उपयोग रणनीति है कि टुकड़ा 25 मिनट में कर सकते हैं इन concatemers (40 सेकंड "पर" / प्रति मिनट 20 सेकंड "बंद"). Sonication खूंटी द्वारा शुरू की चिपचिपाहट से हिचकते है इतना,इस क्विएज़न पंजाब बफर में 10:01 नमूना गिराए द्वारा दूर किया जा सकता है. परिणाम 2% agarose जेल (चित्रा 2, 4 और 5 गलियों देखें) पर जाँच की जा सकती है.
- नमूना लिए Illumina जीनोमिक लाइब्रेरी नमूना तैयार प्रोटोकॉल शुरुआत एंड मरम्मत "कदम के साथ में सीधे शामिल करने के लिए तैयार है. यहां बताया डेटा एकल के अंत से हैं Illumina जीनोम एनालाइज़र IIx पर पढ़ता है, लेकिन हम 2000 HiSeq इस्तेमाल किया है और तुलनीय परिणाम के साथ एक या रखा अंत पढ़ता प्रदर्शन किया. बनाया पुस्तकालय के पैमाने को देखते हुए, हम भी कस्टम barcoded एडाप्टर का इस्तेमाल किया है मल्टीप्लेक्स कई पुस्तकालयों जमा करने के क्रम में HiSeq मंच (नहीं दिखाया डेटा) के द्वारा आपूर्ति की बैंडविड्थ को समायोजित. निर्माता प्रोटोकॉल और सिफारिशों है कि किट के साथ आने का पालन करें. आदेश में इष्टतम संस्करण, 25 गुना या एलील प्रति अधिक का लक्ष्य कवरेज का पता लगाने के लिए संवेदनशीलता और विशिष्टता प्राप्त करने के लिए (चित्रा 3) की सिफारिश की है. यह अनुमान पूल के आकार के स्वतंत्र हैऔर संस्करण के प्रकार का पता लगाया जा करने के लिए. यदि आवश्यक कई गलियों और रन के लिए पर्याप्त कवरेज तक पहुँचने के लिए जोड़ा जा सकता है.
3. अनुक्रमण संरेखण और विश्लेषण पुस्तकें
- फ़ाइल संपीड़न और स्वरूपण: कच्चे अनुक्रमण पढ़ा फाइलें या तो दुपट्टा प्रारूप या संकुचित में परिवर्तित किया जाना चाहिए. यह संपीड़न वैकल्पिक है के रूप में यह किसी भी प्रासंगिक जानकारी को खोने के बिना समय और बाद के विश्लेषण कदम के लिए अंतरिक्ष बचाता है. यह निम्न कमांड के साथ शामिल स्क्रिप्ट RAPGAP_read_compressor_v2.pl के का उपयोग करके प्राप्त किया जाता है:
./RAPGAP_read_compressor_v2.pl [पढ़ें] फ़ाइल [संपीडित फ़ाइल पढ़ें]
पढ़ने के स्वीकार किए जाते हैं फ़ाइल इनपुट प्रारूपों दुपट्टा और FASTQ, या तो gzipped या असम्पीडित हैं:
दुपट्टा प्रारूप उदाहरण:
HWI - EAS440: 7:1:0:316 # 0/1: NTCGATTCACTGCCCAACAACACCAGCTCCTCTCCC: DNWUQSPWWWWUVVPVVWVVVUVVUUPUUWWWWWUW
FASTQ प्रारूप उदाहरण:
@ / 1 0 HWI के EAS440_7_1_0_410 के
NGTGGTTTCTTCTTTGGCTGGGGAGAGGAGCTGGTG
+
और 8888888888888888888854588767777666 /! - अब कच्चे पढ़ा संरेखण: कच्चे पढ़ता एनोटेट FASTA संदर्भ लक्षित पीसीआर प्रतिक्रियाओं, के रूप में के रूप में अच्छी तरह से सकारात्मक और नकारात्मक नियंत्रण में शामिल क्षेत्रों के लिए विशिष्ट अनुक्रम के लिए गठबंधन किया जा सकता है. संरेखण शामिल संरेखण उपकरण RAPGAPHASH5d के प्रदर्शन का उपयोग किया जा सकता है. इनपुट प्रारूप करने के लिए इस बिंदु पर दुपट्टा या संकुचित हो गया है. संरेखण के लिए आदेश है:
./RAPGAPHASH5d [संपीडित पढ़ें फ़ाइल] [FASTA फ़ाइल] [संपादन की संख्या की अनुमति]> [निरपेक्ष फ़ाइल]
कि संदर्भ अनुक्रम की तुलना में अनुमति दी जाती है पढ़ने के प्रति बेमेल की संख्या एक प्रयोक्ता परिभाषित पैरामीटर है. पुस्तकें कि बेमेल की एक अतिरिक्त संख्या खारिज कर दिया जाएगा. हम 76 बीपी पढ़ता है और 5 के लिए 101 पढ़ता बीपी बेमेल के लिए 2 के लिए 36 बीपी पढ़ता, 4 बेमेल बेमेल की अनुमति की सलाह देते हैं. अल में अधिक बेमेल की अनुमति की अनुमति अतिरिक्त अनुक्रमण त्रुटियों की संभावना में वृद्धि होगीडेटा igned. के रूप में पढ़ा लंबाई के लिए अब हो गया जारी है, इस मान को आगे बढ़ाया जा सकता है. - टैगिंग ही flowcell से फ़ाइलें गठबंधन: इस बिंदु पर पूरे गठबंधन फ़ाइल को पढ़ने के लिए एक अद्वितीय पहचानकर्ता ("टैग") दिया जाना चाहिए क्रम में पढ़ा वही अनुक्रमण रन (यानी एक ही flowcell से कई गलियों में एकत्रित किया जा सकता है संबंधित फाइलें की पहचान और एक टैग दिए गए). टैग आवश्यक है क्योंकि हर मशीन चलाने के एक अद्वितीय त्रुटि प्रोफ़ाइल है कि टैग के माध्यम से लक्षण वर्णन किया जा सकता है उत्पन्न. टैग वर्णों की एक अक्षरांकीय स्ट्रिंग पढ़ता है की एक सेट (अधोडैस संप्रतीक "_" पार्सिंग के मुद्दों के लिए नहीं किया जाना चाहिए) भेद किया है. अलग टैग गठबंधन पढ़ने विभिन्न flowcells या मशीन रन पर उत्पन्न फ़ाइलों के लिए इस्तेमाल किया जाना चाहिए. टैग निम्न कमांड के साथ शामिल RAPGAP_alignment_tagger.pl का उपयोग कर जोड़ा जा सकता है:
. RAPGAP_alignment_tagger.pl / [निरपेक्ष फ़ाइल] [टैग]> [टैग फ़ाइल निरपेक्ष]
इस बिंदु के बाद गठबंधनएक ही कई अलग flowcells पर उत्पन्न पुस्तकालय से फाइल उनके संबंधित टैग के रूप में साथ संयुक्त किया जा सकते हैं और उन्हें अलग रखना होगा. - त्रुटि मॉडल पीढ़ी: जैसा कि ऊपर उल्लेख किया है, प्रत्येक मशीन चलाने अनुक्रमण त्रुटि है कि सही संस्करण फोन करने के लिए विशेषता की जरूरत है की एक अद्वितीय प्रोफ़ाइल उत्पन्न करता है. प्रत्येक मशीन चलाने के लिए इन त्रुटियों मॉडल, एक आंतरिक नियंत्रण अनुक्रम भिन्नता से रहित हो जाता अनुक्रम प्रत्येक जमा नमूना पुस्तकालय में शामिल है. गठबंधन टैग फ़ाइल से, एक त्रुटि मॉडल फ़ाइल नकारात्मक नियंत्रण संदर्भ अनुक्रम के साथ शामिल उपकरण EMGENERATOR4 के का उपयोग करते हुए उत्पन्न किया जा सकता है. सभी नकारात्मक नियंत्रण अनुक्रम या वैकल्पिक रूप से इस्तेमाल किया जा सकता है यह केवल एक सबसेट, 5 'और 3' इनपुट में अधिकांश कुर्सियां द्वारा निर्दिष्ट. अद्वितीय पढ़ता है और pseudocounts हमेशा इस्तेमाल किया जाना चाहिए:
./EMGENERATOR4 [निरपेक्ष टैग फ़ाइल] [नकारात्मक नियंत्रण अनुक्रम] [आउटपुट फ़ाइल नाम] [5 नकारात्मक नियंत्रण के सबसे आधार के लिए इस्तेमाल किया जा] 3 [अधिकांश के आधारनकारात्मक नियंत्रण करने के लिए इस्तेमाल किया जा] [अद्वितीय शामिल केवल पढ़ता है? Y =] [संरेखण cutoff के संपादन] [pseudocounts के दर्ज करें? Y =]
EMGENERATOR4 उपकरण 3 फ़ाइलें आउटपुट फ़ाइल नाम _1 _0, या _2 द्वारा बाद पैरामीटर के रूप में नाम उत्पन्न होगा. इन फ़ाइलों 0, 1 और 2 क्रम त्रुटि क्रमशः मॉडल के अनुरूप किरच के साथ फोन संस्करण के लिए, 2 क्रम त्रुटि मॉडल हमेशा इस्तेमाल किया जाना चाहिए. - एक रन की त्रुटि दर प्रोफ़ाइल दृश्यमान करने के लिए, error_model_tabler_v4.pl 0 क्रम त्रुटि मॉडल फ़ाइल (चित्रा 4) पर एक पीडीएफ त्रुटि साजिश उत्पन्न किया जा सकता है:
./error_model_tabler_v4.pl [त्रुटि मॉडल 0 क्रम फ़ाइल] [आउटपुट फ़ाइल का नाम]
साजिश फ़ाइल रन विशिष्ट त्रुटि के रुझान का पता चलता है और पढ़ने के लिए विश्लेषण है, जो अगले भाग में समझाया जाता है के लिए इस्तेमाल किया जा अड्डों में से एक अधिकतम संख्या का अनुमान किया जा सकता है.
4. दुर्लभ प्रकार का उपयोग कर पता लगाने किरच
- Variant callinकिरच से छ: विश्लेषण में पहला कदम गठबंधन त्रुटि मॉडल और संदर्भ अनुक्रम का उपयोग कर फ़ाइल पर किरच उपकरण को चलाने के लिए है. ऐसा करने के लिए आदेश है:
./SPLINTER6r [निरपेक्ष टैग फ़ाइल] [FASTA फ़ाइल] [2 क्रम त्रुटि मॉडल फ़ाइल] [की संख्या अड्डों पढ़ने के लिए इस्तेमाल किया जा] [अड्डों या चक्र को बाहर रखा जा पढ़ने के] [पी - मूल्य cutoff. -1.301 =] [अद्वितीय उपयोग पढ़ता Y =] [संरेखण cutoff के संपादन] [उपलब्ध विकल्पों में से पूल आकार] [पूर्ण कवरेज प्रिंट किनारा प्रति Y =]> [किरच फ़ाइल]
पढ़ने के लिए इस्तेमाल किया जा अड्डों की संख्या में बदलता है और प्रत्येक रन के हिसाब से मूल्यांकन किया जाना चाहिए. हम आम तौर पर पढ़ने के लिए पहली 2/3rds का उपयोग कर के रूप में वे उच्चतम गुणवत्ता डेटा (पहले 24 एक 36bp पढ़ने के लंबे समय के ठिकानों उदाहरण के लिए, पढ़ने) का प्रतिनिधित्व करते हैं. एकल पढ़ा अड्डों विश्लेषण से बाहर रखा जा सकता है अगर खराब हो (एक अल्पविराम या एन 5,7,11 जैसे या अलग) पाया गया है. cutoff के पी - मूल्य तय कर कैसे कठोर संस्करण बुला विश्लेषण होने जा रहा है. हम और न हीमैली -1.301 की एक न्यूनतम cutoff (एक पी के मूल्य के लिए इसी ≤ log10 पैमाने में 0.05) की अनुमति से विश्लेषण शुरू करते हैं. पूल आकार विकल्प एल्गोरिदम "संकेत करने वाली शोर मामूली एलील कि वास्तविक पूल में एक एलील की तुलना में कम आवृत्तियों के साथ संभावित वेरिएंट को नष्ट करने के द्वारा भेदभाव का अनुकूलन. 50 व्यक्तियों की एक पूल में उदाहरण के लिए, सबसे कम मनाया संस्करण को 0.01 आवृत्ति या 1 100 alleles में उम्मीद की जा सकती है. इस प्रकार, पूल आकार विकल्प निकटतम मूल्य है कि प्रयोग में विश्लेषण alleles की वास्तविक संख्या से अधिक है करने के लिए सेट किया जाना चाहिए (यानी अगर 40 लोगों का सर्वेक्षण कर रहे हैं, हम 80 alleles की उम्मीद तो निकटतम विकल्प 100 के एक पूल का आकार होगा) . <आवृत्तियों 0.01 पर बुलाया वेरिएंट तो शोर के रूप में नजरअंदाज कर दिया जाएगा. इस फ़ाइल में सभी हिट है कि सांख्यिकीय नमूना भर में महत्वपूर्ण हैं, संस्करण की स्थिति का वर्णन, संस्करण का प्रकार, डीएनए भूग्रस्त प्रति पी मूल्य, प्रकार की आवृत्ति और डीएनए भूग्रस्त प्रति कुल कवरेज (के साथ, देता है- बुलाया वेरिएंट के लिए सामान्य कवरेज: नमूना भर में कवरेज के उतार चढ़ाव नकली हिट उत्पन्न कर सकते हैं. यह के रूप में splinter_filter_v3.pl स्क्रिप्ट को लागू करने के द्वारा सही किया जा सकता है:
./splinter_filter_v3.pl किरच [फ़ाइल] [सूची फ़ाइल] [तंगी]> [किरच सामान्यीकृत फ़ाइल]
जहां सूची फ़ाइल एक टैब - सीमांकित फ़ाइल के रूप में सकारात्मक नियंत्रण हिट की एक सूची है.
पहली क्षेत्र ब्याज की amplicon इंगित करता है, जबकि दूसरे क्षेत्र में स्थिति जिसमें उत्परिवर्तन वर्तमान है इंगित करता है. एन इंगित करता है कि अनुक्रम के बाकी किसी भी उत्परिवर्तन शामिल नहीं करता है.- इष्टतम पी मूल्य थ्रेसहोल्ड सकारात्मक नियंत्रण डेटा का उपयोग कर निर्धारण: सामान्य बनाने के बाद, सकारात्मक नियंत्रण का विश्लेषण और एक विशेष नमूना विश्लेषण की संवेदनशीलता और विशिष्टता को अधिकतम करने के लिए अपरिहार्य है. यह इष्टतम पी मूल्य सूचना का उपयोग कर cutoff खोजने के द्वारा प्राप्त किया जा सकता हैसकारात्मक नियंत्रण से tion. सबसे अधिक संभावना है, -1.301 की प्रारंभिक पी - मूल्य पर्याप्त कठोर नहीं हो सकता है, अगर ऐसा है, जो सकारात्मक या नकारात्मक नियंत्रण से झूठी सकारात्मक के फोन में परिणाम होगा. हर किरच विश्लेषण प्रत्येक तथाकथित संस्करण के लिए वास्तविक पी मूल्य दिखा (तालिका 2 पर 5 कॉलम और 6), जो एक प्राथमिकताओं भविष्यवाणी नहीं किया जा सकता है. हालांकि, पूरे विश्लेषण का उपयोग करके ज्ञात सच सकारात्मक आधार पदों के लिए प्रारंभिक उत्पादन पर कम से कम पी मूल्य कड़े प्रदर्शित दोहराया जा सकता है. यह सब सच सकारात्मक बनाए रखने जबकि अधिकांश को छोड़कर, अगर सब नहीं है, झूठी सकारात्मक और वे आमतौर पर बहुत कम महत्वपूर्ण पी मूल्यों सच सकारात्मक की तुलना में सेवा करेंगे. इस प्रक्रिया को स्वचालित, cutoff_tester.pl इस्तेमाल किया जा सकता है cutoff_tester.pl एक किरच उत्पादन फ़ाइल और सामान्य बनाने के लिए इस्तेमाल एक के रूप में एक टैब - सीमांकित फ़ाइल के रूप में सकारात्मक नियंत्रण हिट की एक सूची की आवश्यकता है:
/. Cutoff_tester.pl किरच [फिल्टरएड फ़ाइल] [सूची फ़ाइल]
जिसके परिणामस्वरूप उत्पादन cutoffs कि उत्तरोत्तर इष्टतम तक पहुँचने (3 टेबल देखें) की एक सूची होगा. प्रारूप है:
अधिकतम संवेदनशीलता और विशिष्टता से दूरी [] [संवेदनशीलता] [विशिष्टता] [cutoff]
उदाहरण के लिए:
7.76946294170104e-07 1 0.999118554429264 -16.1019999999967
अंतिम पंक्ति चलाने के लिए सबसे इष्टतम cutoff का प्रतिनिधित्व करता है और इसलिए डेटा विश्लेषण के लिए इस्तेमाल किया जा सकता है. इष्टतम परिणाम और 1 की संवेदनशीलता विशिष्टता हासिल है. मामले में इस परिणाम तक पहुँच नहीं है, किरच विश्लेषण शामिल की संख्या पढ़ने के अड्डों तक सबसे इष्टतम स्थिति हासिल की है बदल द्वारा दोहराया जा सकता है.- अंतिम संस्करण फ़िल्टरिंग अंतिम cutoff cutoff_cut.pl स्क्रिप्ट का उपयोग कर डेटा है, जो इष्टतम cutoff के नीचे हिट से किरच उत्पादन फ़ाइल फ़िल्टर करने के लिए लागू किया जा सकता है,
Cutoff_cut.pl / [किरच फ़िल्टर फ़ाइल] [cutoff]> किरच [अंतिमफ़ाइल]
इस कदम अंतिम किरच उत्पादन फ़ाइल, जो SNPs और Indels के नमूने में मौजूद शामिल होंगे उत्पन्न होगा. कृपया ध्यान दें कि सम्मिलन के लिए उत्पादन प्रतिस्थापन या विलोपन (तालिका 2) के लिए की तुलना में थोड़ा अलग है. - बुलाया वेरिएंट के लिए सामान्य कवरेज: नमूना भर में कवरेज के उतार चढ़ाव नकली हिट उत्पन्न कर सकते हैं. यह के रूप में splinter_filter_v3.pl स्क्रिप्ट को लागू करने के द्वारा सही किया जा सकता है:
5. प्रतिनिधि परिणाम
हम 947 व्यक्तियों की आबादी जमा और अनुक्रमण के लिए 20 केबी से अधिक लक्षित है. हम दुर्लभ वेरिएंट का पता लगाने के लिए किरच हमारे मानक प्रोटोकॉल के बाद लागू. प्रत्येक व्यक्ति पहले से जीनोटाइपिंग था जीनोम विस्तृत सरणी जीनोटाइपिंग द्वारा प्रदर्शन किया. टैग की जीनोटाइपिंग और उपन्यास नमूना जमा में कहा जाता है वेरिएंट के बीच क़बूल उत्कृष्ट (चित्रा 6). तीन वेरिएंट, जिनमें से दो (rs3822343 और rs3776110) की जनसंख्या में दुर्लभ थे, डी Novo की अनुक्रमण परिणाम से बुलाया गया और व्यक्ति pyrosequencing द्वारा मान्य किया गया. पूल में मामूली एलील आवृत्तियों (MAF) MAF के समान थे dbSNP निर्माण 129 में सूचना दी. Pyrosequencing और जमा अनुक्रमण के बीच MAF क़बूल उत्कृष्ट था (तालिका 3).
टेबल सकारात्मक नियंत्रण के लिए 1. डीएनए oligonucleotide दृश्यों. प्रत्येक अनुक्रम डीएनए एक टुकड़ा या तो दो प्रतिस्थापन या एक प्रविष्टि और विलोपन एक जंगली प्रकार संदर्भ से भिन्न होते हैं. यहां क्लिक करें बड़ी छवि को देखने .
तालिका 2 किरच उत्पादन का उदाहरण है. पहले दो पंक्तियों को एक प्रतिस्थापन या एक विलोपन (नीले हैडर) के लिए मानक किरच उत्पादन का प्रतिनिधित्व करते हैं. अंतिम पंक्ति एक प्रविष्टि (बैंगनी हैडर) के लिए मानक किरच उत्पादन का प्रतिनिधित्व करता है.rget => "_blank" बड़ी छवि देखने के लिए यहाँ क्लिक करें.
तालिका 3. पांच जाना जाता है और तीन उपन्यास वेरिएंट बड़ी आबादी से पहचान की गई और व्यक्ति जीनोटाइपिंग द्वारा मान्य है. व्यक्तिगत सत्यापन (1-3 पंक्तियाँ) pyrosequencing, TaqMan परख (4-6 पंक्तियाँ) या सेंगर अनुक्रमण (7,8 पंक्तियों) द्वारा किया गया था. के एलील आवृत्तियों की एक व्यापक रेंज है और MAF साथ पांच पदों <1%, सहित के लिए जमा अनुक्रमण एलील आवृत्ति आकलन और व्यक्तिगत जीनोटाइपिंग के बीच क़बूल मजबूत था. एक तारांकन (*) से चिह्नित पदों पर पहले की रिपोर्ट 9 डेटा से अनुकूलित कर रहे हैं.
चित्रा 1 जमा डीएनए अनुक्रमण और किरच विश्लेषण सिंहावलोकन. रोगी डीएनए जमा हैऔर चयनित loci में परिलक्षित. अंतिम पीसीआर उत्पादों के साथ equimolar अनुपात में एक सकारात्मक और नकारात्मक नियंत्रण के साथ जमा कर रहे हैं. जमा मिश्रण तो अनुक्रम और परिणामस्वरूप पढ़ता वापस अपने संदर्भ के लिए मैप किया जाता है. से प्रतिचित्रित नकारात्मक नियंत्रण पढ़ता है एक त्रुटि रन विशिष्ट मॉडल उत्पन्न करने के लिए उपयोग किया जाता है. किरच तो त्रुटि मॉडल और सकारात्मक नियंत्रण से जानकारी को शामिल करके दुर्लभ SNPs और indels के पता लगाने के लिए इस्तेमाल किया जा सकता है. [Vallania FLM एट अल, 2010 शोध जीनोम से अनुकूलित] बड़ी छवि को देखने के लिए यहां क्लिक करें .
चित्रा 2. जमा पीसीआर amplicon बंधाव और sonication. बंधाव और पुस्तकालय तैयारी प्रोटोकॉल में यादृच्छिक विखंडन कदम के एक प्रदर्शन के रूप में, pUC19 वेक्टर enzymatically 2 लेन में दिखाया टुकड़े को पचा किया गया था. ये टुकड़े नॉरमा थेअणु संख्या के द्वारा lized विशेषांक, संयुक्त और बेतरतीब ढंग से 1.7 ऊपर कदम के अनुसार ligated. परिणामस्वरूप बड़े concatamers 3 लेन में दिखाया जाता है. ligated concatamers समान रूप से विभाजित और sonication के अधीन थे के रूप में 1.8 से ऊपर कदम में वर्णित है. प्रत्येक तकनीकी दोहराने के लिए डीएनए टुकड़े के परिणामस्वरूप धब्बा गलियों 4 और 5 में दिखाया जाता है. कोष्ठक आकार सीमा की जेल निष्कर्षण और अनुक्रमण पुस्तकालय रचना के लिए इस्तेमाल किया पर प्रकाश डाला गया.
चित्रा 3 एक जमा नमूने में एक एकल एलील के लिए कवरेज के एक समारोह के रूप में परिशुद्धता. सटीकता एक रिसीवर ऑपरेटर (आरओसी) वक्र है, जो 1.0 से 0.5 (यादृच्छिक) (पूर्ण शुद्धता) पर्वतमाला की वक्र (नीलामी) के तहत क्षेत्र के रूप में अनुमान लगाया गया है. नीलामी एलील प्रति कवरेज के एक समारोह के रूप में 500, 200, और 1000 alleles (ए) के पूल में एक उत्परिवर्ती alleles का पता लगाने के लिए साजिश रची है. नीलामी substitutions के सम्मिलन, और घ के लिए एक समारोह कुल कवरेज के रूप में प्लॉट किए जाते है(बी) eletions. [Vallania FLM एट अल, जीनोम 2010 शोध से अनुकूलित].
चित्रा 4. त्रुटि प्लॉट किसी भी स्थिति में गलत आधार को शामिल करने की संभावना को दर्शाता है. त्रुटि प्रोफ़ाइल पढ़ने के अनुक्रमण के 3 'के अंत की ओर एक बढ़ती हुई प्रवृत्ति के साथ कम त्रुटि दर को दर्शाता है. विशेष रूप से, अलग संदर्भ न्यूक्लीओटाइड्स अलग त्रुटि संभावनाओं (उदाहरण के लिए एक संदर्भ के रूप में एक जी सी दिया शामिल करने की संभावना देखते हैं) प्रदर्शित करते हैं. [Vallania FLM एट अल, जीनोम 2010 शोध से अनुकूलित].
चित्रा 5 किरच की स्थिति है कि एलील प्रति 25 गुना से अधिक से अधिक कवरेज के लिए एलील आवृत्ति का आकलन करने में शुद्धता. कक्ष एक, चित्रा 3 ≥ कवरेज 25 गुना के साथ एकल संस्करण का पता लगाने के लिए इष्टतम संवेदनशीलता दिखाने में परिणाम के आधार पर एकजमा डीएनए एलील एलील GWAS परिणामों से बहुत ही उच्च सहसंबंध (नि. = .999) में मापा गिनती के साथ किरच से अनुमान लगाया आवृत्तियों के बीच तुलना. [Vallania FLM एट अल, जीनोम 2010 शोध से अनुकूलित].
चित्रा 6 एलील 974 व्यक्तियों के जमा अनुक्रमण से किरच अनुमान की तुलना में GWAS द्वारा मापा आवृत्तियों के बीच तुलना करें. वहाँ 19 genotyped loci और अनुक्रम क्षेत्रों के बीच तुलना के लिए आम पदों पर थे. परिणामस्वरूप सहसंबंध बहुत उच्च (नि. ०.९९,५३८ =). बड़ा आंकड़ा देखने के लिए यहाँ क्लिक करें
Discussion
वहाँ बढ़ती सबूत है कि घटनाओं और आम, जटिल phenotypes और 8 मोटापा, hypercholesterolemia 4, 7, उच्च रक्तचाप और दूसरों जैसे रोगों का उपचार प्रतिक्रिया दुर्लभ भिन्नता के व्यक्तिगत प्रोफाइल के द्वारा संचालित किया जा सकता है. रास्ते जीन और जहां इन वेरिएंट प्रभावित आबादी में कुल गहरा नैदानिक और चिकित्सीय निहितार्थ हो जाएगा, लेकिन प्रभावित व्यक्तियों को अलग - अलग विश्लेषण की पहचान का समय हो और निषेधात्मक लागत कर सकते हैं. जनसंख्या आधारित विश्लेषण कई loci में आनुवंशिक भिन्नता सर्वेक्षण के लिए एक अधिक कुशल तरीका प्रदान करता है.
हम एक उपन्यास जमा डीएनए अनुक्रमण प्रोटोकॉल आबादी में आनुवंशिक परिवर्तन की इस प्रकार की पहचान करने के लिए डिज़ाइन किरच सॉफ्टवेयर पैकेज के साथ जोड़ा प्रस्तुत करते हैं. हम की पहचान करने और बढ़ाता 947 व्यक्तियों की एक बड़ी आबादी जमा भीतर मामूली alleles कि थे दुर्लभ वेरिएंट सहित, में इस पद्धति की सटीकता का प्रदर्शनजमा अनुक्रमण से नए सिरे से कहा जाता है और व्यक्ति pyrosequencing द्वारा मान्य है. हमारी रणनीति मुख्य रूप से एक सकारात्मक का समावेश है और हर प्रयोग के भीतर एक नकारात्मक नियंत्रण के अन्य प्रोटोकॉल से अलग है. यह किरच बहुत उच्च सटीकता और अन्य एक दृष्टिकोण की तुलना में शक्ति प्राप्त करने के लिए अनुमति देता है. एलील प्रति 25 गुना के इष्टतम कवरेज पूल के आकार के स्वतंत्र रूप से तय हो गई है, बड़े पूल के विश्लेषण इस आवश्यकता के रूप में पूल के आकार के साथ ही तराजू रैखिक संभव बना रही है. हमारा दृष्टिकोण बहुत लचीला है और ब्याज की किसी भी फेनोटाइप लेकिन यह भी नमूने, मिश्रित सेल आबादी और ट्यूमर बायोप्सी जैसे कि स्वाभाविक रूप से विषम रहे हैं लागू किया जा सकता है. Exome या जीनोम के रूप में बड़े लक्ष्य क्षेत्रों से जमा अनुक्रमण में बढ़ती रुचि को देखते हुए, हमारे पुस्तकालय प्रस्तुत करने का और किरच विश्लेषण कस्टम पर कब्जा और पूरे exome अनुक्रमण के साथ संगत है, लेकिन किरच पैकेज में संरेखण उपयोगिता के लिए तैयार नहीं था बड़ासंदर्भ दृश्यों. इसलिए, हम सफलतापूर्वक गतिशील प्रोग्रामिंग एलाइनर के उपयोग किया है, जीनोम चौड़ा जमा नमूना (रामोस एट अल., प्रस्तुत) से बुला संस्करण के बाद संरेखण के लिए, Novoalign. इस प्रकार, हमारे जमा अनुक्रमण रणनीति को सफलतापूर्वक लक्ष्य अनुक्रम की बढ़ती मात्रा के साथ एक बड़ा पूल के लिए पैमाने पर कर सकते हैं.
Disclosures
ब्याज की कोई संघर्ष की घोषणा की.
Acknowledgments
इस काम के बच्चों के डिस्कवरी संस्थान MC-II 2006-1 अनुदान (RDM और टेड), NIH Epigenetics रोडमैप [1R01DA025744-01 और 3R01DA025744-02S1] अनुदान (RDM और FLMV), U01AG023746 (अनुसूचित जाति), Saigh द्वारा समर्थित किया गया फाउंडेशन (FLMV और टेड), 1K08CA140720-01A1 और एलेक्स नींबू पानी "एक" पुरस्कार समर्थन (टेड) खड़े हो जाओ. हम जीनोमिक विश्लेषण के साथ मदद के लिए वाशिंगटन विश्वविद्यालय के मेडिसिन स्कूल में जेनेटिक्स विभाग में जीनोम प्रौद्योगिकी प्रवेश केंद्र धन्यवाद. केंद्र आंशिक रूप से अनुसंधान संसाधन के लिए NationalCenter (NCRR), स्वास्थ्य (NIH) के राष्ट्रीय संस्थानों के एक घटक से NCI कैंसर केंद्र सहायता अनुदान Siteman कैंसर केंद्र CA91842 p30 द्वारा और आईसीटी / सीटीएसए अनुदान द्वारा UL1RR024992 # समर्थित है, और मेडिकल रिसर्च के लिए NIH रोडमैप. इस प्रकाशन केवल लेखकों की ज़िम्मेदारी है और NCRR या एनआईएच की आधिकारिक दृश्य जरूरी नहीं प्रतिनिधित्व करते हैं.
Materials
Name | Company | Catalog Number | Comments |
PfuUltra High-Fidelity | Agilent | 600384 | 1.4 |
Betaine | SIGMA | B2629 | 1.4 |
M13mp18 ssDNA vector | NEB | N4040S | 1.5 |
pGEM-T Easy | Promega | A1360 | 1.5 |
T4 Polynucleotide Kinase | NEB | M0201S | 2.2 |
T4 Ligase | NEB | M0202S | 2.2 |
Polyethylene Glycol 8000 MW | SIGMA | P5413 | 2.2 |
Bioruptor sonicator | Diagenode | UCD-200-TS | 2.3 |
References
- Vallania, F. L. M., Druley, T. E., Ramos, E., Wang, J., Borecki, I., Province, M., Mitra, R. D. High-throughput discovery of rare insertions and deletions in large cohorts. Genome Research. 20, 1391-1397 (2010).
- Shendure, J., Mitra, R., Varma, C., Church, G. M. Advanced Sequencing Technologies: Methods and Goals. Nature Reviews of Genetics. 5, 335-344 (2004).
- The 1000 Genomes Project Consortium. A map of human genome variation from population-scale sequencing. Nature. 467, 1061-1073 (2010).
- Manolio, T. A., Collins, F. S., Cox, N. J., Goldstein, D. B., Hindorff, L. A., Hunter, D. J., McCarthy, M. I., Ramos, E. M., Cardon, L. R. Finding the missing heritability of complex diseases. Nature. 461, 747-753 (2009).
- Reich, D. E., Lander, E. S. On the allelic spectrum of human disease. Trends Genet. 17, 502-510 (2001).
- Cohen, J. C., Kiss, R. S., Pertsemlidis, A., Marcel, Y. L., McPherson, R., Hobbs, H. H. Multiple rare alleles contribute to low plasma levels of HDL cholesterol. Science. 305, 869-872 (2004).
- Ji, W., Foo, J. N., O'Roak, B. J., Zhao, H., Larson, M. G., Simon, D. B., Newton-Cheh, C., State, M. W., Levy, D., Lifton, R. P. Rare independent mutations in renal salt handling genes contribute to blood pressure variation. Nat. Genet. 40, 592-599 (2008).
- Ahituv, N., Kavaslar, N., Schackwitz, W., Ustaszewska, A., Martin, J., Hebert, S., Doelle, H., Ersoy, B., Kryukov, G., Schmidt, S. Medical sequencing at the extremes of human body mass. Am. J. Hum. Genet. 80, 779-791 (2007).
- Druley, T. E., Vallania, F. L., Wegner, D. J., Varley, K. E., Knowles, O. L., Bonds, J. A., Robison, S. W., Doniger, S. W., Hamvas, A., Cole, F. S., Fay, J. C., Mitra, R. D. Quantification of rare allelic variants from pooled genomic DNA. Nat. Methods. 6, 263-265 (2009).
- Mitra, R. D., Butty, V., Shendure, J., Housman, D., Church, G. M. Digital Genotyping and Haplotyping with Polymerase Colonies. Proc. Natl. Acad. Sci. 100, 5926-5931 (2003).