Summary

الكشف عن المتغيرات الجينية النادرة من تسلسل المجمعة عن طريق سبلينتر

Published: June 23, 2012
doi:

Summary

تجميع تسلسل الحمض النووي هو استراتيجية سريعة وفعالة من حيث التكلفة للكشف عن بدائل نادر المرتبطة الظواهر المعقدة في أفواج كبيرة. نحن هنا وصف التحليل الحسابي من تجميع التسلسل من الجيل التالي، من الجينات المتصلة بالسرطان 32 باستخدام حزمة البرامج منشقة. هذه الطريقة هي قابلة للتطوير، والتي تنطبق على أي النمط الظاهري في المصالح.

Abstract

كما تسلسل الحمض النووي التكنولوجيا قد تقدمت بشكل ملحوظ في السنوات الأخيرة فقد أصبح من الواضح بشكل متزايد أن كمية الاختلاف الجيني بين أي الشخصين أكبر مما كان يعتقد سابقا 3. في المقابل، فشلت مجموعة القائمة على التنميط الجيني لتحديد مساهمة كبيرة من المتغيرات تسلسل المشتركة بين تقلب المظهري من الأمراض الشائعة 4،5. أخذت معا، وقد أدت هذه الملاحظات إلى تطور مرض شائع / نادر فرضية البديل مما يدل على أن الغالبية العظمى من "التوريث المفقودة" في الظواهر الشائعة والمعقدة بدلا من ذلك بسبب الملف الفرد الشخصية من متغيرات الحمض النووي نادرة أو خاصة 6-8 . ومع ذلك، واصفا كيف يؤثر اختلاف نادر الظواهر المعقدة يتطلب تحليل العديد من الأفراد المصابين في مواضع كثيرة الجينومية، وتتم مقارنة مثالي لاستطلاع مماثل في الفوج غير متأثر. على الرغم من قوة التسلسل التي توفرها منصات اليوم، وهيالمرتكزة على السكان من مسح الجينوم مواضع كثيرة، وتحليل لاحق الحسابية المطلوبة لا تزال باهظة بالنسبة للمحققين كثير.

لتلبية هذه الحاجة، قمنا بتطوير نهج التسلسل المجمعة 1،9 ومجموعة من البرامج الجديدة 1 للدقيقة للغاية اكتشاف البديل نادرة من البيانات الناتجة. القدرة على الجينوم تجمع من جميع السكان المتضررين من الأفراد ومسح على درجة من الاختلاف الجيني في العديد من المناطق المستهدفة في مكتبة تسلسل واحد يوفر ممتازة التكلفة والوقت وفورات إلى التقليدية منهجية التسلسل عينة واحدة. مع تغطية تسلسل يعني في أليل من أمثالها-25، خوارزمية عادتنا، تشظ، يستخدم استراتيجية داخلية البديل سيطرة يدعو إلى استدعاء الإدراج والحذف واستبدال ما يصل إلى 4 أزواج قاعدة في طول مع حساسية عالية وخصوصية من برك من يصل إلى 1 متحولة أليل في 500 شخص. نحن هنا وصف طريقة لإعداد الصورة المجمعةequencing مكتبة تليها خطوة بخطوة على تعليمات حول كيفية استخدام حزمة سبلينتر لتحليل تسلسل المجمعة ( http://www.ibridgenetwork.org/wustl/splinter ). نعرض مقارنة بين تسلسل المجمعة من 947 أشخاص، وجميعهم خضعوا أيضا الجينوم على نطاق الصفيف، في أكثر من 20kb من تسلسل للشخص الواحد. وكان التوافق بين التنميط الجيني من المفتاحية ومتغيرات جديدة ودعا في العينة المجمعة ممتازة. ويمكن هذا الأسلوب بسهولة تحجيم تصل إلى أي عدد من مواضع الجينومية وأي عدد من الأفراد. من خلال دمج الضوابط الداخلية amplicon الإيجابية والسلبية في النسب التي تحاكي السكان دون سن الدراسة، يمكن معايرة خوارزمية لتحقيق الأداء الأمثل. ويمكن أيضا أن هذه الاستراتيجية يمكن تعديلها للاستخدام مع القبض على تهجين أو الباركود فرد على حدة، ويمكن تطبيقها على التسلسل من عينات غير متجانسة بشكل طبيعي، مثل الحمض النووي للورم.

Protocol

وقد استخدم هذا الأسلوب في البحث عنها في وآخرون Vallania FML آل بحوث الجينوم. عام 2010. 1. عينة تجمع وPCR لقطة من الامكنه الجينوم المستهدفة الجمع بين كمية طبيعية من الحمض النووي الجيني من كل فرد في المجمع الخاص بك (ق). وسوف تستخدم 0.3 نانوغرام من الحمض النووي للشخص الواحد في رد فعل PCR دمج الجينوم مضاعفا ما يقرب من 50 دولارا للشخص في كل رد فعل PCR، مما يحسن من احتمالات التضخيم موحدة لكل أليل في حوض السباحة. ويمكن الحصول على تسلسل الجينوم من NCBI ( http://www.ncbi.nlm.nih.gov/ ) أو الجينوم UCSC متصفح ( http://genome.ucsc.edu/index.html ). تأكد من استخدام "RepeatMasker" (وضع علامة على "N") عند الحصول على تسلسل لتجنب تصميم التمهيدي في منطقة المتكررة. استخدام Primer3 على شبكة الإنترنت (rimer3/input.htm "الهدف =" _blank "> http://frodo.wi.mit.edu/primer3/input.htm) فائدة لتصميم الاشعال بواسطة القص واللصق في المناطق الجينية ذات الاهتمام بالإضافة إلى بعض متواليات المرافقة (amplicons من 600-2000 شركة بريتيش بتروليوم وعادة ما تكون مثالية) تصميم التمهيدي الأمثل شروط التمهيدي 3 إلى استخدامها هي 10: الحد الأدنى لحجم التمهيدي = 19؛ الأمثل حجم التمهيدي = 25؛ الحد الأقصى لحجم التمهيدي = 30؛ تيم الحد الأدنى = 64 درجة مئوية؛ تيم الأمثل. = 70 درجة مئوية، الحد الأقصى لتيم = 74 درجة مئوية؛ الحد الأقصى تيم فرق = 5 درجة مئوية؛ محتوى GC الحد الأدنى = 45؛ الحد الأقصى لمحتوى GC = 80؛ عدد بالعودة = 20 (هذه هي تعسفية)، واستقرار أقصى 3 'نهاية = 100 الاشعال التصميم. لتضخيم كل مواضع الجينومية من الفائدة. عند استلام الاشعال، يمكن أن تضعف الأسهم مجفد في تريس 10 ملم، ودرجة الحموضة 7.5 + 0.1 ملم إلى EDTA بتركيز نهائي من 100 أوقية يعقبه تخفيف 10:01 إضافية في DDH 2 O إلى 10 أوقية. PCR التضخيم: نوصي على استخدام الحمض النووي بوليميريز عالية الدقة لتضخيم الجينومية كبيرنظرا لانخفاض نسبة الخطأ (10 -7)، وجيل من المنتجات غير حادة انتهت (وهذا أمر ضروري للخطوة ربط المصب) amplicons. وقد استخدمنا PfuUltra عالية الدقة، ولكن الانزيمات ذات خصائص مماثلة (مثل Phusion) ينبغي تقديم نتائج قابلة للمقارنة. كل رد فعل PCR يحتوي على تركيز نهائي قدره 2.5 يو بوليميريز عالية الدقة PfuUltra، 1 م البيتين، 400 نيوتن متر كل التمهيدي، 200 dNTPs ميكرومتر، 1X PfuUltra العازلة (أو العازلة التي تحتوي على ≥ 2 مم 2 ملغ + من أجل الحفاظ على الاخلاص الأنزيمية) ، 5-50 نانوغرام من الحمض النووي مجمعة في مجلد والنهائي من 50 ميكرولتر. استخدم ما يلي الظروف PCR: 1. 93-95 درجة مئوية لمدة 2 دقيقة، 2. 93-95 درجة مئوية لمدة 30 ثانية، 3. 58-60 درجة مئوية لمدة 30 ثانية، 4. 65-70 درجة مئوية لمدة 60-90 ثانية لamplicons من 250-500 بي بي / دقائق 1،5-3 لamplicons 500-1000 بي بي / 3-5 دقائق لamplicons> 1 كيلوبايت (5)؛. كرر الخطوات من 2-4 لدورات 25-40، 6. 65 درجة مئوية لمدة 10 دقائق و 7. 4 درجات مئوية الانتظار. إذا لزم الأمر، ويمكن عادة نتائج PCR أن تتحسن عن طريق: 1)خفض درجة حرارة طهي للamplicons الصغيرة؛ 2) رفع درجة الحرارة طهي للamplicons كبير، 3. إطالة الوقت لتمديد أي amplicon. إعداد الضوابط سبلينتر: كل تجربة سبلينتر يتطلب وجود سيطرة السلبية والإيجابية للحصول على دقة أفضل. ويمكن لسيطرة سلبية تتألف من جميع المناصب قاعدة متماثل في أي فرد أو شريط مشفر العينة التي تم التسلسل سابقا (على سبيل المثال عينة هاب ماب). فإن سيطرة إيجابية تتكون بعد ذلك من مزيج من اثنين أو أكثر من هذه العينات. لهذا التقرير، ومراقبة سلبية هي منطقة BP 1934 تضخيمها من العمود الفقري للناقلات ssDNA M13mp18. وكان المنتج PCR سانغر التسلسل قبل استخدامه من أجل التأكد من أنه لا يوجد اختلاف تسلسل موجودة من مصدر المواد أو التضخيم PCR. سيطرة إيجابي يتكون من لجنة مكونة من pGEM-T ناقلات سهل مع شركة بريتش بتروليوم 72 المستنسخة إدراج هندسيا مع الملاحق الخاصة، والحذف، substitutions (الجدول 1). نحن مزيج من ناقلات معا على خلفية النوع البري في نسب المولي ان هذه الطفرات موجودة على التردد على أليل واحد في حوض السباحة (أي لتجمع 100 الأليل، وتردد أليل واحد سيكون 1٪). نحن ثم PCR تضخيم قالب سيطرة مختلط باستخدام M13 مواقع التمهيدي PUC في pGEM-T سهلة، وتوليد نهائي 355bp منتج PCR طويلة. 2. المجمعة تحضير مكتبة PCR وتسلسلها PCR المنتج تجميع: يجب تنظيف كل منتج PCR من الاشعال الزائدة. كنا QIAGEN تنقية عمود Qiaquick أو 96-جيدا لوحات متعددة مع مرشح الفراغ لتنظيف واسعة النطاق. بعد تنقية، ينبغي أن كمية كل منتج PCR باستخدام التقنيات القياسية. وسوف تجمع بين كل منتج PCR (بما في ذلك الضوابط) في بركة طبيعية من قبل عدد جزيء كما تجمع بواسطة تركيز يؤدي إلى زيادة تمثيل OV amplicons صغيرإيه أكبر المنتجات. يتم تحويل التركيز إلى أن العدد المطلق للجزيئات الحمض النووي لكل وحدة التخزين باستخدام الصيغة: (ز / ميكرولتر) × (1 مول X BP / 660 غ) × (1 / # BP في amplicon) × (6 × 10 23 جزيئات / مول 1 ) = جزيئات / ميكرولتر. نحن ثم تحديد حجم كل من رد الفعل المطلوب للحمام سباحة للتطبيع عدد من الجزيئات لكل amplicon. هذا الرقم هو إجراء تعسفي، ويمكن تعديله ويعتمد حقا على pipetting كميات كبيرة بما فيه الكفاية للحفاظ على دقة. جمعنا عادة 1-2 X 10 10 جزيئات من كل amplicon. ربط المنتجات PCR: هذه الخطوة ضرورية لتحقيق تغطية موحدة التسلسل كما صوتنة من amplicons PCR الصغيرة سوف منحازة تمثيلها نحو غاياتهم. للتغلب على هذا، ونحن ligate المنتجات المجمعة PCR إلى concatemers كبيرة (> = 10 كيلو بايت) قبل التجزئة. PFU البوليميراز HF الترا يولد نهايات حادة، مما أدى إلى ربط فعال (أ بوليميريز طق مقرها ستضيف 3P "A" المتراكمة التي من شأنها أن لايمكن زيادتها ربط llow دون سابق في ملء أو تصد)، وهذا رد فعل حتى 2-3 مرات إذا لزم الأمر. رد فعل الربط يحتوي على 10 يو كيناز عديد النوكليوتيد T4 و 200 U يغاز T4، و 15٪ البولي ايثيلين ث / ت، 1X العازلة يغاز T4، وجلايكول 8000 ميغاواط، لتصل إلى 2 ميكروغرام من المنتجات PCR المجمعة في وحدة تخزين النهائي من 50 ميكرولتر. يتم تحضين ردود الفعل على 22 درجة مئوية لمدة 16 ساعة تليها 65 درجة مئوية لمدة 20 دقيقة وعقد في 4 درجات مئوية بعد ذلك. يمكن التحقق من نجاح هذه الخطوة عن طريق تحميل 50 نانوغرام من العينات الى هلام الاغاروز 1٪. وربط نجاح يؤدي إلى ارتفاع الحالي فرقة الوزن الجزيئي في حارة (انظر الشكل 2، حارة 3). الحمض النووي التشرذم: عند هذه النقطة يجب أن يكون concatemers كبيرة (> 10KB) لمنتجات PCR. لدينا استراتيجية صوتنة عشوائي باستخدام 24 عينة sonicator Bioruptor Diagenode التي يمكن ان شظية هذه concatemers في 25 دقيقة (40 ثانية "على" / 20 "قبالة" ثانية في الدقيقة الواحدة). هو تحول دون صوتنة من اللزوجة التي أدخلتها PEG، لذلكويمكن التغلب على ذلك عن طريق إضعاف عينة 10:01 العازلة في الجريدة الرسمية، QIAGEN. يمكن التحقق من النتائج على هلام الاغاروز 2٪ (انظر الشكل 2، والممرات 4 و 5). العينة مستعدة لدمج مباشرة في مكتبة الجينوم البورشيد بداية عينة بروتوكول التحضير مع الخطوة "نهاية إصلاح". البيانات الواردة هنا هي من نهاية واحد يقرأ على منظمة شات البورشيد محلل الجينوم، ولكننا قد استخدمت HiSeq عام 2000، ويقوم واحد أو تقرن نهاية يقرأ مع نتائج مماثلة. نظرا لحجم المكتبة خلق، وقد استخدمنا أيضا محولات barcoded مخصصة من أجل مكتبات متعددة متعددة المجمعة لاستيعاب النطاق الترددي المقدمة من منصة HiSeq (لا تظهر البيانات). تتبع بروتوكول الشركة المصنعة والتوصيات التي تأتي مع عدة. من أجل تحقيق أفضل حساسية وخصوصية للكشف عن البديل، وتغطية الهدف من أمثالها-25 أو أكثر لكل أليل يوصى (الشكل 3). هذا التقدير هو مستقل من حجم حوض السباحةوإلى أن يتم الكشف عن نوع من البديل. إذا كان من الممكن الجمع بين مسارب متعددة اللازمة ويعمل للوصول إلى التغطية الكافية. 3. تسلسل القراءات محاذاة وتحليل ضغط الملف والتنسيق: يجب قراءة الملفات الخام التسلسل تحويلها إما في شكل وشاح أو مضغوط. ضغط اختيارية كما أنه يوفر الوقت ومساحة للخطوات تحليل لاحق دون أن تفقد أي معلومات ذات صلة. ويتحقق هذا عن طريق استخدام RAPGAP_read_compressor_v2.pl النصي المضمنة مع الأمر التالي: ./RAPGAP_read_compressor_v2.pl [قراءة الملف]> [إقرأ ملف مضغوط] قبل قراءة نماذج المدخلات هي ملف وشاح وFASTQ، gzipped أو غير مضغوط: وشاح شكل سبيل المثال: محارق النفايات الخطرة، EAS440: 7:1:0:316 # 0/1: NTCGATTCACTGCCCAACAACACCAGCTCCTCTCCC: DNWUQSPWWWWUVVPVVWVVVUVVUUPUUWWWWWUW FASTQ شكل سبيل المثال: @ محارق النفايات الخطرة، EAS440_7_1_0_410 # 0/1 NGTGGTTTCTTCTTTGGCTGGGGAGAGGAGCTGGTG + و/ 8888888888888888888854588767777666! الخام محاذاة نصها كما يلي: يمكن الآن قراءة أولية تكون محاذاة للتسلسل الذي FASTA إشارة المشروح محددة للمناطق المستهدفة المدرجة في تفاعلات PCR، فضلا عن الآثار الإيجابية والسلبية والضوابط. لا يمكن أن يؤديها في محاذاة باستخدام أداة المحاذاة وشملت RAPGAPHASH5d. شكل مساهمة في هذه المرحلة يجب أن يكون وشاح أو ضغط. الأمر بالنسبة للالمحاذاة: ./RAPGAPHASH5d [ملف للقراءة مضغوط] [FASTA ملف] [عدد من التعديلات يسمح]> [الانحياز ملف] عدد حالات عدم التطابق في قراءة التي يسمح بالمقارنة مع تسلسل إشارة معلمة معرفة من قبل المستخدم. سيتم تجاهل القراءات التي تحتوي على عدد يزيد على عدم التطابق. من المستحسن السماح 2 عدم التطابق لقراءة بي بي 36، 4 عدم التطابق لمدة 76 BP يقرأ و 5 حالات عدم التطابق لشركة بريتيش بتروليوم 101 يقرأ. والسماح لمزيد من عدم التطابق تزيد من احتمال أخطاء فائض يسمح التسلسل في آلigned البيانات. كما أطوال قراءة تستمر لتصبح أطول، ويمكن هذه القيمة زادت. علامات الانحياز الملفات من flowcell نفسه: يجب أن يعطى في هذه المرحلة على كامل الانحياز قراءة الملف معرف فريد ("العلامة") من أجل تحديد الملفات للقراءة ينتمون إلى المدى التسلسل نفسه (يمكن تجميعها مسارب متعددة أي من flowcell نفسه وبالنظر إلى علامة واحدة). العلامة ضروري لأن كل تشغيل آلة يولد الملف خطأ الفريدة التي يمكن وصفها عن طريق البطاقات. العلامة هي عبارة عن سلسلة من الأحرف حرفي رقمي يستخدم لتمييز مجموعة من يقرأ (حرف تسطير "_" لا ينبغي أن تستخدم لتحليل القضايا). وينبغي استخدام العلامات المختلفة للملفات للقراءة الانحياز ولدت في flowcells مختلف أو تشغيل الجهاز. يمكن إضافة العلامات باستخدام RAPGAP_alignment_tagger.pl المضمنة مع الأمر التالي: / RAPGAP_alignment_tagger.pl [الانحياز ملف] [TAG]> [الانحياز ملف الموسومة] بعد هذه النقطة، والانحيازويمكن الجمع بين الملفات من المكتبة نفسها ولدت في flowcells مختلفة متعددة معا مثل به كل منهما الاحتفاظ بها وفصل. خطأ توليد نموذج: كما ذكر أعلاه، كل تشغيل آلة يولد ملف تعريف فريد من خطأ التسلسل الذي يجب أن يتميز المتغير للاتصال دقيقة. لتمثيل هذه الأخطاء لكل آلة المدى، يتم تضمين تسلسل الرقابة الداخلية المعروفة لتكون خالية من اختلاف تسلسل في كل مكتبة عينة مجمعة. من ملف الانحياز المفتاحية، يمكن إنشاء ملف نموذج خطأ باستخدام أداة EMGENERATOR4 المتضمنة تسلسل سيطرة إشارة سلبية. ويمكن استخدام كل تسلسل سيطرة سلبية أو بدلا من ذلك مجموعة فرعية فقط من ذلك، المحدد من قبل 5 'و 3' قواعد في معظم المدخلات. فريدة من نوعها، وينبغي أن يقرأ دائما استخدام pseudocounts أن: ./EMGENERATOR4 [الانحياز ملف الموسومة] [تسلسل سيطرة السلبية] [اسم ملف الإخراج] ['قاعدة أكثر من سيطرة سلبية لاستخدامها [3 5]' معظم قاعدةسيطرة سلبية لاستخدامها] [فريدة من نوعها وتشمل ما يلي فقط؟ = Y] [محاذاة الطفيفة قطع] [دخول pseudocounts؟ = Y] ستقوم الأداة EMGENERATOR4 توليد 3 ملف اسمه كاسم معلمة إخراج ملف تليها _1، أو _0 _2. هذه الملفات تتوافق مع 0، 1 و 2 نموذج خطأ النظام على التوالي. للحصول على البديل استدعاء مع منشقة، وينبغي دائما على خطأ النظام 2 نموذج يمكن استخدامها. لتصور الوضع معدل خطأ من البعيد، ويمكن استخدام error_model_tabler_v4.pl لتوليد مؤامرة خطأ PDF في ملف النظام 0 نموذج خطأ (الشكل 4): ./error_model_tabler_v4.pl [خطأ في ملف نموذج النظام 0] [اسم ملف الإخراج] فإن ملف تكشف مؤامرة الاتجاهات الخطأ المدى محددة، ويمكن استخدامها للاستدلال على أكبر عدد ممكن من القواعد قراءة لاستخدامها في التحليل، الذي هو مبين في القسم التالي. 4. كشف نادر عن طريق البديل سبلينتر البديل callinز بواسطة سبلينتر: إن الخطوة الأولى في هذا التحليل هو تشغيل أداة سبلينتر على الملف الانحياز باستخدام نموذج خطأ وتسلسل المرجعية. الأمر للقيام بذلك هي: ./SPLINTER6r [الانحياز ملف الموسومة] [FASTA ملف] [خطأ النظام 2 ملف نموذج] [عدد من قراءة القواعد لاستخدامها] [قراءة قواعد أو دورات استبعاد] [ف قيمة قطع = -1.301] [استخدام فريد يقرأ = Y] [محاذاة الطفيفة قطع] [حجم تجمع من بين الخيارات المتاحة] [طباعة التغطية المطلقة لكل حبلا = Y]> [ملف سبلينتر] عدد القواعد قراءة لاستخدامها يختلف وينبغي تقييمها وفقا لكل تشغيل. نوصي عموما باستخدام 2/3rds الأولى للقراءة لأنها تمثل البيانات أعلى مستوى من الجودة (في أول 24 قراءة قواعد طويلة 36bp قراءة، على سبيل المثال). لا يمكن استبعاد واحد قواعد القراءة من تحليل إذا وجدت لتكون معيبة (مفصولة مثل فاصلة أو N 5،7،11 أو N). وقطع ف قيمة يملي كيف صرامة التحليل يدعو البديل سيكون. نحن ولابدء تحليل مالي من خلال السماح للقطع الحد الأدنى من -1.301 (المقابلة لقيمة P ≤ 0.05 في LOG10 الحجم). الخيار حجم تجمع يحسن الخوارزميات "إشارة إلى الضوضاء" التمييز عن طريق القضاء على المتغيرات المحتملة مع الترددات أليل قاصر أقل من ذلك من أليل واحد في تجمع الفعلية. على سبيل المثال في مجموعة من 50 فردا، يمكن توقع أدنى البديل الملاحظ عند 0.01 تردد أو 1 في 100 الأليلات. وبالتالي، يجب تعيين الخيار حجم تجمع لأقرب قيمة أكبر من العدد الفعلي للالأليلات التي تم تحليلها في هذه التجربة (أي إذا تم مسح 40 شخصا، ونحن نتوقع 80 الأليلات حتى أقرب الخيار سيكون حجم تجمع من 100) . وبعد ذلك دعا المتغيرات على ترددات <0.01 يمكن تجاهل مثل الضوضاء. هذا الملف بإرجاع كافة الزيارات التي هي ذات دلالة إحصائية في جميع أنحاء عينة، مع وصف للموقف المتغير، نوع من البديل، ف قيمة لكل حبلا الحمض النووي، وتواتر متغير والتغطية الكاملة لكل حبلا الحمض النووي ( <stronز> الجدول 2). تطبيع للتغطية المتغيرات يسمى: يمكن تقلبات التغطية عبر عينة توليد مشاهدات زائفة. يمكن تصحيح هذا عن طريق تطبيق سيناريو splinter_filter_v3.pl على النحو التالي: ./splinter_filter_v3.pl [ملف سبلينتر] [ملف قائمة] [صرامة]> [سبلينتر ملف تطبيع] حيث يوجد ملف القائمة هي قائمة من الزيارات مراقبة إيجابية في شكل ملف المفصول. الحقل الأول يشير إلى amplicon من اهتمام، في حين أن الحقل الثاني يشير إلى الموقف الذي الطفرة موجودة. N يشير إلى أن بقية تسلسل لا يحتوي على أي طفرة. تحديد الأمثل ف قيمة العتبات باستخدام بيانات مراقبة إيجابية: بعد التطبيع، أمر لا غنى عنه في تحليل مراقبة إيجابية لتحقيق أقصى قدر من الحساسية والنوعية لتحليل عينة معينة. ويمكن تحقيق هذا من خلال إيجاد الأمثل ف قيمة قطع باستخدام انفورمانشوئها من سيطرة الإيجابية. على الأرجح، فإن الأولي ف قيمة -1.301 لا تكون صارمة بما فيه الكفاية، والتي إذا كان الأمر كذلك، سوف يؤدي إلى الدعوة من ايجابيات كاذبة من سيطرة إيجابية أو سلبية. وسوف تظهر كل تحليل سبلينتر الفعلية ف قيمة لكل متغير يسمى (انظر العمودين 5 و 6 في الجدول رقم 2)، التي لا يمكن التنبؤ مسبقا. ومع ذلك، يمكن تكرار تحليل كامل عن طريق استخدام أقل صرامة ف القيمة المعروضة على الانتاج الأولي للقاعدة المعروفة صحيح مواقف إيجابية. وهذا يساعد على الاحتفاظ بجميع ايجابيات صحيح مع استبعاد معظم، إن لم يكن كلها، ايجابيات كاذبة وأنها عادة ما يكون ف قيم أقل أهمية بكثير مقارنة مع ايجابيات صحيح. لأتمتة هذه العملية، يمكن استخدامها في cutoff_tester.pl cutoff_tester.pl يتطلب ملف الإخراج المنشقة وقائمة مشاهدات مراقبة إيجابية في شكل ملف المفصول بوصفها واحدة تستخدم لتطبيع.: / cutoff_tester.pl مرشح سبلينتر [إد ملف] [قائمة ملف] وسيكون الناتج الناجمة عن ذلك على قائمة بقطع التي تصل تدريجيا واحدة الأمثل (انظر الجدول 3). والشكل هو: [مسافة واحدة من أقصى حساسية وخصوصية] [حساسية] [خصوصية] [قطع] على سبيل المثال: 7.76946294170104e-07 1 0،999118554429264 -16،1019999999967 السطر الأخير يمثل قطع معظم الأمثل على المدى، وبالتالي يمكن استخدامها لتحليل البيانات. النتيجة المثلى لتحقيق حساسية ونوعية من 1. في حال لم يتم التوصل إلى هذه النتيجة، ويمكن تكرار تحليل سبلينتر عن طريق تغيير عدد من إنكوربوريتد قراءة قواعد حتى يتحقق الشرط الأكثر الأمثل. البديل النهائي تصفية: يمكن تطبيق قطع نهائي للبيانات باستخدام برنامج نصي cutoff_cut.pl، والتي سوف تصفية ملف الإخراج منشقة من الفعالية دون قطع الأمثل، / cutoff_cut.pl [سبلينتر ملف ترشيح] [قطع]> [سبلينتر النهائيملف] وهذه الخطوة توليد الناتج النهائي ملف سبلينتر، والتي سوف تحتوي على تعدد الأشكال وIndels الحالي في العينة. يرجى ملاحظة أن الناتج عن الإدراج يختلف قليلا من أجل استبدال أو الحذف (الجدول 2). 5. ممثل النتائج نحن تجميع عدد سكانها من 947 أفراد واستهدفت أكثر من 20 كيلو بايت لتسلسل. طبقنا سبلينتر للكشف عن المتغيرات النادرة بعد بروتوكول لدينا معيار. وقد سبق لكل فرد قد التنميط الجيني التي يؤديها الجينوم على نطاق التنميط الجيني للمجموعة. وكان التوافق بين التنميط الجيني من المفتاحية ومتغيرات جديدة ودعا في العينة المجمعة ممتاز (الشكل 6). تم استدعاء ثلاثة متغيرات، اثنان منها (rs3822343 وrs3776110) كانت نادرة في عدد السكان، من جديد من نتائج التسلسل وتم التصديق عليها من قبل pyrosequencing الفردية. وكانت ترددات الأليل قاصر (MAF) في تجمع مماثل لشركة ماجد الفطيم وذكرت في 129 بناء dbSNP. وكان التوافق بين ماجد الفطيم pyrosequencing والتسلسل المجمعة ممتاز (الجدول 3). جدول قليل النوكليوتيد الحمض النووي 1. متواليات لمراقبة إيجابية. كل تسلسل يتكون من قطعة الحمض النووي يختلف عن مرجع نوع البرية بواسطة استبدال 2 أو أحد الإدراج والحذف واحد. اضغط هنا لمشاهدتها بشكل اكبر . الجدول 2. مثال للناتج منشقة. أول صفين تمثل الناتج سبلينتر القياسي لاستبدال أو الحذف (رأس أزرق). في الصف الأخير يمثل الناتج سبلينتر القياسية لإدراج (رأس الأرجواني).rget = "_blank"> اضغط هنا لمشاهدتها بشكل اكبر. الجدول 3. خمسة معروفة وحددت المتغيرات رواية ثلاثة من عدد كبير من السكان والتصديق عليها من قبل التنميط الجيني للفرد. تم إجراء التحقق من صحة الفردية pyrosequencing (الصفوف 1-3)، TaqMan فحص (الصفوف 4-6) أو سانغر التسلسل (صفوف 7،8). لمجموعة واسعة من الترددات أليل وبما في ذلك خمس وظائف مع شركة ماف <1٪، وكان التوافق بين تجميع التسلسل أليل تقدير وتيرة والتنميط الجيني للفرد قوي. يتم تكييفها المواقف التي تحمل علامة النجمة (*) من بيانات أبلغ عنها سابقا 9. الشكل 1. مجمع-تسلسل الحمض النووي وتحليل سبلينتر نظرة عامة. يتم تجميع الحمض النووي المريضوتضخمت في مواضع مختارة. ويتم تجميع المنتجات النهائية PCR جنبا إلى جنب مع سيطرة الإيجابية والسلبية في النسب متساوي المولية. والتسلسل ثم المزيج المجمعة ويتم تعيينها من قراءة الناتج العودة إلى مرجع لهم. وتستخدم خرائط سلبي قراءة مراقبة لتوليد نموذج خطأ المدى محددة. ويمكن بعد ذلك سبلينتر أن تستخدم لكشف تعدد الأشكال النادرة وindels من خلال دمج المعلومات من النموذج الخطأ ومراقبة إيجابية. [بتصرف من FLM Vallania وآخرون، بحوث الجينوم 2010] اضغط هنا لمشاهدتها بشكل اكبر . الشكل 2. amplicon PCR مجمع ربط وصوتنة. كدليل للربط والخطوات تجزئة عشوائية في المكتبة بروتوكول الإعداد، وهضم إنزيمي pUC19 متجه إلى شظايا هو مبين في ممر 2. وكانت هذه الشظايا نورماlized من قبل عدد جزيء، جنبا إلى جنب وligated عشوائيا وفقا لزيادة 1.7 أعلاه. وسيتم عرض concatamers الناجمة كبير في حارة 3. كانت concatamers ligated تساوت وتعرض لصوتنة كما هو موضح في الخطوة 1.8 أعلاه. وتظهر مسحة الناتجة من شظايا من الحمض النووي لكل تكرار التقنية في الممرات 4 و 5. قوس يسلط الضوء على مدى حجم المستخدمة لاستخراج جل وتسلسل إنشاء مكتبة. الشكل 3. الدقة بوصفها وظيفة من تغطية لأليل واحد في عينة مجمعة. وتشير التقديرات إلى دقة مثل المنطقة تحت المنحنى (AUC) لاستقبال المشغل المنحنى (ROC)، الذي يتراوح بين 0.5 (عشوائي) إلى 1.0 (دقة كاملة). يتم رسم AUC بوصفها وظيفة من تغطية لكل أليل للكشف عن الأليلات الطافرة واحد في برك من الأليلات 200، 500 و 1000 (A). يتم رسم AUC بوصفها وظيفة التغطية الكاملة لعمليات الإدراج، واستبدال دeletions (B). [بتصرف من FLM Vallania وآخرون، بحوث الجينوم 2010]. 4 الشكل. مؤامرة خطأ يدل على احتمال دمج قاعدة خاطئ في موقف معين. ملف خطأ يظهر معدلات خطأ منخفضة مع وجود اتجاه متزايد نحو نهاية 3 'للقراءة التسلسل. والجدير بالذكر أن النيوكليوتيدات مرجعية مختلفة عرض الاحتمالات خطأ مختلفة (انظر على سبيل المثال احتمال دمج C يعطى G كمرجع). [بتصرف من FLM Vallania وآخرون، بحوث الجينوم 2010]. الشكل 5. الدقة من التشرذم في تقدير تواتر الأليل للمناصب التي كانت أكبر من تغطية أضعاف نسبة 25 في أليل. استنادا إلى النتائج في لوحة، الشكل (3) تظهر حساسية الأمثل للكشف عن متغير واحد مع تغطية 25 أضعاف ≥، وهومقارنة بين الترددات أليل تجميع الحمض النووي التي تقدرها منشقة عنه والتهم أليل تقاس النتائج GWAS في ارتباط عالية جدا (R = 0.999). [بتصرف من FLM Vallania وآخرون، بحوث الجينوم 2010]. الشكل 6. مقارنة بين الترددات أليل يقاس مقارنة مع تقديرات GWAS منشقة عن التسلسل المجمعة من 974 فردا. كانت هناك 19 وظيفة مشتركة بين مواضع مرمزة والمناطق تسلسل للمقارنة. العلاقة الناتجة عالية جدا (R = 0.99538). انقر هنا لعرض أكبر شخصية .

Discussion

هناك أدلة متزايدة على أنه يجوز خاضعة للإشراف من حدوث والاستجابة العلاجية من الظواهر، والأمراض الشائعة معقدة مثل السمنة 8، 4 ارتفاع الكولسترول وارتفاع ضغط الدم (7) وغيرها من ملامح الشخصية من اختلاف نادر. ويمكن التعرف على الجينات والممرات حيث مجموع هذه المتغيرات في السكان المتضررين سيكون لها آثار عميقة في التشخيص والعلاج، ولكن تحليل الأفراد المتضررين على حدة أن يكون الوقت والتكلفة الباهظة. سكان التحليل القائم على توفر وسيلة أكثر كفاءة لاستقصاء الاختلاف الجيني في مواضع متعددة.

نقدم رواية تجميع الحمض النووي تسلسل بروتوكول يقترن شظية مجموعة من البرامج المصممة للتعرف على هذا النوع من الاختلاف الجيني عبر السكان. نبين مدى دقة هذه الطريقة في تحديد وقياس الأليلات طفيفة في عدد كبير من السكان المجمعة من 947 شخصا، من بينهم المتغيرات النادرة التي كانتودعا من جديد من التسلسل المجمعة والتصديق عليها من قبل pyrosequencing الفردية. استراتيجيتنا تختلف أساسا عن غيرها من البروتوكولات التي إدماج الإيجابية والسلبية لمراقبة داخل كل تجربة. وهذا يسمح سبلينتر لتحقيق دقة أعلى من ذلك بكثير والطاقة بالمقارنة مع المناهج الأخرى 1. يتم إصلاح التغطية الأمثل لأضعاف نسبة 25 في أليل بصرف النظر عن حجم تجمع، مما يجعل تحليل كميات ضخمة بقدر الإمكان هذا الشرط موازين فقط خطيا مع حجم حوض السباحة. نهجنا مرنة جدا ويمكن تطبيقها على أي النمط الظاهري في المصالح ولكن أيضا لعينات التي هي غير متجانسة بشكل طبيعي، مثل السكان الخلية المختلطة والخزعات ورم. نظرا للاهتمام المتزايد في التسلسل المجمعة من المناطق المستهدفة الكبيرة مثل exome أو الجينوم، الإعدادية لدينا مكتبة والتحليل سبلينتر متوافق مع التقاط-العرف وتسلسل كامل exome، ولكن لم يتم تصميم الأداة المساعدة التوافق في حزمة سبلينتر لل كبيرمراجع متواليات. ولذلك، نحن استخدمت بنجاح اليجنر البرمجة الديناميكية، Novoalign، عن الجينوم على نطاق الاصطفافات تليها البديل استدعاء من العينة المجمعة (راموس وآخرون، المقدمة). وبالتالي، يمكن أن استراتيجيتنا التسلسل المجمعة بنجاح لتوسيع نطاق أكبر مجمعات مع كميات متزايدة من تسلسل الهدف.

Disclosures

The authors have nothing to disclose.

Acknowledgements

وأيد هذا العمل من قبل معهد الطفل منحة ديسكفري MC-II-2006-1 (RDM وتيد)، وعلم التخلق المعاهد الوطنية للصحة خارطة الطريق منحة [1R01DA025744-01 و3R01DA025744 02S1-] (RDM وFLMV)، U01AG023746 (SC)، والصائغ مؤسسة (FLMV وتيد)، 1K08CA140720-01A1 وشراب الليمون اليكس الجناح "أ" دعم جائزة (تيد). ونحن نشكر وصول مركز تكنولوجيا الجينوم في قسم علم الوراثة في جامعة واشنطن في كلية الطب للمساعدة في التحليل الجيني. ويدعم بشكل جزئي من قبل مركز سرطان NCI دعم منح مركز # P30 CA91842 لمركز سرطان Siteman وتكنولوجيا المعلومات والاتصالات / CTSA جرانت # UL1RR024992 من NationalCenter لبحوث الموارد (NCRR)، وهو مكون من المعاهد الوطنية للصحة (NIH)، و المعاهد الوطنية للصحة خارطة الطريق للبحوث الطبية. هذا المنشور هو فقط من مسؤولية الكتاب ولا تمثل بالضرورة وجهة النظر الرسمية من NCRR أو المعاهد الوطنية للصحة.

Materials

Reagent Name Company Catalogue Number Section
PfuUltra High-Fidelity Agilent 600384 1.4
Betaine SIGMA B2629 1.4
M13mp18 ssDNA vector NEB N4040S 1.5
pGEM-T Easy Promega A1360 1.5
T4 Polynucleotide Kinase NEB M0201S 2.2
T4 Ligase NEB M0202S 2.2
Polyethylene Glycol 8000 MW SIGMA P5413 2.2
Bioruptor sonicator Diagenode UCD-200-TS 2.3

References

  1. Vallania, F. L. M., Druley, T. E., Ramos, E., Wang, J., Borecki, I., Province, M., Mitra, R. D. High-throughput discovery of rare insertions and deletions in large cohorts. Genome Research. 20, 1391-1397 (2010).
  2. Shendure, J., Mitra, R., Varma, C., Church, G. M. Advanced Sequencing Technologies: Methods and Goals. Nature Reviews of Genetics. 5, 335-344 (2004).
  3. The 1000 Genomes Project Consortium. A map of human genome variation from population-scale sequencing. Nature. 467, 1061-1073 (2010).
  4. Manolio, T. A., Collins, F. S., Cox, N. J., Goldstein, D. B., Hindorff, L. A., Hunter, D. J., McCarthy, M. I., Ramos, E. M., Cardon, L. R. Finding the missing heritability of complex diseases. Nature. 461, 747-753 (2009).
  5. Reich, D. E., Lander, E. S. On the allelic spectrum of human disease. Trends Genet. 17, 502-510 (2001).
  6. Cohen, J. C., Kiss, R. S., Pertsemlidis, A., Marcel, Y. L., McPherson, R., Hobbs, H. H. Multiple rare alleles contribute to low plasma levels of HDL cholesterol. Science. 305, 869-872 (2004).
  7. Ji, W., Foo, J. N., O’Roak, B. J., Zhao, H., Larson, M. G., Simon, D. B., Newton-Cheh, C., State, M. W., Levy, D., Lifton, R. P. Rare independent mutations in renal salt handling genes contribute to blood pressure variation. Nat. Genet. 40, 592-599 (2008).
  8. Ahituv, N., Kavaslar, N., Schackwitz, W., Ustaszewska, A., Martin, J., Hebert, S., Doelle, H., Ersoy, B., Kryukov, G., Schmidt, S. Medical sequencing at the extremes of human body mass. Am. J. Hum. Genet. 80, 779-791 (2007).
  9. Druley, T. E., Vallania, F. L., Wegner, D. J., Varley, K. E., Knowles, O. L., Bonds, J. A., Robison, S. W., Doniger, S. W., Hamvas, A., Cole, F. S., Fay, J. C., Mitra, R. D. Quantification of rare allelic variants from pooled genomic DNA. Nat. Methods. 6, 263-265 (2009).
  10. Mitra, R. D., Butty, V., Shendure, J., Housman, D., Church, G. M. Digital Genotyping and Haplotyping with Polymerase Colonies. Proc. Natl. Acad. Sci. 100, 5926-5931 (2003).

Play Video

Cite This Article
Vallania, F., Ramos, E., Cresci, S., Mitra, R. D., Druley, T. E. Detection of Rare Genomic Variants from Pooled Sequencing Using SPLINTER. J. Vis. Exp. (64), e3943, doi:10.3791/3943 (2012).

View Video