تغيير وجهة نظرنا النظرية الافتراضية (BCP) خوارزمية يستند دولة من بين الفن النمذجة التقدم في التغيير عبر نقاط نماذج ماركوف المخفية ويطبقها على لونين مناعي التسلسل (ChIPseq) تحليل البيانات. BCP يؤدي جيدا في كل أنواع البيانات واسعة النطاق والمنقط، ولكن تتفوق في تحديد بدقة قوية والجزر استنساخه من تخصيب هيستون منتشر.
ChIPseq هو أسلوب يستخدم على نطاق واسع للتحقيق في البروتين DNA التفاعلات. يتم إنشاء ملفات تعريف الكثافة قراءة باستخدام التسلسل التالي من البروتين DNA محددة وقصيرة محاذاة يقرأ إلى الجينوم مرجعية. وكشف مناطق التخصيب والقمم، والتي تختلف في كثير من الأحيان بشكل كبير في الشكل، اعتمادا على البروتين الهدف 1. على سبيل المثال، غالبا ما تربط عوامل النسخ في موقع وبطريقة تسلسل معين وتميل إلى إنتاج الذروة نقطي، بينما هي تعديلات بسيطة أكثر انتشارا وتتميز الجزر، واسعة الانتشار من تخصيب 2. تحديد هذه المناطق بشكل موثوق كان محور عملنا.
استخدمت خوارزميات لتحليل البيانات ChIPseq منهجيات مختلفة، من الاستدلال 3-5 على نماذج أكثر صرامة الإحصائية، على سبيل المثال نماذج ماركوف المخفية (HMMs) 6-8. سعينا إلى حل تقلل من ضرورة يصعب تحديد والمخصصة المعلمات التي غالبا ماتنازلات القرار ويقلل من قابليتها للاستخدام بديهية من الأداة. فيما يتعلق HMM القائم على الأساليب، ونحن تهدف للحد من إجراءات تقدير المعلمة وبسيطة، والتصنيفات الدولة محدودة التي تستخدم في كثير من الأحيان.
بالإضافة إلى ذلك، تحليل البيانات التقليدية ChIPseq ينطوي التصنيف من المتوقع قراءة ملامح كثافة نقطية أو إما منتشر ثم طلب بعد ذلك الأداة المناسبة. نحن تهدف إلى زيادة الحاجة إلى استبدال هذين النموذجين متميزة مع نموذج واحد أكثر تنوعا، والتي يمكن أن تعالج باقتدار طائفة كاملة من أنواع البيانات.
لتحقيق هذه الأهداف، ونحن لأول مرة بناء إطار إحصائي أن غرار طبيعي ChIPseq هياكل البيانات باستخدام مسبقا في طليعة HMMs 9، والتي تستخدم فقط الصيغ الصريحة، والابتكار حاسما لمزايا أدائها. نماذج الكشف عن مجريات الأمور أكثر تعقيدا بعد ذلك، لدينا تسع دول HMM مخفي لا حصر له من خلالالنظرية الافتراضية النموذج. طبقنا لتحديد نقاط تغيير معقول في كثافة القراءة، التي تحدد مزيد من شرائح تخصيب اليورانيوم. كشف تحليلنا كيف لنا نقطة تغيير النظرية الافتراضية (BCP) خوارزمية كان التعقيد يشهد انخفاض الحسابية من قبل وقت التشغيل مختصرة وأثر الذاكرة. تم تطبيق الخوارزمية بنجاح BCP إلى كل من الذروة ونقطي منتشر تحديد الجزيرة مع دقة قوية ومحدودة المعلمات المعرفة من قبل المستخدم. هذا يتضح كلا من براعة وسهولة الاستخدام. وبناء على ذلك، فإننا نعتقد أنه يمكن تنفيذها بسهولة في مدى واسع من أنواع البيانات والمستخدمين النهائيين على نحو تتم مقارنة بسهولة ويتناقض، مما يجعلها أداة عظيمة لتحليل البيانات ChIPseq التي يمكن أن تساعد في التعاون وتأييد بين المجموعات البحثية. هنا، علينا أن نبرهن تطبيق BCP إلى عامل النسخ الموجودة والبيانات 10،11 اللاجينية 12 إلى توضيح فائدتها.
شرعنا في تطوير نموذج لتحليل البيانات التي يمكن أن ChIPseq تحديد كل منقط ومنتشر بشكل جيد على قدم المساواة هياكل البيانات. حتى الآن، كانت مناطق التخصيب، ولا سيما المناطق المنتشر، والتي تعكس حجم التوقع يفترض من جزيرة كبيرة ويصعب التعرف عليها. لمعالجة هذه المشاكل، ونحن است?…
The authors have nothing to disclose.
STARR مؤسسة جائزة (MQZ)، NIH منحة ES017166 (MQZ)، NSF منحة DMS0906593 (HX).
Name of the reagent | Company | Catalogue number | Comments (optional) |
Linux-based workstation |