सिंथेटिक प्रोटीन के अनुकूलन: Interpositional निर्भरता की पहचान संरचनात्मक संकेत है और / या कार्यात्मक लिंक्ड अवशेष

Chemistry
JoVE Journal
Chemistry
AccessviaTrial
 

Cite this Article

Copy Citation | Download Citations | Reprints and Permissions

Rumpf, R. W., Ray, W. C. Optimization of Synthetic Proteins: Identification of Interpositional Dependencies Indicating Structurally and/or Functionally Linked Residues. J. Vis. Exp. (101), e52878, doi:10.3791/52878 (2015).

Please note that all translations are automatically generated.

Click here for the english version. For other languages click here.

Abstract

प्रोटीन संरेखण सामान्यतः प्रोटीन अवशेषों की समानता का मूल्यांकन करने के लिए उपयोग किया जाता है, और व्युत्पन्न आम सहमति अनुक्रम कार्यात्मक इकाइयों (उदाहरण के लिए, डोमेन) की पहचान करने के लिए इस्तेमाल किया। विकास भर में और phylogentic पेड़ भर में एक साथ प्रदर्शित करने के लिए करते हैं कि अवशेषों के कार्यात्मक आवश्यक covariation - पारंपरिक आम सहमति निर्माण मॉडल interpositional निर्भरता के लिए खाते में असफल। इन रिश्तों को प्रोटीन तह, thermostability, और बदले में कृत्रिम प्रोटीन के इंजीनियरिंग सूचित करने के लिए इस्तेमाल किया जा सकता है, जो कार्यात्मक साइटों, के गठन की प्रक्रिया के बारे में महत्वपूर्ण सुराग प्रकट कर सकते हैं। दुर्भाग्य से, इन रिश्तों को अनिवार्य रूप से सरल "बहुमत नियम" या यहां तक ​​कि हम्म आधारित आम सहमति मॉडल ने भविष्यवाणी नहीं की जा सकती है, जो उप-रूपांकनों रूप है, और परिणाम प्रकृति में ही कभी नहीं देखा नहीं है, लेकिन कम से व्यवहार्य है, जो एक जैविक रूप से अमान्य "आम सहमति" हो सकता है किसी भी मौजूदा प्रोटीन की तुलना में। हम एक दृश्य एक विकसित किया हैस्पष्ट रूप से एक प्रोटीन संरेखण के एक इंटरैक्टिव 3 डी प्रतिनिधित्व बनाता है और जो alytics उपकरण, StickWRLD, अवशेषों covarying प्रदर्शित करता है। उपयोगकर्ता पैन और ज़ूम, साथ ही गतिशील रूप के रूप में covariants की पहचान अंतर्निहित सांख्यिकीय दहलीज बदलने की क्षमता है। StickWRLD पहले से सफलतापूर्वक ऐसी Adenylate Kinase के रूप में और इस तरह के endonuclease लक्ष्य साइटों के रूप में डीएनए दृश्यों में प्रोटीन में कार्यात्मक रूप से आवश्यक covarying अवशेषों की पहचान करने के लिए इस्तेमाल किया गया है।

Introduction

प्रोटीन संरेखण लंबे समय से एक प्रोटीन परिवार में अवशेषों की समानता का मूल्यांकन करने के लिए इस्तेमाल किया गया है। एक प्रोटीन (जैसे, उत्प्रेरक या अन्य बाध्यकारी साइटों) की अकसर सबसे दिलचस्प सुविधाओं संपर्क में रेखीय क्रम के बाहर के क्षेत्रों को लाने तह प्रोटीन का परिणाम है, और एक परिणाम के रूप में संरेखण में इन जाहिरा तौर पर असंबंधित क्षेत्रों को विकसित और में बदल देते हैं एक समन्वित फैशन। अन्य मामलों में, एक प्रोटीन के समारोह में अपने इलेक्ट्रोस्टैटिक हस्ताक्षर पर निर्भर हो सकता है, और इलेक्ट्रॉनिक द्विध्रुवीय को प्रभावित करने वाले म्यूटेशन दूर आरोप लगाया अवशेषों में परिवर्तन के लिए मुआवजा रहे हैं। Allosteric प्रभाव भी अवशेषों पहचानों के बीच लंबी दूरी अनुक्रमिक और स्थानिक निर्भरता को प्रेरित कर सकते हैं। भले ही उनकी मूल के अवशेषों के इन कार्यात्मक-आवश्यक covariations - इंटर-स्थितीय निर्भरता (IPDS) - संरेखण (चित्रा 1) के दृश्य परीक्षा के साथ स्पष्ट नहीं हो सकता। IPDs की पहचान - के रूप में अच्छी तरह के रूप मेंउन पदों के भीतर विशिष्ट अवशेष एक इकाई के रूप में covary के लिए करते हैं - जो प्रोटीन तह की प्रक्रियाओं और कार्यात्मक साइटों के गठन के बारे में महत्वपूर्ण सुराग प्रकट कर सकते हैं। यह जानकारी तो thermostability और गतिविधि के मामले में सिंथेटिक (इंजीनियर) प्रोटीन का अनुकूलन करने के लिए इस्तेमाल किया जा सकता है। यह लंबे समय से आम सहमति की ओर सभी बिंदु उत्परिवर्तन स्थिरता में सुधार या गतिविधि प्रदान नहीं कि ज्ञात किया गया है। हाल ही में, प्रोटीन बिंदु उत्परिवर्तन 3 स्थिर रखने के विचार के समान (तैयारी में पांडुलिपि) सख्ती से आम सहमति 1,2 से बनाया गया एक ही प्रोटीन, की तुलना में अधिक से अधिक गतिविधि में परिणाम दिखाया गया है उनके अनुक्रम में जाना जाता IPDs का लाभ लेने के लिए बनाया गया है।

दुर्भाग्य से, परंपरागत सर्वसम्मति निर्माण मॉडल (जैसे, बहुमत शासन) केवल दुर्घटना से IPDs कब्जा। आम सहमति और स्थिति विशिष्ट स्कोरिंग मैट्रिक्स विधियों IPDs से अनभिज्ञ हैं और केवल 'सही ढंग से' मॉडल, जब निर्भर अवशेषों में उन्हें शामिलपरिवार में उन पदों के लिए सबसे लोकप्रिय अवशेष भी हैं। मार्कोव श्रृंखला मॉडल वे क्रमिक रूप से समीपस्थ हैं, लेकिन उनके विशिष्ट कार्यान्वयन तत्काल अनुक्रमिक पड़ोसियों के अलावा सब कुछ ध्यान नहीं देता है, और यहां तक कि उनके सबसे अच्छे रूप में, छुपे हुए मार्कोव मॉडल गणना (देखें चित्र 2) जब IPDs कब्जा निर्भरताओं से अधिक के अनुसार इस क्रम में अलग हो रहे हैं जब असभ्य बन सकता है एक दर्जन या तो 4 पदों। इन IPDs अनिवार्य रूप से सरल "बहुमत नियम" या यहां तक कि हम्म आधारित आम सहमति मॉडल ने भविष्यवाणी नहीं की जा सकती है, जो "उप रूपांकनों" फार्म के बाद से 5,6 परिणाम प्रकृति में ही कभी नहीं देखा नहीं है, लेकिन जो एक जैविक रूप से अमान्य "आम सहमति" हो सकता है कम किसी भी मौजूदा प्रोटीन से व्यवहार्य। ऐसे Gremlin के रूप में 7 मार्कोव रैंडम फील्ड्स, पर आधारित सिस्टम, इन समस्याओं को दूर करने का प्रयास। ऐसे noncontiguous पुनर्संयोजन 3,8 के रूप में परिष्कृत जैव रासायनिक / जैविक तकनीक आईडीई के लिए इस्तेमाल किया जा सकता है इसके अतिरिक्त, जबकिक्षेत्र द्वारा ntify आवश्यक प्रोटीन तत्वों, वे एकल आधार जोड़ी परिशुद्धता प्राप्त किया जा करने के लिए काफी समय और बेंच काम की आवश्यकता होती है।

StickWRLD 9 IPDs स्पष्ट है और आसानी से समझ में आता है कि एक प्रोटीन संरेखण के एक इंटरैक्टिव 3 डी प्रतिनिधित्व बनाता है एक अजगर आधारित कार्यक्रम है। संरेखण में प्रत्येक स्थिति प्रत्येक स्तंभ क्षेत्रों की हो चुकी है, संरेखण के भीतर उस स्थिति में मौजूद हो सकता है कि 20 अमीनो एसिड से प्रत्येक के लिए एक के शामिल है, जहां प्रदर्शन में एक स्तंभ के रूप में प्रतिनिधित्व किया है। क्षेत्र आकार उपयोगकर्ता तुरंत आम सहमति छाछ या बस क्षेत्रों के आकार को देखकर लगता है कि स्थिति के भीतर अमीनो एसिड के सापेक्ष वितरण बटोरने कर सकते हैं कि इस तरह के अमीनो एसिड की घटना की आवृत्ति पर निर्भर है। प्रत्येक स्थिति का प्रतिनिधित्व कॉलम एक सिलेंडर के चारों ओर लिपटा कर रहे हैं। यह एक स्पष्ट 'दृष्टि की लाइन' संरेखण में प्रत्येक स्थान पर एक संभव अमीनो एसिड का प्रतिनिधित्व हर क्षेत्र देता हैहर दूसरे स्थान पर हर दूसरे अमीनो एसिड संभावना के लिए। दृश्य करने से पहले, StickWRLD IPDs 9 की पहचान करने के अवशेषों के सभी संभव संयोजनों के बीच संबंध ताकत खरीदते हैं। IPDs का प्रतिनिधित्व करने के लिए, लाइनों पर coevolving कर रहे हैं जो अवशेषों के बीच तैयार कर रहे हैं पदों में मौजूद अवशेषों (IPDS) स्वतंत्र थे उम्मीद होगी की तुलना में अधिक है, या कम है।

इतना ही नहीं अनुक्रम पदों evolutionarily बातचीत जो इस दृश्य दिखाती है, लेकिन आईपीडी किनारे लाइनों प्रत्येक स्तंभ में अमीनो एसिड के बीच के क्षेत्रों तैयार कर रहे हैं, के रूप में उपयोगकर्ता जल्दी विशिष्ट एमिनो एसिड प्रत्येक स्थिति में coevolving हो जाते हैं, जो निर्धारित कर सकते हैं। उपयोगकर्ता बारी बारी से और कल्पना की आईपीडी संरचना का पता लगाने, के रूप में अच्छी तरह से गतिशील रूप के रूप में StickWRLD IPDs के लिए एक शक्तिशाली खोज उपकरण बनाने सह-संबंध के प्रदर्शन को नियंत्रित करने, सांख्यिकीय थ्रेसहोल्ड बदलने की क्षमता है।

ऐसे gremlin 7 simil के रूप में आवेदनआर्ली अवशेषों के बीच जटिल रिलेशनल जानकारी प्रदर्शित - लेकिन इन रिश्तों को किसी भी सशर्त रिश्तों को निर्धारित करने के लिए तैयार नहीं हैं, जो अधिक परंपरागत मार्कोव मॉडल, के माध्यम से गणना कर रहे हैं। जैसे, इन 2D अनुमानों के रूप में प्रदर्शित किया जा रहा करने में सक्षम हैं। इसके विपरीत, StickWRLD गणना और 2 डी ग्राफ (धार रोड़ा के रूप में जाना जाता घटना) के रूप में प्रदान अगर अस्पष्ट किया जा सकता है जो बहु-नोड सशर्त निर्भरता, प्रदर्शित कर सकते हैं।

StickWRLD '3 डी दृश्य भी कई अन्य लाभ हैं। घूर्णन, panning, और zooming - - और अधिक आसानी से StickWRLD के 3 डी सिलेंडर में देखा जा सकता है अस्पष्ट या एक 2 डी प्रतिनिधित्व में unintuitive जा सकता है कि सुविधाओं के उपयोगकर्ताओं दृश्य में हेरफेर करने की अनुमति देकर। StickWRLD अनिवार्य रूप से पैटर्न और रुझान देखने के लिए मानव मस्तिष्क के पैटर्न मान्यता क्षमता की शक्ति का दोहन एक दृश्य विश्लेषिकी उपकरण, और विभिन्न दृष्टिकोणों से डेटा का पता लगाने के लिए की क्षमता ही यह करने के लिए उधार देता है।

Protocol

1. सॉफ्टवेयर डाउनलोड और स्थापना

  1. एक कंप्यूटर रैम कम से कम 4 जीबी के साथ एक इंटेल i5 या बेहतर प्रोसेसर है, और मैक ओएस एक्स या जीएनयू / लिनक्स (जैसे, Ubuntu) ओएस चल रहा है का उपयोग करें। इसके अलावा, पायथन 2.7.6 10 और wxPython 2.8 11, SciPy 12, और PyOpenGL 13 अजगर पुस्तकालयों के लिए आवश्यक हैं - डाउनलोड करने और अपने-अपने खजाने से प्रत्येक स्थापित करें।
  2. डाउनलोड StickWRLD प्रासंगिक अजगर लिपियों के सभी युक्त ज़िप संग्रह के रूप में। StickWRLD प्रारूप करने के लिए मानक FASTA डीएनए / प्रोटीन अनुक्रम संरेखण परिवर्तित करने के लिए "fasta2stick.sh" स्क्रिप्ट को डाउनलोड करें।
  3. संग्रह निकालें और अपने डेस्कटॉप पर जिसके परिणामस्वरूप StickWRLD फ़ोल्डर में डाल दिया। के रूप में अच्छी तरह से डेस्कटॉप पर "fasta2stick.sh" स्क्रिप्ट रखें।

2. संरेखण की तैयारी

  1. किसी भी स्टेन का उपयोग कर प्रोटीन दृश्यों की एक संरेखण बनाएँदर्द संरेखण सॉफ्टवेयर (जैसे, ClustalX 14)। FASTA प्रारूप में डेस्कटॉप पर संरेखण को बचाओ।
  2. मैक या जीएनयू / लिनक्स कंप्यूटर पर टर्मिनल आवेदन खोलें और सीडी ~ / डेस्कटॉप टाइपिंग और बदले दबाकर डेस्कटॉप ("fasta2stick.sh" खोल स्क्रिप्ट का स्थान) पर जाएँ। टर्मिनल में ./fasta2stick.sh टाइप करके "fasta2stick.sh" स्क्रिप्ट निष्पादित करें। स्क्रिप्ट निष्पादित नहीं करता है, यह निष्पादन योग्य है कि यह सुनिश्चित - + X स्क्रिप्ट निष्पादन योग्य बनाने के लिए fasta2stick.sh टर्मिनल प्रकार chmod में।
  3. इनपुट फ़ाइल नाम (ऊपर 1.2 में बनाई गई फ़ाइल) और वांछित उत्पादन का नाम निर्दिष्ट करने के लिए स्क्रिप्ट द्वारा प्रदान की परदे पर निर्देशों का पालन करें। डेस्कटॉप पर (StickWRLD के लिए सही स्वरूप में है, जो अब) आउटपुट फ़ाइल सहेजें।

3. StickWRLD का शुभारंभ

  1. टर्मिनल applic का उपयोग कर फ़ोल्डर StickWRLD निष्पादनयोग्य में नेविगेटमैक या जीएनयू / लिनक्स कंप्यूटर की व्यावहारिक। उदाहरण के लिए, StickWRLD फ़ोल्डर टर्मिनल में डेस्कटॉप, प्रकार सीडी ~ / डेस्कटॉप / StickWRLD / चलाना पर है।
  2. टर्मिनल में अजगर-32 stickwrld_demo.py टाइप करके StickWRLD लॉन्च।
  3. StickWRLD डेटा लोडर पैनल स्क्रीन (चित्रा 3) पर दिख रहा है की जाँच करें।

4. डेटा लोड

  1. "लोड प्रोटीन ..." बटन दबाने से परिवर्तित प्रोटीन अनुक्रम संरेखण लोड करें।
  2. ऊपर चरण 3 और प्रेस "ओपन" में बनाई गई फ़ाइल का चयन करें। (चित्रा 5) - StickWRLD "StickWRLD नियंत्रण" (चित्रा 4) और "ओपनजीएल StickWRLD" सहित कई नए विंडो खुलेगा।
  3. "- OpenGL के StickWRLD" खिड़की का चयन करें। एक "ऊपर से नीचे में डिफ़ॉल्ट StickWRLD दृश्य प्रदर्शित करने के लिए" ओपनजीएल "मेनू से" दृश्य रीसेट "चुनेंआकार बदलने लायक है OpenGL खिड़कियों में डेटा का प्रतिनिधित्व सिलेंडर के माध्यम से "देखें ..

5. दृश्य विकल्प

  1. कॉलम और गेंदों के लिए मूल्यों को प्रदर्शित करने के लिए "StickWRLD नियंत्रण" फलक (चित्रा 4) में "कॉलम लेबल" और "गेंद लेबल" के लिए बक्से का चयन करें।
  2. स्तंभ किनारे लाइनों को छिपाने के लिए "StickWRLD नियंत्रण" फलक में "कॉलम किनारों" के लिए बॉक्स का चयन रद्द करें।
  3. यह आसान करने के लिए 3 डी दृश्य नेविगेट करने के लिए कर रही है, कॉलम के माध्यम से एक पतली रेखा खींचने के लिए "StickWRLD नियंत्रण" फलक में 0.1 करने के लिए "कॉलम मोटाई" सेट करें। प्रेस परिवर्तन को स्वीकार करने के लिए वापसी।
  4. तो दृश्य को अधिकतम करने के लिए "पूर्ण स्क्रीन" बटन दबाएँ, ऊपर 5.3 कदम के रूप में खिड़की - "ओपनजीएल StickWRLD" में देखने को रीसेट करें।

6. नेविगेशन

  1. बाईं माउस बटन whi के नीचे पकड़े द्वारा 3 डी StickWRLD प्रदर्शन घुमाएँLe किसी भी दिशा में माउस को ले।
  2. ऊपर या नीचे जबकि माउस को ले सही माउस बटन नीचे पकड़े द्वारा 3 डी StickWRLD प्रदर्शन ज़ूम।

7. ढूँढना Interpositional निर्भरता (IPDS)

  1. Panning और चित्रा 6 के रूप में देखा किनारे लाइनों के माध्यम से जुड़े हुए हैं दोनों पी और अवशिष्ट की दहलीज आवश्यकताओं से अधिक चरण 6 Coevolving अवशेषों में वर्णित के रूप में zooming द्वारा देखें ब्राउज़ करें। अवशेषों को जोड़ने बहुत अधिक या बहुत कम किनारों कर रहे हैं, अवशिष्ट को बदलने ("StickWRLD नियंत्रण" फलक पर) दहलीज, कम या अधिक किनारों को दिखाने के लिए।
  2. कोई आईपीडी किनारे लाइनों दिखाए जाते हैं जब तक StickWRLD नियंत्रण फलक पर अवशिष्ट दहलीज बढ़ाएँ और रिश्तों दिखाई देते हैं जब तक धीरे-धीरे नीचे रैंप। आप जांच करने के लिए रिश्तों की पर्याप्त संख्या है, जब तक अवशिष्ट में वृद्धि जारी है।
  3. एक आकृति के भीतर, जैसे नाम से जाना जाता ब्याज (दोनों में से किसी के अवशेष शामिल है कि रिश्तों की पहचान या / मज़ा बाध्यकारीctional साइट) या संरेखण में एक-दूसरे के लिए बाहर का है कि अवशेषों () वे मुड़ा प्रोटीन में समीपस्थ हैं सुझाव है कि

8. चयन और बचत निष्कर्ष

  1. ब्याज की किसी भी किनारों पर कमांड + छोड़ दिया क्लिक करें का उपयोग करना। (चित्रा 7) StickWRLD नियंत्रण फलक "| | (136 एच) (जी 124)", जैसे, स्तंभों से संकेत मिलता है और विशिष्ट अवशेषों कनेक्ट करेगा। ठोस लाइनों सकारात्मक संघों का प्रतिनिधित्व करते हैं; धराशायी लाइनों नकारात्मक संघों का प्रतिनिधित्व करते हैं।
  2. एक सादे-पाठ स्वरूपित फ़ाइल को बचाने के लिए "StickWRLD नियंत्रण" पैनल पर "उत्पादन किनारों" बटन प्रेस (edge_residual.csv) में शामिल हो गए अवशेषों और उनके वास्तविक अवशिष्ट मान सहित दिखाई दे किनारों, के सभी के / StickWRLD / चलाना में / निर्देशिका।

Representative Results

StickWRLD दोनों डीएनए 3 और प्रोटीन 15-17 संरेखण में अवशेष के बीच interpositional निर्भरता (IPDS) का पता लगाने के लिए पहले से इस्तेमाल किया गया है। ये सह उभरती अवशेष, अनुक्रम संरेखण में एक दूसरे से अक्सर बाहर का है, जबकि अक्सर मुड़ा प्रोटीन में एक दूसरे के लिए समीपस्थ हैं। StickWRLD, ऐसे स्थलों पर छाछ-विशिष्ट सह घटना के तेजी से खोज की अनुमति देता है जैसे।, स्थिति पर एक एलनाइन "एक्स" दृढ़ता "वाई" की स्थिति में एक threonine के लिए सहसंबद्ध है। इस तरह के परस्पर संबंधों साध्य संरचनात्मक रिश्तों का संकेत हो सकता है, और आम तौर पर जरूरत के अनुसार, सह विकसित कि, साइटों रहे हैं। StickWRLD अधिक "" पारंपरिक रूपांकनों असफल वर्णन करने के लिए HMMs का उपयोग कर दृष्टिकोण जब भी इन रिश्तों का पता लगाने में सक्षम है। उदाहरण के लिए, StickWRLD का उपयोग कर ADK ढक्कन डोमेन के Pfam संरेखण के विश्लेषण के पदों पर 4 में cysteines (सी) और 8 और एक समन्वित के बीच एक मजबूत सकारात्मक संबंध का पता चलता हैएक ही समय में स्थितियों को 35 और 38. पर सी की जोड़ी, StickWRLD, 4 पर इन और सी चौकड़ी के बीच एक मजबूत नकारात्मक रिश्तों के साथ, 4 और 8 पर हिस्टिडीन (एच) और सेरीन (एस) के बीच एक समान मजबूत सकारात्मक रिश्ता दिखाया 8, 35, और 38, और क्रमशः एस्पार्टिक एसिड (डी) और पदों पर 35 में threonine (टी) और 38 के साथ एक मजबूत रिश्ता। अतिरिक्त IPDs इन IPDs की सशर्त प्रकृति पर प्रकाश डाला **** बी subtilis में स्थिति **** 10 और 29 में एच, एस, डी, टी आकृति और एक टी और जी के बीच मौजूद हैं - tetracysteine ​​मूल भाव 'ख्याल' नहीं करता इन दो पदों पर पहचान के बारे में हाइड्रोफिलिक एच जबकि, एस, डी, टी त्रय लगभग पूरी तरह से इन पदों में विशिष्ट अवशेषों की आवश्यकता है। ये दोनों पूरी तरह से अलग स्थिति पर निर्भर अवशेषों रूपांकनों एक ही भूमिका ADK ढक्कन पूरा कर सकते हैं। स्थिति 132, वाई स्थिति 135 पर (टाइरोसीन), और एक पी (proli में जी (ग्लाइसिन) के बीच एक 3-नोड एसोसिएशन सहित 6 चित्रा, IPDs की एक बड़ी क्लस्टर में देखा जा सकता हैNE) की स्थिति में 141 पर,) अग्रभूमि (चित्रा 6A में दिख रहा है। चित्रा 6B में, दृश्य स्थिति 136 और स्थिति 29 पर एक एम (मेथिओनिन), 107 अवशेषों दूर पर एक एच (हिस्टडीन) के बीच एक आईपीडी खुलासा, थोड़ा सिलेंडर के ऊपर उपयोगकर्ता की स्थिति के लिए टेढ़ी कर दिया गया है। एक ही डोमेन (चित्रा 2) के एक Pfam हम्म व्युत्पन्न आकृति, इस बीच, के रूप में विशेष रूप से सह होने वाली आकृति वेरिएंट इन का पता नहीं लगा ही नहीं है, लेकिन यह भी एक जैविक रूप से असमर्थित स्कीम 16 में समग्र समूहों को परिभाषित करता है।

चित्र 1
बी चित्रा 1. "मेट्रो का नक्शा" प्रतिनिधित्व subtilis एडेनोसाइन kinase (ADK) ढक्कन डोमेन संरचना। तीर StickWRLD द्वारा ADK ढक्कन डोमेन के Pfam संरेखण में पहचान IPDs संकेत मिलता है। StickWRLD सही ढंग से एक क्लस्टर ओ भीतर IPDs की पहचान करने में सक्षम हैमुड़ा हुआ प्रोटीन में करीब निकटता में हैं जो च अवशेषों। खास रुचि 4, 7, 24, और 27 में अवशेषों की tetrad, सी नहीं है सी, सी, सी) जब केवल एक आईपीडी जो फार्म पदों 9 और 29 में टी और जी जोड़ी है, कर रहे हैं। अवशेष संख्या प्रदर्शित बी का प्रतिनिधित्व करता है subtilis स्थिति और नहीं Pfam संरेखण पदों। इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहां क्लिक करें।

चित्र 2
HMMs समग्र मॉडल के लिए प्रत्येक साइट के योगदान के रूप में के रूप में अच्छी तरह से प्रत्येक स्थिति में संभावनाओं का निर्धारण करने के लिए शक्तिशाली उपकरण हैं जबकि ADK ढक्कन डोमेन के लिए चित्रा 2. Skylign 18 छुपे हुए मार्कोव मॉडल (हम्म) अनुक्रम लोगो।, HMMs की स्थितीय स्वतंत्रता उन्हें बनाता है IPDs का पता लगाने के लिए अनुपयुक्त। इस मॉडल के किसी भी सुझाव नहीं हैStickWRLD अभ्यावेदन (चित्रा 6) में देखा निर्भरताओं। इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहां क्लिक करें।

चित्र तीन
चित्रा 3. StickWRLD डेटा लोडर। उपयोगकर्ताओं को मौजूदा डेमो डेटा से चुन सकते हैं या डीएनए या प्रोटीन अनुक्रम संरेखण के रूप में अपने स्वयं के डेटा लोड कर सकते हैं।

चित्रा 4
चित्रा 4. StickWRLD नियंत्रण खिड़की। नियंत्रण फलक उपयोगकर्ता विभिन्न दृश्य गुणों को बदलने के साथ ही अवशेष (IPDS) के बीच संबंधों का संकेत किनारे लाइनों के प्रदर्शन को नियंत्रित करने थ्रेसहोल्ड को विनियमित करने के लिए अनुमति देता है। आम तौर पर टी की जरूरत है कि चूक लाल रंग में हैं परिक्रमा ओ किसी भी डाटासेट का सबसे अच्छा देखने के लिए समायोजित किया। अवशिष्ट मूल्य कनेक्टर / संघ लाइनों तैयार कर रहे हैं जिसके लिए (उम्मीद मनाया गया) की दहलीज सेट। कॉलम और गेंद लेबल के लिए नियंत्रण स्तंभ की स्थिति और अवशेषों मूल्यों (जैसे, arginine के लिए 'ए') प्रदर्शित कर रहे हैं या नहीं, नियंत्रित करते हैं। पर और स्तंभों को जोड़ने के किनारे लाइनों का प्रदर्शन बंद कॉलम एज लाइन नियंत्रण टॉगल - घने डेटा सेट के लिए यह बेहतर बंद कर दिया है। प्रदर्शित किया जाता है कॉलम मोटाई नियंत्रण स्तंभ में ही किया जाए या नहीं -। एक बहुत छोटे मूल्य के लिए इस सेटिंग (जैसे, 0.1) यह आसान एक दूसरे से कॉलम भेद करने के लिए कर रही है, कॉलम में क्षेत्रों के माध्यम से एक रेखा खींच जाएगा कृपया यहाँ क्लिक करें इस आंकड़े का एक बड़ा संस्करण देखने के लिए।

ghres.jpg "चौड़ाई =" 600 "/>
भरी हुई Adenylate Kinase ढक्कन डोमेन प्रोटीन डेटा सेट के साथ StickWRLD OpenGL के खिड़की के चित्रा 5. प्रारंभिक दृश्य। प्रारंभिक परिप्रेक्ष्य अनुक्रम संरेखण पदों के शामिल सिलेंडर के माध्यम से "नीचे" लग रहा है। उपयोगकर्ता बाएँ माउस क्लिक करें खींचें का उपयोग कर सिलेंडर बारी बारी से, और प्रयोग करने में / बाहर ज़ूम कर सकते हैं सही माउस क्लिक कर खींचें। मूलभूत प्रदर्शन सह-विकास की भी थोड़ी दरों से पता चलता है, क्योंकि प्रारंभिक दृश्य काफी घना है। कई प्रोटीन के लिए, इस सेटिंग में, अलग मॉड्यूल, लेकिन फिर भी घनी सह उभरती प्रदर्शन तेजी से और interactively StickWRLD इंटरफ़ेस का उपयोग सबसे महत्वपूर्ण IPDs खोजने के लिए सरल किया जा सकता प्रोटीन। में पता लगाया जा सकता का एक बड़ा संस्करण देखने के लिए यहां क्लिक करें यह आंकड़ा।

ghres.jpg "चौड़ाई =" 700 "/>
चित्रा 6 Adenylate Kinase ढक्कन डोमेन प्रोटीन का एक StickWRLD दृश्य की Closeup देखें। यहाँ हम 0.2 अवशिष्ट डिफ़ॉल्ट बदल दिया है। यह कम किनारों दिखा रहा है, अंतर-अवशेषों किनारों के प्रदर्शन के लिए सीमा बढ़ जाती है। रहने के किनारों कि दृढ़ता से एसोसिएटेड IPDs संकेत मिलता है। इसके अलावा देखें घुमाया और किनारों की आसान देखने के लिए अनुमति देने के लिए तेजी से बढ़ी किया गया है। (ए) IPDs की एक बड़ी क्लस्टर स्थिति 132 पर जी (ग्लाइसिन) के बीच एक 3-नोड एसोसिएशन सहित, अग्रभूमि में दिख रहा है, स्थिति 141 (बी) में वाई स्थिति 135 पर (टाइरोसीन), और एक पी (प्रोलाइन) देखें 29, 107 अवशेषों दूर की स्थिति में स्थिति 136 और एक एम (मेथिओनिन) में एच (हिस्टडीन) के बीच एक आईपीडी खुलासा, थोड़ा सिलेंडर के ऊपर उपयोगकर्ता की स्थिति के लिए टेढ़ी कर दिया गया है। इस का एक बड़ा संस्करण देखने के लिए यहां क्लिक करें आंकड़ा।

चित्रा 7
चित्रा 7. StickWRLD नियंत्रण खिड़की कम-सही जानकारी देखें। OpenGL के खिड़की में एक वस्तु (जैसे, क्षेत्र या धार) पर Ctrl + क्लिक छोड़ दिया StickWLRD नियंत्रण विंडो के निचले सही में वस्तु के लिए जानकारी प्रदर्शित करता है। यहाँ हम स्थिति 29 पर एक मेथिओनिन के बीच एक आईपीडी में बढ़त के लिए जानकारी और स्थिति के 136 में एक हिस्टडीन देखते हैं।

Discussion

StickWRLD सफलतापूर्वक रो-निर्भर Terminators 9 में Adenylate Kinase ढक्कन डोमेन 16 में इस तरह के IPDs, साथ ही जुड़े डीएनए ठिकानों की पहचान करने के लिए इस्तेमाल किया, और अर्चेअल टीआरएनए Intron endonuclease 6 लक्ष्य साइटों में एक उपन्यास ब्याह-साइट विशिष्टता किया गया है। ये IPDs संरेखण का एक सीधा परीक्षा के माध्यम से पता लगाने योग्य नहीं थे।

StickWRLD प्रत्येक क्षेत्र में 20 अमीनो एसिड के अवशेष और क्षेत्र के आकार का प्रतिनिधित्व करता है, जहां 20 "क्षेत्रों", के एक स्तंभ के रूप में एक संरेखण में से प्रत्येक स्थिति को प्रदर्शित करता है कि स्तंभ के भीतर है कि विशेष रूप अवशेषों की घटना की आवृत्ति (चित्रा 4) इंगित करता है। कॉलम (एक आईपीडी का संकेत है) किनारे लाइनों विभिन्न स्तंभों में अवशेषों को जोड़ने के साथ, एक सिलेंडर में व्यवस्थित कर रहे हैं। थ्रेसहोल्ड - इसी अवशेषों पी मूल्य (महत्व) और अवशिष्ट (मनाया होने की उम्मीद है) दोनों श्रेष्ठ एक आवृत्ति पर covarying रहे हैं, तो ये बढ़त लाइनें ही तैयार कर रहे हैं।

एक डीएनए या प्रोटीन अनुक्रम संरेखण के बाहर के क्षेत्रों में सहयोग से होने वाली अन्योन्याश्रित अवशेष, या IPDs, की जांच के मानक अनुक्रम संरेखण उपकरण 6 का उपयोग कर पाना मुश्किल है। इस तरह के उपकरणों के लिए एक आम सहमति, या आकृति, दृश्य उत्पन्न करते हैं, इस आम सहमति कई मामलों में एक साधारण बहुमत के नियम औसत है और एक या एक से अधिक उप रूपांकनों फार्म का हो सकता है कि covariation रिश्तों को व्यक्त नहीं करता है - सह विकसित करने के लिए करते हैं कि अवशेषों का समूहों। पड़ोसी निर्भरता को पता लगाने में सक्षम हैं जो यहां तक कि हम्म मॉडल, बाहर का IPDs 5 के साथ नहीं कर सकते हैं सही मॉडल अनुक्रम रूपांकनों। और, वास्तव में, इष्टतम नहीं हो सकता है इस तरह के कम्प्यूटेशनल आम सहमति पर आधारित इंजीनियर प्रोटीन - परिणाम गणना की आम सहमति वास्तव में एक प्रकृति में नहीं पाया "कृत्रिम" अनुक्रम हो सकता है। वास्तव में, ADK के लिए Pfam हम्म एच के tetracysteine ​​आकृति का आधा है, और आधे से युक्त एक काइमेरिक प्रोटीन, एस, डी, टी आकृति, कार्यात्मक बस के रूप में स्वीकार्य है सुझाव है किकिसी भी वास्तव में मौजूदा ADK के रूप में। ऐसे काइमेरा (और इन रूपांकनों के कई अन्य blendings) catalytically 4,19 मृत हैं, क्योंकि यह मामला नहीं है।

सह-संबंध की तलाश में, यह अवशिष्ट दहलीज किसी भी किनारों देखा और फिर धीरे धीरे वापस नीचे दहलीज ramping हैं, जिस पर स्तर से ऊपर दहलीज सेटिंग से प्रासंगिक सह-संबंध की खोज के लिए अनुमति देने के लिए समायोजित किया जाना है कि महत्वपूर्ण है। यह केवल सबसे महत्वपूर्ण किनारों शुरू में माना जाता है कि यह सुनिश्चित करता है।

एक वैकल्पिक दृष्टिकोण अत्यंत कम सेट अवशिष्ट सीमा के साथ शुरू करने के लिए है। यह सभी महत्वपूर्ण किनारों के प्रदर्शन में यह परिणाम है। यहाँ से अवशिष्ट दहलीज धीरे धीरे पैटर्न में उभरने जब तक किनारों बाहर ड्रॉप करने के लिए अनुमति देता है, बढ़ाया जा सकता है। विशिष्ट नोड्स (उदाहरण के लिए, डोमेन ज्ञान के आवेदन) के शामिल किए जाने के लिए देख जब इस दृष्टिकोण कम उपयोगी है, यह एक विज़ के रूप में StickWRLD का उपयोग कर अप्रत्याशित रिश्तों की खोज के लिए अनुमति देता हैयौन विश्लेषणात्मक उपकरण के डेटा दृश्य में उभरते पैटर्न खोजने के लिए।

StickWRLD यह प्रदर्शन युक्ति के संकल्प के रूप में के रूप में अच्छी तरह से चलाया जाता है, जिस पर प्रणाली की उपलब्ध स्मृति द्वारा मुख्य रूप से सीमित है। वहाँ StickWRLD जांच कर सकते हैं डेटा बिंदुओं की संख्या की कोई सैद्धांतिक सीमा है, और व्यवहार में, परीक्षण किया गया है 20,000 पदों के लिए ऊपर दृश्यों जबकि StickWRLD लगभग 1,000 पदों के लिए ऊपर दृश्यों के साथ सबसे अच्छा प्रदर्शन करती है।

StickWRLD का प्राथमिक लाभ एक दूसरे के साथ covary कि अवशेषों के समूहों की पहचान करने की क्षमता में निहित है। यह एक साधारण सांख्यिकीय औसत है और खाते में coevolution नहीं ले करता है, जो सांख्यिकीय आम सहमति अनुक्रम के परंपरागत दृष्टिकोण पर एक महत्वपूर्ण लाभ है। कुछ मामलों में covarying अवशेषों बस फिलोजेनी की एक विरूपण साक्ष्य हो सकता है, यहां तक ​​कि इन अवशेषों "चयन की कसौटी" झेल, और इस तरह के रूप में कार्यात्मक में कोई कमी की संभावना नहीं हैकिसी भी प्रोटीन के रूप में lity उन्हें शामिल करने के लिए इंजीनियर।

त्रुटि के लिए क्षमता को कम करने और समारोह का तेजी से अनुकूलन का समर्थन करेंगे पूर्व इंजीनियरिंग सिंथेटिक वेरिएंट के लिए एक विहित डीएनए या प्रोटीन अनुक्रम आम सहमति / आकृति में IPDs की पहचान करने के लिए StickWRLD का उपयोग करते समय, यह StickWRLD एक सामान्यीकृत सहसंबंध पहचान उपकरण के रूप में इस्तेमाल किया जा सकता है कि ध्यान दिया जाना चाहिए और प्रोटीन डेटा को विशेष रूप से सीमित नहीं है। नेत्रहीन किसी भी ठीक से इनकोडिंग डेटा सेट में किसी भी चर के सह घटना को खोजने के लिए StickWRLD इस्तेमाल किया जा सकता है।

Materials

Name Company Catalog Number Comments
Mac or Ubuntu OS computer Various Any Mac or GNU/Linux (e.g., Ubuntu) computer capable of running Python & associated shell scripts
Python programming language python.org Python version 2.7.6 or greater recommended
wxPython library wxpython.org Latest version recommended
SciPy library scipy.org Latest version recommended
PyOpenGL library pyopengl.sourceforge.net Latest version recommended
StickWRLD Python scripts NCH BCCM Available from http://www.stickwrld.org
fasta2stick.sh file converter NCH BCCM Available from http://www.stickwrld.org
Protein and/or DNA sequence data Samples available at http://www.stickwrld.org

DOWNLOAD MATERIALS LIST

References

  1. Ray, W. C. Addressing the unmet need for visualizing conditional random fields in biological data. BMC. 15, 202 (2014).
  2. Sullivan, B. J., Durani, V., Magliery, T. J. Triosephosphate isomerase by consensus design: dramatic differences in physical properties and activity of related variants. Journal of molecular biology. 413, 195-208 (2011).
  3. Smith, M. A., Bedbrook, C. N., Wu, T., Arnold, F. H. Hypocrea jecorina cellobiohydrolase I stabilizing mutations identified using noncontiguous recombination. ACS synthetic biology. 2, 690-696 (2013).
  4. Ray, W. C. Understanding the sequence requirements of protein families: insights from the BioVis 2013 contests. BMC proceedings. 8, S1 (2014).
  5. Eddy, S. R. What is a hidden Markov model? Nature biotechnology. 22, 1315-1316 (2004).
  6. Ray, W. C., Ozer, H. G., Armbruster, D. W., Daniels, C. J. Beyond identity - when classical homology searching fails, why, and what you can do about it. Proceedings of the 4th Ohio Collaborative Conference on Bioinformatics. IEEE Press. New York, NY. 51-56 (2009).
  7. Ovchinnikov, S., Kamisetty, H., Baker, D. Robust and accurate prediction of residue-residue interactions across protein interfaces using evolutionary information. eLife. 3, e02030 (2014).
  8. Trudeau, D. L., Lee, T. M., Arnold, F. H. Engineered thermostable fungal cellulases exhibit efficient synergistic cellulose hydrolysis at elevated temperatures. Biotechnology and bioengineering. 111, 2390-2397 (2014).
  9. Ray, W. C. MAVL and StickWRLD: visually exploring relationships in nucleic acid sequence alignments. Nucleic acids research. 32, W59-W63 (2004).
  10. Python Language Reference v.2.7.6. Available from: https://www.python.org/download/releases/2.7.6/ (2014).
  11. Talbot, H. wxPython, a GUI Toolkit. Linux Journal. Available from: http://www.linuxjournal.com/article/3776 (2000).
  12. Jones, E., Oliphant, T., Peterson, P., et al. SciPy: Open Source Scientific Tools for Python. Available from: http://www.scipy.org/ (2001).
  13. PyOpenGL The Python OpenGL Binding. Available from: http://pyopengl.sourceforge.net/ (2014).
  14. Larkin, M. A. Clustal W and Clustal X version 2.0. Bioinformatics. 23, 2947-2948 (2007).
  15. Ozer, H. G., Ray, W. C. MAVL/StickWRLD: analyzing structural constraints using interpositional dependencies in biomolecular sequence alignments. Nucleic acids research. 34, W133-W136 (2006).
  16. Ray, W. C. MAVL/StickWRLD for protein: visualizing protein sequence families to detect non-consensus features. Nucleic acids research. 33, W315-W319 (2005).
  17. Ray, W. C. A Visual Analytics approach to identifying protein structural constraints. IEEE. Ohio State Univ. Biophys. Program. Columbus, OH. 249-250 (2010).
  18. Wheeler, T. J., Clements, J., Finn, R. D. Skylign: a tool for creating informative, interactive logos representing sequence alignments and profile hidden Markov models. BMC bioinformatics. 15, 7 (2014).
  19. Perrier, V., Burlacu-Miron, S., Bourgeois, S., Surewicz, W. K., Gilles, A. M. Genetically engineered zinc-chelating adenylate kinase from Escherichia coli with enhanced thermal stability. The Journal of biological chemistry. 273, 19097-19101 (1998).

Comments

0 Comments


    Post a Question / Comment / Request

    You must be signed in to post a comment. Please sign in or create an account.

    Usage Statistics