Genetics

मास स्पेक्ट्रोमेट्री-आधारित Proteomics विश्लेषण OpenProt डेटाबेस का उपयोग कर उपन्यास प्रोटीन गैर-विहित ओपन रीडिंग फ्रेम्स से अनुवादित

Published: April 11, 2019 doi: 10.3791/59589

¹Department of Biochemistry, Université de Sherbrooke, ²PROTEO, Quebec Network for Research on Protein Function, Structure, and Engineering

Summary

OpenProt एक स्वतंत्र रूप से सुलभ डेटाबेस है कि यूकार्योटिक जीनोम के एक polycistronic मॉडल enforces है । यहां, हम OpenProt डेटाबेस के उपयोग के लिए एक प्रोटोकॉल प्रस्तुत जब मास स्पेक्ट्रोमेट्री datasets पूछताछ । Proteomic प्रयोगों के विश्लेषण के लिए OpenProt डाटाबेस का उपयोग उपंयास की खोज और पहले undetectable प्रोटीन के लिए अनुमति देता है ।

Abstract

जीनोम एनोटेशन आज के proteomic अनुसंधान के लिए केंद्रीय के रूप में यह proteomic परिदृश्य की रूपरेखा खींचता है । ओपन रीडिंग फ्रेम (ORF) एनोटेशन के पारंपरिक मॉडल दो मनमाना मापदंड लागू: १०० codons की एक ंयूनतम लंबाई और transcript प्रति एक ORF । हालांकि, अध्ययन की बढ़ती संख्या कथित रूप से गैर से प्रोटीन की अभिव्यक्ति की रिपोर्ट-क्षेत्रों कोडिंग, वर्तमान जीनोम एनोटेशन की सटीकता को चुनौती दे । ये उपंयास प्रोटीन गैर कोडिंग RNAs, 5 ' या 3 ' untranslated क्षेत्रों (यूटरस) के भीतर या तो एमएनएएस, या एक वैकल्पिक ORF में एक ज्ञात कोडिंग अनुक्रम (सीडी) ओवरलैप में इनकोडिंग पाया गया । OpenProt पहले डेटाबेस है कि यूकार्योटिक जीनोम के लिए एक polycistronic मॉडल enforces है, transcript प्रति एकाधिक ORFs के एनोटेशन की अनुमति । OpenProt स्वतंत्र रूप से सुलभ है और 10 प्रजातियों में प्रोटीन दृश्यों के कस्टम डाउनलोड प्रदान करता है । Proteomic प्रयोगों के लिए OpenProt डाटाबेस का उपयोग करने में सक्षम बनाता है उपंयास प्रोटीन खोज और यूकार्योटिक जीन की polycistronic प्रकृति पर प्रकाश डाला गया । OpenProt डाटाबेस के आकार (सभी प्रोटीन की भविष्यवाणी) पर्याप्त है और विश्लेषण के लिए खाते में लिया जाना चाहिए । हालांकि, उचित झूठी खोज दर (FDR) सेटिंग्स या एक प्रतिबंधित OpenProt डेटाबेस के उपयोग के साथ, उपयोगकर्ताओं proteomic परिदृश्य के एक और अधिक यथार्थवादी देखने का लाभ होगा । कुल मिलाकर, OpenProt एक स्वतंत्र रूप से उपलब्ध उपकरण है कि proteomic खोजों को बढ़ावा देगा है ।

Introduction

पिछले दशकों में, मास स्पेक्ट्रोमेट्री (एमएस-) आधारित प्रोटियोमिक् यूकार्योटिक कोशिकाओं के proteomes¹^,²^,³^,⁴^,⁵को समझने के लिए गोल्डन तकनीक बन गया है । इस विधि वर्तमान जीनोम एनोटेशन पर निर्भर करता है एक संदर्भ प्रोटीन अनुक्रम डेटाबेस है कि⁶^,⁷^,⁸संभावनाओं की गुंजाइश रूपरेखा उत्पंन करने के लिए । हालांकि, जीनोम एनोटेशन orf एनोटेशन, जैसे १०० codons की एक ंयूनतम लंबाई और ट्रांसक्रिप्ट⁹^,¹⁰प्रति एक orf के रूप में मनमाने ढंग से मानदंड पकड़ । अध्ययनों की बढ़ती संख्या वर्तमान एनोटेशन मॉडल और रिपोर्ट खोजों यूक्योटिक जीनोम में unannotated कार्यात्मक orfs की चुनौती⁸^,¹¹^,¹²^,¹³^, ¹⁴. ये उपन्यास प्रोटीन कथित रूप से गैर कोडिंग RNAs में एंकोडेड पाए जाते हैं, 5 ' या 3 ' untranslated क्षेत्रों (UTR) में mRNAs, या एक वैकल्पिक फ्रेम में विहित कोडिंग अनुक्रम (cCDS) अतिव्यापी । हालांकि इन खोजों के अधिकांश serendipitous किया गया है, वे वर्तमान जीनोम एनोटेशन के निरंतर प्रदर्शन और यूकेरोटिक जीन⁸के polycistronic प्रकृति ।

यहां, हम एमएस आधारित proteomics के लिए OpenProt डेटाबेस के उपयोग पर प्रकाश डाला । OpenProt पहले डेटाबेस के लिए एक polycistronic एनोटेशन मॉडल रखने के लिए है यूकार्योटिक transपंगु । यह www.openprot.org¹⁵पर स्वतंत्र रूप से उपलब्ध है । इन भविष्यवाणी ORFs का एक अनुपात यादृच्छिक और गैर कार्यात्मक है, जो है क्यों OpenProt प्रयोगात्मक और कार्यात्मक सबूत के लिए विश्वास को बढ़ाने के cumulates होगा । प्रायोगिक साक्ष्य में प्रोटीन अभिव्यक्ति (MS द्वारा) और अनुवाद साक्ष्य (राइबोकुछ प्रोफाइलिंग द्वारा)¹⁵शामिल हैं । कार्यात्मक साक्ष्य प्रोटीन ऑर्थोलॉजी शामिल (एक में-दिग्भ्रमित दृष्टिकोण की तरह) और कार्यात्मक डोमेन भविष्यवाणी¹⁵।

OpenProt कई डेटाबेस डाउनलोड करने की संभावना प्रदान करता है, केवल अच्छी तरह से युक्त-कस्टम डेटाबेस के लिए प्रोटीन का समर्थन किया । यहां, हम OpenProt डेटाबेस के उपयोग के लिए एक पाइप लाइन पेश करेंगे और अंतर्दृष्टि जो डाटाबेस में प्रयोगात्मक उद्देश्य पर विचार का चयन करने की पेशकश करेगा । प्रोटियोमिक् विश्लेषण पाइपलाइन यहां प्रस्तुत आकाशगंगा ढांचे द्वारा समर्थित है के रूप में यह खुला है उपयोग और आसान करने के लिए उपयोग करते हैं, लेकिन डेटाबेस किसी भी कार्यप्रवाह¹⁶^,¹⁷^,¹⁸के साथ काम कर सकते हैं । हम भी पेश करेंगे कैसे उपंयास सुश्री द्वारा पता लगाया प्रोटीन के बारे में अधिक जानकारी जुटाने के लिए openprot वेबसाइट का उपयोग करने के लिए openprot डेटाबेस का उपयोग proteomic परिदृश्य के एक और अधिक विस्तृत दृश्य प्रदान करेगा और प्रोटियोमिक् और biomarkers खोजों में बढ़ावा होगा वर्तमान विधियों से अधिक व्यवस्थित तरीके से ।

इस प्रोटोकॉल OpenProt डेटाबेस के उपयोग पर प्रकाश डाला गया¹⁵ जब एमएस datasets पूछताछ; यह प्रयोग स्वयं के डिजाइन की समीक्षा नहीं करेगा, जिसकी पूरी तरह से समीक्षा²⁰^,²¹^,²²को की गई है । एक पूरी तरह से खुला स्रोत रहने के प्रयास में, प्रोटोकॉल स्वतंत्र रूप से उपलब्ध है (अनुपूरक सामग्री S1-S4) । आसान पढ़ने के लिए, सभी शर्तों OpenProt में इस्तेमाल किया और इसके द्वारा इस प्रोटोकॉल में तालिका 1में परिभाषित कर रहे हैं ।

Protocol

1. OpenProt डाटाबेस डाउनलोड

नोट: कस्टम डेटाबेस RNA पर आधारित उदाहरण के लिए seq डेटा भी प्राप्त किया जा सकता है और इस प्रोटोकॉल के दूसरे खंड में प्रक्रिया विस्तृत है । यदि कोई कस्टम डेटाबेस की आवश्यकता है, तो कृपया अगले अनुभाग पर जाएं ।

OpenProt वेबसाइट पर जाएं: www.openprot.org और शीर्ष पृष्ठ मेनू से लिंक का उपयोग कर डाउनलोड पृष्ठ खोलें ।
विश्लेषण प्रयोगात्मक डेटा के आधार पर ब्याज की प्रजातियों पर क्लिक करें ।
प्रोटीन प्रकार वांछित पर क्लिक करें ।
नोट: OpenProt तीन वर्गीकरण प्रदान करता है: RefProt, Isoforms और AltProt । चित्र 1में दर्शाए अनुसार, यह पैरामीटर शोध उद्देश्य के आधार पर भिंन होगा ।
1. केवल ज्ञात प्रोटीन युक्त फ़ाइलें जनरेट करने के लिए केवल Refprot पर क्लिक करें ।
2. Altprot और isoforms पर क्लिक करें केवल उपंयास प्रोटीन युक्त फ़ाइलें उत्पंन करने के लिए-ज्ञात प्रोटीन (isoforms) के या तो उपंयास isoforms या एक वैकल्पिक Orf (Altprot) द्वारा कोडित । कृपया ध्यान दें कि OpenProt 30 codons की एक ंयूनतम ORF लंबाई enforces¹⁵।
3. Altprots पर क्लिक करें, Isoforms और Refprots OpenProt डेटाबेस में मौजूद सभी प्रोटीन प्रकार युक्त फ़ाइलें उत्पंन करने के लिए-ज्ञात और उपंयास प्रोटीन ।
यदि उपलब्ध हो तो एनोटेशन पर क्लिक करें जिससे प्रोटीन दृश्यों को खींचा जाता है ।
नोट: OpenProt एकाधिक एनोटेशन के संयोजन से एक और अधिक व्यापक proteomic परिदृश्य प्रदान करता है । Transcriptome एनोटेशन एक ंयूनतम ओवरलैप है; इस प्रकार, चयनित एनोटेशन काफी कल्पना प्रोटॉमिक प्रोफ़ाइल¹⁵^,²³को प्रभावित कर सकते हैं ।
प्रोटीन विचार के लिए आवश्यक सबूत के समर्थन के स्तर पर क्लिक करें । चित्र 1में दर्शाए अनुसार, यह पैरामीटर शोध उद्देश्य के आधार पर भिंन होगा ।
1. दो अद्वितीय पेप्टाइड्स के ंयूनतम पर क्लिक करें केवल सबसे आत्मविश्वास प्रोटीन युक्त फ़ाइलें उत्पंन करने के लिए पता चला ।
  नोट: दो अद्वितीय पेप्टाइड्स की एक कसौटी वर्तमान में प्रोटीन अभिव्यक्ति के लिए प्रोटियोमिक् में एक सोने के मानक माना जाता है । यदि प्रायोगिक उद्देश्य ज्ञात और अच्छी तरह से समर्थित प्रोटीन का पता लगाने के लिए है, इस पैरामीटर के उपयोग की सिफारिश की है ।
2. एक अद्वितीय पेप्टाइड्स के ंयूनतम पर क्लिक करें जो पहले से ही देखा गया है प्रोटीन युक्त फ़ाइलें उत्पंन करने के लिए मास स्पेक्ट्रोमेट्री प्रयोगों के बीच फिर से एक बार, OpenProt द्वारा विश्लेषण ।
  नोट: यह AltProts की छोटी लंबाई के विचार के लिए अनुमति देता है और संभावना है कि उनमें से कुछ केवल एक अद्वितीय tryptic पेप्टाइड⁸^,¹¹शामिल हो सकते हैं ।
3. सभी के लिए OpenProt भविष्यवाणियों के सभी युक्त फ़ाइलें उत्पंन भविष्यवाणी पर क्लिक करें ।
  नोट: यह सेटिंग केवल तभी अनुशंसित है जब प्रायोगिक उद्देश्य के लिए उपंयास प्रोटीन की खोज (चित्रा 1) है । खोज अंतरिक्ष में बाद में पर्याप्त वृद्धि एक अनुकूलित विश्लेषण पाइपलाइन के लिए कॉल के रूप में⁷^,¹⁵से नीचे चर्चा की ।
डाउनलोड करने के लिए इच्छित फ़ाइल स्वरूप पर क्लिक करें । प्रोटॉमिक विश्लेषणों के लिए, Fasta (प्रोटीन) फ़ाइल चुनें. रीडमी फ़ाइल में फ़ाइल स्वरूप पर सभी आवश्यक जानकारी है ।

2. कस्टम OpenProt डाटाबेस डाउनलोड

नोट: यह अनुभाग एक कस्टम डेटाबेस प्राप्त करने के लिए कैसे विवरण । यदि कोई कस्टम डेटाबेस की आवश्यकता है, तो अगले अनुभाग पर जाएं ।

OpenProt वेबसाइट (www.openprot.org) पर जाएं और शीर्ष पृष्ठ मेनू से लिंक का उपयोग करके खोज पृष्ठ खोलें ।
विश्लेषण के प्रायोगिक आंकड़ों के आधार पर ब्याज की प्रजातियों पर क्लिक करें ।
रुचि के जीन या ट्रांस्क्रिप्ट की सूची दर्ज करें ।
1. जीन की सूची का उपयोग करते समय, इसे जीन क्वेरी बॉक्स में दर्ज करें ।
2. ट्रांस्क्रिप्ट की सूची का उपयोग करते समय, इसे ट्रांसक्रिप्ट क्वेरी बॉक्स में दर्ज करें ।
इच्छित डेटाबेस पर लागू होने वाले किसी भी बॉक्स को टिक करें ।
1. किसी भी बॉक्स पर क्लिक करें OpenProt द्वारा समर्थित प्रोटीन के सभी प्रकार युक्त एक मेज प्राप्त करने के लिए नहीं है: RefProt, Isoforms और AltProts ।
2. पर क्लिक करें केवल प्रोटीन दिखाने के लिए प्रयोगात्मक सबूत के साथ एक मेज प्राप्त करने के लिए प्रोटीन के सभी प्रकार (refprots, isoforms और altprots) है कि कम से पता चला गया है MS द्वारा एक बार और/या जिसके लिए अनुवाद सबूत राइबोसोम से एकत्र किया गया है डेटा रूपरेखा ।
3. इसी प्रकार, शो पर क्लिक करें केवल एमएस द्वारा पता लगाया प्रोटीन या शो केवल प्रोटीन के सभी प्रकार के प्रोटीन है कि एमएस द्वारा या राइबोम रूपरेखा क्रमशः द्वारा पाया गया है एक मेज प्राप्त करने के लिए रूपरेखा द्वारा पता चला ।
4. केवल AltProts या केवल Isoforms युक्त एक तालिका प्राप्त करने के लिए केवल केवल isoforms दिखाएँ पर केवल Altprots दिखाएँ पर क्लिक करें ।
5. दोनों पर क्लिक करें केवल AltProts दिखाने के लिए और केवल isoforms दिखाने के लिए एक प्रोटीन के दोनों प्रकार युक्त तालिका प्राप्त करने के लिए ।
  नोट: फिल्टर के सभी संयोजनों संभव हैं ।
एक बार सभी वांछित मापदंडों सेट कर रहे हैं, खोज पर क्लिक करें । तालिका आउटपुट खोज क्वेरी फ़ील्ड्स के नीचे दिखाई देगा ।
आउटपुट तालिका के दाएँ शीर्ष कोने पर डाउनलोड Fasta बटन पर क्लिक करें. यह एक Fasta एक जीन या टेप की क्वेरी सूची से उत्पंन सभी प्रोटीन युक्त फ़ाइल उत्पंन करेगा ।
कृपया ध्यान दें कि कंप्यूटेशनल कारणों के लिए, openprot एक समय में (जीन या टेप) क्वेरी किया जा करने के लिए २,००० तत्वों की एक अधिकतम रखती है । उस सीमा के ऊपर एक सूची की स्थिति में, कई फसता उत्पंन किया जा सकता है और फिर concatenated (नीचे के रूप में विस्तृत); या बस पूरे OpenProt डाटाबेस डाउनलोड करने और वांछित के रूप में प्राप्त फ़ाइल फिल्टर ।
1. बिन जीन या टेप की पूरी सूची २,००० प्रविष्टियों या कम की उप सूची में । प्रत्येक उप-सूची के लिए, ऊपर वर्णित के रूप में एक Fasta फ़ाइल डाउनलोड करें (चरण ३.३ से ३.६) ।
2. यूरोपीय आकाशगंगा उदाहरण के लिए लॉग इन करें (या किसी भी अन्य उदाहरण जहां प्रोटियोमिक् उपकरण उपलब्ध हैं), https://usegalaxy.eu/.
3. एक नया इतिहास बनाएं और डाउनलोड OpenProt डेटाबेस के सभी आयात (एक उप जीन या टेप की सूची) स्क्रीन के बाएं शीर्ष पर अपलोड लोगो पर क्लिक करके ।
4. Fasta मर्ज फ़ाइलों का उपयोग करें और गैलेक्सी yp डेवलपर्स (https://github.com/galaxyproteomics/) द्वारा विकसित अद्वितीय दृश्यों फ़िल्टर उपकरण । सभी Fasta विकल्प और इनपुट आयातित OpenProt डेटाबेस के सभी मर्ज का चयन करें ।
  नोट: प्रत्येक उपकरण स्क्रीन के बाईं ओर क्वेरी बॉक्स का उपयोग करके खोजा जा सकता है
5. अनुक्रम unicity का आकलन करने के लिए विलय केवल विकल्प का चयन करें और OpenProt पहचानकर्ता पार्स नियम की प्रतिलिपि बनाएँ (> (. *) \ ।
6. ध्यान दें कि सभी फ़ाइलों को कोई अतिरेक है कि अब स्क्रीन के दाईं ओर पर इतिहास पैनल में प्रकट होता है के साथ एक अद्वितीय Fasta फ़ाइल में concatenated किया गया है । यह कार्य डेटाबेस का गठन करता है ।

3. डाटाबेस हैंडलिंग

नोट: अब से, आकाशगंगा मंच का इस्तेमाल किया जाएगा, लेकिन एक ही सिद्धांत अंय proteomic सॉफ्टवेयर के लिए लागू किया जा सकता है ।

यूरोपीय आकाशगंगा उदाहरण के लिए लॉग इन करें (या किसी भी अन्य उदाहरण जहां प्रोटियोमिक् उपकरण उपलब्ध हैं), https://usegalaxy.eu/.
एक नया इतिहास बनाएं और डाउनलोड OpenProt डेटाबेस स्क्रीन के बाएं शीर्ष पर अपलोड लोगो पर क्लिक करके आयात करें ।
वर्कफ़्लो पृष्ठ पर जाएँ और मध्य कक्ष के बाएँ शीर्ष पर अपलोड लोगो पर क्लिक करके डेटाबेस हैंडलिंग कार्यप्रवाह (अनुपूरक सामग्री S1) आयात करें.
पर क्लिक करें कार्यप्रवाह चलाने के लिए और इनपुट के रूप में आयातित OpenProt डाटाबेस चुनें ।
नोट: इस कार्यप्रवाह openprot फसता के लिए crapome भंडार संलग्न करेंगे और फंदा दृश्यों (रिवर्स दृश्यों)²⁴उत्पन्न करते हैं । यदि एक फेरबदल डिकॉय सूची वांछित है, यह DecoyDatabase उपकरण पर इस पैरामीटर को बदलकर किया जा सकता है ।
कुछ अर्थपूर्ण करने के लिए प्राप्त Fasta फ़ाइल का नाम बदलें । डाटाबेस के लिए तैयार है प्रोटियोमिक् विश्लेषण के लिए इस्तेमाल किया जाएगा ।

4. मास स्पेक्ट्रोमेट्री फ़ाइल तैयारी

ध्यान दें: प्रोटियोमिक् आकाशगंगा उदाहरणों पर उपलब्ध उपकरणों के अधिकांश mzml प्रारूप का उपयोग करें, और पेप्टाइड खोज इंजन केंद्रक मोड में डेटा पसंद करते हैं ।

ProteoWizard सुइट से स्वतंत्र रूप से उपलब्ध MSConvert उपकरण खोलें और डेटा फ़ाइल अपलोड करने के लिए विश्लेषण किया जा करने के लिए²⁵।
आउटपुट के लिए निर्देशिका और वांछित फ़ाइल स्वरूप mzML करने के लिए चुनें ।
MS1 और MS2 के स्तर पर तरंग आधारित एल्गोरिथ्म (CWT) का उपयोग कर एक चोटी उठा फिल्टर सेट, और रूपांतरण²⁶शुरू करते हैं ।

5. पेप्टाइड और प्रोटीन की पहचान/

नोट: पाइपलाइन का यह हिस्सा OpenMS सुइट से उपकरणों का उपयोग करता है, एक बहुमुखी और आसान करने के लिए उपयोग फ्रेमवर्क¹⁸।

यूरोपीय आकाशगंगा उदाहरण के लिए लॉग इन करें (या किसी भी अन्य उदाहरण जहां प्रोटियोमिक् उपकरण उपलब्ध हैं), https://usegalaxy.eu/.
एक नया इतिहास बनाएं और ड्रैग-एण्ड-ड्रॉप के साथ इस नए इतिहास में पहले बनाए गए डेटाबेस (चरण ३.५) को स्थानांतरित करें ।
परिवर्तित mzML डेटा फ़ाइल (चरण ४.३) को स्क्रीन के बाएं शीर्ष पर अपलोड लोगो पर क्लिक करके आयात करें ।
वर्कफ़्लो पृष्ठ पर जाएँ और मध्य फलक के बाएँ शीर्ष पर अपलोड लोगो पर क्लिक करके वांछित कार्यप्रवाह आयात करें.
नोट: एमएस प्रयोगों अलग वांछित अंतिम उत्पादन के आधार पर डिजाइन किए हैं. वर्कफ़्लोज़ दो अक्सर डिजाइनों के लिए यहां प्रदान की जाती हैं: स्थिर आइसोटोप लेबलिंग (एसआईएल) के आधार पर प्रोटीन पहचान और प्रोटीन परिमाणन । हालांकि, आकाशगंगा उदाहरण कई अंय उपकरण है कि proteomic विश्लेषण²⁷^,²⁸के अंय प्रकार का समर्थन करेंगे शामिल हैं ।
1. एक प्रोटीन पहचान डिजाइन के लिए, अनुपूरक सामग्री S2में प्रदान की कार्यप्रवाह आयात करें । इस वर्कफ़्लो का उपयोग करते समय, कृपया अपनी फ़ाइलें कनवर्ट करते समय zlip संपीड़न का उपयोग न करें (चरण ४.२)
2. स्थिर आइसोटोप लेबलिंग डिजाइन पर आधारित प्रोटीन परिमाणन के लिए, अनुपूरक सामग्री S3में प्रदान किए गए कार्यप्रवाह को आयात करें ।
वर्कफ़्लो चलाएँ चुनें और भिन्न पैरामीटर्स की समीक्षा करें.
1. आयातित mzML डेटा फ़ाइल इनपुट के रूप में, और पहले बनाए गए डेटाबेस (चरण ३.५) डेटाबेस Fasta फ़ाइल के रूप में का चयन करें ।
2. चूंकि वर्कफ़्लो X का उपयोग करता है! अग्रानुक्रम खोज इंजन, एक्स आयात! अग्रानुक्रम डिफ़ॉल्ट विंयास फाइल ( अनुपूरक सामग्री S4में प्रदान की)²⁹ स्क्रीन के बाईं शीर्ष पर अपलोड लोगो पर क्लिक करके ।
3. कार्यप्रवाह एकाधिक खोज इंजन का उपयोग करता है (एमएस-GF + और एक्स! अग्रानुक्रम) । अन्य खोज इंजन जोड़ें या वर्कफ़्लो³⁰^,³¹से उपकरणों को जोड़ने या हटाने के द्वारा बस एक ही एक का चयन करें.
  नोट: एकाधिक खोज इंजन का उपयोग कर के रूप में यह संवेदनशीलता और विश्लेषण^३२के संवेदनशील बढ़ जाती है की सिफारिश की है ।
4. आदेश में आकार में पर्याप्त वृद्धि के लिए खाते में जब पूरे OpenProt डेटाबेस का उपयोग कर, एक कड़े FDR¹⁵का उपयोग करें । डिफ़ॉल्ट रूप से, प्रदान किए गए वर्कफ़्लो एक ०.००१% FDR, पूरे OpenProt डेटाबेस के उपयोग के लिए पर्याप्त के लिए सेट किया गया है । अंय डेटाबेसेज़ के लिए, इसे किसी भी वांछित मान पर संपादित किया जा सकता है ।
  नोट: सामूहिक स्पेक्ट्रोमीटर इस्तेमाल किया और प्रयोगात्मक प्रोटोकॉल के आधार पर विभिन्न उपकरणों के मापदंडों अनुकूलन करने के लिए सुनिश्चित हो (अग्रदूत आयन और टुकड़ा त्रुटि, स्थिर और चर संशोधनों, इस्तेमाल किया एंजाइम, आदि).
वैकल्पिक रूप से, इतिहास फलक से चुने गए चरण पर क्लिक करके संग्रहण या गुणवत्ता नियंत्रण विश्लेषण के लिए कार्यप्रवाह के प्रत्येक चरण के लिए आउटपुट डाउनलोड करें, फिर नीचे दिखाई देने वाले लोगो को सहेजें पर क्लिक करके.

6. गुणवत्ता नियंत्रण

नोट: क्योंकि MS-आधारित प्रोटियोमिक् एक जटिल प्रक्रिया का परिणाम है जहां प्रत्येक चरण के लिए पुन: प्राप्य परिणाम उत्पादन करने के लिए अनुकूलित किया जा करने की आवश्यकता है, गुणवत्ता नियंत्रण वर्कफ़्लो^३३में एक आवश्यक प्रक्रिया है ।

कई मीट्रिक प्रदर्शन के समान बेंचमार्क हैं, जैसे पेप्टाइड स्पेक्ट्रम मैचों की संख्या (PSM), पहचाने गए पेप्टाइड्स और प्रोटीन की संख्या. ऐसी मीट्रिक प्रदान करने के लिए IDFilter आउटपुट ( चित्रा 2में हरे रंग में दर्शाई) पर फ़ाइल जानकारी उपकरण चलाएँ.
हालांकि हर पहचान के लिए लागू नहीं है, विशेष रूप से बड़े datasets के साथ, उपंयास प्रोटीन की रिपोर्ट हमेशा ध्यान से मूल्यांकन किया जाना चाहिए । प्रोटीन स्कोर का निरीक्षण, अनुक्रम कवरेज, और स्पेक्ट्रा खोज का समर्थन महत्वपूर्ण महत्व का है । यह करने के लिए OpenMS फ्रेमवर्क से TOPPview उपकरण का उपयोग करें; यह स्वतंत्र रूप से उपलब्ध है और अच्छी तरह से¹⁸^,^३४^,^३५प्रलेखित ।

7. OpenProt डाटाबेस खनन

नोट: एक बार एक उपंयास OpenProt के द्वारा भविष्यवाणी प्रोटीन की एक विश्वास पहचान (परिग्रहण संख्या AltProts और उपंयास Isoforms के लिए II_ के लिए IP_ के साथ शुरू) किया गया है, और अधिक जैविक जानकारी OpenProt वेबसाइट से इकट्ठा किया जा सकता है¹⁵।

OpenProt वेबसाइट पर जाएं: www.openprot.org और शीर्ष पृष्ठ मेनू पर लिंक का उपयोग कर खोज पृष्ठ खोलें ।
ब्याज की प्रजातियों पर क्लिक करें (एक है जिसमें प्रोटीन की पहचान की थी के रूप में एक ही) और प्रोटीन क्वेरी बॉक्स में प्रोटीन परिग्रहण संख्या में प्रवेश ।
खोज पर क्लिक करें और एक क्वेरी प्रोटीन पर बुनियादी जानकारी युक्त एक मेज दिखाई देगा । तालिका विशेषताएं: प्रोटीन की लंबाई (अमीनो एसिड में), अपने आणविक वजन (केडीए) और समविभव बिंदु, एमएस या राइबोसोम रूपरेखा (अनुवाद सबूत, ते) द्वारा प्रयोगात्मक सबूत का समर्थन है, और ऐसी भविष्यवाणी डोमेन और प्रोटीन के रूप में कार्यात्मक भविष्यवाणियों ऑर्थोलॉजी (10 OpenProt, v 1.3 द्वारा समर्थित प्रजातियों के पार) । तालिका भी संबंधित जीन और ट्रांसक्रिप्ट और ट्रांसक्रिप्ट के भीतर प्रोटीन के स्थानीयकरण के बारे में जानकारी शामिल है ।
अधिक जानकारी एकत्रित करने के लिए विवरण लिंक पर क्लिक करें । नए खुले पृष्ठ एक जीनोम ब्राउज़र जो क्वेरी प्रोटीन पर केंद्रित है, और जीनोमिक और transcriptomic निर्देशांक और एक Kozak या उच्च दक्षता अनुवाद दीक्षा साइट (TIS) आकृति^३६की उपस्थिति के रूप में जानकारी, ^३७.
जानकारी टैब से प्रोटीन या डीएनए लिंक पर क्लिक करें, क्रमशः प्रोटीन या डीएनए दृश्यों को प्राप्त करने के लिए ।
शीर्ष टैब¹⁵पर क्लिक करके एमएस सबूत, राइबोकुछ रूपरेखा पता लगाने, संरक्षण और पहचान प्रोटीन डोमेन के बारे में विस्तृत जानकारी ब्राउज़ करें ।

Representative Results

ऊपर वर्णित वर्कफ़्लो किसी MS डेटासेट पर उपलब्ध प्राइड रिपॉजिटरी^३८^,^३९पर लागू किया गया था । मूल अध्ययन एक विधि विकसित (iMixPro), स्थिर आइसोटोप सेल संस्कृति (SILAC) में अमीनो एसिड की लेबलिंग का उपयोग, अपनत्व से झूठी सकारात्मक को खत्म करने के लिए-शुद्धि एमएस (एपी-एमएस) प्रयोगों^३८. संक्षेप में, एपी-एमएस प्रयोग में बीड्स-बाउंड एंटीबॉडी का उपयोग करने के लिए ब्याज (प्रलोभन) और उसके interactors (preys) के एक प्रोटीन लाने के होते हैं । एकत्र प्रोटीन तो पचा और एमएस के लिए तैयार कर रहे हैं । नमूना तैयारी विधि और साधन सेटिंग्स मूल अध्ययन में और गौरव भंडार (PXD004246) पर वर्णित हैं । इस तरह के प्रयोगों में एक चुनौती झूठी सकारात्मक की बहुतायत है, विशेष रूप से मोती लेकिन चारा नहीं करने के लिए बाध्य प्रोटीन से । यहां, हम SILAC इस्तेमाल के लिए सच preys और झूठी सकारात्मक के बीच अलग आइसोटोप अनुपात उत्पंन: 3 नियंत्रण के नमूने (कोई चारा) प्रकाश माध्यम में सभ्य, 1 नमूना प्रकाश माध्यम में सभ्य चारा व्यक्त, और 1 नमूना भारी माध्यम में सभ्य चारा व्यक्त कर रहे है मोती और आगे मास स्पेक्ट्रोमेट्री विश्लेषण के साथ संसाधित. इस तरह के डिजाइन के साथ, मोती के लिए बाध्यकारी गैर विशिष्ट प्रोटीन 1:4 के एक भारी-से-प्रकाश अनुपात होगा; जब सच preys 1:1^३८का अनुपात होगा ।

हम फिर से विश्लेषण अपने एपी-एमएस डेटा OpenProt डेटाबेस का उपयोग; baits तीन अंतर्जात प्रोटीन (PTPN14, JIP3 और IQGAP1), और दो से अधिक व्यक्त प्रोटीन (RAF1 और RNF41) शामिल थे । चूंकि प्रयोग SILAC इस्तेमाल किया, प्रोटीन मात्रा के लिए आकाशगंगा कार्यप्रवाह उपयोग किया गया था (अनुपूरक सामग्री S3, चित्रा 2). कार्यप्रवाह पूरे OpenProt डाटाबेस (OpenProt_all) या एक प्रतिबंधित OpenProt डाटाबेस (OpenProt_2pep, केवल पहले से दो अद्वितीय पेप्टाइड की एक ंयूनतम के साथ पाया प्रोटीन सहित) का उपयोग कर चलाया गया था ।

प्रोटीन पहचान और परिमाणन अलग इस्तेमाल किया डेटाबेस में अच्छा और reproducible थे । जैसा कि चित्र 3में दर्शाया गया है, मूल पेपर में पहचाने गए अधिकांश प्रोटीन को या तो OpenProt_2pep या openprot_all डाटाबेस के उपयोग से पहचाना गया (विस्तृत सूची अनुपूरक सामग्री S5में उपलब्ध है) । इस परिणाम से पता चलता है कि पाइपलाइन यहां वर्णित है और OpenProt डेटाबेस के लिए प्रोटीन की पहचान और वर्तमान प्रक्रियाओं के बराबर है कि UniProtKB डेटाबेस^४०के आधार पर परिमाणन का उत्पादन कर रहे हैं । हालांकि, OpenProt डेटाबेस के उपयोग के उपंयास का पता लगाने की अनुमति का अनूठा लाभ और पहले undetectable प्रोटीन, के रूप में इस मामले के अध्ययन में प्रदर्शन किया है ।

11 अच्छी तरह से समर्थित प्रोटीन (1 isoform और 10 altprots), अभी तक डेटाबेस में एनोटेट नहीं, सभी डेटासेट भर में पहचान की गई, विश्वास पेप्टाइड्स के साथ, OpenProt_2pep डाटाबेस का उपयोग कर (सभी प्रोटीन accessions, समर्थन की संख्या के साथ साथ पेप्टाइड्स, अनुपूरक सामग्री S5में उपलब्ध हैं) । यह डेटाबेस एक पारंपरिक 1% FDR के उपयोग के रूप में खोज अंतरिक्ष वृद्धि मध्यम रहता है की अनुमति देता है । मूल अध्ययन में इन 11 प्रोटीनों की पहचान नहीं की गई क्योंकि वे डाटाबेस से अनुपस्थित थे ।

29 उपंयास प्रोटीन (16 isoforms और 13 AltProts) सभी डेटासेट भर में खोज रहे थे, विश्वास पेप्टाइड्स के साथ, OpenProt_all डाटाबेस का उपयोग कर (सभी प्रोटीन accessions, समर्थन पेप्टाइड्स की संख्या के साथ, अनुपूरक सामग्री S6 में उपलब्ध हैं ). के रूप में चित्रा 3में दिखाया गया है, अनुशंसित कड़े fdr सबसे आत्मविश्वास प्रोटीन पहचानों को प्रभावित नहीं किया, हालांकि यह पहचान प्रोटीन की कुल संख्या में कमी थी । तुलनात्मक रूप से OpenProt_2pep डेटाबेस के लिए, उपंयास प्रोटीन की एक उच्च संख्या आत्मविश्वास से पहचाना जा सकता है । इन सभी उपंयास प्रोटीन के OpenProt_2pep डेटाबेस से अनुपस्थित हैं । यह एमएस आधारित proteomics के लिए चुना डेटाबेस की महत्वपूर्ण भूमिका पर प्रकाश डाला गया ।

एक उपंयास प्रोटीन RAF1 प्रोटीन (IP_637643) के एक interactor के रूप में की खोज की थी । Openprot वेबसाइट का उपयोग कर, एक इस प्रोटीन देख सकते है नहीं एमएस द्वारा पता लगाया गया था और न ही राइबोसोम अब तक रूपरेखा (openprot v 1.3) । प्रोटीन ४६ एमिनो एसिड लंबा है और केवल tryptic पाचन पर दो अद्वितीय पेप्टाइड्स दे सकते हैं । RAF1 AP-MS डेटासेट (भिन्न 18) में पाया जाने वाला पेप्टाइड एक अच्छी गुणवत्ता वाला स्पेक्ट्रम था, जैसा कि चित्र 4में दिखाया गया है, और 1, 09 का भारी-से-प्रकाश अनुपात प्रदर्शित किया गया है । यह प्रोटीन NANOGNBP1 जीन में इनकोडिंग होता है, जो नैनोग्रामका एक स्यूडोजीन है । प्रतिलिपि (ENST00000448444), वर्तमान में गैर के रूप में एनोटेटेड-कोडिंग, कई ऊतकों में पाया गया gtex पोर्टल^४०के अनुसार । प्रोटीन एक भविष्यवाणी कार्यात्मक डीएनए बाध्यकारी (जीन Ontology जाओ: 0003677)^४१के साथ जुड़े डोमेन शामिल हैं ।

चित्रा 1 : प्रोटियोमिक् विश्लेषण चार्ट के लिए डाटाबेस पसंद है । एमएस डेटा का विश्लेषण, विशेष रूप से डेटाबेस विकल्प, अनुसंधान के उद्देश्यों पर निर्भर करते हैं । तीन आम उद्देश्य नीले (शास्त्रीय proteomic पाइपलाइन), हरे (व्यापक proteomic खोज) और नारंगी (proteomic खोज) में उल्लिखित हैं । प्रत्येक उद्देश्य एक उपयुक्त डेटाबेस और पाइपलाइन पर निर्भर करता है । एक एकल पहचान उपकरण एक व्यापक और शास्त्रीय प्रोटियोमिक् पाइपलाइनों के लिए इस्तेमाल किया जा सकता है । Proteomic डिस्कवरी पाइपलाइन के लिए, हम दृढ़ता से एकाधिक पहचान इंजन का उपयोग करने की सिफारिश । अनुशंसित FDRs लाल रंग में इंगित किया गया है, और प्रोटीन डेटाबेस आकार ग्रे बक्से में संकेत कर रहे हैं । कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहां क्लिक करें ।

चित्रा 2 : आकाशगंगा कार्यप्रवाह का ग्राफिक प्रतिनिधित्व करते थे । Proteomic विश्लेषण कार्यप्रवाह के कदम दर कदम प्रतिनिधित्व Eyckerman एट अल. data^३८के पुनः विश्लेषण के लिए इस्तेमाल किया । इनपुट फ़ाइलें, पेप्टाइड खोज, और प्रोटीन मात्रा नारंगी बक्से द्वारा संकेत कर रहे हैं । नीले बक्से प्रयुक्त उपकरण और ग्रे बक्से आउटपुट उत्पंन फ़ाइलों के अनुरूप करने के लिए संगत । अलग खोज इंजन (एमएस-GF + और एक्स! अग्रानुक्रम) विभिन्न रंगों (क्रमशः लाल और बैंगनी) के साथ-साथ उनके आवश्यक आदानों और outputs का संकेत तीर द्वारा संकेत कर रहे हैं. हरे बॉक्स उपकरण प्रोटीन शिनाख्त की एक सूची पैदा करने पर प्रकाश डाला गया । जब एक से अधिक आउटपुट उत्पन्न होते हैं, तो downstream चरणों के लिए उपयोग किया गया एक तीर के निकटतम के रूप में दर्शाया जाता है । यह कार्यप्रवाह स्वतंत्र रूप से अनुपूरक सामग्री S2में उपलब्ध है । द X! अग्रानुक्रम डिफ़ॉल्ट पैरामीटर्स कॉन्फ़िगरेशन फ़ाइल अनुपूरक सामग्री S4में उपलब्ध है. कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहां क्लिक करें ।

चित्रा 3 : अलग डेटाबेस का उपयोग कर चारा प्रति interactor पहचान की तुलना । एक ०.००१% FDR, या के रूप में रिपोर्ट के साथ सबसे अधिक आत्मविश्वास OpenProt डाटाबेस (ऑरेंज में, ंयूनतम 2 अद्वितीय पेप्टाइड्स, OpenProt_2pep) एक 1% FDR, या पूरे OpenProt डेटाबेस (नीले, OpenProt_all) के साथ के साथ सबूत का समर्थन का उपयोग कर प्रोटीन पहचानकर्ता के Venn आरेख मूल कागज में (ग्रे में)^३८। RAF1, RNF41, PTPN14, JIP3 और IQGAP1: प्रत्येक आरेख उल्लेख किया चारा के लिए interactors की पहचान करने के लिए मेल खाती है । कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहां क्लिक करें ।

चित्रा 4 : Ms/ms स्पेक्ट्रम की पहचान MDNLWAK^(13C6) उपन्यास प्रोटीन IP_637643 से पेप्टाइड । तीव्रता सापेक्ष (0 से १००%) है । चयनित चोटियों लाल, y आयन एनोटेशन में संकेत कर रहे हैं हरे रंग में गहरे लाल और ख आयन एनोटेशन में हैं । ^३४से निकाले गए toppview सॉफ्टवेयर । अग्रदूत त्रुटि = २.७० ppm, पीईपी स्कोर = ०.१२ । कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहां क्लिक करें ।

अवधि	परिभाषा	संदर्भ
वैकल्पिक ओआरएफ (AltORF)	गैर विहित orf वर्तमान में जीनोम एनोटेशन में एनोटेट नहीं है, लेकिन openprot में एनोटेटेड ।	15
संदर्भ ओआरएफ (RefORF)	जीनोम एनोटेशन और ओपनप्रोट में विहित ओआरएफ एनोटेटेड ।	15
वैकल्पिक प्रोटीन (AltProt)	उपंयास एक AltORF द्वारा कोडित प्रोटीन, एक RefProt के साथ कोई महत्वपूर्ण समानता के साथ । परिग्रहण उपसर्ग: IP_ ।	15
संदर्भ प्रोटीन (RefProt)	प्रोटीन वर्तमान में इस तरह के UniProtKB के रूप में प्रोटीन अनुक्रम डेटाबेस में एनोटेटेड, Ensembl या NCBI RefSeq, और OpenProt में भी ।	15
उपन्यास समरूपी	उपंयास एक AltORF द्वारा कोडित प्रोटीन, एक RefProt के साथ एक महत्वपूर्ण समानता के साथ । परिग्रहण उपसर्ग: II_ ।	15
OpenProt_2pep डेटाबेस	सभी RefProts और उपंयास OpenProt द्वारा की भविष्यवाणी प्रोटीन का अनुक्रम होता है, पहले से ही 2 अद्वितीय पेप्टाइड की एक ंयूनतम के साथ पता चला ।	15
OpenProt_1pep डेटाबेस	सभी RefProts और उपंयास OpenProt द्वारा की भविष्यवाणी प्रोटीन के अनुक्रम में शामिल है, पहले से ही 1 अद्वितीय पेप्टाइड की एक ंयूनतम के साथ पता चला ।	15
OpenProt_all डेटाबेस	सभी RefProts और उपंयास OpenProt द्वारा की भविष्यवाणी प्रोटीन के अनुक्रम शामिल हैं ।	15

तालिका 1: OpenProt और पूरे प्रोटोकॉल में उपयोग किए गए शब्दों की परिभाषा

अनुपूरक सामग्री S1: डेटाबेस हैंडलिंग के लिए आकाशगंगा कार्यप्रवाह । इस इनपुट डेटाबेस के लिए CRAPome और फंदा दृश्यों (रिवर्स) संलग्न होगा । आउटपुट एक Fasta फ़ाइल है । कृपया डाउनलोड करने के लिए यहां क्लिक करें ।

अनुपूरक सामग्री S2: आकाशगंगा कार्यप्रवाह प्रोटीन की पहचान के लिए । यह एक मास स्पेक्ट्रोमेट्री डेटा दो खोज इंजन (एमएस-GF + और एक्स का उपयोग कर फ़ाइल से प्रोटीन की पहचान करेगा! अग्रानुक्रम) । प्रत्येक पैरामीटर कार्यप्रवाह चलाने से पहले वांछित के रूप में tuned किया जा सकता है । कृपया डाउनलोड करने के लिए यहां क्लिक करें ।

अनुपूरक सामग्री S3: स्थिर आइसोटोप लेबलिंग (एसआईएल) का उपयोग कर प्रोटीन परिमाणन के लिए गैलेक्सी कार्यप्रवाह । यह पहचान और एक मास स्पेक्ट्रोमेट्री डेटा दो खोज इंजन (एमएस-GF + और एक्स का उपयोग कर फ़ाइल से प्रोटीन यों तो होगा! अग्रानुक्रम) । प्रत्येक पैरामीटर कार्यप्रवाह चलाने से पहले वांछित के रूप में tuned किया जा सकता है । कृपया डाउनलोड करने के लिए यहां क्लिक करें ।

अनुपूरक सामग्री S4: X! अग्रानुक्रम डिफ़ॉल्ट पैरामीटर्स कॉंफ़िगरेशन फ़ाइल । यह XML फ़ाइल X चलाने के लिए आवश्यक है! आकाशगंगा मंच पर तंदेमादाप्टर उपकरण । कृपया डाउनलोड करने के लिए यहां क्लिक करें ।

अनुपूरक सामग्री S5: iMixPro डेटासेट से क्वांटीकृत प्रोटीन. डेटा फ़ाइलों से eyckerman एट अल २०१६^३८ openprot डेटाबेस का उपयोग संसाधित किया गया और मात्रा निर्धारित प्रोटीन प्रत्येक शर्त के लिए सूचीबद्ध हैं । Baits PTPN14, JIP3, IQGAP1, RAF1 और RNF41 कर रहे हैं । जीन हरी में संकेत नाम प्रोटीन के अनुरूप भी मूल कागज^३८में पहचान की । जीन ऑरेंज में संकेत नाम बायोरीड के अनुसार ज्ञात interactors के अनुरूप है कि मूल पत्र में रिपोर्ट नहीं थे । जीन हल्के नीले रंग में संकेत के रूप में पहचाना उपंयास interactors के रूप में पहचान प्रोटीन के अनुरूप (इसी प्रोटीन परिग्रहण संख्या कोष्ठक में दर्शाया गया है) । हल्के धूसर और इटैलिक्स में दर्शाए गए जीन नाम संभावित संदूषकों (केरातिन प्रोटीन) के अनुरूप होते हैं । कृपया डाउनलोड करने के लिए यहां क्लिक करें ।

अनुपूरक सामग्री S6: iMixPro डेटासेट से उपंयास प्रोटीन की पहचान की । डेटा फ़ाइलों से Eyckerman एट अल २०१६^३८ OpenProt डेटाबेस का उपयोग कर संसाधित किया गया और उपंयास की पहचान की प्रोटीन प्रत्येक शर्त के लिए सूचीबद्ध हैं । Baits PTPN14, JIP3, IQGAP1, RAF1 और RNF41 कर रहे हैं । प्रोटीन परिग्रहण संख्या सूचीबद्ध हैं, एक ज्ञात प्रोटीन के उपंयास isoforms के लिए II_ के साथ शुरू, और एक वैकल्पिक ओआरएफ (AltProt) से उपंयास प्रोटीन के लिए IP_ के साथ । समर्थन पेप्टाइड्स की संख्या कोष्ठक में दर्शाया गया है । कृपया डाउनलोड करने के लिए यहां क्लिक करें ।

Discussion

जब द्रव्यमान स्पेक्ट्रममापी से डेटा का विश्लेषण, प्रोटीन की पहचान की गुणवत्ता आंशिक रूप से इस्तेमाल किया डेटाबेस की सटीकता पर निर्भर करता है⁶^,²⁰. वर्तमान दृष्टिकोण परंपरागत uniprotkb डेटाबेस का उपयोग करें, अभी तक इन समर्थन प्रतिलिपि प्रति एक ओआरएफ के जीनोम एनोटेशन मॉडल और १०० codons की एक ंयूनतम लंबाई (पहले प्रदर्शन उदाहरण के अपवाद के साथ)^४०। कई अध्ययनों में कथित तौर पर गैर से कार्यात्मक orfs की खोज के साथ ऐसे डेटाबेस की कमियों संबंधित-⁸^,¹¹^,¹²^,¹³क्षेत्रों कोडिंग । अब, OpenProt अधिक संपूर्ण प्रोटीन की पहचान के लिए अनुमति देता है के रूप में यह कई transcriptome एनोटेशन से प्रोटीन दृश्यों खींचता है । Openprot प्राप्त करता एनसीबीआई refseq (GRCh38. p7) और ensembl (grch 38.83) transक्रिप्ट्स और uniprotkb एनोटेशन (uniprotkb-swissprot, 2017-09-27)^४०^,^४२^,^४३। वर्तमान एनोटेशन वर्तमान थोड़ा ओवरलैप के रूप में, OpenProt इस प्रकार जब एक एनोटेशन¹⁵से सीमित संभावित proteomic परिदृश्य के एक और अधिक विस्तृत दृश्य प्रदर्शित करता है ।

इसके अलावा, के रूप में OpenProt एक polycistronic मॉडल enforces, यह transcript प्रति एकाधिक प्रोटीन एनोटेशन के लिए अनुमति देता है । सांख्यिकीय और कंप्यूटेशनल कारणों के लिए, OpenProt अभी भी 30 codons की एक ंयूनतम लंबाई सीमा¹⁵रखती है । फिर भी, यह उपंयास प्रोटीन दृश्यों के हजारों भविष्यवाणी, जिससे प्रोटीन पहचान के लिए संभावनाओं के दायरे को चौड़ा । इस दृष्टिकोण के साथ, OpenProt एक अधिक व्यवस्थित तरीके से proteomic खोजों का समर्थन करता है ।

प्रोटीन की पहचान की गुणवत्ता भी उपयोग किए जाने वाले मापदंडों से प्रभावित हो सकती है । एमएस आधारित प्रोटियोमिक् विश्लेषण आमतौर पर एक% 1 प्रोटीन fdr पकड़ो । हालांकि, पूरे OpenProt डेटाबेस के बारे में 6 गुना अधिक प्रविष्टियां (चित्रा 1) शामिल हैं । खोज अंतरिक्ष में इस पर्याप्त वृद्धि के लिए खाते के लिए, हम ०.००१% की एक और अधिक कठोर FDR का उपयोग करने की सलाह देते हैं । इस पैरामीटर बेंचमार्क अध्ययन और बेतरतीब ढंग से चयनित स्पेक्ट्रा¹⁵के मैनुअल मूल्यांकन का उपयोग कर अनुकूलित किया गया था. झूठी सकारात्मक अभी भी एक संभावना है, हालांकि, और हम पूरी तरह से निरीक्षण और एक उपंयास प्रोटीन के लिए सबूत के समर्थन के सत्यापन को प्रोत्साहित करते हैं । एक अनुशंसित मानक दो अलग MS रन से एक प्रोटीन की पहचान हो सकता है, के रूप में पृष्ठभूमि डेटा और झूठी सकारात्मक डेटासेट¹⁵के बीच बदलती हैं ।

यहां उपलब्ध कराई गई पाइपलाइन और मामला अध्ययन के लिए इस्तेमाल के लिए प्रयोगात्मक डिजाइन और मापदंडों फिट करने के लिए कृपा के रूप में संशोधित किया जा सकता है । हम कई खोज इंजन का उपयोग करने की सिफारिश के रूप में यह संवेदनशीलता और पेप्टाइड^३२की पहचान को बढ़ाता है । इसके अलावा, हम इस प्रायोगिक उद्देश्य के लिए सबसे अच्छा इसी डाटाबेस का उपयोग प्रोत्साहित (चित्रा 1) । पूरे OpenProt डेटाबेस का उपयोग कर के रूप में एक कड़े FDR के साथ आता है, सच शिनाख्त खो सकता है । इस प्रकार, पूरे डेटाबेस उपंयास प्रोटीन की खोज के लिए करना चाहिए, whilst शास्त्रीय प्रोटियोमिक् रूपरेखा छोटे openprot डेटाबेस का उपयोग किया जाना चाहिए (जैसे ऊपर मामले के अध्ययन में इस्तेमाल किया OpenProt_2pep के रूप में) ।

Openprot वर्तमान में एक atg कोडन के साथ शुरू दृश्यों का अनुमान है, जबकि कई अध्ययनों से अंय codons^४४^,^४५में अनुवाद दीक्षा पर प्रकाश डाला । जब एक उपंयास प्रोटीन एक या कई अद्वितीय पेप्टाइड्स द्वारा की पहचान की है, यह संभव है सच दीक्षा कोडोन माना atg नहीं है । उपयोगकर्ता OpenProt वेबसाइट पर अनुवाद सबूत के लिए देख सकते हैं । वर्तमान में, OpenProt केवल अनुवाद की घटनाओं की रिपोर्ट अगर वे पूरे भविष्यवाणी प्रोटीन अनुक्रम (१००% ओवरलैप)¹⁵चिंता का विषय है । इस प्रकार, अनुवाद सबूत के अभाव का मतलब यह नहीं होगा प्रोटीन अनुवाद नहीं है, लेकिन है कि शुरू कोडोन कथित atg नहीं हो सकता है ।

अपनी मौजूदा सीमाओं के बावजूद, OpenProt यूक्योटिक जीनोम ' कोडिंग क्षमता का एक और अधिक व्यापक दृश्य प्रदान करता है । OpenProt डाटाबेस proteomic खोजों और proteomic कार्यों और बातचीत की समझ को बढ़ावा । Openprot डाटाबेस के भविष्य के घटनाक्रम अंय प्रजातियों के एनोटेशन शामिल होंगे, गैर से अनुवाद सबूत atg शुरू कोडोन और एक पाइप लाइन के विकास के लिए पूरे जीनोम और exome अनुक्रमण अध्ययन में उपंयास प्रोटीन शामिल हैं ।

Disclosures

लेखक हितों का टकराव नहीं घोषित करते.

Acknowledgments

हम इस काम पर उनकी मदद, विचार विमर्श और सलाह के लिए विवियन Delcourt धंयवाद । X.R. के एक सदस्य के रूप में Fonds डी रीच्चे डु Québec सांते (FRQS)-समर्थित केंद्र डी Recherche डु सेंटर हॉस्पिटलियर विश्विद्यालय डी शेरब्रुक. इस शोध कार्यात्मक Proteomics और उपंयास प्रोटीन की खोज में X.R. और CIHR अनुदान एमओपी-१३७०५६ के लिए एक कनाडा अनुसंधान चेयर द्वारा समर्थित किया गया था । हम calcul québec में टीम को धंयवाद और विश्विद्यालय डे शेरब्रुक से mp2 चटका के उपयोग के साथ अपने समर्थन के लिए कनाडा की गणना । Mp2 चटका के ऑपरेशन कनाडा फाउंडेशन ऑफ इनोवेशन (cfi), le ministère de l ' économie, डे ला साइंस एट de l ' अभिनव du québec (मेसी) और les fonds डे रीचेरचे डु québec-नेचर एट टेक्नोलॉजीज (frq-NT) द्वारा वित्त पोषित है । गैलेक्सी सर्वर है कि कुछ प्रोटियोमिक् गणना के लिए इस्तेमाल किया गया भाग में सहयोगी अनुसंधान केंद्र ९९२ चिकित्सा एपिजेनेटिक्स (dfg अनुदान sfb 992/1 2012) और जर्मन संघीय शिक्षा और अनुसंधान मंत्रालय (bmbf अनुदान 031 A538A/A538C आरबीसी, 031l0101b /031L0101C de. NBI-ईपीआई, 031L0106 de. सीढ़ी (डे. एनबीआई)).

Materials

Name	Company	Catalog Number	Comments
OpenProt website	open source	n/a	www.openprot.org
Galaxy Server	open source	n/a	https://usegalaxy.eu/
TOPPview software	open source	n/a	www.openms.de

DOWNLOAD MATERIALS LIST

References

Kim, M. S., et al. A draft map of the human proteome. Nature. 509 (7502), 575-581 (2014).
Wilhelm, M., et al. Mass-spectrometry-based draft of the human proteome. Nature. 509 (7502), 582-587 (2014).
Hein, M. Y., et al. A human interactome in three quantitative dimensions organized by stoichiometries and abundances. Cell. 163 (3), 712-723 (2015).
Huttlin, E. L., et al. The BioPlex Network: A Systematic Exploration of the Human Interactome. Cell. 162 (2), 425-440 (2015).
Huttlin, E. L., et al. Architecture of the human interactome defines protein communities and disease networks. Nature. 545 (7655), 505-509 (2017).
Kumar, D., Yadav, A. K., Dash, D. Choosing an Optimal Database for Protein Identification from Tandem Mass Spectrometry Data. Proteome Bioinformatics. , 17-29 (2017).
Jeong, K., Kim, S., Bandeira, N. False discovery rates in spectral identification. BMC Bioinformatics. 13 (Suppl 16), (2012).
Brunet, M. A., Levesque, S. A., Hunting, D. J., Cohen, A. A., Roucou, X. Recognition of the polycistronic nature of human genes is critical to understanding the genotype-phenotype relationship. Genome Research. , (2018).
Brent, M. R. Genome annotation past, present, and future: how to define an ORF at each locus. Genome Research. 15 (12), 1777-1786 (2005).
Harrow, J., et al. GENCODE: The reference human genome annotation for The ENCODE Project. Genome Research. 22 (9), 1760-1774 (2012).
Samandi, S., et al. Deep transcriptome annotation enables the discovery and functional characterization of cryptic small proteins. eLife. 6, e27860 (2017).
Saghatelian, A., Couso, J. P. Discovery and characterization of smORF-encoded bioactive polypeptides. Nature Chemical Biology. 11 (12), 909-916 (2015).
Delcourt, V., Staskevicius, A., Salzet, M., Fournier, I., Roucou, X. Small Proteins Encoded by Unannotated ORFs are Rising Stars of the Proteome, Confirming Shortcomings in Genome Annotations and Current Vision of an mRNA. Proteomics. , (2017).
Plaza, S., Menschaert, G., Payre, F. In Search of Lost Small Peptides. Annual Review of Cell and Developmental Biology. 33 (1), (2017).
Brunet, M. A., et al. OpenProt: a more comprehensive guide to explore eukaryotic coding potential and proteomes. Nucleic Acids Research. , (2018).
Afgan, E., et al. The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2016 update. Nucleic Acids Research. 44 (W1), W3-W10 (2016).
Afgan, E., et al. The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2018 update. Nucleic Acids Research. 46, W537-W544 (2018).
Sturm, M., et al. OpenMS – An open-source software framework for mass spectrometry. BMC Bioinformatics. 9 (1), 163 (2008).
Carithers, L. J., et al. A Novel Approach to High-Quality Postmortem Tissue Procurement: The GTEx Project. Biopreservation and Biobanking. 13 (5), 311-319 (2015).
Aebersold, R., Mann, M. Mass spectrometry-based proteomics. Nature. 422 (6928), 6928 (2003).
Domon, B., Aebersold, R. Mass Spectrometry and Protein Analysis. Science. 312 (5771), 212-217 (2006).
Hu, J., Coombes, K. R., Morris, J. S., Baggerly, K. A. The importance of experimental design in proteomic mass spectrometry experiments: Some cautionary tales. Briefings in Functional Genomics. 3 (4), 322-331 (2005).
Wu, P. Y., Phan, J. H., Wang, M. D. Assessing the impact of human genome annotation choice on RNA-seq expression estimates. BMC Bioinformatics. 14 (11), S8 (2013).
Mellacheruvu, D., et al. The CRAPome: a contaminant repository for affinity purification-mass spectrometry data. Nature Methods. 10 (8), 730-736 (2013).
Adusumilli, R., Mallick, P. Data Conversion with ProteoWizard msConvert. Proteomics: Methods and Protocols. , 339-368 (2017).
French, W. R., et al. Wavelet-Based Peak Detection and a New Charge Inference Procedure for MS/MS Implemented in ProteoWizard’s msConvert. Journal of Proteome Research. 14 (2), 1299-1307 (2015).
Kuenzi, B. M., et al. APOSTL: An Interactive Galaxy Pipeline for Reproducible Analysis of Affinity Proteomics Data. Journal of Proteome Research. 15 (12), 4747-4754 (2016).
Hoekman, B., Breitling, R., Suits, F., Bischoff, R., Horvatovich, P. msCompare: a framework for quantitative analysis of label-free LC-MS data for comparative candidate biomarker studies. Molecular & Cellular Proteomics: MCP. 11 (6), (2012).
Bjornson, R. D., et al. X!!Tandem, an improved method for running X!tandem in parallel on collections of commodity computers. Journal of Proteome Research. 7 (1), 293-299 (2008).
Kim, S., Pevzner, P. A. MS-GF+ makes progress towards a universal database search tool for proteomics. Nature Communications. 5, 5277 (2014).
Vaudel, M., Barsnes, H., Berven, F. S., Sickmann, A., Martens, L. SearchGUI: An open-source graphical user interface for simultaneous OMSSA and X!Tandem searches. Proteomics. 11 (5), 996-999 (2011).
Shteynberg, D., Nesvizhskii, A. I., Moritz, R. L., Deutsch, E. W. Combining results of multiple search engines in proteomics. Molecular & Cellular Proteomics: MCP. 12 (9), 2383-2393 (2013).
Bittremieux, W., et al. Quality control in mass spectrometry-based proteomics. Mass Spectrometry Reviews. 37 (5), 697-711 (2018).
Bertsch, A., Gröpl, C., Reinert, K., Kohlbacher, O. OpenMS and TOPP: Open Source Software for LC-MS Data Analysis. Data Mining in Proteomics: From Standards to Applications. , 353-367 (2011).
Pfeuffer, J., et al. OpenMS – A platform for reproducible analysis of mass spectrometry data. Journal of Biotechnology. 261, 142-148 (2017).
Kozak, M. Pushing the limits of the scanning mechanism for initiation of translation. Gene. 299 (1-2), 1-34 (2002).
Noderer, W. L., et al. Quantitative analysis of mammalian translation initiation sites by FACS-seq. Molecular Systems Biology. 10, 748 (2014).
Eyckerman, S., et al. Intelligent Mixing of Proteomes for Elimination of False Positives in Affinity Purification-Mass Spectrometry. Journal of Proteome Research. 15 (10), 3929-3937 (2016).
Vizcaíno, J. A., et al. 2016 update of the PRIDE database and its related tools. Nucleic Acids Research. 44 (D1), D447-D456 (2016).
Bateman, A., et al. UniProt: the universal protein knowledgebase. Nucleic Acids Research. 45 (D1), D158-D169 (2017).
The Gene Ontology Consortium Expansion of the Gene Ontology knowledgebase and resources. Expansion of the Gene Ontology knowledgebase and resources. Nucleic Acids Research. 45 (D1), D331-D338 (2017).
O’Leary, N. A., et al. Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. Nucleic Acids Research. 44, D733-D745 (2016).
Zerbino, D. R., et al. Ensembl 2018. Nucleic Acids Research. 46 (D1), D754-D761 (2018).
Andreev, D. E., et al. Translation of 5’ leaders is pervasive in genes resistant to eIF2 repression. eLife. 4, e03971 (2015).
Jackson, R., et al. The translation of non-canonical open reading frames controls mucosal immunity. Nature. 564, 434-438 (2018).

Genetics

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.