OpenProt एक स्वतंत्र रूप से सुलभ डेटाबेस है कि यूकार्योटिक जीनोम के एक polycistronic मॉडल enforces है । यहां, हम OpenProt डेटाबेस के उपयोग के लिए एक प्रोटोकॉल प्रस्तुत जब मास स्पेक्ट्रोमेट्री datasets पूछताछ । Proteomic प्रयोगों के विश्लेषण के लिए OpenProt डाटाबेस का उपयोग उपंयास की खोज और पहले undetectable प्रोटीन के लिए अनुमति देता है ।
जीनोम एनोटेशन आज के proteomic अनुसंधान के लिए केंद्रीय के रूप में यह proteomic परिदृश्य की रूपरेखा खींचता है । ओपन रीडिंग फ्रेम (ORF) एनोटेशन के पारंपरिक मॉडल दो मनमाना मापदंड लागू: १०० codons की एक ंयूनतम लंबाई और transcript प्रति एक ORF । हालांकि, अध्ययन की बढ़ती संख्या कथित रूप से गैर से प्रोटीन की अभिव्यक्ति की रिपोर्ट-क्षेत्रों कोडिंग, वर्तमान जीनोम एनोटेशन की सटीकता को चुनौती दे । ये उपंयास प्रोटीन गैर कोडिंग RNAs, 5 ‘ या 3 ‘ untranslated क्षेत्रों (यूटरस) के भीतर या तो एमएनएएस, या एक वैकल्पिक ORF में एक ज्ञात कोडिंग अनुक्रम (सीडी) ओवरलैप में इनकोडिंग पाया गया । OpenProt पहले डेटाबेस है कि यूकार्योटिक जीनोम के लिए एक polycistronic मॉडल enforces है, transcript प्रति एकाधिक ORFs के एनोटेशन की अनुमति । OpenProt स्वतंत्र रूप से सुलभ है और 10 प्रजातियों में प्रोटीन दृश्यों के कस्टम डाउनलोड प्रदान करता है । Proteomic प्रयोगों के लिए OpenProt डाटाबेस का उपयोग करने में सक्षम बनाता है उपंयास प्रोटीन खोज और यूकार्योटिक जीन की polycistronic प्रकृति पर प्रकाश डाला गया । OpenProt डाटाबेस के आकार (सभी प्रोटीन की भविष्यवाणी) पर्याप्त है और विश्लेषण के लिए खाते में लिया जाना चाहिए । हालांकि, उचित झूठी खोज दर (FDR) सेटिंग्स या एक प्रतिबंधित OpenProt डेटाबेस के उपयोग के साथ, उपयोगकर्ताओं proteomic परिदृश्य के एक और अधिक यथार्थवादी देखने का लाभ होगा । कुल मिलाकर, OpenProt एक स्वतंत्र रूप से उपलब्ध उपकरण है कि proteomic खोजों को बढ़ावा देगा है ।
पिछले दशकों में, मास स्पेक्ट्रोमेट्री (एमएस-) आधारित प्रोटियोमिक् यूकार्योटिक कोशिकाओं के proteomes1,2,3,4,5को समझने के लिए गोल्डन तकनीक बन गया है । इस विधि वर्तमान जीनोम एनोटेशन पर निर्भर करता है एक संदर्भ प्रोटीन अनुक्रम डेटाबेस है कि6,7,8संभावनाओं की गुंजाइश रूपरेखा उत्पंन करने के लिए । हालांकि, जीनोम एनोटेशन orf एनोटेशन, जैसे १०० codons की एक ंयूनतम लंबाई और ट्रांसक्रिप्ट9,10प्रति एक orf के रूप में मनमाने ढंग से मानदंड पकड़ । अध्ययनों की बढ़ती संख्या वर्तमान एनोटेशन मॉडल और रिपोर्ट खोजों यूक्योटिक जीनोम में unannotated कार्यात्मक orfs की चुनौती8,11,12,13, 14. ये उपन्यास प्रोटीन कथित रूप से गैर कोडिंग RNAs में एंकोडेड पाए जाते हैं, 5 ‘ या 3 ‘ untranslated क्षेत्रों (UTR) में mRNAs, या एक वैकल्पिक फ्रेम में विहित कोडिंग अनुक्रम (cCDS) अतिव्यापी । हालांकि इन खोजों के अधिकांश serendipitous किया गया है, वे वर्तमान जीनोम एनोटेशन के निरंतर प्रदर्शन और यूकेरोटिक जीन8के polycistronic प्रकृति ।
यहां, हम एमएस आधारित proteomics के लिए OpenProt डेटाबेस के उपयोग पर प्रकाश डाला । OpenProt पहले डेटाबेस के लिए एक polycistronic एनोटेशन मॉडल रखने के लिए है यूकार्योटिक transपंगु । यह www.openprot.org15पर स्वतंत्र रूप से उपलब्ध है । इन भविष्यवाणी ORFs का एक अनुपात यादृच्छिक और गैर कार्यात्मक है, जो है क्यों OpenProt प्रयोगात्मक और कार्यात्मक सबूत के लिए विश्वास को बढ़ाने के cumulates होगा । प्रायोगिक साक्ष्य में प्रोटीन अभिव्यक्ति (MS द्वारा) और अनुवाद साक्ष्य (राइबोकुछ प्रोफाइलिंग द्वारा)15शामिल हैं । कार्यात्मक साक्ष्य प्रोटीन ऑर्थोलॉजी शामिल (एक में-दिग्भ्रमित दृष्टिकोण की तरह) और कार्यात्मक डोमेन भविष्यवाणी15।
OpenProt कई डेटाबेस डाउनलोड करने की संभावना प्रदान करता है, केवल अच्छी तरह से युक्त-कस्टम डेटाबेस के लिए प्रोटीन का समर्थन किया । यहां, हम OpenProt डेटाबेस के उपयोग के लिए एक पाइप लाइन पेश करेंगे और अंतर्दृष्टि जो डाटाबेस में प्रयोगात्मक उद्देश्य पर विचार का चयन करने की पेशकश करेगा । प्रोटियोमिक् विश्लेषण पाइपलाइन यहां प्रस्तुत आकाशगंगा ढांचे द्वारा समर्थित है के रूप में यह खुला है उपयोग और आसान करने के लिए उपयोग करते हैं, लेकिन डेटाबेस किसी भी कार्यप्रवाह16,17,18के साथ काम कर सकते हैं । हम भी पेश करेंगे कैसे उपंयास सुश्री द्वारा पता लगाया प्रोटीन के बारे में अधिक जानकारी जुटाने के लिए openprot वेबसाइट का उपयोग करने के लिए openprot डेटाबेस का उपयोग proteomic परिदृश्य के एक और अधिक विस्तृत दृश्य प्रदान करेगा और प्रोटियोमिक् और biomarkers खोजों में बढ़ावा होगा वर्तमान विधियों से अधिक व्यवस्थित तरीके से ।
इस प्रोटोकॉल OpenProt डेटाबेस के उपयोग पर प्रकाश डाला गया15 जब एमएस datasets पूछताछ; यह प्रयोग स्वयं के डिजाइन की समीक्षा नहीं करेगा, जिसकी पूरी तरह से समीक्षा20,21,22को की गई है । एक पूरी तरह से खुला स्रोत रहने के प्रयास में, प्रोटोकॉल स्वतंत्र रूप से उपलब्ध है (अनुपूरक सामग्री S1–S4) । आसान पढ़ने के लिए, सभी शर्तों OpenProt में इस्तेमाल किया और इसके द्वारा इस प्रोटोकॉल में तालिका 1में परिभाषित कर रहे हैं ।
जब द्रव्यमान स्पेक्ट्रममापी से डेटा का विश्लेषण, प्रोटीन की पहचान की गुणवत्ता आंशिक रूप से इस्तेमाल किया डेटाबेस की सटीकता पर निर्भर करता है6,20. वर्तमान दृष्टिकोण परंपरागत uniprotkb डेटाबेस का उपयोग करें, अभी तक इन समर्थन प्रतिलिपि प्रति एक ओआरएफ के जीनोम एनोटेशन मॉडल और १०० codons की एक ंयूनतम लंबाई (पहले प्रदर्शन उदाहरण के अपवाद के साथ)४०। कई अध्ययनों में कथित तौर पर गैर से कार्यात्मक orfs की खोज के साथ ऐसे डेटाबेस की कमियों संबंधित-8,11,12,13क्षेत्रों कोडिंग । अब, OpenProt अधिक संपूर्ण प्रोटीन की पहचान के लिए अनुमति देता है के रूप में यह कई transcriptome एनोटेशन से प्रोटीन दृश्यों खींचता है । Openprot प्राप्त करता एनसीबीआई refseq (GRCh38. p7) और ensembl (grch 38.83) transक्रिप्ट्स और uniprotkb एनोटेशन (uniprotkb-swissprot, 2017-09-27)४०,४२,४३। वर्तमान एनोटेशन वर्तमान थोड़ा ओवरलैप के रूप में, OpenProt इस प्रकार जब एक एनोटेशन15से सीमित संभावित proteomic परिदृश्य के एक और अधिक विस्तृत दृश्य प्रदर्शित करता है ।
इसके अलावा, के रूप में OpenProt एक polycistronic मॉडल enforces, यह transcript प्रति एकाधिक प्रोटीन एनोटेशन के लिए अनुमति देता है । सांख्यिकीय और कंप्यूटेशनल कारणों के लिए, OpenProt अभी भी 30 codons की एक ंयूनतम लंबाई सीमा15रखती है । फिर भी, यह उपंयास प्रोटीन दृश्यों के हजारों भविष्यवाणी, जिससे प्रोटीन पहचान के लिए संभावनाओं के दायरे को चौड़ा । इस दृष्टिकोण के साथ, OpenProt एक अधिक व्यवस्थित तरीके से proteomic खोजों का समर्थन करता है ।
प्रोटीन की पहचान की गुणवत्ता भी उपयोग किए जाने वाले मापदंडों से प्रभावित हो सकती है । एमएस आधारित प्रोटियोमिक् विश्लेषण आमतौर पर एक% 1 प्रोटीन fdr पकड़ो । हालांकि, पूरे OpenProt डेटाबेस के बारे में 6 गुना अधिक प्रविष्टियां (चित्रा 1) शामिल हैं । खोज अंतरिक्ष में इस पर्याप्त वृद्धि के लिए खाते के लिए, हम ०.००१% की एक और अधिक कठोर FDR का उपयोग करने की सलाह देते हैं । इस पैरामीटर बेंचमार्क अध्ययन और बेतरतीब ढंग से चयनित स्पेक्ट्रा15के मैनुअल मूल्यांकन का उपयोग कर अनुकूलित किया गया था. झूठी सकारात्मक अभी भी एक संभावना है, हालांकि, और हम पूरी तरह से निरीक्षण और एक उपंयास प्रोटीन के लिए सबूत के समर्थन के सत्यापन को प्रोत्साहित करते हैं । एक अनुशंसित मानक दो अलग MS रन से एक प्रोटीन की पहचान हो सकता है, के रूप में पृष्ठभूमि डेटा और झूठी सकारात्मक डेटासेट15के बीच बदलती हैं ।
यहां उपलब्ध कराई गई पाइपलाइन और मामला अध्ययन के लिए इस्तेमाल के लिए प्रयोगात्मक डिजाइन और मापदंडों फिट करने के लिए कृपा के रूप में संशोधित किया जा सकता है । हम कई खोज इंजन का उपयोग करने की सिफारिश के रूप में यह संवेदनशीलता और पेप्टाइड३२की पहचान को बढ़ाता है । इसके अलावा, हम इस प्रायोगिक उद्देश्य के लिए सबसे अच्छा इसी डाटाबेस का उपयोग प्रोत्साहित (चित्रा 1) । पूरे OpenProt डेटाबेस का उपयोग कर के रूप में एक कड़े FDR के साथ आता है, सच शिनाख्त खो सकता है । इस प्रकार, पूरे डेटाबेस उपंयास प्रोटीन की खोज के लिए करना चाहिए, whilst शास्त्रीय प्रोटियोमिक् रूपरेखा छोटे openprot डेटाबेस का उपयोग किया जाना चाहिए (जैसे ऊपर मामले के अध्ययन में इस्तेमाल किया OpenProt_2pep के रूप में) ।
Openprot वर्तमान में एक atg कोडन के साथ शुरू दृश्यों का अनुमान है, जबकि कई अध्ययनों से अंय codons४४,४५में अनुवाद दीक्षा पर प्रकाश डाला । जब एक उपंयास प्रोटीन एक या कई अद्वितीय पेप्टाइड्स द्वारा की पहचान की है, यह संभव है सच दीक्षा कोडोन माना atg नहीं है । उपयोगकर्ता OpenProt वेबसाइट पर अनुवाद सबूत के लिए देख सकते हैं । वर्तमान में, OpenProt केवल अनुवाद की घटनाओं की रिपोर्ट अगर वे पूरे भविष्यवाणी प्रोटीन अनुक्रम (१००% ओवरलैप)15चिंता का विषय है । इस प्रकार, अनुवाद सबूत के अभाव का मतलब यह नहीं होगा प्रोटीन अनुवाद नहीं है, लेकिन है कि शुरू कोडोन कथित atg नहीं हो सकता है ।
अपनी मौजूदा सीमाओं के बावजूद, OpenProt यूक्योटिक जीनोम ‘ कोडिंग क्षमता का एक और अधिक व्यापक दृश्य प्रदान करता है । OpenProt डाटाबेस proteomic खोजों और proteomic कार्यों और बातचीत की समझ को बढ़ावा । Openprot डाटाबेस के भविष्य के घटनाक्रम अंय प्रजातियों के एनोटेशन शामिल होंगे, गैर से अनुवाद सबूत atg शुरू कोडोन और एक पाइप लाइन के विकास के लिए पूरे जीनोम और exome अनुक्रमण अध्ययन में उपंयास प्रोटीन शामिल हैं ।
The authors have nothing to disclose.
हम इस काम पर उनकी मदद, विचार विमर्श और सलाह के लिए विवियन Delcourt धंयवाद । X.R. के एक सदस्य के रूप में Fonds डी रीच्चे डु Québec सांते (FRQS)-समर्थित केंद्र डी Recherche डु सेंटर हॉस्पिटलियर विश्विद्यालय डी शेरब्रुक. इस शोध कार्यात्मक Proteomics और उपंयास प्रोटीन की खोज में X.R. और CIHR अनुदान एमओपी-१३७०५६ के लिए एक कनाडा अनुसंधान चेयर द्वारा समर्थित किया गया था । हम calcul québec में टीम को धंयवाद और विश्विद्यालय डे शेरब्रुक से mp2 चटका के उपयोग के साथ अपने समर्थन के लिए कनाडा की गणना । Mp2 चटका के ऑपरेशन कनाडा फाउंडेशन ऑफ इनोवेशन (cfi), le ministère de l ‘ économie, डे ला साइंस एट de l ‘ अभिनव du québec (मेसी) और les fonds डे रीचेरचे डु québec-नेचर एट टेक्नोलॉजीज (frq-NT) द्वारा वित्त पोषित है । गैलेक्सी सर्वर है कि कुछ प्रोटियोमिक् गणना के लिए इस्तेमाल किया गया भाग में सहयोगी अनुसंधान केंद्र ९९२ चिकित्सा एपिजेनेटिक्स (dfg अनुदान sfb 992/1 2012) और जर्मन संघीय शिक्षा और अनुसंधान मंत्रालय (bmbf अनुदान 031 A538A/A538C आरबीसी, 031l0101b /031L0101C de. NBI-ईपीआई, 031L0106 de. सीढ़ी (डे. एनबीआई)).
OpenProt website | open source | n/a | www.openprot.org |
Galaxy Server | open source | n/a | https://usegalaxy.eu/ |
TOPPview software | open source | n/a | www.openms.de |