Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Chemistry

अल्फा-अमीनो एसिड के साथ प्रदर्शित कम्प्यूटेशनल रासायनिक पुस्तकालयों का क्यूरेशन

Published: April 13, 2022 doi: 10.3791/63632

Summary

इस प्रोटोकॉल का उद्देश्य ओपन-सोर्स सॉफ़्टवेयर का उपयोग करके छोटे-अणु संरचना पुस्तकालयों को कुशलतापूर्वक उत्पन्न और क्यूरेट करना है।

Abstract

आणविक संरचनाओं की संपूर्ण पीढ़ी में कई रासायनिक और जैव रासायनिक अनुप्रयोग हैं जैसे कि दवा डिजाइन, आणविक डेटाबेस निर्माण, वैकल्पिक जैव रसायनों की खोज, और कई और अधिक। गणितीय रूप से बोलते हुए, ये रासायनिक बाधाओं के साथ ग्राफ जनरेटर हैं। क्षेत्र में, वर्तमान में सबसे कुशल जनरेटर (एमओएलजीईएन) एक वाणिज्यिक उत्पाद है, जो इसके उपयोग को सीमित करता है। इसके लिए वैकल्पिक, एक और आणविक संरचना जनरेटर, मेगेन, मोलजेन की तुलना में दक्षता के साथ एक हालिया ओपन-सोर्स टूल है और उपयोगकर्ताओं के लिए नई सुविधाओं को जोड़कर अपने प्रदर्शन को बढ़ाने की क्षमता है। अनुसंधान क्षेत्रों में से एक जो इस विकास से लाभ उठा सकता है वह खगोल जीव विज्ञान है; संरचना जनरेटर शोधकर्ताओं को वैकल्पिक जैव रसायन के लिए कम्प्यूटेशनल संभावनाओं के साथ प्रयोगात्मक डेटा को पूरक करने की अनुमति देते हैं। यह प्रोटोकॉल खगोल जीव विज्ञान में संरचना पीढ़ी के लिए एक उपयोग के मामले का विवरण देता है, अर्थात् अल्फा-एमिनो एसिड पुस्तकालयों की पीढ़ी और क्यूरेशन। ओपन-सोर्स संरचना जनरेटर और केमिनफोर्मेटिक्स टूल का उपयोग करके, यहां वर्णित प्रथाओं को किसी भी शोध प्रश्न के लिए रासायनिक संरचना पुस्तकालयों के कम लागत वाले निर्माण और क्यूरेशन के लिए खगोल जीव विज्ञान से परे लागू किया जा सकता है।

Introduction

आणविक संरचना पीढ़ी संपूर्ण ग्राफ पीढ़ी की सामान्य समस्या के व्यावहारिक अनुप्रयोग के रूप में कार्य करती है; कई नोड्स (परमाणु) और उनकी कनेक्टिविटी पर बाधाओं को देखते हुए (जैसे, वैलेंस, बॉन्ड बहुलता, वांछित/अवांछित उपसंरचनाएं), कितने जुड़े रेखांकन (अणु) संभव हैं? संरचना जनरेटर ने दवा की खोज और दवा विकास में व्यापक अनुप्रयोग देखा है, जहां वे सिलिको स्क्रीनिंग के लिए उपन्यास संरचनाओं के विशाल पुस्तकालय बना सकते हैं1.

पहला संरचना जनरेटर, कोनजेन, कार्बनिक रसायन विज्ञान में पहली कृत्रिम बुद्धिमत्ता परियोजना के लिए विकसित किया गया था, डीएनडीआरएल2 (डेंड्रिटिक एएलगोरिथम के लिए छोटा)। साहित्य में डेंड्राल के कई सॉफ्टवेयर उत्तराधिकारियों की सूचना दी गई थी; हालाँकि, उनमें से सभी को बनाए रखा या कुशल नहीं किया गया था। वर्तमान में,मोलजेन 3 अत्याधुनिक आणविक संरचना जनरेटर है। दुर्भाग्य से अधिकांश संभावित उपयोगकर्ताओं के लिए, यह बंद स्रोत है और लाइसेंस शुल्क की आवश्यकता होती है। इस प्रकार, एक कुशल ओपन-सोर्स संरचना जनरेटर की आवश्यकता है जो आसानी से विशिष्ट अनुप्रयोगों के अनुकूल हो सके। एक कुशल संरचना जनरेटर के लिए एक चुनौती संयोजन विस्फोट का प्रबंधन कर रही है; जैसे-जैसे आणविक सूत्र का आकार बढ़ता है, रासायनिक खोज स्थान का आकार तेजी से बढ़ता है। एक हालिया समीक्षा आगे आणविक संरचना पीढ़ी 4 के इतिहास और चुनौतियों कीपड़ताल करती है

2021 से पहले, समानांतर अणु जनरेटर (पीएमजी) 5 सबसे तेज़ ओपन-सोर्स संरचना जनरेटर था, लेकिन यह अभी भी परिमाण के आदेशों से एमओएलजीईएन की तुलना में धीमा था। मेजेन6 पीएमजी की तुलना में लगभग 47 गुना तेज है और मोलजेन की तुलना में लगभग 3 गुना धीमा है, जिससे मेजेन सबसे तेज़ और सबसे कुशल ओपन-सोर्स संरचना जनरेटर उपलब्ध है। अधिक विस्तृत तुलना और बेंचमार्किंग परीक्षण मेजेन6 को पेश करने वाले पेपर में पाए जा सकते हैं। कार्यक्रम की एक प्रमुख विशेषता विहित संरचनाओं के लिए इसका लेक्सिकोग्राफिकल ऑर्डरिंग-आधारित परीक्षण है, जो श्रियर-सिम्स7 एल्गोरिथ्म पर आधारित एक व्यवस्थित ग्राफ-पीढ़ी विधि है। सॉफ्टवेयर को आसानी से अन्य परियोजनाओं में एकीकृत किया जा सकता है और उपयोगकर्ताओं की जरूरतों के लिए बढ़ाया जा सकता है।

मोलजेन और पीएमजी की तरह, मेगेन एक उपयोगकर्ता-परिभाषित आणविक सूत्र लेता है और उस सूत्र के लिए संभव सभी संरचनाएं उत्पन्न करता है। उदाहरण के लिए, यदि कोई उपयोगकर्ता सूत्र सी5एच12 के साथ मेजेन चलाता है, तो मेगेन पांच कार्बन परमाणुओं और बारह हाइड्रोजन परमाणुओं से युक्त सभी संभावित संरचनाओं को उत्पन्न करेगा। अपने ओपन-सोर्स समकक्ष पीएमजी के विपरीत, मेगेन "फजी" आणविक सूत्रों को भी समायोजित कर सकता है जो प्रत्येक तत्व की गिनती के लिए असतत संख्याओं के बजाय अंतराल का उपयोग करते हैं। उदाहरण के लिए, यदि कोई उपयोगकर्ता सूत्र सी5-7 एच12-15 के साथ मेजेन चलाता है, तो मेजेन सभी संभावित संरचनाओं को उत्पन्न करेगा जिसमें पांच और सात कार्बन परमाणु और बारह और पंद्रह हाइड्रोजन परमाणु होते हैं, जिससे परमाणु रचनाओं की एक विस्तृत श्रृंखला के साथ संरचनाओं की सरल पीढ़ी की अनुमति मिलती है।

एस्ट्रोबायोलॉजी एक ऐसा क्षेत्र है जो आणविक संरचना जनरेटर से लाभ उठा सकता है। खगोल जीव विज्ञान में एक लोकप्रिय विषय पृथ्वी पर सभी मौजूदा जीवन द्वारा साझा अमीनो एसिड वर्णमाला का विकास है। लास्ट यूनिवर्सल कॉमन पूर्वज (एलयूसीए) की परिभाषित विशेषताओं में से एक प्रोटीन निर्माण 8,9 के लिए बीस आनुवंशिक रूप से कोडित अमीनो एसिड का उपयोग है। कई क्षेत्रों में काम के मेटा-विश्लेषण के आधार पर 10,11,12, इनमें से लगभग 10 अमीनो एसिड (ग्ली, अला, वैल, एएसपी, ग्लू, सेर, थ्र, ल्यू, इले, प्रो) अजैविक परिस्थितियों में आसानी से बनते हैं और संभवतः पूर्व-लुका जीवों के अमीनो एसिड वर्णमाला बनाते हैं। समय के साथ, विभिन्न संरचनात्मक और कार्यात्मक आवश्यकताओं के जवाब में इस "प्रारंभिक" वर्णमाला का विस्तार किया गया था। उदाहरण के लिए, मूसमैन13 की एक हालिया समीक्षा का दावा है कि आनुवंशिक रूप से कोडित अमीनो एसिड (अर्थात् मेट, टायर और टीआरपी) के हालिया सदस्यों के अलावा प्रतिक्रियाशील ऑक्सीजन प्रजातियों के इंट्रासेल्युलर प्रसार को रोककर ऑक्सीजन समृद्ध वातावरण में जीवित रहने की अनुमति दी गई है।

विश्लेषणात्मक रसायन विज्ञान तकनीकों का एक बढ़ता हुआ सूट अमीनो एसिड संरचनाओं में अंतर्दृष्टि की अनुमति देता है जो अजैविक परिस्थितियों में बन सकते हैं। सिमकस और अन्य लोगों द्वारा हाल ही में की गई समीक्षा14 उल्कापिंडों में कई कार्बनिक यौगिकों का पता लगाने के लिए उपयोग की जाने वाली विधियों का विवरण देती है, साथ ही प्रारंभिक पृथ्वी वातावरण15,16,17 के इन विट्रो सिमुलेशन से कार्बनिक यौगिकों का भी विवरण देती है। रासायनिक संरचनाओं की व्यवस्थित पीढ़ी शोधकर्ताओं को इंस्ट्रूमेंटेशन के माध्यम से पता लगाए गए कार्बनिक यौगिकों से परे पता लगाने की अनुमति देती है, विश्लेषणात्मक रसायन विज्ञान द्वारा पहचाने गए संरचनात्मक "द्वीपों" के आसपास संरचनात्मक स्थान को आबाद करती है। "प्रारंभिक" अमीनो एसिड के मामले में, यह व्यवस्थित संरचना पीढ़ी उन संरचनाओं की खोज को सीमित किए बिना प्रारंभिक जीवन के लिए उपलब्ध संभावित प्रोटीन रसायन विज्ञान दिखाती है जिन्हें अजैविक संश्लेषण स्थितियों के तहत प्रयोगात्मक रूप से पता लगाया गया है। ओपन-सोर्स केमिनफॉरेटिक्स टूलकिट और मेजेन जैसे कुशल संरचना जनरेटर के साथ, उपन्यास रासायनिक संरचना पुस्तकालयों का निर्माण और अन्वेषण अब पहले से कहीं अधिक आसान है और जीवन के वैकल्पिक रसायन विज्ञान में अधिक विस्तृत जांच का मार्गदर्शन कर सकता है।

Protocol

नोट: उपयोग किए गए सॉफ़्टवेयर के बारे में विवरण के लिए प्रोटोकॉल और सामग्री की तालिका के सारांश के लिए चित्रा 1 देखें।

Figure 1
चित्र 1: प्रोटोकॉल का सारांश फ़्लोचार्ट। कृपया इस आकृति का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

1. सॉफ्टवेयर और फ़ाइल डाउनलोड

नोट: सभी प्रोग्राम व्यक्तिगत उपयोग के लिए स्वतंत्र हैं और व्यक्तिगत कंप्यूटर पर चलाए जा सकते हैं।

  1. इस प्रोजेक्ट के लिए कोई नई निर्देशिका बनाएँ। आसान पहुंच के लिए फ़ाइलों और निष्पादन योग्य को यहां रखें।
  2. डाउनलोड करें और आवश्यक सॉफ़्टवेयर पैकेज स्थापित करें।
    1. एक .jar फ़ाइल के रूप में MEGEN के नवीनतम संस्करण को डाउनलोड करें।
      नोट: मेजेन स्वतंत्र रूप से https://github.com/MehmetAzizYirik/MAYGEN/releases से एक .jar फ़ाइल के रूप में उपलब्ध है
    2. पैकेज प्रबंधन सॉफ्टवेयर कोंडा और केमिनफॉर्मेटिक्स टूलकिट आरडीकिट18 डाउनलोड और इंस्टॉल करें।
      नोट: आरडीकिट मेजेन द्वारा उत्पादित आणविक संरचनाओं को फ़िल्टर करेगा और कोंडा वातावरण में सबसे अच्छा चलेगा। कोंडा प्लेटफ़ॉर्म डाउनलोड करने के निर्देश https://conda.io/projects/conda/en/latest/user-guide/install/index.html पर पाए जा सकते हैं। आरडीकिट इंस्टॉलेशन और पर्यावरण सेटअप निर्देश https://www.rdkit.org/docs/Install.html पर पाए जा सकते हैं।
      1. एनाकोंडा प्रॉम्प्ट के माध्यम से एक अलग आरडीकिट वातावरण के बजाय मुख्य कोंडा वातावरण में आरडीकिट स्थापित करें। विंडोज सिस्टम पर, "एनाकोंडा प्रॉम्प्ट" खोजें और चलाने के लिए परिणामी शॉर्टकट पर क्लिक करें। मैकओएस और लिनक्स सिस्टम पर, बिना किसी अतिरिक्त प्रोग्राम चलाए टर्मिनल के माध्यम से कोंडा के साथ बातचीत करें। अगला, निम्न कमांड टाइप करें और चलाने के लिए एंटर दबाएं, और इंस्टॉलेशन के दौरान आने वाले किसी भी प्रश्न का उत्तर हां दें:
        कोंडा स्थापित करें -सी आरडीकिट आरडीकिट।
        जबकि कई स्वतंत्र रूप से उपलब्ध वर्णनकर्ता गणना कार्यक्रम हैं, यह उदाहरण पीएडीएल-डिस्क्रिप्टर19 का उपयोग करता है, जो आणविक वर्णनकर्ताओं और उंगलियों के निशान के लिए एक स्वतंत्र और तेज़ कैलकुलेटर है।
    3. डाउनलोड करें और प्रोजेक्ट फ़ोल्डर में .jar फ़ाइल सहेजें।
      नोट: पाडेल-डिस्क्रिप्टर को http://www.yapcwsoft.com/dd/padeldescriptor/ से मुफ्त में डाउनलोड किया जा सकता है।
  3. पूरक फ़ाइलें 1-5 से सबस्ट्रक्चर पैटर्न की जुपिटर नोटबुक और टेक्स्ट फ़ाइलें डाउनलोड करें।
    नोट: जुपिटर नोटबुक को निम्नलिखित गिटहब पृष्ठ से भी डाउनलोड किया जा सकता है: https://github.com/cmayerb1/AA-structure-manip।

2. मेजेन का उपयोग करके संरचना पीढ़ी

  1. कमांड प्रॉम्प्ट में, मेजेन .jar निष्पादन योग्य फ़ाइल वाली निर्देशिका पर नेविगेट करें।
  2. ब्याज के प्रत्येक रासायनिक सूत्र के लिए, निम्न कमांड का उपयोग करके मेजेन चलाएं:
    जावा -जार [मेजेन .jar फ़ाइल नाम] -एफ [रासायनिक सूत्र] -वी -ओ [मेजेन आउटपुट के लिए फ़ोल्डर] -एम -एसडीएफ।
    नोट:: यह उपयोग किए गए सूत्र के नाम पर निर्दिष्ट फ़ोल्डर में एक .sdf फ़ाइल को सहेजेगा।
    1. यदि सूत्र असतत सूत्र के बजाय एक फजी सूत्र है, तो -एफ ध्वज को -फजी ध्वज के साथ बदलें, और कोष्ठक में किसी भी तत्व अंतराल को संलग्न करें (उदाहरण के लिए, सी [5-7] एच [12-15] का उपयोग करें ताकि यह सुनिश्चित किया जा सके कि उत्पन्न सभी संरचनाओं में 5 और 7 कार्बन परमाणुओं के बीच और 12 और 15 हाइड्रोजन परमाणुओं के बीच है)।

3. अवांछित उपसंरचनाओं के साथ यौगिकों को फ़िल्टर करें

  1. एक एनाकोंडा प्रॉम्प्ट खोलें (चरण 1.2.2.1 देखें) और पूरक फ़ाइल 1 से डाउनलोड किए गए जुपिटर नोटबुक वाले फ़ोल्डर पर नेविगेट करें।
  2. निम्न आदेश का उपयोग करके सबस्ट्रक्चर फ़िल्टरिंग के लिए जुपिटर नोटबुक खोलें:
    जपीटर नोटबुक [नोटबुक फ़ाइल नाम]
  3. नोटबुक की शुरुआत में निर्दिष्ट सेल में, इनपुट .sdf फ़ाइल (MEGEN द्वारा जनरेट किया गया), वांछित .sdf आउटपुट फ़ाइल का पूर्ण फ़ाइल पथ, और स्ट्रिंग्स (उद्धरणों के भीतर) के रूप में "बैडलिस्ट" फ़ाइल का फ़ाइल पथ दर्ज करें। एक बैडलिस्ट के उदाहरण के लिए पूरक फ़ाइल 2 देखें।
    1. यदि फ़िल्टर की गई लाइब्रेरी (एक गुडलिस्ट) में कुछ सबस्ट्रक्चर बनाए रखना है, तो उन सबस्ट्रक्चर (एक गुडलिस्ट) के लिए स्मार्ट्स पैटर्न20 की एक .txt फ़ाइल बनाएं और नोटबुक की शुरुआत में निर्दिष्ट लाइन में गुडलिस्ट फ़ाइल पथ डालें। गुडलिस्ट के उदाहरण के लिए पूरक फ़ाइल 3 देखें।
  4. नोटबुक कर्नेल को पुनरारंभ करें और निर्दिष्ट आउटपुट फ़ोल्डर में वांछित नाम के साथ एक .sdf फ़ाइल प्राप्त करने के लिए सभी कक्षों (शीर्ष पर मेनू से , कर्नेल, पुनरारंभ करें और सभी चलाएं का चयन करें) चलाएं
  5. चरण 2 में MEGEN द्वारा जनरेट की गई प्रत्येक संरचना फ़ाइल के लिए पिछले दो चरणों को दोहराएँ।

4. (वैकल्पिक) अतिरिक्त संरचना संशोधन

नोट:: ये इस उदाहरण में किए जाते हैं लेकिन अन्य पुस्तकालयों को क्यूरेट करने के लिए आवश्यक नहीं हो सकता है।

  1. स्यूडोएटम प्रतिस्थापन।
    नोट: यहां, एक स्यूडोएटम एक अद्वितीय परमाणु है जिसका उपयोग सभी उत्पन्न संरचनाओं द्वारा साझा की गई एक बड़ी उपसंरचना का प्रतिनिधित्व करने के लिए किया जाता है, इस प्रकार मेजेन के पीढ़ी के समय को कम करता है। स्यूडोटॉम प्रतिस्थापन के उदाहरण के लिए पूरक फ़ाइल 4 देखें।
    1. एनाकोंडा प्रॉम्प्ट खोलें (चरण 1.2.2.1 देखें) और जुपिटर नोटबुक वाले फ़ोल्डर पर नेविगेट करें।
    2. स्यूडोएटम प्रतिस्थापन के लिए जुपिटर नोटबुक खोलें:
      जपीटर नोटबुक [नोटबुक फ़ाइल नाम]
    3. नोटबुक की शुरुआत में निर्दिष्ट सेल में, इनपुट .sdf फ़ाइल का पूर्ण फ़ाइल पथ और वांछित .sdf आउटपुट फ़ाइल का पूर्ण फ़ाइल पथ स्ट्रिंग्स (उद्धरणों के भीतर) के रूप में दर्ज करें।
    4. नोटबुक कर्नेल को पुनरारंभ करें और निर्दिष्ट आउटपुट फ़ोल्डर में वांछित नाम के साथ एक .sdf फ़ाइल प्राप्त करने के लिए सभी कक्षों को चलाएं।
  2. अमीनो एसिड एन- और सी-टर्मिनी कैपिंग
    नोट: यह प्रक्रिया अल्फा-एमिनो एसिड के लिए विशिष्ट है, अल्फा-एमिनो एसिड रीढ़ की हड्डी के एन- और सी-टर्मिनी में आणविक कैप्स जोड़ती है। अमीनो एसिड कैपिंग के उदाहरण के लिए पूरक फ़ाइल 5 देखें।
    1. एनाकोंडा प्रॉम्प्ट खोलें (चरण 1.2.2.1 देखें) और जुपिटर नोटबुक वाले फ़ोल्डर पर नेविगेट करें।
    2. अमीनो एसिड कैपिंग के लिए जुपिटर नोटबुक खोलें:
      जपीटर नोटबुक [नोटबुक फ़ाइल नाम]
    3. नोटबुक की शुरुआत में निर्दिष्ट सेल में, इनपुट .sdf फ़ाइल का पूर्ण फ़ाइल पथ और वांछित .sdf आउटपुट फ़ाइल का पूर्ण फ़ाइल पथ स्ट्रिंग्स (उद्धरणों के भीतर) के रूप में दर्ज करें।
    4. नोटबुक कर्नेल को पुनरारंभ करें और निर्दिष्ट आउटपुट फ़ोल्डर में वांछित नाम के साथ एक .sdf फ़ाइल प्राप्त करने के लिए सभी कक्षों को चलाएं।

5. वर्णनकर्ता पीढ़ी

  1. वर्णनकर्ता पीढ़ी से पहले, उन सभी फ़ाइलों .sdf रखें जिनके लिए वर्णनकर्ताओं की गणना एक फ़ोल्डर में की जानी है।
    नोट: यदि पहले से नहीं किया गया है, तो इन फ़ाइलों को वर्णनकर्ता पीढ़ी के बाद आसान फ़िल्टरिंग के लिए वर्णनात्मक नाम दें।
  2. कमांड प्रॉम्प्ट खोलें, और PADEL-डिस्क्रिप्टर .jar फ़ाइल वाले फ़ोल्डर पर नेविगेट करें।
  3. निम्न आदेश का उपयोग कर एकत्रित .sdf फ़ाइलों के लिए PADEL-डिस्क्रिप्टर चलाएँ:
    जावा -जार PADEL-वर्णनकर्ता.jar -diir [.sdf फ़ाइलों की निर्देशिका] -फ़ाइल [परिणामों के लिए एक .csv फ़ाइल का फ़ाइल पथ] -2 डी -रिटेनरऑर्डर -यूज़फिलेनाम
    नोट: परिणाम फ़ाइल में पहले कॉलम में अणु नाम और बाद के कॉलम में प्रत्येक डिस्क्रिप्टर होगा।
  4. आगे के विश्लेषण के लिए इन डेटा को किसी भी स्प्रेडशीट सॉफ़्टवेयर में निर्यात करें।

Representative Results

पुस्तकालय नियम अतिरिक्त बाधाएं "प्रारंभिक" कोडित अमीनो एसिड पीढ़ी का समय (एमएस) संरचनाओं
प्रारंभिक आखिरी
1 ग्ली. सी2एच5नहीं2 ग्ली सबस्ट्रक्चर शामिल करें ग्ली. 192 84 1
2 वैल पीसी0-3एच3-9 वैल, अला, इले, ल्यू 172 70 22
3 डीईएसटी पीसी0-3हे1-2एच3-5 एएसपी, ग्लू, सेर, थ्र 481 1928 254
4 प्रो सी2-5नहीं2एच7-11 एन-मेग्ली या एन-मेला सबस्ट्रक्चर शामिल करें प्रो 4035 79777 16
5 VAIL_S पीएससी0-2एच3-7 122 65 31
6 DEST_S पीएससी0-21-2एच3 349 1075 79
7 Pro_S सी2-4एसएनओ2एच7-9 एन-मेग्ली या एन-मेला सबस्ट्रक्चर शामिल करें 3999 75734 10

तालिका 1: इस उदाहरण में उपयोग की जाने वाली यौगिक पुस्तकालय। सूत्र 1-4 (ग्लाइ, वीएआईएल, डीईएसटी और प्रो) से निर्मित पुस्तकालय "प्रारंभिक" कोडित अमीनो एसिड21 के पहले प्रकाशित फजी सूत्रों पर आधारित हैं, जबकि सूत्र 5-7 (VAIL_S, DEST_S और Pro_S) से निर्मित पुस्तकालय सूत्र 2-4 के वेरिएंट पर आधारित हैं जो कार्बन परमाणुओं में से एक की जगह एक द्विभाजक सल्फर की कल्पना करते हैं। संरचना गणना प्रत्येक सूत्र ("प्रारंभिक") के लिए मेजेन द्वारा उत्पन्न अणुओं की संख्या और अवांछित उपसंरचनाओं ("अंतिम") वाले लोगों को फ़िल्टर करने के बाद शेष अणुओं की संख्या को दर्शाती है। संक्षिप्त नाम: वैल = वैलिन, एलानिन, आइसोल्यूसीन, ल्यूसीन; डीईएसटी = एसपारटिक एसिड, ग्लूटामिक एसिड, सेरीन, थ्रेओनीन; X_S = डाइवलेंट सल्फर लाइब्रेरी एक्स में कार्बन में से एक को प्रतिस्थापित करता है; एन-मेक्स = एन-मिथाइलएक्स।

उपरोक्त सामान्य तरीकों को "प्रारंभिक" कोडित अमीनो एसिड के आधार पर सूत्रों पर लागू किया गया था, मेरिंजर एट अल की प्रक्रिया के बाद 21 बैडलिस्ट संरचनाओं को इसी स्रोत से लिया गया था और आसानी से उपसंरचनात्मक पैटर्न का प्रतिनिधित्व करने के लिए स्मार्ट्स स्ट्रिंग्स में परिवर्तित किया गया था। इस उदाहरण में दो बैडलिस्ट सबस्ट्रक्चर का उपयोग नहीं किया गया था: संरचना 018 (सीएच 3-सीएच-एन) प्रोलाइन के निकट-आइसोमर्स से मेल खाती है जो स्वयं अस्थिर नहीं थे; संरचना 106 (आर-सी-सी-ओएच, जहां बीटा-कार्बन पर संलग्न आर = एलानिन सबस्ट्रक्चर) ग्लूटामिक एसिड, एक कोडित अमीनो एसिड से मेल खाता है। इन रासायनिक सूत्रों के अलावा, एक कार्बन परमाणु और दो हाइड्रोजन परमाणुओं की जगह लेने वाले डाइवलेंट सल्फर के साथ वेरिएंट बनाए गए थे। प्रदर्शन कारणों से, इनमें से कई सूत्र एक अलैनिन उपसंरचना के बीटा-कार्बन के विकल्प के रूप में एक त्रिसंयोजक फास्फोरस परमाणु (जैसे, एक "स्यूडोएटम") का उपयोग करते हैं। तालिका 1 इस उदाहरण में उत्पन्न पुस्तकालयों, उन्हें उत्पन्न करने के लिए उपयोग किए जाने वाले सूत्रों और भीतर निहित यौगिकों की संख्या को सूचीबद्ध करती है। लाइब्रेरी नाम कोडित अमीनो एसिड पर आधारित होते हैं जिनसे वे व्युत्पन्न होते हैं: या तो 3-अक्षर संक्षिप्त नाम (ग्लाइ = ग्लाइसिन, प्रो = प्रोलाइन) या एकल-अक्षर संक्षिप्त नाम (वैल = वैलिन, एलानिन, आइसोल्यूसीन, ल्यूसीन; डीईएसटी = एसपारटिक एसिड, ग्लूटामिक एसिड, सेरीन, थ्रेओनीन)। "_S" प्रत्यय इंगित करता है कि मूल पुस्तकालय के सूत्र में कार्बन के लिए एक सल्फर को प्रतिस्थापित किया गया था (उदाहरण के लिए, VAIL_S को वीएआईएल के समान अस्पष्ट सूत्र के साथ बनाया गया है, लेकिन कार्बन में से एक की जगह एक द्विभाजक सल्फर के साथ)।

मेगेन के साथ संरचना पीढ़ी के बाद, परिणामस्वरूप पुस्तकालयों को उन यौगिकों से फ़िल्टर किया गया था जिनमें बैडलिस्ट में निहित कम से कम एक उप-संरचना थी। इस फ़िल्टरिंग के बाद, किसी भी फास्फोरस परमाणुओं को एक एलानिन उपसंरचना के साथ बदल दिया गया था। इसके बाद, सभी संरचनाओं के "कैप्ड" संस्करण बनाए गए थे, जिसमें एन-टर्मिनस में एक एसिटाइल समूह जोड़ा गया था और एक एन-मिथाइल एमाइड समूह को सी-टर्मिनस में जोड़ा गया था। यह अल्फा-एमिनो एसिड रीढ़ की हड्डी में मुक्त अमाइन और कार्बोक्जिलिक एसिड समूहों की हाइड्रोफोबिसिटी पर प्रभाव को हटाने के लिए किया गया था। पीएडीईएल-डिस्क्रिप्टर का उपयोग सभी कैप्ड संरचनाओं के लिए एक्सएलओजीपी की गणना करने के लिए किया गया था और सभी अनकैप्ड संरचनाओं के लिए वैन डेर वाल्स वॉल्यूम (वीएबीसी) की गणना की गई थी।

चित्रा 2 फ़िल्टर किए गए पुस्तकालयों के रासायनिक स्थान को दर्शाता है, जैसा कि वीएबीसी और एक्सएलओजीपी वर्णनकर्ताओं द्वारा परिभाषित किया गया है। यहां, संभावित लॉगपी मूल्यों की सीमा आणविक मात्रा के साथ बढ़ जाती है, यहां तक कि पुस्तकालयों के भीतर भी जिनमें स्पष्ट रूप से हाइड्रोफिलिक साइडचेन (जैसे, वीएआईएल, प्रो) की कमी होती है। हाइड्रोकार्बन साइडचेन के साथ कोडित अमीनो एसिड अपने संबंधित पुस्तकालय से तुलनीय मात्रा के अधिकांश अन्य अमीनो एसिड की तुलना में अधिक हाइड्रोफोबिक थे। यह समान संस्करणों के साथ VAIL_S लाइब्रेरी के अन्य सदस्यों की तुलना में मेट और सिस के लिए भी प्रतीत होता है। हाइड्रॉक्सिल साइड चेन (सेर और थ्र) के साथ कोडित अमीनो एसिड डीईएसटी लाइब्रेरी के सबसे छोटे सदस्यों में से थे, एएसपी केवल थ्र से थोड़ा बड़ा था।

चित्रा 3 और चित्रा 4 मात्रा और लॉगपी पर प्रभाव दिखाते हैं जब एक द्विसंयोजक सल्फर अल्फा-एमिनो एसिड साइड चेन में कार्बन की जगह लेता है। सल्फर प्रतिस्थापन सभी पुस्तकालयों (चित्रा 3) में आणविक मात्रा में मामूली वृद्धि के लिए नेतृत्व किया। लॉगपी पर सल्फर प्रतिस्थापन का प्रभाव मात्रा (चित्रा 4) के लिए समरूप नहीं है। VAIL_S लाइब्रेरी का औसत लॉगपी वीएआईएल लाइब्रेरी की तुलना में थोड़ा कम है, लेकिन यह प्रभाव अन्य लाइब्रेरी जोड़े (डीईएसटी और DEST_S, प्रो और Pro_S) में से किसी में भी नहीं देखा जाता है।

चित्रा 5 एक आम उपसंरचना के लिए खड़े एक स्यूडोएटम की संरचना पीढ़ी पर प्रभाव को मापता है; यहां, संरचना पीढ़ी के दौरान एक एलानिन मॉइटी के लिए प्रतिस्थापित एक त्रिसंयोजक पी। संरचना पीढ़ी में एक स्यूडोएटम का उपयोग करने से परिमाण के ~ 3 आदेशों (चित्रा 5 ए) द्वारा उत्पन्न संरचनाओं की संख्या में बहुत कमी आई है और परिमाण के 1-2 आदेशों (चित्रा 5 बी) द्वारा उन संरचनाओं को उत्पन्न करने के लिए आवश्यक कुल समय।

Figure 2
चित्रा 2: सभी फ़िल्टर किए गए अमीनो एसिड पुस्तकालयों का रासायनिक स्थान। काले मार्कर सल्फर के बिना पुस्तकालयों से अमीनो एसिड का प्रतिनिधित्व करते हैं; पीले मार्कर सल्फर समृद्ध पुस्तकालयों से अमीनो एसिड का प्रतिनिधित्व करते हैं। हलकों: वैल और VAIL_S; वर्ग: डीईएसटी और DEST_S; त्रिकोण: प्रो और Pro_S; तारे: कोडित अमीनो एसिड। ध्यान दें कि दो सल्फर युक्त कोडित अमीनो एसिड (मेट और सिस) को "प्रारंभिक" अमीनो एसिड नहीं माना जाता है, लेकिन VAIL_S लाइब्रेरी में मौजूद हैं। संक्षिप्त नाम: एक्सएलओजीपी = विभाजन गुणांक; वैल = वैलिन, एलानिन, आइसोल्यूसीन, ल्यूसीन; डीईएसटी = एसपारटिक एसिड, ग्लूटामिक एसिड, सेरीन, थ्रेओनीन; X_S = डाइवलेंट सल्फर लाइब्रेरी एक्स में कार्बन में से एक को प्रतिस्थापित करता है। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहां क्लिक करें।

Figure 3
चित्रा 3: सल्फर के साथ और बिना पुस्तकालयों के वैन डेर वाल्स वॉल्यूम (ए3 में) का मतलब है। काली सलाखों सल्फर (वीएआईएल, डीईएसटी, प्रो) के बिना पुस्तकालयों की औसत मात्रा का प्रतिनिधित्व करते हैं, जबकि पीले रंग की सलाखें उन पुस्तकालयों (VAIL_S, DEST_S, Pro_S) के सल्फर-प्रतिस्थापित संस्करणों के औसत संस्करणों का प्रतिनिधित्व करती हैं। त्रुटि पट्टियाँ मानक विचलन दिखाती हैं. संक्षिप्त नाम: वैल = वैलिन, एलानिन, आइसोल्यूसीन, ल्यूसीन; डीईएसटी = एसपारटिक एसिड, ग्लूटामिक एसिड, सेरीन, थ्रेओनीन; X_S = डाइवलेंट सल्फर लाइब्रेरी एक्स में कार्बन में से एक को प्रतिस्थापित करता है। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहां क्लिक करें।

Figure 4
चित्रा 4: सल्फर के साथ और बिना पुस्तकालयों के एक्सएलओजीपी मूल्यों का मतलब है। ब्लैक बार सल्फर (वीएआईएल, डीईएसटी, प्रो) के बिना पुस्तकालयों का प्रतिनिधित्व करते हैं, जबकि पीले रंग की सलाखें उन पुस्तकालयों (VAIL_S, DEST_S, Pro_S) के सल्फर-प्रतिस्थापित संस्करणों का प्रतिनिधित्व करती हैं। त्रुटि पट्टियाँ मानक विचलन दिखाती हैं. संक्षिप्त नाम: एक्सएलओजीपी = विभाजन गुणांक; वैल = वैलिन, एलानिन, आइसोल्यूसीन, ल्यूसीन; डीईएसटी = एसपारटिक एसिड, ग्लूटामिक एसिड, सेरीन, थ्रेओनीन; X_S = डाइवलेंट सल्फर लाइब्रेरी एक्स में कार्बन में से एक को प्रतिस्थापित करता है। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहां क्लिक करें।

Figure 5
चित्रा 5: मेजेन संरचना पीढ़ी पर एक त्रिसंयोजक स्यूडोएटम के प्रभाव। सभी परीक्षण 2.8 गीगाहर्ट्ज़ पर इंटेल आई 7-7700 एचक्यू प्रोसेसर, 16 जीबी रैम, फ़ाइल में कोई बचत संरचना नहीं, और मल्टीथ्रेडिंग का उपयोग करने के लिए -एम विकल्प के साथ पीसी पर किए गए थे। स्यूडोएटम का उपयोग करके परीक्षणों ने तालिका 1 में वर्णित फजी सूत्रों का उपयोग किया। स्यूडोएटम के बिना परीक्षणों के लिए, उपयोग किए गए फजी सूत्र निम्नलिखित परिवर्तनों के साथ तालिका 1 में वर्णित समान थे: पी को एन के साथ बदल दिया गया था; कार्बन की गिनती में 3 की वृद्धि हुई; हाइड्रोजन की गिनती में 7 की वृद्धि हुई; ऑक्सीजन की संख्या में 2 की वृद्धि हुई। ब्लैक बार एक स्यूडोएटम के साथ उत्पन्न पुस्तकालयों को दिखाते हैं; ग्रे बार एक स्यूडोटॉम के बिना उत्पन्न पुस्तकालयों को दिखाते हैं। (ए) एक एलानिन सबस्ट्रक्चर के लिए प्रतिस्थापन त्रिसंयोजक फास्फोरस के साथ और बिना वीएआईएल और डीईएसटी पुस्तकालयों के निर्माण के लिए उपयोग किए जाने वाले फजी सूत्रों का उपयोग करके उत्पन्न संरचनाओं की संख्या। (बी) समय (एमएस में) एक एलानिन उपसंरचना के लिए प्रतिस्थापन त्रिसंयोजक फास्फोरस के साथ और बिना वीएआईएल और डीईएसटी पुस्तकालयों का निर्माण करने के लिए आवश्यक है। संक्षिप्त नाम: वैल = वैलिन, एलानिन, आइसोल्यूसीन, ल्यूसीन; डीईएसटी = एसपारटिक एसिड, ग्लूटामिक एसिड, सेरीन, थ्रेओनीन। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहां क्लिक करें।

पूरक फ़ाइल 1: सबस्ट्रक्चर स्क्रीनिंग नोटबुक। कृपया इस फ़ाइल को डाउनलोड करने के लिए यहाँ क्लिक करें.

पूरक फ़ाइल 2: नमूना खराब सूची. कृपया इस फ़ाइल को डाउनलोड करने के लिए यहाँ क्लिक करें.

पूरक फ़ाइल 3: नमूना गुडलिस्ट। कृपया इस फ़ाइल को डाउनलोड करने के लिए यहाँ क्लिक करें.

पूरक फ़ाइल 4: स्यूडोएटम प्रतिस्थापन नोटबुक। कृपया इस फ़ाइल को डाउनलोड करने के लिए यहाँ क्लिक करें.

पूरक फ़ाइल 5: एमिनो एसिड कैपिंग नोटबुक। कृपया इस फ़ाइल को डाउनलोड करने के लिए यहाँ क्लिक करें.

Discussion

"प्रारंभिक" अमीनो एसिड की एक विशेषता सल्फर की कमी है। पहले उल्लिखित मेटा-विश्लेषण आम तौर पर सल्फर युक्त कोडित अमीनो एसिड (सिस और मेट) को आनुवंशिक कोड में अपेक्षाकृत देर से जोड़ते हैं, उल्कापिंडों और स्पार्क ट्यूब प्रयोगों में सल्फर युक्त अमीनो एसिड की कमी से समर्थित निष्कर्ष। हालांकि, धूमकेतु और उल्कापिंड22 में ऑर्गेनोसल्फर यौगिकों का आसानी से पता लगाया जाता है, और एच2एस गैस का उपयोग करके स्पार्क ट्यूब प्रयोगों के पुनर्विश्लेषण में अमीनो एसिड और सल्फर16 युक्त अन्य कार्बनिक यौगिक पाए जाते हैं। वैकल्पिक अमीनो एसिड वर्णमाला पर विचार करते समय, सल्फर में समृद्ध एक खोज के लायक है।

उपरोक्त प्रोटोकॉल में, संरचना पीढ़ी और उपसंरचना फ़िल्टरिंग को महत्वपूर्ण कदम माना जाता है; तैयार संरचना पुस्तकालय की संरचना के आधार पर, एक शोधकर्ता को केवल उन दो चरणों को करने की आवश्यकता हो सकती है। अतिरिक्त कार्यों के लिए निर्देश और सॉफ्टवेयर (स्यूडोटॉम प्रतिस्थापन और उपसंरचनाओं के अलावा (इस मामले में, एमिनो एसिड कैपिंग)) अधिक प्रासंगिक वर्णनकर्ता गणना के लिए शामिल हैं (कैपिंग यह सुनिश्चित करता है कि एक्सएलओजीपी गणना साइडचेन से प्रभावित होती है न कि रीढ़ की हड्डी अमीन या कार्बोक्सिल समूह) और एक स्यूडोएटम के उपयोग के माध्यम से तेजी से संरचना पीढ़ी, जिसकी चर्चा नीचे अधिक विस्तार से की गई है। इसके अतिरिक्त, वर्णनकर्ता गणना उत्पन्न संरचनाओं की विविधता की कल्पना करने और तैयार पुस्तकालयों में सल्फर संवर्धन के प्रभावों की तुलना करने के एक आसान तरीके के रूप में यहां की जाती है।

जबकि पीएडीईएल-डिस्क्रिप्टर हजारों आणविक गुणों की गणना कर सकता है, आणविक मात्रा (गणना वैन डेर वाल्स वॉल्यूम के रूप में) और विभाजन गुणांक (एक्सएलओजीपी के रूप में) का उपयोग यहां दो अलग-अलग कारणों से किया गया था। सबसे पहले, ये दो वर्णनकर्ता आणविक गुणों (आकार और हाइड्रोफोबिसिटी, क्रमशः) को मापते हैं जो अधिकांश रसायनज्ञों और जीवविज्ञानियों से परिचित हैं। दूसरा, अमीनो एसिड के मामले में, ये दो गुण महत्वपूर्ण हैं। दशकों से, अमीनो एसिड आकार और हाइड्रोफोबिसिटी प्रोटीन तह23 के थर्मोडायनामिक्स को प्रभावित करने के लिए जाने जाते थे। ये दो गुण अमीनो एसिड प्रतिस्थापन आवृत्तियों को समझाने में मदद करते हैं जो प्रोटीन विकास को समझने के लिए अभिन्न अंग रहेहैं 24.

उपरोक्त उदाहरण से पता चलता है कि, अध्ययन किए गए दो वर्णनकर्ताओं (आणविक मात्रा और हाइड्रोफोबिसिटी) में, कार्बन और दो हाइड्रोजन के लिए एक द्विभाजक सल्फर को प्रतिस्थापित करने से महत्वपूर्ण परिवर्तन नहीं होते हैं। सल्फर प्रतिस्थापन (चित्रा 3) से औसत आणविक मात्रा में मामूली, महत्वहीन वृद्धि को सल्फर के बड़े सहसंयोजक त्रिज्या (~ 103 बजे) के लिए जिम्मेदार ठहराया जा सकता है, या तो एसपी3 (~ 75 बजे) या एसपी2 (~ 73 बजे) कार्बन25 की तुलना में। इसी तरह, सल्फर प्रतिस्थापन का मतलब एक्सएलओजीपी (चित्रा 4) पर न्यूनतम प्रभाव पड़ता है। सबसे बड़ा प्रभाव वीएआईएल और VAIL_S पुस्तकालयों के बीच था, संभवतः वीएआईएल लाइब्रेरी के संयोजन के कारण विशेष रूप से हाइड्रोफोबिक (साइडचेन केवल हाइड्रोकार्बन हैं) और सल्फहाइड्रील समूह मिथाइल समूहों की तुलना में बहुत अधिक अम्लीय हैं जो वे प्रतिस्थापित करेंगे। सल्फर प्रतिस्थापन का न्यूनतम प्रभाव चित्रा 2 में स्पष्ट है, जहां सल्फर प्रतिस्थापन के साथ पुस्तकालय सल्फर प्रतिस्थापन के बिना अनुरूप पुस्तकालयों के समान रासायनिक स्थान पर कब्जा करते हैं।

संरचनाओं की संख्या में कमी (चित्रा 5 ए) और स्यूडोएटम का उपयोग करते समय उन संरचनाओं (चित्रा 5 बी) को उत्पन्न करने के लिए आवश्यक समय आश्चर्यजनक नहीं है। स्यूडोटॉम का उपयोग करने से भारी परमाणुओं की संख्या कम हो जाती है जिन्हें रासायनिक ग्राफ में शामिल करने की आवश्यकता होती है, ग्राफ नोड्स की संख्या को कम करता है और पीढ़ी के समय और संरचनाओं की संख्या में घातीय कमी लाता है। यहां, स्यूडोएटम के रूप में त्रिसंयोजक फास्फोरस की पसंद बुनियादी जैव रसायन (फॉस्फेट समूहों के अनुपस्थित पोस्टट्रांसलेशनल जोड़, आनुवंशिक रूप से कोडित अमीनो एसिड में फास्फोरस नहीं होता है) और परमाणु की वैलेंस से उत्पन्न होती है जो इसे प्रतिस्थापित करेगी (एक त्रिसंयोजक फास्फोरस को आसानी से एक टेट्रावेलेंट कार्बन के साथ प्रतिस्थापित किया जा सकता है जो अकेले दूसरे परमाणु या परमाणुओं के समूह से बंधा होता है)। जबकि स्यूडोएटॉम प्रतिस्थापन के लिए प्रदान किया गया कोड एक त्रिसंयोजक फास्फोरस को एक एलानिन उपसंरचना के साथ बदलने के लिए विशिष्ट है, उपयोगकर्ता विभिन्न स्यूडोएटम या प्रतिस्थापन उपसंरचनाओं के साथ काम करने के लिए कोड को अनुकूलित कर सकते हैं, संभावित रूप से प्रारंभिक संरचना पीढ़ी के दौरान कई स्यूडोएटम का उपयोग करके प्रत्येक स्यूडोएटम को एक बड़े आणविक उपसंरचना के साथ प्रतिस्थापित करते हैं।

मेगेन (और तंत्रिका नेटवर्क जैसे अन्य तरीकों) द्वारा नियोजित संरचना पीढ़ी के तरीकों का उपयोग पहले से ही सिलिको स्क्रीनिंग के लिए यौगिक पुस्तकालयों को उत्पन्न करने के लिए दवा की खोज में किया जाता है; हाल ही में एक समीक्षा4 इन तरीकों पर अधिक विस्तार से चर्चा करती है। चूंकि ये विधियां मुख्य रूप से दवा जैसे अणुओं के निर्माण के लिए अभिप्रेत हैं, अणुओं को उत्पन्न करने की उनकी क्षमता पर कुछ सीमाएं हैं, जैसे कि बनाई गई संरचनाओं को सीमित करने के लिए जैविक या दवा गुणों का उपयोग करना (व्युत्क्रम क्यूएसपीआर / जैसा कि खगोल जीव विज्ञान कार्बनिक यौगिकों की भीड़ पर अधिक ध्यान केंद्रित करता है जो किसी भी अंत उत्पादों या उनके गुणों पर अजैविक रूप से और कम बना सकते हैं, मेगेन की संपूर्ण संरचना पीढ़ी खगोलीय प्रश्नों को संबोधित करने के लिए संरचना पुस्तकालयों को बनाने के लिए आदर्श है। यहां वर्णित सबस्ट्रक्चर फ़िल्टरिंग का दृष्टिकोण (बाहरी कार्यक्रम के माध्यम से संरचना पीढ़ी के बाद किया जाता है) प्रतियोगी कार्यक्रम एमओएलजीईएन से अलग है जिसमें संरचना पीढ़ी के दौरान मोलजेन की सबस्ट्रक्चर फ़िल्टरिंग होती है। जैसा कि मेजेन ओपन-सोर्स है, न केवल मोलजेन की लाइसेंसिंग लागत के कारण यह मोलजेन की तुलना में अधिक सुलभ है, बल्कि व्यक्ति संरचना पीढ़ी के दौरान सबस्ट्रक्चर फ़िल्टरिंग जैसी नई सुविधाओं को लागू कर सकते हैं।

जैसा कि लिखा गया है, यहां वर्णित प्रोटोकॉल अपेक्षाकृत छोटे अल्फा-अमीनो एसिड के पुस्तकालयों को उत्पन्न करने और क्यूरेट करने पर केंद्रित है। विभिन्न पुस्तकालयों को उत्पन्न करने के लिए, उपयोगकर्ता MAYGEN को विभिन्न आणविक सूत्र दे सकते हैं, अधिकतम अनुमत रिंग आकार और बॉन्ड वैलेंस को बदलकर सबस्ट्रक्चर फ़िल्टरिंग बदल सकते हैं, या सबस्ट्रक्चर पैटर्न को जोड़ने या हटाने के लिए गुडलिस्ट और बैडलिस्ट फ़ाइलों को संपादित कर सकते हैं। प्रोटोकॉल संशोधन जिसमें परमाणुओं और उप-संरचनाओं को जोड़ने या प्रतिस्थापित करने के तरीके को बदलना शामिल है (स्यूडोएटॉम प्रतिस्थापन और आणविक कैपिंग) संभव हैं लेकिन संशोधित संरचनाओं में गलत वैलेंस के बारे में आरडीकिट त्रुटियों से बचने के लिए वैलेंस प्रतिबंधों पर अधिक ध्यान देने की आवश्यकता होगी।

ऊपर विस्तृत प्रोटोकॉल छोटे अल्फा-अमीनो एसिड के लिए डिज़ाइन किया गया है। हालांकि, सामान्य प्रारूप (स्यूडोएटम का उपयोग करके व्यापक संरचना पीढ़ी, उपसंरचना फ़िल्टरिंग और आणविक संशोधनों के बाद) छोटे अमीनो एसिड से परे यौगिकों के लिए अत्यधिक लचीला है। यहां तक कि खगोल जीव विज्ञान में, एमओएलजीईएन का उपयोग करके एक समान हालिया प्रक्रिया का उपयोग न्यूक्लिक एसिड26 के संवैधानिक आइसोमर्स की जांच के लिए किया गया था। ऊपर वर्णित उपकरणों के अलावा, मेजेन को अन्य ओपन-सोर्स केमिनफॉर्मेटिक्स टूल के साथ जोड़ा जा सकता है ताकि उपन्यास रासायनिक संरचनाओं को बनाने और विश्लेषण करने के लिए अनुसंधान क्षेत्रों की एक विस्तृत श्रृंखला के लिए सस्ती और सुलभ बनाया जा सके।

Disclosures

लेखकों के पास खुलासा करने के लिए हितों का कोई टकराव नहीं है।

Acknowledgments

मई कार्ल-ज़ीस-फाउंडेशन द्वारा वित्त पोषण को स्वीकार करता है। सभी आंकड़े माइक्रोसॉफ्ट एक्सेल का उपयोग करके उत्पन्न किए गए थे।

Materials

Name Company Catalog Number Comments
conda v. 4.10.3 https://www.anaconda.com/products/individual
Java 17 https://java.com/en/download/help/download_options.html
MAYGEN v. 1.8 https://github.com/MehmetAzizYirik/MAYGEN/releases
PaDEL-Descriptor v. 2.21 http://www.yapcwsoft.com/dd/padeldescriptor/
python v. 3.7.11 included in Anaconda environment
RDKit v. 2020.09.1.0 https://www.rdkit.org/docs/Install.html, or installed via conda: https://anaconda.org/rdkit/rdkit
*These specific versions were used for this manuscript; user can obtain more recent versions if available.

DOWNLOAD MATERIALS LIST

References

  1. Ruddigkeit, L., van Deursen, R., Blum, L. C., Reymond, J. -L. Enumeration of 166 billion organic small molecules in the chemical universe database GDB-17. Journal of Chemical Information and Modeling. 52 (11), 2864-2875 (2012).
  2. Buchanan, B. G., Feigenbaum, E. A. Dendral and Meta-Dendral: their applications dimension. Readings in Artificial Intelligence. Webber, B. L., Nilsson, N. J. , Morgan Kaufmann. 313-322 (1981).
  3. Gugisch, R., et al. MOLGEN 5.0, A Molecular Structure Generator. Advances in Mathematical Chemistry and Applications. Basak, S. C., Restrepo, G., Villaveces, J. L. , Bentham Science Publishers. 113-138 (2015).
  4. Yirik, M. A., Steinbeck, C. Chemical graph generators. PLOS Computational Biology. 17 (1), 1008504 (2021).
  5. Jaghoori, M. M., et al. PMG: multi-core metabolite identification. Electronic Notes in Theoretical Computer Science. 299, 53-60 (2013).
  6. Yirik, M. A., Sorokina, M., Steinbeck, C. MAYGEN: an open-source chemical structure generator for constitutional isomers based on the orderly generation principle. Journal of Cheminformatics. 13 (1), 48 (2021).
  7. Sims, C. C. Computational methods in the study of permutation groups. Computational Problems in Abstract Algebra. Leech, J. , Pergamon. 169-183 (1970).
  8. Mat, W. -K., Xue, H., Wong, J. T. -F. The genomics of LUCA. Frontiers in Bioscience. 13, 5605-5613 (2008).
  9. Fournier, G. P., Alm, E. J. Ancestral reconstruction of a pre-LUCA aminoacyl-tRNA synthetase ancestor supports the late addition of Trp to the genetic code. Journal of Molecular Evolution. 80 (3-4), 171-185 (2015).
  10. Higgs, P. G., Pudritz, R. E. A Thermodynamic basis for prebiotic amino acid synthesis and the nature of the first genetic code. Astrobiology. 9 (5), 483-490 (2009).
  11. Trifonov, E. N. Consensus temporal order of amino acids and evolution of the triplet code. Gene. 261 (1), 139-151 (2000).
  12. Cleaves, H. J. The origin of the biologically coded amino acids. Journal of Theoretical Biology. 263 (4), 490-498 (2010).
  13. Moosmann, B. Redox biochemistry of the genetic code. Trends in Biochemical Sciences. 46 (2), 83-86 (2021).
  14. Simkus, D. N., et al. Methodologies for analyzing soluble organic compounds in extraterrestrial samples: amino acids, amines, monocarboxylic acids, aldehydes, and ketones. Life. 9 (2), 47 (2019).
  15. Criado-Reyes, J., Bizzarri, B. M., García-Ruiz, J. M., Saladino, R., Di Mauro, E. The role of borosilicate glass in Miller-Urey experiment. Scientific Reports. 11 (1), 21009 (2021).
  16. Parker, E. T., et al. Primordial synthesis of amines and amino acids in a 1958 Miller H2S-rich spark discharge experiment. Proceedings of the National Academy of Sciences of the United States of America. 108 (14), 5526-5531 (2011).
  17. Bada, J. L. New insights into prebiotic chemistry from Stanley Miller's spark discharge experiments. Chemical Society Reviews. 42 (5), 2186-2196 (2013).
  18. RDKit: Open-source cheminformatics. , Available from: http://www.rdkit.org (2021).
  19. Yap, C. W. PaDEL-descriptor: An open source software to calculate molecular descriptors and fingerprints. Journal of Computational Chemistry. 32 (7), 1466-1474 (2011).
  20. SMARTS - A language for describing molecular patterns. Daylight Chemical Information Systems, Inc. , Available from: https://www.daylight.com/html/doc/theory/theory.smarts.html (2019).
  21. Meringer, M., Cleaves, H. J., Freeland, S. J. Beyond terrestrial biology: charting the chemical universe of α-amino acid structures. Journal of Chemical Information and Modeling. 53 (11), 2851-2862 (2013).
  22. Zherebker, A., et al. Speciation of organosulfur compounds in carbonaceous chondrites. Scientific Reports. 11 (1), 7410 (2021).
  23. Tanford, C. The hydrophobic effect and the organization of living matter. Science. 200 (4345), 1012-1018 (1978).
  24. Grantham, R. Amino acid difference formula to help explain protein evolution. Science. 185 (4154), 862-864 (1974).
  25. Cordero, B., et al. Covalent radii revisited. Dalton Transactions. (21), 2832-2838 (2008).
  26. Cleaves, H. J., Butch, C., Burger, P. B., Goodwin, J., Meringer, M. One among millions: the chemical space of nucleic acid-like molecules. Journal of Chemical Information and Modeling. 59 (10), 4266-4277 (2019).

Tags

रसायन विज्ञान अंक 182
अल्फा-अमीनो एसिड के साथ प्रदर्शित कम्प्यूटेशनल रासायनिक पुस्तकालयों का क्यूरेशन
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Mayer-Bacon, C., Yirik, M. A.More

Mayer-Bacon, C., Yirik, M. A. Curation of Computational Chemical Libraries Demonstrated with Alpha-Amino Acids. J. Vis. Exp. (182), e63632, doi:10.3791/63632 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter