Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

पदानुक्रमित जीनोटाइप और जीवाणु आबादी में गौण जीनोम लोकी के ह्यूरिस्टिक खनन

Published: December 7, 2021 doi: 10.3791/63115
* These authors contributed equally

Summary

यह विश्लेषणात्मक कम्प्यूटेशनल प्लेटफ़ॉर्म सूक्ष्मजीवविज्ञानी, पारिस्थितिकीविदों और जीवाणु जनसंख्या जीनोमिक्स में रुचि रखने वाले महामारी विज्ञानियों के लिए व्यावहारिक मार्गदर्शन प्रदान करता है। विशेष रूप से, यहां प्रस्तुत किए गए काम ने प्रदर्शित किया कि कैसे प्रदर्शन किया जाए: i) पदानुक्रमित जीनोटाइप के फाइलोजेनी-निर्देशित मानचित्रण; ii) जीनोटाइप का आवृत्ति-आधारित विश्लेषण; iii) रिश्तेदारी और क्लोनालिटी विश्लेषण; iv) गौण लोकी को विभेदित करने वाले वंश की पहचान।

Abstract

बैक्टीरियल होल-जीनोम अनुक्रमण (डब्ल्यूजीएस) का नियमित और व्यवस्थित उपयोग सार्वजनिक स्वास्थ्य प्रयोगशालाओं और नियामक एजेंसियों द्वारा की गई महामारी विज्ञान की जांच की सटीकता और समाधान को बढ़ा रहा है। सार्वजनिक रूप से उपलब्ध WGS डेटा की बड़ी मात्रा का उपयोग बड़े पैमाने पर रोगजनक आबादी का अध्ययन करने के लिए किया जा सकता है। हाल ही में, ProkEvo नामक एक स्वतंत्र रूप से उपलब्ध कम्प्यूटेशनल प्लेटफ़ॉर्म को जीवाणु WGS डेटा का उपयोग करके पुनरुत्पादक, स्वचालित और स्केलेबल पदानुक्रमित-आधारित जनसंख्या जीनोमिक विश्लेषण को सक्षम करने के लिए प्रकाशित किया गया था। ProkEvo के इस कार्यान्वयन ने पारिस्थितिक अनुमान के लिए गौण जीनोमिक सामग्री के खनन के साथ आबादी के मानक जीनोटाइपिक मैपिंग के संयोजन के महत्व का प्रदर्शन किया। विशेष रूप से, यहां हाइलाइट किए गए काम ने आर प्रोग्रामिंग भाषा का उपयोग करके जनसंख्या-स्केल किए गए पदानुक्रमित विश्लेषणों के लिए प्रोकेवो-व्युत्पन्न आउटपुट का उपयोग किया। मुख्य उद्देश्य सूक्ष्मजीवविज्ञानियों, पारिस्थितिकीविदों और महामारी विज्ञानियों के लिए एक व्यावहारिक मार्गदर्शिका प्रदान करना था कि कैसे करें: i) पदानुक्रमित जीनोटाइप के एक फाइलोजेनी-निर्देशित मानचित्रण का उपयोग करें; ii) पारिस्थितिक फिटनेस के लिए एक प्रॉक्सी के रूप में जीनोटाइप के आवृत्ति वितरण का आकलन; iii) विशिष्ट जीनोटाइपिक वर्गीकरण का उपयोग करके रिश्तेदारी संबंधों और आनुवंशिक विविधता का निर्धारण करना; और iv) मानचित्र वंश गौण लोकी को अलग करता है। पुनरुत्पादन और पोर्टेबिलिटी को बढ़ाने के लिए, आर मार्कडाउन फ़ाइलों का उपयोग पूरे विश्लेषणात्मक दृष्टिकोण को प्रदर्शित करने के लिए किया गया था। उदाहरण डेटासेट में जूनोटिक फूडबोर्न पैथोजन साल्मोनेला न्यूपोर्ट के 2,365 आइसोलेट्स से जीनोमिक डेटा शामिल था। पदानुक्रमित जीनोटाइप (सेरोवर -> बीएपीएस 1 -> एसटी -> सीजीएमएलएसटी) के फाइलोजेनी-एंकर्ड मैपिंग ने जनसंख्या आनुवंशिक संरचना का खुलासा किया, अनुक्रम प्रकारों (एसटी) को कीस्टोन जीनोटाइप को अलग करने के रूप में हाइलाइट किया। तीन सबसे प्रमुख वंशों में, एसटी 5 और एसटी 118 ने हाल ही में अत्यधिक क्लोनल एसटी 45 फाइलोटाइप की तुलना में एक सामान्य पूर्वज साझा किया। एसटी-आधारित मतभेदों को सहायक रोगाणुरोधी प्रतिरोध (एएमआर) लोकी के वितरण द्वारा आगे उजागर किया गया था। अंत में, एक फाइलोजेनी-एंकर्ड विज़ुअलाइज़ेशन का उपयोग रिश्तेदारी संरचना और वंश-विशिष्ट जीनोमिक हस्ताक्षरों को प्रकट करने के लिए पदानुक्रमित जीनोटाइप और एएमआर सामग्री को संयोजित करने के लिए किया गया था। संयुक्त, यह विश्लेषणात्मक दृष्टिकोण पैन-जीनोमिक जानकारी का उपयोग करके हेरिस्टिक बैक्टीरियल जनसंख्या जीनोमिक विश्लेषण करने के लिए कुछ दिशानिर्देश प्रदान करता है।

Introduction

सार्वजनिक स्वास्थ्य प्रयोगशालाओं और नियामक एजेंसियों द्वारा नियमित निगरानी और महामारी विज्ञान की जांच के लिए एक आधार के रूप में बैक्टीरियल पूरे जीनोम अनुक्रमण (डब्ल्यूजीएस) के बढ़ते उपयोग ने रोगज़नक़ प्रकोप जांच 1,2,3,4 को काफी हद तक बढ़ा दिया है। नतीजतन, डी-आइडेंटिफाइड डब्ल्यूजीएस डेटा की बड़ी मात्रा अब सार्वजनिक रूप से उपलब्ध है और इसका उपयोग अभूतपूर्व पैमाने पर रोगजनक प्रजातियों की जनसंख्या जीव विज्ञान के पहलुओं का अध्ययन करने के लिए किया जा सकता है, जिसमें इस पर आधारित अध्ययन शामिल हैं: जनसंख्या संरचनाएं, जीनोटाइप आवृत्तियां, और जीन / एलील आवृत्तियों में कई जलाशयों, भौगोलिक क्षेत्रों और वातावरण के प्रकार5 . सबसे अधिक उपयोग की जाने वाली डब्ल्यूजीएस-निर्देशित महामारी विज्ञान की पूछताछ केवल साझा कोर-जीनोमिक सामग्री का उपयोग करके विश्लेषण पर आधारित होती है, जहां अकेले साझा (संरक्षित) सामग्री का उपयोग जीनोटाइपिक वर्गीकरण (जैसे, वेरिएंट कॉलिंग) के लिए किया जाता है, और ये वेरिएंट महामारी विज्ञान विश्लेषण औरट्रेसिंग 1,2,6,7 का आधार बन जाते हैं। . आमतौर पर, बैक्टीरियल कोर-जीनोम-आधारित जीनोटाइपिंग को सात से कुछ हजार लोकी 8,9,10 का उपयोग करके बहु-लोकस अनुक्रम टाइपिंग (एमएलएसटी) दृष्टिकोणके साथ किया जाता है। इन एमएलएसटी-आधारित रणनीतियों में अत्यधिक क्यूरेटेड डेटाबेस पर पूर्व-इकट्ठे या इकट्ठे किए गए जीनोमिक अनुक्रमों का मानचित्रण शामिल है, जिससे महामारी विज्ञान और पारिस्थितिक विश्लेषण11,12 के लिए पुनरुत्पादक जीनोटाइपिक इकाइयों में एलेलिक जानकारी का संयोजन होता है। उदाहरण के लिए, यह एमएलएसटी-आधारित वर्गीकरण संकल्प के दो स्तरों पर जीनोटाइपिक जानकारी उत्पन्न कर सकता है: निचले स्तर के अनुक्रम प्रकार (एसटी) या एसटी वंश (7 लोकी), और उच्च-स्तरीय कोर-जीनोम एमएलएसटी (सीजीएमएलएसटी) वेरिएंट (~ 300-3,000 लोकी)10

एमएलएसटी-आधारित जीनोटाइपिक वर्गीकरण कम्प्यूटेशनल रूप से पोर्टेबल और प्रयोगशालाओं के बीच अत्यधिक पुनरुत्पादक है, जिससे यह व्यापक रूप से बैक्टीरिया प्रजातियों के स्तर13,14 के नीचे एक सटीक उप-टाइपिंग दृष्टिकोण के रूप में स्वीकार किया जाता है। हालांकि, बैक्टीरियल आबादी को क्लोनलिटी (यानी, जीनोटाइपिक समरूपता) की प्रजातियों-विशिष्ट अलग-अलग डिग्री के साथ संरचित किया जाता है, जीनोटाइप15,16,17 के बीच पदानुक्रमित रिश्तेदारी के जटिल पैटर्न, और सहायक जीनोमिक सामग्री18,19 के वितरण में भिन्नता की एक विस्तृत श्रृंखला . इस प्रकार, एक अधिक समग्र दृष्टिकोण एमएलएसटी जीनोटाइप में असतत वर्गीकरण से परे जाता है और जीनोटाइप के विभिन्न पैमानों पर जीनोटाइप के पदानुक्रमित संबंधों को शामिल करता है, साथ ही जीनोटाइपिक वर्गीकरण पर सहायक जीनोमिक सामग्री के मानचित्रण के साथ, जो जनसंख्या-आधारित अनुमान18,20,21 की सुविधा प्रदान करता है . इसके अलावा, विश्लेषण भी दूर से संबंधित जीनोटाइप21,22 के बीच गौण जीनोमिक लोकी की विरासत के साझा पैटर्न पर ध्यान केंद्रित कर सकते हैं। कुल मिलाकर, संयुक्त दृष्टिकोण जनसंख्या संरचना और भू-स्थानिक या पर्यावरणीय ग्रेडिएंट के बीच विशिष्ट जीनोमिक रचनाओं (जैसे, लोकी) के वितरण के बीच संबंधों की अज्ञेयवादी पूछताछ को सक्षम बनाता है। इस तरह के दृष्टिकोण से विशिष्ट आबादी की पारिस्थितिक विशेषताओं के बारे में मौलिक और व्यावहारिक दोनों जानकारी प्राप्त हो सकती है, जो बदले में, जलाशयों में उनके ट्रोपिज़्म और फैलाव पैटर्न की व्याख्या कर सकते हैं, जैसे कि खाद्य जानवर या मनुष्य।

यह सिस्टम-आधारित पदानुक्रमित जनसंख्या-उन्मुख दृष्टिकोण अलग-अलग जीनोमिक हस्ताक्षरों की भविष्यवाणी करने के लिए पर्याप्त सांख्यिकीय शक्ति के लिए WGS डेटा की बड़ी मात्रा की मांग करता है। नतीजतन, दृष्टिकोण के लिए एक कम्प्यूटेशनल प्लेटफ़ॉर्म की आवश्यकता होती है जो एक साथ कई हजारों जीवाणु जीनोम को संसाधित करने में सक्षम है। हाल ही में, ProkEvo विकसित किया गया था और एक स्वतंत्र रूप से उपलब्ध, स्वचालित, पोर्टेबल, और स्केलेबल जैव सूचना विज्ञान मंच है जो पैन-जीनोमिक मैपिंग20 सहित एकीकृत पदानुक्रमित-आधारित जीवाणु जनसंख्या विश्लेषण के लिए अनुमति देता है। ProkEvo मध्यम-से-बड़े पैमाने पर जीवाणु डेटासेट के अध्ययन के लिए अनुमति देता है, जबकि परीक्षण योग्य और अनुमान लगाने योग्य महामारी विज्ञान और पारिस्थितिक परिकल्पनाओं और फेनोटाइपिक भविष्यवाणियों को उत्पन्न करने के लिए एक रूपरेखा प्रदान करता है जिसे उपयोगकर्ता द्वारा अनुकूलित किया जा सकता है। यह काम उस पाइपलाइन को पूरक करता है कि पदानुक्रमित जनसंख्या वर्गीकरण और सहायक जीनोमिक खनन के विश्लेषण और व्याख्या के लिए इनपुट के रूप में ProkEvo-व्युत्पन्न आउटपुट फ़ाइलों का उपयोग कैसे किया जाए। यहां प्रस्तुत मामले के अध्ययन ने साल्मोनेला एंटेरिका वंश I जूनोटिक सेरोवर एस की आबादी का उपयोग किया। एक उदाहरण के रूप में न्यूपोर्ट और विशेष रूप से माइक्रोबायोलॉजिस्ट, पारिस्थितिकीविदों और महामारी विज्ञानियों के लिए व्यावहारिक दिशानिर्देश प्रदान करने के उद्देश्य से किया गया था कि कैसे करें: i) पदानुक्रमित जीनोटाइप को मैप करने के लिए एक स्वचालित फाइलोजेनी-निर्भर दृष्टिकोण का उपयोग करें; ii) पारिस्थितिक फिटनेस का मूल्यांकन करने के लिए एक प्रॉक्सी के रूप में जीनोटाइप के आवृत्ति वितरण का आकलन करना; iii) स्वतंत्र सांख्यिकीय दृष्टिकोण का उपयोग करके क्लोनालिटी की वंश-विशिष्ट डिग्री निर्धारित करना; और iv) जनसंख्या संरचना के संदर्भ में गौण जीनोमिक सामग्री को कैसे खान किया जाए, इसके एक उदाहरण के रूप में मानचित्र वंश-विभेदन एएमआर लोकी। अधिक व्यापक रूप से, यह विश्लेषणात्मक दृष्टिकोण एक पैमाने पर जनसंख्या-आधारित जीनोमिक विश्लेषण करने के लिए एक सामान्यीकृत रूपरेखा प्रदान करता है जिसका उपयोग लक्षित प्रजातियों की परवाह किए बिना विकासवादी और पारिस्थितिक पैटर्न का अनुमान लगाने के लिए किया जा सकता है।

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. इनपुट फ़ाइलें तैयार करें

नोट:: प्रोटोकॉल यहाँ उपलब्ध है - https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code. प्रोटोकॉल मानता है कि शोधकर्ता ने विशेष रूप से इस Figshare रिपॉजिटरी में उपलब्ध आवश्यक आउटपुट प्राप्त करने के लिए ProkEvo (या एक तुलनीय पाइपलाइन) का उपयोग किया है (https://figshare.com/account/projects/116625/articles/15097503 - लॉगिन क्रेडेंशियल्स आवश्यक हैं - उपयोगकर्ता को फ़ाइल एक्सेस करने के लिए एक मुफ्त खाता बनाना होगा!)। ध्यान दें, ProkEvo स्वचालित रूप से एनसीबीआई-एसआरए रिपॉजिटरी से जीनोमिक अनुक्रमों को डाउनलोड करता है और केवल एक .txt फ़ाइल की आवश्यकता होती है जिसमें इनपुट20 के रूप में जीनोम पहचान की एक सूची होती है, और एस पर इस काम के लिए उपयोग की जाने वाली एक। Newport संयुक्त राज्य अमेरिका आइसोलेट्स यहाँ प्रदान की जाती है (https://figshare.com/account/projects/116625/articles/15097503?file=29025729).  इस बैक्टीरियल जीनोमिक्स प्लेटफ़ॉर्म को स्थापित करने और उपयोग करने के तरीके के बारे में विस्तृत जानकारी यहां उपलब्ध है (https://github.com/npavlovikj/ProkEvo/wiki/2.-Quick-start)20

  1. FastTree23 का उपयोग करके कोर-जीनोम फाइलोजेनी उत्पन्न करें जैसा कि पहले वर्णित20 है, जो जैव सूचना विज्ञान मंच20 का हिस्सा नहीं है। FastTree एक इनपुट फ़ाइल के रूप में Roary24 कोर जीनोम संरेखण की आवश्यकता है। फाइलोजेनी फ़ाइल को newport_phylogeny.tree (https://figshare.com/account/projects/116625/articles/15097503?file=29025690) नाम दिया गया है।
  2. एसआईएसटीआर25 आउटपुट उत्पन्न करें जिसमें साल्मोनेला और सीजीएमएलएसटी वेरिएंट कॉलिंग डेटा (sistr_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025699) के लिए सेरोवर्स वर्गीकरण के बारे में जानकारी शामिल है।
  3. फास्टबेप्स26,27 द्वारा BAPS फ़ाइल उत्पन्न करें जिसमें BAPS स्तर 1-6 जीनोम का वर्गीकरण उप-समूहों या हैप्लोटाइप्स (fastbaps_partition_baps_prior_l6.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025684) में होता है।
  4. MLST कार्यक्रम (https://github.com/tseemann/mlst)28 (salmonellast_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025696) का उपयोग करके एसटी में जीनोम का MLST-आधारित वर्गीकरण उत्पन्न करें।
  5. ABRicate (https://github.com/tseemann/abricate)29 आउटपुट को एक .csv फ़ाइल के रूप में उत्पन्न करें जिसमें एएमआर लोकी प्रति जीनोम मैप किया गया है (sabricate_resfinder_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025693)।
    नोट:: उपयोगकर्ता ProkEvo जैव सूचना विज्ञान पाइपलाइन के विशिष्ट भागों को बंद कर सकते हैं (अधिक जानकारी के लिए यहाँ की जाँच करें - https://github.com/npavlovikj/ProkEvo/wiki/4.2.-Remove-existing-bioinformatics-tool-from-ProkEvo). यहां प्रस्तुत विश्लेषणात्मक दृष्टिकोण जैव सूचना विज्ञान पाइपलाइन चलाने के बाद जनसंख्या-आधारित विश्लेषण करने के तरीके के लिए दिशानिर्देश प्रदान करता है।

2. डाउनलोड और सांख्यिकीय सॉफ्टवेयर और एकीकृत विकास वातावरण (IDE) आवेदन स्थापित करें

  1. लिनक्स, मैक, या पीसी30 के लिए आर सॉफ्टवेयर का सबसे अद्यतित स्वतंत्र रूप से उपलब्ध संस्करण डाउनलोड करें। डिफ़ॉल्ट स्थापना चरणों का पालन करें।
  2. RStudio डेस्कटॉप आईडीई के सबसे अद्यतित स्वतंत्र रूप से उपलब्ध संस्करण को डाउनलोड करें यहां31. स्थापना के लिए डिफ़ॉल्ट चरणों का पालन करें।
    नोट:: अगले चरणों को कोड उपयोग की विस्तृत जानकारी सहित उपलब्ध स्क्रिप्ट में शामिल हैं, और इस कार्य में प्रस्तुत आउटपुट और आंकड़े उत्पन्न करने के लिए क्रमिक रूप से चलाया जाना चाहिए (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd)। उपयोगकर्ता इस विश्लेषणात्मक / सांख्यिकीय विश्लेषण जैसे पायथन का संचालन करने के लिए किसी अन्य प्रोग्रामिंग भाषा का उपयोग करने का निर्णय ले सकता है। उस स्थिति में, विश्लेषण करने के लिए एक ढांचे के रूप में स्क्रिप्ट में चरणों का उपयोग करें।

3. स्थापित करें और डेटा विज्ञान पुस्तकालयों को सक्रिय करें

  1. विश्लेषण में पहले चरण के रूप में एक बार में सभी डेटा विज्ञान पुस्तकालयों को स्थापित करें। हर बार जब स्क्रिप्ट को फिर से चलाने की आवश्यकता होती है तो पुस्तकालयों को स्थापित करने से बचें। लायब्रेरी स्थापना के लिए फ़ंक्शन install.packages() का उपयोग करें। वैकल्पिक रूप से, उपयोगकर्ता IDE के अंदर पैकेज टैब पर क्लिक कर सकते हैं और स्वचालित रूप से पैकेज स्थापित कर सकते हैं। सभी आवश्यक पुस्तकालयों को स्थापित करने के लिए उपयोग किया जाने वाला कोड यहां प्रस्तुत किया गया है:
    # स्थापित Tidyverse
    install.packages ("tidyverse")
    # स्किमर स्थापित करें

    install.packages ("skimr")
    # शाकाहारी स्थापित करें
    install.packages ("शाकाहारी")
    # forcats स्थापित करें
    install.packages ("forcats")
    # स्थापित naniar
    install.packages ("naniar")
    # ggpubr स्थापित करें
    install.packages ("ggpubr")
    # ggrepel स्थापित करें
    install.packages ("ggrepel")
    # Reshape2 स्थापित करें
    install.packages ("reshape2")
    # स्थापित करें RColorBrewer
    install.packages ("RColorBrewer")
    # स्थापित ggtree
    यदि (!Namespace की आवश्यकता है ("BiocManager", चुपचाप = TRUE))
    install.packages ("BiocManager")
    BiocManager::install ("ggtree")
    # ggtree की स्थापना स्थापना के बारे में एक सवाल संकेत होगा - उत्तर स्थापित करने के लिए "एक" है /
  2. स्थापना के ठीक बाद, स्क्रिप्ट की शुरुआत में लायब्रेरी() फ़ंक्शन का उपयोग करके सभी लायब्रेरीज़ या पैकेज को सक्रिय करें. यहाँ कैसे सभी आवश्यक संकुल को सक्रिय करने के लिए पर एक प्रदर्शन है:
    # पुस्तकालयों और संकुल को सक्रिय करें
    पुस्तकालय
    पुस्तकालय
    पुस्तकालय (शाकाहारी)
    पुस्तकालय (forcats)
    पुस्तकालय (naniar)
    पुस्तकालय
    पुस्तकालय (ggpubr)
    पुस्तकालय
    पुस्तकालय (Reshape2)
    पुस्तकालय (RColorBrewer)
  3. लायब्रेरी और पैकेज स्थापना और सक्रियण के लिए उपयोग किए जाने वाले कोड को {r, include = FALSE} कोड चक में निम्नानुसार दबाएं:
    '' {r, include = FALSE}
    # स्थापित Tidyverse

    install.packages ("tidyverse")
    ```

    नोट:: यह चरण वैकल्पिक है, लेकिन अंतिम html, डॉक्टर, या पीडीएफ रिपोर्ट में अनावश्यक कोड के टुकड़े दिखाने से बचता है।
  4. आगे की जानकारी एकत्र करने के लिए कुछ उपयोगी लिंक के साथ सभी पुस्तकालयों के विशिष्ट कार्यों के संक्षिप्त विवरण के लिए, चरण 3.4.1-3.4.11 देखें।
    1. Tidyverse - डेटा विज्ञान के लिए उपयोग किए जाने वाले पैकेजों के इस संग्रह का उपयोग करें, जिसमें डेटा प्रविष्टि, विज़ुअलाइज़ेशन, पार्सिंग और एकत्रीकरण और सांख्यिकीय मॉडलिंग शामिल हैं। आमतौर पर, ggplot2 (डेटा विज़ुअलाइज़ेशन) और dplyr (डेटा रैंगलिंग और मॉडलिंग) इस लाइब्रेरी32 में मौजूद व्यावहारिक पैकेज हैं।
    2. skimr - डेटा फ्रेम के सारांश आँकड़े उत्पन्न करने के लिए इस पैकेज का उपयोग करें, जिसमें लापता मानों की पहचानशामिल है 33.
    3. शाकाहारी - सामुदायिक पारिस्थितिकी सांख्यिकीय विश्लेषण के लिए इस पैकेज का उपयोग करें, जैसे कि विविधता-आधारित आंकड़ों की गणना (जैसे, अल्फा और बीटा-विविधता)34
    4. forcats - इस पैकेज का उपयोग इस तरह के पुन: क्रम वर्गीकरण के रूप में स्पष्ट चर के साथ काम करने के लिए। यह पैकेज Tidyverse लायब्रेरी32 का हिस्सा है।
    5. naniar - viss_miss() फ़ंक्शन35 का उपयोग करके, डेटा फ़्रेम में चर में अनुपलब्ध मानों के वितरण की कल्पना करने के लिए इस पैकेज का उपयोग करें।
    6. ggtree - phylogenetic पेड़ों के विज़ुअलाइज़ेशन के लिए इस पैकेज का उपयोगकरें 36.
    7. ggpubr - ggplot2-आधारित विज़ुअलाइज़ेशन37 की गुणवत्ता में सुधार करने के लिए इस पैकेज का उपयोग करें।
    8. ggrepel - ग्राफ38 के अंदर पाठ लेबलिंग के लिए इस पैकेज का उपयोग करें.
    9. reshape2 - विस्तृत से लंबे प्रारूप39 करने के लिए डेटा फ्रेम के परिवर्तन के लिए इस पैकेज से पिघल() समारोह का उपयोग करें।
    10. RColorBrewer - ggplot2-आधारित विज़ुअलाइज़ेशन40 में रंगों का प्रबंधन करने के लिए इस पैकेज का उपयोग करें।
    11. अन्वेषक डेटा विश्लेषण के लिए निम्नलिखित मूल कार्यों का उपयोग करें: डेटा फ़्रेम में पहले अवलोकनों की जाँच करने के लिए head() , डेटा फ़्रेम की अंतिम टिप्पणियों की जाँच करने के लिए टेल(), डेटा फ़्रेम के अंतिम अवलोकनों की जाँच करने के लिए is.na() डेटा फ़्रेम में अनुपलब्ध मानों वाली पंक्तियों की संख्या की गणना करने के लिए, डेटासेट में पंक्तियों और स्तंभों की संख्या की जाँच करने के लिए dim() , तालिका () एक चर में टिप्पणियों की गणना करने के लिए, और योग() टिप्पणियों या उदाहरणों की कुल संख्या की गणना करने के लिए।

4. डेटा प्रविष्टि और विश्लेषण

नोट:: इस विश्लेषण के प्रत्येक चरण पर एक विस्तृत जानकारी उपलब्ध स्क्रिप्ट (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd) में पाया जा सकता है। हालांकि, यहां विचार किए जाने वाले कुछ महत्वपूर्ण बिंदु दिए गए हैं:

  1. read_csv() फ़ंक्शन का उपयोग करके सभी जीनोटाइपिक वर्गीकरण (सेरोवर, बीएपीएस, एसटी और सीजीएमएलएसटी) सहित सभी जीनोमिक डेटा प्रविष्टि करें।
  2. नाम बदलें, नए चर बनाएँ, और बहु-डेटासेट एकत्रीकरण से पहले प्रत्येक डेटासेट से रुचि के स्तंभों का चयन करें।
  3. किसी भी स्वतंत्र डेटासेट से अनुपलब्ध मान ों को न निकालें. तब तक प्रतीक्षा करें जब तक कि सभी डेटासेट अनुपलब्ध मानों को संशोधित करने या बाहर करने के लिए एकत्रित न हो जाएं. यदि प्रत्येक डेटासेट के लिए नए चर बनाए जाते हैं, तो अनुपलब्ध मान डिफ़ॉल्ट रूप से नए उत्पन्न वर्गीकरणों में से एक में वर्गीकृत किए जाते हैं।
  4. गलत वर्णों जैसे हाइफ़न या पूछताछ चिह्नों की जाँच करें और उन्हें एनए (लागू नहीं) के साथ बदलें। अनुपलब्ध मानों के लिए भी ऐसा ही करें.
  5. जीनोटाइप के पदानुक्रमित क्रम के आधार पर कुल डेटा (सेरोवर -> बीएपीएस 1 -> एसटी -> सीजीएमएलएसटी), और व्यक्तिगत जीनोम पहचान के आधार पर समूहीकरण द्वारा।
  6. कई रणनीतियों का उपयोग करके लापता मूल्यों की जांच करें और स्पष्ट रूप से ऐसी विसंगतियों से निपटें। केवल एक जीनोम निकालें या डेटा से अलग करें यदि वर्गीकरण अविश्वसनीय है। अन्यथा, किए जा रहे विश्लेषण पर विचार करें और मामले-दर-मामले के आधार पर एनए को हटा दें।
    नोट: इस तरह के मूल्यों से निपटने के लिए एक रणनीति स्थापित करने के लिए अत्यधिक अनुशंसित है एक प्राथमिकता। सभी जीनोम को हटाने से बचें या किसी भी चर में लापता मूल्यों के साथ आइसोलेट्स। उदाहरण के लिए, एक जीनोम में सीजीएमएलएसटी वेरिएंट संख्या के बिना एसटी वर्गीकरण हो सकता है। उस मामले में, जीनोम का उपयोग अभी भी एसटी-आधारित विश्लेषण के लिए किया जा सकता है।
  7. एक बार जब सभी डेटासेट एकत्रित हो जाते हैं, तो उन्हें एक डेटा फ्रेम नाम या ऑब्जेक्ट को असाइन करें जिसका उपयोग अनुवर्ती विश्लेषण में कई स्थानों में किया जा सकता है, ताकि पेपर में प्रत्येक आंकड़े के लिए एक ही मेटाडेटा फ़ाइल उत्पन्न करने से बचा जा सके।

5. आचरण विश्लेषण और विज़ुअलाइज़ेशन उत्पन्न

नोट:: सभी विश्लेषण और विज़ुअलाइज़ेशन का उत्पादन करने के लिए आवश्यक प्रत्येक चरण का एक विस्तृत विवरण इस पेपर (https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code) के लिए मार्कडाउन फ़ाइल में पाया जा सकता है। प्रत्येक आकृति के लिए कोड को चंक्स में अलग किया जाता है और पूरी स्क्रिप्ट को क्रमिक रूप से चलाया जाना चाहिए। इसके अतिरिक्त, प्रत्येक मुख्य और अनुपूरक आकृति के लिए कोड एक अलग फ़ाइल के रूप में प्रदान किया जाता है ( अनुपूरक फ़ाइल 1 और अनुपूरक फ़ाइल 2 देखें)। यहां कुछ आवश्यक बिंदु (कोड के स्निपेट के साथ) प्रत्येक मुख्य और पूरक आंकड़े उत्पन्न करते समय विचार किए जाने के लिए हैं।

  1. जीनोटाइपिक जानकारी (चित्रा 1) के साथ एक फाइलोजेनेटिक पेड़ को प्लॉट करने के लिए गगट्री का उपयोग करें।
    1. xlim() और gheatmap (चौड़ाई = ) कार्यों के अंदर संख्यात्मक मानों को बदलकर, क्रमशः (नीचे उदाहरण कोड देखें) के अंदर संख्यात्मक मानों को बदलकर, छल्ले के व्यास और चौड़ाई सहित ggtree आकृति आकार को अनुकूलित करें।
      tree_plot <- ggtree(पेड़, लेआउट = "परिपत्र") + xlim(-250, NA)
      figure_1 <- gheatmap(tree_plot, d4, ऑफसेट =.0, चौड़ाई = 20, colnames = FALSE)
      नोट:: phylogenetic प्लॉटिंग के लिए उपयोग किया जा सकता है जो प्रोग्राम की अधिक विस्तृत तुलना के लिए, इस कार्य20 की जाँच करें। काम ने डेटासेट के आकार को कम करने जैसे ग्ट्री-आधारित विज़ुअलाइज़ेशन में सुधार करने के लिए रणनीतियों की पहचान करने के प्रयास पर प्रकाश डाला, लेकिन शाखा की लंबाई और पेड़ टोपोलॉजी फंडांगो41 की तुलना में स्पष्ट रूप से भेदभाव नहीं कर रहे थे।
    2. Phylogenetic ट्री (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_1.Rmd) के साथ डेटा की कई परतों की साजिश करते समय रंग पैनल की पसंद को सुविधाजनक बनाने के लिए जितना संभव हो उतना कम श्रेणियों में सभी मेटाडेटा को एकत्रित करें। रुचि और डोमेन ज्ञान के प्रश्न के आधार पर डेटा एकत्रीकरण का संचालन करें।
  2. सापेक्ष आवृत्तियों का आकलन करने के लिए एक बार प्लॉट का उपयोग करें (चित्र 2)।
    1. विज़ुअलाइज़ेशन की सुविधा के लिए एसटी वंश और सीजीएमएलएसटी वेरिएंट दोनों के लिए समग्र डेटा। पूछे जा रहे प्रश्न पर विचार करते समय डेटा एकत्रीकरण के लिए उपयोग की जाने वाली एक अनुभवजन्य या सांख्यिकीय सीमा चुनें।
    2. एक उदाहरण कोड के लिए जिसका उपयोग कट-ऑफ निर्धारित करने के लिए एसटी वंशों की आवृत्ति वितरण का निरीक्षण करने के लिए किया जा सकता है, नीचे देखें:
      st_dist <- d2 %>% group_by(ST) %>% # समूह ST स्तंभ द्वारा समूह
      count() %>% # टिप्पणियों की संख्या की गणना करें
      arrang(desc(n)) # घटते क्रम में गिनती को व्यवस्थित करें
    3. एक उदाहरण कोड के लिए यह दर्शाता है कि कैसे मामूली (कम आवृत्ति) एसटी को एकत्रित किया जा सकता है नीचे देखें। जैसा कि नीचे दिखाया गया है, एसटी जो 5, 31, 45, 46, 118, 132, या 350 के रूप में गिने नहीं जाते हैं, उन्हें "अन्य एसटी" के रूप में एक साथ वर्गीकृत किया गया है। cgMLST वेरिएंट (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_2.Rmd) के लिए एक समान कोड का उपयोग करें।
      d2$st <- ifelse(d2$ST == 5, "ST5", # एक नया एसटी कॉलम बनाएं जिसके लिए मामूली एस टी को दूसरों के रूप में एकत्रित किया जाता है
      ifelse(d2$ST == 31, "ST31",
      ifelse(d2$ST == 45, "ST45",
      ifelse(d2$ST == 46, "ST46",
      ifelse(d2$ST == 118, "ST118",
      ifelse(d2$ST == 132, "ST132", ifelse(d2$ST == 350, "ST350", "अन्य एसटी"))))
  3. प्रत्येक BAPS1 उप-समूह के भीतर प्रत्येक ST वंश के अनुपात की गणना करने के लिए एक नेस्टेड दृष्टिकोण का उपयोग करें ताकि उन एसटी की पहचान की जा सके जो पैतृक रूप से संबंधित हैं (एक ही BAPS1 उप-समूह से संबंधित हैं) (चित्र3)। नीचे दिया गया कोड उदाहरण देता है कि कैसे एसटी-आधारित अनुपात की गणना BAPS1 उप-समूहों (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_3.Rmd) में की जा सकती है:
    baps <- d2b %>% फ़िल्टर(serovar == "Newport") %>% # फ़िल्टर न्यूपोर्ट सेरोवर्स
    चुनें (baps_1, ST) %>% # baps_1 और ST स्तंभों का चयन करें
    उत्परिवर्तित(ST = as.numeric(ST)) %>% # ST स्तंभ को सांख्यिक में बदलें
    drop_na(baps_1, ST) %>% # ड्रॉप NAs
    group_by(baps_1, ST) %>% # समूह द्वारा baps_1 और ST
    संक्षेप में(n = n()) %>% # गिनती टिप्पणियाँ
    उत्परिवर्तित(prop = n/sum(n)*100) # अनुपात की गणना करें
  4. Resfinder-आधारित जीन एनोटेशन परिणामों (चित्रा 4) का उपयोग कर एसटी वंशावली भर में एएमआर लोकी के वितरण की साजिश।
    नोट: Resfinder व्यापक रूप से पारिस्थितिक और महामारी विज्ञान के अध्ययन42 में इस्तेमाल किया गया है। प्रोटीन-कोडिंग जीन का एनोटेशन इस बात पर निर्भर करता है कि डेटाबेस को कितनी बार क्यूरेट और अपडेट किया जाता है, इसके आधार पर भिन्न हो सकता है। यदि सुझाए गए जैव सूचना विज्ञान पाइपलाइन का उपयोग कर रहे हैं, तो शोधकर्ता विभिन्न डेटाबेस20 में एएमआर-आधारित लोकी वर्गीकरण की तुलना कर सकता है। यह जांचना सुनिश्चित करें कि कौन से डेटाबेस लगातार अपडेट किए जा रहे हैं। गलत कॉल से बचने के लिए, पुराने या खराब क्यूरेट किए गए डेटाबेस का उपयोग न करें।
    1. विज़ुअलाइज़ेशन की सुविधा के लिए सबसे महत्वपूर्ण एएमआर लोकी को फ़िल्टर करने के लिए एक अनुभवजन्य या सांख्यिकीय थ्रेशोल्ड का उपयोग करें। एक कच्ची .csv फ़ाइल प्रदान करें जिसमें सभी अनुसूचित जनजाति वंशों में सभी एएमआर लोकी के परिकलित अनुपात हों, जैसे कि यहां दिखाया गया है (https://figshare.com/account/projects/116625/articles/15097503?file=29025687)।
    2. निम्न कोड (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_4.Rmd) का उपयोग कर प्रत्येक ST के लिए AMR अनुपात परिकलित करें:
      # ST45 के लिए गणना
      d2c <- data6 %>% फ़िल्टर(st == "ST45") # पहले ST45 डेटा फ़िल्टर
      # ST45 के लिए, एएमआर लोकी के अनुपात की गणना करें और केवल 10% से अधिक अनुपात रखें

      d3c <- d2c %>% select(id, gene) %>% # कॉलम चुनें
      group_by(id, gene) %>% # id और जीन द्वारा समूह
      संक्षेप में (गणना = n()) %>% # गिनती टिप्पणियाँ
      उत्परिवर्तित (गिनती = प्रतिस्थापित(गिनती, गिनती == 2, 1)) %>% # प्रत्येक जीन की केवल एक प्रति पर विचार करने के लिए 1 के साथ 2 के बराबर गिनती को प्रतिस्थापित करें (दोहराव विश्वसनीय नहीं हो सकता है), लेकिन शोधकर्ता उन्हें बाहर करने या रखने का निर्णय ले सकता है। यदि शोधकर्ता उन्हें बाहर करना चाहता है, तो फ़िल्टर (गिनती != 2) फ़ंक्शन का उपयोग करें या फिर जैसा है वैसा ही छोड़ दें
      फ़िल्टर (गिनती < = 1) # फ़िल्टर नीचे या 1 के बराबर गिनती
      d4c <- d3c %>% group_by (जीन) %>% # जीन द्वारा समूह
      संक्षेप में(मान = n()) %>% # गिनती टिप्पणियाँ
      उत्परिवर्तित(कुल = तालिका(data1$st)[6]) %>% # सेंट उत्परिवर्तित की कुल गणना प्राप्त करें (प्रोप = (मान/कुल)*100) # अनुपात की गणना करें
      d5c <- d4c %>% उत्परिवर्तित(st = "ST45") # एक st स्तंभ बनाएँ और ST जानकारी जोड़ें
    3. सभी एसटी के लिए परिकलन किए जाने के बाद, निम्न कोड का उपयोग करके डेटासेट को एक डेटा फ़्रेम के रूप में संयोजित करें:
      # डेटासेट को संयोजित करें
      d6 <- rbind(d5a, d5b, d5c, d5d, d5e, d5f, d5g, d5h) # पंक्ति बाइंड डेटासेट
    4. परिकलित अनुपात वाली .csv फ़ाइल को निर्यात करने के लिए, कोड का उपयोग करें:
      # निर्यात एसटी और एएमआर लोकी जानकारी युक्त डेटा तालिका
      abx_newport_st <- d6 लिखते हैं.csv (abx_newport_st,"abx_newport_st.csv", row.names = FALSE)
    5. अनुसूचित जनजाति वंशावली में AMR-आधारित वितरण प्लॉट करने से पहले, विज़ुअलाइज़ेशन की सुविधा के लिए थ्रेशोल्ड पर आधारित डेटा को फ़िल्टर करें, जैसा कि नीचे दिखाया गया है:
      # 10% से अधिक या बराबर अनुपात के साथ फ़िल्टर AMR लोकी
      d7 <- d6 %>% फ़िल्टर (प्रोप > = 10) # थ्रेसहोल्ड को अनुभवजन्य या सांख्यिकीय रूप से निर्धारित करें
  5. कोर-जीनोम फाइलोजेनी को पदानुक्रमित जीनोटाइपिक वर्गीकरण और एएमआर डेटा के साथ एक ही प्लॉट में ग्ट्री (चित्रा 5) का उपयोग करके प्लॉट करें।
    1. उपर्युक्त पैरामीटर का उपयोग करके ggtree के अंदर आकृति आकार को ऑप्टिमाइज़ करें (चरण 5.1.1 देखें)।
    2. चर एकत्रित करके, या बाइनरी वर्गीकरण जैसे जीन उपस्थिति या अनुपस्थिति का उपयोग करके विज़ुअलाइज़ेशन ऑप्टिमाइज़ करें. प्लॉट में जितनी अधिक विशेषताएं जोड़ी जाती हैं, रंग चयन प्रक्रिया उतनी ही कठिन हो जाती है (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_5.Rmd)।
      नोट: अनुपूरक आंकड़े - पूरे कोड का विस्तृत विवरण यहां पाया जा सकता है (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd)।
  6. सबसे लगातार जीनोटाइप (अनुपूरक चित्रा 1) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s1.Rmd) को हाइलाइट करते हुए एसटी वंशों या cgMLST वेरिएंट के वितरण को प्रदर्शित करने के लिए डेटा एकत्रीकरण के बिना ggplot2 में एक स्कैटर प्लॉट का उपयोग करें।
  7. एसटी-आधारित आनुवंशिक विविधता की एक झलक पाने के लिए सीजीएमएलएसटी वेरिएंट के अनुपात के माध्यम से एसटी वंशों की संरचना का आकलन करने के लिए एक नेस्टेड विश्लेषण करें, जबकि सबसे लगातार वेरिएंट और उनके आनुवंशिक संबंधों की पहचान करते हुए (यानी, सीजीएमएलएसटी वेरिएंट जो एक ही एसटी से संबंधित हैं, ने अलग-अलग एसटी से संबंधित लोगों की तुलना में हाल ही में एक पूर्वज साझा किया) (पूरक चित्रा 2) ) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s2.Rmd)।
  8. सामुदायिक पारिस्थितिकी मीट्रिक का उपयोग करें, अर्थात् सिम्पसन की विविधता का डी सूचकांक, प्रमुख एसटी वंशावली43 (पूरक चित्रा 3) में से प्रत्येक की क्लोनिटी या जीनोटाइपिक विविधता की डिग्री को मापने के लिए।
    1. बीएपीएस स्तर 1 से 6 और सीजीएमएलएसटी सहित जीनोटाइपिक रिज़ॉल्यूशन के विभिन्न स्तरों पर एसटी वंशों में विविधता के सूचकांक की गणना करें। नीचे जीनोटाइपिक रिज़ॉल्यूशन के BAPS स्तर 1 (BAPS1) पर इस गणना को करने के तरीके पर कोड उदाहरण दिया गया है:
      # BAPS स्तर 1 (BAPS1)
      # एसटी और बीएपीएस 1 को एनए के साथ छोड़ दें, एसटी और बीएपीएस 1 द्वारा समूह और फिर सिम्पसन के सूचकांक की गणना करें
      baps1 <- data6 %>%
      चुनें(st, BAPS1) %>% # स्तंभों का चयन करें
      drop_na(st, BAPS1) %>% # ड्रॉप NAs
      group_by(st, BAPS1) %>% # स्तंभों द्वारा समूह
      संक्षेप में(n = n()) %>% # गिनती टिप्पणियाँ
      उत्परिवर्तित (सिम्पसन = विविधता (एन, "सिम्पसन")) %>% # विविधता की गणना करें
      group_by(st) %>% # स्तंभ द्वारा समूह
      संक्षेप में(सिम्पसन = माध्य(सिम्पसन)) %>% # सूचकांक के माध्य की गणना करें
      पिघल (id.vars = c("st"), measure.vars="simpson",
      variable.name="अनुक्रमणिका", value.name="मान") %>% # गुप्त को लंबे स्वरूप में
      उत्परिवर्तित (स्ट्रैट = "BAPS1") # एक स्ट्रैट कॉलम बनाएं
      नोट: एक अधिक आनुवंशिक रूप से विविध आबादी (यानी, जीनोटाइपिक रिज़ॉल्यूशन की विभिन्न परतों पर अधिक वेरिएंट) में cgMLST स्तर पर एक उच्च सूचकांक है और बीएपीएस स्तर 2 से 6 (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s3.Rmd) तक जाने वाले बढ़ते सूचकांक-आधारित मूल्यों का उत्पादन करता है।
  9. संकल्प के सभी स्तरों (BAPS1-6) (अनुपूरक चित्रा 4) पर BAPS उप-समूहों की सापेक्ष आवृत्ति की साजिश रचकर अनुसूचित जनजाति वंशावली की जीनोटाइपिक विविधता की डिग्री की जांच करें। आबादी जितनी अधिक विविध है, बीएपीएस उप-समूहों (हैप्लोटाइप्स) का वितरण उतना ही स्पैसर बीएपीएस 1 (रिज़ॉल्यूशन का निचला स्तर) से बीएपीएस 6 (रिज़ॉल्यूशन का उच्च स्तर) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s4.Rmd) तक जा रहा है।

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

जनसंख्या जीनोमिक्स विश्लेषण के लिए कम्प्यूटेशनल प्लेटफ़ॉर्म ProkEvo का उपयोग करके, बैक्टीरियल WGS डेटा खनन में पहला कदम एक कोर-जीनोम फाइलोजेनी (चित्रा 1) के संदर्भ में पदानुक्रमित जनसंख्या संरचना की जांच करना शामिल है। एस के मामले में। Enterica वंश मैं, के रूप में एस द्वारा उदाहरण के रूप में . Newport डेटासेट, जनसंख्या पदानुक्रमित रूप से निम्नानुसार संरचित है: serovar (रिज़ॉल्यूशन का निम्नतम स्तर), BAPS1 उप-समूह या हैप्लोटाइप, एसटी वंश, और cgMLST वेरिएंट (रिज़ॉल्यूशन का उच्चतम स्तर)20। पदानुक्रमित जनसंख्या संरचना का यह फाइलोजेनी-निर्देशित विश्लेषण विशेष रूप से निम्नलिखित बिंदुओं की जांच करने की अनुमति देता है: i) साल्मोनेला के मामले में अन्य सेरोवर में एसआईएसटीआर-आधारित गलत वर्गीकृत जीनोम का फाइलोजेनेटिक वितरण; ii) जनसंख्या की आनुवांशिक या रिश्तेदारी संरचना; iii) जीनोटाइपिक रिज़ॉल्यूशन के विभिन्न स्तरों पर विविधीकरण का पैटर्न; iv) एक विकासवादी, पारिस्थितिकीय, या महामारी विज्ञान पैटर्न अंतर्निहित प्रमुख जीनोटाइपिक इकाई (ओं) की पहचान; v) बीएपीएस 1 उप-समूहों या हैप्लोटाइप संरचना के माध्यम से एसटी वंशों के बीच पैतृक संबंध, और एसटी वंशों के भीतर सीजीएमएलएसटी वेरिएंट में; और vi) सीजीएमएलएसटी संस्करण संरचना द्वारा एसटी वंश की जीनोटाइपिक समरूपता की डिग्री का आंशिक दृश्य।

Figure 1
चित्रा 1: एस के लिए पदानुक्रमित जीनोटाइप के फाइलोजेनी-निर्देशित मानचित्रण न्यूपोर्ट जनसंख्या एक कोर-जीनोम फाइलोजेनी (काला केंद्रित सर्कल) का उपयोग पदानुक्रमित जीनोटाइप को मैप करने के लिए किया गया था, जिसमें सेरोवर (रिज़ॉल्यूशन का सबसे कम स्तर - सबसे भीतरी रंग का सर्कल), बीएपीएस स्तर 1 (बीएपीएस 1) उप-समूह या हैप्लोटाइप, एसटी वंश, और सीजीएमएलएसटी वेरिएंट (रिज़ॉल्यूशन का उच्चतम स्तर - सबसे बाहरी रंगीन सर्कल) शामिल हैं। सेरोवर्स को न्यूपोर्ट (एस) में वर्गीकृत किया गया था। न्यूपोर्ट) या "अन्य serovars" जीनोम के SISTR एल्गोरिथम वर्गीकरण पर आधारित है, जो कोर-जीनोम MLST जानकारी का उपयोग करता है, और कम्प्यूटेशनल प्लेटफ़ॉर्म ProkEvo के हिस्से के रूप में चलाया। BAPS1 agnostically उप-समूहों या ProkEvo के भीतर कोर-जीनोमिक डेटा का उपयोग करके संबंधित हैप्लोटाइप के समूहों में आबादी को स्ट्रैटिफाई करता है। BAPS1 को पदानुक्रमित रूप से सेरोवर और एसटी वंशों के बीच रखा गया है क्योंकि इसने एसटी के बीच पैतृक संबंधों को सही ढंग से कैप्चर किया है। एसटी वंश सात जीनोम-बिखरे हुए लोकी का उपयोग करके विहित एमएलएसटी विश्लेषण के आधार पर बनाए जाते हैं। ग्राफ में केवल प्रमुख या सबसे अधिक बार एसटी (अनुपात >1%) को दर्शाया गया था। अंत में, एस के लिए संपूर्ण पदानुक्रमित संरचना को दिखाने के लिए केवल सबसे लगातार सीजीएमएलएसटी वेरिएंट (अनुपात >3.5%) का उपयोग किया गया था न्यूपोर्ट जनसंख्या (एन = 2,365 संयुक्त राज्य अमेरिका केवल अलग करता है)। श्रेणी "अन्य एसटी" या "अन्य सीजीएमएलएसटी" में क्रमशः मामूली या कम आवृत्ति वाले वंश या वेरिएंट शामिल हैं, जिसमें थ्रेशोल्डिंग मनमाने ढंग से की जाती है जिसे डेटासेट के आधार पर अनुभवजन्य या सांख्यिकीय रूप से सेट किया जाना चाहिए। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

सभी पदानुक्रमित जीनोटाइप की सापेक्ष आवृत्तियों का उपयोग तब समग्र वितरण का मूल्यांकन करने के लिए किया गया था और सबसे अधिक बार देखे गए वर्गीकरण (यानी, जीनोटाइप) (चित्रा 2)। चित्रा 2C-D में, कम लगातार (मामूली) एसटी वंश या cgMLST वेरिएंट को क्रमशः "अन्य एसटी" या "अन्य cgMLSTs" के रूप में एकत्रित किया गया था, ताकि डेटा विज़ुअलाइज़ेशन (आयामी कमी) को सुविधाजनक बनाया जा सके। यदि नमूनाकरण व्यवस्थित रूप से वातावरण और / या मेजबानों में किया जाता है और उचित रूप से सांख्यिकीय रूप से संचालित होता है, तो आवृत्ति वितरण पारिस्थितिक फिटनेस के लिए एक प्रॉक्सी बन सकता है। यही है, सबसे लगातार वंशों या वेरिएंट को तब उच्च फिटनेस की भविष्यवाणी की जा सकती है, इस तरह के मात्रात्मक विशेषता 6,30 अंतर्निहित प्रेरक आनुवंशिक निर्धारकों को निर्धारित करने के लिए आगे की जांच की जा सकती है

Figure 2
चित्र 2: S का अनुपात रिज़ॉल्यूशन के विभिन्न स्तरों पर न्यूपोर्ट पदानुक्रमित जीनोटाइप। () सेरोवर एस के फेनोटाइप हैं। एंटरिका वंश I जनसंख्या जिसे कोर-लोकी और ओ और एच एंटीजेनिक-कोडिंग लोकी (सतह प्रोटीन) के बीच वंशानुगत उच्च लिंकेज असंतुलन के कारण पूरी तरह से कोर-जीनोमिक डेटा से भविष्यवाणी की जा सकती है। ProkEvo का उपयोग करते समय, साल्मोनेला जीनोम स्वचालित रूप से SISTR कार्यक्रम का उपयोग करके serovars के लिए वर्गीकृत कर रहे हैं। हालांकि केवल एस। एनसीबीआई से न्यूपोर्ट (न्यूपोर्ट) जीनोम को परिष्कृत रूप से डाउनलोड किया गया था, कुछ को प्रोकेवो के भीतर "अन्य सेरोवर" के रूप में वर्गीकृत किया गया है। सभी जीनोम के लगभग 2% (2,365 में से 48) को एस के अलावा अन्य के रूप में वर्गीकृत किया गया था न्यूपोर्ट सेरोवर । (बी) बीएपीएस स्तर 1 (बीएपीएस 1) उप-समूहों या हैप्लोटाइप का अनुपात। BAPS1 को पदानुक्रमित योजना में सेरोवर और एसटी वंशों के बीच डाला गया है क्योंकि यह एसटी के बीच पैतृक संबंधों को सटीक और agnostically कैप्चर करता है। (C) प्रमुख एसटी वंशों के अनुपात में केवल एसटी को दर्शाया गया है जो सापेक्ष आवृत्ति में 1% > थे। मामूली एसटी को "अन्य एसटी" के रूप में वर्गीकृत किया गया था। (D) प्रमुख cgMLST वेरिएंट के अनुपात ने केवल चार प्रमुख cgMLSTs दिखाए जो सापेक्ष आवृत्ति में >3% थे। शेष cgMLSTs को "अन्य cgMLSTs" के रूप में वर्गीकृत किया गया था। (B-D) एसआईएसटीआर द्वारा "अन्य सेरोवर" (2.03%) के रूप में वर्गीकृत जीनोम को बीएपीएस 1, एसटी और सीजीएमएलएसटी सापेक्ष आवृत्तियों की साजिश रचने से पहले डेटा से फ़िल्टर किया गया था। (C-D) एसटी और सीजीएमएलएसटी डेटा दोनों को प्लॉट करने के लिए उपयोग किए जाने वाले थ्रेसहोल्ड को मनमाने ढंग से परिभाषित किया गया था और इसे केस-बाय-केस आधार पर अनुभवजन्य रूप से स्थापित किया जाना चाहिए। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

वैकल्पिक रूप से, एक स्कैटर-प्लॉट का उपयोग एसटी वंश या सीजीएमएलएसटी वेरिएंट दोनों के वितरण और अनुपात का आकलन करने के लिए किया जा सकता है, बिना किसी डेटा एकत्रीकरण के (पूरक चित्रा 1)। स्कैटर-प्लॉट का यह उपयोग एसटी वंशों और सीजीएमएलएसटी वेरिएंट के लिए विशेष रूप से उपयोगी है क्योंकि सौवें की विशिष्ट घटना, यदि हजारों नहीं, तो दोनों जीनोटाइप के लिए वर्गीकरण। यह विरल वितरण आमतौर पर रिज़ॉल्यूशन के सेरोवर और बीएपीएस 1 स्तरों के लिए नहीं होता है, क्योंकि वे कुछ उप-समूहों या श्रेणियों में वंशानुगत रूप से ढहने वाले अनुक्रमों के साथ रिज़ॉल्यूशन के निचले स्तर पर होते हैं।

इसके बाद, एसटी के बीच पैतृक संबंधों की जांच एक नेस्टेड दृष्टिकोण का उपयोग करके की गई थी जिसमें बीएपीएस 1 उप-समूहों या हैप्लोटाइप्स (चित्रा 3) द्वारा एसटी वंशों की सापेक्ष आवृत्ति का आकलन शामिल है। एसटी वंश जो एक ही बीएपीएस 1 उप-समूह से संबंधित थे, वे अन्य एसटी (यानी, एसटी 5 और एसटी 118 बनाम एसटी 45) की तुलना में हाल ही में एक सामान्य पूर्वज साझा करने की अधिक संभावना रखते थे। इसी तरह, एसटी वंशों के भीतर सीजीएमएलएसटी वेरिएंट के वितरण की जांच करके, एसटी में जीनोटाइपिक विषमता की डिग्री पर कब्जा किया जा सकता है, जबकि उनकी आनुवंशिक संरचना का आकलन किया जा सकता है और सीजीएमएलएसटी के बीच पैतृक संबंध का खुलासा किया जा सकता है (यानी, निकटता से संबंधित सीजीएमएलएसटी वेरिएंट एक ही एसटी वंश या क्लोनल कॉम्प्लेक्स से संबंधित हैं) (पूरक चित्रा 2)।

Figure 3
चित्रा 3: S के लिए BAPS1 उप-समूहों के भीतर नेस्टेड एसटी वंशों का वितरण न्यूपोर्ट जनसंख्या। यह प्लॉट प्रत्येक बीएपीएस स्तर 1 उप-समूह या हैप्लोटाइप के भीतर एसटी वंश वितरण को दर्शाता है, जिसमें "अन्य सेरोवर" (पूरे डेटा का 2.03%) के रूप में वर्गीकृत जीनोम को छोड़कर। प्रत्येक BAPS1 उप-समूह के लिए प्रमुख एसटी (अनुपात >1%) प्रत्येक ग्राफ में हाइलाइट किए गए हैं। सर्कल व्यास जितना बड़ा होगा, विशेष एसटी वंश के लिए अनुपात उतना ही अधिक होगा। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

यह देखते हुए कि एस का पैटर्न न्यूपोर्ट जनसंख्या विविधीकरण ज्यादातर एसटी संरचना (चित्रा 1) द्वारा संचालित प्रतीत होता है, दो सांख्यिकीय दृष्टिकोणों का उपयोग क्लोनलिटी (यानी, आनुवंशिक समरूपता) की एसटी-आधारित डिग्री का आकलन करने के लिए किया गया था, जिसमें सिम्पसन की विविधता का डी सूचकांक (पूरक चित्रा 3) और बीएपीएस स्तर 1-6 का उपयोग करके बीएपीएस उप-समूहों या हैप्लोटाइप का वितरण शामिल था (पूरक चित्रा 4)। ). एक आबादी की क्लोनिटी की डिग्री का आकलन निम्नलिखित पहलुओं को स्पष्ट कर सकता है: i) आनुवंशिक विविधता और जनसंख्या संरचना की बेहतर समझ; ii) एसटी वंशों जैसे प्रमुख जीनोटाइपिक इकाइयों में विविधीकरण के पैटर्न का ठीक-ट्यूनिंग विश्लेषण; और iii) गुप्त जीनोटाइपिक इकाइयों को खोजने के लिए गौण जीनोम खनन का उपयोग करने की आवश्यकता का एक संकेतक हो सकता है जो आबादी में मौजूद उपन्यास उप-समूहों को प्रकट कर सकता है। एक आबादी कोर-जीनोम स्तर पर जितनी अधिक क्लोनल होती है, उतनी ही कठिन रूपों के बीच अंतर करना होता है, और अधिक संभावना है कि गौण जीनोम सामग्री अद्वितीय पारिस्थितिक वितरण18,19,21 से जुड़ी सार्थक जीनोटाइपिक इकाइयों में आबादी को स्थिर करने के लिए जानकारीपूर्ण होगी।

अनुसूचित जनजाति वंश की सापेक्ष आवृत्ति एएमआर लोकी को अलग करने के लिए एस से जुड़े अद्वितीय सहायक जीनोमिक हस्ताक्षरों की पहचान करने के लिए मूल्यांकन किया गया था न्यूपोर्ट जनसंख्या संरचना (चित्रा 4)। विश्लेषण का यह चरण एएमआर वितरण पर केंद्रित था क्योंकि यह एक सार्वजनिक स्वास्थ्य से जुड़ी विशेषता है, लेकिन एक ही दृष्टिकोण को एक्सेसरी जीनोम के अन्य घटकों की जांच करने के लिए पर्यवेक्षित (लक्षित) या अज्ञेयवादी फैशन में लागू किया जा सकता है, जिसमें चयापचय मार्ग, विषाणु कारक आदि शामिल हैं। उल्लेखनीय रूप से, mdf(A)_1 और aac(6')-Iaa_1 लोकी को एस द्वारा पैतृक रूप से अधिग्रहित किया गया प्रतीत होता है। न्यूपोर्ट जनसंख्या; जबकि, एसटी 45 को बहु-दवा प्रतिरोधी होने की भविष्यवाणी की गई है। आश्चर्यजनक रूप से, इन आंकड़ों से यह भी पता चलता है कि अन्य प्रमुख एसटी वंश, एसटी 5 और एसटी 118, एसटी 45 की तुलना में बहु-दवा अतिसंवेदनशील होने की अधिक संभावना है। डेटासेट में मौजूद पूर्वाग्रहों के कारण इन बिंदुओं पर सावधानीपूर्वक विचार किया जाना चाहिए; हालांकि, यह एक संभावित महामारी विज्ञान अनुमान का प्रतिनिधित्व करता है जिसे अधिक मजबूत डब्ल्यूजीएस डेटा संग्रह से बनाया जा सकता है।

सामान्य तौर पर, पदानुक्रमित जीनोटाइप पर एक सहायक जीनोम मैपिंग का संचालन करते समय विचार किए जाने वाले कुछ बिंदु यहां दिए गए हैं: i) आवृत्ति वितरण को मात्रात्मक विशेषता के रूप में मानते हैं लेकिन ध्यान रखें कि एक लोकस की एलेलिक संरचना विशेषता विचरण को बदल सकती है। इसके अलावा, एक लोकस या लोकी की उपस्थिति कार्य का संकेत होना चाहिए लेकिन कारण नहीं होना चाहिए, क्योंकि फेनोटाइप पॉलीजेनिक हो सकता है, या प्रेरक लोकस के लिए एलेलिक संरचना के अनुसार भिन्न हो सकता है (उदाहरण के लिए, प्रोटीन की सक्रिय साइट पर एक गैर-पर्यायवाची उत्परिवर्तन कार्य को प्रभावित करने की अधिक संभावना है); ii) लोकी वितरण उन जीनों को प्रदर्शित कर सकता है जो आबादी में तय किए गए हैं (उदाहरण के लिए, सभी एसटी वंशों में उच्च आवृत्ति में पाए जाते हैं) या हाल ही में विशिष्ट एसटी वंशों और सीजीएमएलएसटी वेरिएंट द्वारा अधिग्रहित किए गए हैं, और पारिस्थितिक या महामारी विज्ञान पैटर्न को प्रतिबिंबित कर सकते हैं; iii) जीनोमिक्स डेटा से बहु-दवा प्रतिरोध की भविष्यवाणी की जा सकती है। और यदि एएमआर लोकी, या अन्य मार्गों का वितरण, दृढ़ता से जुड़ा हुआ है या आमतौर पर विशिष्ट वंशों द्वारा विरासत में मिला है, तो फेनोटाइप्स को पदानुक्रमित जीनोटाइप से अनुमान द्वारा भविष्यवाणी की जा सकती है, जैसे कि एसटी वंश45,46 के मामले में; और iv) प्रयोगशाला में फेनोटाइप को मापना अभी भी कम्प्यूटेशनल भविष्यवाणियों को मान्य करने के लिए नियतात्मक है।

Figure 4
चित्रा 4: एस के प्रमुख एसटी वंशों में एएमआर लोकी का वितरण न्यूपोर्ट जनसंख्या। प्रमुख अनुसूचित जनजाति वंशावली (जनसंख्या का >1%) में एएमआर लोकी की एक चयनित संख्या का सापेक्ष आवृत्ति-आधारित वितरण। मामूली एसटी को "अन्य एसटी" के रूप में वर्गीकृत किया गया था। केवल जीनोम को एस के रूप में वर्गीकृत किया गया है। SISTR एल्गोरिथ्म द्वारा Newport विश्लेषण में रखा गया था। 10% से अधिक या बराबर सापेक्ष आवृत्ति के साथ एएमआर लोकी को डेटा विज़ुअलाइज़ेशन के लिए चुना गया था। यह एक मनमाना थ्रेशोल्ड है जिसे प्रत्येक डेटासेट के लिए निर्धारित किया जाना चाहिए। अनुपात की गणना जीन उपस्थिति या अनुपस्थिति से बने बाइनरी मैट्रिक्स का उपयोग करके की गई थी। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

अंत में, जीन घटना (चित्रा 5) के आधार पर एएमआर लोकी वितरण को अलग करने वाले एसटी वंश के साथ-साथ पदानुक्रमित जनसंख्या संरचना डेटा को व्यवस्थित रूप से एकीकृत करने के लिए एक फाइलोजेनी-एंकर्ड विज़ुअलाइज़ेशन का उपयोग किया गया था। गौण जीनोमिक संरचना के साथ जनसंख्या संरचना के संयोजन से, किसी भी दिए गए डेटासेट में प्रश्नों के निम्नलिखित सेट को संबोधित किया जा सकता है: 1) जनसंख्या कैसे संरचित है? एसटी बीएपीएस 1 उप-समूहों के माध्यम से एक-दूसरे से और पैतृक रूप से कैसे संबंधित हैं? एसटी में सीजीएमएलएसटी संरचना कितनी चर है? 2) phylogenetic ब्रांचिंग पैटर्न और समग्र पेड़ टोपोलॉजी क्या है? और 3) गौण जीनोम कैसे वितरित किया जाता है? क्या गौण जीनोमिक संरचना ज्यादातर पैतृक रूप से अधिग्रहित या हाल ही में व्युत्पन्न होने की संभावना है? वंश या संस्करण-विशिष्ट पैटर्न क्या है? फेनोटाइपिक भविष्यवाणी और पारिस्थितिक अनुमान क्या है? क्या आला-पार बनाम आला-निर्दिष्ट जीन हैं? देखा गया पैटर्न रोगजनकों के मामले में महामारी विज्ञान से कैसे संबंधित या सूचित करता है? क्या वंशावली या वेरिएंट को सहायक जीनोमिक सामग्री के आधार पर सूचनात्मक रूप से उप-क्लस्टर किया जा सकता है?

Figure 5
चित्रा 5: पदानुक्रमित जीनोटाइप और गौण एएमआर लोकी के फाइलोजेनी-निर्देशित मानचित्रण एस के भीतर प्रमुख एसटी वंशों के बीच अंतर करते हैं न्यूपोर्ट जनसंख्या। एक कोर-जीनोम फाइलोजेनी (काला केंद्रित सर्कल) का उपयोग पदानुक्रमित जीनोटाइप को मैप करने के लिए किया गया था, जिसमें सेरोवर (रिज़ॉल्यूशन का सबसे कम स्तर - सबसे भीतरी रंग का सर्कल), बीएपीएस स्तर 1 (बीएपीएस 1) उप-समूह या हैप्लोटाइप, एसटी वंशावली, और सीजीएमएलएसटी वेरिएंट (रिज़ॉल्यूशन का उच्चतम स्तर - सबसे बाहरी रंगीन सर्कल), एएमआर लोकी के साथ गहरे-नीले रंग के रूप में रंगीन यदि मौजूद है या अनुपस्थित होने पर ग्रे। सेरोवर्स को न्यूपोर्ट (एस) में वर्गीकृत किया गया था। Newport) या "अन्य serovars" SISTR एल्गोरिथम वर्गीकरण के आधार पर। BAPS1 को सेरोवर और एसटी वंशों के बीच पदानुक्रमित रूप से रखा गया है क्योंकि यह एसटी के बीच पैतृक संबंधों को सटीक और agnostically कैप्चर करता है। एसटी वंशावली सात जीनोम-बिखरे हुए लोकी का उपयोग करके विहित MLST विश्लेषण के आधार पर बनाई जाती है। ग्राफ में केवल प्रमुख या सबसे अधिक बार एसटी (अनुपात >1%) को दर्शाया गया था। इसके अलावा, एस के लिए संपूर्ण पदानुक्रमित संरचना को दिखाने के लिए केवल सबसे प्रमुख सीजीएमएलएसटी वेरिएंट (अनुपात >3.5%) का उपयोग किया गया था न्यूपोर्ट जनसंख्या (एन = 2,365 संयुक्त राज्य अमेरिका केवल अलग करता है)। श्रेणी "अन्य एसटी" या "अन्य सीजीएमएलएसटी" में क्रमशः मामूली या कम आवृत्ति वाले वंश या वेरिएंट शामिल हैं, और थ्रेशोल्डिंग मनमाने ढंग से की गई थी और डेटासेट के आधार पर सेट की जानी चाहिए। 10% से अधिक या बराबर सापेक्ष आवृत्ति के साथ एएमआर लोकी को डेटा विज़ुअलाइज़ेशन के लिए चुना गया था। यह विशिष्ट ग्राफ मुख्य रूप से ST31, ST45, और ST132 वंशों में होने वाली AMR लोकी का एक अद्वितीय वितरण दिखाता है। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

अनुपूरक चित्रा 1: एस के लिए एसटी वंश और सीजीएमएलएसटी वेरिएंट का विरल वितरण न्यूपोर्ट जनसंख्या। () कम आवृत्ति वाले अनुसूचित जनजातियों को एकत्रित किए बिना अनुसूचित जनजाति के वंशों के अनुपात >1% के अनुपात को प्लॉट में हाइलाइट किया गया है। (बी) कम आवृत्ति वाले सीजीएमएलएसटी को एकत्रित किए बिना सीजीएमएलएसटी वेरिएंट का अनुपात। 3% के अनुपात > साथ cgMLSTs को प्लॉट में हाइलाइट किया गया है। (A-B) एसटी और सीजीएमएलएसटी डेटा दोनों को प्लॉट करने के लिए उपयोग किए जाने वाले थ्रेसहोल्ड को मनमाने ढंग से परिभाषित किया गया था और डेटासेट के आधार पर स्थापित किया जाना चाहिए। एसआईएसटीआर द्वारा "अन्य सेरोवर" (2.03%) के रूप में वर्गीकृत जीनोम को एसटी और सीजीएमएलएसटी सापेक्ष आवृत्तियों दोनों की साजिश रचने से पहले डेटा से फ़िल्टर किया गया था। सर्कल व्यास जितना बड़ा होगा, एसटी वंश या सीजीएमएलएसटी संस्करण के लिए अनुपात उतना ही अधिक होगा। कृपया इस फ़ाइल को डाउनलोड करने के लिए यहाँ क्लिक करें।

अनुपूरक चित्रा 2: एस के लिए एसटी वंशों के भीतर नेस्टेड सीजीएमएलएसटी वेरिएंट का वितरण न्यूपोर्ट जनसंख्या। यह प्लॉट एसटी वंशों में सीजीएमएलएसटी वेरिएंट वितरण को दर्शाता है, जिसमें "अन्य सेरोवर" (पूरे डेटा का 2.03%) के रूप में वर्गीकृत जीनोम को छोड़कर। प्रत्येक एसटी वंश के लिए प्रमुख सीजीएमएलएसटी (अनुपात >15%) प्रत्येक ग्राफ में हाइलाइट किए गए हैं। सर्कल व्यास जितना बड़ा होगा, विशिष्ट सीजीएमएसएलटी संस्करण के लिए अनुपात उतना ही अधिक होगा। कम आवृत्ति वाले एसटी को "अन्य एसटी" के रूप में वर्गीकृत किया गया था। कृपया इस फ़ाइल को डाउनलोड करने के लिए यहाँ क्लिक करें।

अनुपूरक चित्रा 3: सिम्पसन की डी-आधारित डिग्री एसटी वंशावली में आनुवांशिक विविधता की डिग्री बीएपीएस स्तरों 1-6 हैप्लोटाइप या सीजीएमएलएसटी जीनोटाइप का उपयोग एस के लिए इनपुट डेटा के रूप में न्यूपोर्ट जनसंख्या। प्रत्येक एसटी वंश की क्लोनिटी या आनुवंशिक विविधता की डिग्री की गणना संकल्प की विभिन्न जीनोटाइपिक परतों में की गई थी, जिसमें बीएपीएस स्तर 1 (रिज़ॉल्यूशन का सबसे निचला स्तर) से 6 (रिज़ॉल्यूशन का उच्चतम स्तर) उप-समूह या हैप्लोटाइप शामिल हैं, और इसके अतिरिक्त रूप से सीजीएमएलएसटी-आधारित वितरण का उपयोग करके वेरिएंट का उपयोग करके। सूचकांक मूल्य जितना अधिक होगा, आनुवंशिक विविधता की डिग्री उतनी ही अधिक होगी। अत्यधिक विविध एसटी वंशों में बीएपीएस 1 से बीएपीएस 6 तक जाने वाले उच्च सूचकांक मूल्य होते हैं (यानी, आमतौर पर सूचकांक बढ़ता है और अंततः बीएपीएस 1 से बीएपीएस 6 तक जाते समय पठार होता है)। केवल जीनोम को एस के रूप में वर्गीकृत किया गया है। SISTR कार्यक्रम द्वारा Newport विश्लेषण में रखा गया था. कम आवृत्ति वाले एसटी को "अन्य एसटी" के रूप में वर्गीकृत किया गया था। कृपया इस फ़ाइल को डाउनलोड करने के लिए यहाँ क्लिक करें।

अनुपूरक चित्रा 4: एस न्यूपोर्ट आबादी के प्रमुख एसटी वंशों में बीएपीएस स्तरों 1-6 उप-समूहों या हैप्लोटाइप का वितरण। बीएपीएस उप-समूहों या हैप्लोटाइप्स का सापेक्ष आवृत्ति-आधारित वितरण, प्रमुख एसटी वंशों में, सबसे कम (बीएपीएस 1) से रिज़ॉल्यूशन के उच्चतम स्तर (बीएपीएस 6) तक। प्रमुख एसटी का चयन >1% के अनुपात के आधार पर किया गया था। केवल जीनोम को एस के रूप में वर्गीकृत किया गया है। SISTR कार्यक्रम द्वारा Newport विश्लेषण में रखा गया था. क्लोनालिटी की डिग्री जितनी अधिक होगी, बीएपीएस 1 से बीएपीएस 6 तक जाते समय बीएपीएस उप-समूहों या हैप्लोटाइप्स का वितरण उतना ही कम विरल या फैल जाएगा। दूसरे शब्दों में, एक अधिक आनुवंशिक रूप से विविध एसटी वंश में बीएपीएस स्तर 6 (रिज़ॉल्यूशन की उच्चतम डिग्री) पर बीएपीएस उप-समूहों की एक विस्तृत श्रृंखला है। कम आवृत्ति वाले एसटी को "अन्य एसटी" के रूप में वर्गीकृत किया गया था। कृपया इस फ़ाइल को डाउनलोड करने के लिए यहाँ क्लिक करें।

अनुपूरक फ़ाइल 1: सामग्री सूची और जीनोम सूची के लिए लिंक कृपया इस फ़ाइल को डाउनलोड करने के लिए यहाँ क्लिक करें.

अनुपूरक फ़ाइल 2: पदानुक्रमित-आधारित जीवाणु जनसंख्या जीनोमिक्स विश्लेषण R का उपयोग करके कृपया इस फ़ाइल को डाउनलोड करने के लिए यहां क्लिक करें।

Subscription Required. Please recommend JoVE to your librarian.

Discussion

एक सिस्टम-आधारित ह्यूरिस्टिक और पदानुक्रमित जनसंख्या संरचना विश्लेषण का उपयोग बैक्टीरिया डेटासेट में उपन्यास जीनोमिक हस्ताक्षरों की पहचान करने के लिए एक रूपरेखा प्रदान करता है जिसमें अद्वितीय पारिस्थितिक और महामारी विज्ञान पैटर्न20 की व्याख्या करने की क्षमता होती है। इसके अतिरिक्त, जनसंख्या संरचना पर सहायक जीनोम डेटा के मानचित्रण का उपयोग पैतृक रूप से अधिग्रहित और / या हाल ही में व्युत्पन्न लक्षणों का अनुमान लगाने के लिए किया जा सकता है जो 6,20,21,45,46 जलाशयों में एसटी वंशों या सीजीएमएलएसटी वेरिएंट के प्रसार की सुविधा प्रदान करते हैं अधिक व्यापक रूप से, बैक्टीरिया की आबादी में पैन-जीनोमिक सामग्री वितरण का एक वैश्विक मूल्यांकन विविधीकरण के पैटर्न को प्रकट कर सकता है जो पारिस्थितिक ट्रोपिज़्म या भू-स्थानिक / अस्थायी बाधाओं को रेखांकित करता है जो एक आबादी ने हाल ही में18,21 का सामना किया होगा। रोगजनक प्रजातियों के मामले में, नैदानिक बनाम पर्यावरणीय आइसोलेट्स की जनसंख्या संरचना का खनन करके, जूनोटिक घटनाओं से जुड़े आनुवंशिक निर्धारकों की पहचान की जा सकती है और निदान और निगरानी में सुधार करने के लिए उपयोग किया जा सकताहै 33,34। वांछनीय आला-विशिष्ट एन्ग्राफ्टिंग गुणों के साथ जीनोटाइप की पहचान करने के लिए गैर-रोगजनक प्रजातियों पर एक ही दृष्टिकोण लागू किया जा सकता है, जैसा कि मानव स्वास्थ्य 49,50,51 में सुधार के लिए उपयोग किए जाने वालेजठरांत्र प्रोबायोटिक उपभेदों के मामले में होता है। फिर भी, जनसंख्या-आधारित पूछताछ के लिए बैक्टीरियल डब्ल्यूजीएस डेटा के उपयोग के लिए प्रोकेवो20 जैसे पुनरुत्पादक, स्वचालित और स्केलेबल कम्प्यूटेशनल प्लेटफार्मों के उपयोग की आवश्यकता होती है। कोई भी कम्प्यूटेशनल दृष्टिकोण इसकी चेतावनी और बारीकियों के साथ आता है, लेकिन सामान्य रूप से, स्वतंत्र रूप से उपलब्ध, अच्छी तरह से प्रलेखित, पोर्टेबल, और उपयोगकर्ता के अनुकूल प्लेटफ़ॉर्म जैसे कि प्रोकेवो सूक्ष्मजीवविज्ञानी, पारिस्थितिकीविदों और महामारी विज्ञानियों के काम को सुविधाजनक बना सकते हैं जो हेरिस्टिक बैक्टीरियल जनसंख्या-आधारित जीनोमिक्स कर रहे हैं।

वर्तमान कार्य में, यह प्रदर्शित किया गया था कि एक पदानुक्रमित जनसंख्या संरचना विश्लेषण करने के लिए प्रोकेवो-व्युत्पन्न आउटपुट का उपयोग कैसे किया जाए, जिसका उपयोग डब्ल्यूजीएस डेटा से उपयोगी लक्षणों की भविष्यवाणी करने के साथ-साथ संकल्प के विभिन्न स्तरों पर ब्याज के जीनोटाइप को मैप और ट्रैक करने के लिए किया जा सकता है। इस कम्प्यूटेशनल प्रोटोकॉल को आर प्रोग्रामिंग भाषा का उपयोग करके लिखा गया था, लेकिन उदाहरण के लिए, पांडा लाइब्रेरी के उपयोग के माध्यम से पाइथन जैसी अन्य भाषाओं के लिए रूपरेखा या वैचारिक दृष्टिकोण सामान्यीकृत है। इनपुट डेटा ProkEvo20 द्वारा उत्पन्न किया जाता है, जो बाद के विश्लेषण के लिए आउटपुट और डेटा प्रारूपों के मानकीकरण के संदर्भ में कुछ बाधाओं का सामना करने से रोकता है। फाइलोजेनी के अपवाद के साथ, अन्य सभी इनपुट डेटासेट एक सारणीबद्ध प्रारूप में आते हैं जिन्हें डेटा व्याख्या के लिए उपयोगी रिपोर्ट उत्पन्न करने के लिए आसानी से गुणवत्ता-नियंत्रित, एकत्रित, पार्स किया जा सकता है, और एकीकृत किया जा सकता है। हालांकि, इस प्रोटोकॉल का उपयोग करते समय पुनरुत्पादन को बढ़ाने के लिए कुछ महत्वपूर्ण चरणों को उजागर करना महत्वपूर्ण है: i) सुनिश्चित करें कि सॉफ़्टवेयर संस्करण हमेशा अपडेट और ट्रैक किए जाते हैं; ii) उपयोग किए जा रहे डेटा विज्ञान पुस्तकालयों के संस्करणों को ट्रैक करें, और अधिमानतः समय के साथ उन्हें अपडेट करें; iii) गुणवत्ता-नियंत्रण डोमेन ज्ञान विशेषज्ञता का उपयोग करके डेटा को प्रोकेवो, या एक समान पाइपलाइन द्वारा उत्पन्न आउटपुट की समझ बनाने के लिए, लक्षित जीवाणु आबादी के लिए क्या समझा जाता है, इसके प्रकाश में; iv) किसी भी मॉडलिंग दृष्टिकोण का उपयोग करने से पहले एक अन्वेषणात्मक डेटा विश्लेषण का संचालन; v) अनुभवजन्य ज्ञान और / या सांख्यिकीय मूल्यांकन के आधार पर डेटा को एकत्रित करना; vi) लापता मूल्यों से निपटने के लिए एक रणनीति को परिभाषित करना एक प्राथमिकता और इसके बारे में सुसंगत और पूरी तरह से पारदर्शी होना; vii) यदि आर का उपयोग कर रहे हैं, तो Tidyverse द्वारा प्रदान किए गए सभी पैकेजों का उपयोग करने का प्रयास करें, क्योंकि यह संग्रह कार्यात्मक प्रोग्रामिंग, पोर्टेबिलिटी, अनुकूलन की सुविधा प्रदान करता है, और स्वतंत्र रूप से उपलब्ध है; और viii) ध्यान रखें कि विज़ुअलाइज़ेशन दृष्टिकोण मुश्किल हो सकता है क्योंकि यह सही प्रकार की साजिश और रंग योजना प्राप्त करने के लिए कुछ परीक्षण और त्रुटि लेता है जो पूछे जाने वाले प्रश्न और चित्रित किए जा रहे डेटा के लिए सबसे उपयुक्त रूप से लागू होता है।

ध्यान दें, यह प्रोटोकॉल कुछ सीमाओं के साथ आता है जिन्हें और बेहतर बनाया जा सकता है। उदाहरण के लिए, प्रोकेवो की एक आंतरिक सीमा है कि पैन-जीनोमिक विश्लेषण के लिए कितने जीनोम का उपयोग किया जा सकता है, यदि कोर-जीनोम संरेखण चरण सहवर्ती रूप से उत्पन्न होता है, जबकि रोरी प्रोग्राम (~ 2,000-3,000 जीनोम) का उपयोग करते हुए 24। यह पाइपलाइन में एक बहुत ही विशिष्ट बाधा है जो जीनोम की संख्या को प्रभावित करेगी जिसे बीएपीएस हैप्लोटाइप में वर्गीकृत किया जा सकता है क्योंकि यह कोर-जीनोम संरेखण (यानी, अत्यधिक कम्प्यूटेशनल रूप से मांग वाले कदम) पर निर्भर करता है। हालांकि, कोर-जीनोम संरेखण को अन्य कार्यक्रमों52 के साथ किया जा सकता है, और इस तरह के एल्गोरिदम, सिद्धांत रूप में, आसानी से प्रोकेवो में शामिल किए जा सकते हैं। अन्यथा, डेटासेट को रणनीतिक रूप से यादृच्छिक सबसेट में विभाजित किया जा सकता है, या किसी अन्य आधार पर जैसे कि प्रश्न में जीव की जनसंख्या संरचना पर विचार करके। वैकल्पिक रूप से, प्रोकेवो को एसटी-आधारित एनोटेशन, एंटीबायोटिक प्रतिरोध और वायरस जीन संरचना, और प्लास्मिड की मैपिंग प्राप्त करने के लिए एक जीनोम के साथ चलाया जा सकता है, लेकिन पाइपलाइन को जनसंख्या-आधारित जीनोमिक्स के लिए डिज़ाइन किया गया था। उल्लेखनीय है, यदि BAPS1-6 वर्गीकरण की आवश्यकता नहीं है, तो रोरी के कोर-जीनोम संरेखण विकल्प को बंद किया जा सकता है, और उस मामले में, ProkEvo का उपयोग हजारों जीनोम के कई सौवें हिस्से के साथ किया जा सकता है - यह केवल उपलब्ध कंप्यूटर कोर की संख्या के आधार पर सीमित है। एक नए कार्यक्रम को लागू करने या ProkEvo के भीतर रोरी में कोर-जीनोम संरेखण विकल्प को बंद करने के तरीके का एक उदाहरण क्रमशः निम्नलिखित गिटहब लिंक (https://github.com/npavlovikj/ProkEvo/wiki/4.1.-Add-new-bioinformatics-tool-to-ProkEvo) और (https://github.com/npavlovikj/ProkEvo/wiki/4.3.-Change-running-options-for-existing-tool-in-ProkEvo) में पाया जा सकता है। सहायक जीनोमिक खनन के मामले में, एक अज्ञेयवादी विश्लेषण पैन-जीनोमिक के उपयोग पर निर्भर करता है। Rtab फ़ाइल रोरी24 द्वारा उत्पन्न, जो विशेष रूप से यहाँ इस्तेमाल नहीं किया गया था, लेकिन इसके बजाय, यह रणनीतिक रूप से प्रदर्शित किया गया था कि कैसे Resfinder डेटाबेस (https://github.com/tseemann/abricate) का उपयोग कर ABRicate के साथ एएमआर लोकी को मैप करने के लिए। फिर भी, इसके बजाय पैन-जीनोमिक फ़ाइल का उपयोग करके एक्सेसरी जीनोमिक मैपिंग के दायरे का विस्तार करने का एक विकल्प है, जिसे व्यावहारिक रूप से वर्तमान दृष्टिकोण के विस्तार के रूप में देखा जा सकता है (उदाहरण के लिए, नए कॉलम के रूप में सारणीबद्ध डेटासेट में शामिल अधिक लोकी)। यह उल्लेख करना महत्वपूर्ण है कि प्रोकेवो द्वारा किए गए पैन-जीनोमिक मैपिंग ने केवल लोकी संरचना के संदर्भ में बाइनरी जानकारी प्रदान की है, और वर्तमान में, जीन में एकल न्यूक्लियोटाइड बहुरूपताओं की पहचान के लिए उपयोग नहीं किया जा सकता है।

इस प्रोटोकॉल की एक और सीमा phylogenetic ट्री का विज़ुअलाइज़ेशन है। वर्तमान में, ggtree पसंद का कार्यक्रम है, लेकिन यह शाखा की लंबाई का सटीक निरीक्षण करने में असमर्थ होने की कीमत पर आता है और बोझिल हो जाता है जब डेटा की कई परतों को फाइलोजेनी पर जोड़ने की आवश्यकता होती है। वैकल्पिक रूप से, phandango41 एक उपयोगकर्ता के अनुकूल, स्केलेबल वेब-पेज स्वरूपित जीयूआई (https://jameshadfield.github.io/phandango/#/)41 है जिसका उपयोग आसानी से एक ही लक्ष्य को प्राप्त करने के लिए किया जा सकता है, और प्रोकेवो आउटपुट के साथ इसका उपयोग करने के तरीके के बारे में अधिक विस्तृत जानकारी हाल ही मेंप्रकाशित हुई है। आईटीओएल जैसे अन्य उपकरणों का उपयोग डेटा53 के फाइलोजेनी-निर्भर विज़ुअलाइज़ेशन के लिए भी किया जा सकता है, लेकिन उन्हें जीयूआई का उपयोग करने की आवश्यकता होती है और उन्हें स्वचालित स्क्रिप्ट में शामिल नहीं किया जा सकता है। इसके अलावा, सटीक कोर-जीनोम फाइलोजेनी क्षैतिज जीन हस्तांतरण के गुप्त डेटासेट-निर्भर प्रभाव के कारण अनुमान लगाना मुश्किल हो सकता है। Gubbins54 जैसे कार्यक्रमों का उपयोग उस उद्देश्य के लिए किया जा सकता है, लेकिन वे कुछ सीमाओं के साथ भी आते हैं जैसे कि फाइलोजेनीज़ के सही अनुमान के लिए पूरे जीनोम संरेखण और एसटी वंश-विशिष्ट डेटासेट का उपयोग करने की आवश्यकता। इसके बजाय, अन्य फाइलोजेनी-स्वतंत्र दृष्टिकोणों को तैनात किया जा सकता है, जो तब मेटाडेटा या सहायक जीनोमिक जानकारी को एकीकृत करने के लिए अन्य प्रकार के विज़ुअलाइज़ेशन की आवश्यकता होती है, जैसा कि बहु-आयामी विश्लेषण55,56 के मामले में होता है। अंत में, एक अनुभवजन्य और मनमाने ढंग से दृष्टिकोण का उपयोग मामूली एसटी वंशों और सीजीएमएलएसटी वेरिएंट को समेकित करने के लिए किया गया था, इसके अलावा सबसे महत्वपूर्ण एएमआर लोकी को मापने के लिए फ़िल्टर करने के लिए। इस प्रकार के डेटा एकत्रीकरण को डोमेन ज्ञान विशेषज्ञता का उपयोग करके अनुभवजन्य रूप से किया जा सकता है, लेकिन अंततः एक दहलीज को परिभाषित करने के लिए वितरण के अनुपात की एक प्राथमिकता मानदंड को परिभाषित करके सांख्यिकीय रूप से भी प्राप्त किया जा सकता है, या वितरण से संबंधित मैट्रिक्स जैसे इंटरक्वार्टल रेंज, मानक विचलन, या तिरछापन का उपयोग करके। महत्वपूर्ण रूप से, मामूली जीनोटाइप के लिए परिभाषा सीधे नमूना आकार के बाद से डेटा की प्रकृति से प्रभावित होती है, और पर्यावरणीय नमूनों के प्रकारों में पूर्वाग्रह सीधे जीनोटाइपिक संरचना को प्रभावित कर सकता है। भले ही, मुख्य विचार यह है कि जनसंख्या संरचना पर गौण जीनोम सामग्री का मानचित्रण पारिस्थितिक विविधीकरण के संभावित आनुवंशिक निर्धारकों की पहचान करने की अनुमति देता है, जैसे कि आला-पार करने या आला-निर्दिष्ट जीन 57,58,59

यद्यपि उपलब्ध आर स्क्रिप्ट को वर्तमान कार्य के स्वचालन के लिए डिज़ाइन किया गया था, सभी प्रदान की गई लिपियों को एक अमूर्त और तैनाती योग्य डेटा विज्ञान पुस्तकालय बनने के लिए आगे विकसित करने की आवश्यकता होगी, जो उदाहरण के लिए प्रोकेवो पाइपलाइन का एक अभिन्न हिस्सा हो सकता है। फिर भी, इस दृष्टिकोण का उपयोग करने के कुछ विशिष्ट फायदे हैं जैसे कि बीएपीएस स्तर 1 जीनोटाइपिंग या क्लस्टरिंग योजना का उपयोग। सेरोवर और एसटी वंशों के बीच बीएपीएस स्तर 1 उप-समूहों या हैप्लोटाइप्स के प्लेसमेंट को साल्मोनेला आबादी की आनुवंशिक संरचना के आधार पर अनुभवजन्य रूप से परिभाषित किया गया था, लेकिन ऐसा लगता है कि यह कैंपिलोबैक्टर जेजुनी और स्टैफिलोकोकस ऑरियस20 जैसी अन्य प्रजातियों पर लागू होता है। इसके अलावा, बीएपीएस 1 एसटी वंशों के बीच पैतृक संबंध को सटीक रूप से कैप्चर करता है और विकासवादी विश्लेषण के लिए एक स्केलेबल दृष्टिकोण प्रदान करता है, खासकर जब फाइलोजेनेटिकएप्लिकेशन सीमित होते हैं। इसके अलावा, पदानुक्रमित संबंधों और विविधीकरण के पैटर्न की जांच के लिए एक नेस्टेड दृष्टिकोण का उपयोग बीएपीएस 1 उप-समूहों का उपयोग करके एसटी वंशों के बीच वंश की पहचान की सुविधा प्रदान करता है, और एसटी वंशों का उपयोग करके सीजीएमएलएसटी वेरिएंट में, जनसंख्या संरचना का आकलन करने में क्रमिक रूप से निचले से उच्च जीनोटाइपिक रिज़ॉल्यूशन तक जा रहा है। यह दोहराना महत्वपूर्ण है कि एसटी वंशों और सीजीएमएलएसटी वेरिएंट की आवृत्ति वितरण, यदि एक व्यवस्थित रूप से एकत्र और सांख्यिकीय रूप से संचालित नमूने से खींचा जाता है, तो पारिस्थितिक फिटनेस 1,6,43 के लिए एक प्रॉक्सी बन सकता है। नतीजतन, प्रमुख एसटी वंशों और सीजीएमएलएसटी वेरिएंट में अद्वितीय जीनोमिक विशेषताएं होने की संभावना है जो उस विशेष वातावरण या मेजबान में आबादी में उनके प्रभुत्व के लिए जैविक तंत्र का आधार हो सकती हैं।

इसमें, दो स्वतंत्र सांख्यिकीय मीट्रिक का उपयोग आबादी की क्लोनालिटी की डिग्री का आकलन करने के लिए किया गया था, जो जनसंख्या आनुवंशिक विविधता की सहायक समझ के लिए अनुमति देता है, जो नमूना पूर्वाग्रह, जनसंख्या बाधाओं या संस्थापक प्रभाव की पिछली घटना का संकेत दे सकता है। विशेष रूप से, एसटी वंशों में बीएपीएस स्तरों 1-6 उप-समूहों का अज्ञेयवादी मूल्यांकन आनुवंशिक विविधता की समझ को परिष्कृत कर सकता है जिसे आमतौर पर एसआईएसटीआर द्वारा उत्पन्न साल्मोनेला सीजीएमएलएसटी संस्करण स्तर को देखकर हल नहीं किया जा सकता है। जैसा कि पहले उल्लेख किया गया है, पैन-जीनोम की अन्य विशेषताओं को जनसंख्या संरचना पर मैप किया जा सकता है और प्लास्मिड और वायरस जीन संरचना वाली फाइलें, अज्ञेयवादी पैन-जीनोम डेटासेट के साथ अन्य एएमआर डेटाबेस के उपयोग के अलावा, स्वचालित रूप से प्रोकेवो20 द्वारा उत्पन्न होती हैं। ध्यान दें, ProkEvo वर्तमान में बैक्टीरिया गुणसूत्र बनाम प्लास्मिड में मौजूद एएमआर लोकी के बीच भेदभाव के लिए अनुमति नहीं देता है। पारिस्थितिक और महामारी विज्ञान मेटाडेटा को भी आसानी से सभी जीनोमिक जानकारी युक्त एक .csv फ़ाइल में अन्य चर को शामिल करके इस विश्लेषणात्मक दृष्टिकोण में एकीकृत किया जा सकता है। विशेष रूप से, यहां प्रस्तुत काम विशेष रूप से स्केलेबल और पोर्टेबल कम्प्यूटेशनल प्लेटफ़ॉर्म प्रोकेवो के उपयोग का पूरक है, जिसे शोधकर्ताओं द्वारा उपयोग करने के लिए डिज़ाइन किया गया था, जो कि हेरिस्टिक जनसंख्या जीनोमिक्स विश्लेषणों पर ध्यान केंद्रित करते हैं जो उपयोगकर्ता द्वारा डेटा खनन और अनुकूलन की सुविधा प्रदान करते हैं। अन्य प्लेटफार्मों का उपयोग जीनोटाइपिंग, जनसंख्या संरचना विश्लेषण, और / या सहायक जीनोम के मानचित्रण जैसे एंटरोबेस5, PATRIC60, औरBacWGSTdb61 के लिए किया जा सकता है। उत्तरार्द्ध उत्कृष्ट संसाधन हैं जो शोधकर्ताओं के लिए जीनोमिक्स डेटा खनन की सुविधा प्रदान करते हैं जो स्केलेबल और जटिल विश्लेषण के लिए क्लस्टर कंप्यूटिंग को अनुकूलित और उपयोग करने की मांग नहीं कर रहे हैं। यहां प्रस्तुत विश्लेषणात्मक दृष्टिकोण विशेष रूप से शोधकर्ताओं के लिए तैयार किया गया है जो अपनी स्थानीय मशीन पर पुन: प्रस्तुत करने योग्य स्क्रिप्ट का उपयोग करके या क्लाउड- या उच्च-प्रदर्शन कम्प्यूटेशनल प्लेटफ़ॉर्म का उपयोग करके जनसंख्या जीनोमिक्स विश्लेषण करने के लिए लचीलापन चाहते हैं।

अंत में, इस काम में प्रस्तुत विश्लेषणात्मक आर-आधारित मंच को माइक्रोबायोलॉजिस्ट, पारिस्थितिकीविदों और महामारी विज्ञानियों के लिए एक व्यावहारिक मार्गदर्शिका प्रदान करने के लिए लक्षित किया गया था: i) पदानुक्रमित जीनोटाइप को मैप करने के लिए फाइलोजेनी-निर्भर दृष्टिकोण का उपयोग करें; ii) पारिस्थितिक फिटनेस का मूल्यांकन करने के लिए एक प्रॉक्सी के रूप में जीनोटाइप के आवृत्ति वितरण का आकलन करना; iii) स्वतंत्र सांख्यिकीय दृष्टिकोण का उपयोग करके क्लोनालिटी की वंश-विशिष्ट डिग्री निर्धारित करना; और iv) जनसंख्या संरचना के संदर्भ में गौण जीनोमिक सामग्री को कैसे खान किया जाए, इसके एक उदाहरण के रूप में मानचित्र वंश-विभेदन एएमआर लोकी। यहां प्रदान की गई लिपियों का उपयोग या तो एक स्थानीय मशीन या उच्च प्रदर्शन कम्प्यूटेशनल प्लेटफ़ॉर्म पर किया जा सकता है। प्रयोगात्मक और पर्यावरणीय सूक्ष्मजीवविज्ञानियों के लिए, यह दृष्टिकोण डेटासेट के अध्ययन की सुविधा प्रदान करता है जिसका उद्देश्य आगे के यांत्रिक अध्ययनों के लिए अद्वितीय लक्षणों और उम्मीदवार मार्गों की पहचान करना है जिन्हें अंततः जनसंख्या स्तर पर संदर्भित किया जा सकता है। पारिस्थितिकीविद मध्यम-से-बड़े डेटासेट का विश्लेषण करने में सक्षम होने के कारण इस दृष्टिकोण से लाभ उठा सकते हैं, जो सिद्धांत रूप में, रिश्तेदारी संबंधों और विविधीकरण के पैटर्न पर विचार करते हुए एक आबादी में चयन के हस्ताक्षर खोजने के लिए आवश्यक सांख्यिकीय शक्ति को बढ़ाते हैं। अंत में, epidemiologists ब्याज की जीनोटाइपिक इकाइयों को परिभाषित करने और एएमआर जैसे सार्वजनिक स्वास्थ्य से जुड़े लक्षणों की भविष्यवाणी करके निदान और निगरानी के लिए अद्वितीय व्यावहारिक जानकारी का उपयोग कर सकते हैं। अधिक व्यापक रूप से, यह विश्लेषणात्मक मार्गदर्शन जनसंख्या-आधारित जीनोमिक विश्लेषण करने के लिए प्रोकेवो का उपयोग करने के लिए एक सामान्य रूपरेखा प्रदान करता है जिसका उपयोग रोगजनक और गैर-रोगजनक प्रजातियों के लिए विकासवादी और पारिस्थितिक पैटर्न का अनुमान लगाने के लिए किया जा सकता है क्योंकि दृष्टिकोण अन्य जीवाणु प्रजातियों के लिए सामान्य है।

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

लेखकों ने घोषणा की है कि कोई प्रतिस्पर्धी हित मौजूद नहीं है।

Acknowledgments

इस काम को UNL-IANR कृषि अनुसंधान प्रभाग और रोगाणुरोधी प्रतिरोध अनुसंधान और शिक्षा के लिए राष्ट्रीय संस्थान द्वारा और खाद्य विज्ञान और प्रौद्योगिकी विभाग (UNL) में स्वास्थ्य केंद्र के लिए नेब्रास्का फूड द्वारा प्रदान किए गए वित्त पोषण द्वारा समर्थित किया गया था। यह शोध केवल UNL में हॉलैंड कंप्यूटिंग सेंटर (HCC) का उपयोग करके पूरा किया जा सकता है, जो नेब्रास्का रिसर्च इनिशिएटिव से समर्थन प्राप्त करता है। हम एचसीसी के माध्यम से, ओपन साइंस ग्रिड (ओएसजी) द्वारा प्रदान किए गए संसाधनों तक पहुंच के लिए भी आभारी हैं, जो नेशनल साइंस फाउंडेशन और यूएस डिपार्टमेंट ऑफ एनर्जी के ऑफिस ऑफ साइंस द्वारा समर्थित है। इस काम ने पेगासस वर्कफ़्लो मैनेजमेंट सॉफ्टवेयर का उपयोग किया जो राष्ट्रीय विज्ञान फाउंडेशन (अनुदान # 1664162) द्वारा वित्त पोषित है।

Materials

Name Company Catalog Number Comments
amr_data_filtered https://figshare.com/account/projects/116625/articles/14829225?file=28758762
amr_data_raw https://figshare.com/account/projects/116625/articles/14829225?file=28547994
baps_output https://figshare.com/account/projects/116625/articles/14829225?file=28548003
Core-genome phylogeny https://figshare.com/account/projects/116625/articles/14829225?file=28548006
genome_sra https://figshare.com/account/projects/116625/articles/14829225?file=28639209
Linux, Mac, or PC any high-performance platform
mlst_output https://figshare.com/account/projects/116625/articles/14829225?file=28547997
sistr_output https://figshare.com/account/projects/116625/articles/14829225?file=28548000
figshare credentials are required for login and have access to the files

DOWNLOAD MATERIALS LIST

References

  1. Grad, Y. H., et al. Genomic epidemiology of the Escherichia coli O104:H4 outbreaks in Europe, 2011. Proceedings of the National Academy of Sciences of the United States of America. 109 (8), 3065-3070 (2012).
  2. Worby, C. J., Chang, H. -H., Hanage, W. P., Lipsitch, M. The distribution of pairwise genetic distances: a tool for investigating disease transmission. Genetics. 198 (4), 1395-1404 (2014).
  3. Leekitcharoenphon, P., et al. Global genomic epidemiology of Salmonella enterica serovar Typhimurium DT104. Applied and Environmental Microbiology. 82 (8), 2516-2526 (2016).
  4. Alba, P., et al. Molecular epidemiology of Salmonella Infantis in Europe: insights into the success of the bacterial host and its parasitic pESI-like megaplasmid. Microbial Genomics. 6 (5), (2020).
  5. Zhou, Z., Alikhan, N. -F., Mohamed, K., Fan, Y. the Agama Study Group, Achtman, M. The EnteroBase user's guide, with case studies on Salmonella transmissions, Yersinia pestis phylogeny, and Escherichia core genomic diversity. Genome Research. 30 (1), 138-152 (2020).
  6. Azarian, T., et al. Global emergence and population dynamics of divergent serotype 3 CC180 pneumococci. PLOS Pathogens. 14 (11), 1007438 (2018).
  7. Saltykova, A., et al. Comparison of SNP-based subtyping workflows for bacterial isolates using WGS data, applied to Salmonella enterica serotype Typhimurium and serotype 1,4,[5],12:i. PLOS ONE. 13 (2), 0192504 (2018).
  8. Achtman, M., et al. Multi-locus sequence typing as a replacement for serotyping in Salmonella enterica. PLoS Pathogens. 8 (6), 1002776 (2012).
  9. Maiden, M. C. J., et al. Multi-locus sequence typing: A portable approach to the identification of clones within populations of pathogenic microorganisms. Proceedings of the National Academy of Sciences of the United States of America. 95 (6), 3140-3145 (1998).
  10. Alikhan, N. -F., Zhou, Z., Sergeant, M. J., Achtman, M. A genomic overview of the population structure of Salmonella. PLOS Genetics. 14 (4), 1007261 (2018).
  11. Gupta, A., Jordan, I. K., Rishishwar, L. stringMLST: a fast k-mer based tool for multi-locus sequence typing. Bioinformatics. 33 (1), 119-121 (2017).
  12. Jolley, K. A., Maiden, M. C. BIGSdb: Scalable analysis of bacterial genome variation at the population level. BMC Bioinformatics. 11 (1), 595 (2010).
  13. Maiden, M. C. J., et al. MLST revisited: the gene-by-gene approach to bacterial genomics. Nature Reviews Microbiology. 11 (10), 728-736 (2013).
  14. Maiden, M. C. J. Multilocus sequence typing of bacteria. Annual Review of Microbiology. 60 (1), 561-588 (2006).
  15. Shapiro, B. J., Polz, M. F. Ordering microbial diversity into ecologically and genetically cohesive units. Trends in Microbiology. 22 (5), 235-247 (2014).
  16. Cordero, O. X., Polz, M. F. Explaining microbial genomic diversity in light of evolutionary ecology. Nature Reviews Microbiology. 12 (4), 263-273 (2014).
  17. Achtman, M., Wagner, M. Microbial diversity and the genetic nature of microbial species. Nature Reviews Microbiology. 6 (6), 431-440 (2008).
  18. Abudahab, K., et al. PANINI: Pangenome neighbour identification for bacterial populations. Microbial Genomics. 5 (4), (2019).
  19. Laing, C. R., Whiteside, M. D., Gannon, V. P. J. Pan-genome analyses of the species Salmonella enterica, and identification of genomic markers predictive for species, subspecies, and serovar. Frontiers in Microbiology. 8, 1345 (2017).
  20. Pavlovikj, N., Gomes-Neto, J. C., Deogun, J. S., Benson, A. K. ProkEvo: an automated, reproducible, and scalable framework for high-throughput bacterial population genomics analyses. PeerJ. 9, 11376 (2021).
  21. McNally, A., et al. Combined analysis of variation in core, accessory and regulatory genome regions provides a super-resolution view into the evolution of bacterial populations. PLOS Genetics. 12 (9), 1006280 (2016).
  22. Langridge, G. C., et al. Patterns of genome evolution that have accompanied host adaptation in Salmonella. Proceedings of the National Academy of Sciences of the United States of America. 112 (3), 863-868 (2015).
  23. Price, M. N., Dehal, P. S., Arkin, A. P. FastTree 2 - Approximately maximum-likelihood trees for large alignments. PLoS ONE. 5 (3), 9490 (2010).
  24. Page, A. J., et al. Roary: rapid large-scale prokaryote pan genome analysis. Bioinformatics. 31 (22), 3691-3693 (2015).
  25. Yoshida, C. E., et al. The Salmonella In silico typing resource (SISTR): An open web-accessible tool for rapidly typing and subtyping draft Salmonella genome assemblies. PLOS ONE. 11 (1), 0147101 (2016).
  26. Cheng, L., Connor, T. R., Siren, J., Aanensen, D. M., Corander, J. Hierarchical and spatially explicit clustering of DNA sequences with BAPS software. Molecular Biology and Evolution. 30 (5), 1224-1228 (2013).
  27. Tonkin-Hill, G., Lees, J. A., Bentley, S. D., Frost, S. D. W., Corander, J. Fast hierarchical Bayesian analysis of population structure. Nucleic Acids Research. 47 (11), 5539-5549 (2019).
  28. Seemann, T. MLST. GitHub. , Available from: https://github.com/tseemann/mist (2020).
  29. Seemann, T. ABRicate. GitHub. , Available from: https://github.com/tseemann/abricate (2020).
  30. R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , Vienna, Austria. at. Available from: https://cran.r-project.org (2021).
  31. Studio Team. RStudio: Integrated Development for R. Studio, PBC. , Boston, MA. Available from: http://www.rstudio.com (2020).
  32. Wickham, H., et al. Welcome to the Tidyverse. Journal of Open Source Software. 4 (43), 1686 (2019).
  33. rOpenSci: The skimr package. GitHub. , Berkeley, CA. Available from: https://github.com/ropensci/skimr/ (2021).
  34. Oksanen, J., et al. vegan: Community ecology package. R package version 2.5-5. , Available from: https://CRAN.R-project.org/package=vegan (2019).
  35. Tierney, N. J., Cook, D. H. Expanding tidy data principles to facilitate missing data exploration, visualization and assessment of imputations. arXiv. , Available from: http://arxiv.org/abs/1809.02264 (2020).
  36. Yu, G. Using ggtree to visualize data on tree-like structures. Current Protocols in Bioinformatics. 69 (1), (2020).
  37. Kassambara, A. ggpubr: "ggplot2" Based Publication Ready Plots. R package version 0.4.0. , Available from: https://CRAN.R-project.org/package=ggpubr (2020).
  38. Slowikowski, K. ggrepel: Automatically Position Non-Overlapping Text Labels with "ggplot2”. R package version 0.9.1. , Available from: https://CRAN.R-project.org/package=ggrepel (2021).
  39. Wickham, H. Reshaping Data with the reshape Package. Journal of Statistical Software. 21 (12), (2007).
  40. Neuwirth, E. RColorBrewer: ColorBrewer Palettes. R package version 1.1-2. , Available from: https://CRAN.R-project.org/package=RColorBrewer (2014).
  41. Hadfield, J., Croucher, N. J., Goater, R. J., Abudahab, K., Aanensen, D. M., Harris, S. R. Phandango: an interactive viewer for bacterial population genomics. Bioinformatics. 34 (2), 292-293 (2018).
  42. Perron, G. G., et al. Functional characterization of bacteria isolated from ancient arctic soil exposes diverse resistance mechanisms to modern antibiotics. PLOS ONE. 10 (3), 0069533 (2015).
  43. Mitchell, P. K., et al. Population genomics of pneumococcal carriage in Massachusetts children following introduction of PCV-13. Microbial Genomics. 5 (2), (2019).
  44. Klemm, E. J., et al. Emergence of host-adapted Salmonella Enteritidis through rapid evolution in an immunocompromised host. Nature Microbiology. 1 (3), 15023 (2016).
  45. Břinda, K., et al. Rapid inference of antibiotic resistance and susceptibility by genomic neighbour typing. Nature Microbiology. 5 (3), 455-464 (2020).
  46. MacFadden, D. R., et al. Using genetic distance from archived samples for the prediction of antibiotic resistance in Escherichia coli. Antimicrobial Agents and Chemotherapy. 64 (5), (2020).
  47. Mageiros, L., et al. Genome evolution and the emergence of pathogenicity in avian Escherichia coli. Nature Communications. 12 (1), 765 (2021).
  48. Yahara, K., et al. Genome-wide association of functional traits linked with Campylobacter jejuni survival from farm to fork. Environmental Microbiology. 19 (1), 361-380 (2017).
  49. Walter, J., Maldonado-Gómez, M. X., Martínez, I. To engraft or not to engraft: an ecological framework for gut microbiome modulation with live microbes. Current Opinion in Biotechnology. 49, 129-139 (2018).
  50. Maldonado-Gómez, M. X., et al. Stable engraftment of Bifidobacterium longum AH1206 in the human gut depends on individualized features of the resident microbiome. Cell Host & Microbe. 20 (4), 515-526 (2016).
  51. Zhao, S., et al. Adaptive evolution within gut microbiomes of healthy people. Cell Host & Microbe. 25 (5), 656-667 (2019).
  52. Treangen, T. J., Ondov, B. D., Koren, S., Phillippy, A. M. The Harvest suite for rapid core-genome alignment and visualization of thousands of intraspecific microbial genomes. Genome Biology. 15 (11), 524 (2014).
  53. Letunic, I., Bork, P. Interactive Tree Of Life (iTOL) v5: an online tool for phylogenetic tree display and annotation. Nucleic Acids Research. 49, 293-296 (2021).
  54. Croucher, N. J., et al. Rapid phylogenetic analysis of large samples of recombinant bacterial whole genome sequences using Gubbins. Nucleic Acids Research. 43 (3), 15 (2015).
  55. Fenske, G. J., Thachil, A., McDonough, P. L., Glaser, A., Scaria, J. Geography shapes the population genomics of Salmonella enterica Dublin. Genome Biology and Evolution. 11 (8), 2220-2231 (2019).
  56. Lees, J. A., et al. Fast and flexible bacterial genomic epidemiology with PopPUNK. Genome Research. 29 (2), 304-316 (2019).
  57. Cohan, F. M. Towards a conceptual and operational union of bacterial systematics, ecology, and evolution. Philosophical Transactions of the Royal Society B: Biological Sciences. 361 (1475), 1985-1996 (2006).
  58. Cohan, F. M., Koeppel, A. F. The origins of ecological diversity in prokaryotes. Current Biology. 18 (21), 1024-1034 (2008).
  59. Cohan, F. M. Transmission in the origins of bacterial diversity, from ecotypes to phyla. Microbial Transmission. 5 (5), 311-343 (2019).
  60. Davis, J. J., et al. The PATRIC bioinformatics resource center: expanding data and analysis capabilities. Nucleic Acids Research. 48, 606-612 (2019).
  61. Feng, Y., Zou, S., Chen, H., Yu, Y., Ruan, Z. BacWGSTdb 2.0: a one-stop repository for bacterial whole-genome sequence typing and source tracking. Nucleic Acids Research. 49, 644-650 (2021).

Tags

आनुवांशिकी अंक 178
पदानुक्रमित जीनोटाइप और जीवाणु आबादी में गौण जीनोम लोकी के ह्यूरिस्टिक खनन
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Pavlovikj, N., Gomes-Neto, J. C.,More

Pavlovikj, N., Gomes-Neto, J. C., Benson, A. K. Heuristic Mining of Hierarchical Genotypes and Accessory Genome Loci in Bacterial Populations. J. Vis. Exp. (178), e63115, doi:10.3791/63115 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter