Summary
LEfSe (LDA प्रभाव आकार) जीनोमिक विशेषताओं (जैसे जीन, मार्ग, और वर्गीकरण) की पहचान करने के लिए उच्च आयामी बायोमार्कर खनन के लिए एक उपकरण है जो माइक्रोबायोम डेटा में दो या दो से अधिक समूहों को महत्वपूर्ण रूप से चिह्नित करता है।
Abstract
पर्यावरण और स्वास्थ्य में बंद जैविक जीनोम की ओर ध्यान बढ़ रहा है। विभिन्न नमूनों या वातावरणों के बीच अंतर-समूह मतभेदों का पता लगाने और प्रकट करने के लिए, समूहों के बीच सांख्यिकीय मतभेदों के साथ बायोमार्कर की खोज करना महत्वपूर्ण है। रैखिक discriminant विश्लेषण प्रभाव आकार (LEfSe) के आवेदन अच्छे biomarkers खोजने में मदद कर सकते हैं. मूल जीनोम डेटा के आधार पर, टैक्सा या जीन के आधार पर गुणवत्ता नियंत्रण और विभिन्न अनुक्रमों का परिमाणीकरण किया जाता है। सबसे पहले, क्रुस्कल-वालिस रैंक परीक्षण का उपयोग सांख्यिकीय और जैविक समूहों के बीच विशिष्ट अंतर के बीच अंतर करने के लिए किया गया था। फिर, विलकॉक्सन रैंक परीक्षण पिछले चरण में प्राप्त दो समूहों के बीच किया गया था ताकि यह आकलन किया जा सके कि क्या अंतर सुसंगत थे। अंत में, एलडीए स्कोर के आधार पर काफी अलग-अलग समूहों पर बायोमाकर्स के प्रभाव का मूल्यांकन करने के लिए एक रैखिक भेदभावपूर्ण विश्लेषण (एलडीए) आयोजित किया गया था। संक्षेप में, LEfSe ने जीनोमिक बायोमाकर्स की पहचान करने के लिए सुविधा प्रदान की जो जैविक समूहों के बीच सांख्यिकीय मतभेदों की विशेषता है।
Introduction
बायोमार्कर जैविक विशेषताएं हैं जिन्हें मापा जा सकता है और संक्रमण, बीमारी या पर्यावरण जैसी कुछ घटनाओं को इंगित कर सकता है। उनमें से, कार्यात्मक बायोमार्कर एकल प्रजातियों के विशिष्ट जैविक कार्य या कुछ प्रजातियों के लिए आम हो सकते हैं, जैसे जीन, प्रोटीन, मेटाबोलाइट और मार्ग। इसके अलावा, टैक्सोनोमिक बायोमाकर्स एक असामान्य प्रजाति, जीवों के एक समूह (राज्य, फाइलम, वर्ग, आदेश, परिवार, जीनस, प्रजातियां), एम्प्लिकॉन अनुक्रम वैरिएंट (एएसवी)1, या परिचालन टैक्सोनोमिक यूनिट (ओटीयू) 2 का संकेत देते हैं। बायोमार्कर को अधिक तेज़ी से और सटीक रूप से खोजने के लिए, जैविक डेटा का विश्लेषण करने के लिए एक उपकरण आवश्यक है। कक्षाओं के बीच के अंतर को LEfSe द्वारा सांख्यिकीय महत्व के लिए मानक परीक्षणों के साथ युग्मित और जैविक स्थिरता और प्रभाव प्रासंगिकता 3 एन्कोडिंग अतिरिक्तपरीक्षणों द्वारा समझाया जा सकता है। LEfSe एक आकाशगंगा मॉड्यूल, एक कोंडा सूत्र, एक डॉकर छवि के रूप में उपलब्ध है, और bioBakery (VM और बादल) 4 में शामिल है। आम तौर पर, माइक्रोबियल विविधता का विश्लेषण अक्सर एक नमूना समुदाय के अनिश्चित वितरण के लिए एक गैर-पैरामीट्रिक परीक्षण का उपयोग करता है। रैंक योग परीक्षण एक गैर-पैरामीट्रिक परीक्षण विधि है, जो नमूनों के मूल्य को बदलने के लिए नमूनों के रैंक का उपयोग करता है। नमूना समूहों के अंतर के अनुसार, इसे विलकॉक्सन रैंक योग परीक्षण के साथ दो नमूनों में विभाजित किया जा सकता है और क्रुस्कल-वालिस परीक्षण 5,6 के साथ कई नमूनों में विभाजित किया जा सकता है। विशेष रूप से, जब नमूनों के कई समूहों के बीच महत्वपूर्ण अंतर होते हैं, तो कई नमूनों की जोड़ीवार तुलना का एक रैंक-योग परीक्षण किया जाना चाहिए। एलडीए (जो 1936 में रोनाल्ड फिशर द्वारा आविष्कार किया गया रैखिक विभेदक विश्लेषण के लिए खड़ा है), एक प्रकार का पर्यवेक्षित सीखने है, जिसे फिशर के रैखिक विभेदक7 के रूप में भी जाना जाता है। यह मशीन लर्निंग डेटा खनन के वर्तमान क्षेत्र में एक क्लासिक और लोकप्रिय एल्गोरिथ्म है।
यहाँ, LEfSe परख कोंडा और आकाशगंगा सर्वर द्वारा अनुकूलित किया गया है. 16S rRNA जीन अनुक्रमों के तीन समूहों का विश्लेषण माइक्रोबियल समुदायों और विज़ुअलाइज़ेशन परिणामों के एलडीए स्कोर के साथ विभिन्न समूहों के बीच महत्वपूर्ण अंतर प्रदर्शित करने के लिए किया जाता है।
Subscription Required. Please recommend JoVE to your librarian.
Protocol
नोट: प्रोटोकॉल स्रोत और Segata et al.3 के अनुसंधान से संशोधित किया गया था। विधि https://bitbucket.org/biobakery/biobakery/wiki/lefse पर प्रदान की जाती है।
1. विश्लेषण के लिए इनपुट फ़ाइल की तैयारी
- LEfSe की इनपुट फ़ाइल (तालिका 1) तैयार करें, जिसे मूल फ़ाइलों (नमूना फ़ाइल और संबंधित प्रजाति एनोटेशन फ़ाइल) के साथ कई वर्कफ़्लो8 या पिछले प्रोटोकॉल9 द्वारा आसानी से उत्पन्न किया जा सकता है।
2. LEfSe मूल विश्लेषण (लिनक्स सर्वर तक सीमित)
- LEfSe स्थापना
नोट:: LEfSe पाइपलाइन कोंडा10 के साथ स्थापित करने के लिए अनुशंसित है।- निर्भरता विरोध की संभावना को बाहर करने के लिए निम्न आदेश चलाएँ। LEfSe के लिए कोई कॉन्डा वातावरण बनाएँ (यह चरण अनुशंसित है लेकिन आवश्यक नहीं है.). -n का पूरा नाम Environment Name है।
$ कोंडा बनाने के लिए -n LEfSe-env - बनाए गए LEfSe वातावरण को सक्रिय करने के लिए, चलाएँ:
$ स्रोत सक्रिय LEfSe-env - चैनल bioBakery के साथ LEfSe स्थापित करने के लिए जहां -c चैनल नाम के लिए खड़ा है, चलाएँ:
$ कोंडा स्थापित -सी biobakery lefse
- निर्भरता विरोध की संभावना को बाहर करने के लिए निम्न आदेश चलाएँ। LEfSe के लिए कोई कॉन्डा वातावरण बनाएँ (यह चरण अनुशंसित है लेकिन आवश्यक नहीं है.). -n का पूरा नाम Environment Name है।
- LEfSe के लिए डेटा स्वरूपित करें
- LEfSe के लिए आंतरिक स्वरूप के लिए मूल फ़ाइल को स्वरूपित करने के लिए निम्न आदेश चलाएँ। तालिका.txt इनपुट फ़ाइल है और Table-reformat.in आउटपुट फ़ाइल है। -c का उपयोग सुविधा को सेट करने के लिए किया जाता है, जिसका उपयोग वर्ग (डिफ़ॉल्ट 1) के रूप में किया जाता है और -o का उपयोग सामान्यीकरण मान (डिफ़ॉल्ट -1.0 का अर्थ कोई सामान्यीकरण नहीं) सेट करने के लिए किया जाता है।
$ format_input.py तालिका.txt Table-reformat.in -c 1 -o 10000000
- LEfSe के लिए आंतरिक स्वरूप के लिए मूल फ़ाइल को स्वरूपित करने के लिए निम्न आदेश चलाएँ। तालिका.txt इनपुट फ़ाइल है और Table-reformat.in आउटपुट फ़ाइल है। -c का उपयोग सुविधा को सेट करने के लिए किया जाता है, जिसका उपयोग वर्ग (डिफ़ॉल्ट 1) के रूप में किया जाता है और -o का उपयोग सामान्यीकरण मान (डिफ़ॉल्ट -1.0 का अर्थ कोई सामान्यीकरण नहीं) सेट करने के लिए किया जाता है।
- रैखिक विभेदक विश्लेषण (LDA) प्रभाव आकार की गणना
- निम्न आदेश चलाएँ। इस चरण का उद्देश्य पिछले परिणाम का LDA निष्पादित करने और विज़ुअलाइज़ेशन के लिए परिणाम फ़ाइल जनरेट करने के लिए है। Table-reformat.in पिछले चरण का उपयोग कर जनरेट किया गया है और इस चरण में इनपुट फ़ाइल के रूप में उपयोग किया जाता है। Table-reformat.res परिणाम फ़ाइल है।
$ run_lefse.py Table-reformat.in तालिका reformat.res
- निम्न आदेश चलाएँ। इस चरण का उद्देश्य पिछले परिणाम का LDA निष्पादित करने और विज़ुअलाइज़ेशन के लिए परिणाम फ़ाइल जनरेट करने के लिए है। Table-reformat.in पिछले चरण का उपयोग कर जनरेट किया गया है और इस चरण में इनपुट फ़ाइल के रूप में उपयोग किया जाता है। Table-reformat.res परिणाम फ़ाइल है।
- भूखंडों द्वारा विज़ुअलाइज़ेशन
- LEfSe परिणामों को प्लॉट करें। एक पीडीएफ फ़ाइल में biomarkers के प्रभाव आकार साजिश करने के लिए,. Table-reformat.res पिछले चरण का उपयोग कर जनरेट किया गया है और LDA.pdf प्लॉट फ़ाइल है। -प्रारूप का उपयोग आउटपुट फ़ाइल प्रारूप को सेट करने के लिए किया जाता है।
$ plot_res.py तालिका-reformat.res LDA.pdf --प्रारूप पीडीएफ - क्लैडोग्राम प्लॉट करें। प्रजातियों के पेड़ को आकर्षित करने और एक क्लैडोग्राम में बायोमार्कर प्रदर्शित करने के लिए। cladogram.pdf आउटपुट फ़ाइल है।
$ plot_cladogram.py तालिका-reformat.res cladogram.pdf --प्रारूप पीडीएफ -
प्लॉट एक सुविधा (वैकल्पिक) विभिन्न समूहों के बीच एक एकल बायोमार्कर के अंतर को प्लॉट करने के लिए। -f का उपयोग प्लॉट की विशेषताओं को सेट करने के लिए किया जाता है। यदि कोई सेट किया गया था, तो -feature_name दिया जाना चाहिए।
$ plot_features.py -f एक --feature_name "k__Bacteria.p__Firmicutes.c__Bacilli.o__Bacillales" --प्रारूप पीडीएफ Table-reformat.in तालिका-reformat.res Bacillales.pdf - सभी सुविधाओं को आकर्षित करने के लिए विभेदक सुविधाओं (वैकल्पिक) को प्लॉट करें, लेकिन सावधानी के साथ बहुत कुछ किया जाना है। --archive का उपयोग यह चुनने के लिए किया जाता है कि परिणामों को संपीड़ित करना है या नहीं। ./ का अर्थ है परिणामों का मार्ग।
$ plot_features.py -f diff --archive कोई नहीं --प्रारूप पीडीएफ Table-reformat.in तालिका-reformat.res ./
- LEfSe परिणामों को प्लॉट करें। एक पीडीएफ फ़ाइल में biomarkers के प्रभाव आकार साजिश करने के लिए,. Table-reformat.res पिछले चरण का उपयोग कर जनरेट किया गया है और LDA.pdf प्लॉट फ़ाइल है। -प्रारूप का उपयोग आउटपुट फ़ाइल प्रारूप को सेट करने के लिए किया जाता है।
3. LEfSe ऑनलाइन विश्लेषण (आकाशगंगा)
- Huttenhower आकाशगंगा सर्वर1 1 पर जाएँ: http://huttenhower.sph.harvard.edu/galaxy.
- फ़ाइलें अपलोड करें. बाएँ फलक पर ऊपर तीर बटन दबाएँ और फ़ाइल अपलोड करें. इनपुट फ़ाइल का चयन करने के लिए स्थानीय फ़ाइल चुनें पर क्लिक करें और स्वरूप सारणीबद्ध का चयन करें, और फिर प्रारंभ बटन पर क्लिक करें।
नोट:: वेबपेज (https://bitbucket.org/biobakery/biobakery/wiki/lefse) के लिए संदर्भित, स्क्रिप्ट (taxonomy_summary का उपयोग करें। R) LEfSe की इनपुट फ़ाइल उत्पन्न करने के लिए, और प्रारूप (एक समूह नाम के साथ प्रत्येक स्तंभ, "|" द्वारा अलग एनोटेशन के एक अलग स्तर के साथ प्रत्येक पंक्ति) तालिका 1 में दिखाए गए अनुसार आवश्यक है। अपलोडिंग प्रक्रिया का एक योजनाबद्ध अवलोकन चित्र 1 में दिखाया गया है। - LEfSe के लिए डेटा स्वरूपित करें. LEfSe | पर क्लिक करें बाएँ फलक पर LEfSe लिंक के लिए डेटा स्वरूपित करें , और फ़ाइल में वर्ग के लिए विशिष्ट पंक्तियों का चयन करें, और निष्पादन बटन पर क्लिक करें। परिचालन प्रक्रिया और उपयोग किए गए पैरामीटर का एक योजनाबद्ध अवलोकन चित्र 2 में दिखाया गया है।
- LDA प्रभाव आकार की गणना करें। LEfSe | पर क्लिक करें LDA प्रभाव आकार (LEfSe) बाएँ फलक पर लिंक करें, और विश्लेषण आवश्यकताओं के अनुसार पैरामीटर मानों का चयन करें। Execute पर क्लिक करें। परिचालन प्रक्रिया और उपयोग किए गए पैरामीटर का एक योजनाबद्ध अवलोकन चित्र 3 में दिखाया गया है।
- LEfSe परिणामों को प्लॉट करें। LEfSe | पर क्लिक करें बाएँ फलक पर LEfSe परिणाम लिंक प्लॉट करें, और निष्पादित करें बटन पर क्लिक करें। परिचालन प्रक्रिया और उपयोग किए गए पैरामीटर का एक योजनाबद्ध अवलोकन चित्र 4 में दिखाया गया है।
- क्लैडोग्राम प्लॉट करें। बाएँ फलक पर प्लॉट Cladogram पर क्लिक करें, और पैरामीटर मानों का चयन करने के बाद निष्पादित करें बटन पर क्लिक करें। परिचालन प्रक्रिया और उपयोग किए गए पैरामीटर का एक योजनाबद्ध अवलोकन चित्र 5 में दिखाया गया है।
- बाएँ फलक पर प्लॉट एक सुविधा पर क्लिक करके, और पैरामीटर मानों का चयन करने के बाद निष्पादन बटन पर क्लिक करके एक सुविधा प्लॉट करें. परिचालन प्रक्रिया और उपयोग किए गए पैरामीटर का एक योजनाबद्ध अवलोकन चित्र 6 में दिखाया गया है।
- बाएँ फलक पर प्लॉट डिफरेंशियल सुविधाएँ पर क्लिक करके, और पैरामीटर मानों का चयन करने के बाद निष्पादन बटन पर clcking द्वारा भिन्न सुविधाएँ प्लॉट करें. परिचालन प्रक्रिया और उपयोग किए गए पैरामीटर का एक योजनाबद्ध अवलोकन चित्र 7 में दिखाया गया है।
नोट:: इन जनरेट किए गए आंकड़ों को विज़ुअलाइज़ किया जा सकता है और दाएँ फलक में परिणामी आउटपुट के विरुद्ध डाउनलोड किया जा सकता है।
Subscription Required. Please recommend JoVE to your librarian.
Representative Results
तीन नमूनों के 16S rRNA जीन अनुक्रमों का विश्लेषण करके प्रत्येक समूह में महत्वपूर्ण अंतर के साथ माइक्रोबियल समुदायों के LDA स्कोर को चित्र 8 में दिखाया गया है। हिस्टोग्राम का रंग विभिन्न समूहों का प्रतिनिधित्व करता है, जबकि लंबाई एलडीए स्कोर का प्रतिनिधित्व करती है, जो विभिन्न समूहों के बीच महत्वपूर्ण अंतर के साथ प्रजातियों का प्रभाव है। हिस्टोग्राम महत्वपूर्ण अंतर के साथ प्रजातियों को दिखाता है जिसका एलडीए स्कोर पूर्व निर्धारित मूल्य से अधिक है। डिफ़ॉल्ट पूर्व निर्धारित मान 2.0 है, इसलिए 2.0 से अधिक LDA स्कोर (abscissa) के केवल पूर्ण मान प्लॉट में दिखाए जाते हैं।
विभिन्न वर्गीकरण स्तरों के बीच महत्वपूर्ण अंतर और प्रजातियों के पेड़ के साथ बायोमार्कर चित्र 9 में दिखाए गए हैं। अंदर से बाहर तक विकिरण करने वाले वृत्त फाइलम से जीनस तक वर्गीकरण स्तरों का प्रतिनिधित्व करते हैं (सबसे भीतरी पीला वृत्त राज्य है)। विभिन्न वर्गीकरण स्तरों पर प्रत्येक छोटे सर्कल का व्यास सापेक्ष बहुतायत के आकार का प्रतिनिधित्व करता है। बिना किसी महत्वपूर्ण अंतर के प्रजातियों को समान रूप से पीले रंग का रंग दिया जाता है, और काफी अलग-अलग प्रजातियों के बायोमार्कर को संबंधित समूहों के साथ रंगीन किया जाता है। कक्षा ए, बी और सी एकत्र किए गए माइक्रोबियल नमूनों के समूह नाम हैं। लाल नोड्स माइक्रोबियल समूहों का प्रतिनिधित्व करते हैं जो लाल समूह (ए) में एक महत्वपूर्ण भूमिका निभाते हैं; हरे नोड्स माइक्रोबियल समूहों का प्रतिनिधित्व करते हैं जो हरे रंग के समूह (बी) में एक महत्वपूर्ण भूमिका निभाते हैं; और नीले नोड्स माइक्रोबियल समूहों का प्रतिनिधित्व करते हैं जो नीले समूह (सी) में एक महत्वपूर्ण भूमिका निभाते हैं। प्लॉट में नहीं दिखाए गए बायोमार्कर के संबंधित प्रजातियों के नाम को दाईं ओर दिखाया गया है, और अक्षर संख्याएं प्लॉट में इसके अनुरूप हैं (केवल सौंदर्य उद्देश्यों के लिए डिफ़ॉल्ट रूप से फाइलम से परिवार को अंतर प्रजातियों को दिखाते हुए)।
एक बायोमार्कर की बहुतायत जिसमें LEfSe परिणामों के अनुसार विभिन्न समूहों के बीच अंतर है , चित्र 10 में दिखाया गया है। सापेक्ष बहुतायत barplot में, ठोस रेखा औसत सापेक्ष बहुतायत का प्रतिनिधित्व करती है, बिंदीदार रेखा माध्यिका सापेक्ष बहुतायत का प्रतिनिधित्व करती है, और प्रत्येक स्तंभ विभिन्न समूहों में प्रत्येक नमूने की सापेक्ष बहुतायत का प्रतिनिधित्व करता है।
तालिका 1: LEfSe विश्लेषण ऑनलाइन के लिए उदाहरण फ़ाइल। इस तालिका को डाउनलोड करने के लिए यहां क्लिक करें।
चित्रा 1: अपलोडिंग प्रक्रिया का योजनाबद्ध अवलोकन। आकृति पर अनुक्रमिक क्रम में लाल संख्याओं पर क्लिक करें। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.
चित्रा 2: डेटा स्वरूप को बदलने के लिए परिचालन प्रक्रिया का योजनाबद्ध अवलोकन। आकृति पर अनुक्रमिक क्रम में लाल संख्याओं पर क्लिक करें। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.
चित्रा 3: LDA प्रभाव आकार की गणना के लिए परिचालन प्रक्रिया का योजनाबद्ध अवलोकन। आकृति पर अनुक्रमिक क्रम में लाल संख्याओं पर क्लिक करें। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.
चित्रा 4: LEfSe परिणामों की साजिश के लिए परिचालन प्रक्रिया का योजनाबद्ध अवलोकन। आकृति पर अनुक्रमिक क्रम में लाल संख्याओं पर क्लिक करें। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.
चित्रा 5: क्लैडोग्राम प्लॉटिंग के लिए परिचालन प्रक्रिया का योजनाबद्ध अवलोकन। आकृति पर अनुक्रमिक क्रम में लाल संख्याओं पर क्लिक करें। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.
चित्रा 6: एक सुविधा प्लॉटिंग के लिए परिचालन प्रक्रिया का योजनाबद्ध अवलोकन। आकृति पर अनुक्रमिक क्रम में लाल संख्याओं पर क्लिक करें। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.
चित्रा 7: विभेदक सुविधाओं की साजिश रचने के लिए परिचालन प्रक्रिया का योजनाबद्ध अवलोकन। आकृति पर अनुक्रमिक क्रम में लाल संख्याओं पर क्लिक करें। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.
चित्रा 8: LDA मानों के वितरण का हिस्टोग्राम. प्रत्येक समूह में महत्वपूर्ण अंतर के साथ माइक्रोबियल समुदायों के एलडीए स्कोर का विश्लेषण एलडीए प्रभाव आकार द्वारा उनके प्रभावों और सहसंबंधों के अनुसार किया गया था। इस आंकड़े को डाउनलोड करने के लिए कृपया यहाँ क्लिक करें.
चित्रा 9: Cladogram. प्रोटोकॉल द्वारा प्राप्त क्लैडोग्राम का विशिष्ट प्लॉट, जो तीन समूहों के विभिन्न वर्गीकरण स्तरों के बीच अंतर के प्रतिनिधित्व को सक्षम बनाता है। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.
चित्रा 10: एक सुविधा प्लॉट। एक बायोमार्कर की बहुतायत barplot है कि LEfSe के अनुसार विभिन्न समूहों के बीच मतभेद है दिखाया results.is है. कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.
Subscription Required. Please recommend JoVE to your librarian.
Discussion
यहां, विभिन्न समूहों के भीतर बायोमार्कर की पहचान और लक्षण वर्णन के लिए प्रोटोकॉल का वर्णन किया गया है। इस प्रोटोकॉल को आसानी से अन्य नमूना प्रकारों के लिए अनुकूलित किया जा सकता है, जैसे सूक्ष्मजीवों के ओटीयू। LEfSe द्वारा सांख्यिकीय विधि प्रत्येक समूह में विशेषता सूक्ष्मजीवों को पा सकती है (डिफ़ॉल्ट LDA >2 है), अर्थात, सूक्ष्मजीव जो दूसरों के सापेक्ष इस समूह में अधिक प्रचुर मात्रा में हैं। LEfSe देशी और वेब लिनक्स दोनों संस्करणों में उपलब्ध है जहां उपयोगकर्ता वेब पृष्ठों पर LEfSe विश्लेषण भी कर सकते हैं। LEfSe LDA एल्गोरिथ्म पर आधारित है और एक प्रजाति के पेड़ को आकर्षित करने के लिए एक प्रजाति के स्तर की आवश्यकता होती है। उपकरण के आवेदन से, समूहों के बीच सापेक्ष बहुतायत की तुलना की जा सकती है। सभी विभेदक बायोमाकर्स को एक ही ग्राफ में प्लॉट किया जा सकता है। इसके अलावा, एक एकल बायोमार्कर या सभी बायोमाकर्स को बैचों में प्लॉट किया जा सकता है।
चाहे LEfSe मूल सर्वर या एक ऑनलाइन साइट के माध्यम से किया जाता है, आवश्यक चित्रों को आकर्षित करने के लिए बहुत सारे ट्यूनेबल पैरामीटर हैं। इनपुट फ़ाइलों की जटिल संरचना और LEfSe के आगे के विश्लेषण के लिए उन्हें पसंदीदा डेटा प्रारूपों में परिवर्तित करने की आवश्यकता के कारण, कुछ वन-स्टॉप सेवाएं भी विकसित की गई हैं। इसलिए, आसान संचालन का अनुकूलन चुनौतीपूर्ण हो सकता है। दूसरी ओर, LEfSe का उपयोग करके जटिल डेटा का विश्लेषण करते समय कुछ सीमाएं हैं। एलडीए एक ऐसी सुविधा प्रोजेक्ट करता है जो श्रेणी से एक आयाम कम है, और यदि अधिक सुविधाओं की आवश्यकता होती है, तो अन्य विधियों को पेश किया जाता है। एलडीए के वेरिएंट कुछ कठिनाइयों को हल कर सकते हैं। उदाहरण के लिए, कर्नेल LDA एक समाधान है यदि मूल डेटा को प्रक्षेपण के बाद अच्छी तरह से अलग नहीं किया जा सकता है। क्योंकि एलडीए की गणना की मात्रा डेटा के आयाम से संबंधित है, 2DLDA LDA की गणना की मात्रा को बहुत कम कर सकता है। एलडीए और पीसीए दोनों आमतौर पर उपयोग की जाने वाली आयामी कमी तकनीकें हैं। पीसीए (प्रिंसिपल कंपोनेंट एनालिसिस) आयामी कमी सीधे डेटा आयाम से संबंधित है, और अनुमानित समन्वय प्रणाली ऑर्थोगोनल है। हालांकि, एलडीए श्रेणियों के लेबलिंग के अनुसार वर्गीकरण की क्षमता पर ध्यान केंद्रित करता है, इसलिए अनुमानित समन्वय प्रणाली आमतौर पर ओर्थोगोनल नहीं होती है।
LEfSe biomarkers के चयन के लिए सहायता प्रदान करता है। कई फायदों के साथ (उदाहरण के लिए, समायोज्य पैरामीटर, विभिन्न भागों के विस्तृत परिणाम, दो या अधिक समूहों के बीच आवेदन), यह व्यापक रूप से उपयोग किया गया है13। उच्च आयामी डेटा विश्लेषण की बढ़ती मांग के साथ, इस विधि का अनुप्रयोग मानव स्वास्थ्य और बीमारी पर प्रभाव डालने वाली विशेषताओं (जीवों, क्लैड, परिचालन टैक्सोनोमिक इकाइयों, जीन, या कार्यों) के बायोमार्कर का पता लगाने के लिए अधिक से अधिक व्यापक हो जाएगा।
Subscription Required. Please recommend JoVE to your librarian.
Disclosures
लेखकों के पास खुलासा करने के लिए कुछ भी नहीं है।
Acknowledgments
इस कार्य को केंद्रीय लोक कल्याण अनुसंधान संस्थानों (टीकेएस 170205) और विज्ञान और प्रौद्योगिकी के विकास के लिए फाउंडेशन, और जल परिवहन इंजीनियरिंग के लिए तियानजिन अनुसंधान संस्थान (टीआईडब्ल्यूटीई), एमओटी (केजेएफजेडजेजे170201) के लिए मौलिक अनुसंधान निधियों से अनुदान द्वारा समर्थित किया गया था।
Materials
Name | Company | Catalog Number | Comments |
No materials used |
References
- Bolyen, E., et al. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 37 (8), 852-857 (2019).
- Knight, R., et al. Best practices for analysing microbiomes. Nature Reviews. Microbiology. 16 (7), 410-422 (2018).
- Segata, N., et al. Metagenomic biomarker discovery and explanation. Genome Biology. 12 (6), 60 (2011).
- McIver, M., Sayoldin, B., Shafquat, A. Biobakery / lefse [tool]. , Available from: https://bitbucket.org/biobakery/biobakery/wiki/lefse (2019).
- Kruskal, W. H. A nonparametric test for the several sample problem. The Annals of Mathematical Statistics. 23 (4), 525-540 (1952).
- Wilcoxon, F. Individual comparisons by ranking methods. Biometrics Bulletin. 1 (6), 80-83 (1945).
- Fisher, R. A. The use of multiple measurements in taxonomic problems. Annals of Eugenics. 7 (1), 179-188 (1936).
- Liu, Y. X., et al. A practical guide to amplicon and metagenomic analysis of microbiome data. Protein and Cell. 41 (7), 1-16 (2020).
- Shahi, S. K., Zarei, K., Guseva, N. V., Mangalam, A. K. Microbiota analysis using two-step PCR and next-generation 16S rRNA gene sequencing. Journal of Visualized Experiments: JoVE. (152), e59980 (2019).
- Grüning, B., et al. Bioconda: sustainable and comprehensive software distribution for the life sciences. Nature Methods. 15 (7), 475-476 (2018).
- Blankenberg, D., Chilton, J., Coraor, N. Galaxy external display applications: closing a dataflow interoperability loop. Nature Methods. 17 (2), 123-124 (2020).
- Langille, M. G. I., et al. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nature Biotechnology. 31 (9), 814-821 (2013).
- Shilei, Z., et al. Reservoir water stratification and mixing affects microbial community structure and functional community composition in a stratified drinking reservoir. Journal of Environmental Management. 267, 110456 (2020).