Genetics

माइक्रोबायोम डेटा में रैखिक विभेदक विश्लेषण प्रभाव आकार (LEfSe) द्वारा बायोमार्कर का सहायक चयन

Published: May 16, 2022 doi: 10.3791/61715

Fang Chang*¹, Shishi He*², Chenyuan Dang³

¹Marine Resources Research Centre, Tianjin Research Institute for Water Transport Engineering, M.O.T., ²Key Laboratory of Regional Energy Systems Optimization, Ministry of Education, College of Environmental Science and Engineering, North China Electric Power University, ³School of Environmental Science and Engineering, Huazhong University of Science and Technology

* These authors contributed equally

Summary

LEfSe (LDA प्रभाव आकार) जीनोमिक विशेषताओं (जैसे जीन, मार्ग, और वर्गीकरण) की पहचान करने के लिए उच्च आयामी बायोमार्कर खनन के लिए एक उपकरण है जो माइक्रोबायोम डेटा में दो या दो से अधिक समूहों को महत्वपूर्ण रूप से चिह्नित करता है।

Abstract

पर्यावरण और स्वास्थ्य में बंद जैविक जीनोम की ओर ध्यान बढ़ रहा है। विभिन्न नमूनों या वातावरणों के बीच अंतर-समूह मतभेदों का पता लगाने और प्रकट करने के लिए, समूहों के बीच सांख्यिकीय मतभेदों के साथ बायोमार्कर की खोज करना महत्वपूर्ण है। रैखिक discriminant विश्लेषण प्रभाव आकार (LEfSe) के आवेदन अच्छे biomarkers खोजने में मदद कर सकते हैं. मूल जीनोम डेटा के आधार पर, टैक्सा या जीन के आधार पर गुणवत्ता नियंत्रण और विभिन्न अनुक्रमों का परिमाणीकरण किया जाता है। सबसे पहले, क्रुस्कल-वालिस रैंक परीक्षण का उपयोग सांख्यिकीय और जैविक समूहों के बीच विशिष्ट अंतर के बीच अंतर करने के लिए किया गया था। फिर, विलकॉक्सन रैंक परीक्षण पिछले चरण में प्राप्त दो समूहों के बीच किया गया था ताकि यह आकलन किया जा सके कि क्या अंतर सुसंगत थे। अंत में, एलडीए स्कोर के आधार पर काफी अलग-अलग समूहों पर बायोमाकर्स के प्रभाव का मूल्यांकन करने के लिए एक रैखिक भेदभावपूर्ण विश्लेषण (एलडीए) आयोजित किया गया था। संक्षेप में, LEfSe ने जीनोमिक बायोमाकर्स की पहचान करने के लिए सुविधा प्रदान की जो जैविक समूहों के बीच सांख्यिकीय मतभेदों की विशेषता है।

Introduction

बायोमार्कर जैविक विशेषताएं हैं जिन्हें मापा जा सकता है और संक्रमण, बीमारी या पर्यावरण जैसी कुछ घटनाओं को इंगित कर सकता है। उनमें से, कार्यात्मक बायोमार्कर एकल प्रजातियों के विशिष्ट जैविक कार्य या कुछ प्रजातियों के लिए आम हो सकते हैं, जैसे जीन, प्रोटीन, मेटाबोलाइट और मार्ग। इसके अलावा, टैक्सोनोमिक बायोमाकर्स एक असामान्य प्रजाति, जीवों के एक समूह (राज्य, फाइलम, वर्ग, आदेश, परिवार, जीनस, प्रजातियां), एम्प्लिकॉन अनुक्रम वैरिएंट (एएसवी)¹, या परिचालन टैक्सोनोमिक यूनिट (ओटीयू) ² का संकेत देते हैं। बायोमार्कर को अधिक तेज़ी से और सटीक रूप से खोजने के लिए, जैविक डेटा का विश्लेषण करने के लिए एक उपकरण आवश्यक है। कक्षाओं के बीच के अंतर को LEfSe द्वारा सांख्यिकीय महत्व के लिए मानक परीक्षणों के साथ युग्मित और जैविक स्थिरता और प्रभाव प्रासंगिकता 3 एन्कोडिंग अतिरिक्त^{परीक्षणों} द्वारा समझाया जा सकता है। LEfSe एक आकाशगंगा मॉड्यूल, एक कोंडा सूत्र, एक डॉकर छवि के रूप में उपलब्ध है, और bioBakery (VM और बादल) 4 में शामिल ^है। आम तौर पर, माइक्रोबियल विविधता का विश्लेषण अक्सर एक नमूना समुदाय के अनिश्चित वितरण के लिए एक गैर-पैरामीट्रिक परीक्षण का उपयोग करता है। रैंक योग परीक्षण एक गैर-पैरामीट्रिक परीक्षण विधि है, जो नमूनों के मूल्य को बदलने के लिए नमूनों के रैंक का उपयोग करता है। नमूना समूहों के अंतर के अनुसार, इसे विलकॉक्सन रैंक योग परीक्षण के साथ दो नमूनों में विभाजित किया जा सकता है और क्रुस्कल-वालिस परीक्षण ^5,6 के साथ कई नमूनों में विभाजित किया जा सकता ^है। विशेष रूप से, जब नमूनों के कई समूहों के बीच महत्वपूर्ण अंतर होते हैं, तो कई नमूनों की जोड़ीवार तुलना का एक रैंक-योग परीक्षण किया जाना चाहिए। एलडीए (जो 1936 में रोनाल्ड फिशर द्वारा आविष्कार किया गया रैखिक विभेदक विश्लेषण के लिए खड़ा है), एक प्रकार का पर्यवेक्षित सीखने है, जिसे फिशर के रैखिक विभेदक⁷ के रूप में भी जाना जाता है। यह मशीन लर्निंग डेटा खनन के वर्तमान क्षेत्र में एक क्लासिक और लोकप्रिय एल्गोरिथ्म है।

यहाँ, LEfSe परख कोंडा और आकाशगंगा सर्वर द्वारा अनुकूलित किया गया है. 16S rRNA जीन अनुक्रमों के तीन समूहों का विश्लेषण माइक्रोबियल समुदायों और विज़ुअलाइज़ेशन परिणामों के एलडीए स्कोर के साथ विभिन्न समूहों के बीच महत्वपूर्ण अंतर प्रदर्शित करने के लिए किया जाता है।

Subscription Required. Please recommend JoVE to your librarian.

Protocol

नोट: प्रोटोकॉल स्रोत और Segata et ^al.3 के अनुसंधान से संशोधित किया गया था। विधि https://bitbucket.org/biobakery/biobakery/wiki/lefse पर प्रदान की जाती है।

1. विश्लेषण के लिए इनपुट फ़ाइल की तैयारी

LEfSe की इनपुट फ़ाइल (तालिका 1) तैयार करें, जिसे मूल फ़ाइलों (नमूना फ़ाइल और संबंधित प्रजाति एनोटेशन फ़ाइल) के साथ कई वर्कफ़्लो⁸ या पिछले प्रोटोकॉल⁹ द्वारा आसानी से उत्पन्न किया जा सकता है।

2. LEfSe मूल विश्लेषण (लिनक्स सर्वर तक सीमित)

LEfSe स्थापना
नोट:: LEfSe पाइपलाइन कोंडा¹⁰ के साथ स्थापित करने के लिए अनुशंसित है।
1. निर्भरता विरोध की संभावना को बाहर करने के लिए निम्न आदेश चलाएँ। LEfSe के लिए कोई कॉन्डा वातावरण बनाएँ (यह चरण अनुशंसित है लेकिन आवश्यक नहीं है.). -n का पूरा नाम Environment Name है।
  $ कोंडा बनाने के लिए -n LEfSe-env
2. बनाए गए LEfSe वातावरण को सक्रिय करने के लिए, चलाएँ:
  $ स्रोत सक्रिय LEfSe-env
3. चैनल bioBakery के साथ LEfSe स्थापित करने के लिए जहां -c चैनल नाम के लिए खड़ा है, चलाएँ:
  $ कोंडा स्थापित -सी biobakery lefse
LEfSe के लिए डेटा स्वरूपित करें
1. LEfSe के लिए आंतरिक स्वरूप के लिए मूल फ़ाइल को स्वरूपित करने के लिए निम्न आदेश चलाएँ। तालिका.txt इनपुट फ़ाइल है और Table-reformat.in आउटपुट फ़ाइल है। -c का उपयोग सुविधा को सेट करने के लिए किया जाता है, जिसका उपयोग वर्ग (डिफ़ॉल्ट 1) के रूप में किया जाता है और -o का उपयोग सामान्यीकरण मान (डिफ़ॉल्ट -1.0 का अर्थ कोई सामान्यीकरण नहीं) सेट करने के लिए किया जाता है।
  $ format_input.py तालिका.txt Table-reformat.in -c 1 -o 10000000
रैखिक विभेदक विश्लेषण (LDA) प्रभाव आकार की गणना
1. निम्न आदेश चलाएँ। इस चरण का उद्देश्य पिछले परिणाम का LDA निष्पादित करने और विज़ुअलाइज़ेशन के लिए परिणाम फ़ाइल जनरेट करने के लिए है। Table-reformat.in पिछले चरण का उपयोग कर जनरेट किया गया है और इस चरण में इनपुट फ़ाइल के रूप में उपयोग किया जाता है। Table-reformat.res परिणाम फ़ाइल है।
  $ run_lefse.py Table-reformat.in तालिका reformat.res
भूखंडों द्वारा विज़ुअलाइज़ेशन
1. LEfSe परिणामों को प्लॉट करें। एक पीडीएफ फ़ाइल में biomarkers के प्रभाव आकार साजिश करने के लिए,. Table-reformat.res पिछले चरण का उपयोग कर जनरेट किया गया है और LDA.pdf प्लॉट फ़ाइल है। -प्रारूप का उपयोग आउटपुट फ़ाइल प्रारूप को सेट करने के लिए किया जाता है।
  $ plot_res.py तालिका-reformat.res LDA.pdf --प्रारूप पीडीएफ
2. क्लैडोग्राम प्लॉट करें। प्रजातियों के पेड़ को आकर्षित करने और एक क्लैडोग्राम में बायोमार्कर प्रदर्शित करने के लिए। cladogram.pdf आउटपुट फ़ाइल है।
  $ plot_cladogram.py तालिका-reformat.res cladogram.pdf --प्रारूप पीडीएफ
3. प्लॉट एक सुविधा (वैकल्पिक) विभिन्न समूहों के बीच एक एकल बायोमार्कर के अंतर को प्लॉट करने के लिए। -f का उपयोग प्लॉट की विशेषताओं को सेट करने के लिए किया जाता है। यदि कोई सेट किया गया था, तो -feature_name दिया जाना चाहिए।
  $ plot_features.py -f एक --feature_name "k__Bacteria.p__Firmicutes.c__Bacilli.o__Bacillales" --प्रारूप पीडीएफ Table-reformat.in तालिका-reformat.res Bacillales.pdf
4. सभी सुविधाओं को आकर्षित करने के लिए विभेदक सुविधाओं (वैकल्पिक) को प्लॉट करें, लेकिन सावधानी के साथ बहुत कुछ किया जाना है। --archive का उपयोग यह चुनने के लिए किया जाता है कि परिणामों को संपीड़ित करना है या नहीं। ./ का अर्थ है परिणामों का मार्ग।
  $ plot_features.py -f diff --archive कोई नहीं --प्रारूप पीडीएफ Table-reformat.in तालिका-reformat.res ./

3. LEfSe ऑनलाइन विश्लेषण (आकाशगंगा)

Huttenhower आकाशगंगा सर्वर^{1 1} पर जाएँ: http://huttenhower.sph.harvard.edu/galaxy.
फ़ाइलें अपलोड करें. बाएँ फलक पर ऊपर तीर बटन दबाएँ और फ़ाइल अपलोड करें. इनपुट फ़ाइल का चयन करने के लिए स्थानीय फ़ाइल चुनें पर क्लिक करें और स्वरूप सारणीबद्ध का चयन करें, और फिर प्रारंभ बटन पर क्लिक करें।
नोट:: वेबपेज (https://bitbucket.org/biobakery/biobakery/wiki/lefse) के लिए संदर्भित, स्क्रिप्ट (taxonomy_summary का उपयोग करें। R) LEfSe की इनपुट फ़ाइल उत्पन्न करने के लिए, और प्रारूप (एक समूह नाम के साथ प्रत्येक स्तंभ, "|" द्वारा अलग एनोटेशन के एक अलग स्तर के साथ प्रत्येक पंक्ति) तालिका 1 में दिखाए गए अनुसार आवश्यक है। अपलोडिंग प्रक्रिया का एक योजनाबद्ध अवलोकन चित्र 1 में दिखाया गया है।
LEfSe के लिए डेटा स्वरूपित करें. LEfSe | पर क्लिक करें बाएँ फलक पर LEfSe लिंक के लिए डेटा स्वरूपित करें , और फ़ाइल में वर्ग के लिए विशिष्ट पंक्तियों का चयन करें, और निष्पादन बटन पर क्लिक करें। परिचालन प्रक्रिया और उपयोग किए गए पैरामीटर का एक योजनाबद्ध अवलोकन चित्र 2 में दिखाया गया है।
LDA प्रभाव आकार की गणना करें। LEfSe | पर क्लिक करें LDA प्रभाव आकार (LEfSe) बाएँ फलक पर लिंक करें, और विश्लेषण आवश्यकताओं के अनुसार पैरामीटर मानों का चयन करें। Execute पर क्लिक करें। परिचालन प्रक्रिया और उपयोग किए गए पैरामीटर का एक योजनाबद्ध अवलोकन चित्र 3 में दिखाया गया है।
LEfSe परिणामों को प्लॉट करें। LEfSe | पर क्लिक करें बाएँ फलक पर LEfSe परिणाम लिंक प्लॉट करें, और निष्पादित करें बटन पर क्लिक करें। परिचालन प्रक्रिया और उपयोग किए गए पैरामीटर का एक योजनाबद्ध अवलोकन चित्र 4 में दिखाया गया है।
क्लैडोग्राम प्लॉट करें। बाएँ फलक पर प्लॉट Cladogram पर क्लिक करें, और पैरामीटर मानों का चयन करने के बाद निष्पादित करें बटन पर क्लिक करें। परिचालन प्रक्रिया और उपयोग किए गए पैरामीटर का एक योजनाबद्ध अवलोकन चित्र 5 में दिखाया गया है।
बाएँ फलक पर प्लॉट एक सुविधा पर क्लिक करके, और पैरामीटर मानों का चयन करने के बाद निष्पादन बटन पर क्लिक करके एक सुविधा प्लॉट करें. परिचालन प्रक्रिया और उपयोग किए गए पैरामीटर का एक योजनाबद्ध अवलोकन चित्र 6 में दिखाया गया है।
बाएँ फलक पर प्लॉट डिफरेंशियल सुविधाएँ पर क्लिक करके, और पैरामीटर मानों का चयन करने के बाद निष्पादन बटन पर clcking द्वारा भिन्न सुविधाएँ प्लॉट करें. परिचालन प्रक्रिया और उपयोग किए गए पैरामीटर का एक योजनाबद्ध अवलोकन चित्र 7 में दिखाया गया है।
नोट:: इन जनरेट किए गए आंकड़ों को विज़ुअलाइज़ किया जा सकता है और दाएँ फलक में परिणामी आउटपुट के विरुद्ध डाउनलोड किया जा सकता है।

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

तीन नमूनों के 16S rRNA जीन अनुक्रमों का विश्लेषण करके प्रत्येक समूह में महत्वपूर्ण अंतर के साथ माइक्रोबियल समुदायों के LDA स्कोर को चित्र 8 में दिखाया गया है। हिस्टोग्राम का रंग विभिन्न समूहों का प्रतिनिधित्व करता है, जबकि लंबाई एलडीए स्कोर का प्रतिनिधित्व करती है, जो विभिन्न समूहों के बीच महत्वपूर्ण अंतर के साथ प्रजातियों का प्रभाव है। हिस्टोग्राम महत्वपूर्ण अंतर के साथ प्रजातियों को दिखाता है जिसका एलडीए स्कोर पूर्व निर्धारित मूल्य से अधिक है। डिफ़ॉल्ट पूर्व निर्धारित मान 2.0 है, इसलिए 2.0 से अधिक LDA स्कोर (abscissa) के केवल पूर्ण मान प्लॉट में दिखाए जाते हैं।

विभिन्न वर्गीकरण स्तरों के बीच महत्वपूर्ण अंतर और प्रजातियों के पेड़ के साथ बायोमार्कर चित्र 9 में दिखाए गए हैं। अंदर से बाहर तक विकिरण करने वाले वृत्त फाइलम से जीनस तक वर्गीकरण स्तरों का प्रतिनिधित्व करते हैं (सबसे भीतरी पीला वृत्त राज्य है)। विभिन्न वर्गीकरण स्तरों पर प्रत्येक छोटे सर्कल का व्यास सापेक्ष बहुतायत के आकार का प्रतिनिधित्व करता है। बिना किसी महत्वपूर्ण अंतर के प्रजातियों को समान रूप से पीले रंग का रंग दिया जाता है, और काफी अलग-अलग प्रजातियों के बायोमार्कर को संबंधित समूहों के साथ रंगीन किया जाता है। कक्षा ए, बी और सी एकत्र किए गए माइक्रोबियल नमूनों के समूह नाम हैं। लाल नोड्स माइक्रोबियल समूहों का प्रतिनिधित्व करते हैं जो लाल समूह (ए) में एक महत्वपूर्ण भूमिका निभाते हैं; हरे नोड्स माइक्रोबियल समूहों का प्रतिनिधित्व करते हैं जो हरे रंग के समूह (बी) में एक महत्वपूर्ण भूमिका निभाते हैं; और नीले नोड्स माइक्रोबियल समूहों का प्रतिनिधित्व करते हैं जो नीले समूह (सी) में एक महत्वपूर्ण भूमिका निभाते हैं। प्लॉट में नहीं दिखाए गए बायोमार्कर के संबंधित प्रजातियों के नाम को दाईं ओर दिखाया गया है, और अक्षर संख्याएं प्लॉट में इसके अनुरूप हैं (केवल सौंदर्य उद्देश्यों के लिए डिफ़ॉल्ट रूप से फाइलम से परिवार को अंतर प्रजातियों को दिखाते हुए)।

एक बायोमार्कर की बहुतायत जिसमें LEfSe परिणामों के अनुसार विभिन्न समूहों के बीच अंतर है , चित्र 10 में दिखाया गया है। सापेक्ष बहुतायत barplot में, ठोस रेखा औसत सापेक्ष बहुतायत का प्रतिनिधित्व करती है, बिंदीदार रेखा माध्यिका सापेक्ष बहुतायत का प्रतिनिधित्व करती है, और प्रत्येक स्तंभ विभिन्न समूहों में प्रत्येक नमूने की सापेक्ष बहुतायत का प्रतिनिधित्व करता है।

तालिका 1: LEfSe विश्लेषण ऑनलाइन के लिए उदाहरण फ़ाइल। इस तालिका को डाउनलोड करने के लिए यहां क्लिक करें।

चित्रा 1: अपलोडिंग प्रक्रिया का योजनाबद्ध अवलोकन। आकृति पर अनुक्रमिक क्रम में लाल संख्याओं पर क्लिक करें। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

चित्रा 2: डेटा स्वरूप को बदलने के लिए परिचालन प्रक्रिया का योजनाबद्ध अवलोकन। आकृति पर अनुक्रमिक क्रम में लाल संख्याओं पर क्लिक करें। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

चित्रा 3: LDA प्रभाव आकार की गणना के लिए परिचालन प्रक्रिया का योजनाबद्ध अवलोकन। आकृति पर अनुक्रमिक क्रम में लाल संख्याओं पर क्लिक करें। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

चित्रा 4: LEfSe परिणामों की साजिश के लिए परिचालन प्रक्रिया का योजनाबद्ध अवलोकन। आकृति पर अनुक्रमिक क्रम में लाल संख्याओं पर क्लिक करें। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

चित्रा 5: क्लैडोग्राम प्लॉटिंग के लिए परिचालन प्रक्रिया का योजनाबद्ध अवलोकन। आकृति पर अनुक्रमिक क्रम में लाल संख्याओं पर क्लिक करें। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

चित्रा 6: एक सुविधा प्लॉटिंग के लिए परिचालन प्रक्रिया का योजनाबद्ध अवलोकन। आकृति पर अनुक्रमिक क्रम में लाल संख्याओं पर क्लिक करें। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

चित्रा 7: विभेदक सुविधाओं की साजिश रचने के लिए परिचालन प्रक्रिया का योजनाबद्ध अवलोकन। आकृति पर अनुक्रमिक क्रम में लाल संख्याओं पर क्लिक करें। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

चित्रा 8: LDA मानों के वितरण का हिस्टोग्राम. प्रत्येक समूह में महत्वपूर्ण अंतर के साथ माइक्रोबियल समुदायों के एलडीए स्कोर का विश्लेषण एलडीए प्रभाव आकार द्वारा उनके प्रभावों और सहसंबंधों के अनुसार किया गया था। इस आंकड़े को डाउनलोड करने के लिए कृपया यहाँ क्लिक करें.

चित्रा 9: Cladogram. प्रोटोकॉल द्वारा प्राप्त क्लैडोग्राम का विशिष्ट प्लॉट, जो तीन समूहों के विभिन्न वर्गीकरण स्तरों के बीच अंतर के प्रतिनिधित्व को सक्षम बनाता है। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

चित्रा 10: एक सुविधा प्लॉट। एक बायोमार्कर की बहुतायत barplot है कि LEfSe के अनुसार विभिन्न समूहों के बीच मतभेद है दिखाया results.is है. कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

यहां, विभिन्न समूहों के भीतर बायोमार्कर की पहचान और लक्षण वर्णन के लिए प्रोटोकॉल का वर्णन किया गया है। इस प्रोटोकॉल को आसानी से अन्य नमूना प्रकारों के लिए अनुकूलित किया जा सकता है, जैसे सूक्ष्मजीवों के ओटीयू। LEfSe द्वारा सांख्यिकीय विधि प्रत्येक समूह में विशेषता सूक्ष्मजीवों को पा सकती है (डिफ़ॉल्ट LDA >2 है), अर्थात, सूक्ष्मजीव जो दूसरों के सापेक्ष इस समूह में अधिक प्रचुर मात्रा में हैं^। LEfSe देशी और वेब लिनक्स दोनों संस्करणों में उपलब्ध है जहां उपयोगकर्ता वेब पृष्ठों पर LEfSe विश्लेषण भी कर सकते हैं। LEfSe LDA एल्गोरिथ्म पर आधारित है और एक प्रजाति के पेड़ को आकर्षित करने के लिए एक प्रजाति के स्तर की आवश्यकता होती है। उपकरण के आवेदन से, समूहों के बीच सापेक्ष बहुतायत की तुलना की जा सकती है। सभी विभेदक बायोमाकर्स को एक ही ग्राफ में प्लॉट किया जा सकता है। इसके अलावा, एक एकल बायोमार्कर या सभी बायोमाकर्स को बैचों में प्लॉट किया जा सकता है।

चाहे LEfSe मूल सर्वर या एक ऑनलाइन साइट के माध्यम से किया जाता है, आवश्यक चित्रों को आकर्षित करने के लिए बहुत सारे ट्यूनेबल पैरामीटर हैं। इनपुट फ़ाइलों की जटिल संरचना और LEfSe के आगे के विश्लेषण के लिए उन्हें पसंदीदा डेटा प्रारूपों में परिवर्तित करने की आवश्यकता के कारण, कुछ वन-स्टॉप सेवाएं भी विकसित की गई हैं। इसलिए, आसान संचालन का अनुकूलन चुनौतीपूर्ण हो सकता है। दूसरी ओर, LEfSe का उपयोग करके जटिल डेटा का विश्लेषण करते समय कुछ सीमाएं हैं। एलडीए एक ऐसी सुविधा प्रोजेक्ट करता है जो श्रेणी से एक आयाम कम है, और यदि अधिक सुविधाओं की आवश्यकता होती है, तो अन्य विधियों को पेश किया जाता है। एलडीए के वेरिएंट कुछ कठिनाइयों को हल कर सकते हैं। उदाहरण के लिए, कर्नेल LDA एक समाधान है यदि मूल डेटा को प्रक्षेपण के बाद अच्छी तरह से अलग नहीं किया जा सकता है। क्योंकि एलडीए की गणना की मात्रा डेटा के आयाम से संबंधित है, 2DLDA LDA की गणना की मात्रा को बहुत कम कर सकता है। एलडीए और पीसीए दोनों आमतौर पर उपयोग की जाने वाली आयामी कमी तकनीकें हैं। पीसीए (प्रिंसिपल कंपोनेंट एनालिसिस) आयामी कमी सीधे डेटा आयाम से संबंधित है, और अनुमानित समन्वय प्रणाली ऑर्थोगोनल है। हालांकि, एलडीए श्रेणियों के लेबलिंग के अनुसार वर्गीकरण की क्षमता पर ध्यान केंद्रित करता है, इसलिए अनुमानित समन्वय प्रणाली आमतौर पर ओर्थोगोनल नहीं होती है।

LEfSe biomarkers के चयन के लिए सहायता प्रदान करता है। कई फायदों के साथ (उदाहरण के लिए, समायोज्य पैरामीटर, विभिन्न भागों के विस्तृत परिणाम, दो या अधिक समूहों के बीच आवेदन), यह व्यापक रूप से उपयोग किया गया है¹³। उच्च आयामी डेटा विश्लेषण की बढ़ती मांग के साथ, इस विधि का अनुप्रयोग मानव स्वास्थ्य और बीमारी पर प्रभाव डालने वाली विशेषताओं (जीवों, क्लैड, परिचालन टैक्सोनोमिक इकाइयों, जीन, या कार्यों) के बायोमार्कर का पता लगाने के लिए अधिक से अधिक व्यापक हो जाएगा।

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

लेखकों के पास खुलासा करने के लिए कुछ भी नहीं है।

Acknowledgments

इस कार्य को केंद्रीय लोक कल्याण अनुसंधान संस्थानों (टीकेएस 170205) और विज्ञान और प्रौद्योगिकी के विकास के लिए फाउंडेशन, और जल परिवहन इंजीनियरिंग के लिए तियानजिन अनुसंधान संस्थान (टीआईडब्ल्यूटीई), एमओटी (केजेएफजेडजेजे170201) के लिए मौलिक अनुसंधान निधियों से अनुदान द्वारा समर्थित किया गया था।

Materials

Name	Company	Catalog Number	Comments
No materials used

DOWNLOAD MATERIALS LIST

References

Bolyen, E., et al. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 37 (8), 852-857 (2019).
Knight, R., et al. Best practices for analysing microbiomes. Nature Reviews. Microbiology. 16 (7), 410-422 (2018).
Segata, N., et al. Metagenomic biomarker discovery and explanation. Genome Biology. 12 (6), 60 (2011).
McIver, M., Sayoldin, B., Shafquat, A. Biobakery / lefse [tool]. , Available from: https://bitbucket.org/biobakery/biobakery/wiki/lefse (2019).
Kruskal, W. H. A nonparametric test for the several sample problem. The Annals of Mathematical Statistics. 23 (4), 525-540 (1952).
Wilcoxon, F. Individual comparisons by ranking methods. Biometrics Bulletin. 1 (6), 80-83 (1945).
Fisher, R. A. The use of multiple measurements in taxonomic problems. Annals of Eugenics. 7 (1), 179-188 (1936).
Liu, Y. X., et al. A practical guide to amplicon and metagenomic analysis of microbiome data. Protein and Cell. 41 (7), 1-16 (2020).
Shahi, S. K., Zarei, K., Guseva, N. V., Mangalam, A. K. Microbiota analysis using two-step PCR and next-generation 16S rRNA gene sequencing. Journal of Visualized Experiments: JoVE. (152), e59980 (2019).
Grüning, B., et al. Bioconda: sustainable and comprehensive software distribution for the life sciences. Nature Methods. 15 (7), 475-476 (2018).
Blankenberg, D., Chilton, J., Coraor, N. Galaxy external display applications: closing a dataflow interoperability loop. Nature Methods. 17 (2), 123-124 (2020).
Langille, M. G. I., et al. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nature Biotechnology. 31 (9), 814-821 (2013).
Shilei, Z., et al. Reservoir water stratification and mixing affects microbial community structure and functional community composition in a stratified drinking reservoir. Journal of Environmental Management. 267, 110456 (2020).

Genetics

माइक्रोबायोम डेटा में रैखिक विभेदक विश्लेषण प्रभाव आकार (LEfSe) द्वारा बायोमार्कर का सहायक चयन

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.