Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

माइक्रोबायोम डेटा में रैखिक विभेदक विश्लेषण प्रभाव आकार (LEfSe) द्वारा बायोमार्कर का सहायक चयन

Published: May 16, 2022 doi: 10.3791/61715
* These authors contributed equally

Summary

LEfSe (LDA प्रभाव आकार) जीनोमिक विशेषताओं (जैसे जीन, मार्ग, और वर्गीकरण) की पहचान करने के लिए उच्च आयामी बायोमार्कर खनन के लिए एक उपकरण है जो माइक्रोबायोम डेटा में दो या दो से अधिक समूहों को महत्वपूर्ण रूप से चिह्नित करता है।

Abstract

पर्यावरण और स्वास्थ्य में बंद जैविक जीनोम की ओर ध्यान बढ़ रहा है। विभिन्न नमूनों या वातावरणों के बीच अंतर-समूह मतभेदों का पता लगाने और प्रकट करने के लिए, समूहों के बीच सांख्यिकीय मतभेदों के साथ बायोमार्कर की खोज करना महत्वपूर्ण है। रैखिक discriminant विश्लेषण प्रभाव आकार (LEfSe) के आवेदन अच्छे biomarkers खोजने में मदद कर सकते हैं. मूल जीनोम डेटा के आधार पर, टैक्सा या जीन के आधार पर गुणवत्ता नियंत्रण और विभिन्न अनुक्रमों का परिमाणीकरण किया जाता है। सबसे पहले, क्रुस्कल-वालिस रैंक परीक्षण का उपयोग सांख्यिकीय और जैविक समूहों के बीच विशिष्ट अंतर के बीच अंतर करने के लिए किया गया था। फिर, विलकॉक्सन रैंक परीक्षण पिछले चरण में प्राप्त दो समूहों के बीच किया गया था ताकि यह आकलन किया जा सके कि क्या अंतर सुसंगत थे। अंत में, एलडीए स्कोर के आधार पर काफी अलग-अलग समूहों पर बायोमाकर्स के प्रभाव का मूल्यांकन करने के लिए एक रैखिक भेदभावपूर्ण विश्लेषण (एलडीए) आयोजित किया गया था। संक्षेप में, LEfSe ने जीनोमिक बायोमाकर्स की पहचान करने के लिए सुविधा प्रदान की जो जैविक समूहों के बीच सांख्यिकीय मतभेदों की विशेषता है।

Introduction

बायोमार्कर जैविक विशेषताएं हैं जिन्हें मापा जा सकता है और संक्रमण, बीमारी या पर्यावरण जैसी कुछ घटनाओं को इंगित कर सकता है। उनमें से, कार्यात्मक बायोमार्कर एकल प्रजातियों के विशिष्ट जैविक कार्य या कुछ प्रजातियों के लिए आम हो सकते हैं, जैसे जीन, प्रोटीन, मेटाबोलाइट और मार्ग। इसके अलावा, टैक्सोनोमिक बायोमाकर्स एक असामान्य प्रजाति, जीवों के एक समूह (राज्य, फाइलम, वर्ग, आदेश, परिवार, जीनस, प्रजातियां), एम्प्लिकॉन अनुक्रम वैरिएंट (एएसवी)1, या परिचालन टैक्सोनोमिक यूनिट (ओटीयू) 2 का संकेत देते हैं। बायोमार्कर को अधिक तेज़ी से और सटीक रूप से खोजने के लिए, जैविक डेटा का विश्लेषण करने के लिए एक उपकरण आवश्यक है। कक्षाओं के बीच के अंतर को LEfSe द्वारा सांख्यिकीय महत्व के लिए मानक परीक्षणों के साथ युग्मित और जैविक स्थिरता और प्रभाव प्रासंगिकता 3 एन्कोडिंग अतिरिक्तपरीक्षणों द्वारा समझाया जा सकता है। LEfSe एक आकाशगंगा मॉड्यूल, एक कोंडा सूत्र, एक डॉकर छवि के रूप में उपलब्ध है, और bioBakery (VM और बादल) 4 में शामिल है। आम तौर पर, माइक्रोबियल विविधता का विश्लेषण अक्सर एक नमूना समुदाय के अनिश्चित वितरण के लिए एक गैर-पैरामीट्रिक परीक्षण का उपयोग करता है। रैंक योग परीक्षण एक गैर-पैरामीट्रिक परीक्षण विधि है, जो नमूनों के मूल्य को बदलने के लिए नमूनों के रैंक का उपयोग करता है। नमूना समूहों के अंतर के अनुसार, इसे विलकॉक्सन रैंक योग परीक्षण के साथ दो नमूनों में विभाजित किया जा सकता है और क्रुस्कल-वालिस परीक्षण 5,6 के साथ कई नमूनों में विभाजित किया जा सकता है। विशेष रूप से, जब नमूनों के कई समूहों के बीच महत्वपूर्ण अंतर होते हैं, तो कई नमूनों की जोड़ीवार तुलना का एक रैंक-योग परीक्षण किया जाना चाहिए। एलडीए (जो 1936 में रोनाल्ड फिशर द्वारा आविष्कार किया गया रैखिक विभेदक विश्लेषण के लिए खड़ा है), एक प्रकार का पर्यवेक्षित सीखने है, जिसे फिशर के रैखिक विभेदक7 के रूप में भी जाना जाता है। यह मशीन लर्निंग डेटा खनन के वर्तमान क्षेत्र में एक क्लासिक और लोकप्रिय एल्गोरिथ्म है।

यहाँ, LEfSe परख कोंडा और आकाशगंगा सर्वर द्वारा अनुकूलित किया गया है. 16S rRNA जीन अनुक्रमों के तीन समूहों का विश्लेषण माइक्रोबियल समुदायों और विज़ुअलाइज़ेशन परिणामों के एलडीए स्कोर के साथ विभिन्न समूहों के बीच महत्वपूर्ण अंतर प्रदर्शित करने के लिए किया जाता है।

Subscription Required. Please recommend JoVE to your librarian.

Protocol

नोट: प्रोटोकॉल स्रोत और Segata et al.3 के अनुसंधान से संशोधित किया गया था। विधि https://bitbucket.org/biobakery/biobakery/wiki/lefse पर प्रदान की जाती है।

1. विश्लेषण के लिए इनपुट फ़ाइल की तैयारी

  1. LEfSe की इनपुट फ़ाइल (तालिका 1) तैयार करें, जिसे मूल फ़ाइलों (नमूना फ़ाइल और संबंधित प्रजाति एनोटेशन फ़ाइल) के साथ कई वर्कफ़्लो8 या पिछले प्रोटोकॉल9 द्वारा आसानी से उत्पन्न किया जा सकता है।

2. LEfSe मूल विश्लेषण (लिनक्स सर्वर तक सीमित)

  1. LEfSe स्थापना
    नोट:: LEfSe पाइपलाइन कोंडा10 के साथ स्थापित करने के लिए अनुशंसित है।
    1. निर्भरता विरोध की संभावना को बाहर करने के लिए निम्न आदेश चलाएँ। LEfSe के लिए कोई कॉन्डा वातावरण बनाएँ (यह चरण अनुशंसित है लेकिन आवश्यक नहीं है.). -n का पूरा नाम Environment Name है।
      $ कोंडा बनाने के लिए -n LEfSe-env
    2. बनाए गए LEfSe वातावरण को सक्रिय करने के लिए, चलाएँ:
      $ स्रोत सक्रिय LEfSe-env
    3. चैनल bioBakery के साथ LEfSe स्थापित करने के लिए जहां -c चैनल नाम के लिए खड़ा है, चलाएँ:
      $ कोंडा स्थापित -सी biobakery lefse
  2. LEfSe के लिए डेटा स्वरूपित करें
    1. LEfSe के लिए आंतरिक स्वरूप के लिए मूल फ़ाइल को स्वरूपित करने के लिए निम्न आदेश चलाएँ। तालिका.txt इनपुट फ़ाइल है और Table-reformat.in आउटपुट फ़ाइल है। -c का उपयोग सुविधा को सेट करने के लिए किया जाता है, जिसका उपयोग वर्ग (डिफ़ॉल्ट 1) के रूप में किया जाता है और -o का उपयोग सामान्यीकरण मान (डिफ़ॉल्ट -1.0 का अर्थ कोई सामान्यीकरण नहीं) सेट करने के लिए किया जाता है।
      $ format_input.py तालिका.txt Table-reformat.in -c 1 -o 10000000
  3. रैखिक विभेदक विश्लेषण (LDA) प्रभाव आकार की गणना
    1. निम्न आदेश चलाएँ। इस चरण का उद्देश्य पिछले परिणाम का LDA निष्पादित करने और विज़ुअलाइज़ेशन के लिए परिणाम फ़ाइल जनरेट करने के लिए है। Table-reformat.in पिछले चरण का उपयोग कर जनरेट किया गया है और इस चरण में इनपुट फ़ाइल के रूप में उपयोग किया जाता है। Table-reformat.res परिणाम फ़ाइल है।
      $ run_lefse.py Table-reformat.in तालिका reformat.res
  4. भूखंडों द्वारा विज़ुअलाइज़ेशन
    1. LEfSe परिणामों को प्लॉट करें। एक पीडीएफ फ़ाइल में biomarkers के प्रभाव आकार साजिश करने के लिए,. Table-reformat.res पिछले चरण का उपयोग कर जनरेट किया गया है और LDA.pdf प्लॉट फ़ाइल है। -प्रारूप का उपयोग आउटपुट फ़ाइल प्रारूप को सेट करने के लिए किया जाता है।
      $ plot_res.py तालिका-reformat.res LDA.pdf --प्रारूप पीडीएफ
    2. क्लैडोग्राम प्लॉट करें। प्रजातियों के पेड़ को आकर्षित करने और एक क्लैडोग्राम में बायोमार्कर प्रदर्शित करने के लिए। cladogram.pdf आउटपुट फ़ाइल है।
      $ plot_cladogram.py तालिका-reformat.res cladogram.pdf --प्रारूप पीडीएफ
    3. प्लॉट एक सुविधा (वैकल्पिक) विभिन्न समूहों के बीच एक एकल बायोमार्कर के अंतर को प्लॉट करने के लिए। -f का उपयोग प्लॉट की विशेषताओं को सेट करने के लिए किया जाता है। यदि कोई सेट किया गया था, तो -feature_name दिया जाना चाहिए।
      $ plot_features.py -f एक --feature_name "k__Bacteria.p__Firmicutes.c__Bacilli.o__Bacillales" --प्रारूप पीडीएफ Table-reformat.in तालिका-reformat.res Bacillales.pdf
    4. सभी सुविधाओं को आकर्षित करने के लिए विभेदक सुविधाओं (वैकल्पिक) को प्लॉट करें, लेकिन सावधानी के साथ बहुत कुछ किया जाना है। --archive का उपयोग यह चुनने के लिए किया जाता है कि परिणामों को संपीड़ित करना है या नहीं। ./ का अर्थ है परिणामों का मार्ग।
      $ plot_features.py -f diff --archive कोई नहीं --प्रारूप पीडीएफ Table-reformat.in तालिका-reformat.res ./

3. LEfSe ऑनलाइन विश्लेषण (आकाशगंगा)

  1. Huttenhower आकाशगंगा सर्वर1 1 पर जाएँ: http://huttenhower.sph.harvard.edu/galaxy.
  2. फ़ाइलें अपलोड करें. बाएँ फलक पर ऊपर तीर बटन दबाएँ और फ़ाइल अपलोड करें. इनपुट फ़ाइल का चयन करने के लिए स्थानीय फ़ाइल चुनें पर क्लिक करें और स्वरूप सारणीबद्ध का चयन करें, और फिर प्रारंभ बटन पर क्लिक करें।
    नोट:: वेबपेज (https://bitbucket.org/biobakery/biobakery/wiki/lefse) के लिए संदर्भित, स्क्रिप्ट (taxonomy_summary का उपयोग करें। R) LEfSe की इनपुट फ़ाइल उत्पन्न करने के लिए, और प्रारूप (एक समूह नाम के साथ प्रत्येक स्तंभ, "|" द्वारा अलग एनोटेशन के एक अलग स्तर के साथ प्रत्येक पंक्ति) तालिका 1 में दिखाए गए अनुसार आवश्यक है। अपलोडिंग प्रक्रिया का एक योजनाबद्ध अवलोकन चित्र 1 में दिखाया गया है।
  3. LEfSe के लिए डेटा स्वरूपित करें. LEfSe | पर क्लिक करें बाएँ फलक पर LEfSe लिंक के लिए डेटा स्वरूपित करें , और फ़ाइल में वर्ग के लिए विशिष्ट पंक्तियों का चयन करें, और निष्पादन बटन पर क्लिक करें। परिचालन प्रक्रिया और उपयोग किए गए पैरामीटर का एक योजनाबद्ध अवलोकन चित्र 2 में दिखाया गया है।
  4. LDA प्रभाव आकार की गणना करें। LEfSe | पर क्लिक करें LDA प्रभाव आकार (LEfSe) बाएँ फलक पर लिंक करें, और विश्लेषण आवश्यकताओं के अनुसार पैरामीटर मानों का चयन करें। Execute पर क्लिक करें। परिचालन प्रक्रिया और उपयोग किए गए पैरामीटर का एक योजनाबद्ध अवलोकन चित्र 3 में दिखाया गया है।
  5. LEfSe परिणामों को प्लॉट करें। LEfSe | पर क्लिक करें बाएँ फलक पर LEfSe परिणाम लिंक प्लॉट करें, और निष्पादित करें बटन पर क्लिक करें। परिचालन प्रक्रिया और उपयोग किए गए पैरामीटर का एक योजनाबद्ध अवलोकन चित्र 4 में दिखाया गया है।
  6. क्लैडोग्राम प्लॉट करें। बाएँ फलक पर प्लॉट Cladogram पर क्लिक करें, और पैरामीटर मानों का चयन करने के बाद निष्पादित करें बटन पर क्लिक करें। परिचालन प्रक्रिया और उपयोग किए गए पैरामीटर का एक योजनाबद्ध अवलोकन चित्र 5 में दिखाया गया है।
  7. बाएँ फलक पर प्लॉट एक सुविधा पर क्लिक करके, और पैरामीटर मानों का चयन करने के बाद निष्पादन बटन पर क्लिक करके एक सुविधा प्लॉट करें. परिचालन प्रक्रिया और उपयोग किए गए पैरामीटर का एक योजनाबद्ध अवलोकन चित्र 6 में दिखाया गया है।
  8. बाएँ फलक पर प्लॉट डिफरेंशियल सुविधाएँ पर क्लिक करके, और पैरामीटर मानों का चयन करने के बाद निष्पादन बटन पर clcking द्वारा भिन्न सुविधाएँ प्लॉट करें. परिचालन प्रक्रिया और उपयोग किए गए पैरामीटर का एक योजनाबद्ध अवलोकन चित्र 7 में दिखाया गया है।
    नोट:: इन जनरेट किए गए आंकड़ों को विज़ुअलाइज़ किया जा सकता है और दाएँ फलक में परिणामी आउटपुट के विरुद्ध डाउनलोड किया जा सकता है।

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

तीन नमूनों के 16S rRNA जीन अनुक्रमों का विश्लेषण करके प्रत्येक समूह में महत्वपूर्ण अंतर के साथ माइक्रोबियल समुदायों के LDA स्कोर को चित्र 8 में दिखाया गया है। हिस्टोग्राम का रंग विभिन्न समूहों का प्रतिनिधित्व करता है, जबकि लंबाई एलडीए स्कोर का प्रतिनिधित्व करती है, जो विभिन्न समूहों के बीच महत्वपूर्ण अंतर के साथ प्रजातियों का प्रभाव है। हिस्टोग्राम महत्वपूर्ण अंतर के साथ प्रजातियों को दिखाता है जिसका एलडीए स्कोर पूर्व निर्धारित मूल्य से अधिक है। डिफ़ॉल्ट पूर्व निर्धारित मान 2.0 है, इसलिए 2.0 से अधिक LDA स्कोर (abscissa) के केवल पूर्ण मान प्लॉट में दिखाए जाते हैं।

विभिन्न वर्गीकरण स्तरों के बीच महत्वपूर्ण अंतर और प्रजातियों के पेड़ के साथ बायोमार्कर चित्र 9 में दिखाए गए हैं। अंदर से बाहर तक विकिरण करने वाले वृत्त फाइलम से जीनस तक वर्गीकरण स्तरों का प्रतिनिधित्व करते हैं (सबसे भीतरी पीला वृत्त राज्य है)। विभिन्न वर्गीकरण स्तरों पर प्रत्येक छोटे सर्कल का व्यास सापेक्ष बहुतायत के आकार का प्रतिनिधित्व करता है। बिना किसी महत्वपूर्ण अंतर के प्रजातियों को समान रूप से पीले रंग का रंग दिया जाता है, और काफी अलग-अलग प्रजातियों के बायोमार्कर को संबंधित समूहों के साथ रंगीन किया जाता है। कक्षा ए, बी और सी एकत्र किए गए माइक्रोबियल नमूनों के समूह नाम हैं। लाल नोड्स माइक्रोबियल समूहों का प्रतिनिधित्व करते हैं जो लाल समूह (ए) में एक महत्वपूर्ण भूमिका निभाते हैं; हरे नोड्स माइक्रोबियल समूहों का प्रतिनिधित्व करते हैं जो हरे रंग के समूह (बी) में एक महत्वपूर्ण भूमिका निभाते हैं; और नीले नोड्स माइक्रोबियल समूहों का प्रतिनिधित्व करते हैं जो नीले समूह (सी) में एक महत्वपूर्ण भूमिका निभाते हैं। प्लॉट में नहीं दिखाए गए बायोमार्कर के संबंधित प्रजातियों के नाम को दाईं ओर दिखाया गया है, और अक्षर संख्याएं प्लॉट में इसके अनुरूप हैं (केवल सौंदर्य उद्देश्यों के लिए डिफ़ॉल्ट रूप से फाइलम से परिवार को अंतर प्रजातियों को दिखाते हुए)।

एक बायोमार्कर की बहुतायत जिसमें LEfSe परिणामों के अनुसार विभिन्न समूहों के बीच अंतर है , चित्र 10 में दिखाया गया है। सापेक्ष बहुतायत barplot में, ठोस रेखा औसत सापेक्ष बहुतायत का प्रतिनिधित्व करती है, बिंदीदार रेखा माध्यिका सापेक्ष बहुतायत का प्रतिनिधित्व करती है, और प्रत्येक स्तंभ विभिन्न समूहों में प्रत्येक नमूने की सापेक्ष बहुतायत का प्रतिनिधित्व करता है।

तालिका 1: LEfSe विश्लेषण ऑनलाइन के लिए उदाहरण फ़ाइल। इस तालिका को डाउनलोड करने के लिए यहां क्लिक करें।

Figure 1
चित्रा 1: अपलोडिंग प्रक्रिया का योजनाबद्ध अवलोकन। आकृति पर अनुक्रमिक क्रम में लाल संख्याओं पर क्लिक करें। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

Figure 2
चित्रा 2: डेटा स्वरूप को बदलने के लिए परिचालन प्रक्रिया का योजनाबद्ध अवलोकन। आकृति पर अनुक्रमिक क्रम में लाल संख्याओं पर क्लिक करें। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

Figure 3
चित्रा 3: LDA प्रभाव आकार की गणना के लिए परिचालन प्रक्रिया का योजनाबद्ध अवलोकन। आकृति पर अनुक्रमिक क्रम में लाल संख्याओं पर क्लिक करें। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

Figure 4
चित्रा 4: LEfSe परिणामों की साजिश के लिए परिचालन प्रक्रिया का योजनाबद्ध अवलोकन। आकृति पर अनुक्रमिक क्रम में लाल संख्याओं पर क्लिक करें। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

Figure 5
चित्रा 5: क्लैडोग्राम प्लॉटिंग के लिए परिचालन प्रक्रिया का योजनाबद्ध अवलोकन। आकृति पर अनुक्रमिक क्रम में लाल संख्याओं पर क्लिक करें। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

Figure 6
चित्रा 6: एक सुविधा प्लॉटिंग के लिए परिचालन प्रक्रिया का योजनाबद्ध अवलोकन। आकृति पर अनुक्रमिक क्रम में लाल संख्याओं पर क्लिक करें। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

Figure 7
चित्रा 7: विभेदक सुविधाओं की साजिश रचने के लिए परिचालन प्रक्रिया का योजनाबद्ध अवलोकन। आकृति पर अनुक्रमिक क्रम में लाल संख्याओं पर क्लिक करें। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

Figure 8
चित्रा 8: LDA मानों के वितरण का हिस्टोग्राम. प्रत्येक समूह में महत्वपूर्ण अंतर के साथ माइक्रोबियल समुदायों के एलडीए स्कोर का विश्लेषण एलडीए प्रभाव आकार द्वारा उनके प्रभावों और सहसंबंधों के अनुसार किया गया था। इस आंकड़े को डाउनलोड करने के लिए कृपया यहाँ क्लिक करें.

Figure 9
चित्रा 9: Cladogram. प्रोटोकॉल द्वारा प्राप्त क्लैडोग्राम का विशिष्ट प्लॉट, जो तीन समूहों के विभिन्न वर्गीकरण स्तरों के बीच अंतर के प्रतिनिधित्व को सक्षम बनाता है। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

Figure 10
चित्रा 10: एक सुविधा प्लॉट। एक बायोमार्कर की बहुतायत barplot है कि LEfSe के अनुसार विभिन्न समूहों के बीच मतभेद है दिखाया results.is है. कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

यहां, विभिन्न समूहों के भीतर बायोमार्कर की पहचान और लक्षण वर्णन के लिए प्रोटोकॉल का वर्णन किया गया है। इस प्रोटोकॉल को आसानी से अन्य नमूना प्रकारों के लिए अनुकूलित किया जा सकता है, जैसे सूक्ष्मजीवों के ओटीयू। LEfSe द्वारा सांख्यिकीय विधि प्रत्येक समूह में विशेषता सूक्ष्मजीवों को पा सकती है (डिफ़ॉल्ट LDA >2 है), अर्थात, सूक्ष्मजीव जो दूसरों के सापेक्ष इस समूह में अधिक प्रचुर मात्रा में हैं LEfSe देशी और वेब लिनक्स दोनों संस्करणों में उपलब्ध है जहां उपयोगकर्ता वेब पृष्ठों पर LEfSe विश्लेषण भी कर सकते हैं। LEfSe LDA एल्गोरिथ्म पर आधारित है और एक प्रजाति के पेड़ को आकर्षित करने के लिए एक प्रजाति के स्तर की आवश्यकता होती है। उपकरण के आवेदन से, समूहों के बीच सापेक्ष बहुतायत की तुलना की जा सकती है। सभी विभेदक बायोमाकर्स को एक ही ग्राफ में प्लॉट किया जा सकता है। इसके अलावा, एक एकल बायोमार्कर या सभी बायोमाकर्स को बैचों में प्लॉट किया जा सकता है।

चाहे LEfSe मूल सर्वर या एक ऑनलाइन साइट के माध्यम से किया जाता है, आवश्यक चित्रों को आकर्षित करने के लिए बहुत सारे ट्यूनेबल पैरामीटर हैं। इनपुट फ़ाइलों की जटिल संरचना और LEfSe के आगे के विश्लेषण के लिए उन्हें पसंदीदा डेटा प्रारूपों में परिवर्तित करने की आवश्यकता के कारण, कुछ वन-स्टॉप सेवाएं भी विकसित की गई हैं। इसलिए, आसान संचालन का अनुकूलन चुनौतीपूर्ण हो सकता है। दूसरी ओर, LEfSe का उपयोग करके जटिल डेटा का विश्लेषण करते समय कुछ सीमाएं हैं। एलडीए एक ऐसी सुविधा प्रोजेक्ट करता है जो श्रेणी से एक आयाम कम है, और यदि अधिक सुविधाओं की आवश्यकता होती है, तो अन्य विधियों को पेश किया जाता है। एलडीए के वेरिएंट कुछ कठिनाइयों को हल कर सकते हैं। उदाहरण के लिए, कर्नेल LDA एक समाधान है यदि मूल डेटा को प्रक्षेपण के बाद अच्छी तरह से अलग नहीं किया जा सकता है। क्योंकि एलडीए की गणना की मात्रा डेटा के आयाम से संबंधित है, 2DLDA LDA की गणना की मात्रा को बहुत कम कर सकता है। एलडीए और पीसीए दोनों आमतौर पर उपयोग की जाने वाली आयामी कमी तकनीकें हैं। पीसीए (प्रिंसिपल कंपोनेंट एनालिसिस) आयामी कमी सीधे डेटा आयाम से संबंधित है, और अनुमानित समन्वय प्रणाली ऑर्थोगोनल है। हालांकि, एलडीए श्रेणियों के लेबलिंग के अनुसार वर्गीकरण की क्षमता पर ध्यान केंद्रित करता है, इसलिए अनुमानित समन्वय प्रणाली आमतौर पर ओर्थोगोनल नहीं होती है।

LEfSe biomarkers के चयन के लिए सहायता प्रदान करता है। कई फायदों के साथ (उदाहरण के लिए, समायोज्य पैरामीटर, विभिन्न भागों के विस्तृत परिणाम, दो या अधिक समूहों के बीच आवेदन), यह व्यापक रूप से उपयोग किया गया है13। उच्च आयामी डेटा विश्लेषण की बढ़ती मांग के साथ, इस विधि का अनुप्रयोग मानव स्वास्थ्य और बीमारी पर प्रभाव डालने वाली विशेषताओं (जीवों, क्लैड, परिचालन टैक्सोनोमिक इकाइयों, जीन, या कार्यों) के बायोमार्कर का पता लगाने के लिए अधिक से अधिक व्यापक हो जाएगा।

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

लेखकों के पास खुलासा करने के लिए कुछ भी नहीं है।

Acknowledgments

इस कार्य को केंद्रीय लोक कल्याण अनुसंधान संस्थानों (टीकेएस 170205) और विज्ञान और प्रौद्योगिकी के विकास के लिए फाउंडेशन, और जल परिवहन इंजीनियरिंग के लिए तियानजिन अनुसंधान संस्थान (टीआईडब्ल्यूटीई), एमओटी (केजेएफजेडजेजे170201) के लिए मौलिक अनुसंधान निधियों से अनुदान द्वारा समर्थित किया गया था।

Materials

Name Company Catalog Number Comments
No materials used

DOWNLOAD MATERIALS LIST

References

  1. Bolyen, E., et al. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 37 (8), 852-857 (2019).
  2. Knight, R., et al. Best practices for analysing microbiomes. Nature Reviews. Microbiology. 16 (7), 410-422 (2018).
  3. Segata, N., et al. Metagenomic biomarker discovery and explanation. Genome Biology. 12 (6), 60 (2011).
  4. McIver, M., Sayoldin, B., Shafquat, A. Biobakery / lefse [tool]. , Available from: https://bitbucket.org/biobakery/biobakery/wiki/lefse (2019).
  5. Kruskal, W. H. A nonparametric test for the several sample problem. The Annals of Mathematical Statistics. 23 (4), 525-540 (1952).
  6. Wilcoxon, F. Individual comparisons by ranking methods. Biometrics Bulletin. 1 (6), 80-83 (1945).
  7. Fisher, R. A. The use of multiple measurements in taxonomic problems. Annals of Eugenics. 7 (1), 179-188 (1936).
  8. Liu, Y. X., et al. A practical guide to amplicon and metagenomic analysis of microbiome data. Protein and Cell. 41 (7), 1-16 (2020).
  9. Shahi, S. K., Zarei, K., Guseva, N. V., Mangalam, A. K. Microbiota analysis using two-step PCR and next-generation 16S rRNA gene sequencing. Journal of Visualized Experiments: JoVE. (152), e59980 (2019).
  10. Grüning, B., et al. Bioconda: sustainable and comprehensive software distribution for the life sciences. Nature Methods. 15 (7), 475-476 (2018).
  11. Blankenberg, D., Chilton, J., Coraor, N. Galaxy external display applications: closing a dataflow interoperability loop. Nature Methods. 17 (2), 123-124 (2020).
  12. Langille, M. G. I., et al. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nature Biotechnology. 31 (9), 814-821 (2013).
  13. Shilei, Z., et al. Reservoir water stratification and mixing affects microbial community structure and functional community composition in a stratified drinking reservoir. Journal of Environmental Management. 267, 110456 (2020).

Tags

आनुवांशिकी मुद्दा 183 LEfSe बायोमार्कर जीनोम जैव विविधता सांख्यिकीय अंतर जैविक सहसंबंध
माइक्रोबायोम डेटा में रैखिक विभेदक विश्लेषण प्रभाव आकार (LEfSe) द्वारा बायोमार्कर का सहायक चयन
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Chang, F., He, S., Dang, C. Assisted More

Chang, F., He, S., Dang, C. Assisted Selection of Biomarkers by Linear Discriminant Analysis Effect Size (LEfSe) in Microbiome Data. J. Vis. Exp. (183), e61715, doi:10.3791/61715 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter