Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Mikrobiyom Verilerinde Doğrusal Diskriminant Analizi Etki Boyutu (LEfSe) ile Biyobelirteçlerin Yardımlı Seçimi

Published: May 16, 2022 doi: 10.3791/61715
* These authors contributed equally

Summary

LEfSe (LDA Etki Boyutu), mikrobiyom verilerinde iki veya daha fazla grubu önemli ölçüde karakterize eden genomik özellikleri (genler, yollar ve taksonomiler gibi) tanımlamak için yüksek boyutlu biyobelirteç madenciliği için bir araçtır.

Abstract

Çevrede ve sağlıkta kapalı biyolojik genomlara yönelik artan bir ilgi var. Farklı örnekler veya ortamlar arasındaki gruplar arası farklılıkları keşfetmek ve ortaya çıkarmak için, gruplar arasında istatistiksel farklılıklar olan biyobelirteçleri keşfetmek çok önemlidir. Doğrusal diskriminant analizi Etki Boyutu (LEfSe) uygulaması, iyi biyobelirteçlerin bulunmasına yardımcı olabilir. Orijinal genom verilerine dayanarak, kalite kontrolü ve taksonlara veya genlere dayalı farklı dizilerin nicelleştirilmesi gerçekleştirilir. İlk olarak, Kruskal-Wallis sıralama testi, istatistiksel ve biyolojik gruplar arasındaki spesifik farklılıkları ayırt etmek için kullanıldı. Daha sonra, farklılıkların tutarlı olup olmadığını değerlendirmek için önceki adımda elde edilen iki grup arasında Wilcoxon rütbe testi yapıldı. Son olarak, biyobelirteçlerin LDA skorlarına göre anlamlı derecede farklı gruplar üzerindeki etkisini değerlendirmek için doğrusal bir diskriminant analizi (LDA) yapılmıştır. Özetlemek gerekirse, LEfSe, biyolojik gruplar arasındaki istatistiksel farklılıkları karakterize eden genomik biyobelirteçleri tanımlamak için kolaylık sağlamıştır.

Introduction

Biyobelirteçler, ölçülebilen biyolojik özelliklerdir ve enfeksiyon, hastalık veya çevre gibi bazı fenomenleri gösterebilir. Bunlar arasında, fonksiyonel biyobelirteçler, tek bir türün spesifik biyolojik fonksiyonları olabilir veya gen, protein, metabolit ve yollar gibi bazı türler için ortak olabilir. Ayrıca, taksonomik biyobelirteçler alışılmadık bir türü, bir grup organizmayı (krallık, filum, sınıf, düzen, aile, cins, tür), Amplikon Dizisi Varyansı (ASV)1 veya Operasyonel Taksonomik Birim (OTU)2'yi gösterir. Biyobelirteçleri daha hızlı ve doğru bir şekilde bulmak için, biyolojik verileri analiz etmek için bir araç gereklidir. Sınıflar arasındaki farklar, istatistiksel anlamlılık için standart testler ve biyolojik tutarlılığı ve etki alaka düzeyini kodlayan ek testlerle birlikte LEfSe ile açıklanabilir3. LEfSe, bir galaksi modülü, bir conda formülü, bir docker görüntüsü olarak mevcuttur ve bioBakery (VM ve bulut)4'e dahil edilmiştir. Genel olarak, mikrobiyal çeşitliliğin analizi genellikle bir örnek topluluğunun belirsiz dağılımı için parametrik olmayan bir test kullanır. Sıralama toplamı testi, numunelerin değerini değiştirmek için numunelerin sıralamasını kullanan parametrik olmayan bir test yöntemidir. Örneklem gruplarının farklılığına göre Wilcoxon rütbe toplamı testi ile iki numuneye, Kruskal-Wallis testi 5,6 ile birden fazla numuneye ayrılabilir. Özellikle, birden fazla numune grubu arasında önemli farklılıklar olduğunda, birden fazla numunenin çift yönlü karşılaştırılması için bir rank-sum testi yapılmalıdır. 1936'da Ronald Fisher tarafından icat edilen LDA (Doğrusal Diskriminant Analizi anlamına gelir), Fisher's Linear Discriminant7 olarak da bilinen bir denetimli öğrenme türüdür. Makine öğrenimi veri madenciliğinin mevcut alanında klasik ve popüler bir algoritmadır.

Burada, LEfSe testi Conda ve Galaxy sunucuları tarafından optimize edilmiştir. Mikrobiyal toplulukların LDA skorları ve görselleştirme sonuçları ile farklı gruplar arasındaki anlamlı farklılıkları göstermek için üç grup 16S rRNA gen dizisi analiz edilmiştir.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

NOT: Protokol, Segata ve ark.3'ün araştırmasından kaynaklanmış ve değiştirilmiştir. Yöntem https://bitbucket.org/biobakery/biobakery/wiki/lefse'de sağlanır.

1. Analiz için giriş dosyasının hazırlanması

  1. Orijinal dosyalarla (örnek dosya ve ilgili tür ek açıklama dosyası) birçok iş akışı8 veya önceki protokol9 tarafından kolayca oluşturulabilen LEfSe'nin giriş dosyasını (Tablo 1) hazırlayın.

2. LEfSe yerel analizi (Linux sunucusuyla sınırlıdır)

  1. LEfSe Kurulumu
    NOT: LEfSe boru hattının Conda10 ile kurulması önerilir.
    1. Bağımlılıkların çakışma olasılığını dışlamak için aşağıdaki komutları çalıştırın. LEfSe için bir conda ortamı oluşturun (Bu adım önerilir ancak gerekli değildir.). -n, ortam adını temsil eder.
      $ conda create -n LEfSe-env
    2. Oluşturulan LEfSe ortamını etkinleştirmek için aşağıdakini çalıştırın:
      $ kaynak LEfSe-env'yi etkinleştir
    3. LEfSe'yi -c'nin kanal adı anlamına geldiği channel bioBakery ile yüklemek için aşağıdakileri çalıştırın:
      $ conda yüklemek -c biobakery lefse
  2. LEfSe için verileri biçimlendirme
    1. Özgün dosyayı LEfSe için iç biçime biçimlendirmek üzere aşağıdaki komutu çalıştırın. Tablo.txt giriş dosyasıdır ve Table-reformat.in çıktı dosyasıdır. -c, sınıf olarak kullanılan özelliği ayarlamak için kullanılır (varsayılan 1) ve normalleştirme değerini ayarlamak için -o kullanılır (varsayılan -1.0, normalleştirme olmadığı anlamına gelir).
      $ format_input.py Tablo.txt Table-reformat.in -c 1 -o 1000000
  3. Doğrusal diskriminant analizi (LDA) etki boyutunun hesaplanması
    1. Aşağıdaki komutu çalıştırın. Bu adımın amacı, önceki sonucun LDA'sını gerçekleştirmek ve görselleştirme için sonuç dosyasını oluşturmaktır. Table-reformat.in, önceki adım kullanılarak oluşturulur ve bu adımda giriş dosyası olarak kullanılır. Table-reformat.res sonuç dosyasıdır.
      $ run_lefse.py Table-reformat.in Table-reformat.res
  4. Grafiklere göre görselleştirme
    1. LEfSe sonuçlarını çizin. Biyobelirteçlerin efekt boyutunu pdf dosyasında çizmek için. Table-reformat.res önceki adım kullanılarak oluşturulur ve LDA.pdf çizim dosyasıdır. –formatı, çıktı dosyası formatını ayarlamak için kullanılır.
      $ plot_res.py Table-reformat.res LDA.pdf --format pdf
    2. Kladogramı çizin. Tür ağacını çizmek ve biyobelirteçleri bir kladogramda görüntülemek. cladogram.pdf çıktı dosyasıdır.
      $ plot_cladogram.py Table-reformat.res cladogram.pdf --format pdf
    3. Bir unsuru çizme (isteğe bağlı) Tek bir biyobelirtecin farklı gruplar arasındaki farklılıklarını çizmek. -f, arsanın özelliklerini ayarlamak için kullanılır. Eğer biri ayarlandıysa, –feature_name verilmelidir.
      $ plot_features.py -f one --feature_name "k__Bacteria.p__Firmicutes.c__Bacilli.o__Bacillales" --format pdf Table-reformat.in Table-reformat.res Bacillales.pdf
    4. Tüm unsurları çizmek için diferansiyel özellikleri (isteğe bağlı) çizin, ancak dikkatle yapılması gereken çok şey var. --arşiv, sonuçların sıkıştırılıp sıkıştırılmayacağını seçmek için kullanılır. ./ sonuçların yolunu ifade eder.
      $ plot_features.py -f diff --arşiv none --format pdf Table-reformat.in Table-reformat.res ./

3. LEfSe çevrimiçi analiz (galaksi)

  1. Huttenhower galaxy sunucusuna gidin 11: http://huttenhower.sph.harvard.edu/galaxy.
  2. Dosyaları yükleyin. Sol bölmedeki Yukarı ok düğmesine basın ve dosyayı karşıya yükleyin. Giriş dosyasını seçmek için Yerel dosya seç'e tıklayın ve tablo biçimini seçin ve ardından Başlat düğmesine tıklayın.
    NOT: Web sayfasına (https://bitbucket.org/biobakery/biobakery/wiki/lefse) bakın, komut dosyasını kullanın (taxonomy_summary. R) LEfSe'nin giriş dosyasını oluşturmak için biçim (grup adına sahip her sütun, "|" ile ayrılmış farklı bir ek açıklama düzeyine sahip her satır) Tablo 1'de gösterildiği gibi gereklidir. Yükleme işlemine şematik bir genel bakış Şekil 1'de gösterilmiştir.
  3. LEfSe için verileri biçimlendirin. LEfSe | Sol bölmedeki LEfSe için Verileri Biçimlendir bağlantısı ve dosyadaki sınıf için belirli satırları seçin ve Yürüt düğmesine tıklayın. Operasyonel sürece ve kullanılan parametrelere şematik bir genel bakış Şekil 2'de gösterilmiştir.
  4. LDA efekti boyutunu hesaplayın. LEfSe | Sol bölmedeki LDA Efekt Boyutu (LEfSe) bağlantısını tıklayın ve analiz gereksinimlerine göre parametre değerlerini seçin. Yürüt'e tıklayın. Operasyonel sürece ve kullanılan parametrelere şematik bir genel bakış Şekil 3'te gösterilmiştir.
  5. LEfSe sonuçlarını çizin. LEfSe | Sol bölmedeki LEfSe Sonuçlarını Çiz bağlantısını ve Yürüt düğmesine tıklayın. Operasyonel sürece ve kullanılan parametrelere şematik bir genel bakış Şekil 4'te gösterilmiştir.
  6. Kladogramı çizin. Sol bölmedeki Plot Cladogram'a tıklayın ve parametre değerlerini seçtikten sonra Yürüt düğmesine tıklayın. Operasyonel sürece ve kullanılan parametrelere şematik bir genel bakış Şekil 5'te gösterilmiştir.
  7. Sol bölmedeki Bir Unsuru Çiz'e tıklayarak ve parametre değerlerini seçtikten sonra Yürüt düğmesine tıklayarak bir unsur çizin. Operasyonel sürece ve kullanılan parametrelere şematik bir genel bakış Şekil 6'da gösterilmiştir.
  8. Sol bölmedeki Diferansiyel Özellikleri Çiz'e tıklayarak ve parametre değerlerini seçtikten sonra Yürüt düğmesini tıklatarak diferansiyel özellikleri çizin. Operasyonel sürece ve kullanılan parametrelere şematik bir genel bakış Şekil 7'de gösterilmiştir.
    NOT: Oluşturulan bu rakamlar sağ bölmede elde edilen çıktıya göre görselleştirilebilir ve indirilebilir.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Üç numunenin 16S rRNA gen dizilerini analiz ederek her grupta anlamlı farklılıklar gösteren mikrobiyal toplulukların LDA skorları Şekil 8'de gösterilmiştir. Histogramın rengi farklı grupları temsil ederken, uzunluk, farklı gruplar arasında önemli farklılıklar olan türlerin etkisi olan LDA skorunu temsil eder. Histogram, LDA skoru önceden ayarlanmış değerden daha büyük olan önemli farklılıklara sahip türleri gösterir. Varsayılan hazır ayar değeri 2,0'dır, bu nedenle grafikte yalnızca LDA puanının (abscissa) 2,0'dan büyük mutlak değerleri gösterilir.

Farklı sınıflandırma düzeyleri arasında anlamlı fark yaratan biyobelirteçler ve tür ağacı Şekil 9'da gösterilmiştir. İçeriden dışarıya yayılan daireler, filumdan cinse sınıflandırma seviyelerini temsil eder (en içteki sarı daire krallıktır). Farklı sınıflandırma seviyelerindeki her küçük dairenin çapı, göreceli bolluğun boyutunu temsil eder. Önemli bir farkı olmayan türler düzgün bir şekilde sarı renktedir ve önemli ölçüde farklı türlerin biyobelirteçleri karşılık gelen gruplarla renklendirilir. A, B ve C sınıfları, toplanan mikrobiyal örneklerin grup adlarıdır. Kırmızı düğümler, kırmızı grupta (A) önemli bir rol oynayan mikrobiyal grupları temsil eder; yeşil düğümler, yeşil grupta (B) önemli bir rol oynayan mikrobiyal grupları temsil eder; ve mavi düğümler, mavi grupta (C) önemli bir rol oynayan mikrobiyal grupları temsil eder. Grafikte gösterilmeyen biyobelirteçlerin karşılık gelen tür adı sağ tarafta gösterilir ve harf numaraları arsadakine karşılık gelir (yalnızca estetik amaçlar için varsayılan olarak filumdan aileye diferansiyel türleri gösterir).

LEfSe sonuçlarına göre farklı gruplar arasında farklılıklar gösteren bir biyobelirtecin bolluğu Şekil 10'da gösterilmiştir. Göreli bolluk barplotunda, düz çizgi ortalama göreli bolluğu, noktalı çizgi medyan göreli bolluğu ve her sütun farklı gruplardaki her örneğin göreli bolluğunu temsil eder.

Tablo 1: Çevrimiçi LEfSe analizi için örnek dosya. Bu tabloyu indirmek için lütfen tıklayınız.

Figure 1
Şekil 1: Yükleme işlemine şematik genel bakış. Şekil üzerindeki kırmızı sayılara sıralı olarak tıklayın. Bu şeklin daha büyük bir versiyonunu görüntülemek için lütfen buraya tıklayın.

Figure 2
Şekil 2: Veri biçimini değiştirmeye yönelik operasyonel sürece şematik genel bakış. Şekil üzerindeki kırmızı sayılara sıralı olarak tıklayın. Bu şeklin daha büyük bir versiyonunu görüntülemek için lütfen buraya tıklayın.

Figure 3
Şekil 3: LDA etki boyutunu hesaplamak için operasyonel sürece şematik genel bakış. Şekil üzerindeki kırmızı sayılara sıralı olarak tıklayın. Bu şeklin daha büyük bir versiyonunu görüntülemek için lütfen buraya tıklayın.

Figure 4
Şekil 4: LEfSe sonuçlarını çizmek için operasyonel sürece şematik genel bakış. Şekil üzerindeki kırmızı sayılara sıralı olarak tıklayın. Bu şeklin daha büyük bir versiyonunu görüntülemek için lütfen buraya tıklayın.

Figure 5
Şekil 5: Kladogramın çizilmesi için operasyonel sürece şematik genel bakış. Şekil üzerindeki kırmızı sayılara sıralı olarak tıklayın. Bu şeklin daha büyük bir versiyonunu görüntülemek için lütfen buraya tıklayın.

Figure 6
Şekil 6: Bir özelliği çizmek için operasyonel sürece şematik genel bakış. Şekil üzerindeki kırmızı sayılara sıralı olarak tıklayın. Bu şeklin daha büyük bir versiyonunu görüntülemek için lütfen buraya tıklayın.

Figure 7
Şekil 7: Diferansiyel özelliklerin çizilmesi için operasyonel sürece şematik genel bakış. Şekil üzerindeki kırmızı sayılara sıralı olarak tıklayın. Bu şeklin daha büyük bir versiyonunu görüntülemek için lütfen buraya tıklayın.

Figure 8
Şekil 8: LDA değerlerinin dağılımının histogramı. Her grupta anlamlı farklılıklar gösteren mikrobiyal toplulukların LDA skorları, etki ve korelasyonlarına göre LDA Etki Büyüklüğü ile analiz edildi. Bu rakamı indirmek için lütfen tıklayınız.

Figure 9
Şekil 9: Cladogram. Üç grubun farklı sınıflandırma seviyeleri arasındaki farkın temsilini sağlayan protokol tarafından elde edilen kladogramın tipik grafiği. Bu şeklin daha büyük bir versiyonunu görüntülemek için lütfen buraya tıklayın.

Figure 10
Şekil 10: Bir özellik grafiği. LEfSe'ye göre farklı gruplar arasında farklılıklar gösteren bir biyobelirtecin bolluk barplotu results.is gösterilmiştir. Bu şeklin daha büyük bir versiyonunu görüntülemek için lütfen buraya tıklayın.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Burada, farklı gruplardaki biyobelirteçlerin tanımlanması ve karakterizasyonu için protokol açıklanmaktadır. Bu protokol, mikroorganizmaların OTU'ları gibi diğer numune türleri için kolayca uyarlanabilir. LEfSe'nin istatistiksel yöntemi, her gruptaki karakteristik mikroorganizmaları (varsayılan LDA >2), yani bu grupta diğerlerine göre daha bol bulunan mikroorganizmaları bulabilir12. LEfSe, kullanıcıların web sayfalarında da LEfSe analizi yapabileceği hem yerel hem de web Linux sürümlerinde mevcuttur. LEfSe, LDA algoritmasına dayanır ve bir tür ağacı çizmek için bir tür seviyesine ihtiyaç duyar. Aracın uygulanmasıyla, gruplar arasındaki göreceli bolluk karşılaştırılabilir. Tüm diferansiyel biyobelirteçler tek bir grafikte çizilebilir. Ayrıca, tek bir biyobelirteç veya tüm biyobelirteçler gruplar halinde çizilebilir.

LEfSe, yerel sunucu veya çevrimiçi bir site aracılığıyla gerçekleştirilse de, gerekli resimleri çizmek için birçok ayarlanabilir parametre vardır. Giriş dosyalarının karmaşık yapısı ve LEfSe'nin daha ileri analizleri için bunları tercih edilen veri formatlarına dönüştürme ihtiyacı nedeniyle, bazı tek elden hizmetler de geliştirilmiştir. Bu nedenle, daha kolay operasyonların optimizasyonu zor olabilir. Öte yandan, LEfSe kullanarak karmaşık verileri analiz ederken birkaç sınırlama vardır. LDA, kategoriden bir boyut daha küçük bir özellik yansıtır ve daha fazla özelliğe ihtiyaç duyulursa, başka yöntemler de tanıtılır. LDA varyantları bazı zorlukları çözebilir. Örneğin, Çekirdek LDA, orijinal veriler projeksiyondan sonra iyi bir şekilde ayrılamıyorsa bir çözümdür. LDA'nın hesaplama miktarı verilerin boyutuyla ilgili olduğundan, 2DLDA, LDA'nın hesaplama miktarını büyük ölçüde azaltabilir. Hem LDA hem de PCA yaygın olarak kullanılan boyutsallık azaltma teknikleridir. PCA (Principal Component Analysisis) boyutsallık indirgemesi doğrudan veri boyutuyla ilgilidir ve öngörülen koordinat sistemi ortogonaldir. Bununla birlikte, LDA, kategorilerin etiketlenmesine göre sınıflandırma yeteneğine odaklanır, bu nedenle öngörülen koordinat sistemi genellikle ortogonal değildir.

LEfSe, biyobelirteçlerin seçiminde yardımcı olur. Birçok avantajı ile (örneğin, ayarlanabilir parametreler, çeşitli parçaların ayrıntılı sonuçları, iki veya daha fazla grup arasında uygulama), yaygın olarak kullanılmaktadır13. Yüksek boyutlu veri analizine olan talebin artmasıyla birlikte, bu yöntemin uygulanması, insan sağlığı ve hastalığı üzerinde etkili olan özelliklerin (organizmalar, kladlar, operasyonel taksonomik birimler, genler veya fonksiyonlar) biyobelirteçlerini araştırmak için giderek daha kapsamlı hale gelecektir.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Yazarların açıklayacak hiçbir şeyleri yoktur.

Acknowledgments

Bu çalışma, Merkezi Kamu Refahı Araştırma Enstitüleri (TKS170205) ve Bilim ve Teknoloji Geliştirme Vakfı için Temel Araştırma Fonları ve Tianjin Su Taşımacılığı Mühendisliği Araştırma Enstitüsü (TIWTE), M.O.T. (KJFZJJ170201) tarafından desteklenmiştir.

Materials

Name Company Catalog Number Comments
No materials used

DOWNLOAD MATERIALS LIST

References

  1. Bolyen, E., et al. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 37 (8), 852-857 (2019).
  2. Knight, R., et al. Best practices for analysing microbiomes. Nature Reviews. Microbiology. 16 (7), 410-422 (2018).
  3. Segata, N., et al. Metagenomic biomarker discovery and explanation. Genome Biology. 12 (6), 60 (2011).
  4. McIver, M., Sayoldin, B., Shafquat, A. Biobakery / lefse [tool]. , Available from: https://bitbucket.org/biobakery/biobakery/wiki/lefse (2019).
  5. Kruskal, W. H. A nonparametric test for the several sample problem. The Annals of Mathematical Statistics. 23 (4), 525-540 (1952).
  6. Wilcoxon, F. Individual comparisons by ranking methods. Biometrics Bulletin. 1 (6), 80-83 (1945).
  7. Fisher, R. A. The use of multiple measurements in taxonomic problems. Annals of Eugenics. 7 (1), 179-188 (1936).
  8. Liu, Y. X., et al. A practical guide to amplicon and metagenomic analysis of microbiome data. Protein and Cell. 41 (7), 1-16 (2020).
  9. Shahi, S. K., Zarei, K., Guseva, N. V., Mangalam, A. K. Microbiota analysis using two-step PCR and next-generation 16S rRNA gene sequencing. Journal of Visualized Experiments: JoVE. (152), e59980 (2019).
  10. Grüning, B., et al. Bioconda: sustainable and comprehensive software distribution for the life sciences. Nature Methods. 15 (7), 475-476 (2018).
  11. Blankenberg, D., Chilton, J., Coraor, N. Galaxy external display applications: closing a dataflow interoperability loop. Nature Methods. 17 (2), 123-124 (2020).
  12. Langille, M. G. I., et al. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nature Biotechnology. 31 (9), 814-821 (2013).
  13. Shilei, Z., et al. Reservoir water stratification and mixing affects microbial community structure and functional community composition in a stratified drinking reservoir. Journal of Environmental Management. 267, 110456 (2020).

Tags

Genetik Sayı 183 LEfSe Biyobelirteç Genom Biyoçeşitlilik İstatistiksel fark Biyolojik korelasyon
Mikrobiyom Verilerinde Doğrusal Diskriminant Analizi Etki Boyutu (LEfSe) ile Biyobelirteçlerin Yardımlı Seçimi
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Chang, F., He, S., Dang, C. Assisted More

Chang, F., He, S., Dang, C. Assisted Selection of Biomarkers by Linear Discriminant Analysis Effect Size (LEfSe) in Microbiome Data. J. Vis. Exp. (183), e61715, doi:10.3791/61715 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter