Veriye dayalı ağ oluşturma ve metabolomik verilerin analizi için iki araç olan CorrelationCalculator ve Telkari’yi sunuyoruz. CorrelationCalculator, ifade verilerine dayalı olarak metabolitlerden oluşan tek bir etkileşim ağı oluşturmayı desteklerken, Telkari diferansiyel bir ağ oluşturmaya, ardından ağ kümeleme ve zenginleştirme analizine izin verir.
Omik verilerin analizinde önemli bir zorluk, eyleme geçirilebilir biyolojik bilginin çıkarılmasıdır. Metabolomik bir istisna değildir. Bireysel metabolitlerin seviyelerindeki değişiklikleri spesifik biyolojik süreçlerle ilişkilendirme konusundaki genel sorun, hedeflenmemiş sıvı kromatografisi-kütle spektrometrisi (LC-MS) çalışmalarında bulunan çok sayıda bilinmeyen metabolit ile birleşmektedir. Ayrıca, ikincil metabolizma ve lipid metabolizması, mevcut yol veritabanlarında zayıf bir şekilde temsil edilmektedir. Bu sınırlamaların üstesinden gelmek için grubumuz, veriye dayalı ağ oluşturma ve analizi için çeşitli araçlar geliştirmiştir. Bunlara CorrelationCalculator ve Telkari dahildir. Her iki araç da, metabolitlerin sayısı numune sayısını aştığında, kullanıcıların deneysel metabolomik verilerden kısmi korelasyon tabanlı ağlar oluşturmasına olanak tanır. CorrelationCalculator, tek bir ağın oluşturulmasını desteklerken, Telkari, iki örnek grubundan elde edilen verileri kullanarak diferansiyel bir ağ oluşturmaya ve ardından ağ kümeleme ve zenginleştirme analizine izin verir. Gerçek hayattaki metabolomik verilerin analizi için her iki aracın faydasını ve uygulamasını açıklayacağız.
Son on yılda, Gaz Kromatografisi-Kütle Spektrometresi (GC-MS) ve Sıvı Kromatografisi-Kütle Spektrometresi (LC-MS) gibi analitik teknolojilerdeki ilerlemeler nedeniyle metabolomik, bir omik bilimi olarak ortaya çıkmıştır. Bu teknikler, yüzlerce ila binlerce küçük molekül metabolitinin aynı anda ölçülmesine izin vererek karmaşık çok boyutlu veri kümeleri oluşturur. Metabolomik deneyler hedefli veya hedefsiz modlarda gerçekleştirilebilir. Hedeflenen metabolomik deneyler, belirli metabolit sınıflarını ölçer. Genellikle hipotez odaklıdırlar, hedefsiz yaklaşımlar ise mümkün olduğu kadar çok metaboliti ölçmeye çalışır ve doğası gereği hipotez oluşturur. Hedeflenen tahliller genellikle iç standartları içerir ve bu nedenle ilgilenilen metabolitlerin mutlak miktar tayinine izin verir. Buna karşılık, hedeflenmemiş tahliller nispi miktar tayinine izin verir ve birçok bilinmeyen metaboliti içerir1.
Metabolomik verilerin analizi, birçok özel yazılım aracından yararlanan çok adımlı bir süreçtir1. Aşağıdaki üç ana adıma ayrılabilir: (1) veri işleme ve kalite kontrol, (2) istatistiksel analiz ve (3) biyolojik veri yorumlama. Burada açıklanan araçlar, analizin ikinci adımını etkinleştirmek için tasarlanmıştır.
Metabolomik verileri yorumlamanın sezgisel ve popüler bir yolu, deneysel ölçümleri metabolik yollara haritalamaktır. Bu 2,3,4,5’i başarmak için grup 6 tarafından geliştirilen Metscape de dahil olmak üzere çok sayıda araç tasarlanmıştır. Yol haritalama genellikle en önemli yollarınbelirlenmesine yardımcı olan zenginleştirme analizi ile birleştirilir 7,8. Bu teknikler ilk olarak gen ekspresyon verilerinin analizinde önem kazanmış ve proteomik ve epigenomik verilerin analizi için başarıyla uygulanmıştır 9,10,11,12,13. Bununla birlikte, metabolomik verilerin analizi, bilgiye dayalı yaklaşımlar için bir takım zorluklar ortaya koymaktadır. İlk olarak, endojen metabolitlere ek olarak, metabolomik tahliller, beslenme ve diğer çevresel kaynaklardan gelenler de dahil olmak üzere eksojen bileşikleri ölçer. Bu bileşikler ve bakteriler tarafından üretilen metabolitler, diğer ökaryotik organizmaların insan veya metabolik yollarına eşlenemez. Ayrıca, ikincil metabolizma ve lipid metabolizmasının yol kapsamı şu anda verilerin biyolojik yorumunu kolayca destekleyecek düzeyde yüksek çözünürlüklü haritalamaya izin vermemektedir14,15.
Veriye dayalı ağ analizi teknikleri, bu zorlukların üstesinden gelmeye yardımcı olabilir. Örneğin, korelasyon tabanlı ağlar, hem bilinen hem de bilinmeyen metabolitler arasındaki ilişkilerin türetilmesine yardımcı olabilir ve bilinmeyenlerin açıklanmasını kolaylaştırabilir16. Pearson’ın korelasyon katsayılarını hesaplamak, metabolitler arasındaki doğrusal ilişkileri kurmak için en basit yaklaşım olsa da, dezavantajı hem doğrudan hem de dolaylı ilişkileri yakalamasıdır17,18,19. Bir alternatif, doğrudan ve dolaylı ilişkileri ayırt edebilen kısmi korelasyon katsayılarını hesaplamaktır. Gauss grafik modellemesi (GGM), kısmi korelasyon ağlarını tahmin etmek için kullanılabilir. Bununla birlikte, GGM, örneklem büyüklüğünün ve özellik sayısının karşılaştırılabilir olmasını gerektirir. Bu durum, binlerce metabolik özellik için ölçümler içeren hedeflenmemiş LC-MS verilerinde nadiren karşılanır. Bu sınırlamanın üstesinden gelmek için düzenleme tekniklerinden yararlanılabilir. Grafiksel kement (Glasso) ve düğümsel regresyon, kısmi korelasyon ağının düzenli tahmini için popüler yöntemlerdir16,20.
Burada sunulan biyoinformatik araçlarından ilki olan CorrelationCalculator16, önyargısız seyrek kısmi korelasyon (DSPC) algoritmasına dayanmaktadır. DSPC, seyrekleştirilmiş grafik kement modellemesine dayanır. Algoritmanın altında yatan varsayım, metabolitler arasındaki bağlantı sayısının numune sayısından önemli ölçüde daha küçük olduğu, yani metabolitlerin kısmi korelasyon ağının seyrek olduğudur. Bu varsayım, DSPC’nin düzenli regresyon tekniklerinden yararlanarak daha az örnek kullanarak çok sayıda metabolit arasındaki bağlantıyı keşfetmesine olanak tanır. Ayrıca, düzenli regresyon tahminleri için bir önyargı giderme adımı kullanarak, güven aralıkları oluşturmak ve ilgilenilen hipotezleri test etmek için kullanılabilecek kenar parametreleri için örnekleme dağılımları elde eder (örneğin, tek veya bir kenar grubunun varlığı/yokluğu). Kısmi korelasyon ağında bir kenarın varlığı veya yokluğu, hesaplanan p değerleri kullanılarak resmi olarak test edilebilir.
CorrelationCalculator’ın tek grup analizi için çok yararlı olduğu kanıtlandı16; Bununla birlikte, birçok metabolomik deneyin amacı, iki veya daha fazla koşulun diferansiyel analizidir. CorrelationCalculator, her koşul için kısmi korelasyon ağları oluşturmak üzere grupların her birinde ayrı ayrı kullanılabilirken, bu yaklaşım ağ oluşturma için kullanılabilecek örnek sayısını sınırlar. Yeterince büyük bir örneklem boyutu, veriye dayalı analizde en büyük hususlardan biri olduğundan, ağlar oluşturmak için verilerdeki mevcut tüm örneklerden yararlanabilen yöntemler oldukça arzu edilir. Bu yaklaşım, burada sunulan Telkari21 adlı ikinci araçta uygulanmaktadır. Telkari, daha önce yayınlanmış Diferansiyel Ağ Zenginleştirme Analizi (DNEA) algoritmasınadayanmaktadır 22. Tablo 1 , her iki aracın uygulamalarını ve iş akışını göstermektedir.
Deney koşullarının sayısı (k) | k = 1 | k = 2 |
Yazılım aracı | Korelasyon Hesaplayıcı | Telkari |
Giriş verileri | • Metabolitler x Numuneler veri matrisi | • Metabolitler x Numuneler veri matrisi • Deney grupları |
İş Akışı • Ön arıtma • Ağ tahmini • Ağ kümeleme • Zenginleştirme analizi |
• Günlük dönüşümü; Otomatik ölçeklendirme • DSPC (DSPC) • Harici uygulamalar aracılığıyla •Hayır |
• Günlük dönüşümü; Otomatik ölçeklendirme • Ortak ağ tahmini • Konsensüs kümeleme • NetGSA (Ağ GSA) |
Veri görselleştirme | Harici uygulama aracılığıyla, örneğin Cytoscape | Harici uygulama aracılığıyla, örneğin Cytoscape |
İlgilenilen sonuçla ilişkilendirme için metabolik modüllerin test edilmesi (isteğe bağlı) | Harici uygulamalar aracılığıyla | Harici uygulamalar aracılığıyla |
Tablo 1: CorrelationCalculator ve Telkari’nin uygulama kapsamı ve iş akışı.
1. Korelasyon Hesaplayıcı
2. Telkari
3. Dikkat edilmesi gereken diğer noktalar
CorrelationCalculator ve Telkari’de uygulanan kısmi korelasyon tabanlı ağ analizi yöntemleri, özellikle bilinmeyen metabolitlerin yüksek prevalansına ve metabolik yolların sınırlı kapsamına sahip veri kümeleri için bilgiye dayalı metabolik yol analizlerinin bazı sınırlamalarının üstesinden gelmeye yardımcı olur (örn., lipidomik veriler). Bu araçlar, araştırma topluluğu tarafından çok çeşitli metabolomik ve lipidomik verilerianaliz etmek için yaygın olarak kullanılmaktadır 14,22,27,28,29,30. Örneğin, mikrobiyom ve bitkilerden insan hastalıklarına kadar birçok biyolojik sistemden gelen verileri analiz etmek için CorrelationCalculatorkullanılmıştır 31,32,33,34. Burada, araçlarımız tarafından etkinleştirilen veriye dayalı ağ analizinin, ilgilenilen fenotiple ilişkili metabolik modülleri belirlemek için kümeleme ve regresyon analizi ile nasıl birleştirilebileceğini gösteriyoruz.
CorrelationCalculator ve Filigree kullanılarak oluşturulan kısmi korelasyon ağları, metabolik modüller üretmek için grafik kümeleme algoritmaları kullanılarak kümelenebilir. Bu modüller, kimyasal veya işlevsel olarak birbiriyle ilişkili metabolitleri içerme eğilimindedir. Bu tür modüller sadece görselleştirme açısından değil, aynı zamanda biyolojik alaka açısından da çok faydalıdır. Metabolik modüller ile ilgilenilen fenotipik sonuçlar (örneğin, hayatta kalma sonucu) arasındaki ilişkileri incelemek, bireysel metabolitleri test etmeye kıyasla daha fazla istatistiksel güç sağlayabilir ve ek biyolojik içgörüler üretebilir.
Ağ kümeleme yaklaşımları ile tanımlanan metabolik modüller zenginleştirme analizinde de kullanılabilir. Telkari, önceden tanımlanmış biyolojik yollar yerine konsensüs kümeleme yoluyla tanımlanan metabolik modülleri kullanır. Kısmi korelasyona dayalı metabolik modüller yolaklarla aynı olmasa da, kimyasal ve biyokimyasal olarak benzer metabolitleri (örneğin, amino asitler, asilkarnitinler, aynı sınıftaki lipitler, vb.) tutarlı bir şekilde gruplandırırlar. Telkari, NetGSAalgoritması 22,35’i kullanarak bu modüllerin önemini daha da test eder. Diferansiyel düğümlere ek olarak, NetGSA ağ yapısında hastalığa özgü farklılıkları da hesaba katar.
‘Gerçek hayat’ metabolomik ve lipidomik verilerinin analizi için CorrelationCalculator ve Filigree kullanılırken göz önünde bulundurulması gereken konulardan biri, belirli bir deneydeki metabolit sayısı ile numune sayısı arasındaki ilişkidir. Binlerce örneği içeren büyük ölçekli epidemiyolojik çalışmalar daha yaygın hale gelirken, metabolomik deneylerin çoğunda örneklem büyüklüğü mütevazı kalmaktadır. Bu, özellikle düşük biyolojik varyasyonun beklendiği sistemleri (yani, hücre hatları veya genetik olarak homojen hayvan modelleri) içeren mekanik çalışmalar için geçerlidir. Her iki araçta da uygulanan istatistiksel algoritmalar, metabolit sayısının numune sayısını aştığı durumlarda uygulanabilir, ancak bu orandaki artış daha seyrek ağlara yol açar.
Burada açıklanan araçların uygulanması için bir diğer önemli husus, izotopları, kimyasal eklentileri, kaynak içi fragmanları ve kirleticileri içerebilen çok sayıda gereksiz veya dejenere özellik36 içerdiği bilinen hedeflenmemiş metabolomik verilerin analizi ile ilgilidir. Birçok dejenere özellik aynı metabolitten kaynaklandığından, yüksek derecede korelasyona sahip olma eğilimindedirler. Bu tür verilerin kısmi korelasyona dayalı analizi, dikkatli bir şekilde açıklama yapılmasını ve dejenere özelliklerin kaldırılmasını gerektirebilir.
Sonuç olarak, burada sunulan araçlar, metabolomik verilerin yorumlanması için bilgiye dayalı yol analiz araçlarına uygun bir alternatif sunmaktadır.
The authors have nothing to disclose.
CorrelationCalculator | JAVA | http://metscape.med.umich.edu/calculator.html | |
clusterNet | https://github.com/Karnovsky-Lab/clusterNet | ||
Cytoscape | Cytoscape | https://cytoscape.org/ | |
Filigree | JAVA | http://metscape.med.umich.edu/filigree.html | |
MetScape | Cytoscape | https://apps.cytoscape.org/apps/metscape | Cytoscape application that allows for the creation and exploration of correlation networks. |