DeepOmicsAE, çoklu omik verilerin boyutluluğunu azaltmak için bir derin öğrenme yönteminin (yani bir otomatik kodlayıcı) uygulanmasına odaklanan bir iş akışıdır ve birden çok omik veri katmanını temsil eden tahmine dayalı modeller ve sinyal modülleri için bir temel sağlar.
Büyük omik veri kümeleri, insan sağlığına yönelik araştırmalar için giderek daha fazla kullanılabilir hale geliyor. Bu makale, proteomik, metabolomik ve klinik veriler dahil olmak üzere çoklu omik veri kümelerinin analizi için optimize edilmiş bir iş akışı olan DeepOmicsAE’yi sunmaktadır. Bu iş akışı, yüksek boyutlu çoklu omik girdi verilerinden kısa bir dizi özellik çıkarmak için otomatik kodlayıcı adı verilen bir tür sinir ağı kullanır. Ayrıca iş akışı, otomatik kodlayıcıyı uygulamak için gereken temel parametreleri optimize etmek için bir yöntem sağlar. Bu iş akışını sergilemek için, sağlıklı veya Alzheimer hastalığı teşhisi konmuş 142 kişiden oluşan bir kohorttan klinik veriler, ölüm sonrası beyin örneklerinin proteomu ve metabolomu ile birlikte analiz edildi. Otomatik kodlayıcının gizli katmanından çıkarılan özellikler, sağlıklı ve hastalıklı hastaları ayıran biyolojik bilgiyi korur. Ek olarak, bireysel ekstrakte edilen özellikler, her biri bireylerin klinik özellikleriyle benzersiz bir şekilde etkileşime giren ve proteomik, metabolomik ve klinik verileri entegre etmek için bir araç sağlayan farklı moleküler sinyal modüllerini temsil eder.
Nüfusun giderek daha büyük bir kısmı yaşlanıyor ve nörodejenerasyon gibi yaşa bağlı hastalıkların yükünün önümüzdeki yıllarda keskin bir şekilde artması bekleniyor1. Alzheimer hastalığı en sık görülen nörodejeneratif hastalık türüdür2. Hastalığın başlangıcını ve ilerlemesini yönlendiren temel moleküler mekanizmaları yeterince anlamadığımız göz önüne alındığında, bir tedavi bulmadaki ilerleme yavaş olmuştur. Alzheimer hastalığı ile ilgili bilgilerin çoğu, nedenleri ve sonuçları ayırt etmeyi zor bir görev haline getiren beyin dokusunun incelenmesinden ölüm sonrası elde edilir3. Dini Tarikatlar Çalışması/Hafıza ve Yaşlanma Projesi (ROSMAP), her yıl tıbbi ve psikolojik muayenelerden geçmeyi ve ölümlerinden sonra beyinlerini araştırma için katkıda bulunmayı taahhüt eden binlerce kişinin çalışmasını içeren nörodejenerasyon hakkında daha geniş bir anlayış kazanmak için iddialı bir çabadır4. Çalışma, beynin normal işleyişinden Alzheimer hastalığınageçişe odaklanmaktadır 2. Proje kapsamında, postmortem beyin örnekleri, genomik, epigenomik, transkriptomik, proteomik5 ve metabolomik dahil olmak üzere çok sayıda omik yaklaşımla analiz edildi.
Hücresel durumların (yani proteomik ve metabolomiklerin) fonksiyonel okumalarını sunan omik teknolojileri6,7, protein ve metabolit bolluğu ile hücresel aktiviteler arasındaki doğrudan ilişki nedeniylehastalığı 8,9,10,11,12 yorumlamanın anahtarıdır. Proteinler, hücresel süreçlerin birincil yürütücüleridir, metabolitler ise biyokimyasal reaksiyonlar için substratlar ve ürünlerdir. Multi-omik veri analizi, proteomik ve metabolomik veriler arasındaki karmaşık ilişkileri, bunları tek başına değerlendirmek yerine anlama imkanı sunar. Multi-omik, moleküler veriler (genom dizisi ve mutasyonlar, transkriptom, proteom, metabolom), klinik görüntüleme verileri ve klinik özellikler dahil olmak üzere çok katmanlı yüksek boyutlu biyolojik verileri inceleyen bir disiplindir. Özellikle, multi-omik veri analizi, bu tür biyolojik veri katmanlarını entegre etmeyi, bunların karşılıklı düzenleme ve etkileşim dinamiklerini anlamayı ve hastalığın başlangıcı ve ilerlemesi hakkında bütünsel bir anlayış sunmayı amaçlar. Bununla birlikte, çoklu omik verileri entegre etme yöntemleri, geliştirmenin erken aşamalarında kalmaktadır13.
Bir tür denetimsiz sinir ağı14 olan otomatik kodlayıcılar, çoklu omik veri entegrasyonu için güçlü bir araçtır. Denetimli sinir ağlarının aksine, otomatik kodlayıcılar örnekleri belirli hedef değerlerle (sağlıklı veya hastalıklı gibi) eşlemez ve sonuçları tahmin etmek için kullanılmazlar. Birincil uygulamalarından biri boyutsallığın azaltılmasında yatmaktadır. Bununla birlikte, otomatik kodlayıcılar, temel bileşen analizi (PCA), t-dağıtılmış stokastik komşu gömme (tSNE) veya tekdüze manifold yaklaşımı ve projeksiyonu (UMAP) gibi daha basit boyutsallık azaltma yöntemlerine göre çeşitli avantajlar sunar. PCA’dan farklı olarak, otomatik kodlayıcılar veriler içindeki doğrusal olmayan ilişkileri yakalayabilir. tSNE ve UMAP’den farklı olarak, her biri doğrusal olmayan aktivasyon fonksiyonları içeren birden çok hesaplama birimi katmanına dayandıkları için veriler içindeki hiyerarşik ve çok modlu ilişkileri tespit edebilirler. Bu nedenle, multi-omik verilerin karmaşıklığını yakalamak için çekici modelleri temsil ederler. Son olarak, PCA, tSNE ve UMAP’nin birincil uygulaması verileri kümelemek olsa da, otomatik kodlayıcılar giriş verilerini aşağı akış tahmine dayalı görevler için çok uygun olan çıkarılmış özelliklere sıkıştırır15,16.
Kısaca, sinir ağları, her biri birden fazla hesaplama birimi veya “nöron” içeren birkaç katmandan oluşur. İlk ve son katmanlar sırasıyla giriş ve çıkış katmanları olarak adlandırılır. Otomatik kodlayıcılar, bir giriş katmanı, ardından bir ila üç gizli katman ve tipik olarak iki ila altı nöron içeren küçük bir “gizli” katmandan oluşan kum saati yapısına sahip sinir ağlarıdır. Bu yapının ilk yarısı kodlayıcı olarak bilinir ve kodlayıcıyı yansıtan bir kod çözücü ile birleştirilir. Kod çözücü, giriş katmanıyla aynı sayıda nöron içeren bir çıkış katmanıyla sona erer. Otomatik kodlayıcılar, girdiyi darboğazdan geçirir ve orijinal bilgileri mümkün olduğunca yakından yansıtan bir çıktı oluşturmak amacıyla çıktı katmanında yeniden oluşturur. Bu, “yeniden yapılanma kaybı” olarak adlandırılan bir parametrenin matematiksel olarak en aza indirilmesiyle elde edilir. Girdi, burada sergilenen uygulamada protein ve metabolit bollukları ve klinik özellikler (yani cinsiyet, eğitim ve ölüm yaşı) olacak bir dizi özellikten oluşur. Gizli katman, tahmine dayalı modeller17,18 gibi sonraki uygulamalar için kullanılabilecek girdinin sıkıştırılmış ve bilgi açısından zengin bir temsilini içerir.
Bu protokol, aşağıdakileri içeren bir iş akışı olan DeepOmicsAE’yi sunar: 1) makine öğrenimi analizi için tutarlı bir ölçekle veri elde etmek için proteomik, metabolomik ve klinik verilerin (yani normalleştirme, ölçekleme, aykırı değer kaldırma) ön işlenmesi; 2) özellik aşırı yüklenmesi ilgili hastalık modellerini gizleyebileceğinden, uygun otomatik kodlayıcı giriş özelliklerinin seçilmesi; 3) seçilecek en uygun protein ve metabolit sayısının ve gizli tabaka için nöronların belirlenmesi de dahil olmak üzere otomatik kodlayıcıyı optimize etmek ve eğitmek; 4) gizli tabakadan özelliklerin çıkarılması; ve 5) moleküler sinyal modüllerini ve bunların klinik özelliklerle ilişkilerini tanımlayarak biyolojik yorumlama için çıkarılan özelliklerin kullanılması.
Bu protokol, Python ile programlama konusunda temel bir anlayışa sahip, sınırlı hesaplama deneyimine sahip biyologlar tarafından basit ve uygulanabilir olmayı amaçlamaktadır. Protokol, proteomikler, metabolomikler ve klinik özellikler dahil olmak üzere çoklu omik verileri analiz etmeye odaklanır, ancak kullanımı, transkriptomik dahil olmak üzere diğer moleküler ekspresyon verileri türlerine genişletilebilir. Bu protokol tarafından sunulan önemli bir yeni uygulama, orijinal özelliklerin önem puanlarını gizli katmandaki bireysel nöronlara haritalamaktır. Sonuç olarak, gizli katmandaki her nöron, spesifik moleküler değişiklikler ile hastaların klinik özellikleri arasındaki etkileşimleri detaylandıran bir sinyal modülünü temsil eder. Moleküler sinyal modüllerinin biyolojik yorumu, zenginleştirilmiş metabolik ve hücre sinyal yollarını türetmek için gen/protein ve metabolit verilerini entegre eden halka açık bir araç olan MetaboAnalyst kullanılarak elde edilir17.
Veri kümesinin yapısı, protokolün başarısı için kritik öneme sahiptir ve dikkatlice kontrol edilmelidir. Veriler, protokol bölüm 1’de belirtildiği gibi biçimlendirilmelidir. Sütun konumlarının doğru atanması da yöntemin başarısı için kritik öneme sahiptir. Proteomik ve metabolomik veriler farklı şekilde önceden işlenir ve verilerin farklı doğası nedeniyle özellik seçimi ayrı ayrı yapılır. Bu nedenle, protokol adımları 1.5, 2.3 ve 3.3’te sütun konumlarını doğru bir şekilde atama…
The authors have nothing to disclose.
Bu çalışma, NIH hibe CA201402 ve Cornell Omurgalı Genomik Merkezi (CVG) Seçkin Bilim Adamı Ödülü tarafından desteklenmiştir. Burada yayınlanan sonuçlar tamamen veya kısmen AD Bilgi Portalı’ndan (https://adknowledgeportal.org) elde edilen verilere dayanmaktadır. Çalışma verileri, Rush Alzheimer Hastalığı Merkezi, Rush Üniversitesi Tıp Merkezi, Chicago tarafından sağlanan örneklere dayanarak AD için Hızlandırıcı Tıp Ortaklığı (U01AG046161 ve U01AG061357) aracılığıyla sağlandı. Veri toplama, NIA hibeleri P30AG10161, R01AG15819, R01AG17917, R01AG30146, R01AG36836, U01AG32984, U01AG46152, Illinois Halk Sağlığı Departmanı ve Translasyonel Genomik Araştırma Enstitüsü tarafından finanse edilerek desteklendi. Metabolomik veri seti Metabolon’da oluşturuldu ve ADMC tarafından önceden işlendi.
Computer | Apple | Mac Studio | Apple M1 Ultra with 20-core CPU, 48-core GPU, 32-core Neural Engine; 64 GB unified memory |
Conda v23.3.1 | Anaconda, Inc. | N/A | package management system and environment manager |
conda environment DeepOmicsAE |
N/A | DeepOmicsAE_env.yml | contains packages necessary to run the worflow |
github repository DeepOmicsAE | Microsoft | https://github.com/elepan84/DeepOmicsAE/ | provides scripts, Jupyter notebooks, and the conda environment file |
Jupyter notebook v6.5.4 | Project Jupyter | N/A | a platform for interactive data science and scientific computing |
DT01-metabolomics data | N/A | ROSMAP_Metabolon_HD4_Brain 514_assay_data.csv |
This data was used to generate the Results reported in the article. Specifically, DT01-DT04 were merged by matching them based on the individualID. The column final consensus diagnosis (cogdx) was filtered to keep only patients classified as healthy or AD. Climnical features were filtered to keep the following: age at death, sex and education. Finally, age reported as 90+ was set to 91, then the age column was transformed to float64. The data is available at https://adknowledgeportal.synapse.org |
DT02-TMT proteomics data | N/A | C2.median_polish_corrected_log2 (abundanceRatioCenteredOn MedianOfBatchMediansPer Protein)-8817×400.csv |
|
DT03-clinical data | N/A | ROSMAP_clinical.csv | |
DT04-biospecimen metadata | N/A | ROSMAP_biospecimen_metadata .csv |
|
Python 3.11.3 | Python Software Foundation | N/A | programming language |