Biology

Küçük Veri Kümelerinde Tahmin Görevi ve Karanlık Biyobelirteç Tespiti için Transkriptomik Özelliklerin Transkripsiyonel Düzenleme Görünümünün Oluşturulması

Published: March 1, 2024 doi: 10.3791/66030

Kewei Li¹, Yusi Fan¹, Yaqing Liu¹, Hongmei Liu², Gongyou Zhang², Meiyu Duan¹, Lan Huang¹, Fengfeng Zhou¹

¹College of Computer Science and Technology, and Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education, Jilin University, ²School of Biology and Engineering, Guizhou Medical University

Summary

Burada, transkriptomik verileri bir mqTrans görünümüne dönüştürmek için karanlık biyobelirteçlerin tanımlanmasını sağlayan bir protokol sunuyoruz. Konvansiyonel transkriptomik analizlerde diferansiyel olarak ifade edilmese de, bu biyobelirteçler mqTrans görünümünde diferansiyel ekspresyon sergiler. Yaklaşım, daha önce gözden kaçan biyobelirteçleri ortaya çıkaran geleneksel yöntemlere tamamlayıcı bir teknik olarak hizmet eder.

Abstract

Transkriptom, bir örnekteki birçok genin ekspresyon seviyelerini temsil eder ve biyolojik araştırmalarda ve klinik uygulamada yaygın olarak kullanılmaktadır. Araştırmacılar genellikle bir fenotip grubu ile bir kontrol grubu örneklem arasında farklı temsillere sahip transkriptomik biyobelirteçlere odaklandılar. Bu çalışma, referans örneklerin karmaşık genler arası etkileşimlerini öğrenmek için çok görevli bir grafik-dikkat ağı (GAT) öğrenme çerçevesi sunmuştur. Bağımsız test transkriptomlarının model tabanlı kantitatif transkripsiyonel düzenleme (mqTrans) görünümünü oluşturmak için doğrudan kullanılabilecek sağlıklı örnekler (HealthModel) üzerinde gösterici bir referans modeli önceden eğitildi. Transkriptomların oluşturulan mqTrans görünümü, tahmin görevleri ve karanlık biyobelirteç tespiti ile gösterildi. Ortaya çıkan "karanlık biyobelirteç" terimi, karanlık bir biyobelirteçin mqTrans görünümünde diferansiyel temsil gösterdiği, ancak orijinal ekspresyon seviyesinde diferansiyel ekspresyon göstermediği tanımından kaynaklanmıştır. Diferansiyel ekspresyonun olmaması nedeniyle geleneksel biyobelirteç tespit çalışmalarında karanlık bir biyobelirteç her zaman göz ardı edilmiştir. HealthModelPipe işlem hattının kaynak kodu ve kılavuzu http://www.healthinformaticslab.org/supp/resources.php'dan indirilebilir.

Introduction

Transkriptom, bir örnekteki tüm genlerin ekspresyonlarından oluşur ve mikrodizi ve RNA-seq¹ gibi yüksek verimli teknolojilerle profillenebilir. Bir veri kümesindeki bir genin ekspresyon seviyelerine transkriptomik özellik denir ve fenotip ile kontrol grupları arasındaki bir transkriptomik özelliğin diferansiyel temsili, bu geni bu fenotipin bir biyobelirteci olarak tanımlar ^2,3. Transkriptomik biyobelirteçler, hastalık teşhisi⁴, biyolojik mekanizma⁵ ve sağkalım analizi ^6,7 vb. araştırmalarda yaygın olarak kullanılmaktadır.

Sağlıklı dokulardaki gen aktivite paternleri yaşamlar hakkında önemli bilgiler taşır ^8,9. Bu kalıplar paha biçilmez içgörüler sunar ve iyi huylu bozuklukların^10,11 ve ölümcül hastalıkların¹² karmaşık gelişimsel yörüngelerini anlamak için ideal referanslar olarak hareket eder. Genler birbirleriyle etkileşime girer ve transkriptomlar, karmaşık etkileşimlerinden sonraki son ekspresyon seviyelerini temsil eder. Bu tür kalıplar, transkripsiyonel düzenleme ağı¹³ ve metabolizma ağı¹⁴ vb. olarak formüle edilmiştir. Haberci RNA'ların (mRNA'lar) ekspresyonları, transkripsiyon faktörleri (TF'ler) ve uzun intergenik kodlamayan RNA'lar (lincRNA'lar) tarafından transkripsiyonel olarak düzenlenebilir15,16,17. Konvansiyonel diferansiyel ekspresyon analizi, özellikler arası bağımsızlık varsayımıyla bu tür karmaşık gen etkileşimlerini göz ardı etmiştir^18,19.

Grafik sinir ağlarındaki (GNN'ler) son gelişmeler, kanser çalışmaları²⁰ için OMIC tabanlı verilerden önemli bilgilerin çıkarılmasında, örneğin birlikte ekspresyon modüllerinin^{tanımlanmasında 21} olağanüstü bir potansiyel olduğunu göstermektedir. GNN'lerin doğuştan gelen kapasitesi, onları genler arasındaki karmaşık ilişkileri ve bağımlılıkları modellemek için ideal kılar^22,23.

Biyomedikal çalışmalar genellikle kontrol grubuna karşı bir fenotipi doğru bir şekilde tahmin etmeye odaklanır. Bu tür görevler genellikle ikili sınıflandırmalar ^24,25,26 olarak formüle edilir. Burada, iki sınıf etiketi genellikle 1 ve 0, doğru ve yanlış, hatta pozitif ve negatif²⁷ olarak kodlanır.

Bu çalışma, önceden eğitilmiş grafik-dikkat ağı (GAT) referans modeline dayalı bir transkriptom veri kümesinin transkripsiyonel düzenleme (mqTrans) görünümünü oluşturmak için kullanımı kolay bir protokol sağlamayı amaçlamıştır. Daha önce yayınlanmış bir çalışma^26'dan çok görevli GAT çerçevesi, transkriptomik özellikleri mqTrans özelliklerine dönüştürmek için kullanıldı. Düzenleyici faktörlerden (TF'ler ve lincRNA'lar) hedef mRNA'lara transkripsiyon düzenlemelerini kantitatif olarak ölçen referans modeli (HealthModel) önceden eğitmek için Kaliforniya Üniversitesi, Santa Cruz (UCSC) Xena platform^28'den sağlıklı transkriptomlardan oluşan geniş bir veri seti kullanıldı. Oluşturulan mqTrans görünümü, tahmin modelleri oluşturmak ve karanlık biyobelirteçleri tespit etmek için kullanılabilir. Bu protokol, açıklayıcı bir örnek olarak Kanser Genom Atlası (TCGA) veritabanı^29'dan kolon adenokarsinomu (COAD) hasta veri setini kullanır. Bu bağlamda, evre I veya II'deki hastalar negatif örnekler olarak kategorize edilirken, evre III veya IV'teki hastalar pozitif örnekler olarak kabul edilir. 26 TCGA kanser türü arasında karanlık ve geleneksel biyobelirteçlerin dağılımları da karşılaştırılmıştır.

HealthModel işlem hattının açıklaması
Bu protokolde kullanılan metodoloji, Şekil 1'de belirtildiği gibi daha önce yayınlanmış çerçeve^26'ya dayanmaktadır. Başlamak için kullanıcıların giriş veri kümesini hazırlaması, önerilen HealthModel işlem hattına beslemesi ve mqTrans özelliklerini edinmesi gerekir. Ayrıntılı veri hazırlama talimatları protokol bölümünün 2. bölümünde verilmiştir. Daha sonra, kullanıcılar mqTrans özelliklerini orijinal transkriptomik özelliklerle birleştirme veya yalnızca oluşturulan mqTrans özellikleriyle devam etme seçeneğine sahiptir. Üretilen veri kümesi daha sonra bir özellik seçim sürecine tabi tutulur ve kullanıcılar, sınıflandırma için k kat çapraz doğrulamada k için tercih ettikleri değeri seçme esnekliğine sahiptir. Bu protokolde kullanılan birincil değerlendirme ölçütü doğruluktur.

HealthModel²⁶, transkriptomik özellikleri üç farklı gruba ayırır: TF (Transkripsiyon Faktörü), lincRNA (uzun intergenik kodlamayan RNA) ve mRNA (haberci RNA). TF özellikleri, İnsan Protein Atlası^30,31'de bulunan ek açıklamalara göre tanımlanır. Bu çalışma, GTEx veri kümesi^32'deki lincRNA'ların ek açıklamalarını kullanır. KEGG veri tabanındaki³³ üçüncü seviye yollara ait genler, mRNA özellikleri olarak kabul edilir. Bir mRNA özelliği, TRRUST veri tabanında³⁴ belgelendiği gibi bir hedef gen için düzenleyici roller sergiliyorsa, TF sınıfına yeniden sınıflandırıldığını belirtmekte fayda var.

Bu protokol ayrıca düzenleyici faktörlerin (regulatory_geneIDs.csv) ve hedef mRNA'nın (target_geneIDs.csv) gen kimlikleri için iki örnek dosyayı manuel olarak oluşturur. Düzenleyici özellikler (TF'ler ve lincRNA'lar) arasındaki ikili mesafe matrisi, Pearson korelasyon katsayıları ile hesaplanır ve popüler araç ağırlıklı gen ortak ekspresyon ağı analizi (WGCNA)³⁶ (adjacent_matrix.csv) ile kümelenir. Kullanıcılar, bir transkriptomik veri kümesinin mqTrans görünümünü oluşturmak için bu örnek yapılandırma dosyalarıyla birlikte HealthModel işlem hattını doğrudan kullanabilir.

HealthModel'in teknik detayları
HealthModel, TF'ler ve lincRNA'lar arasındaki karmaşık ilişkileri bir grafik olarak temsil eder, girdi özellikleri V ile gösterilen köşeler ve E olarak gösterilen köşeler arası kenar matrisi olarak hizmet eder. Her numune, V^K×1 olarak sembolize edilen K düzenleyici özelliklerle karakterize edilir. Spesifik olarak, veri kümesi 425 TF ve 375 lincRNA'yı kapsıyordu ve bu da K = 425 + 375 = 800'lük bir örnek boyutsallığı ile sonuçlandı. Kenar matrisi E'yi oluşturmak için, bu çalışma popüler araç WGCNA^35'i kullandı. ve Equation 2 olarak Equation 1 temsil edilen iki köşeyi birbirine bağlayan ikili ağırlık, Pearson korelasyon katsayısı ile belirlenir. Gen düzenleyici ağ, önemli fonksiyonel rollere sahip hub genlerinin varlığı ile karakterize edilen ölçeksiz bir topoloji³⁶ sergiler. İki özellik veya köşe arasındaki korelasyonu ve Equation 2 topolojik örtüşme ölçüsünü (TOM) kullanarak aşağıdaki gibi hesaplıyoruz:

Equation 3 (1)

Equation 4 (2)

Yumuşak eşik β , WGCNA paketinden 'pickSoft Threshold' işlevi kullanılarak hesaplanır. Kuvvet üstel fonksiyonu a_ij uygulanır, burada Equation 5 i ve j hariç bir geni temsil eder ve Equation 6 köşe bağlantısını temsil eder. WGCNA, transkriptomik özelliklerin ekspresyon profillerini, yaygın olarak kullanılan bir farklılık ölçüsü kullanarak birden fazla modülde kümeler ( Equation 7 ³⁷.

HealthModel çerçevesi başlangıçta çok görevli bir öğrenme mimarisi^{olarak tasarlanmıştır 26}. Bu protokol yalnızca transkriptomik mqTrans görünümünün oluşturulması için model ön eğitim görevini kullanır. Kullanıcı, göreve özgü ek transkriptomik örneklerle çoklu görev grafiği dikkat ağı altında önceden eğitilmiş HealthModel'i daha da iyileştirmeyi seçebilir.

Özellik seçimi ve sınıflandırmasının teknik detayları
Özellik seçim havuzu, on bir özellik seçimi (FS) algoritması uygular. Bunlardan üçü filtre tabanlı FS algoritmalarıdır: Maksimum Bilgi Katsayısını (SK_mic) kullanarak K en iyi özelliklerini seçmek, MIC'nin FPR'sine (SK_fpr) göre K özelliklerini seçmek ve MIC'nin en yüksek yanlış keşif oranına sahip K özelliklerini seçmek (SK_fdr). Ek olarak, üç ağaç tabanlı FS algoritması, Gini indeksi (DT_gini), uyarlanabilir artırılmış karar ağaçları (AdaBoost) ve rastgele orman (RF_fs) içeren bir karar ağacı kullanarak bireysel özellikleri değerlendirir. Havuz ayrıca iki sarmalayıcı yöntemi içerir: Doğrusal destek vektör sınıflandırıcısı (RFE_SVC) ile özyinelemeli özellik eleme ve lojistik regresyon sınıflandırıcısı (RFE_LR) ile özyinelemeli özellik eleme. Son olarak, iki ekleme algoritması dahil edilmiştir: en üst sıradaki L1 özellik önem değerlerine (lSVC_L1) sahip doğrusal SVC sınıflandırıcısı ve en üst sıradaki L1 özellik önem değerlerine (LR_L1) sahip lojistik regresyon sınıflandırıcısı.

Sınıflandırıcı havuzu, sınıflandırma modelleri oluşturmak için yedi farklı sınıflandırıcı kullanır. Bu sınıflandırıcılar, doğrusal destek vektör makinesi (SVC), Gauss Naïve Bayes (GNB), lojistik regresyon sınıflandırıcısı (LR), k-en yakın komşu, k varsayılan olarak 5'e ayarlanmış (KNN), XGBoost, rastgele orman (RF) ve karar ağacından (DT) oluşur.

Veri kümesinin trene rastgele bölünmesi: test alt kümeleri komut satırında ayarlanabilir. Gösterilen örnek, tren: test = 8: 2 oranını kullanır.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

NOT: Aşağıdaki protokol, ana modüllerin bilişim analitik prosedürünün ve Python komutlarının ayrıntılarını açıklamaktadır. Şekil 2, bu protokolde kullanılan örnek komutlarla üç ana adımı göstermektedir ve daha fazla teknik ayrıntı için daha önce yayınlanmış çalışmalara^26,38 bakın. Bir bilgisayar sisteminde normal bir kullanıcı hesabı altında aşağıdaki protokolü uygulayın ve yönetici veya kök hesabı kullanmaktan kaçının. Bu bir hesaplama protokolüdür ve biyomedikal tehlikeli faktörleri yoktur.

1. Python ortamını hazırlayın

Sanal bir ortam oluşturun.
1. Bu çalışmada Python programlama dili ve Python 3.7 ile bir Python sanal ortamı (VE) kullanılmıştır. Şu adımları izleyin (Şekil 3A):
  conda oluşturma -n healthmodel python=3.7
  conda create , yeni bir VE oluşturma komutudur. -n parametresi yeni ortamın adını belirtir (bu örnekte healthmodel). Ve python=3.7 yüklenecek Python sürümünü belirtir. Yukarıdaki komutu destekleyen tercih edilen herhangi bir adı ve Python sürümünü seçin.
2. Komutu çalıştırdıktan sonra çıktı Şekil 3B'ye benzer. y girin ve işlemin tamamlanmasını bekleyin.
Sanal ortamı etkinleştirin
1. Çoğu durumda, oluşturulan VE'yi aşağıdaki komutla etkinleştirin (Şekil 3C):
  Conda HealthModel'i etkinleştirin
2. Bazı platformlar kullanıcının etkinleştirme için platforma özgü yapılandırma dosyalarını yüklemesini gerektiriyorsa, VE etkinleştirmesi için platforma özgü yönergeleri izleyin.
PyTorch 1.13.1'i yükleyin
1. PyTorch, yapay zeka (AI) algoritmaları için popüler bir Python paketidir. Örnek olarak CUDA 11.7 GPU programlama platformunu temel alan PyTorch 1.13.1'i kullanın. Diğer sürümleri https://pytorch.org/get-started/previous-versions/'da bulabilirsiniz. Aşağıdaki komutu kullanın (Şekil 3D):
  pip3 torch'u takın torchvision torchaudio
  NOT: PyTorch sürüm 1.12 veya daha yenisini kullanmanız önemle tavsiye edilir. Aksi takdirde, resmi torch_geometric web sitesinde belirtildiği gibi, gerekli paketi torch_geometric yüklemek zor olabilir: https://pytorch-geometric.readthedocs.io/en/latest/install/installation.html.
Torç-geometrik için ek paketler kurun
1. https://pytorch-geometric.readthedocs.io/en/latest/install/installation.html'daki yönergeleri izleyerek aşağıdaki paketleri yükleyin: komutu kullanarak torch_scatter, torch_sparse, torch_cluster ve torch_spline_conv (Şekil 3E):
  pip install pyg_lib torch_scatter torch_sparse torch_cluster torch_spline_conv -f https://data.pyg.org/whl/torch-1.13.0+cu117.html
Torç-geometrik paketi yükleyin.
1. Bu çalışma, meşale-geometrik paketin belirli bir versiyonu olan 2.2.0'ı gerektirir. Komutu çalıştırın (Şekil 3F):
  pip yükleme torch_geometric==2.2.0
Diğer paketleri yükleyin.
1. Pandalar gibi paketler genellikle varsayılan olarak mevcuttur. Değilse, pip komutunu kullanarak bunları kurun. Örneğin, pandas ve xgboost'u yüklemek için şunu çalıştırın:
  pip pandaları yükle
  pip xgboost'u yükle

2. mqTrans özelliklerini oluşturmak için önceden eğitilmiş HealthModel'i kullanma

Kodu ve önceden eğitilmiş modeli indirin.
1. Kodu ve önceden eğitilmiş HealthModel'i web sitesinden indirin: HealthModel-mqTrans-v1-00.tar.gz olarak adlandırılan http://www.healthinformaticslab.org/supp/resources.php (Şekil 4A). İndirilen dosya, kullanıcı tarafından belirlenen bir yola sıkıştırılabilir. Uygulanan protokolün ayrıntılı formülasyonu ve destekleyici verileri^26'da bulunabilir.
HealthModel'i çalıştırmak için parametreleri tanıtın.
1. İlk olarak, çalışma dizinini komut satırındaki HealthModel-mqTrans klasörüne değiştirin. Kodu çalıştırmak için aşağıdaki sözdizimini kullanın:
  python main.py <çıkış klasörü>
  Her parametre ve veri, model ve çıktı klasörleri ile ilgili ayrıntılar aşağıdaki gibidir:
  veri klasörü: Bu, kaynak veri klasörüdür ve her veri dosyası csv biçimindedir. Bu veri klasöründe iki dosya vardır (adım 2.3 ve 2.4'teki ayrıntılı açıklamalara bakın). Bu dosyaların kişisel verilerle değiştirilmesi gerekir.
  data.csv: Transkriptomik matris dosyası. İlk satırda özellik (veya gen) kimlikleri listelenir ve ilk sütun örnek kimlikleri verir. Genlerin listesi, düzenleyici faktörleri (TF'ler ve lincRNA'lar) ve düzenlenmiş mRNA genlerini içerir.
  label.csv: Örnek etiket dosyası. İlk sütunda örnek kimlikleri listelenir ve "etiket" adlı sütun örnek etiketi verir.
  model klasörü: Modelle ilgili bilgilerin kaydedileceği klasör:
  HealthModel.pth: Önceden eğitilmiş HealthModel.
  regulatory_geneIDs.csv: Bu çalışmada kullanılan düzenleyici gen kimlikleri.
  target_geneIDs.csv: Bu çalışmada kullanılan hedef genler.
  adjacent_matrix.csv: Düzenleyici genlerin bitişik matrisi.
  çıktı klasörü: Çıktı dosyaları, kod tarafından oluşturulan bu klasöre yazılır.
  test_target.csv: Z-Normalizasyonu ve atama sonrası hedef genlerin gen ekspresyon değeri.
  pred_target.csv: Hedef genlerin tahmin edilen gen ekspresyon değeri.
  mq_target.csv: Hedef genlerin tahmin edilen gen ekspresyon değeri.
Transkriptomik matris dosyasını csv formatında hazırlayın.
1. Her satır bir numuneyi temsil eder ve her sütun bir geni temsil eder (Şekil 4B). Transkriptomik veri matrisi dosyasını, veri klasöründeki data.csv olarak adlandırın.
  NOT: Bu dosya, Microsoft Excel gibi bir yazılımdan .csv biçiminde bir karekodun manuel olarak kaydedilmesiyle oluşturulabilir. Transkriptomik matris, bilgisayar programlama ile de oluşturulabilir.
Etiket dosyasını csv formatında hazırlayın.
1. Transkriptomik matris dosyasına benzer şekilde, etiket dosyasını veri klasöründe label.csv olarak adlandırın (Şekil 4C).
  NOT: İlk sütun numune isimlerini verir ve her numunenin sınıf etiketi etiket başlıklı sütunda verilir. Etiket sütunundaki 0 değeri bu numunenin negatif, 1 ise pozitif numune anlamına gelir.
mqTrans özelliklerini oluşturun.
1. mqTrans özelliklerini oluşturmak ve Şekil 4D'de gösterilen çıktıları almak için aşağıdaki komutu çalıştırın. mqTrans özellikleri ./output/mq_targets.csv dosyası olarak oluşturulur ve etiket dosyası ./output/label.csv dosyası olarak yeniden kaydedilir. Daha fazla analizin rahatlığı için, mRNA genlerinin orijinal ekspresyon değerleri de ./output/ test_target.csv dosyası olarak çıkarılır.
  python ./Get_mqTrans/code/main.py ./data ./Get_mqTrans/model ./output

3. mqTrans Özelliklerini Seçin

Özellik seçim kodunun sözdizimi
1. İlk olarak, çalışma dizinini HealthModel-mqTrans klasörüne değiştirin. Aşağıdaki sözdizimini kullanın:
  python ./FS_classification/testMain.py
  Her parametrenin ayrıntıları aşağıdaki gibidir:
  in-data-file: Giriş veri dosyası
  in-label-file: Giriş veri dosyasının etiketi
  çıktı klasörü: Bu klasöre, Output-score.xlsx (özellik seçim yöntemi ve ilgili sınıflandırıcının doğruluğu) ve Output-SelectedFeatures.xlsx (her özellik seçim algoritması için seçilen özellik adları) dahil olmak üzere iki çıktı dosyası kaydedilir.
  1. select_feature_number: 1 ile veri dosyasındaki özellik sayısı arasında değişen özellik sayısını seçin.
  2. test_size: Test örneğinin bölünecek oranını ayarlayın. Örneğin, 0,2, giriş veri kümesinin 0,8:0,2 oranında tren: test alt kümelerine rastgele bölündüğü anlamına gelir.
  3. birleştirmek: Doğruysa, özellik seçimi için iki veri dosyasını, yani orijinal ifade değerlerini ve mqTrans özelliklerini birleştirin. false ise, özellik seçimi için yalnızca bir veri dosyası, yani orijinal ifade değerleri veya mqTrans özellikleri kullanın.
  4. birleştirme dosyası: combine true ise, birleştirilmiş veri matrisini kaydetmek için bu dosya adını girin.
    NOT: Bu işlem hattı, oluşturulan mqTrans özelliklerinin sınıflandırma görevlerinde nasıl performans gösterdiğini göstermeyi amaçlar ve aşağıdaki işlemler için doğrudan bölüm 2 tarafından oluşturulan dosyayı kullanır.
mqTrans özellik seçimi için özellik seçim algoritmasını çalıştırın.
1. Kullanıcı mqTrans özelliklerini veya orijinal özellikleri seçerse combine =False değerini değiştirin.
2. İlk olarak, 800 orijinal özellik seçin ve veri kümesini trene bölün: test=0.8:0.2:
  python ./FS_classification/testMain.py ./output/test_target.csv ./output/label.csv ./result 800 0.2 Yanlış
3. Kullanıcı, özellikleri seçmek için mqTrans özelliklerini orijinal ifade değerleriyle birleştirmek istiyorsa, combine =True değerini çevirin. Burada, gösterici örnek 800 özellik seçmek ve veri kümesini trene bölmektir: test=0.8:0.2:
  python ./FS_classification/testMain.py ./output/mq_targets.csv ./output/label.csv ./result_combine 800 0.2 True ./output/test_target.csv
  NOT: Şekil 5 çıktı bilgilerini göstermektedir. Bu protokol için gerekli olan ek dosyalar HealthModel-mqTrans-v1-00.tar klasördedir (Ek Kodlama Dosyası 1).

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Transkriptomik veri setinin mqTrans görünümünün değerlendirilmesi
Test kodu, transkriptomik veri kümesinin oluşturulan mqTrans görünümünün sınıflandırma görevine nasıl katkıda bulunduğunu değerlendirmek için on bir özellik seçimi (FS) algoritması ve yedi sınıflandırıcı kullanır (Şekil 6). Test veri seti, Kanser Genom Atlası (TCGA) veri tabanından 317 kolon adenokarsinomundan (COAD)^{oluşmaktadır 29}. Evre I veya II'deki COAD hastaları negatif örnekler olarak kabul edilirken, evre III veya IV'teki hastalar pozitif örneklerdir.

Test kodunda on bir FS algoritması uygulanmaktadır. MIC'e göre K en iyi özelliklerini seçme (SK_mic), MIC'in FPR'sine (SK_fpr) göre K özelliklerini seçme ve MIC'nin en yüksek FDR'sine (SK_fpr) göre K özelliklerini seçme dahil olmak üzere üç filtre tabanlı FS algoritması vardır. Üç ağaç tabanlı FS algoritması, sırasıyla gini indeksi (DT_gini), uyarlanabilir artırılmış karar ağaçları (AdaBoost) ve rastgele orman (RF_fs) içeren bir karar ağacı ile bireysel özellikleri değerlendirir. Test kodunun FS havuzu ayrıca doğrusal destek vektör sınıflandırıcısı (SVC)(RFE_SVC) ile iki sarmalayıcı özyinelemeli özellik eleme (RFE) ve lojistik regresyon sınıflandırıcısı (RFE_LR) ile RFE'yi ve iki gömme algoritması doğrusal SVC sınıflandırıcısını en üst sıradaki L1 özellik önem değerlerine (lSVC_L1) ve en üst sıradaki L1 özellik önem değerlerine (LR_L1) sahip lojistik regresyon sınıflandırıcısını değerlendirir.

Test kodu, doğrusal destek vektör makinesi (SVC), Gauss Naïve Bayes (GNB), lojistik regresyon sınıflandırıcısı (LR), k-en yakın komşu, varsayılan olarak k-5 (KNN), XGBoost, rastgele orman (RF) ve karar ağacı (DT) dahil olmak üzere yedi sınıflandırıcı kullanarak sınıflandırma modellerini oluşturur.

Şekil 6, mqTrans özelliklerinin, orijinal mRNA özelliklerinin ve her FS algoritması tarafından önerilen mRNA ve mqTrans özelliklerinin birleşik alt kümesinin maksimum test doğruluğunu göstermektedir.

Kombine özellik alt kümeleri (mRNA+mqTrans), "SK_fpr" FS yönteminde en yüksek doğruluk 0.7656'ya ulaşmıştır, bu da bireysel özellik tipleri mqTrans (0.7188) ve orijinal mRNA'dan (0.7188) daha iyidir. Diğer FS algoritmaları için de benzer desenler gözlemlenebilir. Kullanıcı, çıktı dosyasında seçilen özellikleri Output-SelectedFeatures.csv kontrol edebilir.

Karanlık biyobelirteçleri tespit etmek
Önceki çalışmalar, fenotipik ve kontrol grupları arasında önemli ölçüde diferansiyel olarak temsil edilen mqTrans değerlerine sahip diferansiyel olmayan eksprese edilen genlerin varlığını göstermiştir 26,38,39. Bu genlere karanlık biyobelirteçler denir, çünkü geleneksel biyobelirteç saptama çalışmaları, ayırt edici olmayan ifadeleri nedeniyle onları görmezden gelir. Microsoft Excel'deki istatistiksel analiz fonksiyonu t.test, istatistiksel p değeri 0,05'ten küçükse diferansiyel olarak ifade edilen bir özelliği tanımlamak için kullanılabilir.

Üretilen mqTrans değerlerine sahip 3062 özellik arasında 221 karanlık biyobelirteç tespit edildi (Şekil 7). Üçüncü sıradaki gen ENSG00000163697 (APBB2, Amiloid Beta Öncü Protein Bağlayıcı Aile B Üyesi 2), önemli ölçüde diferansiyel olarak temsil edilen mqTrans değerleri gösterirken (mqTrans.P = 2.03 x ^10-4), orijinal ekspresyon seviyesi diferansiyel ekspresyon göstermez (mRNA.P = 3.80 x ^10-1). APBB2 anahtar kelimesi, PubMed veritabanında^{27 yayına ulaştı 40}, ancak kolon veya bağırsak ile bağlantı tespit edilmedi.

Başka bir gen ENSG00000048052 (HDAC9, Histon Deasetilaz 9), fenotipik ve kontrol grupları arasında pratik olarak aynı normal dağılımları korurken (mRNA.P = 9.62 x ^10-1) diferansiyel olarak temsil edilen mqTrans değerlerine (mqTrans.P = 6.09 x ^10-3) sahiptir. HDAC9 anahtar kelimesi PubMed veritabanında 417 yayına ulaştı. Üç çalışmada ayrıca^özetlerde "kolon" veya "bağırsak" anahtar kelimelerinden bahsedilmiştir 41,42,43. Ancak hiçbiri HDAC9'un kolon kanserindeki rollerini araştırmadı.

Veriler, bu karanlık biyobelirteçlerin transkripsiyon sonrası aktivitelerinden daha fazla değerlendirilmesinin gerekliliğini ortaya koydu, ör., çevrilmiş protein seviyeleri^44,45.

Metabolizma ile ilişkili karanlık ve geleneksel biyobelirteçlerin pan-kanser dağılımları
Metabolizma ile ilgili geleneksel biyobelirteçler tarandı ve TCGA veri setindeki 26 kanser türünde karanlık biyobelirteçlerle karşılaştırıldı³⁸. Her iki biyobelirteç kategorisi de erken (Evre I ve II) ve geç (Evre III ve IV) kanser evrelerinde anlamlılık düzeylerini ayırt etmek için istatistiksel değerlendirmeye tabi tutuldu. Bu değerlendirme, p-değerleri için Student'ın t-testlerini kullandı ve daha sonra yanlış keşif oranları (FDR'ler) kullanılarak çoklu testler için düzeltildi. 26 kanser türünün her biri için ayrıntılı veriler Şekil 8'de verilmiştir.

0.05'in altında FDR ile düzeltilmiş p değerleri veren genler geleneksel biyobelirteçler olarak sınıflandırıldı. Buna karşılık, koyu biyobelirteçler, mqTrans görünümünde FDR ile düzeltilmiş p değerleri 0.05'in altında olan ve aynı zamanda ekspresyon seviyelerinde istatistiksel olarak anlamlı bir fark göstermeyenler olarak tanımlandı.

Şekil 9, çoğu kanser türünde geleneksel biyobelirteçlere kıyasla karanlık biyobelirteçlerin genel bir kıtlığını ortaya koymaktadır. Dikkate değer istisnalar, karanlık biyobelirteçlerin daha yüksek bir prevalansını gösteren BRCA, MESO ve TGCT'yi içerir. Transkripsiyon faktörleri, metilasyon paternleri, gen mutasyonları ve çevresel koşullar dahil olmak üzere çeşitli faktörlerin bu karanlık biyobelirteçlerin transkripsiyonel düzensizliğini modüle edebileceği ortaya konmuştur. Karanlık biyobelirteçlerin ekspresyon seviyelerini karıştırabilecek örtüşen kodlamayan RNA transkriptleri nedeniyle daha fazla karmaşıklık ortaya çıkabilir. Bazı koyu biyobelirteçlerin transkripsiyon düzensizlikleri, diferansiyel protein düzeyleri^44,45 ile desteklenmiştir. Karanlık biyobelirteçler genellikle geleneksel çalışmalarda göz ardı edilir ve gelecekteki mekanik araştırmalar için ilgi çekici yollar sunar.

Şekil 1: Bu protokoldeki HealthModel ve özellik seçim modüllerine genel bakış. Kullanıcı Python programlamaya aşinaysa, özellik seçim havuzundaki ve sınıflandırıcı havuzundaki belirli algoritmaları değiştirin. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Şekil 2: Bu Protokol için Kod Akışını Tamamlayın. (a) Python ortamını hazırlayın. Başlamak için sanal bir ortam oluşturun ve temel paketleri kurun. Kapsamlı talimatlar için Bölüm 1'e bakın. (b) mqTrans özellikleri oluşturun. Sağlanan kodu adım adım yürüterek mqTrans özelliklerini edinin. Ayrıntılı açıklamalar Bölüm 2'de bulunabilir. (C) mqTrans Özellikleri'ni seçin. Bu bölüm, mqTrans özelliklerinin değerlendirilmesine odaklanmaktadır. Ayrıntılı ayrıntılar için Bölüm 3'e bakın. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Şekil 3: Python için ortam hazırlama. (A) healthmodel oluşturma komutu. (B) VE oluşturma işlemi sırasında y girin. (C) VE'yi etkinleştirmek için en yaygın komut. (D) Meşale takma komutu 1.13.1. (E) Torç-geometrik paket için ek kitaplıklar kurun. (F) Torç-geometrik paketi takın. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Şekil 4: mqTrans özelliğini almak için HealthModel'i çalıştırın. (A) Kodu indirin. (B) Veri dosyası örneği. Her sütun, düzenleyici bir faktörün tüm değerlerine sahiptir ve ilk öğe gen kimliğidir. Her satır, belirli bir örneğin değerlerini verir ve ilk öğe örnek adıdır. (C) Etiket dosyası örneği. İlk sütun örnek adlarını verir ve her örneğin sınıf etiketi etiket başlıklı sütunda verilir. Etiket sütunundaki 0 değeri bu örneğin canlı, 1 ise ölü anlamına gelir. (D) mqTrans'ın çıktıları. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Şekil 5: mqTrans özelliği için özellik seçim algoritmasını çalıştırın. Özellik seçim algoritmasının sonuçları kullanıcıya gösterilir. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Şekil 6: Her bir özellik seçim algoritmasının maksimum test seti doğruluğu. Yatay eksen özellik seçim algoritmalarını listeler ve dikey eksen doğrulukların değerlerini verir. Histogramlar, üç ayarın deneysel verilerini, yani mqTrans, mRNA, mRNA+mqTrans'ı gösterir. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Şekil 7: mqTrans görünümünde en küçük p değerlerine sahip ilk 50 karanlık biyobelirteç. "Karanlık Biyobelirteç" sütunu, karanlık biyobelirteç adlarını verir. "mRNA.P" ve "mqTrans.P" sütunları, fenotipik ve kontrol grupları arasındaki istatistiksel t-testi p değerleridir. P değerlerinin arka plan renkleri, 1.00 (mavi) ve 0.00 (kırmızı) p değerleri arasında renklendirilir ve beyaz renk, p değeri = 0.05'i temsil eder. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Şekil 8: Kanser Genom Atlası'ndaki (TCGA) 26 kanserin farklı aşamalardaki detayları. "Kohort" ve "Hastalık Dokusu" sütunları, her veri kümesi için hasta grubunu ve hastalıklı dokuları tanımlar. Son dört sütun, sırasıyla gelişim aşamaları I, II, III ve IV'teki örneklerin sayısını verir. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Şekil 9: 26 kanserde karanlık biyobelirteçlerin ve geleneksel biyobelirteçlerin sayısı. Yatay eksen 26 kanser türünü listeler. Dikey eksen, bu kanser türleri için karanlık biyobelirteçlerin ve geleneksel biyobelirteçlerin sayısını verir. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Ek Kodlama Dosyası 1: HealthModel-mqTrans-v1-00.tar Bu Dosyayı indirmek için lütfen buraya tıklayın.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Protokolün 2. bölümü (mqTrans özelliklerini oluşturmak için önceden eğitilmiş HealthModel'i kullanın) bu protokol içindeki en kritik adımdır. Bölüm 1'de hesaplamalı çalışma ortamını hazırladıktan sonra, bölüm 2, önceden eğitilmiş büyük referans modeline dayalı bir transkriptomik veri kümesinin mqTrans görünümünü oluşturur. Bölüm 3, biyobelirteç tespitleri ve tahmin görevleri için oluşturulan mqTrans özelliklerinin seçilmesinin açıklayıcı bir örneğidir. Kullanıcılar, kendi araçlarını veya kodlarını kullanarak bu mqTrans veri kümesi üzerinde başka transkriptomik analizler yapabilirler.

Özgün HealthModel çerçevesi,^26'da açıklandığı gibi çoklu görev mimarisini kullanarak önceden eğitilmiş HealthModel'i daha da iyileştirebilir. Bu protokol, bir transkriptomik veri kümesinin mqTrans görünümünü oluşturmak için önceden eğitilmiş referans modelinin kullanımına odaklanır.

Varsayılan önceden eğitilmiş referans modeli, sağlıklı numuneler üzerinde oluşturulmuştur ve bazı özel görevler için iyi bir seçim olmayabilir, örneğin, primer ve metastatik kanserler arasındaki araştırma. Hesaplama hızı, büyük bir transkriptomik veri kümesi için de yavaştır.

Bu protokolün önemi, en bol bulunan OMIC veri tipinin, yani transkriptomun tamamlayıcı bir mqTrans görünümünü sağlamaktır. Koyu biyobelirteçler, konvansiyonel transkriptomik analiz tarafından göz ardı edilen diferansiyel olmayan eksprese edilen genlerden ortaya çıkarılabilir. Yakın zamanda yapılan bir çalışmada, toplam⁴⁴ örnekten oluşan 805 bağımsız kohortun temel alınarak metastatik kolon kanserinin (mCC) yedi karanlık biyobelirteci tespit edildi. Karanlık biyobelirteçler, diferansiyel olmayan ifadeleri nedeniyle sınırlı ıslak laboratuvar araştırmaları aldı. Bununla birlikte, tespit edilen mCC karanlık biyobelirteçlerinden biri YTHDC2, protein seviyelerinin insan mide kanseri hücrelerinin⁴⁶ ve kolon kanserlerinin⁴⁷ metastaz durumu ile pozitif korelasyon gösterdiği gözlenen 2 içeren protein YTH alanını kodlar. Karanlık biyobelirteçlerin yeni biyolojik içgörüleri, in vitro ve in vivo teknolojilerle çözülmeyi beklemektedir.

Bu protokol tamamen modüler olacak şekilde tasarlanmıştır. Primer kanserler gibi diğer büyük veri kümeleri üzerinde önceden eğitilmiş referans modeller, tümör metastazının araştırılmasını kolaylaştıracaktır. Bu protokol aynı zamanda bitkiler, mantarlar ve mikroplar dahil olmak üzere diğer yaşam alanlarındaki uygulamalar için de araştırılacaktır.

Bu protokolün hesaplama verimliliğinin paralelleştirme ve algoritmik optimizasyon yoluyla artırılması planlanmaktadır.

Bu protokol, bir transkriptomik veri kümesini yeni bir mqTrans görünümüne dönüştürme prosedürünü açıklar ve bir genin dönüştürülmüş mqTrans değerleri, referans örneklerle karşılaştırıldığında transkripsiyon düzenleme değişikliklerini nicel olarak ölçer. Varsayılan model, sağlıklı transkriptomlar üzerinde önceden eğitildi ve başvuru HealthModel olarak yayımlandı.

Bu protokolün biyomedikal araştırmacılar tarafından kolay kullanımını kolaylaştırmak için iki aşağı akış görevinin kaynak kodu sağlanmıştır. Deneysel veriler, dönüştürülen mqTrans özelliklerinin yalnızca özgün ifade düzeylerini kullanarak tahmin görevlerini geliştirebileceğini göstermektedir. mqTrans görünümü, orijinal transkriptomik verilerde diferansiyel ifadeler olmaksızın bazı karanlık biyobelirteçlerin gizli fenotipik bağlantılarını da ortaya çıkarabilir.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Yazarların açıklayacak hiçbir şeyi yok.

Acknowledgments

Bu çalışma, Kıdemli ve Genç Teknolojik İnovasyon Ekibi (20210509055RQ), Guizhou Eyaleti Bilim ve Teknoloji Projeleri (ZK2023-297), Guizhou Eyaleti Sağlık Komisyonu Bilim ve Teknoloji Vakfı (gzwkj2023-565), Jilin Eyaleti Eğitim Departmanı Bilim ve Teknoloji Projesi (JJKH20220245KJ ve JJKH20220226SK), Çin Ulusal Doğa Bilimleri Vakfı (U19A2061), Jilin Eyaleti Büyük Veri Akıllı Bilgi İşlem Anahtar Laboratuvarı tarafından desteklenmiştir (20180622002JC) ve Merkez Üniversiteler için Temel Araştırma Fonları, JLU. İnceleme editörüne ve üç isimsiz hakeme, bu protokolün titizliğini ve netliğini önemli ölçüde artırmada etkili olan yapıcı eleştirileri için en içten teşekkürlerimizi sunarız.

Materials

Name	Company	Catalog Number	Comments
Anaconda	Anaconda	version 2020.11	Python programming platform
Computer	N/A	N/A	Any general-purpose computers satisfy the requirement
GPU card	N/A	N/A	Any general-purpose GPU cards with the CUDA computing library
pytorch	Pytorch	version 1.13.1	Software
torch-geometric	Pytorch	version 2.2.0	Software