Biology

Generazione della vista di regolazione trascrizionale delle caratteristiche trascrittomiche per l'attività di predizione e il rilevamento di biomarcatori oscuri su set di dati di piccole dimensioni

Published: March 1, 2024 doi: 10.3791/66030

Kewei Li¹, Yusi Fan¹, Yaqing Liu¹, Hongmei Liu², Gongyou Zhang², Meiyu Duan¹, Lan Huang¹, Fengfeng Zhou¹

¹College of Computer Science and Technology, and Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education, Jilin University, ²School of Biology and Engineering, Guizhou Medical University

Summary

Qui, introduciamo un protocollo per convertire i dati trascrittomici in una vista mqTrans, consentendo l'identificazione di biomarcatori oscuri. Sebbene non siano espressi in modo differenziale nelle analisi trascrittomiche convenzionali, questi biomarcatori mostrano un'espressione differenziale nella vista mqTrans. L'approccio funge da tecnica complementare ai metodi tradizionali, svelando biomarcatori precedentemente trascurati.

Abstract

Il trascrittoma rappresenta i livelli di espressione di molti geni in un campione ed è stato ampiamente utilizzato nella ricerca biologica e nella pratica clinica. I ricercatori di solito si sono concentrati sui biomarcatori trascrittomici con rappresentazioni differenziali tra un gruppo fenotipico e un gruppo di controllo di campioni. Questo studio ha presentato un framework di apprendimento GAT (Graph-Attention Network) multitasking per apprendere le complesse interazioni intergeniche dei campioni di riferimento. Un modello di riferimento dimostrativo è stato pre-addestrato sui campioni sani (HealthModel), che potrebbe essere utilizzato direttamente per generare la vista di regolazione trascrizionale quantitativa basata su modelli (mqTrans) dei trascrittomi di test indipendenti. La vista mqTrans generata dei trascrittomi è stata dimostrata da attività di predizione e rilevamento di biomarcatori oscuri. Il termine coniato "biomarcatore oscuro" deriva dalla sua definizione che un biomarcatore oscuro mostrava una rappresentazione differenziale nella vista mqTrans ma nessuna espressione differenziale nel suo livello di espressione originale. Un biomarcatore oscuro è sempre stato trascurato negli studi tradizionali di rilevamento dei biomarcatori a causa dell'assenza di espressione differenziale. Il codice sorgente e il manuale della pipeline HealthModelPipe possono essere scaricati da http://www.healthinformaticslab.org/supp/resources.php.

Introduction

Il trascrittoma è costituito dall'espressione di tutti i geni in un campione e può essere profilato mediante tecnologie ad alto rendimento come il microarray e l'RNA-seq¹. I livelli di espressione di un gene in un set di dati sono chiamati caratteristica trascrittomica e la rappresentazione differenziale di una caratteristica trascrittomica tra il fenotipo e i gruppi di controllo definisce questo gene come biomarcatore di questo fenotipo ^2,3. I biomarcatori trascrittomici sono stati ampiamente utilizzati nelle indagini sulla diagnosi di malattia⁴, sul meccanismo biologico⁵ e sull'analisi di sopravvivenza ^6,7, ecc.

I modelli di attività genica nei tessuti sani trasportano informazioni cruciali sulla vita ^8,9. Questi modelli offrono informazioni preziose e fungono da riferimento ideali per comprendere le complesse traiettorie di sviluppo dei disturbi benigni ^10,11 e delle malattie letali¹². I geni interagiscono tra loro e i trascrittomi rappresentano i livelli di espressione finale dopo le loro complicate interazioni. Tali modelli sono formulati come rete di regolazione trascrizionale¹³ e rete metabolica¹⁴, ecc. L'espressione degli RNA messaggeri (mRNA) può essere regolata trascrizionalmente da fattori di trascrizione (TF) e lunghi RNA intergenici non codificanti (lincRNAs)15,16,17. L'analisi convenzionale dell'espressione differenziale ha ignorato tali complesse interazioni geniche con l'assunzione di indipendenza inter-caratteristica^18,19.

I recenti progressi nelle reti neurali a grafo (GNN) dimostrano un potenziale straordinario nell'estrazione di informazioni importanti dai dati basati su OMIC per gli studi sul cancro²⁰, ad esempio identificando i moduli di co-espressione²¹. La capacità innata dei GNN li rende ideali per modellare le intricate relazioni e dipendenze tra i geni^22,23.

Gli studi biomedici spesso si concentrano sulla previsione accurata di un fenotipo rispetto al gruppo di controllo. Tali compiti sono comunemente formulati come classificazioni binarie 24,25,26. In questo caso, le due etichette di classe sono in genere codificate come 1 e 0, vero e falso o anche positivo e negativo²⁷.

Questo studio mirava a fornire un protocollo di facile utilizzo per la generazione della vista di regolazione trascrizionale (mqTrans) di un set di dati di trascrittoma basato sul modello di riferimento GAT (graph-attention network) pre-addestrato. Il framework GAT multitasking di un lavoro^{precedentemente pubblicato 26} è stato utilizzato per trasformare le caratteristiche trascrittomiche nelle caratteristiche mqTrans. Un ampio set di dati di trascrittomi sani della piattaforma Xena²⁸ dell'Università della California, Santa Cruz (UCSC) è stato utilizzato per pre-addestrare il modello di riferimento (HealthModel), che ha misurato quantitativamente le regolazioni di trascrizione dai fattori regolatori (TF e lincRNA) agli mRNA bersaglio. La vista mqTrans generata potrebbe essere utilizzata per costruire modelli di previsione e rilevare biomarcatori oscuri. Questo protocollo utilizza il set di dati dei pazienti con adenocarcinoma del colon (COAD) dal database The Cancer Genome Atlas (TCGA)²⁹ come esempio illustrativo. In questo contesto, i pazienti in stadio I o II sono classificati come campioni negativi, mentre quelli in stadio III o IV sono considerati campioni positivi. Vengono inoltre confrontate le distribuzioni dei biomarcatori oscuri e tradizionali nei 26 tipi di cancro TCGA.

Descrizione della pipeline HealthModel
La metodologia impiegata in questo protocollo si basa sul framework²⁶ precedentemente pubblicato, come delineato nella Figura 1. Per iniziare, gli utenti devono preparare il set di dati di input, inserirlo nella pipeline HealthModel proposta e ottenere le funzionalità mqTrans. Le istruzioni dettagliate per la preparazione dei dati sono fornite nella sezione 2 della sezione relativa al protocollo. Successivamente, gli utenti hanno la possibilità di combinare le funzionalità mqTrans con le caratteristiche trascrittomiche originali o di procedere solo con le caratteristiche mqTrans generate. Il set di dati prodotto viene quindi sottoposto a un processo di selezione delle caratteristiche, con gli utenti che hanno la flessibilità di scegliere il valore preferito per k nella convalida incrociata k-fold per la classificazione. La metrica di valutazione principale utilizzata in questo protocollo è l'accuratezza.

HealthModel²⁶ classifica le caratteristiche trascrittomiche in tre gruppi distinti: TF (fattore di trascrizione), lincRNA (RNA non codificante intergenico lungo) e mRNA (RNA messaggero). Le caratteristiche del TF sono definite in base alle annotazioni disponibili nell'Atlante delle Proteine Umane^30,31. Questo lavoro utilizza le annotazioni dei lincRNA dal set di dati GTEx³². I geni appartenenti alle vie di terzo livello nel database KEGG³³ sono considerati come caratteristiche dell'mRNA. Vale la pena notare che se una caratteristica dell'mRNA mostra ruoli regolatori per un gene bersaglio, come documentato nel database TRRUST³⁴, viene riclassificata nella classe TF.

Questo protocollo genera anche manualmente i due file di esempio per gli ID dei geni dei fattori regolatori (regulatory_geneIDs.csv) e dell'mRNA bersaglio (target_geneIDs.csv). La matrice di distanza a coppie tra le caratteristiche regolatorie (TF e lincRNA) è calcolata dai coefficienti di correlazione di Pearson e raggruppata mediante la popolare analisi della rete di co-espressione genica pesata su strumenti (WGCNA)³⁶ (adjacent_matrix.csv). Gli utenti possono utilizzare direttamente la pipeline HealthModel insieme a questi file di configurazione di esempio per generare la vista mqTrans di un set di dati trascrittomico.

Dettagli tecnici di HealthModel
HealthModel rappresenta le intricate relazioni tra TF e lincRNA come un grafo, con le caratteristiche di input che fungono da vertici indicati da V e una matrice di bordi inter-vertice designata come E. Ogni campione è caratterizzato da caratteristiche regolatorie K , simboleggiate da V^K×1. In particolare, il set di dati comprendeva 425 TF e 375 lincRNA, risultando in una dimensionalità del campione di K = 425 + 375 = 800. Per stabilire la matrice dei bordi E, questo lavoro ha utilizzato il popolare strumento WGCNA³⁵. Il peso a coppie che collega due vertici rappresentati come Equation 1 e , è determinato dal coefficiente Equation 2 di correlazione di Pearson. La rete di regolazione genica presenta una topologia scale-free³⁶, caratterizzata dalla presenza di geni hub con ruoli funzionali cardine. Calcoliamo la correlazione tra due caratteristiche o vertici, e , usando la misura di sovrapposizione topologica (TOM) come segue:

Equation 3 (1)

Equation 4 (2)

Il β di soglia soft viene calcolato utilizzando la funzione 'pickSoft Threshold' del pacchetto WGCNA. Viene applicata la funzione esponenziale di potenza a_ij , dove Equation 5 rappresenta un gene escludendo i e j, e Equation 6 rappresenta la connettività dei vertici. WGCNA raggruppa i profili di espressione delle caratteristiche trascrittomiche in più moduli utilizzando una misura di dissimilarità comunemente impiegata ( Equation 7 ³⁷.

Il framework HealthModel è stato originariamente progettato come un'architettura di apprendimento multitasking²⁶. Questo protocollo utilizza solo l'attività di pre-addestramento del modello per la costruzione della vista mqTrans trascrittomica. L'utente può scegliere di perfezionare ulteriormente l'HealthModel pre-addestrato nell'ambito della rete di attenzione del grafico multitask con ulteriori campioni trascrittomici specifici dell'attività.

Dettagli tecnici della selezione e della classificazione delle funzionalità
Il pool di selezione delle funzionalità implementa undici algoritmi di selezione delle funzionalità (FS). Tra questi, tre sono algoritmi FS basati su filtri: la selezione delle migliori caratteristiche K utilizzando il coefficiente di informazione massima (SK_mic), la selezione delle caratteristiche K in base all'FPR della MIC (SK_fpr) e la selezione delle caratteristiche K con il più alto tasso di falsa scoperta della MIC (SK_fdr). Inoltre, tre algoritmi FS basati su alberi valutano le singole funzionalità utilizzando un albero decisionale con l'indice di Gini (DT_gini), gli alberi decisionali potenziati adattivi (AdaBoost) e la foresta casuale (RF_fs). Il pool incorpora anche due metodi wrapper: l'eliminazione ricorsiva delle funzionalità con il classificatore del vettore di supporto lineare (RFE_SVC) e l'eliminazione ricorsiva delle funzionalità con il classificatore di regressione logistica (RFE_LR). Infine, sono inclusi due algoritmi di incorporamento: classificatore SVC lineare con i valori di importanza delle funzionalità L1 (lSVC_L1) più alti e classificatore di regressione logistica con i valori di importanza delle funzionalità L1 (LR_L1).

Il pool di classificatori utilizza sette classificatori diversi per compilare modelli di classificazione. Questi classificatori comprendono la macchina a vettori di supporto lineare (SVC), la naïve Bayes gaussiana (GNB), il classificatore di regressione logistica (LR), il vicino più vicino k, con k impostato su 5 per impostazione predefinita (KNN), XGBoost, foresta casuale (RF) e albero decisionale (DT).

La suddivisione casuale del set di dati nei sottoinsiemi di test train: può essere impostata nella riga di comando. Nell'esempio illustrato viene utilizzato il rapporto train: test = 8: 2.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

NOTA: Il seguente protocollo descrive i dettagli della procedura analitica informatica e dei comandi Python dei moduli principali. La Figura 2 illustra i tre passaggi principali con i comandi di esempio utilizzati in questo protocollo e fa riferimento ai lavori pubblicati in precedenza^26,38 per maggiori dettagli tecnici. Eseguire il seguente protocollo con un normale account utente in un sistema informatico ed evitare di utilizzare l'account amministratore o root. Questo è un protocollo computazionale e non ha fattori di rischio biomedico.

1. Preparare l'ambiente Python

Creare un ambiente virtuale.
1. Questo studio ha utilizzato il linguaggio di programmazione Python e un ambiente virtuale Python (VE) con Python 3.7. Attenersi alla seguente procedura (Figura 3A):
  conda create -n healthmodel python=3.7
  conda create è il comando per creare un nuovo VE. Il parametro -n specifica il nome del nuovo ambiente, in questo caso healthmodel. E python=3.7 specifica la versione di Python da installare. Scegli il nome preferito e la versione di Python che supporta il comando precedente.
2. Dopo aver eseguito il comando, l'output è simile a quello della Figura 3B. Immettere y e attendere il completamento del processo.
Attivare l'ambiente virtuale
1. Nella maggior parte dei casi, attivare il VE creato con il seguente comando (Figura 3C):
  Conda attiva HealthModel
2. Seguire le istruzioni specifiche della piattaforma per l'attivazione di VE, se alcune piattaforme richiedono all'utente di caricare i file di configurazione specifici della piattaforma per l'attivazione.
Installare PyTorch 1.13.1
1. PyTorch è un popolare pacchetto Python per algoritmi di intelligenza artificiale (AI). Usare PyTorch 1.13.1, basato sulla piattaforma di programmazione GPU CUDA 11.7, come esempio. Altre versioni sono disponibili su https://pytorch.org/get-started/previous-versions/. Utilizzare il comando seguente (Figura 3D):
  pip3 installare torcia torcia torchvision torchaudio
  NOTA: Si consiglia vivamente di utilizzare PyTorch versione 1.12 o successiva. In caso contrario, l'installazione del pacchetto richiesto torch_geometric potrebbe essere difficile, come indicato sul sito Web ufficiale torch_geometric: https://pytorch-geometric.readthedocs.io/en/latest/install/installation.html.
Installare pacchetti aggiuntivi per torch-geometric
1. Seguendo le linee guida riportate in https://pytorch-geometric.readthedocs.io/en/latest/install/installation.html, installare i seguenti pacchetti: torch_scatter, torch_sparse, torch_cluster e torch_spline_conv utilizzando il comando (Figura 3E):
  pip install pyg_lib torch_scatter torch_sparse torch_cluster torch_spline_conv -f https://data.pyg.org/whl/torch-1.13.0+cu117.html
Installare il pacchetto torch-geometrico .
1. Questo studio richiede una versione specifica, la 2.2.0, del pacchetto torch-geometrico . Eseguire il comando (Figura 3F):
  pip install torch_geometric==2.2.0
Installare altri pacchetti.
1. Pacchetti come panda sono di solito disponibili per impostazione predefinita. In caso contrario, installarli utilizzando il comando pip. Ad esempio, per installare panda e xgboost, eseguire:
  pip installare panda
  pip install xgboost

2. Utilizzo di HealthModel pre-addestrato per generare le funzionalità mqTrans

Scaricare il codice e il modello pre-addestrato.
1. Scaricare il codice e l'HealthModel pre-addestrato dal sito Web: http://www.healthinformaticslab.org/supp/resources.php, denominato HealthModel-mqTrans-v1-00.tar.gz (Figura 4A). Il file scaricato può essere decompresso in un percorso specificato dall'utente. La formulazione dettagliata e i dati di supporto del protocollo implementato sono disponibili in²⁶.
Introdurre i parametri per eseguire HealthModel.
1. Innanzitutto, modificare la directory di lavoro nella cartella HealthModel-mqTrans nella riga di comando. Utilizzare la sintassi seguente per l'esecuzione del codice:
  Cartella main.py
  Di seguito sono riportati i dettagli relativi a ciascun parametro e alle cartelle di dati, modello e output:
  cartella dei dati: questa è la cartella dei dati di origine e ogni file di dati è in formato csv. Questa cartella di dati contiene due file (vedere le descrizioni dettagliate nei passaggi 2.3 e 2.4). Questi file devono essere sostituiti con dati personali.
  data.csv: Il file della matrice trascrittomica. La prima riga elenca gli ID delle funzionalità (o dei geni) e la prima colonna fornisce gli ID di esempio. L'elenco dei geni include i fattori regolatori (TF e lincRNA) e i geni mRNA regolati.
  label.csv: il file di etichetta di esempio. La prima colonna elenca gli ID di esempio e la colonna con il nome "label" fornisce l'etichetta di esempio.
  cartella del modello: la cartella in cui salvare le informazioni sul modello:
  HealthModel.pth: HealthModel pre-addestrato.
  regulatory_geneIDs.csv: Gli ID dei geni regolatori utilizzati in questo studio.
  target_geneIDs.csv: I geni bersaglio utilizzati in questo studio.
  adjacent_matrix.csv: La matrice adiacente dei geni regolatori.
  cartella di output: i file di output vengono scritti in questa cartella, creata dal codice.
  test_target.csv: Il valore di espressione genica dei geni bersaglio dopo la normalizzazione Z e l'imputazione.
  pred_target.csv: Il valore di espressione genica previsto dei geni bersaglio.
  mq_target.csv: Il valore di espressione genica previsto dei geni bersaglio.
Preparare il file della matrice trascrittomica in formato csv.
1. Ogni riga rappresenta un campione e ogni colonna rappresenta un gene (Figura 4B). Assegnare al file Data Matrix trascrittomico il nome data.csv nella cartella dei dati .
  NOTA: Questo file può essere generato salvando manualmente un data matrix in formato .csv da software come Microsoft Excel. La matrice trascrittomica può anche essere generata dalla programmazione informatica.
Preparare il file dell'etichetta in formato csv.
1. Analogamente al file della matrice trascrittomica, assegnare al file di etichetta il nome label.csv nella cartella dei dati (Figura 4C).
  NOTA: la prima colonna fornisce i nomi dei campioni e l'etichetta della classe di ciascun campione è indicata nella colonna intitolata etichetta. Il valore 0 nella colonna dell'etichetta indica che il campione è negativo, mentre 1 indica un campione positivo.
Generare le feature mqTrans.
1. Eseguire il comando seguente per generare le feature mqTrans e ottenere gli output mostrati nella Figura 4D. Le feature mqTrans vengono generate come file ./output/mq_targets.csv e il file di etichetta viene salvato nuovamente come file ./output/label.csv. Per comodità di ulteriori analisi, i valori di espressione originali dei geni mRNA vengono estratti anche come file ./output/ test_target.csv.
  python ./Get_mqTrans/code/main.py ./data ./Get_mqTrans/model ./output

3. Selezionare Caratteristiche mqTrans

Sintassi del codice di selezione delle funzionalità
1. Innanzitutto, modificare la directory di lavoro nella cartella HealthModel-mqTrans . Utilizzare la seguente sintassi:
  python ./FS_classification/testMain.py
  I dettagli di ogni parametro sono i seguenti:
  in-data-file: il file di dati di input
  in-label-file: l'etichetta del file di dati di input
  cartella di output: in questa cartella vengono salvati due file di output, tra cui Output-score.xlsx (il metodo di selezione delle feature e la precisione del classificatore corrispondente) e Output-SelectedFeatures.xlsx (i nomi delle feature selezionate per ogni algoritmo di selezione delle feature).
  1. select_feature_number: selezionare il numero di elementi, compreso tra 1 e il numero di elementi del file di dati.
  2. test_size: Impostare il rapporto del campione di prova da dividere. Ad esempio, 0,2 significa che il set di dati di input viene suddiviso in modo casuale nei sottoinsiemi di test train: in base al rapporto 0,8:0,2.
  3. combine: se true, combina due file di dati per la selezione delle feature, ovvero i valori dell'espressione originale e le feature mqTrans. Se false, è sufficiente utilizzare un file di dati per la selezione delle feature, ovvero i valori dell'espressione originale o le feature mqTrans.
  4. combine file: se combine è true, specificare il nome del file per salvare la matrice di dati combinata.
    NOTA: Questa pipeline ha lo scopo di dimostrare come le funzionalità mqTrans generate si comportano nelle attività di classificazione e utilizza direttamente il file generato dalla sezione 2 per le seguenti operazioni.
Eseguire l'algoritmo di selezione delle caratteristiche per la selezione delle funzionalità mqTrans.
1. Turn combine =False se l'utente seleziona le feature mqTrans o le feature originali.
2. Innanzitutto, seleziona 800 funzionalità originali e suddividi il set di dati in train: test=0.8:0.2:
  python ./FS_classification/testMain.py ./output/test_target.csv ./output/label.csv ./result 800 0.2 False
3. Turn combine =True, se l'utente desidera combinare le feature mqTrans con i valori dell'espressione originale per selezionare le feature. In questo caso, l'esempio dimostrativo consiste nel selezionare 800 funzionalità e suddividere il set di dati in training: test=0.8:0.2:
  python ./FS_classification/testMain.py ./output/mq_targets.csv ./output/label.csv ./result_combine 800 0.2 True ./output/test_target.csv
  NOTA: La Figura 5 mostra le informazioni sull'output. I file supplementari necessari per questo protocollo si trovano in HealthModel-mqTrans-v1-00.tar cartella (Supplementary Coding File 1).

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Valutazione della vista mqTrans del dataset trascrittomico
Il codice di test utilizza undici algoritmi di selezione delle caratteristiche (FS) e sette classificatori per valutare in che modo la vista mqTrans generata del set di dati trascrittomico contribuisce all'attività di classificazione (Figura 6). Il set di dati del test è costituito da 317 adenocarcinoma del colon (COAD) dal database The Cancer Genome Atlas (TCGA)²⁹. I pazienti COAD in stadio I o II sono considerati come i campioni negativi, mentre quelli in stadio III o IV sono quelli positivi.

Undici algoritmi FS sono implementati nel codice di test. Esistono tre algoritmi FS basati su filtri, tra cui, selezionare le migliori caratteristiche K in base al MIC (SK_mic), selezionare le caratteristiche K in base all'FPR del MIC (SK_fpr) e selezionare le caratteristiche K in base al più alto FDR del MIC (SK_fpr). Tre algoritmi FS basati su alberi valutano le singole caratteristiche in base a un albero decisionale con indice di Gini (DT_gini), rispettivamente gli alberi decisionali potenziati adattivi (AdaBoost) e la foresta casuale (RF_fs). Il pool FS del codice di test valuta anche due wrapper: l'eliminazione ricorsiva delle funzionalità (RFE) con il classificatore del vettore di supporto lineare (SVC)(RFE_SVC) e RFE con il classificatore di regressione logistica (RFE_LR) e due algoritmi di incorporamento, il classificatore SVC lineare con i valori di importanza delle funzionalità L1 (lSVC_L1) più in alto e il classificatore di regressione logistica con i valori di importanza delle funzionalità L1 (LR_L1) in cima alla classificazione.

Il codice di test compila i modelli di classificazione utilizzando sette classificatori, tra cui SVC (Linear Support Vector Machine), GNB (Gaussian Naïve Bayes), classificatore di regressione logistica (LR), k-nearest neighbor, k-5 per impostazione predefinita (KNN), XGBoost, foresta casuale (RF) e albero decisionale (DT).

La Figura 6 mostra l'accuratezza massima del test delle caratteristiche mqTrans, delle caratteristiche mRNA originali e del sottoinsieme combinato delle caratteristiche mRNA e mqTrans consigliate da ciascun algoritmo FS.

I sottoinsiemi di caratteristiche combinate (mRNA+mqTrans) hanno raggiunto la massima accuratezza di 0,7656 sul metodo FS "SK_fpr", migliore dei singoli tipi di caratteristiche mqTrans (0,7188) e mRNA originale (0,7188). Modelli simili possono essere osservati per gli altri algoritmi FS. L'utente può controllare le funzionalità selezionate nel file di output Output-SelectedFeatures.csv.

Rilevamento dei biomarcatori oscuri
Studi precedenti hanno dimostrato l'esistenza di geni espressi in modo indifferenziato con valori di mqTrans rappresentati in modo significativamente differenziato tra il gruppo fenotipico e il gruppo di controllo 26,38,39. Questi geni sono chiamati biomarcatori oscuri perché gli studi tradizionali di rilevamento dei biomarcatori li ignorano per le loro espressioni indifferenziali. La funzione di analisi statistica t.test in Microsoft Excel può essere utilizzata per definire una funzione espressa in modo differenziale se il suo valore p statistico è inferiore a 0,05.

Tra le 3062 caratteristiche con i valori mqTrans generati, sono stati rilevati 221 biomarcatori oscuri (Figura 7). Il terzo gene classificato ENSG00000163697 (APBB2, Amyloid Beta Precursor Protein Binding Family B Member 2) mostra valori di mqTrans rappresentati in modo significativamente differenziato (mqTrans.P = 2,03 x ^10-4) mentre il suo livello di espressione originale non mostra alcuna espressione differenziale (mRNA.P = 3,80 x ^10-1). La parola chiave APBB2 ha raggiunto 27 pubblicazioni nel database PubMed⁴⁰, ma non sono state rilevate connessioni con il colon o l'intestino.

Un altro gene ENSG00000048052 (HDAC9, istone deacetilasi 9) ha i valori di mqTrans rappresentati in modo differenziato (mqTrans.P = 6.09 x ^10-3) pur mantenendo praticamente le stesse distribuzioni normali tra il gruppo fenotipico e quello di controllo (mRNA.P = 9.62 x ^10-1). La parola chiave HDAC9 ha raggiunto 417 pubblicazioni nel database PubMed. Tre studi hanno anche menzionato le parole chiave "colon" o "intestino" negli abstract 41,42,43. Ma nessuno di loro ha studiato il ruolo di HDAC9 nel cancro del colon.

I dati hanno suggerito la necessità di ulteriori valutazioni di questi biomarcatori oscuri dalle loro attività post-trascrizione, ad esempio, i livelli di proteina tradotta^44,45.

Distribuzioni pan-tumorali dei biomarcatori oscuri e tradizionali correlati al metabolismo
I biomarcatori tradizionali correlati al metabolismo sono stati sottoposti a screening e confrontati con i biomarcatori scuri in 26 tipi di cancro nel set di dati TCGA³⁸. Entrambe le categorie di biomarcatori sono state sottoposte a valutazione statistica per discernere i livelli di significatività negli stadi tumorali precoci (Stadio I e II) e tardivi (Stadi III e IV). Questa valutazione ha utilizzato i test t di Student per i valori p, successivamente corretti per test multipli utilizzando tassi di falsa scoperta (FDR). I dati dettagliati per ciascuno dei 26 tipi di cancro sono forniti nella Figura 8.

I geni che producono valori p corretti per FDR inferiori a 0,05 sono stati classificati come biomarcatori tradizionali. Al contrario, i biomarcatori scuri sono stati definiti come quelli con valori p corretti per FDR inferiori a 0,05 nella vista mqTrans, mentre contemporaneamente non mostravano differenze statisticamente significative nei livelli di espressione.

La Figura 9 rivela una generale scarsità di biomarcatori oscuri rispetto ai biomarcatori tradizionali nella maggior parte dei tipi di cancro. Eccezioni degne di nota includono BRCA, MESO e TGCT, che manifestano una maggiore prevalenza di biomarcatori oscuri. È stato rivelato che vari fattori, tra cui fattori di trascrizione, modelli di metilazione, mutazioni genetiche e condizioni ambientali, potrebbero modulare la disregolazione trascrizionale di questi biomarcatori oscuri. Un'ulteriore complessità può derivare dalla sovrapposizione di trascritti di RNA non codificanti che potrebbero confondere i livelli di espressione dei biomarcatori oscuri. Le disregolazioni della trascrizione di alcuni biomarcatori oscuri sono state supportate dai loro livelli differenziali di proteine^44,45. I biomarcatori oscuri sono spesso trascurati negli studi tradizionali e presentano strade intriganti per future indagini meccanicistiche.

Figura 1: Panoramica di HealthModel e dei moduli di selezione delle funzionalità in questo protocollo. Sostituire gli algoritmi specifici nel pool di selezione delle funzionalità e nel pool di classificatori se l'utente ha familiarità con la programmazione Python. Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 2: Flusso di codice completo per questo protocollo. (A) Preparare l'ambiente Python. Per iniziare, crea un ambiente virtuale e installa i pacchetti essenziali. Per istruzioni complete, fare riferimento alla Sezione 1. (b) Generare le caratteristiche mqTrans. Ottenere le funzionalità di mqTrans eseguendo passo dopo passo il codice fornito. Spiegazioni dettagliate sono disponibili nella Sezione 2. (C) Selezionare mqTrans Features. Questa sezione si concentra sulla valutazione delle funzionalità di mqTrans. Fare riferimento alla Sezione 3 per dettagli approfonditi. Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 3: Preparare l'ambiente per Python. (A) Il comando per creare healthmodel. (B) Immettere y durante il processo di creazione di VE. (C) Il comando più comune per l'attivazione del VE. (D) Il comando per l'installazione della torcia 1.13.1. (E) Installare librerie aggiuntive per il pacchetto torch-geometrico . (F) Installare il pacchetto torch-geometrico . Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 4: Eseguire HealthModel per ottenere la funzionalità mqTrans. (A) Scaricare il codice. (B) L'esempio del file di dati. Ogni colonna contiene tutti i valori di un fattore regolatorio e il primo elemento è l'ID del gene. Ogni riga fornisce i valori di un determinato campione, con il primo elemento che è il nome del campione. (C) L'esempio di un file di etichette. La prima colonna fornisce i nomi dei campioni e l'etichetta di classe di ogni esempio è indicata nella colonna intitolata label. Il valore 0 nella colonna dell'etichetta indica che il campione è attivo, mentre 1 indica che è morto. (D) le uscite di mqTrans. Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 5: Eseguire l'algoritmo di selezione delle caratteristiche per la funzione mqTrans. I risultati dell'algoritmo di selezione delle funzionalità vengono mostrati all'utente. Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 6: Accuratezza massima del set di test di ciascun algoritmo di selezione delle funzionalità. L'asse orizzontale elenca gli algoritmi di selezione delle feature e l'asse verticale fornisce i valori di accuratezza. Gli istogrammi mostrano i dati sperimentali delle tre impostazioni, ovvero mqTrans, mRNA, mRNA+mqTrans. Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 7: I primi 50 biomarcatori oscuri con i valori p più piccoli nella vista mqTrans. La colonna "Biomarcatore oscuro" fornisce i nomi dei biomarcatori scuri. Le colonne "mRNA.P" e "mqTrans.P" sono i valori p statistici del t-test tra il gruppo fenotipico e quello di controllo. I colori di sfondo dei valori p sono compresi tra i valori p 1,00 (blu) e 0,00 (rosso) e il colore bianco rappresenta il valore p = 0,05. Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 8: I dettagli dei 26 tumori nell'Atlante del Genoma del Cancro (TCGA) in diversi stadi. Le colonne "Coorte" e "Tessuto della malattia" descrivono il gruppo di pazienti e i tessuti con malattia per ciascun set di dati. Le ultime quattro colonne forniscono rispettivamente il numero di campioni negli stadi di sviluppo I, II, III e IV. Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 9: Il numero di biomarcatori oscuri e biomarcatori tradizionali in 26 tumori. L'asse orizzontale elenca i 26 tipi di cancro. L'asse verticale fornisce i numeri dei biomarcatori oscuri e dei biomarcatori tradizionali per questi tipi di cancro. Fare clic qui per visualizzare una versione più grande di questa figura.

File di codifica supplementare 1: HealthModel-mqTrans-v1-00.tar Fare clic qui per scaricare questo file.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

La sezione 2 (Utilizzo di HealthModel pre-addestrato per generare le funzionalità mqTrans) del protocollo è il passaggio più critico all'interno di questo protocollo. Dopo aver preparato l'ambiente di lavoro computazionale nella sezione 1, la sezione 2 genera la vista mqTrans di un set di dati trascrittomico basato sul modello di riferimento di grandi dimensioni pre-addestrato. La sezione 3 è un esempio dimostrativo di selezione delle caratteristiche mqTrans generate per i rilevamenti di biomarcatori e le attività di previsione. Gli utenti possono condurre altre analisi trascrittomiche su questo set di dati mqTrans utilizzando i propri strumenti o codici.

Il framework HealthModel originale può perfezionare ulteriormente l'HealthModel pre-addestrato usando l'architettura multitasking, come descritto in²⁶. Questo protocollo si concentra sull'utilizzo del modello di riferimento pre-addestrato per generare la vista mqTrans di un set di dati trascrittomici.

Il modello di riferimento pre-addestrato predefinito è stato stabilito sui campioni sani e potrebbe non essere una buona scelta per alcuni compiti specifici, ad esempio l'indagine tra il cancro primario e quello metastatico. Anche la velocità computazionale è lenta per un set di dati trascrittomico di grandi dimensioni.

L'importanza di questo protocollo è quella di fornire una vista mqTrans complementare del tipo di dati OMIC più abbondantemente disponibile, ovvero il trascrittoma. I biomarcatori oscuri possono essere rivelati dai geni espressi in modo indifferenziato ignorati dall'analisi trascrittomica convenzionale. Uno studio recente ha rilevato sette biomarcatori oscuri del cancro del colon metastatico (mCC) sulla base di tre coorti indipendenti di 805 campioni in totale,⁴⁴. I biomarcatori oscuri hanno ricevuto indagini limitate in laboratorio a causa delle loro espressioni indifferenziate. Tuttavia, uno dei biomarcatori oscuri mCC rilevati YTHDC2 codifica per il dominio YTH della proteina contenente 2, i cui livelli proteici sono stati osservati essere positivamente correlati con lo stato di metastasi delle cellule di cancro gastrico umano⁴⁶ e dei tumori del colon⁴⁷. Nuove intuizioni biologiche sui biomarcatori oscuri devono ancora essere risolte attraverso tecnologie in vitro e in vivo.

Questo protocollo è progettato per essere completamente modulare. Modelli di riferimento pre-addestrati su altri set di dati di grandi dimensioni, come i tumori primari, faciliteranno l'indagine delle metastasi tumorali. Questo protocollo sarà esplorato anche per applicazioni in altri domini della vita, tra cui piante, funghi e microbi.

L'efficienza computazionale di questo protocollo è progettata per essere migliorata attraverso la parallelizzazione e l'ottimizzazione algoritmica.

Questo protocollo descrive la procedura per trasformare un set di dati trascrittomici in una nuova vista mqTrans e i valori mqTrans trasformati di un gene misurano quantitativamente i cambiamenti della regolazione della trascrizione rispetto ai campioni di riferimento. Un modello predefinito è stato pre-addestrato sui trascrittomi sani e rilasciato come HealthModel di riferimento.

Il codice sorgente di due attività a valle viene fornito per facilitare il facile utilizzo di questo protocollo da parte dei ricercatori biomedici. I dati sperimentali mostrano che le funzionalità mqTrans trasformate potrebbero migliorare le attività di previsione utilizzando solo i livelli di espressione originali. La vista mqTrans può anche svelare le connessioni fenotipiche latenti di alcuni biomarcatori oscuri senza espressioni differenziali nei dati trascrittomici originali.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Gli autori non hanno nulla da rivelare.

Acknowledgments

Questo lavoro è stato supportato dal team di innovazione tecnologica senior e junior (20210509055RQ), dai progetti scientifici e tecnologici della provincia di Guizhou (ZK2023-297), dalla Fondazione per la scienza e la tecnologia della Commissione sanitaria della provincia di Guizhou (gzwkj2023-565), dal progetto di scienza e tecnologia del Dipartimento dell'istruzione della provincia di Jilin (JJKH20220245KJ e JJKH20220226SK), dalla National Natural Science Foundation of China (U19A2061), dal Jilin Provincial Key Laboratory of Big Data Intelligent Computing (20180622002JC) e i Fondi di Ricerca di Base per le Università Centrali, JLU. Estendiamo il nostro più sincero apprezzamento al revisore e ai tre revisori anonimi per le loro critiche costruttive, che sono state determinanti nel migliorare sostanzialmente il rigore e la chiarezza di questo protocollo.

Materials

Name	Company	Catalog Number	Comments
Anaconda	Anaconda	version 2020.11	Python programming platform
Computer	N/A	N/A	Any general-purpose computers satisfy the requirement
GPU card	N/A	N/A	Any general-purpose GPU cards with the CUDA computing library
pytorch	Pytorch	version 1.13.1	Software
torch-geometric	Pytorch	version 2.2.0	Software