Waiting
Procesando inicio de sesión ...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

Generazione della vista di regolazione trascrizionale delle caratteristiche trascrittomiche per l'attività di predizione e il rilevamento di biomarcatori oscuri su set di dati di piccole dimensioni

Published: March 1, 2024 doi: 10.3791/66030

Summary

Qui, introduciamo un protocollo per convertire i dati trascrittomici in una vista mqTrans, consentendo l'identificazione di biomarcatori oscuri. Sebbene non siano espressi in modo differenziale nelle analisi trascrittomiche convenzionali, questi biomarcatori mostrano un'espressione differenziale nella vista mqTrans. L'approccio funge da tecnica complementare ai metodi tradizionali, svelando biomarcatori precedentemente trascurati.

Abstract

Il trascrittoma rappresenta i livelli di espressione di molti geni in un campione ed è stato ampiamente utilizzato nella ricerca biologica e nella pratica clinica. I ricercatori di solito si sono concentrati sui biomarcatori trascrittomici con rappresentazioni differenziali tra un gruppo fenotipico e un gruppo di controllo di campioni. Questo studio ha presentato un framework di apprendimento GAT (Graph-Attention Network) multitasking per apprendere le complesse interazioni intergeniche dei campioni di riferimento. Un modello di riferimento dimostrativo è stato pre-addestrato sui campioni sani (HealthModel), che potrebbe essere utilizzato direttamente per generare la vista di regolazione trascrizionale quantitativa basata su modelli (mqTrans) dei trascrittomi di test indipendenti. La vista mqTrans generata dei trascrittomi è stata dimostrata da attività di predizione e rilevamento di biomarcatori oscuri. Il termine coniato "biomarcatore oscuro" deriva dalla sua definizione che un biomarcatore oscuro mostrava una rappresentazione differenziale nella vista mqTrans ma nessuna espressione differenziale nel suo livello di espressione originale. Un biomarcatore oscuro è sempre stato trascurato negli studi tradizionali di rilevamento dei biomarcatori a causa dell'assenza di espressione differenziale. Il codice sorgente e il manuale della pipeline HealthModelPipe possono essere scaricati da http://www.healthinformaticslab.org/supp/resources.php.

Introduction

Il trascrittoma è costituito dall'espressione di tutti i geni in un campione e può essere profilato mediante tecnologie ad alto rendimento come il microarray e l'RNA-seq1. I livelli di espressione di un gene in un set di dati sono chiamati caratteristica trascrittomica e la rappresentazione differenziale di una caratteristica trascrittomica tra il fenotipo e i gruppi di controllo definisce questo gene come biomarcatore di questo fenotipo 2,3. I biomarcatori trascrittomici sono stati ampiamente utilizzati nelle indagini sulla diagnosi di malattia4, sul meccanismo biologico5 e sull'analisi di sopravvivenza 6,7, ecc.

I modelli di attività genica nei tessuti sani trasportano informazioni cruciali sulla vita 8,9. Questi modelli offrono informazioni preziose e fungono da riferimento ideali per comprendere le complesse traiettorie di sviluppo dei disturbi benigni 10,11 e delle malattie letali12. I geni interagiscono tra loro e i trascrittomi rappresentano i livelli di espressione finale dopo le loro complicate interazioni. Tali modelli sono formulati come rete di regolazione trascrizionale13 e rete metabolica14, ecc. L'espressione degli RNA messaggeri (mRNA) può essere regolata trascrizionalmente da fattori di trascrizione (TF) e lunghi RNA intergenici non codificanti (lincRNAs)15,16,17. L'analisi convenzionale dell'espressione differenziale ha ignorato tali complesse interazioni geniche con l'assunzione di indipendenza inter-caratteristica18,19.

I recenti progressi nelle reti neurali a grafo (GNN) dimostrano un potenziale straordinario nell'estrazione di informazioni importanti dai dati basati su OMIC per gli studi sul cancro20, ad esempio identificando i moduli di co-espressione21. La capacità innata dei GNN li rende ideali per modellare le intricate relazioni e dipendenze tra i geni22,23.

Gli studi biomedici spesso si concentrano sulla previsione accurata di un fenotipo rispetto al gruppo di controllo. Tali compiti sono comunemente formulati come classificazioni binarie 24,25,26. In questo caso, le due etichette di classe sono in genere codificate come 1 e 0, vero e falso o anche positivo e negativo27.

Questo studio mirava a fornire un protocollo di facile utilizzo per la generazione della vista di regolazione trascrizionale (mqTrans) di un set di dati di trascrittoma basato sul modello di riferimento GAT (graph-attention network) pre-addestrato. Il framework GAT multitasking di un lavoroprecedentemente pubblicato 26 è stato utilizzato per trasformare le caratteristiche trascrittomiche nelle caratteristiche mqTrans. Un ampio set di dati di trascrittomi sani della piattaforma Xena28 dell'Università della California, Santa Cruz (UCSC) è stato utilizzato per pre-addestrare il modello di riferimento (HealthModel), che ha misurato quantitativamente le regolazioni di trascrizione dai fattori regolatori (TF e lincRNA) agli mRNA bersaglio. La vista mqTrans generata potrebbe essere utilizzata per costruire modelli di previsione e rilevare biomarcatori oscuri. Questo protocollo utilizza il set di dati dei pazienti con adenocarcinoma del colon (COAD) dal database The Cancer Genome Atlas (TCGA)29 come esempio illustrativo. In questo contesto, i pazienti in stadio I o II sono classificati come campioni negativi, mentre quelli in stadio III o IV sono considerati campioni positivi. Vengono inoltre confrontate le distribuzioni dei biomarcatori oscuri e tradizionali nei 26 tipi di cancro TCGA.

Descrizione della pipeline HealthModel
La metodologia impiegata in questo protocollo si basa sul framework26 precedentemente pubblicato, come delineato nella Figura 1. Per iniziare, gli utenti devono preparare il set di dati di input, inserirlo nella pipeline HealthModel proposta e ottenere le funzionalità mqTrans. Le istruzioni dettagliate per la preparazione dei dati sono fornite nella sezione 2 della sezione relativa al protocollo. Successivamente, gli utenti hanno la possibilità di combinare le funzionalità mqTrans con le caratteristiche trascrittomiche originali o di procedere solo con le caratteristiche mqTrans generate. Il set di dati prodotto viene quindi sottoposto a un processo di selezione delle caratteristiche, con gli utenti che hanno la flessibilità di scegliere il valore preferito per k nella convalida incrociata k-fold per la classificazione. La metrica di valutazione principale utilizzata in questo protocollo è l'accuratezza.

HealthModel26 classifica le caratteristiche trascrittomiche in tre gruppi distinti: TF (fattore di trascrizione), lincRNA (RNA non codificante intergenico lungo) e mRNA (RNA messaggero). Le caratteristiche del TF sono definite in base alle annotazioni disponibili nell'Atlante delle Proteine Umane30,31. Questo lavoro utilizza le annotazioni dei lincRNA dal set di dati GTEx32. I geni appartenenti alle vie di terzo livello nel database KEGG33 sono considerati come caratteristiche dell'mRNA. Vale la pena notare che se una caratteristica dell'mRNA mostra ruoli regolatori per un gene bersaglio, come documentato nel database TRRUST34, viene riclassificata nella classe TF.

Questo protocollo genera anche manualmente i due file di esempio per gli ID dei geni dei fattori regolatori (regulatory_geneIDs.csv) e dell'mRNA bersaglio (target_geneIDs.csv). La matrice di distanza a coppie tra le caratteristiche regolatorie (TF e lincRNA) è calcolata dai coefficienti di correlazione di Pearson e raggruppata mediante la popolare analisi della rete di co-espressione genica pesata su strumenti (WGCNA)36 (adjacent_matrix.csv). Gli utenti possono utilizzare direttamente la pipeline HealthModel insieme a questi file di configurazione di esempio per generare la vista mqTrans di un set di dati trascrittomico.

Dettagli tecnici di HealthModel
HealthModel rappresenta le intricate relazioni tra TF e lincRNA come un grafo, con le caratteristiche di input che fungono da vertici indicati da V e una matrice di bordi inter-vertice designata come E. Ogni campione è caratterizzato da caratteristiche regolatorie K , simboleggiate da VK×1. In particolare, il set di dati comprendeva 425 TF e 375 lincRNA, risultando in una dimensionalità del campione di K = 425 + 375 = 800. Per stabilire la matrice dei bordi E, questo lavoro ha utilizzato il popolare strumento WGCNA35. Il peso a coppie che collega due vertici rappresentati come Equation 1 e , è determinato dal coefficiente Equation 2di correlazione di Pearson. La rete di regolazione genica presenta una topologia scale-free36, caratterizzata dalla presenza di geni hub con ruoli funzionali cardine. Calcoliamo la correlazione tra due caratteristiche o vertici, Equation 1 e Equation 2, usando la misura di sovrapposizione topologica (TOM) come segue:

Equation 3(1)

Equation 4(2)

Il β di soglia soft viene calcolato utilizzando la funzione 'pickSoft Threshold' del pacchetto WGCNA. Viene applicata la funzione esponenziale di potenza aij , dove Equation 5 rappresenta un gene escludendo i e j, e Equation 6 rappresenta la connettività dei vertici. WGCNA raggruppa i profili di espressione delle caratteristiche trascrittomiche in più moduli utilizzando una misura di dissimilarità comunemente impiegata (Equation 737.

Il framework HealthModel è stato originariamente progettato come un'architettura di apprendimento multitasking26. Questo protocollo utilizza solo l'attività di pre-addestramento del modello per la costruzione della vista mqTrans trascrittomica. L'utente può scegliere di perfezionare ulteriormente l'HealthModel pre-addestrato nell'ambito della rete di attenzione del grafico multitask con ulteriori campioni trascrittomici specifici dell'attività.

Dettagli tecnici della selezione e della classificazione delle funzionalità
Il pool di selezione delle funzionalità implementa undici algoritmi di selezione delle funzionalità (FS). Tra questi, tre sono algoritmi FS basati su filtri: la selezione delle migliori caratteristiche K utilizzando il coefficiente di informazione massima (SK_mic), la selezione delle caratteristiche K in base all'FPR della MIC (SK_fpr) e la selezione delle caratteristiche K con il più alto tasso di falsa scoperta della MIC (SK_fdr). Inoltre, tre algoritmi FS basati su alberi valutano le singole funzionalità utilizzando un albero decisionale con l'indice di Gini (DT_gini), gli alberi decisionali potenziati adattivi (AdaBoost) e la foresta casuale (RF_fs). Il pool incorpora anche due metodi wrapper: l'eliminazione ricorsiva delle funzionalità con il classificatore del vettore di supporto lineare (RFE_SVC) e l'eliminazione ricorsiva delle funzionalità con il classificatore di regressione logistica (RFE_LR). Infine, sono inclusi due algoritmi di incorporamento: classificatore SVC lineare con i valori di importanza delle funzionalità L1 (lSVC_L1) più alti e classificatore di regressione logistica con i valori di importanza delle funzionalità L1 (LR_L1).

Il pool di classificatori utilizza sette classificatori diversi per compilare modelli di classificazione. Questi classificatori comprendono la macchina a vettori di supporto lineare (SVC), la naïve Bayes gaussiana (GNB), il classificatore di regressione logistica (LR), il vicino più vicino k, con k impostato su 5 per impostazione predefinita (KNN), XGBoost, foresta casuale (RF) e albero decisionale (DT).

La suddivisione casuale del set di dati nei sottoinsiemi di test train: può essere impostata nella riga di comando. Nell'esempio illustrato viene utilizzato il rapporto train: test = 8: 2.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

NOTA: Il seguente protocollo descrive i dettagli della procedura analitica informatica e dei comandi Python dei moduli principali. La Figura 2 illustra i tre passaggi principali con i comandi di esempio utilizzati in questo protocollo e fa riferimento ai lavori pubblicati in precedenza26,38 per maggiori dettagli tecnici. Eseguire il seguente protocollo con un normale account utente in un sistema informatico ed evitare di utilizzare l'account amministratore o root. Questo è un protocollo computazionale e non ha fattori di rischio biomedico.

1. Preparare l'ambiente Python

  1. Creare un ambiente virtuale.
    1. Questo studio ha utilizzato il linguaggio di programmazione Python e un ambiente virtuale Python (VE) con Python 3.7. Attenersi alla seguente procedura (Figura 3A):
      conda create -n healthmodel python=3.7
      conda create
      è il comando per creare un nuovo VE. Il parametro -n specifica il nome del nuovo ambiente, in questo caso healthmodel. E python=3.7 specifica la versione di Python da installare. Scegli il nome preferito e la versione di Python che supporta il comando precedente.
    2. Dopo aver eseguito il comando, l'output è simile a quello della Figura 3B. Immettere y e attendere il completamento del processo.
  2. Attivare l'ambiente virtuale
    1. Nella maggior parte dei casi, attivare il VE creato con il seguente comando (Figura 3C):
      Conda attiva HealthModel
    2. Seguire le istruzioni specifiche della piattaforma per l'attivazione di VE, se alcune piattaforme richiedono all'utente di caricare i file di configurazione specifici della piattaforma per l'attivazione.
  3. Installare PyTorch 1.13.1
    1. PyTorch è un popolare pacchetto Python per algoritmi di intelligenza artificiale (AI). Usare PyTorch 1.13.1, basato sulla piattaforma di programmazione GPU CUDA 11.7, come esempio. Altre versioni sono disponibili su https://pytorch.org/get-started/previous-versions/. Utilizzare il comando seguente (Figura 3D):
      pip3 installare torcia torcia torchvision torchaudio
      NOTA: Si consiglia vivamente di utilizzare PyTorch versione 1.12 o successiva. In caso contrario, l'installazione del pacchetto richiesto torch_geometric potrebbe essere difficile, come indicato sul sito Web ufficiale torch_geometric: https://pytorch-geometric.readthedocs.io/en/latest/install/installation.html.
  4. Installare pacchetti aggiuntivi per torch-geometric
    1. Seguendo le linee guida riportate in https://pytorch-geometric.readthedocs.io/en/latest/install/installation.html, installare i seguenti pacchetti: torch_scatter, torch_sparse, torch_cluster e torch_spline_conv utilizzando il comando (Figura 3E):
      pip install pyg_lib torch_scatter torch_sparse torch_cluster torch_spline_conv -f https://data.pyg.org/whl/torch-1.13.0+cu117.html
  5. Installare il pacchetto torch-geometrico .
    1. Questo studio richiede una versione specifica, la 2.2.0, del pacchetto torch-geometrico . Eseguire il comando (Figura 3F):
      pip install torch_geometric==2.2.0
  6. Installare altri pacchetti.
    1. Pacchetti come panda sono di solito disponibili per impostazione predefinita. In caso contrario, installarli utilizzando il comando pip. Ad esempio, per installare panda e xgboost, eseguire:
      pip installare panda
      pip install xgboost

2. Utilizzo di HealthModel pre-addestrato per generare le funzionalità mqTrans

  1. Scaricare il codice e il modello pre-addestrato.
    1. Scaricare il codice e l'HealthModel pre-addestrato dal sito Web: http://www.healthinformaticslab.org/supp/resources.php, denominato HealthModel-mqTrans-v1-00.tar.gz (Figura 4A). Il file scaricato può essere decompresso in un percorso specificato dall'utente. La formulazione dettagliata e i dati di supporto del protocollo implementato sono disponibili in26.
  2. Introdurre i parametri per eseguire HealthModel.
    1. Innanzitutto, modificare la directory di lavoro nella cartella HealthModel-mqTrans nella riga di comando. Utilizzare la sintassi seguente per l'esecuzione del codice:
      Cartella main.py
      Di seguito sono riportati i dettagli relativi a ciascun parametro e alle cartelle di dati, modello e output:
      cartella dei dati: questa è la cartella dei dati di origine e ogni file di dati è in formato csv. Questa cartella di dati contiene due file (vedere le descrizioni dettagliate nei passaggi 2.3 e 2.4). Questi file devono essere sostituiti con dati personali.
      data.csv: Il file della matrice trascrittomica. La prima riga elenca gli ID delle funzionalità (o dei geni) e la prima colonna fornisce gli ID di esempio. L'elenco dei geni include i fattori regolatori (TF e lincRNA) e i geni mRNA regolati.
      label.csv: il file di etichetta di esempio. La prima colonna elenca gli ID di esempio e la colonna con il nome "label" fornisce l'etichetta di esempio.
      cartella del modello: la cartella in cui salvare le informazioni sul modello:
      HealthModel.pth: HealthModel pre-addestrato.
      regulatory_geneIDs.csv: Gli ID dei geni regolatori utilizzati in questo studio.
      target_geneIDs.csv: I geni bersaglio utilizzati in questo studio.
      adjacent_matrix.csv: La matrice adiacente dei geni regolatori.
      cartella di output: i file di output vengono scritti in questa cartella, creata dal codice.
      test_target.csv: Il valore di espressione genica dei geni bersaglio dopo la normalizzazione Z e l'imputazione.
      pred_target.csv: Il valore di espressione genica previsto dei geni bersaglio.
      mq_target.csv: Il valore di espressione genica previsto dei geni bersaglio.
  3. Preparare il file della matrice trascrittomica in formato csv.
    1. Ogni riga rappresenta un campione e ogni colonna rappresenta un gene (Figura 4B). Assegnare al file Data Matrix trascrittomico il nome data.csv nella cartella dei dati .
      NOTA: Questo file può essere generato salvando manualmente un data matrix in formato .csv da software come Microsoft Excel. La matrice trascrittomica può anche essere generata dalla programmazione informatica.
  4. Preparare il file dell'etichetta in formato csv.
    1. Analogamente al file della matrice trascrittomica, assegnare al file di etichetta il nome label.csv nella cartella dei dati (Figura 4C).
      NOTA: la prima colonna fornisce i nomi dei campioni e l'etichetta della classe di ciascun campione è indicata nella colonna intitolata etichetta. Il valore 0 nella colonna dell'etichetta indica che il campione è negativo, mentre 1 indica un campione positivo.
  5. Generare le feature mqTrans.
    1. Eseguire il comando seguente per generare le feature mqTrans e ottenere gli output mostrati nella Figura 4D. Le feature mqTrans vengono generate come file ./output/mq_targets.csv e il file di etichetta viene salvato nuovamente come file ./output/label.csv. Per comodità di ulteriori analisi, i valori di espressione originali dei geni mRNA vengono estratti anche come file ./output/ test_target.csv.
      python ./Get_mqTrans/code/main.py ./data ./Get_mqTrans/model ./output

3. Selezionare Caratteristiche mqTrans

  1. Sintassi del codice di selezione delle funzionalità
    1. Innanzitutto, modificare la directory di lavoro nella cartella HealthModel-mqTrans . Utilizzare la seguente sintassi:
      python ./FS_classification/testMain.py
      I dettagli di ogni parametro sono i seguenti:
      in-data-file: il file di dati di input
      in-label-file: l'etichetta del file di dati di input
      cartella di output: in questa cartella vengono salvati due file di output, tra cui Output-score.xlsx (il metodo di selezione delle feature e la precisione del classificatore corrispondente) e Output-SelectedFeatures.xlsx (i nomi delle feature selezionate per ogni algoritmo di selezione delle feature).
      1. select_feature_number: selezionare il numero di elementi, compreso tra 1 e il numero di elementi del file di dati.
      2. test_size: Impostare il rapporto del campione di prova da dividere. Ad esempio, 0,2 significa che il set di dati di input viene suddiviso in modo casuale nei sottoinsiemi di test train: in base al rapporto 0,8:0,2.
      3. combine: se true, combina due file di dati per la selezione delle feature, ovvero i valori dell'espressione originale e le feature mqTrans. Se false, è sufficiente utilizzare un file di dati per la selezione delle feature, ovvero i valori dell'espressione originale o le feature mqTrans.
      4. combine file: se combine è true, specificare il nome del file per salvare la matrice di dati combinata.
        NOTA: Questa pipeline ha lo scopo di dimostrare come le funzionalità mqTrans generate si comportano nelle attività di classificazione e utilizza direttamente il file generato dalla sezione 2 per le seguenti operazioni.
  2. Eseguire l'algoritmo di selezione delle caratteristiche per la selezione delle funzionalità mqTrans.
    1. Turn combine =False se l'utente seleziona le feature mqTrans o le feature originali.
    2. Innanzitutto, seleziona 800 funzionalità originali e suddividi il set di dati in train: test=0.8:0.2:
      python ./FS_classification/testMain.py ./output/test_target.csv ./output/label.csv ./result 800 0.2 False
    3. Turn combine =True, se l'utente desidera combinare le feature mqTrans con i valori dell'espressione originale per selezionare le feature. In questo caso, l'esempio dimostrativo consiste nel selezionare 800 funzionalità e suddividere il set di dati in training: test=0.8:0.2:
      python ./FS_classification/testMain.py ./output/mq_targets.csv ./output/label.csv ./result_combine 800 0.2 True ./output/test_target.csv
      NOTA: La Figura 5 mostra le informazioni sull'output. I file supplementari necessari per questo protocollo si trovano in HealthModel-mqTrans-v1-00.tar cartella (Supplementary Coding File 1).

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Valutazione della vista mqTrans del dataset trascrittomico
Il codice di test utilizza undici algoritmi di selezione delle caratteristiche (FS) e sette classificatori per valutare in che modo la vista mqTrans generata del set di dati trascrittomico contribuisce all'attività di classificazione (Figura 6). Il set di dati del test è costituito da 317 adenocarcinoma del colon (COAD) dal database The Cancer Genome Atlas (TCGA)29. I pazienti COAD in stadio I o II sono considerati come i campioni negativi, mentre quelli in stadio III o IV sono quelli positivi.

Undici algoritmi FS sono implementati nel codice di test. Esistono tre algoritmi FS basati su filtri, tra cui, selezionare le migliori caratteristiche K in base al MIC (SK_mic), selezionare le caratteristiche K in base all'FPR del MIC (SK_fpr) e selezionare le caratteristiche K in base al più alto FDR del MIC (SK_fpr). Tre algoritmi FS basati su alberi valutano le singole caratteristiche in base a un albero decisionale con indice di Gini (DT_gini), rispettivamente gli alberi decisionali potenziati adattivi (AdaBoost) e la foresta casuale (RF_fs). Il pool FS del codice di test valuta anche due wrapper: l'eliminazione ricorsiva delle funzionalità (RFE) con il classificatore del vettore di supporto lineare (SVC)(RFE_SVC) e RFE con il classificatore di regressione logistica (RFE_LR) e due algoritmi di incorporamento, il classificatore SVC lineare con i valori di importanza delle funzionalità L1 (lSVC_L1) più in alto e il classificatore di regressione logistica con i valori di importanza delle funzionalità L1 (LR_L1) in cima alla classificazione.

Il codice di test compila i modelli di classificazione utilizzando sette classificatori, tra cui SVC (Linear Support Vector Machine), GNB (Gaussian Naïve Bayes), classificatore di regressione logistica (LR), k-nearest neighbor, k-5 per impostazione predefinita (KNN), XGBoost, foresta casuale (RF) e albero decisionale (DT).

La Figura 6 mostra l'accuratezza massima del test delle caratteristiche mqTrans, delle caratteristiche mRNA originali e del sottoinsieme combinato delle caratteristiche mRNA e mqTrans consigliate da ciascun algoritmo FS.

I sottoinsiemi di caratteristiche combinate (mRNA+mqTrans) hanno raggiunto la massima accuratezza di 0,7656 sul metodo FS "SK_fpr", migliore dei singoli tipi di caratteristiche mqTrans (0,7188) e mRNA originale (0,7188). Modelli simili possono essere osservati per gli altri algoritmi FS. L'utente può controllare le funzionalità selezionate nel file di output Output-SelectedFeatures.csv.

Rilevamento dei biomarcatori oscuri
Studi precedenti hanno dimostrato l'esistenza di geni espressi in modo indifferenziato con valori di mqTrans rappresentati in modo significativamente differenziato tra il gruppo fenotipico e il gruppo di controllo 26,38,39. Questi geni sono chiamati biomarcatori oscuri perché gli studi tradizionali di rilevamento dei biomarcatori li ignorano per le loro espressioni indifferenziali. La funzione di analisi statistica t.test in Microsoft Excel può essere utilizzata per definire una funzione espressa in modo differenziale se il suo valore p statistico è inferiore a 0,05.

Tra le 3062 caratteristiche con i valori mqTrans generati, sono stati rilevati 221 biomarcatori oscuri (Figura 7). Il terzo gene classificato ENSG00000163697 (APBB2, Amyloid Beta Precursor Protein Binding Family B Member 2) mostra valori di mqTrans rappresentati in modo significativamente differenziato (mqTrans.P = 2,03 x 10-4) mentre il suo livello di espressione originale non mostra alcuna espressione differenziale (mRNA.P = 3,80 x 10-1). La parola chiave APBB2 ha raggiunto 27 pubblicazioni nel database PubMed40, ma non sono state rilevate connessioni con il colon o l'intestino.

Un altro gene ENSG00000048052 (HDAC9, istone deacetilasi 9) ha i valori di mqTrans rappresentati in modo differenziato (mqTrans.P = 6.09 x 10-3) pur mantenendo praticamente le stesse distribuzioni normali tra il gruppo fenotipico e quello di controllo (mRNA.P = 9.62 x 10-1). La parola chiave HDAC9 ha raggiunto 417 pubblicazioni nel database PubMed. Tre studi hanno anche menzionato le parole chiave "colon" o "intestino" negli abstract 41,42,43. Ma nessuno di loro ha studiato il ruolo di HDAC9 nel cancro del colon.

I dati hanno suggerito la necessità di ulteriori valutazioni di questi biomarcatori oscuri dalle loro attività post-trascrizione, ad esempio, i livelli di proteina tradotta44,45.

Distribuzioni pan-tumorali dei biomarcatori oscuri e tradizionali correlati al metabolismo
I biomarcatori tradizionali correlati al metabolismo sono stati sottoposti a screening e confrontati con i biomarcatori scuri in 26 tipi di cancro nel set di dati TCGA38. Entrambe le categorie di biomarcatori sono state sottoposte a valutazione statistica per discernere i livelli di significatività negli stadi tumorali precoci (Stadio I e II) e tardivi (Stadi III e IV). Questa valutazione ha utilizzato i test t di Student per i valori p, successivamente corretti per test multipli utilizzando tassi di falsa scoperta (FDR). I dati dettagliati per ciascuno dei 26 tipi di cancro sono forniti nella Figura 8.

I geni che producono valori p corretti per FDR inferiori a 0,05 sono stati classificati come biomarcatori tradizionali. Al contrario, i biomarcatori scuri sono stati definiti come quelli con valori p corretti per FDR inferiori a 0,05 nella vista mqTrans, mentre contemporaneamente non mostravano differenze statisticamente significative nei livelli di espressione.

La Figura 9 rivela una generale scarsità di biomarcatori oscuri rispetto ai biomarcatori tradizionali nella maggior parte dei tipi di cancro. Eccezioni degne di nota includono BRCA, MESO e TGCT, che manifestano una maggiore prevalenza di biomarcatori oscuri. È stato rivelato che vari fattori, tra cui fattori di trascrizione, modelli di metilazione, mutazioni genetiche e condizioni ambientali, potrebbero modulare la disregolazione trascrizionale di questi biomarcatori oscuri. Un'ulteriore complessità può derivare dalla sovrapposizione di trascritti di RNA non codificanti che potrebbero confondere i livelli di espressione dei biomarcatori oscuri. Le disregolazioni della trascrizione di alcuni biomarcatori oscuri sono state supportate dai loro livelli differenziali di proteine44,45. I biomarcatori oscuri sono spesso trascurati negli studi tradizionali e presentano strade intriganti per future indagini meccanicistiche.

Figure 1
Figura 1: Panoramica di HealthModel e dei moduli di selezione delle funzionalità in questo protocollo. Sostituire gli algoritmi specifici nel pool di selezione delle funzionalità e nel pool di classificatori se l'utente ha familiarità con la programmazione Python. Fare clic qui per visualizzare una versione più grande di questa figura.

Figure 2
Figura 2: Flusso di codice completo per questo protocollo. (A) Preparare l'ambiente Python. Per iniziare, crea un ambiente virtuale e installa i pacchetti essenziali. Per istruzioni complete, fare riferimento alla Sezione 1. (b) Generare le caratteristiche mqTrans. Ottenere le funzionalità di mqTrans eseguendo passo dopo passo il codice fornito. Spiegazioni dettagliate sono disponibili nella Sezione 2. (C) Selezionare mqTrans Features. Questa sezione si concentra sulla valutazione delle funzionalità di mqTrans. Fare riferimento alla Sezione 3 per dettagli approfonditi. Fare clic qui per visualizzare una versione più grande di questa figura.

Figure 3
Figura 3: Preparare l'ambiente per Python. (A) Il comando per creare healthmodel. (B) Immettere y durante il processo di creazione di VE. (C) Il comando più comune per l'attivazione del VE. (D) Il comando per l'installazione della torcia 1.13.1. (E) Installare librerie aggiuntive per il pacchetto torch-geometrico . (F) Installare il pacchetto torch-geometrico . Fare clic qui per visualizzare una versione più grande di questa figura.

Figure 4
Figura 4: Eseguire HealthModel per ottenere la funzionalità mqTrans. (A) Scaricare il codice. (B) L'esempio del file di dati. Ogni colonna contiene tutti i valori di un fattore regolatorio e il primo elemento è l'ID del gene. Ogni riga fornisce i valori di un determinato campione, con il primo elemento che è il nome del campione. (C) L'esempio di un file di etichette. La prima colonna fornisce i nomi dei campioni e l'etichetta di classe di ogni esempio è indicata nella colonna intitolata label. Il valore 0 nella colonna dell'etichetta indica che il campione è attivo, mentre 1 indica che è morto. (D) le uscite di mqTrans. Fare clic qui per visualizzare una versione più grande di questa figura.

Figure 5
Figura 5: Eseguire l'algoritmo di selezione delle caratteristiche per la funzione mqTrans. I risultati dell'algoritmo di selezione delle funzionalità vengono mostrati all'utente. Fare clic qui per visualizzare una versione più grande di questa figura.

Figure 6
Figura 6: Accuratezza massima del set di test di ciascun algoritmo di selezione delle funzionalità. L'asse orizzontale elenca gli algoritmi di selezione delle feature e l'asse verticale fornisce i valori di accuratezza. Gli istogrammi mostrano i dati sperimentali delle tre impostazioni, ovvero mqTrans, mRNA, mRNA+mqTrans. Fare clic qui per visualizzare una versione più grande di questa figura.

Figure 7
Figura 7: I primi 50 biomarcatori oscuri con i valori p più piccoli nella vista mqTrans. La colonna "Biomarcatore oscuro" fornisce i nomi dei biomarcatori scuri. Le colonne "mRNA.P" e "mqTrans.P" sono i valori p statistici del t-test tra il gruppo fenotipico e quello di controllo. I colori di sfondo dei valori p sono compresi tra i valori p 1,00 (blu) e 0,00 (rosso) e il colore bianco rappresenta il valore p = 0,05. Fare clic qui per visualizzare una versione più grande di questa figura.

Figure 8
Figura 8: I dettagli dei 26 tumori nell'Atlante del Genoma del Cancro (TCGA) in diversi stadi. Le colonne "Coorte" e "Tessuto della malattia" descrivono il gruppo di pazienti e i tessuti con malattia per ciascun set di dati. Le ultime quattro colonne forniscono rispettivamente il numero di campioni negli stadi di sviluppo I, II, III e IV. Fare clic qui per visualizzare una versione più grande di questa figura.

Figure 9
Figura 9: Il numero di biomarcatori oscuri e biomarcatori tradizionali in 26 tumori. L'asse orizzontale elenca i 26 tipi di cancro. L'asse verticale fornisce i numeri dei biomarcatori oscuri e dei biomarcatori tradizionali per questi tipi di cancro. Fare clic qui per visualizzare una versione più grande di questa figura.

File di codifica supplementare 1: HealthModel-mqTrans-v1-00.tar Fare clic qui per scaricare questo file.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

La sezione 2 (Utilizzo di HealthModel pre-addestrato per generare le funzionalità mqTrans) del protocollo è il passaggio più critico all'interno di questo protocollo. Dopo aver preparato l'ambiente di lavoro computazionale nella sezione 1, la sezione 2 genera la vista mqTrans di un set di dati trascrittomico basato sul modello di riferimento di grandi dimensioni pre-addestrato. La sezione 3 è un esempio dimostrativo di selezione delle caratteristiche mqTrans generate per i rilevamenti di biomarcatori e le attività di previsione. Gli utenti possono condurre altre analisi trascrittomiche su questo set di dati mqTrans utilizzando i propri strumenti o codici.

Il framework HealthModel originale può perfezionare ulteriormente l'HealthModel pre-addestrato usando l'architettura multitasking, come descritto in26. Questo protocollo si concentra sull'utilizzo del modello di riferimento pre-addestrato per generare la vista mqTrans di un set di dati trascrittomici.

Il modello di riferimento pre-addestrato predefinito è stato stabilito sui campioni sani e potrebbe non essere una buona scelta per alcuni compiti specifici, ad esempio l'indagine tra il cancro primario e quello metastatico. Anche la velocità computazionale è lenta per un set di dati trascrittomico di grandi dimensioni.

L'importanza di questo protocollo è quella di fornire una vista mqTrans complementare del tipo di dati OMIC più abbondantemente disponibile, ovvero il trascrittoma. I biomarcatori oscuri possono essere rivelati dai geni espressi in modo indifferenziato ignorati dall'analisi trascrittomica convenzionale. Uno studio recente ha rilevato sette biomarcatori oscuri del cancro del colon metastatico (mCC) sulla base di tre coorti indipendenti di 805 campioni in totale,44. I biomarcatori oscuri hanno ricevuto indagini limitate in laboratorio a causa delle loro espressioni indifferenziate. Tuttavia, uno dei biomarcatori oscuri mCC rilevati YTHDC2 codifica per il dominio YTH della proteina contenente 2, i cui livelli proteici sono stati osservati essere positivamente correlati con lo stato di metastasi delle cellule di cancro gastrico umano46 e dei tumori del colon47. Nuove intuizioni biologiche sui biomarcatori oscuri devono ancora essere risolte attraverso tecnologie in vitro e in vivo.

Questo protocollo è progettato per essere completamente modulare. Modelli di riferimento pre-addestrati su altri set di dati di grandi dimensioni, come i tumori primari, faciliteranno l'indagine delle metastasi tumorali. Questo protocollo sarà esplorato anche per applicazioni in altri domini della vita, tra cui piante, funghi e microbi.

L'efficienza computazionale di questo protocollo è progettata per essere migliorata attraverso la parallelizzazione e l'ottimizzazione algoritmica.

Questo protocollo descrive la procedura per trasformare un set di dati trascrittomici in una nuova vista mqTrans e i valori mqTrans trasformati di un gene misurano quantitativamente i cambiamenti della regolazione della trascrizione rispetto ai campioni di riferimento. Un modello predefinito è stato pre-addestrato sui trascrittomi sani e rilasciato come HealthModel di riferimento.

Il codice sorgente di due attività a valle viene fornito per facilitare il facile utilizzo di questo protocollo da parte dei ricercatori biomedici. I dati sperimentali mostrano che le funzionalità mqTrans trasformate potrebbero migliorare le attività di previsione utilizzando solo i livelli di espressione originali. La vista mqTrans può anche svelare le connessioni fenotipiche latenti di alcuni biomarcatori oscuri senza espressioni differenziali nei dati trascrittomici originali.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Gli autori non hanno nulla da rivelare.

Acknowledgments

Questo lavoro è stato supportato dal team di innovazione tecnologica senior e junior (20210509055RQ), dai progetti scientifici e tecnologici della provincia di Guizhou (ZK2023-297), dalla Fondazione per la scienza e la tecnologia della Commissione sanitaria della provincia di Guizhou (gzwkj2023-565), dal progetto di scienza e tecnologia del Dipartimento dell'istruzione della provincia di Jilin (JJKH20220245KJ e JJKH20220226SK), dalla National Natural Science Foundation of China (U19A2061), dal Jilin Provincial Key Laboratory of Big Data Intelligent Computing (20180622002JC) e i Fondi di Ricerca di Base per le Università Centrali, JLU. Estendiamo il nostro più sincero apprezzamento al revisore e ai tre revisori anonimi per le loro critiche costruttive, che sono state determinanti nel migliorare sostanzialmente il rigore e la chiarezza di questo protocollo.

Materials

Name Company Catalog Number Comments
Anaconda Anaconda version 2020.11 Python programming platform
Computer N/A N/A Any general-purpose computers satisfy the requirement
GPU card N/A N/A Any general-purpose GPU cards with the CUDA computing library
pytorch Pytorch version 1.13.1 Software
torch-geometric Pytorch version 2.2.0 Software

DOWNLOAD MATERIALS LIST

References

  1. Mutz, K. -O., Heilkenbrinker, A., Lönne, M., Walter, J. -G., Stahl, F. Transcriptome analysis using next-generation sequencing. Curr Opin in Biotechnol. 24 (1), 22-30 (2013).
  2. Meng, G., Tang, W., Huang, E., Li, Z., Feng, H. A comprehensive assessment of cell type-specific differential expression methods in bulk data. Brief Bioinform. 24 (1), 516 (2023).
  3. Iqbal, N., Kumar, P. Integrated COVID-19 Predictor: Differential expression analysis to reveal potential biomarkers and prediction of coronavirus using RNA-Seq profile data. Comput Biol Med. 147, 105684 (2022).
  4. Ravichandran, S., et al. VB(10), a new blood biomarker for differential diagnosis and recovery monitoring of acute viral and bacterial infections. EBioMedicine. 67, 103352 (2021).
  5. Lv, J., et al. Targeting FABP4 in elderly mice rejuvenates liver metabolism and ameliorates aging-associated metabolic disorders. Metabolism. 142, 155528 (2023).
  6. Cruz, J. A., Wishart, D. S. Applications of machine learning in cancer prediction and prognosis. Cancer Inform. 2, 59-77 (2007).
  7. Cox, D. R. Analysis of Survival Data. , Chapman and Hall/CRC. London. (2018).
  8. Newman, A. M., et al. Robust enumeration of cell subsets from tissue expression profiles. Nat Methods. 12 (5), 453-457 (2015).
  9. Ramilowski, J. A., et al. A draft network of ligand-receptor-mediated multicellular signalling in human. Nat Commun. 6 (1), 7866 (2015).
  10. Xu, Y., et al. MiR-145 detection in urinary extracellular vesicles increase diagnostic efficiency of prostate cancer based on hydrostatic filtration dialysis method. Prostate. 77 (10), 1167-1175 (2017).
  11. Wang, Y., et al. Profiles of differential expression of circulating microRNAs in hepatitis B virus-positive small hepatocellular carcinoma. Cancer Biomark. 15 (2), 171-180 (2015).
  12. Hu, S., et al. Transcriptional response profiles of paired tumor-normal samples offer novel. Oncotarget. 8 (25), 41334-41347 (2017).
  13. Xu, H., Luo, D., Zhang, F. DcWRKY75 promotes ethylene induced petal senescence in carnation (Dianthus caryophyllus L). Plant J. 108 (5), 1473-1492 (2021).
  14. Niu, H., et al. Dynamic role of Scd1 gene during mouse oocyte growth and maturation. Int J Biol Macromol. 247, 125307 (2023).
  15. Aznaourova, M., et al. Single-cell RNA sequencing uncovers the nuclear decoy lincRNA PIRAT as a regulator of systemic monocyte immunity during COVID-19. Proc Natl Acad Sci U S A. 119 (36), 2120680119 (2022).
  16. Prakash, A., Banerjee, M. An interpretable block-attention network for identifying regulatory feature interactions. Brief Bioinform. 24 (4), (2023).
  17. Zhai, Y., et al. Single-cell RNA sequencing integrated with bulk RNA sequencing analysis reveals diagnostic and prognostic signatures and immunoinfiltration in gastric cancer. Comput Biol Med. 163, 107239 (2023).
  18. Duan, L., et al. Dynamic changes in spatiotemporal transcriptome reveal maternal immune dysregulation of autism spectrum disorder. Comput Biol Med. 151, 106334 (2022).
  19. Zolotareva, O., et al. Flimma: a federated and privacy-aware tool for differential gene expression analysis). Genome Biol. 22 (1), 338 (2021).
  20. Su, R., Zhu, Y., Zou, Q., Wei, L. Distant metastasis identification based on optimized graph representation of gene. Brief Bioinform. 23 (1), (2022).
  21. Xing, X., et al. Multi-level attention graph neural network based on co-expression gene modules for disease diagnosis and prognosis. Bioinformatics. 38 (8), 2178-2186 (2022).
  22. Bongini, P., Pancino, N., Scarselli, F., Bianchini, M. BioGNN: How Graph Neural Networks Can Solve Biological Problems. Artificial Intelligence and Machine Learning for Healthcare: Vol. 1: Image and Data Analytics. , Springer. Cham. (2022).
  23. Muzio, G., O'Bray, L., Borgwardt, K. Biological network analysis with deep learning. Brief Bioinform. 22 (2), 1515-1530 (2021).
  24. Luo, H., et al. Multi-omics integration for disease prediction via multi-level graph attention network and adaptive fusion. bioRxiv. , (2023).
  25. Feng, X., et al. Selecting multiple biomarker subsets with similarly effective binary classification performances. J Vis Exp. (140), e57738 (2018).
  26. Duan, M., et al. Orchestrating information across tissues via a novel multitask GAT framework to improve quantitative gene regulation relation modeling for survival analysis. Brief Bioinform. 24 (4), (2023).
  27. Chicco, D., Starovoitov, V., Jurman, G. The benefits of the Matthews correlation Coefficient (MCC) over the diagnostic odds ratio (DOR) in binary classification assessment. IEEE Access. 9, 47112-47124 (2021).
  28. Goldman, M. J., et al. Visualizing and interpreting cancer genomics data via the Xena platform. Nat Biotechnol. 38 (6), 675-678 (2020).
  29. Liu, J., et al. An integrated TCGA pan-cancer clinical data resource to drive high-quality survival outcome analytics. Cell. 173 (2), 400-416 (2018).
  30. Uhlen, M., et al. Towards a knowledge-based human protein atlas. Nat Biotechnol. 28 (12), 1248-1250 (2010).
  31. Hernaez, M., Blatti, C., Gevaert, O. Comparison of single and module-based methods for modeling gene regulatory. Bioinformatics. 36 (2), 558-567 (2020).
  32. Consortium, G. The genotype-tissue expression (GTEx) project. Nat Genet. 45 (6), 580-585 (2013).
  33. Kanehisa, M., et al. KEGG for taxonomy-based analysis of pathways and genomes. Nucleic Acids Res. 51, D587-D592 (2023).
  34. Han, H., et al. TRRUST v2: an expanded reference database of human and mouse transcriptional. Nucleic Acids Res. 46, D380-D386 (2018).
  35. Langfelder, P., Horvath, S. WGCNA: an R package for weighted correlation network analysis. BMC Bioinformatics. 9, 559 (2008).
  36. Sulaimanov, N., et al. Inferring gene expression networks with hubs using a degree weighted Lasso. Bioinformatics. 35 (6), 987-994 (2019).
  37. Kogelman, L. J. A., Kadarmideen, H. N. Weighted Interaction SNP Hub (WISH) network method for building genetic networks. BMC Syst Biol. 8, 5 (2014).
  38. Duan, M., et al. Pan-cancer identification of the relationship of metabolism-related differentially expressed transcription regulation with non-differentially expressed target genes via a gated recurrent unit network. Comput Biol Med. 148, 105883 (2022).
  39. Duan, M., et al. Detection and independent validation of model-based quantitative transcriptional regulation relationships altered in lung cancers. Front Bioeng Biotechnol. 8, 582 (2020).
  40. Fiorini, N., Lipman, D. J., Lu, Z. Towards PubMed 2.0. eLife. 6, 28801 (2017).
  41. Liu, J., et al. Maternal microbiome regulation prevents early allergic airway diseases in mouse offspring. Pediatr Allergy Immunol. 31 (8), 962-973 (2020).
  42. Childs, E. J., et al. Association of common susceptibility variants of pancreatic cancer in higher-risk patients: A PACGENE study. Cancer Epidemiol Biomarkers Prev. 25 (7), 1185-1191 (2016).
  43. Wang, C., et al. Thailandepsins: bacterial products with potent histone deacetylase inhibitory activities and broad-spectrum antiproliferative activities. J Nat Prod. 74 (10), 2031-2038 (2011).
  44. Lv, X., et al. Transcriptional dysregulations of seven non-differentially expressed genes as biomarkers of metastatic colon cancer. Genes (Basel). 14 (6), 1138 (2023).
  45. Li, X., et al. Undifferentially expressed CXXC5 as a transcriptionally regulatory biomarker of breast cancer. Advanced Biology. , (2023).
  46. Yuan, W., et al. The N6-methyladenosine reader protein YTHDC2 promotes gastric cancer progression via enhancing YAP mRNA translation. Transl Oncol. 16, 101308 (2022).
  47. Tanabe, A., et al. RNA helicase YTHDC2 promotes cancer metastasis via the enhancement of the efficiency by which HIF-1α mRNA is translated. Cancer Lett. 376 (1), 34-42 (2016).

Tags

Neuroscienze Numero 205
Generazione della vista di regolazione trascrizionale delle caratteristiche trascrittomiche per l'attività di predizione e il rilevamento di biomarcatori oscuri su set di dati di piccole dimensioni
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Li, K., Fan, Y., Liu, Y., Liu, H.,More

Li, K., Fan, Y., Liu, Y., Liu, H., Zhang, G., Duan, M., Huang, L., Zhou, F. Generating the Transcriptional Regulation View of Transcriptomic Features for Prediction Task and Dark Biomarker Detection on Small Datasets. J. Vis. Exp. (205), e66030, doi:10.3791/66030 (2024).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter