Biology

Generera transkriptionsregleringsvyn för transkriptomiska funktioner för prediktionsuppgift och detektering av mörka biomarkörer på små datamängder

Published: March 1, 2024 doi: 10.3791/66030

Kewei Li¹, Yusi Fan¹, Yaqing Liu¹, Hongmei Liu², Gongyou Zhang², Meiyu Duan¹, Lan Huang¹, Fengfeng Zhou¹

¹College of Computer Science and Technology, and Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education, Jilin University, ²School of Biology and Engineering, Guizhou Medical University

Summary

Här introducerar vi ett protokoll för att konvertera transkriptomiska data till en mqTrans-vy, vilket möjliggör identifiering av mörka biomarkörer. Även om dessa biomarkörer inte uttrycks differentiellt i konventionella transkriptomiska analyser, uppvisar de differentiellt uttryck i mqTrans-vyn. Tillvägagångssättet fungerar som en kompletterande teknik till traditionella metoder och avslöjar tidigare förbisedda biomarkörer.

Abstract

Transkriptom representerar uttrycksnivåerna för många gener i ett prov och har använts i stor utsträckning inom biologisk forskning och klinisk praxis. Forskare fokuserade vanligtvis på transkriptomiska biomarkörer med differentiella representationer mellan en fenotypgrupp och en kontrollgrupp av prover. Denna studie presenterade ett multitask graph-attention network (GAT) inlärningsramverk för att lära sig de komplexa intergena interaktionerna mellan referensproverna. En demonstrativ referensmodell tränades i förväg på de friska proverna (HealthModel), som direkt kunde användas för att generera den modellbaserade kvantitativa transkriptionsregleringen (mqTrans) av de oberoende testtranskriptomen. Den genererade mqTrans-vyn av transkriptom demonstrerades genom prediktionsuppgifter och detektion av mörka biomarkörer. Den myntade termen "mörk biomarkör" härrörde från dess definition att en mörk biomarkör visade differentiell representation i mqTrans-vyn men inget differentiellt uttryck i sin ursprungliga uttrycksnivå. En mörk biomarkör har alltid förbisetts i traditionella biomarkördetektionsstudier på grund av frånvaron av differentiellt uttryck. Källkoden och manualen för pipelinen HealthModelPipe kan laddas ner från http://www.healthinformaticslab.org/supp/resources.php.

Introduction

Transkriptom består av uttrycken av alla gener i ett prov och kan profileras med hjälp av tekniker med hög genomströmning som mikroarray och RNA-seq¹. Uttrycksnivåerna för en gen i en datauppsättning kallas en transkriptomisk egenskap, och den differentiella representationen av en transkriptomisk egenskap mellan fenotypen och kontrollgruppen definierar denna gen som en biomarkör för denna fenotyp ^2,3. Transkriptomiska biomarkörer har använts i stor utsträckning i undersökningar av sjukdomsdiagnos⁴, biologisk mekanism⁵ och överlevnadsanalys ^6,7, etc.

Genaktivitetsmönster i de friska vävnaderna bär på avgörande information om livet ^8,9. Dessa mönster ger ovärderliga insikter och fungerar som idealiska referenser för att förstå de komplexa utvecklingsbanorna för godartade sjukdomar^10,11 och dödliga sjukdomar¹². Gener interagerar med varandra, och transkriptom representerar de slutliga uttrycksnivåerna efter deras komplicerade interaktioner. Sådana mönster är formulerade som transkriptionellt regleringsnätverk¹³ och metabolismnätverk¹⁴, etc. Uttrycken av budbärar-RNA (mRNA) kan transkriptionellt regleras av transkriptionsfaktorer (TF) och långa intergena icke-kodande RNA (lincRNA)15,16,17. Konventionell differentiell uttrycksanalys ignorerade sådana komplexa geninteraktioner med antagandet om oberoende mellan egenskaper^18,19.

De senaste framstegen inom grafneurala nätverk (GNN) visar en extraordinär potential när det gäller att extrahera viktig information från OMIC-baserade data för cancerstudier²⁰, t.ex. genom att identifiera kouttrycksmoduler²¹. GNN:s medfödda kapacitet gör dem idealiska för att modellera de intrikata relationerna och beroendena mellan gener^22,23.

Biomedicinska studier fokuserar ofta på att exakt förutsäga en fenotyp mot kontrollgruppen. Sådana uppgifter formuleras vanligtvis som binära klassificeringar 24,25,26. Här kodas de två klassetiketterna vanligtvis som 1 och 0, sant och falskt, eller till och med positivt och negativt²⁷.

Denna studie syftade till att tillhandahålla ett lättanvänt protokoll för att generera transkriptionsregleringen (mqTrans) av en transkriptomdatauppsättning baserad på den förtränade referensmodellen för graf-uppmärksamhetsnätverk (GAT). Multitask-GAT-ramverket från ett tidigare publicerat arbete²⁶ användes för att transformera transkriptomiska funktioner till mqTrans-funktionerna. En stor datamängd av friska transkriptom från University of California, Santa Cruz (UCSC) Xena-plattform²⁸ användes för att förträna referensmodellen (HealthModel), som kvantitativt mätte transkriptionsreglerna från de regulatoriska faktorerna (TF och lincRNA) till mål-mRNA. Den genererade mqTrans-vyn kan användas för att bygga prediktionsmodeller och upptäcka mörka biomarkörer. Detta protokoll använder patientdatasetet colon adenocarcinom (COAD) från databasen The Cancer Genome Atlas (TCGA)²⁹ som ett illustrativt exempel. I detta sammanhang kategoriseras patienter i stadium I eller II som negativa prover, medan de i stadium III eller IV betraktas som positiva prover. Fördelningen av mörka och traditionella biomarkörer mellan de 26 TCGA-cancertyperna jämförs också.

Beskrivning av HealthModel-pipelinen
Den metod som används i detta protokoll bygger på det tidigare offentliggjorda ramverket²⁶, som beskrivs i figur 1. Till att börja med måste användarna förbereda indatauppsättningen, mata in den i den föreslagna HealthModel-pipelinen och hämta mqTrans-funktioner. Detaljerade instruktioner för förberedelse av data finns i avsnitt 2 i protokollavsnittet. Därefter har användarna möjlighet att kombinera mqTrans-funktioner med de ursprungliga transkriptomiska funktionerna eller endast fortsätta med de genererade mqTrans-funktionerna. Den producerade datauppsättningen utsätts sedan för en funktionsvalsprocess, där användarna har flexibiliteten att välja önskat värde för k i k-faldig korsvalidering för klassificering. Det primära utvärderingsmåttet som används i detta protokoll är noggrannhet.

HealthModel²⁶ kategoriserar de transkriptomiska egenskaperna i tre distinkta grupper: TF (transkriptionsfaktor), lincRNA (långt intergent icke-kodande RNA) och mRNA (budbärar-RNA). TF-egenskaperna definieras baserat på de annoteringar som finns tillgängliga i Human Protein Atlas^30,31. Detta arbete använder annoteringar av lincRNA från GTEx-datasetet³². Gener som tillhör den tredje nivåns vägar i KEGG-databasen³³ betraktas som mRNA-egenskaper. Det är värt att notera att om en mRNA-funktion uppvisar reglerande roller för en målgen som dokumenterats i TRRUST-databasen³⁴, omklassificeras den till TF-klassen.

Detta protokoll genererar också manuellt de två exempelfilerna för gen-ID:n för regulatoriska faktorer (regulatory_geneIDs.csv) och mål-mRNA (target_geneIDs.csv). Den parvisa avståndsmatrisen mellan de regulatoriska egenskaperna (TF och lincRNA) beräknas med hjälp av Pearsons korrelationskoefficienter och klustras med hjälp av den populära verktygsviktade nätverksanalysen för genuttryck (WGCNA)³⁶ (adjacent_matrix.csv). Användare kan direkt använda HealthModel-pipelinen tillsammans med dessa exempelkonfigurationsfiler för att generera mqTrans-vyn för en transkriptomisk datauppsättning.

Teknisk information om HealthModel
HealthModel representerar de intrikata relationerna mellan TF och lincRNA som en graf, där indatafunktionerna fungerar som hörnen som betecknas med V och en gränsmatris mellan hörnen som betecknas som E. Varje prov kännetecknas av K-reglerande egenskaper, symboliserade som V^K×1. Specifikt omfattade datauppsättningen 425 TF och 375 lincRNA, vilket resulterade i en provdimensionalitet på K = 425 + 375 = 800. För att fastställa kantmatrisen E användes det populära verktyget WGCNA³⁵ i detta arbete. Den parvisa vikten som länkar två hörn representerade som Equation 1 och Equation 2 , bestäms av Pearsons korrelationskoefficient. Det genreglerande nätverket uppvisar en skalfri topologi³⁶, kännetecknad av närvaron av navgener med centrala funktionella roller. Vi beräknar korrelationen mellan två objekt eller hörn , och , med hjälp av det topologiska överlappningsmåttet (TOM) enligt följande:

Equation 3 (1)

Equation 4 (2)

Det mjuka tröskelvärdet β beräknas med hjälp av funktionen "pickSoft Threshold" från WGCNA-paketet. Den exponentiella potensfunktionen a_ij tillämpas, där Equation 5 representerar en gen exklusive i och j, och Equation 6 representerar vertexkonnektiviteten. WGCNA klustrar uttrycksprofilerna för de transkriptomiska funktionerna i flera moduler med hjälp av ett vanligt olikhetsmått ( Equation 7 ³⁷.

HealthModel-ramverket utformades ursprungligen som en arkitektur för multitasking-inlärning²⁶. Det här protokollet använder endast modellens förträningsuppgift för konstruktionen av den transkriptomiska mqTrans-vyn. Användaren kan välja att ytterligare förfina den förtränade HealthModel under multitask-grafens uppmärksamhetsnätverk med ytterligare uppgiftsspecifika transkriptomiska exempel.

Tekniska detaljer om val och klassificering av funktioner
Funktionsvalspoolen implementerar elva FS-algoritmer (feature selection). Bland dem är tre filterbaserade FS-algoritmer: välja K bästa funktioner med hjälp av maximal informationskoefficient (SK_mic), välja K-funktioner baserat på FPR för MIC (SK_fpr) och välja K-funktioner med den högsta falska upptäcktsfrekvensen för MIC (SK_fdr). Dessutom utvärderar tre trädbaserade FS-algoritmer enskilda funktioner med hjälp av ett beslutsträd med Gini-index (DT_gini), adaptiva förstärkta beslutsträd (AdaBoost) och slumpmässig skog (RF_fs). Poolen innehåller också två omslutningsmetoder: Eliminering av rekursiva funktioner med den linjära stödvektorklassificeraren (RFE_SVC) och eliminering av rekursiva funktioner med den logistiska regressionsklassificeraren (RFE_LR). Slutligen ingår två inbäddningsalgoritmer: linjär SVC-klassificerare med de högst rankade L1-funktionsprioritetsvärdena (lSVC_L1) och logistisk regressionsklassificerare med de högst rankade L1-funktionsprioritetsvärdena (LR_L1).

Klassificerarpoolen använder sju olika klassificerare för att skapa klassificeringsmodeller. Dessa klassificerare består av linjär stödvektormaskin (SVC), Gaussisk Naïve Bayes (GNB), logistisk regressionsklassificerare (LR), k-närmaste granne, med k inställt på 5 som standard (KNN), XGBoost, slumpmässig skog (RF) och beslutsträd (DT).

Den slumpmässiga uppdelningen av datauppsättningen i train: testdelmängder kan anges på kommandoraden. I det demonstrerade exemplet används förhållandet mellan train: test = 8: 2.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

OBS: Följande protokoll beskriver detaljerna i den informatiska analytiska proceduren och Python-kommandona för de större modulerna. Figur 2 illustrerar de tre huvudstegen med exempelkommandon som används i detta protokoll och hänvisar till tidigare publicerade arbeten^26,38 för mer tekniska detaljer. Gör följande protokoll under ett normalt användarkonto i ett datorsystem och undvik att använda administratörs- eller root-kontot. Detta är ett beräkningsprotokoll och har inga biomedicinska farliga faktorer.

1. Förbered Python-miljön

Skapa en virtuell miljö.
1. I denna studie användes programmeringsspråket Python och en virtuell Python-miljö (VE) med Python 3.7. Följ dessa steg (bild 3A):
  conda create -n healthmodel python=3.7
  conda create är kommandot för att skapa en ny VE. Parametern -n anger namnet på den nya miljön, i det här fallet healthmodel. Och python=3.7 anger vilken Python-version som ska installeras. Välj önskat namn och Python-version som stöder kommandot ovan.
2. När du har kört kommandot liknar utdata bild 3B. Ange y och vänta tills processen är klar.
Aktivera den virtuella miljön
1. I de flesta fall aktiverar du den skapade VE med följande kommando (figur 3C):
  conda aktivera healthmodel
2. Följ de plattformsspecifika instruktionerna för VE-aktiveringen, om vissa plattformar kräver att användaren laddar upp de plattformsspecifika konfigurationsfilerna för aktivering.
Installera PyTorch 1.13.1
1. PyTorch är ett populärt Python-paket för AI-algoritmer (artificiell intelligens). Använd PyTorch 1.13.1, baserat på programmeringsplattformen CUDA 11.7 GPU, som exempel. Hitta andra versioner på https://pytorch.org/get-started/previous-versions/. Använd följande kommando (bild 3D):
  pip3 installera torch torchvision torchaudio
  Vi rekommenderar starkt att du använder PyTorch version 1.12 eller senare. Annars kan det vara svårt att installera det nödvändiga paketet torch_geometric , vilket anges på den officiella torch_geometric webbplatsen: https://pytorch-geometric.readthedocs.io/en/latest/install/installation.html.
Installera ytterligare paket för torch-geometric
1. Installera följande paket enligt riktlinjerna i https://pytorch-geometric.readthedocs.io/en/latest/install/installation.html: torch_scatter, torch_sparse, torch_cluster och torch_spline_conv med kommandot (bild 3E):
  pip installera pyg_lib torch_scatter torch_sparse torch_cluster torch_spline_conv -f https://data.pyg.org/whl/torch-1.13.0+cu117.html
Installera fackelgeometriskt paket.
1. Denna studie kräver en specifik version, 2.2.0, av det fackelgeometriska paketet. Kör kommandot (bild 3F):
  pip installera torch_geometric==2.2.0
Installera andra paket.
1. Paket som pandas är vanligtvis tillgängliga som standard. Om inte, installera dem med hjälp av pip kommandot . Om du till exempel vill installera pandas och xgboost kör du:
  pip installera Pandas
  pip installera xgboost

2. Använda den förtränade HealthModel för att generera mqTrans-funktionerna

Ladda ned koden och den förtränade modellen.
1. Ladda ned koden och den förtränade HealthModel från webbplatsen: http://www.healthinformaticslab.org/supp/resources.php, som heter HealthModel-mqTrans-v1-00.tar.gz (bild 4A). Den nedladdade filen kan dekomprimeras till en användardefinierad sökväg. Den detaljerade formuleringen och de uppgifter som ligger till grund för det implementerade protokollet finns i²⁶.
Introducera parametrarna för att köra HealthModel.
1. Ändra först arbetskatalogen till mappen HealthModel-mqTrans på kommandoraden. Använd följande syntax för att köra koden:
  python main.py
  Informationen om varje parameter och data-, modell- och utdatamapparna är följande:
  datamapp: Det här är källdatamappen och varje datafil är i csv-format. Den här datamappen har två filer (se detaljerade beskrivningar i steg 2.3 och 2.4). Dessa filer måste ersättas med personuppgifter.
  data.csv: Den transkriptomiska matrisfilen. Den första raden visar funktions-ID:n (eller gen-ID:n) och den första kolumnen innehåller exempel-ID:t. Listan över gener inkluderar de regulatoriska faktorerna (TF och lincRNA) och de reglerade mRNA-generna.
  label.csv: Exempeletikettfilen. I den första kolumnen visas exempel-ID:t och kolumnen med namnet "label" ger exempeletiketten.
  modellmapp: Mappen för att spara information om modellen:
  HealthModel.pth: Den förtränade HealthModel.
  regulatory_geneIDs.csv: De regulatoriska gen-ID:n som används i denna studie.
  target_geneIDs.csv: De målgener som användes i denna studie.
  adjacent_matrix.csv: Den intilliggande matrisen av reglerande gener.
  utdatamapp: Utdatafilerna skrivs till den här mappen och skapas av koden.
  test_target.csv: Genuttrycksvärdet för målgener efter Z-normalisering och imputering.
  pred_target.csv: Det förutsagda genuttrycksvärdet för målgener.
  mq_target.csv: Det förutsagda genuttrycksvärdet för målgener.
Förbered den transkriptomiska matrisfilen i csv-format.
1. Varje rad representerar ett prov och varje kolumn representerar en gen (figur 4B). Namnge den transkriptomiska datamatrisfilen som data.csv i datamappen .
  OBS: Den här filen kan genereras genom att manuellt spara en datamatris i .csv-format från programvara som Microsoft Excel. Den transkriptomiska matrisen kan också genereras av datorprogrammering.
Förbered etikettfilen i csv-format.
1. På samma sätt som med den transkriptomiska matrisfilen namnger du etikettfilen som label.csv i datamappen (bild 4C).
  OBS: Den första kolumnen ger exempelnamnen och klassetiketten för varje exempel anges i kolumnen med titeln etikett. Värdet 0 i etikettkolumnen innebär att det här exemplet är negativt, 1 betyder ett positivt prov.
Generera mqTrans-funktionerna.
1. Kör följande kommando för att generera mqTrans-funktionerna och hämta de utdata som visas i bild 4D. Funktionerna i mqTrans genereras som filen ./output/mq_targets.csv och etikettfilen sparas om som filen ./output/label.csv. För att underlätta ytterligare analys extraheras även de ursprungliga uttrycksvärdena för mRNA-generna som filen ./output/ test_target.csv.
  python ./Get_mqTrans/code/main.py ./data ./Get_mqTrans/model ./output

3. Välj mqTrans funktioner

Syntax för funktionsvalskoden
1. Ändra först arbetskatalogen till mappen HealthModel-mqTrans . Använd följande syntax:
  python ./FS_classification/testMain.py
  Detaljerna för varje parameter är följande:
  in-data-file: Indatafilen
  in-label-file: Etiketten för indatafilen
  utdatamapp: Två utdatafiler sparas i den här mappen, inklusive Output-score.xlsx (funktionsvalsmetoden och noggrannheten för motsvarande klassificerare) och Output-SelectedFeatures.xlsx (de valda funktionsnamnen för varje algoritm för funktionsval).
  1. select_feature_number: Välj antalet funktioner, från 1 till antalet funktioner i datafilen.
  2. test_size: Ställ in förhållandet mellan testample som ska delas. Innebär till exempel 0,2 att indatauppsättningen delas slumpmässigt upp i train: test delmängder med förhållandet 0,8:0,2.
  3. combine: Om det är sant kombinerar du två datafiler för val av funktion, d.v.s. de ursprungliga uttrycksvärdena och mqTrans-funktionerna. Om det är falskt använder du bara en datafil för val av funktion, d.v.s. de ursprungliga uttrycksvärdena eller mqTrans-funktionerna.
  4. kombinera fil: Om combine är sant anger du det här filnamnet för att spara den kombinerade datamatrisen.
    Den här pipelinen syftar till att demonstrera hur de genererade mqTrans-funktionerna fungerar på klassificeringsuppgifter, och den använder direkt filen som genereras av avsnitt 2 för följande åtgärder.
Kör algoritmen för funktionsval för mqTrans funktionsval.
1. Turn combine =False om användaren väljer mqTrans features eller original features.
2. Välj först 800 ursprungliga funktioner och dela upp datauppsättningen i train: test=0.8:0.2:
  python ./FS_classification/testMain.py ./output/test_target.csv ./output/label.csv ./result 800 0.2 Falskt
3. Turn combine =True, om användaren vill kombinera mqTrans-funktionerna med de ursprungliga uttrycksvärdena för att välja funktioner. Här är det demonstrativa exemplet att välja 800 funktioner och dela upp datauppsättningen i train: test=0.8:0.2:
  python ./FS_classification/testMain.py ./output/mq_targets.csv ./output/label.csv ./result_combine 800 0.2 True ./output/test_target.csv
  OBS: Figur 5 visar utgångsinformationen. De kompletterande filer som krävs för detta protokoll finns i HealthModel-mqTrans-v1-00.tar mapp (Supplementary Coding File 1).

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Utvärdering av mqTrans-vyn av den transkriptomiska datamängden
Testkoden använder elva FS-algoritmer (feature selection) och sju klassificerare för att utvärdera hur den genererade mqTrans-vyn av den transkriptomiska datamängden bidrar till klassificeringsuppgiften (figur 6). Testdatasetet består av 317 kolonadenokarcinom (COAD) från The Cancer Genome Atlas (TCGA) databas²⁹. COAD-patienterna i stadium I eller II betraktas som de negativa proverna, medan de i stadium III eller IV är de positiva.

Elva FS-algoritmer implementeras i testkoden. Det finns tre filterbaserade FS-algoritmer, inklusive välj K bästa funktioner efter MIC (SK_mic), välj K-funktioner efter FPR för MIC (SK_fpr) och välj K-funktioner efter högsta FDR för MIC (SK_fpr). Tre trädbaserade FS-algoritmer utvärderar de enskilda funktionerna med hjälp av ett beslutsträd med gini-index (DT_gini), de adaptiva förstärkta beslutsträden (AdaBoost) respektive den slumpmässiga skogen (RF_fs). FS-poolen för testkoden utvärderar också två omslutningar av rekursiv funktionseliminering (RFE) med den linjära stödvektorklassificeraren (SVC)(RFE_SVC) och RFE med den logistiska regressionsklassificeraren (RFE_LR) och två inbäddningsalgoritmer: linjär SVC-klassificerare med de högst rankade L1-funktionsprioritetsvärdena (lSVC_L1) och logistisk regressionsklassificerare med de högst rankade L1-funktionsprioritetsvärdena (LR_L1).

Testkoden bygger klassificeringsmodellerna med hjälp av sju klassificerare, inklusive linjär stödvektormaskin (SVC), Gaussian Naïve Bayes (GNB), logistisk regressionsklassificerare (LR), k-närmaste granne, k-5 som standard (KNN), XGBoost, slumpmässig skog (RF) och beslutsträd (DT).

Figur 6 visar den maximala testnoggrannheten för mqTrans-funktionerna, de ursprungliga mRNA-egenskaperna och den kombinerade delmängden av mRNA- och mqTrans-funktionerna som rekommenderas av varje FS-algoritm.

De kombinerade delmängderna (mRNA+mqTrans) har uppnått den högsta noggrannheten 0,7656 på "SK_fpr" FS-metoden, bättre än de enskilda objekttyperna mqTrans (0,7188) och ursprungliga mRNA (0,7188). Liknande mönster kan observeras för de andra FS-algoritmerna. Användaren kan kontrollera de valda funktionerna i utdatafilen Output-SelectedFeatures.csv.

Detektera de mörka biomarkörerna
Tidigare studier har visat att de odifferentiellt uttryckta generna med signifikant differentiellt representerade mqTrans-värden mellan fenotyp- och kontrollgrupperna 26,38,39. Dessa gener kallas mörka biomarkörer eftersom traditionella biomarkördetektionsstudier ignorerar dem genom deras odifferentiella uttryck. Den statistiska analysfunktionen t.test i Microsoft Excel kan användas för att definiera ett objekt som uttrycks differentiellt om dess statistiska p-värde är mindre än 0,05.

Bland de 3062 objekten med de genererade mqTrans-värdena detekterades 221 mörka biomarkörer (Figur 7). Den tredje rankade genen ENSG00000163697 (APBB2, Amyloid Beta Precursor Protein Binding Family B Member 2) visar signifikant differentierade mqTrans-värden (mqTrans.P = 2,03 x ^10-4) medan dess ursprungliga uttrycksnivå inte visar något differentiellt uttryck (mRNA.P = 3,80 x ^10-1). Sökordet APBB2 träffade 27 publikationer i PubMed-databasen⁴⁰, men inga kopplingar till tjocktarmen eller tarmen upptäcktes.

En annan gen ENSG00000048052 (HDAC9, histondeacetylas 9) har de differentiellt representerade mqTrans-värdena (mqTrans.P = 6,09 x ^10-3) samtidigt som de bibehåller praktiskt taget samma normala fördelningar mellan fenotypgruppen och kontrollgruppen (mRNA.P = 9,62 x ^10-1). Sökordet HDAC9 nådde 417 publikationer i databasen PubMed. Tre studier nämnde även sökorden "kolon" eller "tarm" i abstrakten 41,42,43. Men ingen av dem undersökte HDAC9:s roll i tjocktarmscancer.

Data tyder på behovet av ytterligare utvärderingar av dessa mörka biomarkörer från deras post-transkriptionsaktiviteter, t.ex. de translaterade proteinnivåerna^44,45.

Pan-cancerfördelningar av metabolismrelaterade mörka och traditionella biomarkörer
De metabolismrelaterade traditionella biomarkörerna screenades och jämfördes med mörka biomarkörer för 26 cancertyper i TCGA-datasetet³⁸. Båda kategorierna av biomarkörer genomgick statistisk utvärdering för att urskilja signifikansnivåer över tidiga (stadium I och II) och sena (stadium III och IV) cancerstadier. Denna utvärdering använde Students t-tester för p-värden, som sedan korrigerades för multipla tester med hjälp av falska upptäcktsfrekvenser (FDR). Detaljerade uppgifter för var och en av de 26 cancertyperna finns i figur 8.

Gener som gav FDR-korrigerade p-värden under 0,05 klassificerades som traditionella biomarkörer. Däremot definierades mörka biomarkörer som de med FDR-korrigerade p-värden under 0,05 i mqTrans-vyn samtidigt som de inte uppvisade några statistiskt signifikanta skillnader i uttrycksnivåer.

Figur 9 visar en generell brist på mörka biomarkörer i jämförelse med traditionella biomarkörer för de flesta cancertyper. Anmärkningsvärda undantag inkluderar BRCA, MESO och TGCT, som uppvisar en större förekomst av mörka biomarkörer. Det avslöjas att olika faktorer, inklusive transkriptionsfaktorer, metyleringsmönster, genmutationer och miljöförhållanden, kan modulera transkriptionell dysreglering av dessa mörka biomarkörer. Ytterligare komplexitet kan uppstå på grund av överlappande icke-kodande RNA-transkript som kan förvirra uttrycksnivåerna av mörka biomarkörer. Transkriptionsdysregleringar av vissa mörka biomarkörer stöddes av deras differentiella proteinnivåer^44,45. De mörka biomarkörerna förbises ofta i traditionella studier och utgör spännande vägar för framtida mekanistiska undersökningar.

Bild 1: En översikt över modulerna HealthModel och funktionsval i det här protokollet. Ersätt de specifika algoritmerna i funktionsvalspoolen och klassificerarpoolen om användaren är bekant med Python-programmeringen. Klicka här för att se en större version av denna figur.

Bild 2: Slutför kodflödet för det här protokollet. (a) Förbered Python-miljön. Börja med att skapa en virtuell miljö och installera viktiga paket. För utförliga instruktioner, se avsnitt 1. (b) Generera mqTrans-funktioner. Hämta mqTrans-funktioner genom att köra den angivna koden steg för steg. Detaljerade förklaringar finns i avsnitt 2. (C) Välj mqTrans Features. Det här avsnittet fokuserar på att utvärdera mqTrans-funktionerna. Se avsnitt 3 för mer detaljerad information. Klicka här för att se en större version av denna figur.

Bild 3: Förbered miljön för Python. (A) Kommandot för att skapa healthmodel. (B) Ange y under skapandeprocessen för VE. (C) Det vanligaste kommandot för att aktivera VE. (D) Kommandot för installation av brännare 1.13.1. (E) Installera ytterligare bibliotek för fackelgeometriska paket. (F) Installera facklans geometriska paket. Klicka här för att se en större version av denna figur.

Bild 4: Kör HealthModel för att hämta mqTrans-funktionen. (A) Ladda ned koden. (B) Exemplet på datafilen. Varje kolumn har alla värden för en reglerande faktor, och det första objektet är gen-ID:t. Varje rad ger värdena för ett visst exempel, där det första objektet är exempelnamnet. (C) Exemplet med en etikettfil. Den första kolumnen innehåller exempelnamnen och klassetiketten för varje exempel anges i kolumnen med rubriken label. Värdet 0 i etikettkolumnen innebär att det här exemplet är levande, 1 betyder död. (D) Utdata från mqTrans. Klicka här för att se en större version av denna figur.

Bild 5: Kör algoritmen för funktionsval för mqTrans-funktionen. Resultatet av algoritmen för funktionsval visas för användaren. Klicka här för att se en större version av denna figur.

Bild 6: Den maximala testuppsättningsnoggrannheten för varje algoritm för funktionsval. Den vågräta axeln listar algoritmerna för funktionsval och den lodräta axeln ger värdena för noggrannhet. Histogrammen visar experimentella data för de tre inställningarna, dvs. mqTrans, mRNA, mRNA+mqTrans. Klicka här för att se en större version av denna figur.

Figur 7: Topp 50 mörka biomarkörer med de minsta p-värdena i mqTrans-vyn. Kolumnen "Dark Biomarker" ger namnen på de mörka biomarkörerna. Kolumnerna "mRNA.P" och "mqTrans.P" är de statistiska p-värdena för t-test mellan fenotypgruppen och kontrollgruppen. Bakgrundsfärgerna för p-värdena är färgade mellan p-värdena 1,00 (blå) och 0,00 (röd), och den vita färgen representerar p-värdet = 0,05. Klicka här för att se en större version av denna figur.

Figur 8: Detaljer om de 26 cancerformerna i The Cancer Genome Atlas (TCGA) i olika stadier. Kolumnerna "Kohort" och "Sjukdomsvävnad" beskriver patientgruppen och vävnaderna med sjukdom för varje dataset. De fyra sista kolumnerna anger antalet prover i utvecklingsstadierna I, II, III respektive IV. Klicka här för att se en större version av denna figur.

Figur 9: Antalet mörka biomarkörer och traditionella biomarkörer i 26 cancerformer. Den horisontella axeln listar de 26 cancertyperna. Den vertikala axeln anger antalet mörka biomarkörer och traditionella biomarkörer för dessa cancertyper. Klicka här för att se en större version av denna figur.

Kompletterande kodningsfil 1: HealthModel-mqTrans-v1-00.tar Klicka här för att ladda ner den här filen.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Avsnitt 2 (Använd den förtränade HealthModel för att generera mqTrans-funktionerna) i protokollet är det mest kritiska steget i det här protokollet. Efter att ha förberett beräkningsarbetsmiljön i avsnitt 1 genererar avsnitt 2 mqTrans-vyn av en transkriptomisk datauppsättning baserad på den förtränade stora referensmodellen. Avsnitt 3 är ett demonstrativt exempel på hur man väljer de genererade mqTrans-funktionerna för biomarkördetektion och prediktionsuppgifter. Användarna kan utföra andra transkriptomiska analyser på denna mqTrans-datauppsättning med hjälp av sina egna verktyg eller koder.

Det ursprungliga HealthModel-ramverket kan ytterligare förfina den förtränade HealthModel med hjälp av multitask-arkitekturen, enligt beskrivningen i²⁶. Det här protokollet fokuserar på användningen av den förtränade referensmodellen för att generera mqTrans-vyn för en transkriptomisk datauppsättning.

Standardmodellen för förtränad referens fastställdes på de friska proverna och kanske inte är ett bra val för vissa specifika uppgifter, t.ex. undersökningen mellan primär och metastaserad cancer. Beräkningshastigheten är också långsam för en stor transkriptomisk datamängd.

Betydelsen av detta protokoll är att ge en kompletterande mqTrans-vy av den mest rikligt tillgängliga OMIC-datatypen, dvs. transkriptom. Mörka biomarkörer kan avslöjas från de odifferentiellt uttryckta gener som ignoreras av den konventionella transkriptomiska analysen. En nyligen genomförd studie upptäckte sju mörka biomarkörer för metastaserad tjocktarmscancer (mCC) baserat på tre oberoende kohorter av totalt 805 prover, totalt⁴⁴. Mörka biomarkörer fick begränsade våtlabbsundersökningar på grund av deras odifferentiella uttryck. En av de detekterade mCC-mörka biomarkörerna YTHDC2 kodar dock för proteinet YTH-domänen innehållande 2, vars proteinnivåer observerades vara positivt korrelerade med metastaseringsstatusen hos humana magcancerceller⁴⁶ och tjocktarmscancer⁴⁷. Nya biologiska insikter om mörka biomarkörer återstår att lösa genom in vitro- och in vivo-teknologier.

Detta protokoll är utformat för att vara helt modulärt. Referensmodeller som är förtränade på andra stora datamängder som primär cancer kommer att underlätta undersökningen av tumörmetastaser. Detta protokoll kommer också att utforskas för tillämpningar inom andra livsdomäner, inklusive växter, svampar och mikrober.

Beräkningseffektiviteten för detta protokoll är planerad att förbättras genom parallellisering och algoritmisk optimering.

Detta protokoll beskriver proceduren för att transformera en transkriptomisk datauppsättning till en ny mqTrans-vy, och de transformerade mqTrans-värdena för en gen mäter kvantitativt transkriptionsregleringsförändringarna jämfört med referensproverna. En standardmodell tränades i förväg på de felfria transkriptomen och släpptes som referens HealthModel.

Källkoden för två nedströmsuppgifter tillhandahålls för att underlätta enkel användning av detta protokoll av biomedicinska forskare. Experimentella data visar att de transformerade mqTrans-funktionerna kan förbättra prediktionsuppgifterna med endast de ursprungliga uttrycksnivåerna. mqTrans-vyn kan också avslöja de latenta fenotypiska kopplingarna för vissa mörka biomarkörer utan differentiella uttryck i den ursprungliga transkriptomiska datan.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Författarna har inget att avslöja.

Acknowledgments

Detta arbete stöddes av Senior and Junior Technological Innovation Team (20210509055RQ), Guizhou Provincial Science and Technology Projects (ZK2023-297), Science and Technology Foundation of Health Commission of Guizhou Province (gzwkj2023-565), Science and Technology Project of Education Department of Jilin Province (JJKH20220245KJ and JJKH20220226SK), National Natural Science Foundation of China (U19A2061), Jilin Provincial Key Laboratory of Big Data Intelligent Computing (20180622002JC) och Grundforskningsfonderna för de centrala universiteten, JLU. Vi vill framföra vår uppriktiga uppskattning till recensionsredaktören och de tre anonyma granskarna för deras konstruktiva kritik, som har varit avgörande för att avsevärt förbättra noggrannheten och tydligheten i detta protokoll.

Materials

Name	Company	Catalog Number	Comments
Anaconda	Anaconda	version 2020.11	Python programming platform
Computer	N/A	N/A	Any general-purpose computers satisfy the requirement
GPU card	N/A	N/A	Any general-purpose GPU cards with the CUDA computing library
pytorch	Pytorch	version 1.13.1	Software
torch-geometric	Pytorch	version 2.2.0	Software