Biology

Generering af transkriptionsreguleringsvisning af transkriptomiske funktioner til forudsigelsesopgave og mørk biomarkørdetektion på små datasæt

Published: March 1, 2024 doi: 10.3791/66030

Kewei Li¹, Yusi Fan¹, Yaqing Liu¹, Hongmei Liu², Gongyou Zhang², Meiyu Duan¹, Lan Huang¹, Fengfeng Zhou¹

¹College of Computer Science and Technology, and Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education, Jilin University, ²School of Biology and Engineering, Guizhou Medical University

Summary

Her introducerer vi en protokol til konvertering af transkriptomiske data til en mqTrans-visning, der muliggør identifikation af mørke biomarkører. Selvom de ikke udtrykkes differentielt i konventionelle transkriptomiske analyser, udviser disse biomarkører differentiel ekspression i mqTrans-visningen. Tilgangen fungerer som en komplementær teknik til traditionelle metoder og afslører tidligere oversete biomarkører.

Abstract

Transkriptom repræsenterer ekspressionsniveauerne for mange gener i en prøve og har været meget udbredt i biologisk forskning og klinisk praksis. Forskere fokuserede normalt på transkriptomiske biomarkører med differentielle repræsentationer mellem en fænotypegruppe og en kontrolgruppe af prøver. Denne undersøgelse præsenterede en multitask graph-attention network (GAT) læringsramme for at lære de komplekse intergene interaktioner mellem referenceprøverne. En demonstrativ referencemodel blev forududdannet på de sunde prøver (HealthModel), som direkte kunne bruges til at generere den modelbaserede kvantitative transkriptionsreguleringsvisning (mqTrans) af de uafhængige testtranskriptomer. Den genererede mqTrans-visning af transkriptomer blev demonstreret ved forudsigelsesopgaver og mørk biomarkørdetektion. Det opfundne udtryk "mørk biomarkør" stammede fra dens definition af, at en mørk biomarkør viste differentiel repræsentation i mqTrans-visningen, men intet differentielt udtryk i dets oprindelige ekspressionsniveau. En mørk biomarkør blev altid overset i traditionelle biomarkørdetektionsstudier på grund af fraværet af differentiel ekspression. Kildekoden og manualen til rørledningen HealthModelPipe kan downloades fra http://www.healthinformaticslab.org/supp/resources.php.

Introduction

Transkriptom består af ekspressionerne af alle generne i en prøve og kan profileres af teknologier med høj kapacitet som microarray og RNA-seq¹. Ekspressionsniveauerne for et gen i et datasæt kaldes en transkriptomisk funktion, og differentiel repræsentation af en transkriptomisk funktion mellem fænotypen og kontrolgrupperne definerer dette gen som en biomarkør for denne fænotype ^2,3. Transkriptomiske biomarkører er blevet anvendt i vid udstrækning i undersøgelserne af sygdomsdiagnose⁴, biologisk mekanisme⁵ og overlevelsesanalyse ^6,7 osv.

Genaktivitetsmønstre i det sunde væv bærer afgørende information om livet ^8,9. Disse mønstre giver uvurderlig indsigt og fungerer som ideelle referencer til forståelse af de komplekse udviklingsbaner for godartede lidelser^10,11 og dødelige sygdomme¹². Gener interagerer med hinanden, og transkriptomer repræsenterer de endelige ekspressionsniveauer efter deres komplicerede interaktioner. Sådanne mønstre formuleres som transkriptionsreguleringsnetværk¹³ og metabolismenetværk¹⁴ osv. Ekspressionerne af messenger-RNA'er (mRNA'er) kan transkriptionelt reguleres af transkriptionsfaktorer (TF'er) og lange intergene ikke-kodende RNA'er (lincRNA'er)15,16,17. Konventionel differentialekspressionsanalyse ignorerede sådanne komplekse geninteraktioner med antagelsen om uafhængighed mellem funktioner^18,19.

Nylige fremskridt inden for grafneurale netværk (GNN'er) viser ekstraordinært potentiale i at udtrække vigtig information fra OMIC-baserede data til kræftstudier²⁰, f.eks. identifikation af co-ekspressionsmoduler²¹. GNN'ernes medfødte kapacitet gør dem ideelle til modellering af de indviklede forhold og afhængigheder mellem gener^22,23.

Biomedicinske undersøgelser fokuserer ofte på nøjagtigt at forudsige en fænotype mod kontrolgruppen. Sådanne opgaver er almindeligvis formuleret som binære klassifikationer 24,25,26. Her er de to klasseetiketter typisk kodet som 1 og 0, sandt og falsk, eller endda positivt og negativt²⁷.

Denne undersøgelse havde til formål at tilvejebringe en brugervenlig protokol til generering af transkriptionsreguleringsvisningen (mqTrans) af et transkriptomdatasæt baseret på den forududdannede grafopmærksomhedsnetværk (GAT) referencemodel. Multitask-GAT-rammen fra et tidligere offentliggjort værk²⁶ blev brugt til at transformere transkriptomiske funktioner til mqTrans-funktionerne. Et stort datasæt af sunde transkriptomer fra University of California, Santa Cruz (UCSC) Xena platform²⁸ blev brugt til at prætræne referencemodellen (HealthModel), som kvantitativt målte transkriptionsreglerne fra regulatoriske faktorer (TF'er og lincRNA'er) til mål-mRNA'erne. Den genererede mqTrans-visning kan bruges til at opbygge forudsigelsesmodeller og registrere mørke biomarkører. Denne protokol bruger patientdatasættet for kolonadenocarcinom (COAD) fra The Cancer Genome Atlas (TCGA) database²⁹ som et illustrativt eksempel. I denne sammenhæng kategoriseres patienter i trin I eller II som negative prøver, mens de i trin III eller IV betragtes som positive prøver. Fordelingen af mørke og traditionelle biomarkører på tværs af de 26 TCGA-kræfttyper sammenlignes også.

Beskrivelse af HealthModel-pipelinen
Den metode, der anvendes i denne protokol, er baseret på den tidligere offentliggjorte ramme²⁶ som skitseret i figur 1. Til at begynde med skal brugerne forberede inputdatasættet, indføre det i den foreslåede HealthModel-pipeline og hente mqTrans-funktioner. Detaljerede instruktioner til dataforberedelse findes i afsnit 2 i protokolafsnittet. Derefter har brugerne mulighed for at kombinere mqTrans-funktioner med de originale transkriptomiske funktioner eller kun fortsætte med de genererede mqTrans-funktioner. Det producerede datasæt underkastes derefter en proces til valg af funktioner, hvor brugerne har fleksibiliteten til at vælge deres foretrukne værdi for k i k-fold krydsvalidering til klassificering. Den primære evalueringsmetrik, der anvendes i denne protokol, er nøjagtighed.

HealthModel²⁶ kategoriserer de transkriptomiske egenskaber i tre forskellige grupper: TF (transkriptionsfaktor), lincRNA (langt intergent ikke-kodende RNA) og mRNA (messenger-RNA). TF-funktionerne er defineret ud fra de annoteringer, der er tilgængelige i Human Protein Atlas ^30,31. Dette arbejde udnytter annotationerne af lincRNA'er fra GTEx-datasættet³². Gener, der tilhører veje på tredje niveau i KEGG-databasen³³, betragtes som mRNA-funktioner. Det er værd at bemærke, at hvis en mRNA-funktion udviser regulatoriske roller for et målgen som dokumenteret i TRRUST-databasen³⁴, omklassificeres det til TF-klassen.

Denne protokol genererer også manuelt de to eksempelfiler for gen-id'erne for regulatoriske faktorer (regulatory_geneIDs.csv) og mål-mRNA (target_geneIDs.csv). Den parvise afstandsmatrix blandt de regulatoriske egenskaber (TF'er og lincRNA'er) beregnes ved hjælp af Pearson-korrelationskoefficienterne og grupperes af den populære værktøjsvægtede gen-co-ekspressionsnetværksanalyse (WGCNA)³⁶ (adjacent_matrix.csv). Brugere kan direkte bruge HealthModel-pipelinen sammen med disse eksempelkonfigurationsfiler til at generere mqTrans-visningen af et transkriptomisk datasæt.

Tekniske detaljer om HealthModel
HealthModel repræsenterer de indviklede forhold mellem TF'er og lincRNA'er som en graf, hvor inputfunktionerne tjener som hjørnerne betegnet med V og en inter-vertex kantmatrix udpeget som E. Hver prøve er kendetegnet ved K-regulatoriske træk, symboliseret som V^K×1. Specifikt omfattede datasættet 425 TF'er og 375 lincRNA'er, hvilket resulterede i en prøvedimensionalitet på K = 425 + 375 = 800. For at etablere kantmatrixen E anvendte dette arbejde det populære værktøj WGCNA³⁵. Den parvise vægt, der forbinder to hjørner repræsenteret som Equation 1 og Equation 2 , bestemmes af Pearson-korrelationskoefficienten. Det genregulerende netværk udviser en skalafri topologi³⁶, der er kendetegnet ved tilstedeværelsen af hubgener med centrale funktionelle roller. Vi beregner korrelationen mellem to funktioner eller hjørner og ved hjælp af det topologiske overlapningsmål (TOM) som følger:

Equation 3 (1)

Equation 4 (2)

Den bløde tærskel β beregnes ved hjælp af funktionen 'pickSoft Threshold' fra WGCNA-pakken. Effekteksponentialfunktionen a_ij anvendes, hvor Equation 5 repræsenterer et gen eksklusive i og j og Equation 6 repræsenterer toppunktforbindelsen. WGCNA grupperer ekspressionsprofilerne for de transkriptomiske træk i flere moduler ved hjælp af et almindeligt anvendt ulighedsmål ( Equation 7 ³⁷.

HealthModel-rammen blev oprindeligt designet som en multitask-læringsarkitektur²⁶. Denne protokol bruger kun modelfortræningsopgaven til konstruktion af den transkriptomiske mqTrans-visning. Brugeren kan vælge at forfine den forudtrænede HealthModel yderligere under opmærksomhedsnetværket for multitask-grafer med yderligere opgavespecifikke transkriptomiske prøver.

Tekniske detaljer om valg og klassificering af funktioner
Funktionsvalgspuljen implementerer elleve FS-algoritmer (feature selection). Blandt dem er tre filterbaserede FS-algoritmer: valg af K bedste funktioner ved hjælp af den maksimale informationskoefficient (SK_mic), valg af K-funktioner baseret på FPR for MIC (SK_fpr) og valg af K-funktioner med den højeste falske opdagelsesrate for MIC (SK_fdr). Derudover vurderer tre træbaserede FS-algoritmer individuelle funktioner ved hjælp af et beslutningstræ med Gini-indekset (DT_gini), adaptive boostede beslutningstræer (AdaBoost) og tilfældig skov (RF_fs). Puljen indeholder også to indpakningsmetoder: Rekursiv funktionseliminering med lineær støttevektorklassifikator (RFE_SVC) og eliminering af rekursiv funktion med den logistiske regressionsklassifikator (RFE_LR). Endelig er to integreringsalgoritmer inkluderet: lineær SVC-klassifikator med de højest rangerede L1-funktionsvigtighedsværdier (lSVC_L1) og logistisk regressionsklassifikator med de højest rangerede L1-funktionsvigtighedsværdier (LR_L1).

Klassifikatorpuljen anvender syv forskellige klassifikatorer til at opbygge klassificeringsmodeller. Disse klassifikatorer omfatter lineær støttevektormaskine (SVC), Gaussisk naiv Bayes (GNB), logistisk regressionsklassifikator (LR), k-nærmeste nabo, med k indstillet til 5 som standard (KNN), XGBoost, tilfældig skov (RF) og beslutningstræ (DT).

Den tilfældige opdeling af datasættet i toget: testundersæt kan indstilles på kommandolinjen. Det demonstrerede eksempel bruger forholdet mellem tog: test = 8: 2.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

BEMÆRK: Følgende protokol beskriver detaljerne i den informatiske analytiske procedure og Python-kommandoerne i de overordnede moduler. Figur 2 illustrerer de tre hovedtrin med eksempler på kommandoer, der anvendes i denne protokol, og henviser til tidligere offentliggjorte værker^26,38 for flere tekniske detaljer. Gør følgende protokol under en normal brugerkonto i et computersystem, og undgå at bruge administratoren eller root-kontoen. Dette er en beregningsprotokol og har ingen biomedicinske farlige faktorer.

1. Forbered Python-miljø

Opret et virtuelt miljø.
1. Denne undersøgelse brugte programmeringssproget Python og et virtuelt Python-miljø (VE) med Python 3.7. Følg disse trin (figur 3A):
  Conda Opret -n HealthModel python = 3.7
  conda create er kommandoen til at oprette en ny VE. Parameteren -n angiver navnet på det nye miljø, i dette tilfælde healthmodel. Og python=3.7 angiver den Python-version, der skal installeres. Vælg et foretrukket navn og Python-version, der understøtter ovenstående kommando.
2. Efter at have kørt kommandoen svarer outputtet til figur 3B. Indtast y og vent på, at processen er afsluttet.
Aktivér det virtuelle miljø
1. I de fleste tilfælde skal du aktivere den oprettede VE med følgende kommando (figur 3C):
  Conda aktiverer HealthModel
2. Følg de platformsspecifikke instruktioner for VE-aktiveringen, hvis nogle platforme kræver, at brugeren uploader de platformsspecifikke konfigurationsfiler til aktivering.
Installer PyTorch 1.13.1
1. PyTorch er en populær Python-pakke til kunstig intelligens (AI) algoritmer. Brug PyTorch 1.13.1, baseret på CUDA 11.7 GPU-programmeringsplatformen, som et eksempel. Find andre versioner på https://pytorch.org/get-started/previous-versions/. Brug følgende kommando (figur 3D):
  PIP3 Installer Torch TorchVision TorchAudio
  BEMÆRK: Det anbefales kraftigt at bruge PyTorch version 1.12 eller nyere. Ellers kan installation af den nødvendige pakke torch_geometric være udfordrende, som det fremgår af den officielle torch_geometric hjemmeside: https://pytorch-geometric.readthedocs.io/en/latest/install/installation.html.
Installer yderligere pakker til fakkelgeometrisk
1. Følg retningslinjerne på https://pytorch-geometric.readthedocs.io/en/latest/install/installation.html, installer følgende pakker: torch_scatter, torch_sparse, torch_cluster og torch_spline_conv ved hjælp af kommandoen (figur 3E):
  pip installere pyg_lib torch_scatter torch_sparse torch_cluster torch_spline_conv -f https://data.pyg.org/whl/torch-1.13.0+cu117.html
Installer fakkelgeometrisk pakke.
1. Denne undersøgelse kræver en specifik version, 2.2.0, af den fakkelgeometriske pakke. Kør kommandoen (figur 3F):
  PIP-installation torch_geometric==2.2.0
Installer andre pakker.
1. Pakker som pandaer er normalt tilgængelige som standard. Hvis ikke, skal du installere dem ved hjælp af pip-kommandoen. For eksempel, for at installere pandas og xgboost, kør:
  pip installere pandaer
  pip installere xgboost

2. Brug af den forududdannede HealthModel til at generere mqTrans-funktionerne

Download koden og den forudtrænede model.
1. Download koden og den prætrænede HealthModel fra hjemmesiden: http://www.healthinformaticslab.org/supp/resources.php, som hedder HealthModel-mqTrans-v1-00.tar.gz (figur 4A). Den downloadede fil kan dekomprimeres til en brugerdefineret sti. Den detaljerede formulering og de understøttende data for den implementerede protokol findes i²⁶.
Indfør parametrene for at køre HealthModel.
1. Først skal du ændre arbejdsmappen til mappen HealthModel-mqTrans i kommandolinjen. Brug følgende syntaks til at køre koden:
  python main.py
  Detaljerne vedrørende hver parameter og data, model og outputmapper er som følger:
  datamappe: Dette er kildedatamappen, og hver datafil er i csv-format. Denne datamappe indeholder to filer (se detaljerede beskrivelser i trin 2.3 og 2.4). Disse filer skal erstattes med personlige data.
  data.csv: Den transkriptomiske matrixfil. Den første række viser funktions-id'erne (eller gen-id'erne), og den første kolonne angiver eksempel-id'erne. Listen over gener inkluderer de regulatoriske faktorer (TF'er og lincRNA'er) og de regulerede mRNA-gener.
  label.csv: Eksempeletiketfilen. Den første kolonne viser eksempel-id'erne, og kolonnen med navnet "etiket" giver eksempeletiketten.
  modelmappe: Mappen til lagring af oplysninger om modellen:
  HealthModel.pth: Den forududdannede HealthModel.
  regulatory_geneIDs.csv: De regulatoriske gen-id'er, der anvendes i denne undersøgelse.
  target_geneIDs.csv: De målgener, der anvendes i denne undersøgelse.
  adjacent_matrix.csv: Den tilstødende matrix af regulatoriske gener.
  outputmappe: Outputfilerne skrives til denne mappe, oprettet af koden.
  test_target.csv: Genekspressionsværdien af målgener efter Z-normalisering og imputation.
  pred_target.csv: Den forudsagte genekspressionsværdi af målgener.
  mq_target.csv: Den forudsagte genekspressionsværdi af målgener.
Forbered den transkriptomiske matrixfil i csv-format.
1. Hver række repræsenterer en prøve, og hver kolonne repræsenterer et gen (figur 4B). Navngiv den transkriptomiske datamatrixfil som data.csv i datamappen .
  BEMÆRK: Denne fil kan genereres ved manuelt at gemme en datamatrix i .csv-format fra software som Microsoft Excel. Den transkriptomiske matrix kan også genereres ved computerprogrammering.
Forbered etiketfilen i csv-format.
1. I lighed med den transkriptomiske matrixfil skal du navngive etiketfilen som label.csv i datamappen (figur 4C).
  BEMÆRK: Den første kolonne angiver eksempelnavnene, og klasseetiketten for hvert eksempel er angivet i etiketten med kolonnetitlen. Værdien 0 i etiketkolonnen betyder, at denne prøve er negativ, 1 betyder en positiv prøve.
Generer mqTrans-funktionerne.
1. Kør følgende kommando for at generere mqTrans-funktionerne og få output vist i figur 4D. mqTrans-funktionerne genereres som filen ./output/mq_targets.csv, og etiketfilen gemmes igen som filen ./output/label.csv. For nemheds skyld ekstraheres de oprindelige ekspressionsværdier for mRNA-generne også som filen ./output/ test_target.csv.
  python ./Get_mqTrans/kode/main.py ./data ./Get_mqTrans/model ./output

3. Vælg mqTrans-funktioner

Syntaks for koden til valg af funktion
1. Først skal du ændre arbejdsmappen til mappen HealthModel-mqTrans . Brug følgende syntaks:
  python ./FS_classification/testMain.py
  Detaljerne for hver parameter er som følger:
  in-data-fil: Inputdatafilen
  in-label-file: Etiketten for inputdatafilen
  outputmappe: To outputfiler gemmes i denne mappe, herunder Output-score.xlsx (metoden til valg af funktion og nøjagtigheden af den tilsvarende klassifikator) og Output-SelectedFeatures.xlsx (de valgte funktionsnavne for hver algoritme til valg af funktioner).
  1. select_feature_number: Vælg antallet af funktioner, der spænder fra 1 til antallet af funktionerne i datafilen.
  2. test_size: Indstil forholdet mellem testprøven og split. For eksempel betyder 0,2, at inputdatasættet er tilfældigt opdelt i toget: testdelmængder i forholdet 0,8:0,2.
  3. kombiner: Hvis det er sandt, skal du kombinere to datafiler sammen for valg af funktioner, dvs. de oprindelige udtryksværdier og mqTrans-funktionerne. Hvis det er falsk, skal du bare bruge en datafil til valg af funktioner, dvs. de oprindelige udtryksværdier eller mqTrans-funktionerne.
  4. Kombiner fil: Hvis kombinationen er sand, skal du angive dette filnavn for at gemme den kombinerede datamatrix.
    BEMÆRK: Denne pipeline har til formål at demonstrere, hvordan de genererede mqTrans-funktioner fungerer på klassificeringsopgaver, og den bruger direkte filen, der genereres af afsnit 2, til følgende handlinger.
Kør algoritme til valg af funktioner til valg af mqTrans-funktioner.
1. Drej mejetærskeren =False , hvis brugeren vælger mqTrans-funktioner eller originale funktioner.
2. Vælg først 800 originale funktioner og opdel datasættet i tog: test = 0.8: 0.2:
  python ./FS_classification/testMain.py ./output/test_target.csv ./output/label.csv ./resultat 800 0.2 Falsk
3. Drej kombiner =Sand, hvis brugeren vil kombinere mqTrans-funktionerne med de oprindelige udtryksværdier for at vælge funktioner. Her er det demonstrative eksempel at vælge 800 funktioner og opdele datasættet i tog: test = 0.8: 0.2.2:
  python ./FS_classification/testMain.py ./output/mq_targets.csv ./output/label.csv ./result_combine 800 0.2 True ./output/test_target.csv
  BEMÆRK: Figur 5 viser outputoplysningerne. De supplerende filer, der kræves til denne protokol, findes i HealthModel-mqTrans-v1-00.tar mappe (supplerende kodningsfil 1).

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Evaluering af mqTrans-visningen af det transkriptomiske datasæt
Testkoden bruger elleve FS-algoritmer (feature selection) og syv klassifikatorer til at evaluere, hvordan den genererede mqTrans-visning af det transkriptomiske datasæt bidrager til klassificeringsopgaven (figur 6). Testdatasættet består af 317 colon adenocarcinom (COAD) fra The Cancer Genome Atlas (TCGA) database²⁹. COAD-patienterne i fase I eller II betragtes som de negative prøver, mens de i trin III eller IV er de positive.

Elleve FS-algoritmer implementeres i testkoden. Der er tre filterbaserede FS-algoritmer, herunder vælg K bedste funktioner efter MIC (SK_mic), vælg K-funktioner efter FPR for MIC (SK_fpr) og vælg K-funktioner efter den højeste FDR af MIC (SK_fpr). Tre træbaserede FS-algoritmer evaluerer de enkelte træk ved hjælp af et beslutningstræ med henholdsvis gini-indeks (DT_gini), de adaptive boostede beslutningstræer (AdaBoost) og den tilfældige skov (RF_fs). FS-puljen i testkoden evaluerer også to wrappers rekursiv funktionseliminering (RFE) med lineær supportvektorklassifikator (SVC) (RFE_SVC) og RFE med logistisk regressionsklassifikator (RFE_LR) og to indlejringsalgoritmer lineær SVC-klassifikator med de højest rangerede L1-funktionsvigtighedsværdier (lSVC_L1) og logistisk regressionsklassifikator med de højest rangerede L1-funktionsvigtighedsværdier (LR_L1).

Testkoden bygger klassificeringsmodellerne ved hjælp af syv klassifikatorer, herunder lineær støttevektormaskine (SVC), Gaussian Naïve Bayes (GNB), logistisk regressionsklassifikator (LR), k-nærmeste nabo, k-5 som standard (KNN), XGBoost, tilfældig skov (RF) og beslutningstræ (DT).

Figur 6 viser den maksimale testnøjagtighed af mqTrans-funktionerne, de originale mRNA-funktioner og den kombinerede delmængde af mRNA- og mqTrans-funktionerne, der anbefales af hver FS-algoritme.

De kombinerede funktionsundergrupper (mRNA+mqTrans) har opnået den højeste nøjagtighed 0,7656 på "SK_fpr" FS-metoden, bedre end de enkelte funktionstyper mqTrans (0,7188) og originalt mRNA (0,7188). Lignende mønstre kan observeres for de andre FS-algoritmer. Brugeren kan kontrollere de valgte funktioner i outputfilen Output-SelectedFeatures.csv.

Detektering af de mørke biomarkører
Tidligere undersøgelser viste eksistensen af de udifferentielt udtrykte gener med signifikant differentielt repræsenterede mqTrans-værdier mellem fænotypiske og kontrolgrupper 26,38,39. Disse gener kaldes mørke biomarkører, fordi traditionelle biomarkørdetektionsundersøgelser ignorerer dem ved deres udifferentierede udtryk. Den statistiske analysefunktion t.test i Microsoft Excel kan bruges til at definere en funktion, der udtrykkes forskelligt, hvis dens statistiske p-værdi er mindre end 0,05.

Blandt de 3062 funktioner med de genererede mqTrans-værdier blev 221 mørke biomarkører detekteret (figur 7). Det tredje rangerede gen ENSG00000163697 (APBB2, Amyloid Beta Precursor Protein Binding Family B Member 2) viser signifikant differentielt repræsenterede mqTrans-værdier (mqTrans.P = 2,03 x ^10-4), mens dets oprindelige ekspressionsniveau ikke viser nogen differentiel ekspression (mRNA.P = 3,80 x ^10-1). Nøgleordet APBB2 ramte 27 publikationer i PubMed-databasen⁴⁰, men der blev ikke fundet nogen forbindelser med tyktarmen eller tarmen.

Et andet gen ENSG00000048052 (HDAC9, Histone Deacetylase 9) har de differentielt repræsenterede mqTrans-værdier (mqTrans.P = 6,09 x ^10-3), samtidig med at de opretholder praktisk talt de samme normalfordelinger mellem fænotypiske og kontrolgrupper (mRNA.P = 9,62 x ^10-1). Nøgleordet HDAC9 ramte 417 publikationer i PubMed-databasen. Tre undersøgelser nævnte også nøgleordene "kolon" eller "tarm" i abstracts 41,42,43. Men ingen af dem undersøgte HDAC9's rolle i tyktarmskræft.

Dataene antydede nødvendigheden af yderligere evalueringer af disse mørke biomarkører fra deres posttranskriptionsaktiviteter, f.eks. de oversatte proteinniveauer^44,45.

Pan-cancer fordelinger af metabolisme-relaterede mørke og traditionelle biomarkører
De metabolismerelaterede traditionelle biomarkører blev screenet og sammenlignet med mørke biomarkører på tværs af 26 kræfttyper i TCGA-datasæt³⁸. Begge kategorier af biomarkører gennemgik statistisk evaluering for at skelne signifikansniveauer på tværs af tidlige (trin I og II) og sene (stadier III og IV) kræftstadier. Denne evaluering anvendte Student's t-tests for p-værdier, efterfølgende korrigeret for flere test ved hjælp af falske opdagelsesrater (FDR'er). Detaljerede data for hver af de 26 kræfttyper findes i figur 8.

Gener, der gav FDR-korrigerede p-værdier under 0,05, blev klassificeret som traditionelle biomarkører. I modsætning hertil blev mørke biomarkører defineret som dem med FDR-korrigerede p-værdier under 0,05 i mqTrans-visningen, mens de samtidig ikke udviste statistisk signifikante forskelle i ekspressionsniveauer.

Figur 9 viser en generel mangel på mørke biomarkører sammenlignet med traditionelle biomarkører på tværs af de fleste kræftformer. Bemærkelsesværdige undtagelser omfatter BRCA, MESO og TGCT, som manifesterer en større forekomst af mørke biomarkører. Det afsløres, at forskellige faktorer, herunder transkriptionsfaktorer, methyleringsmønstre, genmutationer og miljøforhold, kunne modulere transkriptionel dysregulering af disse mørke biomarkører. Yderligere kompleksitet kan opstå på grund af overlappende ikke-kodende RNA-transkripter, der kan forvirre ekspressionsniveauerne for mørke biomarkører. Transskriptionsdysreguleringer af nogle mørke biomarkører blev understøttet af deres differentielle proteinniveauer^44,45. De mørke biomarkører overses ofte i traditionelle studier og præsenterer spændende veje for fremtidige mekanistiske undersøgelser.

Figur 1: En oversigt over modulerne HealthModel og valg af funktioner i denne protokol. Udskift de specifikke algoritmer i funktionsvalgspuljen og klassificeringspuljen, hvis brugeren er fortrolig med Python-programmeringen. Klik her for at se en større version af denne figur.

Figur 2: Komplet kodeflow for denne protokol. (a) Forbered Python-miljø. Til at begynde med skal du oprette et virtuelt miljø og installere vigtige pakker. For omfattende instruktioner henvises til afsnit 1. (b) Generer mqTrans-funktioner. Hent mqTrans-funktioner ved at udføre den medfølgende kode trin for trin. Detaljerede forklaringer findes i afsnit 2. (c) Vælg mqTrans-funktioner. Dette afsnit fokuserer på at vurdere mqTrans-funktionerne. Se afsnit 3 for detaljerede oplysninger. Klik her for at se en større version af denne figur.

Figur 3: Forbered miljø til Python. (A) Kommandoen til at oprette sundhedsmodel. (B) Indtast y under oprettelsesprocessen VE. (C) Den mest almindelige kommando til aktivering af VE. (D) Kommandoen til installation af fakkel 1.13.1. (E) Installer yderligere biblioteker til fakkelgeometrisk pakke. (F) Installer brændergeometrisk pakke. Klik her for at se en større version af denne figur.

Figur 4: Kør HealthModel for at få mqTrans-funktionen. (A) Download koden. (B) Eksemplet med datafilen. Hver kolonne har alle værdierne for en regulatorisk faktor, og det første element er gen-ID'et. Hver række angiver værdierne for en given prøve, hvor det første element er eksempelnavnet. (C) Eksemplet på en etiketfil. Den første kolonne indeholder eksempelnavnene, og klasseetiketten for hvert eksempel er angivet i etiketten med kolonnetitlen. Værdien 0 i etiketkolonnen betyder, at denne prøve er i live, 1 betyder død. D) output fra mqTrans. Klik her for at se en større version af denne figur.

Figur 5: Kør algoritmen til valg af funktioner for funktionen mqTrans. Resultaterne af algoritmen til valg af funktioner vises til brugeren. Klik her for at se en større version af denne figur.

Figur 6: Den maksimale testsætnøjagtighed for hver algoritme til valg af funktioner. Den vandrette akse viser algoritmerne til valg af funktioner, og den lodrette akse giver værdierne for nøjagtigheder. Histogrammerne viser de eksperimentelle data for de tre indstillinger, dvs. mqTrans, mRNA, mRNA + mqTrans. Klik her for at se en større version af denne figur.

Figur 7: Top 50 mørke biomarkører med de mindste p-værdier i mqTrans-visningen. Kolonnen "Mørk biomarkør" giver de mørke biomarkørnavne. Kolonnerne "mRNA.P" og "mqTrans.P" er de statistiske t-test p-værdier mellem fænotypiske og kontrolgrupper. Baggrundsfarverne i p-værdierne farves mellem p-værdierne 1,00 (blå) og 0,00 (rød), og den hvide farve repræsenterer p-værdi = 0,05. Klik her for at se en større version af denne figur.

Figur 8: Detaljerne om de 26 kræftformer i The Cancer Genome Atlas (TCGA) på forskellige stadier. Kolonnerne "Kohorte" og "Sygdomsvæv" beskriver patientgruppen og væv med sygdom for hvert datasæt. De sidste fire kolonner angiver antallet af prøver i udviklingsstadierne I, II, III og IV. Klik her for at se en større version af denne figur.

Figur 9: Antallet af mørke biomarkører og traditionelle biomarkører i 26 kræftformer. Den vandrette akse viser de 26 kræftformer. Den lodrette akse angiver antallet af mørke biomarkører og traditionelle biomarkører for disse kræftformer. Klik her for at se en større version af denne figur.

Supplerende kodningsfil 1: HealthModel-mqTrans-v1-00.tar Klik her for at downloade denne fil.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Afsnit 2 (Brug den forudtrænede HealthModel til at generere mqTrans-funktionerne) i protokollen er det mest kritiske trin i denne protokol. Efter forberedelse af det beregningsmæssige arbejdsmiljø i afsnit 1 genererer afsnit 2 mqTrans-visningen af et transkriptomisk datasæt baseret på den forududdannede store referencemodel. Afsnit 3 er et demonstrativt eksempel på valg af de genererede mqTrans-funktioner til biomarkørdetektioner og forudsigelsesopgaver. Brugerne kan udføre andre transkriptomiske analyser på dette mqTrans-datasæt ved hjælp af deres egne værktøjer eller koder.

Den oprindelige HealthModel-ramme kan yderligere forfine den forudtrænede HealthModel ved hjælp af multitask-arkitekturen, som beskrevet i²⁶. Denne protokol fokuserer på brugen af den forudtrænede referencemodel til at generere mqTrans-visningen af et transkriptomisk datasæt.

Standardmodellen for prætrænet reference blev etableret på de raske prøver og er muligvis ikke et godt valg til nogle specifikke opgaver, f.eks. undersøgelsen mellem primær og metastatisk kræft. Beregningshastigheden er også langsom for et stort transkriptomisk datasæt.

Betydningen af denne protokol er at give en komplementær mqTrans-visning af den mest tilgængelige OMIC datatype, dvs. transkriptom. Mørke biomarkører kan afsløres fra de udifferentieret udtrykte gener, der ignoreres af den konventionelle transkriptomiske analyse. En nylig undersøgelse opdagede syv mørke biomarkører for metastatisk tyktarmskræft (mCC) baseret på tre uafhængige kohorter på 805 prøver i alt⁴⁴. Mørke biomarkører modtog begrænsede vådlaboratorieundersøgelser på grund af deres udifferentierede udtryk. Imidlertid koder en af de detekterede mCC mørke biomarkører YTHDC2 for proteinet YTH-domænet indeholdende 2, hvis proteinniveauer blev observeret at være positivt korreleret med metastasestatus for humane gastriske kræftceller⁴⁶ og tyktarmskræft⁴⁷. Nye biologiske indsigter i mørke biomarkører mangler stadig at blive løst gennem in vitro- og in vivo-teknologier.

Denne protokol er designet til at være fuldt modulær. Referencemodeller, der er forududdannet på andre store datasæt som primære kræftformer, vil lette undersøgelsen af tumormetastaser. Denne protokol vil også blive udforsket for applikationer i andre livsdomæner, herunder planter, svampe og mikrober.

Beregningseffektiviteten af denne protokol er planlagt til at blive forbedret gennem parallelisering og algoritmisk optimering.

Denne protokol beskriver proceduren til at transformere et transkriptomisk datasæt til en ny mqTrans-visning, og de transformerede mqTrans-værdier for et gen måler kvantitativt transkriptionsreguleringsændringerne sammenlignet med referenceprøverne. En standardmodel blev forududdannet på de sunde transkriptomer og frigivet som reference HealthModel.

Kildekoden til to downstream-opgaver leveres for at lette biomedicinske forskeres nemme udnyttelse af denne protokol. De eksperimentelle data viser, at de transformerede mqTrans-funktioner kunne forbedre forudsigelsesopgaverne ved kun at bruge de oprindelige udtryksniveauer. mqTrans-visningen kan også afsløre de latente fænotypiske forbindelser af nogle mørke biomarkører uden differentielle udtryk i de originale transkriptomiske data.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatterne har intet at afsløre.

Acknowledgments

Dette arbejde blev støttet af Senior og Junior Technological Innovation Team (20210509055RQ), Guizhou Provincial Science and Technology Projects (ZK2023-297), Science and Technology Foundation of Health Commission of Guizhou Province (gzwkj2023-565), Science and Technology Project of Education Department of Jilin Province (JJKH20220245KJ og JJKH20220226SK), National Natural Science Foundation of China (U19A2061), Jilin Provincial Key Laboratory of Big Data Intelligent Computing (20180622002JC) og grundforskningsfondene for de centrale universiteter, JLU. Vi udtrykker vores dybeste påskønnelse til anmeldelsesredaktøren og de tre anonyme korrekturlæsere for deres konstruktive kritik, som har været medvirkende til væsentligt at forbedre strengheden og klarheden i denne protokol.

Materials

Name	Company	Catalog Number	Comments
Anaconda	Anaconda	version 2020.11	Python programming platform
Computer	N/A	N/A	Any general-purpose computers satisfy the requirement
GPU card	N/A	N/A	Any general-purpose GPU cards with the CUDA computing library
pytorch	Pytorch	version 1.13.1	Software
torch-geometric	Pytorch	version 2.2.0	Software