Biology

Generering av transkripsjonsreguleringsvisning av transkriptomiske funksjoner for prediksjonsoppgave og mørk biomarkørdeteksjon på små datasett

Published: March 1, 2024 doi: 10.3791/66030

Kewei Li¹, Yusi Fan¹, Yaqing Liu¹, Hongmei Liu², Gongyou Zhang², Meiyu Duan¹, Lan Huang¹, Fengfeng Zhou¹

¹College of Computer Science and Technology, and Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education, Jilin University, ²School of Biology and Engineering, Guizhou Medical University

Summary

Her introduserer vi en protokoll for konvertering av transkriptomiske data til en mqTrans-visning, noe som muliggjør identifisering av mørke biomarkører. Selv om de ikke er differensielt uttrykt i konvensjonelle transkriptomiske analyser, viser disse biomarkørene differensielt uttrykk i mqTrans-visningen. Tilnærmingen fungerer som en komplementær teknikk til tradisjonelle metoder, og avdekker tidligere oversett biomarkører.

Abstract

Transkriptom representerer ekspresjonsnivåene av mange gener i en prøve og har vært mye brukt i biologisk forskning og klinisk praksis. Forskere fokuserte vanligvis på transkriptomiske biomarkører med differensielle representasjoner mellom en fenotypegruppe og en kontrollgruppe av prøver. Denne studien presenterte et læringsrammeverk for multitask graph-attention network (GAT) for å lære de komplekse intergeniske interaksjonene til referanseprøvene. En demonstrativ referansemodell var forhåndstrent på de friske prøvene (HealthModel), som kunne brukes direkte til å generere modellbasert kvantitativ transkripsjonsregulering (mqTrans) visning av de uavhengige testtranskriptomene. Den genererte mqTrans-visningen av transkriptomer ble demonstrert ved prediksjonsoppgaver og mørk biomarkørdeteksjon. Begrepet "mørk biomarkør" stammet fra definisjonen om at en mørk biomarkør viste differensiell representasjon i mqTrans-visningen, men ingen differensialuttrykk i sitt opprinnelige uttrykksnivå. En mørk biomarkør ble alltid oversett i tradisjonelle biomarkørdeteksjonsstudier på grunn av fravær av differensialuttrykk. Kildekoden og manualen for rørledningen HealthModelPipe kan lastes ned fra http://www.healthinformaticslab.org/supp/resources.php.

Introduction

Transkriptom består av uttrykkene av alle genene i en prøve og kan profileres av høykapasitetsteknologier som mikroarray og RNA-seq¹. Ekspresjonsnivåene til ett gen i et datasett kalles en transkriptomisk funksjon, og differensialrepresentasjonen av et transkriptomisk trekk mellom fenotype- og kontrollgruppene definerer dette genet som en biomarkør for denne fenotypen ^2,3. Transkriptomiske biomarkører har blitt mye brukt i undersøkelsene av sykdomsdiagnose⁴, biologisk mekanisme⁵ og overlevelsesanalyse ^6,7, etc.

Genaktivitetsmønstre i det friske vevet bærer viktig informasjon om livene ^8,9. Disse mønstrene gir uvurderlig innsikt og fungerer som ideelle referanser for å forstå de komplekse utviklingsbanene til godartede lidelser ^10,11 og dødelige sykdommer¹². Gener interagerer med hverandre, og transkriptomer representerer de endelige uttrykksnivåene etter deres kompliserte interaksjoner. Slike mønstre er formulert som transkripsjonsreguleringsnettverk¹³ og metabolismenettverk¹⁴, etc. Uttrykkene av budbringer-RNA (mRNA) kan transkripsjonelt reguleres av transkripsjonsfaktorer (TF) og lange intergeniske ikke-kodende RNA (lincRNAer)15,16,17. Konvensjonell differensialekspresjonsanalyse ignorerte slike komplekse geninteraksjoner med antagelsen om uavhengighet mellom funksjoner ^18,19.

Nylige fremskritt i grafnevrale nettverk (GNN) viser ekstraordinært potensial i å trekke ut viktig informasjon fra OMIC-baserte data for kreftstudier²⁰, for eksempel å identifisere co-uttrykksmoduler²¹. Den medfødte kapasiteten til GNN gjør dem ideelle for modellering av de intrikate forholdene og avhengighetene mellom gener^22,23.

Biomedisinske studier fokuserer ofte på nøyaktig å forutsi en fenotype mot kontrollgruppen. Slike oppgaver er vanligvis formulert som binære klassifikasjoner 24,25,26. Her er de to klasseetikettene vanligvis kodet som 1 og 0, sant og usant, eller til og med positivt og negativt²⁷.

Denne studien hadde som mål å gi en brukervennlig protokoll for generering av transkripsjonsregulering (mqTrans) visning av et transkriptomdatasett basert på den forhåndstrente graf-oppmerksomhetsnettverket (GAT) referansemodell. Multitask GAT-rammeverket fra et tidligere publisert arbeid²⁶ ble brukt til å transformere transkriptomiske funksjoner til mqTrans-funksjonene. Et stort datasett med friske transkriptomer fra University of California, Santa Cruz (UCSC) Xena-plattform²⁸ ble brukt til å forhåndstrene referansemodellen (HealthModel), som kvantitativt målte transkripsjonsforskriftene fra regulatoriske faktorer (TF og lincRNA) til mål-mRNAene. Den genererte mqTrans-visningen kan brukes til å bygge prediksjonsmodeller og oppdage mørke biomarkører. Denne protokollen bruker pasientdatasettet for kolonadenokarsinom (COAD) fra The Cancer Genome Atlas (TCGA) database²⁹ som et illustrerende eksempel. I denne sammenheng kategoriseres pasienter i stadium I eller II som negative prøver, mens de i stadium III eller IV regnes som positive prøver. Fordelingen av mørke og tradisjonelle biomarkører på tvers av de 26 TCGA-krefttypene sammenlignes også.

Beskrivelse av HealthModel-pipelinen
Metodikken som benyttes i denne protokollen er basert på det tidligere publiserte rammeverket²⁶, som skissert i figur 1. For å starte, må brukerne klargjøre inndatasettet, mate det inn i den foreslåtte HealthModel-pipelinen og få mqTrans-funksjoner. Detaljerte instruksjoner for dataforberedelse er gitt i avsnitt 2 i protokollseksjonen. Deretter har brukerne muligheten til å kombinere mqTrans-funksjoner med de originale transkriptomiske funksjonene eller bare fortsette med de genererte mqTrans-funksjonene. Det produserte datasettet blir deretter utsatt for en funksjonsvalgsprosess, der brukerne har fleksibilitet til å velge sin foretrukne verdi for k i k-fold kryssvalidering for klassifisering. Den primære evalueringsmålingen som brukes i denne protokollen, er nøyaktighet.

HealthModel²⁶ kategoriserer de transkriptomiske funksjonene i tre forskjellige grupper: TF (transkripsjonsfaktor), lincRNA (langt intergenisk ikke-kodende RNA) og mRNA (messenger RNA). TF-funksjonene er definert basert på merknadene som er tilgjengelige i Human Protein Atlas^30,31. Dette arbeidet benytter merknadene til lincRNA fra GTEx-datasettet³². Gener som tilhører tredjenivåbanene i KEGG-databasen³³ regnes som mRNA-egenskaper. Det er verdt å merke seg at hvis en mRNA-funksjon viser regulatoriske roller for et målgen som dokumentert i TRRUST-databasen³⁴, blir den omklassifisert til TF-klassen.

Denne protokollen genererer også manuelt de to eksempelfilene for gen-IDene til regulatoriske faktorer (regulatory_geneIDs.csv) og mål-mRNA (target_geneIDs.csv). Den parvise avstandsmatrisen mellom regulatoriske trekk (TF og lincRNA) beregnes av Pearson-korrelasjonskoeffisientene og grupperes av den populære verktøyvektede genkoekspresjonsnettverksanalysen (WGCNA) ³⁶ (adjacent_matrix.csv). Brukere kan bruke HealthModel-pipelinen direkte sammen med disse eksempelkonfigurasjonsfilene for å generere mqTrans-visningen av et transkriptomisk datasett.

Tekniske detaljer om HealthModel
HealthModel representerer de intrikate forholdene mellom TF og lincRNA som en graf, med inngangsfunksjonene som fungerer som hjørnene betegnet med V og en inter-toppunktkantmatrise betegnet som E. Hver prøve er preget av K-regulatoriske egenskaper, symbolisert som V^K×1. Spesifikt omfattet datasettet 425 TF og 375 lincRNA, noe som resulterte i en prøvedimensjonalitet på K = 425 + 375 = 800. For å etablere kantmatrisen E brukte dette arbeidet det populære verktøyet WGCNA³⁵. Den parvise vekten som forbinder to hjørner representert som Equation 1 og Equation 2 , bestemmes av Pearson-korrelasjonskoeffisienten. Det genregulerende nettverket utviser en skalafri topologi³⁶, preget av tilstedeværelsen av navgener med sentrale funksjonelle roller. Vi beregner korrelasjonen mellom to funksjoner eller toppunkter, og , ved hjelp av det topologiske overlappingsmålet (TOM) som følger:

Equation 3 (1)

Equation 4 (2)

Den myke terskelen β beregnes ved hjelp av funksjonen "pickSoft Threshold" fra WGCNA-pakken. Potenseksponentialfunksjonen a_ij brukes, der Equation 5 representerer et gen som ekskluderer i og j, og Equation 6 representerer toppunktforbindelsen. WGCNA grupperer uttrykksprofilene til de transkriptomiske trekkene i flere moduler ved hjelp av et vanlig ulikhetsmål ( Equation 7 ³⁷.

HealthModel-rammeverket ble opprinnelig designet som en multitask læringsarkitektur²⁶. Denne protokollen benytter bare modellens fortreningsoppgave for konstruksjon av den transkriptomiske mqTrans-visningen. Brukeren kan velge å videreutvikle den forhåndstrente HealthModel under multitask graph attention network med flere oppgavespesifikke transkriptomiske prøver.

Tekniske detaljer om funksjonsvalg og klassifisering
Funksjonsutvalget implementerer elleve algoritmer for funksjonsvalg (FS). Blant dem er tre filterbaserte FS-algoritmer: velge K beste funksjoner ved hjelp av maksimal informasjonskoeffisient (SK_mic), velge K-funksjoner basert på FPR for MIC (SK_fpr), og velge K-funksjoner med den høyeste falske oppdagelsesfrekvensen for MIC (SK_fdr). I tillegg vurderer tre trebaserte FS-algoritmer individuelle funksjoner ved hjelp av et beslutningstre med Gini-indeksen (DT_gini), adaptive boosted decision trees (AdaBoost) og random forest (RF_fs). Bassenget inneholder også to wrapper-metoder: Rekursiv funksjonseliminering med lineær støttevektorklassifiserer (RFE_SVC) og eliminering av rekursive funksjoner med logistisk regresjonsklassifiserer (RFE_LR). Til slutt inkluderes to innebyggingsalgoritmer: lineær SVC-klassifiserer med de topprangerte L1-funksjonsviktighetsverdiene (lSVC_L1) og logistisk regresjonsklassifiserer med de topprangerte L1-funksjonsviktighetsverdiene (LR_L1).

Klassifiseringsutvalget bruker syv forskjellige klassifiserere for å bygge klassifiseringsmodeller. Disse klassifisererne omfatter lineær støttevektormaskin (SVC), Gaussian Naïve Bayes (GNB), logistisk regresjonsklassifiserer (LR), k-nærmeste nabo, med k satt til 5 som standard (KNN), XGBoost, tilfeldig skog (RF) og beslutningstre (DT).

Den tilfeldige delingen av datasettet i toget: testundergrupper kan settes i kommandolinjen. Det demonstrerte eksemplet bruker forholdet mellom tog: test = 8: 2.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

MERK: Følgende protokoll beskriver detaljene for informatikkanalytisk prosedyre og Python-kommandoer for hovedmodulene. Figur 2 illustrerer de tre hovedtrinnene med eksempelkommandoer som brukes i denne protokollen og refererer til tidligere publiserte arbeider^26,38 for mer tekniske detaljer. Gjør følgende protokoll under en vanlig brukerkonto i et datasystem og unngå å bruke administratoren eller rotkontoen. Dette er en beregningsprotokoll og har ingen biomedisinske farlige faktorer.

1. Forbered Python-miljøet

Opprett et virtuelt miljø.
1. Denne studien brukte programmeringsspråket Python og et virtuelt Python-miljø (VE) med Python 3.7. Følg disse trinnene (figur 3A):
  conda create -n healthmodel python = 3.7
  conda create er kommandoen for å opprette en ny VE. Parameteren -n spesifiserer navnet på det nye miljøet, i dette tilfellet healthmodel. Og python = 3.7 spesifiserer Python-versjonen som skal installeres. Velg hvilket som helst foretrukket navn og Python-versjon som støtter kommandoen ovenfor.
2. Etter å ha kjørt kommandoen, er utgangen lik figur 3B. Enter y og vent til prosessen er fullført.
Aktiver det virtuelle miljøet
1. I de fleste tilfeller aktiverer du den opprettede VE-en med følgende kommando (figur 3C):
  Conda aktiverer HealthModel
2. Følg de plattformspesifikke instruksjonene for VE-aktivering hvis noen plattformer krever at brukeren laster opp de plattformspesifikke konfigurasjonsfilene for aktivering.
Installere PyTorch 1.13.1
1. PyTorch er en populær Python-pakke for algoritmer for kunstig intelligens (AI). Bruk PyTorch 1.13.1, basert på CUDA 11.7 GPU-programmeringsplattformen, som et eksempel. Finn andre versjoner på https://pytorch.org/get-started/previous-versions/. Bruk følgende kommando (figur 3D):
  pip3 installere lommelykt TorchVision TorchAudio
  MERK: Bruk av PyTorch versjon 1.12 eller nyere anbefales på det sterkeste. Ellers kan det være utfordrende å installere den nødvendige pakken torch_geometric , som nevnt på den offisielle torch_geometric nettsiden: https://pytorch-geometric.readthedocs.io/en/latest/install/installation.html.
Installer tilleggspakker for fakkel-geometriske
1. Etter retningslinjene på https://pytorch-geometric.readthedocs.io/en/latest/install/installation.html installerer du følgende pakker: torch_scatter, torch_sparse, torch_cluster og torch_spline_conv ved hjelp av kommandoen (figur 3E):
  pip installere pyg_lib torch_scatter torch_sparse torch_cluster torch_spline_conv -f https://data.pyg.org/whl/torch-1.13.0+cu117.html
Installer fakkel-geometrisk pakke.
1. Denne studien krever en spesifikk versjon, 2.2.0, av fakkel-geometriske pakken. Kjør kommandoen (figur 3F):
  pip installere torch_geometric==2.2.0
Installer andre pakker.
1. Pakker som pandaer er vanligvis tilgjengelige som standard. Hvis ikke, installer dem ved hjelp av pip-kommandoen. For eksempel, for å installere pandas og xgboost, kjør:
  pip installere pandaer
  pip installere xgboost

2. Bruke den forhåndstrente HealthModel til å generere mqTrans-funksjonene

Last ned koden og den forhåndsopplærte modellen.
1. Last ned koden og den forhåndstrente HealthModel fra nettsiden: http://www.healthinformaticslab.org/supp/resources.php, som heter HealthModel-mqTrans-v1-00.tar.gz (figur 4A). Den nedlastede filen kan dekomprimeres til en brukerspesifisert bane. Den detaljerte formuleringen og støttedataene til den implementerte protokollen finnes i²⁶.
Introduser parameterne for å kjøre HealthModel.
1. For det første, endre arbeidskatalogen til HealthModel-mqTrans-mappen på kommandolinjen. Bruk følgende syntaks for å kjøre koden:
  Python main.py
  Detaljene angående hver parameter og data-, modell- og utdatamappene er som følger:
  datamappe: Dette er kildedatamappen, og hver datafil er i csv-format. Denne datamappen har to filer (se detaljerte beskrivelser i trinn 2.3 og 2.4). Disse filene må erstattes med personopplysninger.
  data.csv: Den transkriptomiske matrisefilen. Den første raden viser funksjons-ID-ene (eller gen-ID-ene), og den første kolonnen viser eksempel-ID-ene. Listen over gener inkluderer regulatoriske faktorer (TF og lincRNA), og de regulerte mRNA-genene.
  label.csv: Eksempeletikettfilen. Den første kolonnen viser eksempel-ID-ene, og kolonnen med navnet "etikett" gir eksempeletiketten.
  modellmappe: Mappen for å lagre informasjon om modellen:
  HealthModel.pth: Den forhåndstrente HealthModel.
  regulatory_geneIDs.csv: De regulatoriske gen-IDene som er brukt i denne studien.
  target_geneIDs.csv: Målgenene som ble brukt i denne studien.
  adjacent_matrix.csv: Den tilstøtende matrisen av regulatoriske gener.
  utdatamappe: Utdatafilene skrives til denne mappen, opprettet av koden.
  test_target.csv: Genuttrykksverdien til målgener etter Z-normalisering og imputering.
  pred_target.csv: Den predikerte genuttrykksverdien av målgener.
  mq_target.csv: Den predikerte genuttrykksverdien av målgener.
Forbered den transkriptomiske matrisefilen i csv-formatet.
1. Hver rad representerer et utvalg, og hver kolonne representerer et gen (figur 4B). Navngi den transkriptomiske datamatrisefilen som data.csv i datamappen .
  MERK: Denne filen kan genereres ved å manuelt lagre en datamatrise i .csv format fra programvare som Microsoft Excel. Den transkriptomiske matrisen kan også genereres ved dataprogrammering.
Klargjør etikettfilen i csv-format.
1. I likhet med den transkriptomiske matrisefilen, navngi etikettfilen som label.csv i datamappen (figur 4C).
  MERK: Den første kolonnen gir eksempelnavnene, og klasseetiketten for hver prøve er gitt i kolonnen med tittelen etikett. 0-verdien i etikettkolonnen betyr at denne prøven er negativ, 1 betyr en positiv prøve.
Generer mqTrans-funksjonene.
1. Kjør følgende kommando for å generere mqTrans-funksjonene og få utgangene vist i figur 4D. mqTrans-funksjonene genereres som filen ./output/mq_targets.csv, og etikettfilen lagres på nytt som filen ./output/label.csv. For enkelhets skyld med videre analyse blir de opprinnelige ekspresjonsverdiene til mRNA-genene også ekstrahert som filen ./output/ test_target.csv.
  python ./Get_mqTrans/kode/main.py ./data ./Get_mqTrans/modell ./output

3. Velg mqTrans-funksjoner

Syntaks for funksjonsvalgkoden
1. For det første, endre arbeidskatalogen til HealthModel-mqTrans-mappen . Bruk følgende syntaks:
  python ./FS_classification/testMain.py
  Detaljene for hver parameter er som følger:
  in-data-fil: Inndatafilen
  in-label-file: Etiketten til inndatafilen
  Utdatamappe: To utdatafiler lagres i denne mappen, inkludert Output-score.xlsx (funksjonsvalgmetoden og nøyaktigheten til den tilsvarende klassifisereren) og Output-SelectedFeatures.xlsx (de valgte funksjonsnavnene for hver funksjonsvalgalgoritme).
  1. select_feature_number: Velg antall funksjoner, alt fra 1 til antall funksjoner i datafilen.
  2. test_size: Angi forholdet mellom testprøven som skal deles. For eksempel betyr 0,2 at inngangsdatasettet er tilfeldig delt inn i toget: testdelmengder med forholdet 0,8:0,2.
  3. kombinere: Hvis sant, kombiner to datafiler sammen for funksjonsvalg, dvs. de opprinnelige uttrykksverdiene og mqTrans-funksjonene. Hvis usant, bruk bare en datafil for funksjonsvalg, dvs. de opprinnelige uttrykksverdiene eller mqTrans-funksjonene.
  4. kombinere fil: Hvis kombiner er sant, angir du dette filnavnet for å lagre den kombinerte datamatrisen.
    MERK: Denne pipelinen tar sikte på å demonstrere hvordan de genererte mqTrans-funksjonene utfører på klassifiseringsoppgaver, og den bruker direkte filen som genereres av seksjon 2, for følgende operasjoner.
Kjør funksjonsvalgalgoritme for mqTrans-funksjonsvalg.
1. Slå kombinere = False hvis brukeren velger mqTrans funksjoner eller originale funksjoner.
2. Velg først 800 originale funksjoner og del datasettet i tog: test = 0.8: 0.2:
  python ./FS_classification/testMain.py ./output/test_target.csv ./output/label.csv ./result 800 0.2 False
3. Slå kombinere = True, hvis brukeren ønsker å kombinere mqTrans funksjoner med det opprinnelige uttrykket verdier for å velge funksjoner. Her er det demonstrative eksemplet å velge 800 funksjoner og dele datasettet i tog: test = 0.8: 0.2:
  python ./FS_classification/testMain.py ./output/mq_targets.csv ./output/label.csv ./result_combine 800 0.2 True ./output/test_target.csv
  MERK: Figur 5 viser utgangsinformasjonen. Tilleggsfilene som kreves for denne protokollen, er i HealthModel-mqTrans-v1-00.tar mappe (tilleggskodefil 1).

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Evaluering av mqTrans-visningen av det transkriptomiske datasettet
Testkoden bruker elleve funksjonsvalgalgoritmer (FS) og syv klassifiserere for å evaluere hvordan den genererte mqTrans-visningen av det transkriptomiske datasettet bidrar til klassifiseringsoppgaven (figur 6). Testdatasettet består av 317 kolonadenokarsinom (COAD) fra databasen The Cancer Genome Atlas (TCGA)²⁹. COAD-pasientene i stadium I eller II regnes som de negative prøvene, mens de i stadium III eller IV er de positive.

Elleve FS-algoritmer er implementert i testkoden. Det finnes tre filterbaserte FS-algoritmer, inkludert utvalgte K best features by MIC (SK_mic), select K features by the FPR of MIC (SK_fpr), og select K features by the highest FDR of MIC (SK_fpr). Tre trebaserte FS-algoritmer evaluerer de enkelte funksjonene ved et beslutningstre med gini-indeks (DT_gini), henholdsvis de adaptive boostede beslutningstrærne (AdaBoost) og den tilfeldige skogen (RF_fs). FS-poolen av testkoden evaluerer også to wrappere: rekursiv funksjonseliminering (RFE) med lineær støttevektorklassifiserer (SVC) (RFE_SVC) og RFE med logistisk regresjonsklassifiserer (RFE_LR), og to innebyggingsalgoritmer: lineær SVC-klassifiserer med topprangerte L1-funksjonsviktighetsverdier (lSVC_L1) og logistisk regresjonsklassifiserer med de topprangerte L1-funksjonsviktighetsverdiene (LR_L1).

Testkoden bygger klassifiseringsmodellene ved hjelp av syv klassifiserere, inkludert lineær støttevektormaskin (SVC), Gaussian Naïve Bayes (GNB), logistisk regresjonsklassifiserer (LR), k-nærmeste nabo, k-5 som standard (KNN), XGBoost, random forest (RF) og beslutningstre (DT).

Figur 6 viser maksimal testnøyaktighet for mqTrans-funksjonene, de originale mRNA-funksjonene og det kombinerte delsettet av mRNA- og mqTrans-funksjonene som anbefales av hver FS-algoritme.

De kombinerte funksjonsundergruppene (mRNA + mqTrans) har oppnådd den høyeste nøyaktigheten 0,7656 på "SK_fpr" FS-metoden, bedre enn de enkelte funksjonstypene mqTrans (0,7188) og original mRNA (0,7188). Lignende mønstre kan observeres for de andre FS-algoritmene. Brukeren kan sjekke de valgte funksjonene i utdatafilen Output-SelectedFeatures.csv.

Oppdage de mørke biomarkørene
Tidligere studier viste eksistensen av de udifferensielt uttrykte gener med signifikant differensielt representerte mqTrans-verdier mellom fenotypisk og kontrollgruppe 26,38,39. Disse genene kalles mørke biomarkører fordi tradisjonelle biomarkørdeteksjonsstudier ignorerer dem ved deres udifferensielle uttrykk. Den statistiske analysefunksjonen t.test i Microsoft Excel kan brukes til å definere en funksjon som uttrykkes differensielt hvis den statistiske p-verdien er mindre enn 0,05.

Blant de 3062 funksjonene med de genererte mqTrans-verdiene ble det påvist 221 mørke biomarkører (figur 7). Det tredje rangerte genet ENSG00000163697 (APBB2, Amyloid Beta Precursor Protein Binding Family B Member 2) viser signifikant differensielt representerte mqTrans-verdier (mqTrans.P = 2,03 x ^10-4), mens det opprinnelige uttrykksnivået ikke viser differensialuttrykk (mRNA.P = 3,80 x ^10-1). Søkeordet APBB2 traff 27 publikasjoner i PubMed-databasen⁴⁰, men det ble ikke påvist noen sammenhenger med tykktarm eller tarm.

Et annet gen ENSG00000048052 (HDAC9, histondeacetylase 9) har de differensielt representerte mqTrans-verdiene (mqTrans.P = 6,09 x ^10-3), samtidig som de opprettholder praktisk talt de samme normalfordelingene mellom fenotypisk og kontrollgruppen (mRNA.P = 9,62 x ^10-1). Søkeordet HDAC9 nådde 417 publikasjoner i PubMed-databasen. Tre studier nevnte også søkeordene "kolon" eller "tarm" i sammendragene 41,42,43. Men ingen av dem undersøkte rollene til HDAC9 i tykktarmskreft.

Dataene antydet nødvendigheten av ytterligere evalueringer av disse mørke biomarkørene fra deres posttranskripsjonsaktiviteter, for eksempel de oversatte proteinnivåene^44,45.

Pankreftfordelinger av stoffskifterelaterte mørke og tradisjonelle biomarkører
De metabolismerelaterte tradisjonelle biomarkørene ble screenet og sammenlignet med mørke biomarkører på tvers av 26 krefttyper i TCGA-datasettet³⁸. Begge kategorier av biomarkører gjennomgikk statistisk evaluering for å skille signifikansnivåer på tvers av tidlige (trinn I og II) og sene (trinn III og IV) kreftstadier. Denne evalueringen benyttet Student t-tester for p-verdier, senere korrigert for multippel testing ved hjelp av falske funnrater (FDRs). Detaljerte data for hver av de 26 krefttypene er gitt i figur 8.

Gener som ga FDR-korrigerte p-verdier under 0,05 ble klassifisert som tradisjonelle biomarkører. I motsetning til dette ble mørke biomarkører definert som de med FDR-korrigerte p-verdier under 0,05 i mqTrans-visningen, mens de samtidig ikke viste statistisk signifikante forskjeller i uttrykksnivåer.

Figur 9 viser en generell knapphet på mørke biomarkører sammenlignet med tradisjonelle biomarkører på tvers av de fleste krefttyper. Bemerkelsesverdige unntak inkluderer BRCA, MESO og TGCT, som manifesterer en større forekomst av mørke biomarkører. Det er avslørt at ulike faktorer, inkludert transkripsjonsfaktorer, metyleringsmønstre, genmutasjoner og miljøforhold, kan modulere transkripsjonell dysregulering av disse mørke biomarkørene. Ytterligere kompleksitet kan oppstå på grunn av overlappende ikke-kodende RNA-transkripsjoner som kan forvirre uttrykksnivåene til mørke biomarkører. Transkripsjonsdysreguleringer av noen mørke biomarkører ble støttet av deres differensielle proteinnivåer^44,45. De mørke biomarkørene blir ofte oversett i tradisjonelle studier og presenterer spennende veier for fremtidige mekanistiske undersøkelser.

Figur 1: En oversikt over HealthModel og funksjonsvalgmoduler i denne protokollen. Erstatt de bestemte algoritmene i funksjonsutvalgsutvalget og klassifiseringsutvalget hvis brukeren er kjent med Python-programmeringen. Klikk her for å se en større versjon av denne figuren.

Figur 2: Fullstendig kodeflyt for denne protokollen. (a) Forbered Python-miljø. For å begynne, opprett et virtuelt miljø og installer viktige pakker. For omfattende instruksjoner, se avsnitt 1. (B) Generer mqTrans-funksjoner. Få mqTrans-funksjoner ved å utføre den angitte koden trinn for trinn. Detaljerte forklaringer finnes i avsnitt 2. (c) Velg mqTrans-funksjoner. Denne delen fokuserer på å vurdere mqTrans-funksjonene. Se avsnitt 3 for utdypende detaljer. Klikk her for å se en større versjon av denne figuren.

Figur 3: Forbered miljøet for Python. (A) Kommandoen for å opprette helsemodell. (B) Angi y under oppretting av VE-prosessen. (C) Den vanligste kommandoen for å aktivere VE. (D) Kommandoen for å installere lommelykt 1.13.1. (E) Installer flere biblioteker for fakkel-geometrisk pakke. (F) Installer fakkel-geometrisk pakke. Klikk her for å se en større versjon av denne figuren.

Figur 4: Kjør HealthModel for å få mqTrans-funksjonen. (A) Last ned koden. (B) Eksemplet med datafil. Hver kolonne har alle verdiene til en regulatorisk faktor, og det første elementet er gen-ID. Hver rad gir verdiene til et gitt utvalg, der det første elementet er eksempelnavnet. (C) Eksemplet på en etikettfil. Den første kolonnen gir eksempelnavnene, og klasseetiketten for hver prøve er gitt i kolonnen med tittelen etikett. 0-verdien i etikettkolonnen betyr at denne prøven er levende, 1 betyr død. (D) utgangene fra mqTrans. Klikk her for å se en større versjon av denne figuren.

Figur 5: Kjør funksjonsvalgalgoritmen for mqTrans-funksjonen. Resultatene av funksjonsvalgalgoritmen vises til brukeren. Klikk her for å se en større versjon av denne figuren.

Figur 6: Den maksimale testsettnøyaktigheten for hver funksjonsvalgalgoritme. Den vannrette aksen viser funksjonsvalgalgoritmene, og den vertikale aksen angir verdiene for nøyaktigheter. Histogrammene viser eksperimentelle data for de tre innstillingene, dvs. mqTrans, mRNA, mRNA + mqTrans. Klikk her for å se en større versjon av denne figuren.

Figur 7: Topp 50 mørke biomarkører med de minste p-verdiene i mqTrans-visningen. Kolonnen "Dark Biomarker" gir de mørke biomarkørnavnene. Kolonnene "mRNA.P" og "mqTrans.P" er de statistiske t-test p-verdiene mellom fenotypisk og kontrollgruppen. Bakgrunnsfargene til p-verdiene farges mellom p-verdiene 1,00 (blå) og 0,00 (rød), og den hvite fargen representerer p-verdien = 0,05. Klikk her for å se en større versjon av denne figuren.

Figur 8: Detaljene om de 26 kreftformene i The Cancer Genome Atlas (TCGA) på forskjellige stadier. Kolonnene "Kohort" og "Sykdomsvev" beskriver pasientgruppen og vev med sykdom for hvert materiale. De fire siste kolonnene gir antall prøver i utviklingsstadiene I, II, III og IV, henholdsvis. Klikk her for å se en større versjon av denne figuren.

Figur 9: Antall mørke biomarkører og tradisjonelle biomarkører i 26 kreftformer. Den horisontale aksen viser de 26 krefttypene. Den vertikale aksen gir antall mørke biomarkører og tradisjonelle biomarkører for disse krefttypene. Klikk her for å se en større versjon av denne figuren.

Supplerende kodefil 1: HealthModel-mqTrans-v1-00.tar Klikk her for å laste ned denne filen.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Seksjon 2 (Bruk den forhåndstrente HealthModel til å generere mqTrans-funksjonene) i protokollen er det mest kritiske trinnet i denne protokollen. Etter å ha forberedt det beregningsmessige arbeidsmiljøet i seksjon 1, genererer seksjon 2 mqTrans-visningen av et transkriptomisk datasett basert på den forhåndstrente store referansemodellen. Seksjon 3 er et demonstrativt eksempel på å velge de genererte mqTrans-funksjonene for biomarkørdeteksjoner og prediksjonsoppgaver. Brukerne kan utføre andre transkriptomiske analyser på dette mqTrans-datasettet ved hjelp av egne verktøy eller koder.

Det opprinnelige HealthModel-rammeverket kan videreutvikle den forhåndstrente HealthModel ved hjelp av multitaskarkitekturen, som beskrevet i²⁶. Denne protokollen fokuserer på bruk av den forhåndstrente referansemodellen for å generere mqTrans-visningen av et transkriptomisk datasett.

Standard forhåndstrent referansemodell ble etablert på de friske prøvene og kan ikke være et godt valg for noen spesifikke oppgaver, for eksempel undersøkelsen mellom primær og metastatisk kreft. Beregningshastigheten er også langsom for et stort transkriptomisk datasett.

Betydningen av denne protokollen er å gi en komplementær mqTrans-visning av den mest tilgjengelige OMIC-datatypen, dvs. transkriptom. Mørke biomarkører kan avsløres fra de udifferensielt uttrykte genene som ignoreres av den konvensjonelle transkriptomiske analysen. En nylig studie oppdaget syv mørke biomarkører av metastatisk tykktarmskreft (mCC) basert på tre uavhengige kohorter av 805 prøver totalt⁴⁴. Mørke biomarkører fikk begrensede våtlaboratorieundersøkelser på grunn av deres udifferensielle uttrykk. Imidlertid koder en av de oppdagede mCC mørke biomarkørene YTHDC2 for proteinet YTH-domenet som inneholder 2, hvis proteinnivåer ble observert å være positivt korrelert med metastasestatusen til humane magekreftceller⁴⁶ og tykktarmskreft⁴⁷. Ny biologisk innsikt i mørke biomarkører gjenstår å bli løst gjennom in vitro og in vivo teknologier.

Denne protokollen er designet for å være fullt modulær. Referansemodeller som er forhåndstrent på andre store datasett som primære kreftformer, vil lette undersøkelsen av tumormetastase. Denne protokollen vil også bli utforsket for applikasjoner i andre livsdomener, inkludert planter, sopp og mikrober.

Beregningseffektiviteten til denne protokollen er planlagt å bli forbedret gjennom parallellisering og algoritmisk optimalisering.

Denne protokollen beskriver prosedyren for å transformere et transkriptomisk datasett til en ny mqTrans-visning, og de transformerte mqTrans-verdiene til et gen måler kvantitativt transkripsjonsreguleringsendringene sammenlignet med referanseprøvene. En standardmodell ble forhåndstrent på de friske transkriptomene og utgitt som referanse HealthModel.

Kildekoden til to nedstrømsoppgaver er gitt for å lette enkel utnyttelse av denne protokollen av biomedisinske forskere. De eksperimentelle dataene viser at de transformerte mqTrans-funksjonene kan forbedre prediksjonsoppgavene ved å bruke bare de opprinnelige uttrykksnivåene. mqTrans-visningen kan også avdekke de latente fenotypiske forbindelsene til noen mørke biomarkører uten differensialuttrykk i de opprinnelige transkriptomiske dataene.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatterne har ingenting å avsløre.

Acknowledgments

Dette arbeidet ble støttet av Senior and Junior Technological Innovation Team (20210509055RQ), Guizhou Provincial Science and Technology Projects (ZK2023-297), Science and Technology Foundation of Health Commission of Guizhou Province (gzwkj2023-565), Science and Technology Project of Education Department of Jilin Province (JJKH20220245KJ og JJKH20220226SK), National Natural Science Foundation of China (U19A2061), Jilin Provincial Key Laboratory of Big Data Intelligent Computing (20180622002JC), og de grunnleggende forskningsfondene for de sentrale universitetene, JLU. Vi uttrykker vår dypeste takknemlighet til redaktøren og de tre anonyme anmelderne for deres konstruktive kritikk, som har vært medvirkende til å vesentlig forbedre strengheten og klarheten i denne protokollen.

Materials

Name	Company	Catalog Number	Comments
Anaconda	Anaconda	version 2020.11	Python programming platform
Computer	N/A	N/A	Any general-purpose computers satisfy the requirement
GPU card	N/A	N/A	Any general-purpose GPU cards with the CUDA computing library
pytorch	Pytorch	version 1.13.1	Software
torch-geometric	Pytorch	version 2.2.0	Software