Biology

Genereren van de transcriptionele regulatieweergave van transcriptomische kenmerken voor voorspellingstaak en detectie van donkere biomarkers op kleine datasets

Published: March 1, 2024 doi: 10.3791/66030

Kewei Li¹, Yusi Fan¹, Yaqing Liu¹, Hongmei Liu², Gongyou Zhang², Meiyu Duan¹, Lan Huang¹, Fengfeng Zhou¹

¹College of Computer Science and Technology, and Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education, Jilin University, ²School of Biology and Engineering, Guizhou Medical University

Summary

Hier introduceren we een protocol voor het converteren van transcriptomische gegevens naar een mqTrans-weergave, waardoor de identificatie van donkere biomarkers mogelijk wordt. Hoewel deze biomarkers niet differentieel tot expressie worden gebracht in conventionele transcriptomische analyses, vertonen ze differentiële expressie in de mqTrans-weergave. De aanpak dient als een aanvullende techniek op traditionele methoden en onthult eerder over het hoofd geziene biomarkers.

Abstract

Transcriptoom vertegenwoordigt de expressieniveaus van veel genen in een monster en wordt veel gebruikt in biologisch onderzoek en de klinische praktijk. Onderzoekers concentreerden zich meestal op transcriptomische biomarkers met differentiële representaties tussen een fenotypegroep en een controlegroep van monsters. Deze studie presenteerde een multitask graph-attention network (GAT) leerkader om de complexe intergene interacties van de referentiemonsters te leren. Een demonstratief referentiemodel werd vooraf getraind op de gezonde monsters (HealthModel), dat direct kon worden gebruikt om de modelgebaseerde kwantitatieve transcriptionele regulatie (mqTrans)-weergave van de onafhankelijke testtranscriptomen te genereren. De gegenereerde mqTrans-weergave van transcriptomen werd gedemonstreerd door voorspellingstaken en detectie van donkere biomarkers. De bedachte term "donkere biomarker" kwam voort uit de definitie dat een donkere biomarker differentiële representatie vertoonde in de mqTrans-weergave, maar geen differentiële expressie in het oorspronkelijke expressieniveau. Een donkere biomarker werd altijd over het hoofd gezien in traditionele biomarkerdetectiestudies vanwege de afwezigheid van differentiële expressie. De broncode en de handleiding van de pipeline HealthModelPipe zijn te downloaden van http://www.healthinformaticslab.org/supp/resources.php.

Introduction

Transcriptoom bestaat uit de expressies van alle genen in een monster en kan worden geprofileerd door high-throughput technologieën zoals microarray en RNA-seq¹. De expressieniveaus van één gen in een dataset worden een transcriptomisch kenmerk genoemd, en de differentiële representatie van een transcriptomisch kenmerk tussen het fenotype en de controlegroep definieert dit gen als een biomarker van dit fenotype ^2,3. Transcriptomische biomarkers zijn op grote schaal gebruikt bij het onderzoeken van ziektediagnose⁴, biologisch mechanisme⁵ en overlevingsanalyse ^6,7, enz.

Genactiviteitspatronen in de gezonde weefsels bevatten cruciale informatie over het leven ^8,9. Deze patronen bieden inzichten van onschatbare waarde en fungeren als ideale referenties voor het begrijpen van de complexe ontwikkelingstrajecten van goedaardige aandoeningen^10,11 en dodelijke ziekten¹². Genen interageren met elkaar en transcriptomen vertegenwoordigen de uiteindelijke expressieniveaus na hun gecompliceerde interacties. Dergelijke patronen worden geformuleerd als transcriptioneel regulatienetwerk¹³ en metabolismenetwerk¹⁴, enz. De expressies van boodschapper-RNA's (mRNA's) kunnen transcriptioneel worden gereguleerd door transcriptiefactoren (TF's) en lange intergene niet-coderende RNA's (lincRNA's)15,16,17. Conventionele differentiële expressieanalyse negeerde dergelijke complexe geninteracties met de aanname van onafhankelijkheid tussen kenmerken ^18,19.

Recente ontwikkelingen op het gebied van grafische neurale netwerken (GNN's) tonen een buitengewoon potentieel aan bij het extraheren van belangrijke informatie uit OMIC-gebaseerde gegevens voor kankerstudies²⁰, bijvoorbeeld het identificeren van co-expressiemodules²¹. De aangeboren capaciteit van GNN's maakt ze ideaal voor het modelleren van de ingewikkelde relaties en afhankelijkheden tussen genen^22,23.

Biomedische studies richten zich vaak op het nauwkeurig voorspellen van een fenotype ten opzichte van de controlegroep. Dergelijke taken worden gewoonlijk geformuleerd als binaire classificaties 24,25,26. Hier worden de twee klasselabels meestal gecodeerd als 1 en 0, waar en onwaar, of zelfs positief en negatief²⁷.

Deze studie had tot doel een gebruiksvriendelijk protocol te bieden voor het genereren van de transcriptionele regulatie (mqTrans)-weergave van een transcriptoomdataset op basis van het vooraf getrainde graph-attention network (GAT)-referentiemodel. Het multitask GAT-framework van een eerder gepubliceerd werk²⁶ werd gebruikt om transcriptomische functies te transformeren naar de mqTrans-functies. Een grote dataset van gezonde transcriptomen van het Xena-platform²⁸ van de University of California, Santa Cruz (UCSC) werd gebruikt om het referentiemodel (HealthModel) vooraf te trainen, dat kwantitatief de transcriptievoorschriften van de regulerende factoren (TF's en lincRNA's) tot de doel-mRNA's heeft gemeten. De gegenereerde mqTrans-weergave kan worden gebruikt om voorspellingsmodellen te bouwen en donkere biomarkers te detecteren. Dit protocol maakt gebruik van de patiëntdataset colonadenocarcinoom (COAD) uit de database van The Cancer Genome Atlas (TCGA)²⁹ als illustratief voorbeeld. In deze context worden patiënten in stadium I of II gecategoriseerd als negatieve monsters, terwijl patiënten in stadium III of IV als positieve monsters worden beschouwd. De verdelingen van donkere en traditionele biomarkers over de 26 TCGA-kankertypes worden ook vergeleken.

Beschrijving van de HealthModel-pijplijn
De methodologie die in dit protocol wordt gebruikt, is gebaseerd op het eerder gepubliceerde raamwerk²⁶, zoals geschetst in figuur 1. Om te beginnen moeten gebruikers de invoergegevensset voorbereiden, deze invoeren in de voorgestelde HealthModel-pijplijn en mqTrans-functies verkrijgen. Gedetailleerde instructies voor het opstellen van gegevens zijn te vinden in hoofdstuk 2 van het protocolgedeelte. Vervolgens hebben gebruikers de mogelijkheid om mqTrans-functies te combineren met de originele transcriptomische functies of alleen door te gaan met de gegenereerde mqTrans-functies. De geproduceerde dataset wordt vervolgens onderworpen aan een functieselectieproces, waarbij gebruikers de flexibiliteit hebben om hun voorkeurswaarde voor k te kiezen in k-voudige kruisvalidatie voor classificatie. De primaire evaluatiemaatstaf die in dit protocol wordt gebruikt, is nauwkeurigheid.

HealthModel²⁶ categoriseert de transcriptomische kenmerken in drie verschillende groepen: TF (transcriptiefactor), lincRNA (lang intergeen niet-coderend RNA) en mRNA (boodschapper-RNA). De TF-kenmerken worden gedefinieerd op basis van de annotaties die beschikbaar zijn in de Human Protein Atlas^30,31. Dit werk maakt gebruik van de annotaties van lincRNA's uit de GTEx-dataset³². Genen die behoren tot de routes op het derde niveau in de KEGG-database³³ worden beschouwd als mRNA-kenmerken. Het is vermeldenswaard dat als een mRNA-kenmerk regulerende rollen vertoont voor een doelgen, zoals gedocumenteerd in de TRRUST-database³⁴, het opnieuw wordt geclassificeerd in de TF-klasse.

Dit protocol genereert ook handmatig de twee voorbeeldbestanden voor de gen-ID's van regulerende factoren (regulatory_geneIDs.csv) en doel-mRNA (target_geneIDs.csv). De paarsgewijze afstandsmatrix tussen de regulerende kenmerken (TF's en lincRNA's) wordt berekend door de Pearson-correlatiecoëfficiënten en geclusterd door de populaire tool weighted gene co-expression network analysis (WGCNA)³⁶ (adjacent_matrix.csv). Gebruikers kunnen de HealthModel-pijplijn rechtstreeks gebruiken in combinatie met deze voorbeeldconfiguratiebestanden om de mqTrans-weergave van een transcriptomische gegevensset te genereren.

Technische details van HealthModel
HealthModel geeft de ingewikkelde relaties tussen TF's en lincRNA's weer als een grafiek, waarbij de invoerfuncties dienen als de hoekpunten die worden aangeduid met V en een intervertex-randmatrix die wordt aangeduid als E. Elk monster wordt gekenmerkt door K-regulerende kenmerken, gesymboliseerd als V^K×1. In het bijzonder omvatte de dataset 425 TF's en 375 lincRNA's, wat resulteerde in een monsterdimensionaliteit van K = 425 + 375 = 800. Om de randmatrix E vast te stellen, werd voor dit werk gebruik gemaakt van de populaire tool WGCNA³⁵. Het paarsgewijze gewicht dat twee hoekpunten met elkaar verbindt, weergegeven als Equation 1 en Equation 2 , wordt bepaald door de Pearson-correlatiecoëfficiënt. Het genregulerende netwerk vertoont een schaalvrije topologie³⁶, gekenmerkt door de aanwezigheid van hub-genen met een cruciale functionele rol. We berekenen de correlatie tussen twee objecten of hoekpunten, en , met behulp van de topologische overlapmaat (TOM) als volgt:

Equation 3 (1)

Equation 4 (2)

De zachte drempel β wordt berekend met behulp van de functie 'pickSoft Threshold' uit het WGCNA-pakket. De machtexponentiële functie a_ij wordt toegepast, waarbij Equation 5 een gen exclusief i en j wordt weergegeven, en Equation 6 de hoekpuntconnectiviteit wordt weergegeven. WGCNA clustert de expressieprofielen van de transcriptomische kenmerken in meerdere modules met behulp van een veelgebruikte ongelijkheidsmaat ( Equation 7 ³⁷.

Het HealthModel-raamwerk is oorspronkelijk ontworpen als een multitask-leerarchitectuur²⁶. Dit protocol maakt alleen gebruik van de pre-trainingstaak van het model voor de constructie van de transcriptomische mqTrans-weergave. De gebruiker kan ervoor kiezen om het vooraf getrainde HealthModel verder te verfijnen onder het multitask graph attention network met aanvullende taakspecifieke transcriptomische voorbeelden.

Technische details van de selectie en classificatie van functies
De functieselectiepool implementeert elf algoritmen voor functieselectie (FS). Onder hen zijn er drie op filters gebaseerde FS-algoritmen: het selecteren van de beste kenmerken van K met behulp van de maximale informatiecoëfficiënt (SK_mic), het selecteren van K-kenmerken op basis van de FPR van MIC (SK_fpr) en het selecteren van K-kenmerken met het hoogste percentage valse detectie van MIC (SK_fdr). Daarnaast beoordelen drie op bomen gebaseerde FS-algoritmen individuele kenmerken met behulp van een beslissingsboom met de Gini-index (DT_gini), adaptieve versterkte beslissingsbomen (AdaBoost) en willekeurig bos (RF_fs). De pool bevat ook twee wrapper-methoden: recursieve functie-eliminatie met de lineaire ondersteuningsvectorclassificatie (RFE_SVC) en recursieve functie-eliminatie met de logistische regressieclassificatie (RFE_LR). Ten slotte zijn er twee inbeddingsalgoritmen opgenomen: lineaire SVC-classificatie met de hoogst gerangschikte L1-functiebelangrijkheidswaarden (lSVC_L1) en logistische regressieclassificatie met de hoogst gerangschikte L1-functiebelangrijkheidswaarden (LR_L1).

De classificatiepool maakt gebruik van zeven verschillende classificaties om classificatiemodellen te bouwen. Deze classificaties bestaan uit lineaire ondersteuningsvectormachine (SVC), Gaussiaanse naïeve Bayes (GNB), logistische regressieclassificatie (LR), k-dichtstbijzijnde buur, waarbij k standaard is ingesteld op 5 (KNN), XGBoost, willekeurig bos (RF) en beslissingsboom (DT).

De willekeurige splitsing van de dataset in de trein: testsubsets kunnen worden ingesteld in de opdrachtregel. In het gedemonstreerde voorbeeld wordt de verhouding trein: test = 8: 2 gebruikt.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

OPMERKING: Het volgende protocol beschrijft de details van de informatica-analyseprocedure en Python-commando's van de belangrijkste modules. Figuur 2 illustreert de drie belangrijkste stappen met voorbeeldcommando's die in dit protocol worden gebruikt en verwijst naar eerder gepubliceerde werken^26,38 voor meer technische details. Voer het volgende protocol uit onder een normaal gebruikersaccount in een computersysteem en vermijd het gebruik van het beheerders- of rootaccount. Dit is een computationeel protocol en heeft geen biomedische gevaarlijke factoren.

1. Bereid de Python-omgeving voor

Creëer een virtuele omgeving.
1. In dit onderzoek is gebruik gemaakt van de programmeertaal Python en een virtuele Python-omgeving (VE) met Python 3.7. Volg deze stappen (Figuur 3A):
  conda create -n healthmodel python=3.7
  conda create is het commando om een nieuwe VE aan te maken. De parameter -n specificeert de naam van de nieuwe omgeving, in dit geval healthmodel. En python=3.7 specificeert de Python-versie die moet worden geïnstalleerd. Kies een voorkeursnaam en Python-versie die de bovenstaande opdracht ondersteunt.
2. Na het uitvoeren van de opdracht is de uitvoer vergelijkbaar met Figuur 3B. Voer y in en wacht tot het proces is voltooid.
Activeer de virtuele omgeving
1. Activeer in de meeste gevallen de aangemaakte VE met het volgende commando (Figuur 3C):
  Conda activeer HealthModel
2. Volg de platformspecifieke instructies voor de VE-activering, als sommige platforms vereisen dat de gebruiker de platformspecifieke configuratiebestanden uploadt voor activering.
Installeer PyTorch 1.13.1
1. PyTorch is een populair Python-pakket voor kunstmatige intelligentie (AI)-algoritmen. Gebruik PyTorch 1.13.1, gebaseerd op het CUDA 11.7 GPU-programmeerplatform, als voorbeeld. Andere versies vindt u op https://pytorch.org/get-started/previous-versions/. Gebruik het volgende commando (Figuur 3D):
  pip3 Installeer zaklamp Torchvision TorchAudio
  OPMERKING: Het gebruik van PyTorch versie 1.12 of nieuwer wordt sterk aanbevolen. Anders kan het installeren van de vereiste pakket torch_geometric een uitdaging zijn, zoals vermeld op de officiële torch_geometric website: https://pytorch-geometric.readthedocs.io/en/latest/install/installation.html.
Installeer extra pakketten voor toorts-geometrische
1. Volg de richtlijnen op https://pytorch-geometric.readthedocs.io/en/latest/install/installation.html en installeer de volgende pakketten: torch_scatter, torch_sparse, torch_cluster en torch_spline_conv met behulp van de opdracht (Afbeelding 3E):
  pip installeren pyg_lib torch_scatter torch_sparse torch_cluster torch_spline_conv -f https://data.pyg.org/whl/torch-1.13.0+cu117.html
Installeer het toorts-geometrische pakket.
1. Voor dit onderzoek is een specifieke versie, 2.2.0, van het toorts-geometrische pakket nodig. Voer de opdracht uit (Figuur 3F):
  pip installeren torch_geometric==2.2.0
Installeer andere pakketten.
1. Pakketten zoals panda's zijn meestal standaard beschikbaar. Als dit niet het geval is, installeert u ze met behulp van het pip-commando. Als u bijvoorbeeld panda's en xgboost wilt installeren, voert u het volgende uit:
  pip installeren panda's
  pip installeren xgboost

2. Het vooraf getrainde HealthModel gebruiken om de mqTrans-functies te genereren

Download de code en het vooraf getrainde model.
1. Download de code en het vooraf getrainde HealthModel van de website: http://www.healthinformaticslab.org/supp/resources.php, met de naam HealthModel-mqTrans-v1-00.tar.gz (Figuur 4A). Het gedownloade bestand kan worden gedecomprimeerd naar een door de gebruiker opgegeven pad. De gedetailleerde formulering en de ondersteunende gegevens van het geïmplementeerde protocol zijn te vinden in²⁶.
Introduceer de parameters om HealthModel uit te voeren.
1. Wijzig eerst de werkmap in de map HealthModel-mqTrans op de opdrachtregel. Gebruik de volgende syntaxis voor het uitvoeren van de code:
  Python main.py
  De details met betrekking tot elke parameter en de gegevens-, model- en uitvoermappen zijn als volgt:
  gegevensmap: Dit is de map met brongegevens en elk gegevensbestand heeft de csv-indeling. Deze gegevensmap bevat twee bestanden (zie gedetailleerde beschrijvingen in stap 2.3 en 2.4). Deze bestanden moeten worden vervangen door persoonsgegevens.
  data.csv: Het transcriptomische matrixbestand. De eerste rij bevat de kenmerk-ID's (of gen-ID's) en de eerste kolom geeft de voorbeeld-ID's. De lijst met genen omvat de regulerende factoren (TF's en lincRNA's) en de gereguleerde mRNA-genen.
  label.csv: Het voorbeeldlabelbestand. In de eerste kolom worden de voorbeeld-id's weergegeven en in de kolom met de naam 'label' wordt het voorbeeldlabel weergegeven.
  modelmap: De map om informatie over het model op te slaan:
  HealthModel.pth: Het vooraf getrainde HealthModel.
  regulatory_geneIDs.csv: De regulerende gen-ID's die in deze studie zijn gebruikt.
  target_geneIDs.csv: De doelgenen die in deze studie zijn gebruikt.
  adjacent_matrix.csv: De aangrenzende matrix van regulerende genen.
  uitvoermap: De uitvoerbestanden worden naar deze map geschreven, gemaakt door de code.
  test_target.csv: De genexpressiewaarde van doelgenen na Z-normalisatie en imputatie.
  pred_target.csv: De voorspelde genexpressiewaarde van doelgenen.
  mq_target.csv: De voorspelde genexpressiewaarde van doelgenen.
Bereid het transcriptomische matrixbestand voor in het csv-formaat.
1. Elke rij vertegenwoordigt een monster en elke kolom vertegenwoordigt een gen (Figuur 4B). Geef het transcriptomische gegevensmatrixbestand een naam als data.csv in de gegevensmap .
  OPMERKING: Dit bestand kan worden gegenereerd door handmatig een gegevensmatrix op te slaan in de .csv-indeling van software zoals Microsoft Excel. De transcriptomische matrix kan ook worden gegenereerd door computerprogrammering.
Bereid het labelbestand voor in het csv-formaat.
1. Net als bij het transcriptomische matrixbestand, geeft u het labelbestand een naam als label.csv in de gegevensmap (Afbeelding 4C).
  OPMERKING: De eerste kolom geeft de namen van de monsters en het klasselabel van elk monster wordt gegeven in de kolom met de titel label. De 0-waarde in de labelkolom betekent dat dit monster negatief is, 1 betekent een positief monster.
Genereer de mqTrans-functies.
1. Voer de volgende opdracht uit om de mqTrans-functies te genereren en de uitvoer op te halen die wordt weergegeven in afbeelding 4D. De mqTrans-functies worden gegenereerd als het bestand ./output/mq_targets.csv en het labelbestand wordt opnieuw opgeslagen als het bestand ./output/label.csv. Voor het gemak van verdere analyse worden de oorspronkelijke expressiewaarden van de mRNA-genen ook geëxtraheerd als het bestand ./output/ test_target.csv.
  python ./Get_mqTrans/code/main.py ./data ./Get_mqTrans/model ./output

3. Selecteer mqTrans-functies

Syntaxis van de functieselectiecode
1. Wijzig eerst de werkmap in de map HealthModel-mqTrans . Gebruik de volgende syntaxis:
  python ./FS_classification/testMain.py
  De details van elke parameter zijn als volgt:
  in-data-file: Het invoergegevensbestand
  in-label-file: Het label van het invoergegevensbestand
  uitvoermap: In deze map worden twee uitvoerbestanden opgeslagen, waaronder Output-score.xlsx (de methode voor het selecteren van functies en de nauwkeurigheid van de bijbehorende classificatie) en Output-SelectedFeatures.xlsx (de geselecteerde functienamen voor elk algoritme voor het selecteren van functies).
  1. select_feature_number: selecteer het aantal objecten, variërend van 1 tot het aantal objecten van het gegevensbestand.
  2. test_size: Stel de verhouding van het te splitsen testmonster in. 0,2 betekent bijvoorbeeld dat de ingevoerde dataset willekeurig wordt opgesplitst in de trein: testsubsets in de verhouding 0,8:0,2.
  3. combineren: Als dit waar is, combineert u twee gegevensbestanden voor het selecteren van functies, d.w.z. de oorspronkelijke expressiewaarden en de mqTrans-functies. Als deze niet waar is, gebruikt u slechts één gegevensbestand voor het selecteren van functies, d.w.z. de oorspronkelijke expressiewaarden of de mqTrans-functies.
  4. bestand combineren: Als combineren waar is, geeft u deze bestandsnaam op om de gecombineerde gegevensmatrix op te slaan.
    OPMERKING: Deze pijplijn is bedoeld om te demonstreren hoe de gegenereerde mqTrans-functies presteren op classificatietaken en maakt rechtstreeks gebruik van het bestand dat is gegenereerd door sectie 2 voor de volgende bewerkingen.
Voer het algoritme voor functieselectie uit voor de selectie van mqTrans-functies.
1. Draai combine = False als de gebruiker mqTrans-functies of originele functies selecteert.
2. Selecteer eerst 800 originele kenmerken en splits de dataset op in trein: test=0.8:0.2:
  python ./FS_classification/testMain.py ./output/test_target.csv ./output/label.csv ./result 800 0.2 Onwaar
3. Draai combine =True, als de gebruiker de mqTrans-functies wil combineren met de oorspronkelijke expressiewaarden om objecten te selecteren. Hier is het demonstratieve voorbeeld om 800 functies te selecteren en de dataset op te splitsen in trein: test=0.8:0.2:
  python ./FS_classification/testMain.py ./output/mq_targets.csv ./output/label.csv ./result_combine 800 0.2 True ./output/test_target.csv
  OPMERKING: Afbeelding 5 toont de uitvoerinformatie. De aanvullende bestanden die nodig zijn voor dit protocol bevinden zich in HealthModel-mqTrans-v1-00.tar map (Supplementary Coding File 1).

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Evaluatie van de mqTrans-weergave van de transcriptomische dataset
De testcode maakt gebruik van elf algoritmen voor functieselectie (FS) en zeven classificaties om te evalueren hoe de gegenereerde mqTrans-weergave van de transcriptomische dataset bijdraagt aan de classificatietaak (Afbeelding 6). De testdataset bestaat uit 317 colonadenocarcinoom (COAD) uit de database The Cancer Genome Atlas (TCGA)²⁹. De COAD-patiënten in stadium I of II worden beschouwd als de negatieve monsters, terwijl die in stadium III of IV de positieve zijn.

In de testcode zijn elf FS-algoritmen geïmplementeerd. Er zijn drie op filters gebaseerde FS-algoritmen, waaronder geselecteerde K-beste functies op basis van MIC (SK_mic), geselecteerde K-functies op basis van de FPR van MIC (SK_fpr) en geselecteerde K-functies op basis van de hoogste FDR van MIC (SK_fpr). Drie op bomen gebaseerde FS-algoritmen evalueren de individuele kenmerken door respectievelijk een beslissingsboom met gini-index (DT_gini), de adaptieve versterkte beslissingsbomen (AdaBoost) en het willekeurige bos (RF_fs). De FS-pool van de testcode evalueert ook twee wrappers recursieve functie-eliminatie (RFE) met de lineaire ondersteuningsvectorclassificatie (SVC) (RFE_SVC) en RFE met de logistische regressieclassificatie (RFE_LR), en twee inbeddingsalgoritmen lineaire SVC-classificatie met de best gerangschikte L1-functiebelangrijkheidswaarden (lSVC_L1) en logistieke regressieclassificatie met de hoogst gerangschikte L1-functiebelangrijkheidswaarden (LR_L1).

De testcode bouwt de classificatiemodellen met behulp van zeven classificaties, waaronder lineaire ondersteuningsvectormachine (SVC), Gaussiaanse naïeve Bayes (GNB), logistische regressieclassificatie (LR), k-dichtstbijzijnde buur, k-5 standaard (KNN), XGBoost, willekeurig bos (RF) en beslissingsboom (DT).

Figuur 6 toont de maximale testnauwkeurigheid van de mqTrans-kenmerken, de originele mRNA-kenmerken en de gecombineerde subset van de mRNA- en mqTrans-kenmerken die door elk FS-algoritme worden aanbevolen.

De gecombineerde kenmerksubsets (mRNA+mqTrans) hebben de hoogste nauwkeurigheid van 0,7656 bereikt op de "SK_fpr" FS-methode, beter dan de individuele kenmerktypen mqTrans (0,7188) en origineel mRNA (0,7188). Vergelijkbare patronen kunnen worden waargenomen voor de andere FS-algoritmen. De gebruiker kan de geselecteerde functies in het uitvoerbestand Output-SelectedFeatures.csv controleren.

Detectie van de donkere biomarkers
Eerdere studies toonden het bestaan aan van de niet-differentieel tot expressie gebrachte genen met significant differentieel vertegenwoordigde mqTrans-waarden tussen de fenotypische en controlegroepen 26,38,39. Deze genen worden donkere biomarkers genoemd omdat traditionele biomarkerdetectiestudies ze negeren door hun niet-differentiële expressies. De statistische analysefunctie t.test in Microsoft Excel kan worden gebruikt om een functie te definiëren die differentieel wordt uitgedrukt als de statistische p-waarde kleiner is dan 0,05.

Van de 3062 kenmerken met de gegenereerde mqTrans-waarden werden 221 donkere biomarkers gedetecteerd (Figuur 7). Het derde gen ENSG00000163697 (APBB2, Amyloid Beta Precursor Protein Binding Family B Member 2) vertoont significant differentieel vertegenwoordigde mqTrans-waarden (mqTrans.P = 2,03 x ^10-4), terwijl het oorspronkelijke expressieniveau geen differentiële expressie vertoont (mRNA.P = 3,80 x ^10-1). Het trefwoord APBB2 trof 27 publicaties in de PubMed-database⁴⁰, maar er werden geen verbanden met de dikke darm of darm gedetecteerd.

Een ander gen ENSG00000048052 (HDAC9, histondeacetylase 9) heeft de differentieel vertegenwoordigde mqTrans-waarden (mqTrans.P = 6,09 x ^10-3) met behoud van praktisch dezelfde normale verdelingen tussen de fenotypische en controlegroepen (mRNA.P = 9,62 x ^10-1). Het trefwoord HDAC9 bereikte 417 publicaties in de PubMed-database. Drie studies noemden ook de trefwoorden "dikke darm" of "darm" in de samenvattingen 41,42,43. Maar geen van hen onderzocht de rol van HDAC9 bij darmkanker.

De gegevens suggereerden de noodzaak van verdere evaluaties van deze donkere biomarkers op basis van hun post-transcriptieactiviteiten, bijvoorbeeld de vertaalde eiwitniveaus^44,45.

Pan-kanker distributies van metabolisme-gerelateerde donkere en traditionele biomarkers
De metabolismegerelateerde traditionele biomarkers werden gescreend en vergeleken met donkere biomarkers bij 26 soorten kanker in de TCGA-dataset³⁸. Beide categorieën biomarkers ondergingen een statistische evaluatie om significantieniveaus te onderscheiden in vroege (stadia I en II) en late (stadia III en IV) kankerstadia. Deze evaluatie maakte gebruik van Student's t-toetsen voor p-waarden, vervolgens gecorrigeerd voor meervoudige testen met behulp van valse ontdekkingspercentages (FDR's). Gedetailleerde gegevens voor elk van de 26 soorten kanker zijn te vinden in figuur 8.

Genen die FDR-gecorrigeerde p-waarden van minder dan 0,05 opleverden, werden geclassificeerd als traditionele biomarkers. Daarentegen werden donkere biomarkers gedefinieerd als biomarkers met FDR-gecorrigeerde p-waarden lager dan 0,05 in de mqTrans-weergave, terwijl ze tegelijkertijd geen statistisch significante verschillen in expressieniveaus vertoonden.

Figuur 9 onthult een algemene schaarste aan donkere biomarkers in vergelijking met traditionele biomarkers voor de meeste soorten kanker. Opmerkelijke uitzonderingen zijn BRCA, MESO en TGCT, die een grotere prevalentie van donkere biomarkers vertonen. Er wordt onthuld dat verschillende factoren, waaronder transcriptiefactoren, methylatiepatronen, genmutaties en omgevingsomstandigheden, de transcriptionele ontregeling van deze donkere biomarkers kunnen moduleren. Verdere complexiteit kan ontstaan als gevolg van overlappende niet-coderende RNA-transcripten die de expressieniveaus van donkere biomarkers kunnen verwarren. Transcriptie-ontregelingen van sommige donkere biomarkers werden ondersteund door hun differentiële eiwitniveaus^44,45. De donkere biomarkers worden vaak over het hoofd gezien in traditionele studies en bieden intrigerende wegen voor toekomstig mechanistisch onderzoek.

Figuur 1: Een overzicht van het HealthModel en de modules voor functieselectie in dit protocol. Vervang de specifieke algoritmen in de functieselectiegroep en de classificatiegroep als de gebruiker bekend is met de Python-programmering. Klik hier om een grotere versie van deze figuur te bekijken.

Figuur 2: Volledige codestroom voor dit protocol. (a) Bereid de Python-omgeving voor. Maak om te beginnen een virtuele omgeving en installeer essentiële pakketten. Voor uitgebreide instructies, zie hoofdstuk 1. (B) Genereer mqTrans-functies. Verkrijg mqTrans-functies door de verstrekte code stap voor stap uit te voeren. Gedetailleerde uitleg is te vinden in hoofdstuk 2. (C) Selecteer mqTrans-functies. Dit gedeelte richt zich op het beoordelen van de mqTrans-functies. Raadpleeg hoofdstuk 3 voor meer informatie. Klik hier om een grotere versie van deze figuur te bekijken.

Figuur 3: Omgeving voorbereiden voor Python. (A) De opdracht om een gezondheidsmodel te maken. (B) Voer y in tijdens het maken van VE. (C) Het meest voorkomende commando voor het activeren van de VE. (D) Het commando voor het installeren van toorts 1.13.1. (E) Installeer extra bibliotheken voor het toortsgeometrische pakket. (F) Installeer het toorts-geometrische pakket. Klik hier om een grotere versie van deze figuur te bekijken.

Afbeelding 4: Voer het HealthModel uit om de mqTrans-functie op te halen. (A) Download de code. (B) Het voorbeeld van het gegevensbestand. Elke kolom bevat alle waarden van een regulerende factor en het eerste item is de gen-ID. Elke rij geeft de waarden van een bepaald monster, waarbij het eerste item de naam van het monster is. (C) Het voorbeeld van een labelbestand. De eerste kolom geeft de namen van de steekproeven en het klasselabel van elk steekproef wordt gegeven in de kolom met de titel label. De 0-waarde in de labelkolom betekent dat dit monster leeft, 1 betekent dood. (D) de output van mqTrans. Klik hier om een grotere versie van deze figuur te bekijken.

Afbeelding 5: Voer het algoritme voor het selecteren van functies uit voor de functie mqTrans. De resultaten van het algoritme voor functieselectie worden aan de gebruiker getoond. Klik hier om een grotere versie van deze figuur te bekijken.

Afbeelding 6: De maximale nauwkeurigheid van de testset van elk algoritme voor het selecteren van functies. De horizontale as geeft de algoritmen voor het selecteren van functies weer en de verticale as geeft de waarden van de nauwkeurigheid weer. De histogrammen tonen de experimentele gegevens van de drie instellingen, d.w.z. mqTrans, mRNA, mRNA+mqTrans. Klik hier om een grotere versie van deze figuur te bekijken.

Figuur 7: Top 50 donkere biomarkers met de kleinste p-waarden in de mqTrans-weergave. De kolom "Dark Biomarker" geeft de namen van de donkere biomarkers. De kolommen "mRNA.P" en "mqTrans.P" zijn de statistische t-test p-waarden tussen de fenotypische en controlegroepen. De achtergrondkleuren van de p-waarden zijn gekleurd tussen de p-waarden 1,00 (blauw) en 0,00 (rood), en de witte kleur staat voor p-waarde = 0,05. Klik hier om een grotere versie van deze figuur te bekijken.

Figuur 8: De details van de 26 kankers in The Cancer Genome Atlas (TCGA) in verschillende stadia. De kolommen "Cohort" en "Ziekteweefsel" beschrijven voor elke dataset de patiëntengroep en de weefsels met ziekte. De laatste vier kolommen geven het aantal monsters in respectievelijk de ontwikkelingsstadia I, II, III en IV. Klik hier om een grotere versie van deze figuur te bekijken.

Figuur 9: Het aantal donkere biomarkers en traditionele biomarkers bij 26 kankers. Op de horizontale as staan de 26 soorten kanker. De verticale as geeft het aantal donkere biomarkers en traditionele biomarkers voor deze kankersoorten. Klik hier om een grotere versie van deze figuur te bekijken.

Aanvullend coderingsbestand 1: HealthModel-mqTrans-v1-00.tar Klik hier om dit bestand te downloaden.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Sectie 2 (Gebruik het vooraf getrainde HealthModel om de mqTrans-functies te genereren) van het protocol is de meest kritieke stap binnen dit protocol. Na het voorbereiden van de computationele werkomgeving in sectie 1, genereert sectie 2 de mqTrans-weergave van een transcriptomische dataset op basis van het vooraf getrainde grote referentiemodel. Sectie 3 is een demonstratief voorbeeld van het selecteren van de gegenereerde mqTrans-functies voor biomarkerdetecties en voorspellingstaken. De gebruikers kunnen andere transcriptomische analyses uitvoeren op deze mqTrans-dataset met behulp van hun eigen tools of codes.

Het oorspronkelijke HealthModel-framework kan het vooraf getrainde HealthModel verder verfijnen met behulp van de multitask-architectuur, zoals beschreven in²⁶. Dit protocol richt zich op het gebruik van het vooraf getrainde referentiemodel om de mqTrans-weergave van een transcriptomische dataset te genereren.

Het standaard vooraf getrainde referentiemodel is vastgesteld op de gezonde monsters en is mogelijk geen goede keuze voor sommige specifieke taken, bijvoorbeeld het onderzoek tussen de primaire en gemetastaseerde kankers. De rekensnelheid is ook traag voor een grote transcriptomische dataset.

Het belang van dit protocol is om een complementair mqTrans-beeld te bieden van het meest overvloedig beschikbare OMIC-gegevenstype, d.w.z. transcriptoom. Donkere biomarkers kunnen worden onthuld uit de ongedifferentieerd tot expressie gebrachte genen die worden genegeerd door de conventionele transcriptomische analyse. Een recente studie detecteerde zeven donkere biomarkers van uitgezaaide darmkanker (mCC) op basis van drie onafhankelijke cohorten van in totaal 805 monsters⁴⁴. Donkere biomarkers kregen beperkte nat-laboratoriumonderzoeken vanwege hun niet-differentiële expressies. Een van de gedetecteerde mCC donkere biomarker YTHDC2 codeert echter voor het eiwit YTH-domein dat 2 bevat, waarvan werd waargenomen dat de eiwitniveaus positief gecorreleerd waren met de metastasestatus van menselijke maagkankercellen⁴⁶ en darmkankers⁴⁷. Nieuwe biologische inzichten van donkere biomarkers moeten nog worden opgelost door middel van in-vitro- en in-vivotechnologieën.

Dit protocol is ontworpen om volledig modulair te zijn. Referentiemodellen die vooraf zijn getraind op andere grote datasets, zoals primaire kankers, zullen het onderzoek naar tumormetastasen vergemakkelijken. Dit protocol zal ook worden onderzocht voor toepassingen in andere levensdomeinen, waaronder planten, schimmels en microben.

Het is de bedoeling dat de rekenefficiëntie van dit protocol wordt verbeterd door parallellisatie en algoritmische optimalisatie.

Dit protocol beschrijft de procedure om een transcriptomische dataset te transformeren naar een nieuwe mqTrans-weergave, en de getransformeerde mqTrans-waarden van een gen meten kwantitatief de veranderingen in de transcriptieregulatie in vergelijking met de referentiemonsters. Een standaardmodel werd vooraf getraind op de gezonde transcriptomen en vrijgegeven als het referentie HealthModel.

De broncode van twee stroomafwaartse taken wordt verstrekt om het gemakkelijke gebruik van dit protocol door biomedische onderzoekers te vergemakkelijken. De experimentele gegevens laten zien dat de getransformeerde mqTrans-functies de voorspellingstaken kunnen verbeteren door alleen de oorspronkelijke expressieniveaus te gebruiken. De mqTrans-weergave kan ook de latente fenotypische verbindingen van sommige donkere biomarkers onthullen zonder differentiële expressies in de originele transcriptomische gegevens.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

De auteurs hebben niets te onthullen.

Acknowledgments

Dit werk werd ondersteund door het Senior en Junior Technological Innovation Team (20210509055RQ), Guizhou Provincial Science and Technology Projects (ZK2023-297), de Science and Technology Foundation of Health Commission van de provincie Guizhou (gzwkj2023-565), Science and Technology Project van het Education Department van de provincie Jilin (JJKH20220245KJ en JJKH20220226SK), de National Natural Science Foundation of China (U19A2061), het Jilin Provincial Key Laboratory of Big Data Intelligent Computing (20180622002JC), en de Fondsen voor Fundamenteel Onderzoek voor de Centrale Universiteiten, JLU. We betuigen onze oprechte waardering aan de review-editor en de drie anonieme reviewers voor hun constructieve kritiek, die een belangrijke rol heeft gespeeld bij het aanzienlijk verbeteren van de nauwkeurigheid en duidelijkheid van dit protocol.

Materials

Name	Company	Catalog Number	Comments
Anaconda	Anaconda	version 2020.11	Python programming platform
Computer	N/A	N/A	Any general-purpose computers satisfy the requirement
GPU card	N/A	N/A	Any general-purpose GPU cards with the CUDA computing library
pytorch	Pytorch	version 1.13.1	Software
torch-geometric	Pytorch	version 2.2.0	Software