Biology

Generierung der Transkriptionsregulationsansicht von transkriptomischen Merkmalen für die Vorhersageaufgabe und die Detektion dunkler Biomarker auf kleinen Datensätzen

Published: March 1, 2024 doi: 10.3791/66030

Kewei Li¹, Yusi Fan¹, Yaqing Liu¹, Hongmei Liu², Gongyou Zhang², Meiyu Duan¹, Lan Huang¹, Fengfeng Zhou¹

¹College of Computer Science and Technology, and Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education, Jilin University, ²School of Biology and Engineering, Guizhou Medical University

Summary

Hier stellen wir ein Protokoll zur Umwandlung von transkriptomischen Daten in eine mqTrans-Ansicht vor, das die Identifizierung dunkler Biomarker ermöglicht. Während diese Biomarker in konventionellen transkriptomischen Analysen nicht differentiell exprimiert werden, zeigen sie in der mqTrans-Ansicht eine differentielle Expression. Der Ansatz dient als komplementäre Technik zu herkömmlichen Methoden und enthüllt bisher übersehene Biomarker.

Abstract

Das Transkriptom repräsentiert die Expressionsniveaus vieler Gene in einer Probe und wird in der biologischen Forschung und in der klinischen Praxis häufig verwendet. Die Forscher konzentrierten sich in der Regel auf transkriptomische Biomarker mit unterschiedlichen Repräsentationen zwischen einer Phänotypgruppe und einer Kontrollgruppe von Proben. In dieser Studie wurde ein Multitasking-Graph-Aufmerksamkeits-Netzwerk (GAT) Lernrahmen vorgestellt, um die komplexen intergenen Interaktionen der Referenzproben zu erlernen. An den gesunden Proben wurde ein demonstratives Referenzmodell (HealthModel) vortrainiert, das direkt zur Generierung der modellbasierten quantitativen Transkriptionsregulation (mqTrans) der unabhängigen Testtranskriptome verwendet werden konnte. Die generierte mqTrans-Ansicht von Transkriptomen wurde durch Vorhersageaufgaben und die Detektion dunkler Biomarker demonstriert. Der geprägte Begriff "dunkler Biomarker" rührt von seiner Definition her, dass ein dunkler Biomarker in der mqTrans-Ansicht eine differentielle Repräsentation zeigte, aber keine differentielle Expression in seinem ursprünglichen Expressionsniveau. Ein dunkler Biomarker wurde in traditionellen Biomarker-Nachweisstudien aufgrund des Fehlens einer differentiellen Expression immer übersehen. Der Quellcode und das Handbuch der Pipeline HealthModelPipe können von http://www.healthinformaticslab.org/supp/resources.php heruntergeladen werden.

Introduction

Das Transkriptom besteht aus der Expression aller Gene in einer Probe und kann mit Hochdurchsatztechnologien wie Microarray und RNA-seq¹ profiliert werden. Die Expressionsniveaus eines Gens in einem Datensatz werden als transkriptomisches Merkmal bezeichnet, und die differentielle Repräsentation eines transkriptomischen Merkmals zwischen dem Phänotyp und der Kontrollgruppe definiert dieses Gen als Biomarker für diesen Phänotyp ^2,3. Transkriptomische Biomarker wurden in großem Umfang bei der Untersuchung der Krankheitsdiagnose⁴, des biologischen Mechanismus⁵ und der Überlebensanalyse ^6,7 usw. eingesetzt.

Genaktivitätsmuster in den gesunden Geweben enthalten wichtige Informationen über das Leben ^8,9. Diese Muster bieten unschätzbare Erkenntnisse und dienen als ideale Referenzen für das Verständnis der komplexen Entwicklungsverläufe von gutartigen Erkrankungen^10,11 und tödlichen Erkrankungen¹². Gene interagieren miteinander, und Transkriptome stellen die endgültigen Expressionsniveaus nach ihren komplizierten Interaktionen dar. Solche Muster werden als transkriptionelles Regulationsnetzwerk¹³ und Stoffwechselnetzwerk¹⁴ usw. formuliert. Die Expression von Boten-RNAs (mRNAs) kann durch Transkriptionsfaktoren (TFs) und lange intergene nicht-kodierende RNAs (lincRNAs) transkriptionell reguliert werden15,16,17. Die konventionelle differentielle Expressionsanalyse ignorierte solche komplexen Geninteraktionen mit der Annahme der Unabhängigkeit zwischen den Merkmalen^18,19.

Jüngste Fortschritte bei neuronalen Graphennetzen (GNNs) zeigen ein außerordentliches Potenzial bei der Extraktion wichtiger Informationen aus OMIC-basierten Daten für Krebsstudien²⁰, z. B. die Identifizierung von Co-Expressionsmodulen²¹. Die angeborene Kapazität von GNNs macht sie ideal für die Modellierung der komplizierten Beziehungen und Abhängigkeiten zwischen Genen^22,23.

Biomedizinische Studien konzentrieren sich oft auf die genaue Vorhersage eines Phänotyps im Vergleich zur Kontrollgruppe. Solche Aufgaben werden üblicherweise als binäre Klassifikationen²⁴^, ²⁵^, ²⁶ formuliert. Hier werden die beiden Klassenbezeichnungen in der Regel als 1 und 0, wahr und falsch oder sogar positiv und negativ²⁷ codiert.

Ziel dieser Studie war es, ein einfach zu verwendendes Protokoll zur Generierung der Transkriptionsregulation (mqTrans) eines Transkriptom-Datensatzes auf der Grundlage des vortrainierten Graph-Attention-Netzwerks (GAT) Referenzmodells bereitzustellen. Das Multitasking-GAT-Framework aus einer zuvor veröffentlichten Arbeit²⁶ wurde verwendet, um transkriptomische Merkmale in die mqTrans-Merkmale umzuwandeln. Ein großer Datensatz gesunder Transkriptome der Xena-Plattform²⁸ der University of California, Santa Cruz (UCSC) wurde verwendet, um das Referenzmodell (HealthModel) vorzutrainieren, das die Transkriptionsregulation von den regulatorischen Faktoren (TFs und lincRNAs) zu den Ziel-mRNAs quantitativ maß. Die generierte mqTrans-Ansicht könnte verwendet werden, um Vorhersagemodelle zu erstellen und dunkle Biomarker zu erkennen. Dieses Protokoll verwendet den Patientendatensatz für Dickdarmadenokarzinome (COAD) aus der Datenbank 29 des Cancer Genome Atlas (TCGA)²⁹ als anschauliches Beispiel. In diesem Zusammenhang werden Patienten in den Stadien I oder II als negative Proben eingestuft, während Patienten in den Stadien III oder IV als positive Proben gelten. Die Verteilungen von dunklen und traditionellen Biomarkern über die 26 TCGA-Krebsarten hinweg werden ebenfalls verglichen.

Beschreibung der HealthModel-Pipeline
Die in diesem Protokoll verwendete Methodik basiert auf dem zuvor veröffentlichten Framework²⁶, wie in Abbildung 1 skizziert. Zu Beginn müssen die Benutzer den Eingabedatensatz vorbereiten, ihn in die vorgeschlagene HealthModel-Pipeline einspeisen und mqTrans-Funktionen abrufen. Detaillierte Anweisungen zur Datenaufbereitung finden Sie in Abschnitt 2 des Protokollabschnitts. Anschließend haben Benutzer die Möglichkeit, mqTrans-Merkmale mit den ursprünglichen transkriptomischen Merkmalen zu kombinieren oder nur mit den generierten mqTrans-Merkmalen fortzufahren. Der erzeugte Datensatz wird dann einem Merkmalsauswahlprozess unterzogen, wobei die Benutzer die Flexibilität haben, ihren bevorzugten Wert für k in der k-fachen Kreuzvalidierung für die Klassifizierung zu wählen. Die primäre Bewertungsmetrik, die in diesem Protokoll verwendet wird, ist die Genauigkeit.

HealthModel²⁶ kategorisiert die transkriptomischen Merkmale in drei verschiedene Gruppen: TF (Transkriptionsfaktor), lincRNA (lange intergene nicht-kodierende RNA) und mRNA (Boten-RNA). Die TF-Merkmale werden auf der Grundlage der im Human Protein Atlas^30,31 verfügbaren Annotationen definiert. In dieser Arbeit werden die Annotationen von lincRNAs aus dem GTEx-Datensatz³² verwendet. Gene, die zu den Signalwegen der dritten Ebene in der KEGG-Datenbank³³ gehören, werden als mRNA-Merkmale betrachtet. Es ist erwähnenswert, dass, wenn ein mRNA-Merkmal regulatorische Rollen für ein Zielgen aufweist, wie es in der TRRUST-Datenbank³⁴ dokumentiert ist, es in die TF-Klasse umklassifiziert wird.

Dieses Protokoll generiert auch manuell die beiden Beispieldateien für die Gen-IDs der regulatorischen Faktoren (regulatory_geneIDs.csv) und der Ziel-mRNA (target_geneIDs.csv). Die paarweise Distanzmatrix zwischen den regulatorischen Merkmalen (TFs und lincRNAs) wird mit den Pearson-Korrelationskoeffizienten berechnet und mit der beliebten toolgewichteten Gen-Co-Expressions-Netzwerkanalyse (WGCNA)³⁶ (adjacent_matrix.csv) geclustert. Benutzer können die HealthModel-Pipeline zusammen mit diesen Beispielkonfigurationsdateien direkt verwenden, um die mqTrans-Ansicht eines transkriptomischen Datensatzes zu generieren.

Technische Details von HealthModel
HealthModel stellt die komplizierten Beziehungen zwischen TFs und lincRNAs als Graph dar, wobei die Eingabemerkmale als die mit V bezeichneten Eckpunkte und eine als E bezeichnete Zwischenscheitelpunktkantenmatrix dienen. Jede Probe ist durch K-Regulationsmerkmale gekennzeichnet, die als V^K×1 symbolisiert sind. Konkret umfasste der Datensatz 425 TFs und 375 lincRNAs, was zu einer Probendimensionalität von K = 425 + 375 = 800 führte. Um die Kantenmatrix E zu ermitteln, wurde in dieser Arbeit das beliebte Werkzeug WGCNA³⁵ verwendet. Die paarweise Gewichtung, die zwei Scheitelpunkte verbindet, die als und Equation 2 dargestellt werden Equation 1 , wird durch den Pearson-Korrelationskoeffizienten bestimmt. Das genregulatorische Netzwerk weist eine skalenfreie Topologie³⁶ auf, die durch das Vorhandensein von Hub-Genen mit zentralen funktionellen Rollen gekennzeichnet ist. Wir berechnen die Korrelation zwischen zwei Features oder Stützpunkten Equation 1 und Equation 2 , indem wir das topologische Überlappungsmaß (TOM) wie folgt verwenden:

Equation 3 (1)

Equation 4 (2)

Der weiche Schwellenwert β wird mit der Funktion "pickSoft Threshold" aus dem WGCNA-Paket berechnet. Es wird die Potenzexponentialfunktion a_ij angewendet, wobei Equation 5 ein Gen ohne i und j steht und Equation 6 die Vertex-Konnektivität darstellt. WGCNA gruppiert die Expressionsprofile der transkriptomischen Merkmale in mehrere Module unter Verwendung eines häufig verwendeten Unähnlichkeitsmaßes ( Equation 7 ³⁷.

Das HealthModel-Framework wurde ursprünglich als Multitasking-Lernarchitektur^{konzipiert 26}. Dieses Protokoll verwendet nur die Modell-Pre-Training-Aufgabe für die Konstruktion der transkriptomischen mqTrans-Ansicht. Der Benutzer kann sich dafür entscheiden, das vortrainierte HealthModel im Rahmen des Multitasking-Graph-Aufmerksamkeitsnetzwerks mit zusätzlichen aufgabenspezifischen transkriptomischen Proben weiter zu verfeinern.

Technische Details der Merkmalsauswahl und -klassifizierung
Der Feature-Selection-Pool implementiert elf Feature-Selection-Algorithmen (FS). Darunter sind drei filterbasierte FS-Algorithmen: die Auswahl der besten K-Merkmale unter Verwendung des maximalen Informationskoeffizienten (SK_mic), die Auswahl von K-Merkmalen basierend auf der FPR von MIC (SK_fpr) und die Auswahl von K-Merkmalen mit der höchsten False-Discovery-Rate von MIC (SK_fdr). Darüber hinaus bewerten drei baumbasierte FS-Algorithmen einzelne Merkmale mithilfe eines Entscheidungsbaums mit dem Gini-Index (DT_gini), adaptiven verstärkten Entscheidungsbäumen (AdaBoost) und Random Forest (RF_fs). Der Pool enthält auch zwei Wrappermethoden: die rekursive Featureeliminierung mit dem linearen Unterstützungsvektorklassifikator (RFE_SVC) und die rekursive Featureeliminierung mit dem logistischen Regressionsklassifikator (RFE_LR). Schließlich sind zwei Einbettungsalgorithmen enthalten: der lineare SVC-Klassifikator mit den am höchsten bewerteten L1-Merkmalsbedeutungswerten (lSVC_L1) und der logistische Regressionsklassifikator mit den am höchsten bewerteten L1-Merkmalswichtigkeitswerten (LR_L1).

Der Klassifikatorpool verwendet sieben verschiedene Klassifikatoren, um Klassifizierungsmodelle zu erstellen. Zu diesen Klassifikatoren gehören Linear Support Vector Machine (SVC), Gaußian Naïve Bayes (GNB), Logistic Regression Classifier (LR), k-Nearest Neighbor, wobei k standardmäßig auf 5 gesetzt ist (KNN), XGBoost, Random Forest (RF) und Decision Tree (DT).

Die zufällige Aufteilung des Datensatzes in die train: Test-Teilmengen kann in der Befehlszeile festgelegt werden. Im gezeigten Beispiel wird das Verhältnis von train: test = 8:2 verwendet.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

HINWEIS: Das folgende Protokoll beschreibt die Details des Informatik-Analyseverfahrens und der Python-Befehle der Hauptmodule. Abbildung 2 veranschaulicht die drei Hauptschritte mit Beispielbefehlen, die in diesem Protokoll verwendet werden, und verweist auf die zuvor veröffentlichten Werke^26,38 für weitere technische Details. Führen Sie das folgende Protokoll unter einem normalen Benutzerkonto in einem Computersystem aus und vermeiden Sie die Verwendung des Administrator- oder Root-Kontos. Dies ist ein computergestütztes Protokoll und enthält keine biomedizinischen Gefahrenfaktoren.

1. Python-Umgebung vorbereiten

Erstellen Sie eine virtuelle Umgebung.
1. In dieser Studie wurden die Programmiersprache Python und eine virtuelle Python-Umgebung (VE) mit Python 3.7 verwendet. Gehen Sie folgendermaßen vor (Abbildung 3A):
  conda create -n healthmodel python=3.7
  conda create ist der Befehl zum Erstellen eines neuen VE. Der Parameter -n gibt den Namen der neuen Umgebung an, in diesem Fall healthmodel. Und python=3.7 gibt die zu installierende Python-Version an. Wählen Sie einen beliebigen Namen und eine Python-Version aus, die den obigen Befehl unterstützt.
2. Nach dem Ausführen des Befehls ähnelt die Ausgabe Abbildung 3B. Geben Sie y ein, und warten Sie, bis der Vorgang abgeschlossen ist.
Aktivieren der virtuellen Umgebung
1. Aktivieren Sie in den meisten Fällen das erstellte VE mit dem folgenden Befehl (Abbildung 3C):
  Conda Activate HealthModel
2. Befolgen Sie die plattformspezifischen Anweisungen für die VE-Aktivierung, wenn einige Plattformen erfordern, dass der Benutzer die plattformspezifischen Konfigurationsdateien für die Aktivierung hochlädt.
Installieren von PyTorch 1.13.1
1. PyTorch ist ein beliebtes Python-Paket für Algorithmen der künstlichen Intelligenz (KI). Verwenden Sie als Beispiel PyTorch 1.13.1, das auf der GPU-Programmierplattform CUDA 11.7 basiert. Weitere Versionen finden Sie unter https://pytorch.org/get-started/previous-versions/. Verwenden Sie den folgenden Befehl (Abbildung 3D):
  pip3 Taschenlampe installierenVision Torchaudio
  HINWEIS: Es wird dringend empfohlen, PyTorch Version 1.12 oder höher zu verwenden. Andernfalls kann die Installation des erforderlichen Pakets torch_geometric eine Herausforderung darstellen, wie auf der offiziellen torch_geometric-Website angegeben ist: https://pytorch-geometric.readthedocs.io/en/latest/install/installation.html.
Installieren Sie zusätzliche Pakete für torch-geometric
1. Installieren Sie gemäß den Richtlinien in https://pytorch-geometric.readthedocs.io/en/latest/install/installation.html die folgenden Pakete: torch_scatter, torch_sparse, torch_cluster und torch_spline_conv mit dem Befehl (Abbildung 3E):
  pip install pyg_lib torch_scatter torch_sparse torch_cluster torch_spline_conv -f https://data.pyg.org/whl/torch-1.13.0+cu117.html
Installieren Sie das Paket torch-geometric .
1. Für diese Studie ist eine spezielle Version, 2.2.0, des Torch-geometric-Pakets erforderlich. Führen Sie den folgenden Befehl aus (Abbildung 3F):
  pip install torch_geometric==2.2.0
Installieren Sie andere Pakete.
1. Pakete wie Pandas sind in der Regel standardmäßig verfügbar. Ist dies nicht der Fall, installieren Sie sie mit dem Befehl pip. Um beispielsweise pandas und xgboost zu installieren, führen Sie Folgendes aus:
  pip installieren pandas
  pip install xgboost

2. Verwenden des vortrainierten HealthModel zum Generieren der mqTrans-Features

Laden Sie den Code und das vortrainierte Modell herunter.
1. Laden Sie den Code und das vortrainierte HealthModel von der Website herunter: http://www.healthinformaticslab.org/supp/resources.php, die den Namen HealthModel-mqTrans-v1-00.tar.gz hat (Abbildung 4A). Die heruntergeladene Datei kann in einen benutzerdefinierten Pfad dekomprimiert werden. Die detaillierte Formulierung und die unterstützenden Daten des implementierten Protokolls finden Sie in²⁶.
Stellen Sie die Parameter zum Ausführen von HealthModel vor.
1. Ändern Sie zunächst das Arbeitsverzeichnis in der Befehlszeile in den Ordner HealthModel-mqTrans . Verwenden Sie die folgende Syntax zum Ausführen des Codes:
  python main.py
  Die Details zu den einzelnen Parametern und den Daten-, Modell- und Ausgabeordnern lauten wie folgt:
  Datenordner: Dies ist der Quelldatenordner, und jede Datendatei liegt im CSV-Format vor. Dieser Datenordner enthält zwei Dateien (siehe detaillierte Beschreibungen in den Schritten 2.3 und 2.4). Diese Dateien müssen durch personenbezogene Daten ersetzt werden.
  data.csv: Die Transkriptom-Matrix-Datei. In der ersten Zeile werden die Merkmals- (oder Gen-) IDs aufgelistet, und in der ersten Spalte sind die Beispiel-IDs aufgeführt. Die Liste der Gene umfasst die regulatorischen Faktoren (TFs und lincRNAs) und die regulierten mRNA-Gene.
  label.csv: Die Beispiel-Etikettendatei. Die erste Spalte listet die Beispiel-IDs auf, und die Spalte mit dem Namen "label" gibt die Beispielbezeichnung an.
  Modellordner: Der Ordner, in dem Informationen über das Modell gespeichert werden:
  HealthModel.pth: Das vortrainierte HealthModel.
  regulatory_geneIDs.csv: Die regulatorischen Gen-IDs, die in dieser Studie verwendet wurden.
  target_geneIDs.csv: Die in dieser Studie verwendeten Zielgene.
  adjacent_matrix.csv: Die benachbarte Matrix der regulatorischen Gene.
  Ausgabeordner: Die Ausgabedateien werden in diesen Ordner geschrieben, der vom Code erstellt wurde.
  test_target.csv: Der Genexpressionswert der Zielgene nach Z-Normalisierung und Imputation.
  pred_target.csv: Der vorhergesagte Genexpressionswert von Zielgenen.
  mq_target.csv: Der vorhergesagte Genexpressionswert von Zielgenen.
Bereiten Sie die Transkriptomik-Matrixdatei im csv-Format vor.
1. Jede Zeile stellt eine Probe dar, und jede Spalte steht für ein Gen (Abbildung 4B). Benennen Sie die Transkriptomik-Datamatrix-Datei wie data.csv im Datenordner .
  HINWEIS: Diese Datei kann durch manuelles Speichern einer Datenmatrix im .csv Format aus einer Software wie Microsoft Excel generiert werden. Die transkriptomische Matrix kann auch durch Computerprogrammierung erzeugt werden.
Bereiten Sie die Etikettendatei im CSV-Format vor.
1. Ähnlich wie bei der Transkriptomik-Matrixdatei benennen Sie die Bezeichnungsdatei wie label.csv im Datenordner (Abbildung 4C).
  Hinweis: Die erste Spalte enthält die Beispielnamen, und die Klassenbezeichnung jedes Beispiels wird in der Spalte mit dem Titel Bezeichnung angegeben. Der Wert 0 in der Beschriftungsspalte bedeutet, dass diese Probe negativ ist, 1 bedeutet eine positive Stichprobe.
Generieren Sie die mqTrans-Features.
1. Führen Sie den folgenden Befehl aus, um die mqTrans-Features zu generieren und die in Abbildung 4D gezeigten Ausgaben zu erhalten. Die mqTrans-Features werden als Datei ./output/mq_targets.csv generiert, und die Beschriftungsdatei wird als Datei ./output/label.csv erneut gespeichert. Um die weitere Analyse zu erleichtern, werden auch die ursprünglichen Expressionswerte der mRNA-Gene als Datei extrahiert ./output/ test_target.csv.
  python ./Get_mqTrans/code/main.py ./data ./Get_mqTrans/model ./output

3. mqTrans-Funktionen auswählen

Syntax des Merkmalsauswahlcodes
1. Ändern Sie zunächst das Arbeitsverzeichnis in den Ordner HealthModel-mqTrans . Verwenden Sie die folgende Syntax:
  python ./FS_classification/testMain.py
  Die Details der einzelnen Parameter lauten wie folgt:
  in-data-file: Die Eingabedatendatei
  in-label-file: Die Bezeichnung der Eingabedatendatei
  Ausgabeordner: In diesem Ordner werden zwei Ausgabedateien gespeichert, darunter Output-score.xlsx (die Feature-Auswahlmethode und die Genauigkeit des entsprechenden Klassifikators) und Output-SelectedFeatures.xlsx (die ausgewählten Feature-Namen für jeden Feature-Auswahlalgorithmus).
  1. select_feature_number: Wählen Sie die Anzahl der Features aus, die von 1 bis zur Anzahl der Features der Datendatei reicht.
  2. test_size: Legen Sie das Verhältnis der zu teilenden Testprobe fest. 0,2 bedeutet beispielsweise, dass das Eingabedataset nach dem Zufallsprinzip in die Testteilmengen des Zuges im Verhältnis 0,8:0,2 aufgeteilt wird.
  3. combine: Wenn true, werden zwei Datendateien für die Feature-Auswahl miteinander kombiniert, d.h. die ursprünglichen Ausdruckswerte und die mqTrans-Features. Wenn false, wird nur eine Datendatei für die Feature-Auswahl verwendet, d.h. die ursprünglichen Ausdruckswerte oder die mqTrans-Features.
  4. combine-Datei: Wenn combine true ist, geben Sie diesen Dateinamen an, um die kombinierte Datenmatrix zu speichern.
    ANMERKUNG: Diese Pipeline soll zeigen, wie sich die generierten mqTrans-Features bei Klassifizierungsaufgaben verhalten, und sie verwendet direkt die in Abschnitt 2 generierte Datei für die folgenden Operationen.
Führen Sie den Feature-Auswahlalgorithmus für die mqTrans-Feature-Auswahl aus.
1. Turn combine =False , wenn der Benutzer mqTrans-Features oder Original-Features auswählt.
2. Wählen Sie zunächst 800 Original-Features aus, und teilen Sie das Dataset in train: test=0.8:0.2 auf:
  python ./FS_classification/testMain.py ./output/test_target.csv ./output/label.csv ./result 800 0.2 False
3. Turn combine =True, wenn der Benutzer die mqTrans-Features mit den ursprünglichen Ausdruckswerten kombinieren möchte, um Features auszuwählen. Hier besteht das anschauliche Beispiel darin, 800 Features auszuwählen und das Dataset in train: test=0.8:0.2 aufzuteilen:
  python ./FS_classification/testMain.py ./output/mq_targets.csv ./output/label.csv ./result_combine 800 0.2 True ./output/test_target.csv
  HINWEIS: Abbildung 5 zeigt die Ausgabeinformationen. Die für dieses Protokoll benötigten Zusatzdateien befinden sich in HealthModel-mqTrans-v1-00.tar Ordner (Supplementary Coding File 1).

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Evaluierung der mqTrans-Ansicht des Transkriptomik-Datensatzes
Der Testcode verwendet elf Merkmalsauswahlalgorithmen (FS) und sieben Klassifikatoren, um zu bewerten, wie die generierte mqTrans-Ansicht des transkriptomischen Datensatzes zur Klassifizierungsaufgabe beiträgt (Abbildung 6). Der Testdatensatz besteht aus 317 Kolonadenokarzinomen (COAD) aus der Datenbank des Cancer Genome Atlas (TCGA)²⁹. Die COAD-Patienten in den Stadien I oder II gelten als negative Proben, während die Patienten in den Stadien III oder IV die positiven sind.

Elf FS-Algorithmen sind im Testcode implementiert. Es gibt drei filterbasierte FS-Algorithmen, darunter die Auswahl der besten K-Merkmale nach MIC (SK_mic), die Auswahl der K-Merkmale nach der FPR der MIC (SK_fpr) und die Auswahl der K-Merkmale nach der höchsten FDR der MIC (SK_fpr). Drei baumbasierte FS-Algorithmen bewerten die einzelnen Merkmale durch einen Entscheidungsbaum mit Gini-Index (DT_gini), den adaptiven Boosted-Entscheidungsbäumen (AdaBoost) und dem Random Forest (RF_fs). Der FS-Pool des Testcodes wertet auch zwei Wrapper aus: rekursive Merkmalseliminierung (RFE) mit dem linearen Unterstützungsvektorklassifikator (SVC)(RFE_SVC) und RFE mit dem logistischen Regressionsklassifikator (RFE_LR) sowie zwei Einbettungsalgorithmen: den linearen SVC-Klassifikator mit den am höchsten bewerteten L1-Merkmalswichtigkeitswerten (lSVC_L1) und den logistischen Regressionsklassifikator mit den am höchsten bewerteten L1-Merkmalswichtigkeitswerten (LR_L1).

Der Testcode erstellt die Klassifikationsmodelle mit sieben Klassifikatoren, darunter Linear Support Vector Machine (SVC), Gaußian Naïve Bayes (GNB), Logistic Regression Classifier (LR), k-Nearest Neighbor, k-5 by default (KNN), XGBoost, Random Forest (RF) und Decision Tree (DT).

Abbildung 6 zeigt die maximale Testgenauigkeit der mqTrans-Merkmale, der ursprünglichen mRNA-Merkmale und der kombinierten Teilmenge der mRNA- und mqTrans-Merkmale, die von jedem FS-Algorithmus empfohlen werden.

Die kombinierten Merkmalsuntergruppen (mRNA+mqTrans) haben die höchste Genauigkeit von 0,7656 bei der "SK_fpr" FS-Methode erreicht, besser als die einzelnen Merkmalstypen mqTrans (0,7188) und ursprüngliche mRNA (0,7188). Ähnliche Muster lassen sich für die anderen FS-Algorithmen beobachten. Der Benutzer kann die ausgewählten Features in der Ausgabedatei Output-SelectedFeatures.csv überprüfen.

Detektion der dunklen Biomarker
Frühere Studien zeigten die Existenz der undifferentiell exprimierten Gene mit signifikant unterschiedlich repräsentierten mqTrans-Werten zwischen der phänotypischen und der Kontrollgruppe 26,38,39. Diese Gene werden als dunkle Biomarker bezeichnet, da traditionelle Biomarker-Nachweisstudien sie aufgrund ihrer undifferenziellen Ausprägung ignorieren. Mit der statistischen Analysefunktion t.test in Microsoft Excel kann ein Merkmal definiert werden, das differentiell ausgedrückt wird, wenn sein statistischer p-Wert kleiner als 0,05 ist.

Unter den 3062 Merkmalen mit den generierten mqTrans-Werten wurden 221 dunkle Biomarker detektiert (Abbildung 7). Das drittplatzierte Gen ENSG00000163697 (APBB2, Amyloid Beta Precursor Protein Binding Family B Member 2) zeigt signifikant differentiell repräsentierte mqTrans-Werte (mqTrans.P = 2,03 x ^10-4), während sein ursprüngliches Expressionsniveau keine differentielle Expression aufweist (mRNA.P = 3,80 x ^10-1). Das Keyword APBB2 traf 27 Publikationen in der PubMed-Datenbank⁴⁰, aber es wurden keine Verbindungen mit dem Dickdarm oder Darm festgestellt.

Ein weiteres Gen ENSG00000048052 (HDAC9, Histon-Deacetylase 9) hat die unterschiedlich dargestellten mqTrans-Werte (mqTrans.P = 6,09 x ^10-3), während praktisch die gleichen Normalverteilungen zwischen der phänotypischen und der Kontrollgruppe beibehalten werden (mRNA.P = 9,62 x ^10-1). Das Keyword HDAC9 traf auf 417 Publikationen in der PubMed-Datenbank. Drei Studien erwähnten auch die Schlüsselwörter "Dickdarm" oder "Darm" in den Abstracts 41,42,43. Aber keiner von ihnen untersuchte die Rolle von HDAC9 bei Darmkrebs.

Die Daten deuteten auf die Notwendigkeit weiterer Evaluierungen dieser dunklen Biomarker anhand ihrer posttranskriptionellen Aktivitäten hin, z.B. der translatierten Proteinspiegel^44,45.

Pan-Krebs-Verteilungen von stoffwechselbezogenen dunklen und traditionellen Biomarkern
Die stoffwechselbezogenen traditionellen Biomarker wurden gescreent und mit dunklen Biomarkern von 26 Krebsarten im TCGA-Datensatz^{verglichen 38}. Beide Kategorien von Biomarkern wurden einer statistischen Auswertung unterzogen, um Signifikanzniveaus in frühen (Stadien I und II) und späten (Stadien III und IV) Krebsstadien zu erkennen. Bei dieser Auswertung wurden die Student-t-Tests für p-Werte verwendet, die anschließend für Mehrfachtests mit False Discovery Rates (FDRs) korrigiert wurden. Detaillierte Daten für jede der 26 Krebsarten sind in Abbildung 8 dargestellt.

Gene, die FDR-korrigierte p-Werte unter 0,05 lieferten, wurden als traditionelle Biomarker klassifiziert. Im Gegensatz dazu wurden dunkle Biomarker definiert als solche mit FDR-korrigierten p-Werten unter 0,05 in der mqTrans-Ansicht, während sie gleichzeitig keine statistisch signifikanten Unterschiede in den Expressionsniveaus aufwiesen.

Abbildung 9 zeigt eine allgemeine Knappheit an dunklen Biomarkern im Vergleich zu herkömmlichen Biomarkern bei den meisten Krebsarten. Zu den bemerkenswerten Ausnahmen gehören BRCA, MESO und TGCT, die eine größere Prävalenz dunkler Biomarker aufweisen. Es zeigt sich, dass verschiedene Faktoren, darunter Transkriptionsfaktoren, Methylierungsmuster, Genmutationen und Umweltbedingungen, die transkriptionelle Dysregulation dieser dunklen Biomarker modulieren könnten. Weitere Komplexität kann durch überlappende nicht-kodierende RNA-Transkripte entstehen, die die Expressionsniveaus dunkler Biomarker verfälschen könnten. Transkriptionsdysregulationen einiger dunkler Biomarker wurden durch ihre differentiellen Proteinspiegel unterstützt^44,45. Die dunklen Biomarker werden in traditionellen Studien oft übersehen und bieten faszinierende Wege für zukünftige mechanistische Untersuchungen.

Abbildung 1: Eine Übersicht über die HealthModel- und Feature-Selection-Module in diesem Protokoll. Ersetzen Sie die spezifischen Algorithmen im Featureauswahlpool und im Klassifikatorpool, wenn der Benutzer mit der Python-Programmierung vertraut ist. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Abbildung 2: Vollständiger Codefluss für dieses Protokoll. (A) Bereiten Sie die Python-Umgebung vor. Erstellen Sie zunächst eine virtuelle Umgebung und installieren Sie wichtige Pakete. Ausführliche Anweisungen finden Sie in Abschnitt 1. (b) Generieren von mqTrans-Features. Erhalten Sie mqTrans-Funktionen, indem Sie den bereitgestellten Code Schritt für Schritt ausführen. Ausführliche Erläuterungen finden Sie in Abschnitt 2. (C) Wählen Sie mqTrans-Funktionen aus. Dieser Abschnitt konzentriert sich auf die Bewertung der mqTrans-Funktionen. Ausführliche Informationen finden Sie in Abschnitt 3. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Abbildung 3: Vorbereiten der Umgebung für Python. (A) Der Befehl zum Erstellen des Gesundheitsmodells. (B) Geben Sie y während des Anlegens des VE-Prozesses ein. (C) Der gebräuchlichste Befehl zum Aktivieren des VE. (D) Der Befehl zum Installieren der Taschenlampe 1.13.1. (E) Installieren Sie zusätzliche Bibliotheken für das torch-geometric-Paket . (F) Installieren Sie das torch-geometric-Paket . Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Abbildung 4: Führen Sie das HealthModel aus, um die mqTrans-Funktion zu erhalten. (A) Laden Sie den Code herunter. (B) Das Beispiel einer Datendatei. Jede Spalte enthält alle Werte eines regulatorischen Faktors, und das erste Element ist die Gen-ID. Jede Zeile gibt die Werte einer bestimmten Stichprobe an, wobei das erste Element der Stichprobenname ist. (C) Das Beispiel einer Etikettendatei. Die erste Spalte enthält die Beispielnamen, und die Klassenbezeichnung jedes Beispiels wird in der Spalte mit dem Titel Bezeichnung angegeben. Der Wert 0 in der Beschriftungsspalte bedeutet, dass diese Probe aktiv ist, 1 bedeutet tot. (D) die Ausgänge von mqTrans. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Abbildung 5: Führen Sie den Feature-Auswahlalgorithmus für das mqTrans-Feature aus. Die Ergebnisse des Merkmalsauswahlalgorithmus werden dem Benutzer angezeigt. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Abbildung 6: Die maximale Testsatzgenauigkeit der einzelnen Merkmalsauswahlalgorithmen. Die horizontale Achse listet die Feature-Auswahlalgorithmen auf, und die vertikale Achse gibt die Genauigkeitswerte an. Die Histogramme zeigen die experimentellen Daten der drei Einstellungen, d.h. mqTrans, mRNA, mRNA+mqTrans. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Abbildung 7: Top 50 dunkle Biomarker mit den kleinsten p-Werten in der mqTrans-Ansicht. In der Spalte "Dunkler Biomarker" werden die Namen der dunklen Biomarker angegeben. Die Spalten "mRNA.P" und "mqTrans.P" sind die statistischen t-Test-p-Werte zwischen der phänotypischen und der Kontrollgruppe. Die Hintergrundfarben der p-Werte liegen zwischen den p-Werten 1,00 (blau) und 0,00 (rot), und die weiße Farbe stellt den p-Wert = 0,05 dar. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Abbildung 8: Die Details der 26 Krebsarten im Cancer Genome Atlas (TCGA) in verschiedenen Stadien. Die Spalten "Kohorte" und "Krankheitsgewebe" beschreiben die Patientengruppe und die erkrankten Gewebe für jeden Datensatz. Die letzten vier Spalten geben die Anzahl der Proben in den Entwicklungsstadien I, II, III bzw. IV an. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Abbildung 9: Die Anzahl dunkler und traditioneller Biomarker bei 26 Krebsarten. Die horizontale Achse listet die 26 Krebsarten auf. Die vertikale Achse zeigt die Anzahl der dunklen Biomarker und der traditionellen Biomarker für diese Krebsarten. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Ergänzende Codierungsdatei 1: HealthModel-mqTrans-v1-00.tar Bitte klicken Sie hier, um diese Datei herunterzuladen.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Abschnitt 2 (Verwenden des vortrainierten HealthModel zum Generieren der mqTrans-Funktionen) des Protokolls ist der kritischste Schritt innerhalb dieses Protokolls. Nach der Vorbereitung der rechnerischen Arbeitsumgebung in Abschnitt 1 wird in Abschnitt 2 die mqTrans-Ansicht eines transkriptomischen Datensatzes auf der Grundlage des vortrainierten großen Referenzmodells generiert. Abschnitt 3 ist ein anschauliches Beispiel für die Auswahl der generierten mqTrans-Merkmale für Biomarker-Detektionen und Vorhersageaufgaben. Die Benutzer können andere transkriptomische Analysen an diesem mqTrans-Datensatz mit ihren eigenen Werkzeugen oder Codes durchführen.

Das ursprüngliche HealthModel-Framework kann das vortrainierte HealthModel mithilfe der Multitasking-Architektur weiter verfeinern, wie in²⁶ beschrieben. Dieses Protokoll konzentriert sich auf die Verwendung des vortrainierten Referenzmodells, um die mqTrans-Ansicht eines transkriptomischen Datensatzes zu generieren.

Das standardmäßige vortrainierte Referenzmodell wurde an den gesunden Proben etabliert und ist möglicherweise keine gute Wahl für einige spezifische Aufgaben, z. B. die Untersuchung zwischen dem primären und dem metastasierten Krebs. Auch die Rechengeschwindigkeit ist für einen großen transkriptomischen Datensatz langsam.

Die Bedeutung dieses Protokolls besteht darin, eine komplementäre mqTrans-Ansicht des am häufigsten verfügbaren OMIC-Datentyps, d.h. des Transkriptoms, bereitzustellen. Dunkle Biomarker können aus den undifferenziell exprimierten Genen aufgedeckt werden, die von der konventionellen transkriptomischen Analyse ignoriert werden. In einer kürzlich durchgeführten Studie wurden sieben dunkle Biomarker für metastasierenden Dickdarmkrebs (mCC) auf der Grundlage von drei unabhängigen Kohorten von insgesamt 805 Proben von^{insgesamt 44} nachgewiesen. Dunkle Biomarker wurden aufgrund ihrer undifferenzierten Expression nur begrenzt im Nasslabor untersucht. Einer der detektierten dunklen mCC-Biomarker YTHDC2 kodiert jedoch für die Protein-YTH-Domäne, die 2 enthält, deren Proteinspiegel positiv mit dem Metastasierungsstatus von menschlichen Magenkrebszellen^{korrelieren 46} und Dickdarmkrebs⁴⁷. Neue biologische Erkenntnisse über dunkle Biomarker müssen noch durch In-vitro- und In-vivo-Technologien aufgeklärt werden.

Dieses Protokoll ist vollständig modular aufgebaut. Referenzmodelle, die auf anderen großen Datensätzen wie Primärkrebs trainiert wurden, erleichtern die Untersuchung von Tumormetastasen. Dieses Protokoll wird auch für Anwendungen in anderen Lebensbereichen erforscht, darunter Pflanzen, Pilze und Mikroben.

Die Recheneffizienz dieses Protokolls soll durch Parallelisierung und algorithmische Optimierung gesteigert werden.

Dieses Protokoll beschreibt das Verfahren zur Transformation eines transkriptomischen Datensatzes in eine neue mqTrans-Ansicht, und die transformierten mqTrans-Werte eines Gens messen quantitativ die Änderungen der Transkriptionsregulation im Vergleich zu den Referenzproben. Ein Standardmodell wurde auf den gesunden Transkriptomen vortrainiert und als Referenz-HealthModel freigegeben.

Der Quellcode von zwei nachgelagerten Aufgaben wird zur Verfügung gestellt, um die einfache Nutzung dieses Protokolls durch biomedizinische Forscher zu erleichtern. Die experimentellen Daten zeigen, dass die transformierten mqTrans-Merkmale die Vorhersageaufgaben verbessern können, indem nur die ursprünglichen Ausdrucksebenen verwendet werden. Die mqTrans-Ansicht kann auch die latenten phänotypischen Verbindungen einiger dunkler Biomarker ohne differentielle Ausprägung in den ursprünglichen Transkriptomdaten aufdecken.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Die Autoren haben nichts zu verraten.

Acknowledgments

Diese Arbeit wurde unterstützt vom Senior and Junior Technological Innovation Team (20210509055RQ), den Guizhou Provincial Science and Technology Projects (ZK2023-297), der Science and Technology Foundation der Gesundheitskommission der Provinz Guizhou (gzwkj2023-565), dem Science and Technology Project des Bildungsministeriums der Provinz Jilin (JJKH20220245KJ und JJKH20220226SK), der National Natural Science Foundation of China (U19A2061), dem Jilin Provincial Key Laboratory of Big Data Intelligent Computing (20180622002JC) und den Mitteln für Grundlagenforschung der Zentralen Universitäten der JLU. Wir danken dem Herausgeber der Rezension und den drei anonymen Gutachtern aufrichtig für ihre konstruktive Kritik, die maßgeblich dazu beigetragen hat, die Strenge und Klarheit dieses Protokolls wesentlich zu verbessern.

Materials

Name	Company	Catalog Number	Comments
Anaconda	Anaconda	version 2020.11	Python programming platform
Computer	N/A	N/A	Any general-purpose computers satisfy the requirement
GPU card	N/A	N/A	Any general-purpose GPU cards with the CUDA computing library
pytorch	Pytorch	version 1.13.1	Software
torch-geometric	Pytorch	version 2.2.0	Software