July 22nd, 2025
Mime ist ein flexibles Rechen-Framework zur Erstellung eines auf maschinellem Lernen basierenden Integrationsmodells mit eleganter Leistung. Hier bieten wir ein detailliertes Schritt-für-Schritt-Verfahren für die Entwicklung von Vorhersagemodellen mit hoher Genauigkeit, wobei wir komplexe Datensätze nutzen, um kritische Gene zu identifizieren, die mit dem Fortschreiten der Krankheit, den Patientenergebnissen und dem therapeutischen Ansprechen verbunden sind.
Die High-Through-Sequencing-Technologie hat einen erheblichen Einfluss auf unser Verständnis der Biologie und der Heterogenität von Krebs. Bei zahlreichen High-Through-Sequenzierungsdaten ist es jedoch schwierig, krankheitsassoziierte Gene und Biomarker schnell zu screenen und zu identifizieren. Es gibt zahlreiche Frameworks für maschinelles Lernen, aber keines von ihnen bietet einen integrierten Vergleich für eine fundierte Entscheidungsfindung. Um diese Lücke zu schließen, haben wir Mime entwickelt, eine einheitliche Plattform zur Bewertung von Modellstress und -schwächen.
Mime bietet vier Funktionen: optimale Prognosemodellierung, Vorhersage binärer Antworten, koprognostische Merkmalsidentifikation und Visualisierung der Modellleistung, wobei selbsttrainierte Algorithmen des maschinellen Lernens für eine integrierte interkritische Analyse genutzt werden.
Forscher haben oft Schwierigkeiten mit der Auswahl von Vorhersagealgorithmen und der Verwaltung von Umgebungen für maschinelles Lernen. Die Open-Source-Paketierung von Mime vereinfacht die Einrichtung, Parameterauswahl und Bereitstellung von Modellen und ermöglicht es Benutzern, ihre eigenen Daten einfach zu analysieren.
Mime markiert einen Meilenstein bei der Anwendung von KI in der Biomedizin, indem es maschinelles Lernen über die Einzelzellsequenzierungsschicht hinweg integriert, um intratumorale Heterogenität anhand der intratumoralen Diversität aufzudecken.
[Erzähler] Öffnen Sie zunächst die GitHub-Website auf einem Desktopcomputer. Installieren Sie die Entwicklungsversion von Mime von GitHub mithilfe des devtools-Pakets in R. Bereiten Sie mehrere Kohorten vor, die Transkriptionssequenzierungsdaten mit Informationen zum Überleben oder klinischen Ansprechen enthalten. Verwenden Sie die Beispieldatasets Example.cohort und Example.ici, auf die über das Mime GitHub-Repository zugegriffen werden kann. Die Example.cohort enthält zwei Gliom-Datensätze mit zufällig ausgewählten 100 Proben aus der TCGA- bzw. CGGA-Datenbank. Fügen Sie mehrere Datensätze hinzu, um Vorhersagemodelle für die Prognose in Example.cohort zu erstellen. Stellen Sie sicher, dass das Datensatzformat die Proben-ID in der ersten Spalte, die Überlebenszeit und den Status in der zweiten und dritten Spalte enthält, und protokollieren Sie die transformierten Genexpressionsniveaus in den verbleibenden Spalten. Vergewissern Sie sich, dass Dataset1 für das Training und andere Datasets für die Validierung verwendet wird. Laden Sie als Nächstes das Dataset Example.ici, und vergewissern Sie sich, dass das Format die Beispiel-ID in der ersten Spalte, das therapeutische Ansprechen in der zweiten Spalte und die protokollierten transformierten Genexpressionsniveaus in den verbleibenden Spalten enthält. Bereiten Sie den Genelisten mit dem Gensatz vor, der mit dem Wnt/beta-Catenin-Signalweg in R aus der Genelistendatei assoziiert ist. Verwenden Sie die Funktion ML.Dev.Prog.Sig und die angegebenen Codes, um Vorhersagemodelle für die Prognose auf der Grundlage von Example.cohort und dem Genelist zu erstellen. Verwenden Sie dann die Funktion cindex_dis_all, um den C-Index jedes Modells darzustellen und das optimale Modell zu identifizieren. Berechnen Sie die Überlebenskurven von Patienten anhand des entsprechenden Risiko-Scores unter Verwendung eines spezifischen Modells unter verschiedenen Datensätzen und verarbeiten Sie diesen in Mime mit den angegebenen Codes. Berechnen Sie die zeitabhängige AUC für die Vorhersagemodelle mit der Funktion cal_AUC_ml_res und den angegebenen Codes. Plotten Sie nun die zeitabhängige AUC für jedes Modell mit der Funktion auc_dis_all und den angegebenen Codes. Verarbeiten Sie die zeitabhängige ROC-Kurve eines bestimmten Modells zwischen verschiedenen Datensätzen in Mime mit der Funktion roc_vis und den angegebenen Codes. Um Vorhersagemodelle für das therapeutische Ansprechen zu konstruieren, verwenden Sie die Funktion ML.Dev.Pred.Category.Sig basierend auf dem Example.ici-Datensatz und dem Genelist. Visualisieren Sie die AUC für jedes Antwortmodell mit auc_vis_category_all. Generieren Sie dann die ROC-Kurven für jedes Modell mit roc_vis_category. Identifizieren Sie für die Auswahl der Kernmerkmale die Kerngene, die mit der Prognose verbunden sind, mithilfe von ML.Corefeature.Prog.Screen basierend auf Example.cohort und genelist. Stellen Sie den Rang der Gene dar, die mit verschiedenen Methoden gefiltert wurden, und verwenden Sie core_feature_rank, um häufig identifizierte Kerngene hervorzuheben. Unter den 117 von Mime konstruierten prognostischen Modellen zeigte das kombinierte Modell StepCox[Forward] + plsRcox den höchsten Konkordanzindex über alle Kohorten hinweg. Patienten mit hohen Risikowerten hatten in allen Kohorten signifikant schlechtere Ergebnisse. Die von SPCOM vorhergesagte Ein-Jahres-Fläche unter der Kurve rangierte unter allen Modellen mit dem höchsten mittleren AUC-Wert über alle Kohorten hinweg an der Spitze. Unter den sieben Modellen zur Vorhersage des therapeutischen Ansprechens erreichte das svmRadialWeights-Modell die höchste Leistung mit einer Fläche unter der Kurve von 0,81 im Trainingsdatensatz und 0,68 im Validierungsdatensatz. Die Auswahl der Kernmerkmale identifizierte PSEN2, WNT5B und SKP2 als die am besten bewerteten Gene, basierend auf ihrem Wiederauftreten in verschiedenen Algorithmen.
View the full transcript and gain access to thousands of scientific videos
Mime ist ein Berechnungsrahmen, der entwickelt wurde, um maschinelle Lern-basierte Integrationsmodelle für die Vorhersage von krankheitsassoziierten Genen zu konstruieren. Dieser Artikel beschreibt ein schrittweises Verfahren für die Entwicklung von hochgenauen Vorhersagemodellen unter Verwendung komplexer Datensätze.