Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Cancer Research

Auswahl mehrerer Biomarker Teilmengen mit ebenso wirksame binäre Klassifikation Aufführungen

Published: October 11, 2018 doi: 10.3791/57738

Summary

Vorhandene Algorithmen erzeugen eine Lösung für ein Biomarker-Erkennung-Dataset. Dieses Protokoll zeigt die Existenz von mehreren ähnlich effektive Lösungen und stellt eine benutzerfreundliche Software zur biomedizinische Forscher untersuchen ihre Datensätze für die vorgeschlagene Herausforderung helfen. Informatiker können auch dieses Feature in ihren Biomarker Erkennungsalgorithmen vorsehen.

Abstract

Biomarker-Erkennung ist eines der wichtigeren biomedizinische Fragen für High-Throughput "Omics" Forscher, und fast alle bestehenden Biomarker Erkennungsalgorithmen erzeugen ein Biomarker Teilmenge mit optimierter Performance-Messung für einen bestimmten Datensatz . Eine kürzlich durchgeführte Studie zeigte jedoch, die Existenz von mehreren Biomarker Teilmengen mit ähnlich wirksam oder sogar identische Klassifizierung Aufführungen. Dieses Protokoll stellt eine einfache und unkomplizierte Methode zur Erkennung von Biomarker-Teilmengen mit binären Klassifikation Aufführungen, besser als eine Benutzer-definierten Grenzwert. Das Protokoll besteht aus Datenaufbereitung und laden, Baseline Informationen Verdichtung, tuning-Parameter, Biomarker Screening, Ergebnis-Visualisierung und Interpretation, Biomarker gen Anmerkungen und Ergebnis und Visualisierung Ausfuhr an Publikationsqualität. Die vorgeschlagenen Biomarker screening-Strategie ist intuitiv und zeigt eine allgemeine Regel für Biomarker Erkennungsalgorithmen zu entwickeln. Eine benutzerfreundliche grafische Benutzeroberfläche (GUI) wurde entwickelt, mit Hilfe der Programmiersprache Python, Biomediziner direkten Zugriff auf ihre Ergebnisse zu ermöglichen. Den Quellcode und Handbuch des kSolutionVis können von http://www.healthinformaticslab.org/supp/resources.php heruntergeladen werden.

Introduction

Binäre Klassifikation, einer der am häufigsten untersuchte und anspruchsvolle Data-mining-Probleme im biomedizinischen Bereich wird verwendet, um ein Klassifizierungsmodell ausgebildet auf zwei Gruppen von Proben mit der genauesten Diskriminierung Power1, bauen 2 , 3 , 4 , 5 , 6 , 7. big Data im biomedizinischen Bereich generiert hat jedoch die inhärente "große kleine PN" Paradigma, mit der Anzahl der Funktionen in der Regel viel größer als die Anzahl der Proben6,8,9. Biomediziner müssen daher die Funktion Dimension vor Nutzung der Klassifizierungsalgorithmen zur Vermeidung von overfitting Problem8,9zu reduzieren. Diagnose-Biomarker sind definiert als eine Teilmenge der erkannten Merkmale von gesunden Proben10,11Patienten einer bestimmten Krankheit zu trennen. Patienten sind in der Regel definiert als die positive Proben und die gesunden Kontrollpersonen sind definiert als der negative Proben12.

Jüngste Studien haben vorgeschlagen, daß es mehr als eine Lösung mit identisch oder ähnlich effektiv Einstufung Leistungen für eine biomedizinische Dataset-5. Fast alle Feature-Auswahl-Algorithmen sind deterministische Algorithmen, produzieren nur eine Lösung für das gleiche Dataset. Genetische Algorithmen können gleichzeitig mehrere Lösungen mit ähnlichen Leistungen erzeugen, aber sie noch versuchen, eine Lösung mit der besten Fitness-Funktion als die Ausgabe für einen bestimmten Datensatz13,14auswählen.

Feature-Auswahl-Algorithmen können etwa als Filter oder Wrapper12gruppiert werden. Ein Filter-Algorithmus wählt Top -k Funktionen geordnet nach ihrer einzelnen signifikante Assoziation mit der binären Klassenbezeichner basiert auf der Annahme, die Funktionen sind unabhängig von einander15,16,17 . Obwohl diese Annahme nicht für fast alle realen Datasets wahr hält, führt die heuristische Filterregel in vielen Fällen zum Beispiel die mRMR (minimale Redundanz und maximale Relevanz) Algorithmus, der Wilcoxon Test basierte Funktion Filtern (WRank) Algorithmus und die ROC (Empfänger Regelkennlinie) Handlung basiert (ROCRank)-Filterung Algorithmus. mRMR, ist eine effiziente Filter-Algorithmus, weil es nähert sich der kombinatorischen Schätzung-Problem mit einer Reihe von viel kleineren Problemen, im Vergleich zu der maximal-Abhängigkeit Feature Auswahlalgorithmus, von denen jede nur zwei Variablen beinhaltet, und Daher nutzt paarweise Joint Wahrscheinlichkeiten sind robuster18,19. Jedoch kann mRMR die Nützlichkeit der einige Funktionen unterschätzen, da es nicht die Interaktionen zwischen Objekten misst die Relevanz steigern können, und so vermisst einige Merkmalskombinationen, die einzeln nutzlos, aber eignen sich nur in Kombination. Der WRank Algorithmus berechnet eine nicht-parametrische Punktzahl wie diskriminierende eine Funktion zwischen zwei Klassen von Proben und ist bekannt für seine Robustheit für Ausreißer20,21. Darüber hinaus wertet der ROCRank-Algorithmus, wie bedeutend die Fläche unter der ROC-Kurve (AUC) eines bestimmten Merkmals für die untersuchten binäre Klassifikation Leistung22,23ist.

Auf der anderen Seite ein Wrapper wertet der vordefinierten Sichter Leistung einer gegebenen Funktion Teilmenge, iterativ durch heuristische Regel erzeugt und schafft die Funktion Teilmenge mit der besten Performance Messung24. Ein Wrapper in der Regel einen Filter in die Klassifizierung Leistung übertrifft aber läuft langsamer25. Beispielsweise verwendet die regularisiert Random Forest (RRF)26,27 Algorithmus gierige in der Regel durch die Auswertung der Features auf eine Teilmenge der Trainingsdaten an jedem zufälligen Wald Knoten, deren Funktion Bedeutung Partituren von der Gini-Index beurteilt werden . Die Wahl eines neuen Features werden benachteiligt, wenn die Informationsgewinnung, die der ausgewählten Features nicht bessert. Darüber hinaus die Vorhersage-Analyse für Microarrays (PAM)28,29 -Algorithmus auch eine Wrapper-Algorithmus berechnet einen Schwerpunkt für jeden der die Klassenbezeichner und wählt dann Eigenschaften gen Zentroide gegenüber der gesamten schrumpfen Klasse-Schwerpunkt. PAM ist robust für vorgelagerten Funktionen.

Mehrere Lösungen mit die höchste Klassifizierung Leistung können für alle angegebenen Dataset erforderlich sein. Erstens das Optimierungsziel eines deterministischen Algorithmus zeichnet sich durch eine mathematische Formel, z.B., minimalen Fehler Rate30, das ist nicht unbedingt ideal für biologische Proben. Zweitens kann ein Dataset mehrere, deutlich verschiedene Lösungen mit ähnlichen wirksam oder sogar identische Leistungen haben. Fast alle vorhandenen Feature Auswahl Algorithmen werden eine der folgenden Lösungen als die Ausgabe31zufällig auswählen.

Diese Studie wird ein Informatik analytische Protokoll für die Erzeugung von mehreren Feature Auswahl Lösungen mit ähnlichen Vorstellungen für jede gegebene binäre Klassifikation Dataset einführen. Wenn man bedenkt, dass die meisten Biomediziner mit informatischen Techniken oder Computer-Codierung nicht auskennen, wurde eine benutzerfreundliche grafische Benutzeroberfläche (GUI) entwickelt, um die schnelle Analyse von biomedizinischen binäre Klassifikation Datasets zu erleichtern. Das analytische Protokoll besteht aus Daten laden und zusammenfassen, tuning-Parameter Pipeline Ausführung und Ergebnis-Interpretationen. Mit einem einfachen Klick kann der Forscher die Biomarker Teilmengen und Publikationsqualität Visualisierung Grundstücke zu generieren. Das Protokoll wurde mit der Transkriptom zwei binäre Klassifikation Datensätze der akute lymphoblastische Leukämie (ALL), d. h., ALL1 und ALL212getestet. Die Datensätze der ALL1 und ALL2 wurden vom Broad Institute Genom Analyse Rechenzentrum, erhältlich bei http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi heruntergeladen. ALL1 enthält 128 Samples mit 12.625 Features. Von diesen Proben sind 95 B-Zelle alle und 33 sind T-Zell ALL. ALL2 umfasst 100 Proben mit 12.625 Funktionen sowie. Von diesen Proben gibt es 65 Patienten, die Rückfall erlitten und 35 Patienten, die nicht der Fall war. ALL1 war eine einfache binäre Klassifikation Dataset mit einer minimalen Genauigkeit von vier Filter und vier Wrapper, 96,7 % und 6 der 8 Feature Auswahl Algorithmen erreichen 100 %12. Während ALL2 ein schwieriger Dataset mit den oben genannten 8 Feature Auswahl Algorithmen nicht besser als 83,7 % Genauigkeit12zu erreichen war. Diese beste Genauigkeit wurde mit 56 Funktionen erkannt durch den Wrapper-Algorithmus, Korrelation basierende Funktion Auswahl (CFS) erreicht.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

Hinweis: Das folgende Protokoll beschreibt die Details des analytischen Verfahrens Informatik und Pseudo-Codes der wichtigsten Module. Die automatische Analyse-System wurde mit Python-Version 3.6.0 und die Python-Module-Pandas, Abc, Numpy, Scipy, Sklearn, Sys, PyQt5, Sys, mRMR, Mathematik und Matplotlib entwickelt. In dieser Studie verwendeten Materialien sind in der Tabelle der Materialienaufgeführt.

1. Vorbereiten der Data-Matrix-Klasse Etiketten und

  1. Bereiten Sie die Datendatei Matrix als Matrix Registerkarte oder Komma-Trennzeichen getrennte Datei wie in Figur 1Adargestellt.
    Hinweis: Jede Zeile hat die Werte einer Funktion, und das erste Element ist der Funktionsname. Ein Feature ist ein Probeset-ID für die Microarray-basierte Transkriptom-Dataset oder möglicherweise einen anderen Wert-ID wie ein Cystein-Rückstand mit seinem Methylierung-Wert in einem Methylomic-Dataset. Jede Spalte gibt die Funktionswerte einer bestimmten Probe mit dem ersten Element wird die Probenname. Eine Zeile wird in Spalten durch einen Tabulator (Abbildung 1 b) oder ein Komma (Abbildung 1) getrennt. Eine tabulatorgetrennte Datei ist die Datei-Erweiterung haben.TSV anerkannt, und eine durch Trennzeichen getrennte Datei hat die Erweiterung CSV. Diese Datei kann generiert werden, indem Sie einer Matrix als entweder haben.TSV oder CSV-Format von Software wie Microsoft Excel speichern. Datamatrix kann auch durch Computer-Codierung erzeugt werden.
  2. Bereiten Sie die Klassendatei Label als eine Registerkarte oder Komma-getrennte Matrix Datei (Abbildung 1), ähnlich wie bei der Matrix-Datei.
    Hinweis: Die erste Spalte gibt die probennamen und Klasse Label von jeder Probe wird in der Spalte mit dem Titel Klassegegeben. Maximale Kompatibilität gilt das Codierungsverfahren, so dass zusätzliche Spalten hinzugefügt werden können. Die Klassendatei Label kann als haben.TSV oder CSV-Datei formatiert werden. Die Namen in der Spalte Klasse möglicherweise alle Begriffe, und möglicherweise gibt es mehr als zwei Klassen von Proben. Der Benutzer kann zwei Klassen für die folgende Analyse wählen.

2. Legen Sie die Data-Matrix-Klasse Etiketten und

  1. Laden Sie die Datenbeschriftungen Matrix und Klasse in die Software. Klicken Sie auf Load Data-Matrix die benutzerspezifischen Daten Matrix Datei auswählen. Klicken Sie auf Last Klassenbezeichner die entsprechende Klasse Label-Datei auswählen.
    Hinweis: Nachdem beide Dateien geladen sind, wird kSolutionVis einen Routine Bildschirm die Kompatibilität zwischen den beiden Dateien durchführen.
  2. Die Funktionen und Beispiele aus der Datendatei Matrix zusammenfassen. Schätzen Sie die Größe der Datendatei Matrix.
  3. Fassen Sie die Proben und Klassen von der Klasse Label-Datei. Schätzen Sie die Größe der Beschriftung Klassendatei.
  4. Testen Sie, ob jede Probe aus der Datenmatrix ein Klasse-Label hat. Fassen Sie die Nummern der Proben mit der Klassenbezeichner.

(3) zusammenfassen und die Baseline-Statistik des Datasets anzeigen

  1. Klicken Sie den Button zusammenfassen, ohne jede angegebene Schlüsselwort eingeben und die Software zeigt 20 indizierte Eigenschaften und die entsprechenden Funktionen Namen.
    Hinweis: Benutzer müssen den Featurenamen angeben, die, den Sie, um seine Grundlinie Statistiken und entsprechenden Wertverteilung unter alle eingabesamples zu sehen finden möchten.
  2. Geben Sie ein Stichwort, z.B. "1000_at" in das Textfeld ein Feature zu einer bestimmten Funktion zusammengefasst werden. Klicken Sie auf zusammenfassen , die Baseline-Statistiken für diese bestimmten Funktion bekommen.
    Hinweis: Das Schlüsselwort kann überall in den Zielnamen Feature erleichtert die Suche für Benutzer angezeigt.
  3. Klicken Sie den Button zusammenfassen , mehr als ein Objekt mit dem angegebenen Schlüsselwort zu finden, und geben Sie dann die Besonderheit-ID zum Fortsetzen des oben genannten Schrittdes fasst ein besonderes Merkmal.

4. bestimmen Sie die Klassenbezeichner und die Anzahl der Top-Rankings Features

  1. Wählen Sie die Namen der positiv ("P (33)") und negativ ("N (95)") Klassen in den Auswahlboxen Klasse Positive und Negative Klasse, wie in Abbildung 2 dargestellt (Mitte).
    Hinweis: Es wird vorgeschlagen, eine ausgeglichene binäre Klassifikation Dataset, d. h.die Differenz zwischen der Anzahl von positiven und negativen Proben ist minimal zu wählen. Die Anzahl der Proben ist auch in Klammern hinter dem Namen des jede Klasse Beschriftung in den zwei Dropdown-Boxen angezeigt.
  2. Wählen Sie 10 als die Anzahl der Top-Rankings Merkmale (Parameter pTopX) in der Dropdown-Box Top_X (?) für eine umfassende Bildschirm der Feature-Teilmenge.
    Hinweis: Die Software ordnet automatisch alle Funktionen von der P-Wert berechnet, indem ein t-Test für jede Funktion, die die positiven und negativen Klassen zu vergleichen. Ein Feature mit einem kleineren P-Wert hat eine besser unterscheidende Kraft zwischen den beiden Klassen von Proben. Das umfassende Screening Modul ist rechenintensiv. Der Parameter pTopX ist standardmäßig 10. Benutzer können diese Parameter im Bereich von 10 bis 50 ändern, bis sie befriedigend finden Teilmengen mit gute Einstufung Leistungen verfügen.

5. Melodie Systemparameter für verschiedene Leistungen

  1. Wählen Sie die Performance-Messung (pMeasurement) Genauigkeit (Acc) in der Dropdown-Box Acc/bAcc (?) für die ausgewählten Klassifikator Extreme Learning Machine (ELM). Eine weitere Möglichkeit dieses Parameters ist die Messung ausgeglichen Genauigkeit (bAcc).
    Hinweis: Lassen Sie TP, FN, TN, und FP werden die Nummern der wahren positiven, falsche Negative, richtig negativ und Fehlalarme, beziehungsweise. Die Messung Acc ist definiert als (TP+TN)/(TP+FN+TN+FP), das funktioniert am besten bei einer ausgewogenen Dataset-6. Aber ein Klassifikator optimiert für Acc tendenziell alle Proben die negative Klasse zuordnen, wenn die Anzahl der negativen Proben viel größer als die positiven ist. Die bAcc ist definiert als (Sn + Sp) / 2, wo Sn = TP/(TP+FN) und Sp = TN/(TN+FP) sind die richtig vorhergesagten Preise für Positive und negative Proben, beziehungsweise. Daher bAcc normalisiert die Vorhersage Aufführungen über die beiden Klassen und zu einer ausgewogenen Vorhersage Leistung über zwei unsymmetrische Klassen führen kann. ACC ist die Standardauswahl von pMeasurement. Die Software nutzt der Sichter ELM standardmäßig die Einstufung Leistungen zu berechnen. Der Benutzer kann auch eine Klassifizierung von SVM (Support Vector Machine), KNN (k nächsten Nachbarn), Decision Tree oder Naïve Bayes wählen.
  2. Wählen Sie den cutoff Wert 0,70 (Parameter pCutoff) für die angegebene Performance-Messung im Eingabefeld pCutoff:.
    Hinweis: Sowohl Acc und bAcc im Bereich zwischen 0 und 1, und der Benutzer kann einen Wert pCutoff angebenEquation[0, 1] als der Cut-off um die aufeinander abgestimmten Lösungen anzuzeigen. Die Software führt eine umfassende Feature-Teilmenge screening und eine geeignete Wahl der pCutoff machen die 3D-Visualisierung, intuitiver und explizite. Der Standardwert für pCutoff ist 0.70.

6. führen Sie die Pipeline und die interaktive VISUALISIERTE Ergebnisse

  1. Klicken Sie auf die Schaltfläche Analyze Ausführen der Pipelines und die Visualisierung Grundstücke zu erzeugen, wie in Abbildung 2 (unten) dargestellt.
    Hinweis: Die linke Tabelle gibt die Funktion Teilmengen und ihre pMeasurement durch die 10-divisibel Kreuzvalidierung Strategie des Klassifikators ELM, berechnet, wie zuvor beschrieben5. Zwei 3D Streudiagrammen und zweizeilige Grundstücke werden für die Feature-Teilmenge Screening-Verfahren mit den aktuellen Parametereinstellungen generiert.
  2. Wählen Sie 0,70 als der Standardwert der pMeasurement cutoff (Parameter PiCutoff, Eingabefeld Wert) und 10 als die standardmäßige Anzahl der besten Feature Teilmengen (Parameter PiFSNum).
    Hinweis: Die Pipeline erfolgt mit dem Parameter pTopX, pMeasurement, und pCutoff. Die ermittelte Funktion, die Teilmengen weiter sein können gezeigt mit der cutoff PiCutoff, kann nicht jedoch PiCutoff kleiner als pCutoffsein. Daher PiCutoff als pCutoff initialisiert wird und nur die Funktion Teilmengen mit Performance Messung ≥ PiCutoff visualisiert werden. Der Standardwert für PiCutoff ist pCutoff. Manchmal kSolutionVis erkennt viele Lösungen, und nur die besten PiFSNum (Standard: 10) Feature Teilmengen visualisiert werden. Wenn die Anzahl der Teilmengen der Funktion von der Software erkannt kleiner als PiFSNumist, werden die Funktion Teilmengen visualisiert.
  3. Erfassen Sie und interpretieren Sie die Funktionen von der Software erkannt, wie in Abbildung 3dargestellt.
    Hinweis: Die Tabelle in das linke Feld zeigt erkannten Funktion Teilmengen und ihre Performance-Messungen. Die Namen der ersten drei Spalten sind "F1", "F2" und "F3". Die drei Funktionen in jeder Funktion Teilmenge sind in ihrer Rangfolge in einer Zeile angegeben (F1 < F2 < F3). Die letzte Spalte gibt die Performance-Messung (Acc oder bAcc) der einzelnen Feature-Untergruppen, und die Spaltennamen (Acc oder bAcc) ist der Wert der pMeasurement.

(7) interpretieren Sie die 3D Scatter Plots visualisieren und interpretieren Sie die Funktion Teilmengen mit ähnlich effektiv binäre Klassifikation Performances mit 3D Streudiagrammen

  1. Klicken Sie die Schaltfläche Analyze , 3D Streudiagramm der Top 10-Feature Teilmengen mit Klassifizierung Bestleistungen (Acc oder bAcc) von der Software erkannt, wie in Abbildung 3 (mittlere Feld) zu generieren. Die drei Funktionen in einer Feature-Teilmenge in aufsteigender Reihenfolge von ihren Rängen zu sortieren und verwenden Sie die Reihen der drei Funktionen als die F1/F2/F3-Achsen, d.h.F1 < F2 < F3.
    Hinweis: Die Farbe eines Punktes repräsentiert die binäre Klassifikation Performance der entsprechenden Funktion Teilmenge. Ein Dataset kann mehrere Feature Teilmengen mit ebenso effektive Performance-Messungen haben. Daher ist eine interaktive und vereinfachte Streudiagramm notwendig.
  2. Ändern Sie den Wert bis 0.70 in das Eingabefeld pCutoff: und klicken Sie die Schaltfläche Analyze 3D Streudiagramm der Funktion Teilmengen mit Performance Messung ≥ PiCutoffgenerieren wie in Abbildung 3 (rechts Feld) zu sehen. Klicken Sie auf 3D tuning , öffnet ein neues Fenster zum Betrachtungswinkel von 3D Streudiagramm manuell einstellen.
    Hinweis: Jede Teilmenge Funktion ist durch einen Punkt in der gleichen Weise wie oben dargestellt. Die 3D Punktwolke wurde in den Standard-Winkel erzeugt. Zur Erleichterung der 3D-Visualisierung und tuning, ein separates Fenster werden geöffnet mit dem Button 3D tuning.
  3. Klicken Sie auf verkleinern , die Redundanz der erkannten Funktion Teilmengen zu reduzieren.
    Hinweis: Wenn Benutzer wünschen weiter wählen die Funktion Drillinge und minimieren die Redundanz der Funktion Teilmengen, bietet die Software auch diese Funktion mit dem mRMR Feature Auswahlalgorithmus. Nach einem Klick auf die Schaltfläche " verkleinern ", kSolutionVis entfernen diese redundante Funktionen in der Feature-Triolen und regenerieren in der Tabelle und streuen die beiden oben genannten Grundstücke. Entfernte Features der Funktion Drillinge werden durch das Schlüsselwort in der Tabelle ersetzt werden. Die Werte None in der F1/F2/F3-Achse werden als der Wert des PiFSNum bezeichnet werden (der Bereich des normalen Wertes der F1/F2/F3 ist [1, Top_x]). Daher erscheinen die Punkte, die keinen Wert enthalten werden "Ausreißer" Punkte im 3D-plots. Die manuell einstellbaren 3D-Plots finden Sie in "Handabstimmung der 3D Punkt plottet" in das ergänzende Material.

8. finden Sie gen Anmerkungen und ihre Verbände mit Krankheiten des Menschen

Hinweis: Schritte 8 bis 10 werden ein Gen aus der Sequenz Ebene von DNA und von Protein Anmerkungen zu erläutern. Erstens die Gen-Symbol der Biomarker-ID aus den oben genannten Schritten wird aus der Datenbank DAVID32abgerufen werden, und dann zwei repräsentativen Web-Server werden verwendet, um dieses Gen Symbol aus den Ebenen von DNA und Proteinen, bzw. zu analysieren. Der Server GeneCard bietet eine umfassende funktionale Annotation eines bestimmten Gens-Symbols, und die Online Mendelian Erbschaft im Mann-Datenbank (OMIM) bietet die umfassendste Kuration der Krankheit-gen Verbände. Der Server UniProtKB ist eines der umfassendsten Proteindatenbank und Server Gruppenbasierte Vorhersage System (GPS) prognostiziert die Signalisierung Phosphorylierung des für eine sehr große Liste der Kinasen.

  1. Kopieren und Einfügen des Weblinks der Datenbank DAVID in einem Web-Browser und öffnen Sie die Web-Seite dieser Datenbank. Klicken Sie den Link Gen ID Konvertierung in Abbildung 4A gesehen und geben Sie die Funktion IDs 38319_at/38147_at/33238_at der ersten Biomarker Teilmenge des Datasets ALL1 (Abbildung 4 b). Klicken Sie auf den Link Gen Liste und klicken Sie auf Liste einreichen , wie in Abbildung 4 bdargestellt. Rufen Sie die Anmerkungen von Interesse ab und klicken Sie auf Liste anzeigen gen (Abbildung 4). Abrufen der Liste der Gen-Symbole (Abbildung 4).
    Hinweis: Der Gen-Symbole, die hier abgerufen werden für weitere funktionale Anmerkungen in den nächsten Schritten verwendet werden.
  2. Kopieren und Einfügen des Weblinks der Datenbank Gene Karten in einem Web-Browser und öffnen Sie die Web-Seite dieser Datenbank. Suchen Sie ein Gen namens CD3D in der Datenbank-Abfrage-Eingabefeld und finden Sie die Anmerkungen dieses Gens von Gene Karten33,34, wie in Tabelle 1 und Abb. 5Agezeigt.
    Hinweis: Gen-Karten ist eine umfassende gen Knowledgebase, Nomenklatur, Genomik, Proteomik, subzelluläre Lokalisation und Beteiligten Bahnen und anderen Funktionsmodule. Darüber hinaus externe Links zu verschiedenen anderen biomedizinischen Datenbanken wie PDB/PDB_REDO35, Entrez Gene36, OMIM37und UniProtKB38. Wenn der Funktionsname kein standard-gen-Symbol ist, verwenden Sie die Datenbank ENSEMBL39umwandeln. CD3D ist der Name des Gens T-Zell-Rezeptor-T3-Delta-Kette.
  3. Kopieren und Einfügen des Weblinks der Datenbank OMIM in einem Web-Browser und öffnen Sie die Web-Seite dieser Datenbank. Suchen Sie ein Gen namens CD3D und finden Sie die Anmerkungen dieses Gens aus der Datenbank OMIM37, wie in Tabelle 1 und Abbildung 5 bgezeigt.
    Hinweis: OMIM dient heute als eines der umfassendsten und maßgeblichen Quellen des menschlichen Gens Verbindungen mit vererbbaren Krankheiten. OMIM wurde initiiert von Dr. Victor A. McKusick, der krankheitsassoziierten genetischen Mutationen40zu katalogisieren. OMIM erstreckt sich jetzt über 15.000 Gene des Menschen und mehr als 8.500 Phänotypen, ab Dezember 1St 2017.

(9) kommentieren Sie die kodierten Proteine und die Post-translationalen Modifikationen

  1. Kopieren und Einfügen des Weblinks der Datenbank UniProtKB in einem Web-Browser und öffnen Sie die Web-Seite dieser Datenbank. Ein Gen namens CD3D in das Eingabefeld der Abfrage des UniProtKB finden Sie und die Anmerkungen dieses Gens aus der Datenbank38, wie in Tabelle 1 und Abbildung 5gezeigt.
    Hinweis: UniProtKB sammelt eine reiche Quelle von Anmerkungen für Proteine, einschließlich der Nomenklatur und funktionelle Informationen. Diese Datenbank bietet auch externe Links zu anderen weit verbreiteten Datenbanken, einschließlich PDB/PDB_REDO35, OMIM37und Pfam41.
  2. Kopieren und Einfügen des Weblinks des Webservers GPS in einem Web-Browser und öffnen Sie die Web-Seite dieses Webservers. Rufen Sie die Proteinsequenz codiert durch die Biomarker-gen CD3D von UniProtKB Datenbank38 und Vorhersagen Sie des Proteins Post-translationale Modifikation (PTM) Rückstände mit dem online-Tool GPS, wie in Tabelle 1 und Abbildung 5gezeigt.
    Hinweis: Ein biologisches System ist dynamisch und kompliziert, und die vorhandenen Datenbanken sammeln nur bekannten Informationen. Daher können biomedizinische Vorhersage online-Tools sowie offline Programme sinnvoll ergänzend einen hypothetischen Mechanismus nachweisen. GPS wurde weiterentwickelt und verbessert für über 12 Jahre7,42 und kann verwendet werden, um ein Protein PTM Rückstände in ein bestimmtes Peptid Sequenz43,44vorherzusagen. Werkzeuge sind auch für verschiedene Forschungsthemen, einschließlich der Vorhersage von subzelluläre Lage45 und Transkription Faktor verbindliche Motive 46 unter anderem ein Protein zur Verfügung.

10. mit Anmerkungen versehen Sie, Protein-Protein-Wechselwirkungen und ihre angereicherten Funktionsmodule

  1. Kopieren und Einfügen des Weblinks des Webservers Zeichenfolge in einen Webbrowser und öffnen Sie die Web-Seite dieses Webservers. Durchsuchen Sie die Liste für die Gene CD3D und P53, Immobilien und finden Sie ihre orchestrierten Verwendung der Datenbank String47. Das gleiche Verfahren kann mit einem anderen Webserver, DAVID32durchgeführt werden.
    Hinweis: Neben den oben genannten Anmerkungen für einzelne Gene gibt es viele große Informatik-Tools zur Verfügung, um die Eigenschaften einer Gruppe von Genen zu untersuchen. Eine kürzlich durchgeführte Studie zeigte, dass individuell schlecht Markergene eine deutlich verbesserte gen Set5darstellen könnte. Daher lohnt es sich der Rechenaufwand zum Bildschirm für kompliziertere Biomarker. Die Datenbank String kann die bekannte oder vorhergesagten Interaktion Verbindungen visualisieren und der David-Server erkennt möglicherweise die Funktionsmodulen mit erheblichen Phänotyp-Verbände in der abgefragten Gene47,32. Verschiedenen anderen großen Informatik-Analyse-Tools zur Verfügung stehen.

11. export generierten Biomarker Teilmengen und die Visualisierung Grundstücke

  1. Exportieren Sie die erkannten Biomarker Teilmengen als haben.TSV oder CSV Textdatei zur weiteren Analyse. Klicken Sie auf exportieren Sie die Tabelle unter dem Tisch der alle erkannten Biomarker Teilmengen und wählen Sie die Text-Format Speichern als.
  2. Die Visualisierung Grundstücke als Image-Datei zu exportieren. Klicken Sie auf die Schaltfläche Speichern unter jeder Parzelle und wählen Sie welches Bildformat zu speichern.
    Hinweis: Die Software unterstützt das Pixel Format .png und Vektor Format .svg. Die Pixelbilder sind gut für die Anzeige auf dem Bildschirm, während der Vektor-Bilder in jede erforderliche Auflösung für Publikationszwecke Journal konvertiert werden können.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Das Ziel dieses Workflows (Abbildung 6) ist, mehrere Biomarker Teilmengen mit ähnlichen Effizienzen für eine binäre Klassifikation Dataset zu erkennen. Der gesamte Prozess wird durch zwei Beispiel-Datasets ALL1 und ALL2 extrahiert aus einem kürzlich erschienenen Biomarker-Erkennung12,48Studie veranschaulicht. Ein Benutzer kann kSolutionVis installieren, indem Sie die Anweisungen in den ergänzenden Materialien.

DataSet ALL1 profilierte 12 625 transkriptomischen Funktionen von 95 B und 33 T-Zellen alle Patienten Blutproben. Während Dataset ALL2 Ausdruck Ebenen 12 625 transkriptomischen Features für 65 alle Patienten, die nach der Behandlung und 35 Rückfall alle Patienten, die nicht erkannt. Für die Bequemlichkeit des Benutzers sind transkriptomischen Datensätze und ihre Klassenbezeichner in Version 1.4 der Software zur Verfügung gestellt. Beide Datensätze sind im Unterverzeichnis "Data" des Quellverzeichnisses Code der Software.

Die zwei Datasets, ALL1 und ALL2, waren als CSV-Dateien formatiert und in die Software mit den Tasten Load Data-Matrix und Last Klassenbezeichner geladen, wie in Abbildung 7A-Bdargestellt. Abbildung 7A zeigt, dass alle 128 Samples mit 12 625 Features waren geladen, und alle 128 Samples auch Klassenbezeichner. Die endgültigen Datenmatrix hat 95 negative Proben (B-Zell alle) und 33 positive Proben (T-Zell ALL). Darüber hinaus können Benutzer auch bestimmen, welche Klasse Label die positive Klasse Label (Abbildung 7A, unten). Wenn die Klassendatei Label mehr als zwei Klassen definiert, sollten Benutzer wählen, welche zwei Klassenbezeichner zu untersuchen. Ähnliche Operationen wurden auch für das schwierige Dataset ALL2, durchgeführt, wie in Abbildung 7dargestellt.

Die Wert-Verteilungen der Merkmale in der Datenmatrix können untersucht werden, durch Anklicken des Buttons Summarize während der Suche für eine benutzerspezifische Keyword in der Feature-Namen, wie in Abbildung 8dargestellt. Abbildung 8A zeigt das Histogramm Funktion 1012_at im Dataset ALL1. Darüber hinaus hat wie in Abbildung 8zu sehen, die gleiche Funktion 1012_at eine ähnliche Verteilung der Ausdruck in beiden Datensätzen. Wenn kein Schlüsselwort vom Benutzer angegeben wurde, würden einige Feature-Namen aufgeführt werden, um den Benutzern zu entscheiden, welche Funktionen zusammenfassen zu helfen.

Einfachere Dataset ALL1 präsentiert die Top 10 Rang-Features (pTopX) für Biomarker Teilmengen mit pMeasurement Acc ≥ 0,90 (pCutoff). Nach einem Klick auf die Schaltfläche Ausführen, der Algorithmus ausgeführt wurde, und die Ergebnisse wie in Abbildung 9A, gesehen wurden im Unterteil der Software nach ein paar Sekunden dargestellt. Aus diesem Grund wurden 120 qualifizierte Biomarker Teilmengen erkannt und in der linken Tabelle der Abbildung 9Aaufgeführt. ALL1 war ein Dataset zu diskriminieren, da es 57 Triplett Biomarker Teilmengen mit 100 % in Acchat. Dieses Protokoll betont die Existenz von mehreren ähnlich effektive Lösungen für eine binäre Klassifikation Problem. Daher die ersten 3D Punktwolke kann mehr als 10 (Parameter PiFSNum) Biomarker Teilmengen, zu veranschaulichen, wenn sie die Klassifizierung Leistung Acc (Parameter pMeasurement) ≥ haben, die von den Top 10 auf Platz (Parameter PiFSNum ) Biomarker Teilmenge. Die Benutzer können auch weniger Biomarker Teilmengen anzeigen durch Veränderung der Parameter PiCutoff in der Parameterbox oberhalb der Tabelle in Abbildung 9A. Die manuelle Abstimmung der 3D Grundstücke finden Sie im Abschnitt manuelle Abstimmung des 3D Dot Grundstücke in das ergänzende Material.

Darüber hinaus können die Ergebnisse als externe Datei für weitere Analyse exportiert werden, durch Klicken auf die Schaltfläche exportieren Sie die Tabelle unter den Tisch oder Streuung Parzellen, wie in Abbildung 9dargestellt.

Für funktionelle Untersuchungen wurde die erste Biomarker Teilmenge (38319_at, 38147_at und 33238_at) für das Dataset ALL1 gewählt, wie in Abbildung 9Adargestellt. Das Suchmodul von ENSEMBL (http://useast.ensembl.org/Multi/Search/New?db=core) kommentierte diese drei Merkmale als ein Gen-Cluster der Differenzierung 3 Delta (CD3D, 38319_at), Signalisierung lymphozytären Aktivierung Molekül-assoziierte Gene (SH2D1A, 38147_at ) und Lymphozyten zellspezifische Protein-Tyrosin-Kinase (LCK, 33238_at). Darüber hinaus schlug die Gen-Krankheit Verband Datenbank OMIM37,40 , dass das Gen CD3D die Delta-Untereinheit von der T-Zelle Antigen-Rezeptor-Komplex kodiert und häufig zu beobachten bei akuten 11q23-Translokationen beteiligt ist Leukämie bei Menschen49,50. OMIM auch vorgeschlagen, dass genomischen Mutationen im Gen SH2D1A in der Region Chromosom Xq25 B-Zell-Leukämie-51,52zugeordnet werden kann. Darüber hinaus markiert OMIM einer möglichen T-Zelle alle damit verbundenen Fusion Event der LCK und Beta-T-Zell-Rezeptor (TCRB)53. Benutzer können andere funktionale Aspekte dieser Biomarker mit ihren Gen Symbolen, z. B.gen Funktion Anmerkungen Entrez Gene36, Protein Funktion Anmerkungen in UniProtKB38 oder Pfam41, 3D Protein untersuchen. Strukturen im PDB/PDB_REDO35und PTM Rückstände in GPS-7,42,43,44. Die interagierenden Sub-Netzwerk (Datenbank Zeichenfolge47) und angereicherte Funktionsmodule (Datenbank David32) können auch für diese Biomarker als Ganzes gezeigt werden. Verschiedene andere Datenbanken oder Web-Server können auch die Anmerkungen und in Silico Vorhersagen mit Hilfe der Symbole oder primäre gen/Proteinsequenzen dieser Gene erleichtern.

Wie aus Tabelle 2ersichtlich, ergibt sich die Notwendigkeit erkennen, mehr als eine Lösung mit identisch oder ähnlich effektiv Aufführungen, mit 57 Gruppen von Funktionen mit binären Klassifikation Genauigkeiten von 100 % zwischen B-Zell- und T-Zellen, die alle Proben. Diese besondere Biomarker Teilmengen hießen die perfekte Lösung. Nicht wenige Biomarker erschien diese perfekte Lösungen wiederholt, was darauf hindeutet, dass sie die wichtigsten Unterschiede auf der molekularen Ebene, zwischen B - und T-Zell-alle darstellen können. Wenn der Biomarker-Erkennungsalgorithmus stoppt bei der Erkennung der erste perfekten Lösung von drei Genen CD3D/SH2D1A/LCK, wird eine weitere perfekte Lösung CD74/HLA-DPB1/PRKCQ vermisst. Zum Beispiel HLA-DPB1 ist bekanntermaßen signifikant assoziiert mit der pädiatrischen T-Zelle alle, aber nicht B-Zelle alle54.

Die drei Merkmale der ersten Biomarker Teilmenge von ALL2 wurden Chromatin Assembly Faktor 1 Untereinheit B (CHAF1B, 36912_at), Exonuclease 1 (EXO1, 36041_at) und signal-Wandler und Aktivator der Transkription 6 (STAT6, 41222_at). CHAF1B wurde beobachtet, um hoch in Leukämie Zelllinien ausgedrückt werden und der Antikörper gegen das Protein CHAF1B codiert wurde erheblich in akute myeloische Leukämie (AML) Patienten55entwickelt. EXO1 wurde in einigen Fällen von akuter Leukämie56und hochreguliert in der Leukämie-Zelllinie HL-60 [R] verloren. Es wurde auch festgestellt, um negativ zu regulieren, die alternative Verlängerung der Telomere (ALT) Weg, die die Bildung von ALT-assoziierten PML (Promyelocytic Leukämie) Körper (APBs)57erleichtert. STAT6 war phosphoryliert, um pro-überleben und proliferative Signalweg bei rezidivierter AML58zu aktivieren. Zusammengenommen, die drei Gene wurden mit der Entwicklung und Rückfall der Leukämie verbunden, aber keine expliziten Hinweise auf ihre Verbände mit allen Rückfall erschien. Dies kann ein interessantes Thema zur weiteren Untersuchung darstellen.

Die gleiche Anmerkung Verfahren kann auf beliebige Teilmenge Biomarker für ALL1 und ALL2 durchgeführt werden. Die drei Biomarker im obigen Abschnitt untersucht wurden nicht identifiziert, als Biomarker im Dataset ALL2, Rückfall, wie in Abbildung 9dargestellt. Dies deutet darauf hin, dass Biomarker Phänotyp-spezifisch, sind das ist eine weitere große Herausforderung für die Erkennung von Biomarker neben die Existenz von mehreren ähnlich effektive Lösungen.

Einige technische Module wurden umgesetzt und hier für interessierte Nutzer beschrieben. Das Fehler-Handling-Modul bietet informative Nachrichten für den Benutzer, wenn Fehler während der Ausführung der Software auftreten. Die wichtigsten Fehlermeldungen aufgeführt und erklärt in "Fehlermeldungen" in das ergänzende Material. Eine parallele Berechnung der Biomarker wurde für Computer mit mehr als einen CPU-Kern implementiert. Detailverbesserungen der Laufzeit finden Sie in den Zusatzmaterialien "Parallel running Time". Die Daten deuten darauf hin, dass die Verwendung von mehr CPU-Kerne die Laufzeit aufgrund der Kosten für den Wechsel zwischen verschiedenen CPU-Kerne nicht verbessern kann.

Figure 1
Abbildung 1: Beispiel-Dataset extrahiert aus dem Transkriptom Dataset ALL1 hat die ersten sechs Merkmale der ersten neun Proben von ALL1. Die Datenmatrix wurde in (a) die Form der Visualisierung, (b) die tabulatorgetrennte Format Textdatei und (c) die durch Trennzeichen getrennte Format Textdatei formatiert. (d) die Klasse Etikettendaten wurde in Visualisierung Form formatiert. Aufgrund der Registerkarte Zeichen ist unsichtbar, es ist als [TAB] in (b) dargestellt. Die Spalte Plattform bietet die Microarray-Plattform Affy in (b) und ist keine erforderlichen Datenspalte. Bitte klicken Sie hier für eine größere Version dieser Figur.

Figure 2
Abbildung 2: grafische Benutzeroberfläche der Software. Die Baseline-Statistiken werden in das obere linke Feld zusammengefasst. Benutzer können nach Sehenswürdigkeiten suchen und untersuchen die Wert-Verteilungen in den beiden oberen rechten Feldern. Die Parameter für Biomarker Nachweisverfahren können eingestellt werden, in der mittleren horizontalen Leiste. Die Biomarker-Teilmengen und ihre entsprechenden visualisierten Distributionen finden Sie im Unterteil. Bitte klicken Sie hier für eine größere Version dieser Figur.

Figure 3
Abbildung 3: Biomarker Subsets und ihre Visualisierungen generiert. Benutzer können die Tisch und zwei 3D Punktdiagrammen mit dem Parameter PiCutoff und PiFSNumweiter verfeinern. Bitte klicken Sie hier für eine größere Version dieser Figur.

Figure 4
Abbildung 4: Gen Anmerkungen des Features IDs in dieser Studie erkannt. Nehmen Sie die drei Feature-IDs 38319_at/38147_at/33238_at der ersten Biomarker Teilmenge des Datasets ALL1. (a) erhalten Sie das ID-Konvertierung-Modul durch Anklicken des Links Gen ID Konvertierung. (b) Eingabe der Feature-IDs in der roten Box 1, wählen Sie die Funktion in das rote Feld 2 (standardmäßig "AFFYMETRIX_3PRIME_IVT_ID" ist korrekt für diese Studie), wählen Sie Gen Liste in das rote Feld 3, und klicken Sie auf Übermitteln Liste in das rote Feld 4. (c) die funktionelle Anmerkungen auf dieser Seite und klicken Sie auf Gen-Liste anzeigen um die Gen-Symbole dieser abgefragten Funktionen zu erhalten. (d) der Gen-Symbole der die abgefragte Objekt-IDs zu bekommen. Bitte klicken Sie hier für eine größere Version dieser Figur.

Figure 5
Abbildung 5: Anmerkungen und Anreicherung Analyse der gefundenen Feature Teilmengen. (a) Gen Anmerkungen von Gene Card. (B) OMIM beschreibt die Krankheit Verbände der jedes Feature/gen. (c) kommentieren Sie das Protein kodiert durch das Gen des Interesses in der Datenbank UniProtKB. (d) Vorhersagen Sie, die Tyrosin-Phosphorylierung-Rückstände in der gegebenen Proteins mit dem online-Tool GPS. Ein rotes Kästchen wurde hinzugefügt, um dem Benutzer anzuzeigen, wo Sie klicken, um die Abfragedaten eingeben. Die primäre Sequenz des Proteins Beispiel CD3D kann als FASTA-Format aus der roten Box (c) abgerufen, und geben Sie im Fenster "Abfrage" durch Klicken Sie auf das rote Feld (d). Bitte klicken Sie hier für eine größere Version dieser Figur.

Figure 6
Abbildung 6: Workflow von kSolutionVis. Jedes Modul der Software wurde das obige Protokoll beschrieben. Bitte klicken Sie hier für eine größere Version dieser Figur.

Figure 7
Abbildung 7: Baseline Statistiken der zwei repräsentative Datasets. Die Zahl der Proben, Funktionen und Klassen in ALL1 (a) und (b) ALL2 werden berechnet. Die Dateigrößen der Matrix und Klasse Datenbeschriftungen werden auch erkannt. Und eine neue Datenmatrix wird aus den Proben mit Klassenbezeichner extrahiert. Bitte klicken Sie hier für eine größere Version dieser Figur.

Figure 8
Abbildung 8: Histogramm Visualisierung von der Funktion 1012_at in den beiden Datensätzen. Grundlinie Statistiken und Histogramm wurden für ALL1 (a) und (b) ALL2 erzeugt. Bitte klicken Sie hier für eine größere Version dieser Figur.

Figure 9
Abbildung 9: Biomarker Subsets und Streudiagrammen der zwei Datasets. Benutzer können ändern Sie die Parameter in der zweiten Zeile der Parameterfelder um die Listen der Biomarker Teilmengen zu verfeinern und 3D Scatter Grundstücke für die Datasets ALL1 (a) und (b) ALL2. Bitte klicken Sie hier für eine größere Version dieser Figur.

Web-site Link Funktionalität
GeneCards http://www.genecards.org/cgi-bin/carddisp.pl?Gene=CD3D Gen annotation
OMIM https://OMIM.org/Entry/186790?Search=CD3D&Highlight=CD3D Gen-Krankheit Verband
UniProtKB http://www.UniProt.org/UniProt/P04234 Protein-annotation
GPS http://GPS.biocuckoo.org/ Des Proteins PTM Vorhersage
Zeichenfolge https://String-DB.org/ Protein-Protein-Interaktion
David https://David.ncifcrf.gov/ Gen-Set Anreicherung Analyse

Tabelle 1. Websites zum kommentieren und analysieren die erkannten Biomarker. Eine Liste von nützlichen online-Tools, die helfen, kommentieren die erkannten Biomarker.

Formel 1 F2 F3 ACC Symbol1 Symbol2 Symbol3
38319_at 38147_at 33238_at 1.0000 CD3D SH2D1A LCK
33238_at 35016_at 37039_at 1.0000 LCK CD74 HLA-DRA
38147_at 33238_at 35016_at 1.0000 SH2D1A LCK CD74
38147_at 33238_at 2059_s_at 1.0000 SH2D1A LCK LCK
38147_at 33238_at 37039_at 1.0000 SH2D1A LCK HLA-DRA
38147_at 33238_at 38095_i_at 1.0000 SH2D1A LCK HLA-DPB1
38147_at 33238_at 33039_at 1.0000 SH2D1A LCK TRAT1
38147_at 35016_at 2059_s_at 1.0000 SH2D1A CD74 LCK
38147_at 35016_at 33039_at 1.0000 SH2D1A CD74 TRAT1
38147_at 35016_at 38949_at 1.0000 SH2D1A CD74 PRKCQ
38147_at 2059_s_at 37039_at 1.0000 SH2D1A LCK HLA-DRA
38147_at 2059_s_at 38095_i_at 1.0000 SH2D1A LCK HLA-DPB1
38147_at 37039_at 33039_at 1.0000 SH2D1A HLA-DRA TRAT1
38147_at 37039_at 38949_at 1.0000 SH2D1A HLA-DRA PRKCQ
38319_at 38147_at 35016_at 1.0000 CD3D SH2D1A CD74
38147_at 38833_at 38949_at 1.0000 SH2D1A HLA-DPA1 PRKCQ
33238_at 35016_at 33039_at 1.0000 LCK CD74 TRAT1
38319_at 38833_at 38949_at 1.0000 CD3D HLA-DPA1 PRKCQ
33238_at 35016_at 38949_at 1.0000 LCK CD74 PRKCQ
33238_at 2059_s_at 37039_at 1.0000 LCK LCK HLA-DRA
33238_at 37039_at 38095_i_at 1.0000 LCK HLA-DRA HLA-DPB1
33238_at 37039_at 33039_at 1.0000 LCK HLA-DRA TRAT1
33238_at 37039_at 38949_at 1.0000 LCK HLA-DRA PRKCQ
33238_at 38095_i_at 38949_at 1.0000 LCK HLA-DPB1 PRKCQ
33238_at 38833_at 38949_at 1.0000 LCK HLA-DPA1 PRKCQ
33238_at 33039_at 38949_at 1.0000 LCK TRAT1 PRKCQ
35016_at 2059_s_at 33039_at 1.0000 CD74 LCK TRAT1
35016_at 2059_s_at 38949_at 1.0000 CD74 LCK PRKCQ
35016_at 38095_i_at 38949_at 1.0000 CD74 HLA-DPB1 PRKCQ
2059_s_at 37039_at 33039_at 1.0000 LCK HLA-DRA TRAT1
2059_s_at 38095_i_at 38949_at 1.0000 LCK HLA-DPB1 PRKCQ
2059_s_at 38833_at 38949_at 1.0000 LCK HLA-DPA1 PRKCQ
38319_at 33039_at 38949_at 1.0000 CD3D TRAT1 PRKCQ
38147_at 38095_i_at 38949_at 1.0000 SH2D1A HLA-DPB1 PRKCQ
38319_at 33238_at 38833_at 1.0000 CD3D LCK HLA-DPA1
38319_at 2059_s_at 38833_at 1.0000 CD3D LCK HLA-DPA1
38319_at 33238_at 33039_at 1.0000 CD3D LCK TRAT1
38319_at 33238_at 38095_i_at 1.0000 CD3D LCK HLA-DPB1
38319_at 33238_at 37039_at 1.0000 CD3D LCK HLA-DRA
38319_at 35016_at 38833_at 1.0000 CD3D CD74 HLA-DPA1
38319_at 33238_at 2059_s_at 1.0000 CD3D LCK LCK
38319_at 35016_at 33039_at 1.0000 CD3D CD74 TRAT1
38319_at 33238_at 35016_at 1.0000 CD3D LCK CD74
38319_at 35016_at 38949_at 1.0000 CD3D CD74 PRKCQ
38319_at 2059_s_at 37039_at 1.0000 CD3D LCK HLA-DRA
38319_at 38147_at 38949_at 1.0000 CD3D SH2D1A PRKCQ
38319_at 38147_at 33039_at 1.0000 CD3D SH2D1A TRAT1
38319_at 33238_at 38949_at 1.0000 CD3D LCK PRKCQ
38319_at 2059_s_at 38095_i_at 1.0000 CD3D LCK HLA-DPB1
38319_at 38147_at 38833_at 1.0000 CD3D SH2D1A HLA-DPA1
38319_at 2059_s_at 33039_at 1.0000 CD3D LCK TRAT1
38319_at 38147_at 38095_i_at 1.0000 CD3D SH2D1A HLA-DPB1
38319_at 37039_at 33039_at 1.0000 CD3D HLA-DRA TRAT1
38319_at 38147_at 37039_at 1.0000 CD3D SH2D1A HLA-DRA
38319_at 38147_at 2059_s_at 1.0000 CD3D SH2D1A LCK
38319_at 2059_s_at 38949_at 1.0000 CD3D LCK PRKCQ
38319_at 35016_at 2059_s_at 1.0000 CD3D CD74 LCK
2059_s_at 37039_at 38095_i_at 0.9922 LCK HLA-DRA HLA-DPB1
35016_at 33039_at 38949_at 0.9922 CD74 TRAT1 PRKCQ
2059_s_at 37039_at 38949_at 0.9922 LCK HLA-DRA PRKCQ
35016_at 2059_s_at 37039_at 0.9922 CD74 LCK HLA-DRA
35016_at 37039_at 38949_at 0.9922 CD74 HLA-DRA PRKCQ
35016_at 38833_at 38949_at 0.9922 CD74 HLA-DPA1 PRKCQ
2059_s_at 33039_at 38949_at 0.9922 LCK TRAT1 PRKCQ
37039_at 38833_at 38949_at 0.9922 HLA-DRA HLA-DPA1 PRKCQ
37039_at 33039_at 38949_at 0.9922 HLA-DRA TRAT1 PRKCQ
38319_at 38095_i_at 38949_at 0.9922 CD3D HLA-DPB1 PRKCQ
33238_at 37039_at 38833_at 0.9922 LCK HLA-DRA HLA-DPA1
38095_i_at 33039_at 38949_at 0.9922 HLA-DPB1 TRAT1 PRKCQ
33238_at 2059_s_at 38949_at 0.9922 LCK LCK PRKCQ
38319_at 38833_at 33039_at 0.9922 CD3D HLA-DPA1 TRAT1
38833_at 33039_at 38949_at 0.9922 HLA-DPA1 TRAT1 PRKCQ
38147_at 33039_at 38949_at 0.9922 SH2D1A TRAT1 PRKCQ
38319_at 37039_at 38833_at 0.9922 CD3D HLA-DRA HLA-DPA1
38147_at 2059_s_at 38949_at 0.9922 SH2D1A LCK PRKCQ
38147_at 38095_i_at 38833_at 0.9922 SH2D1A HLA-DPB1 HLA-DPA1
38147_at 33238_at 38949_at 0.9922 SH2D1A LCK PRKCQ
38147_at 2059_s_at 33039_at 0.9922 SH2D1A LCK TRAT1
38319_at 37039_at 38949_at 0.9922 CD3D HLA-DRA PRKCQ
38319_at 38095_i_at 38833_at 0.9922 CD3D HLA-DPB1 HLA-DPA1
38147_at 2059_s_at 38833_at 0.9922 SH2D1A LCK HLA-DPA1
33238_at 35016_at 2059_s_at 0.9922 LCK CD74 LCK
38319_at 35016_at 38095_i_at 0.9922 CD3D CD74 HLA-DPB1
33238_at 35016_at 38095_i_at 0.9922 LCK CD74 HLA-DPB1
38319_at 35016_at 37039_at 0.9922 CD3D CD74 HLA-DRA
38147_at 33238_at 38833_at 0.9922 SH2D1A LCK HLA-DPA1
38147_at 37039_at 38095_i_at 0.9844 SH2D1A HLA-DRA HLA-DPB1
38147_at 35016_at 38833_at 0.9844 SH2D1A CD74 HLA-DPA1
38147_at 35016_at 38095_i_at 0.9844 SH2D1A CD74 HLA-DPB1
35016_at 2059_s_at 38095_i_at 0.9844 CD74 LCK HLA-DPB1
38147_at 37039_at 38833_at 0.9844 SH2D1A HLA-DRA HLA-DPA1
35016_at 2059_s_at 38833_at 0.9844 CD74 LCK HLA-DPA1
38319_at 37039_at 38095_i_at 0.9844 CD3D HLA-DRA HLA-DPB1
37039_at 38095_i_at 38949_at 0.9844 HLA-DRA HLA-DPB1 PRKCQ
38147_at 38833_at 33039_at 0.9844 SH2D1A HLA-DPA1 TRAT1
38095_i_at 38833_at 38949_at 0.9844 HLA-DPB1 HLA-DPA1 PRKCQ
33238_at 35016_at 38833_at 0.9844 LCK CD74 HLA-DPA1
38319_at 38095_i_at 33039_at 0.9844 CD3D HLA-DPB1 TRAT1
2059_s_at 37039_at 38833_at 0.9844 LCK HLA-DRA HLA-DPA1
2059_s_at 38833_at 33039_at 0.9766 LCK HLA-DPA1 TRAT1
2059_s_at 38095_i_at 33039_at 0.9766 LCK HLA-DPB1 TRAT1
2059_s_at 38095_i_at 38833_at 0.9766 LCK HLA-DPB1 HLA-DPA1
33238_at 2059_s_at 38095_i_at 0.9766 LCK LCK HLA-DPB1
35016_at 38095_i_at 33039_at 0.9766 CD74 HLA-DPB1 TRAT1
38147_at 38095_i_at 33039_at 0.9766 SH2D1A HLA-DPB1 TRAT1
33238_at 2059_s_at 33039_at 0.9766 LCK LCK TRAT1
35016_at 37039_at 33039_at 0.9766 CD74 HLA-DRA TRAT1
33238_at 38095_i_at 33039_at 0.9766 LCK HLA-DPB1 TRAT1
33238_at 38833_at 33039_at 0.9766 LCK HLA-DPA1 TRAT1
35016_at 38833_at 33039_at 0.9766 CD74 HLA-DPA1 TRAT1
33238_at 38095_i_at 38833_at 0.9688 LCK HLA-DPB1 HLA-DPA1
37039_at 38833_at 33039_at 0.9688 HLA-DRA HLA-DPA1 TRAT1
38147_at 35016_at 37039_at 0.9688 SH2D1A CD74 HLA-DRA
33238_at 2059_s_at 38833_at 0.9688 LCK LCK HLA-DPA1
37039_at 38095_i_at 33039_at 0.9688 HLA-DRA HLA-DPB1 TRAT1
38095_i_at 38833_at 33039_at 0.9609 HLA-DPB1 HLA-DPA1 TRAT1
35016_at 38095_i_at 38833_at 0.9609 CD74 HLA-DPB1 HLA-DPA1
37039_at 38095_i_at 38833_at 0.9531 HLA-DRA HLA-DPB1 HLA-DPA1
35016_at 37039_at 38095_i_at 0.9531 CD74 HLA-DRA HLA-DPB1
35016_at 37039_at 38833_at 0.9531 CD74 HLA-DRA HLA-DPA1

Tabelle 2: Anmerkungen der alle Features aus dem Dataset ALL1. Dies ist eine binäre Klassifikation Dataset zwischen B-Zell- und T-Zellen alle Proben. Die Gen-Symbole wurden für die Microarray-Features in den letzten drei Spalten gesammelt.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Diese Studie bietet eine einfach zu befolgende Multi-Lösung Biomarker Erkennung und Charakterisierung Protokoll für eine benutzerspezifische binäre Klassifikation Dataset. Die Software setzt Schwerpunkt auf Benutzerfreundlichkeit und flexible Import-/Export-Schnittstellen für verschiedene Datei-Formate, so dass biomedizinische Forscher, ihre Dataset einfach über die Benutzeroberfläche der Software zu untersuchen. Dieser Studie betont auch, dass mehr als eine Lösung mit ähnlich effektiv Modellierung Aufführungen, zuvor von vielen vorhandenen Biomarker Erkennungsalgorithmen ignoriert zu erzeugen. In Zukunft können neu entwickelten Biomarker Erkennungsalgorithmen diese Option enthalten, durch die Mittelstufe Biomarker Teilmengen mit ausreichend Modellierung Leistungen aufzeichnen.

In diesem Protokoll sind Schritte 1 und 5 von größter Bedeutung, da die Software ist ein vollautomatisches System, das korrekt formatierte Eingabedateien abhängt. Es wurde festgestellt, dass während unserer Tests Schritt, MIS-Match der Beispielnamen von Data-Matrix und Klassendateien Etiketten können Fehler in der Software, wo die Software eine Warnmeldung über diesen Fehler herausspringen wird verursachen. Daher findet der Benutzer keine Proben wurden aus der Datenmatrix geladen oder Class-Label-Dateien, der Problembehandlung Trick ist zu überprüfen, ob die Beispielnamen in die beiden Eingabedateien inkonsistent sind. Wenn keine Punkte im 3D Streudiagrammen visualisiert wurden, kann dies durch den Parameter pCutoff höher ist als die beste Lösung sein. In diesem Fall der Problembehandlung Trick soll die Cutoff von der Klassifizierung Performance-Messung (Parameter pCutoff) zu senken. Jedoch kann die maximale Performance-Messung durch die Biomarker-Teilmengen erreicht noch durch den Grenzwert für eine schwierige Datasets blockiert werden. Eine Warnmeldung erhalten diese beste Performance-Messung, und der Benutzer kann ein kleiner Cutoff Analyse weiter wählen.

Die wichtigsten Einschränkungen der Software sind seine langsamen Rechengeschwindigkeit und seine Fähigkeit, nur auf höchstens drei Funktionen konzentrieren. Funktionsauswahl NP-schwer das Problem ist, definiert als rechnerische Problem dessen Global optimale Lösung in polynomialer Zeit59gelöst werden kann. Die umfassende Biomarker Teilmenge screening Schritt verbraucht ein hohes Volumen an Rechenleistung. Die Laufzeit ist die Komplexität der kSolutionVis O (n3) wo n ist der Parameter pTopX. Darüber hinaus konzentriert sich dieses Multiple-Biomarker Erkennungsalgorithmus auf den Bildschirm Features, daher beschränken die Anzahl der Features, die drei oder weniger zu visualisieren. Diese Einschränkung kann einige Benutzer behindern, die Arbeiten an schwierigen Problemen und Merkmal Teilmengen bestehend aus mehr als drei Merkmale finden möchten. Jedoch die Software visualisiert Feature Teilmengen im 3D-Raum und es ist schwierig, direkt Funktion Teilmengen in mehr als drei Dimensionen visualisieren. Darüber hinaus basierend auf die repräsentativen Ergebnisse oben dargestellten, die mehrere Feature-Drillinge von kSolutionVis ausgewählt ist eine höchst effektive Methode in Klassifikation und zeigt signifikante Ergebnisse mit biomedizinischen Bedeutung.

Die Software stellt nützlichen ergänzende Software, die vorhandene Funktion Auswahl Algorithmen. Auf dem Gebiet der Biomedizin nennt Funktionsauswahl Biomarker, mit dem Ziel, eine Teilmenge der Features erreichen verbesserte Modellierung Leistung finden60,61,62. Die Software ist ein umfassendes Screening-Tool alle Triplett Biomarker Teilmengen basierend auf den in einer jüngsten Studie5vorgeschlagene Strategie. Zwei repräsentative Datasets abgeschirmt von den Software-Protokoll, und ihre Ergebnisse demonstrieren die Existenzen von ganz wenigen Lösungen mit ebenso wirksam oder sogar identische Modellierung Auftritte. Heuristische Regeln63,64,65,66 kann eingesetzt werden, um die Sub-optimale Lösungen zu finden, aber solche Algorithmen haben eine starke Tendenz zu produzieren nur eine Lösung, viele andere ignorieren Lösungen mit ebenso wirksam oder sogar identische Modellierung Auftritte. Daher lohnen sich die Computerleistung und die lange Laufzeit der Software um eine umfassendere Erkennung potenzieller Biomarker in der Zukunft zu gewährleisten.

Die repräsentativen Ergebnisse wurden auf zwei Transkriptom Datasets berechnet, aber die Software Griffe Eingabedaten in verschiedenen standard-Dateiformate und können auch verwendet werden, um andere 'Omic' Datasets, einschließlich der Proteomik und Metabolomik zu analysieren. Darüber hinaus kann die Berechnung des Moduls Biomarker-Erkennung in der Software Parallelisierung beschleunigen. Es gibt einige Multi-Core Hardware einschließlich GPGPU (General-Purpose grafische Verarbeitung vereinen) und Phi Intel Xeon Prozessoren verfügbar sind für diesen Zweck. Doch diese Technologien erfordern verschiedene kodierungsstrategien und werden in der nächsten Version der Software berücksichtigt werden.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Wir haben keine Interessenkonflikte im Zusammenhang mit diesem Bericht.

Acknowledgments

Diese Arbeit wurde durch die strategische Priorität Forschungsprogramm von der chinesischen Akademie der Wissenschaften (XDB13040400) und die Start-Zuschuss von Jilin-Universität unterstützt. Anonymen Gutachtern und biomedizinische Tests Benutzer wurden für ihre konstruktive Kritik zur Verbesserung der Benutzerfreundlichkeit und Funktionalität des kSolutionVis geschätzt.

Materials

Name Company Catalog Number Comments
Hardware
laptop Lenovo X1 carbon Any computer works. Recommended minimum configuration: 1GB extra hard disk space, 1 GB memory, 2.0MHz CPU
Name Company Catalog Number Comments
Software
Python 3.0 WingWare Wing Personal Any python programming and running environments support Python version 3.0 or above

DOWNLOAD MATERIALS LIST

References

  1. Heckerman, D., et al. Genetic variants associated with physical performance and anthropometry in old age: a genome-wide association study in the ilSIRENTE cohort. Scientific Reports. 7, 15879 (2017).
  2. Li, Z., et al. Genome-wide association analysis identifies 30 new susceptibility loci for schizophrenia. Nature Genetics. 49, 1576-1583 (2017).
  3. Winkler, T. W., et al. Quality control and conduct of genome-wide association meta-analyses. Nature Protocols. 9, 1192-1212 (2014).
  4. Harrison, R. N. S., et al. Development of multivariable models to predict change in Body Mass Index within a clinical trial population of psychotic individuals. Scientific Reports. 7, 14738 (2017).
  5. Liu, J., et al. Multiple similarly-well solutions exist for biomedical feature selection and classification problems. Scientific Reports. 7, 12830 (2017).
  6. Ye, Y., Zhang, R., Zheng, W., Liu, S., Zhou, F. RIFS: a randomly restarted incremental feature selection algorithm. Scientific Reports. 7, 13013 (2017).
  7. Zhou, F. F., Xue, Y., Chen, G. L., Yao, X. GPS: a novel group-based phosphorylation predicting and scoring method. Biochemical and Biophysical Research Communications. 325, 1443-1448 (2004).
  8. Sanchez, B. N., Wu, M., Song, P. X., Wang, W. Study design in high-dimensional classification analysis. Biostatistics. 17, 722-736 (2016).
  9. Shujie, M. A., Carroll, R. J., Liang, H., Xu, S. Estimation and Inference in Generalized Additive Coefficient Models for Nonlinear Interactions with High-Dimensional Covariates. Annals of Statistics. 43, 2102-2131 (2015).
  10. Li, J. H., et al. MiR-205 as a promising biomarker in the diagnosis and prognosis of lung cancer. Oncotarget. 8, 91938-91949 (2017).
  11. Lyskjaer, I., Rasmussen, M. H., Andersen, C. L. Putting a brake on stress signaling: miR-625-3p as a biomarker for choice of therapy in colorectal cancer. Epigenomics. 8, 1449-1452 (2016).
  12. Ge, R., et al. McTwo: a two-step feature selection algorithm based on maximal information coefficient. BMC Bioinformatics. 17, 142 (2016).
  13. Tumuluru, J. S., McCulloch, R. Application of Hybrid Genetic Algorithm Routine in Optimizing Food and Bioengineering Processes. Foods. 5, (2016).
  14. Gen, M., Cheng, R., Lin, L. Network models and optimization: Multiobjective genetic algorithm approach. , Springer Science & Business Media. (2008).
  15. Radovic, M., Ghalwash, M., Filipovic, N., Obradovic, Z. Minimum redundancy maximum relevance feature selection approach for temporal gene expression data. BMC Bioinformatics. 18, 9 (2017).
  16. Ciuculete, D. M., et al. A methylome-wide mQTL analysis reveals associations of methylation sites with GAD1 and HDAC3 SNPs and a general psychiatric risk score. Translational Psychiatry. 7, e1002 (2017).
  17. Lin, H., et al. Methylome-wide Association Study of Atrial Fibrillation in Framingham Heart Study. Scientific Reports. 7, 40377 (2017).
  18. Wang, S., Li, J., Yuan, F., Huang, T., Cai, Y. D. Computational method for distinguishing lysine acetylation, sumoylation, and ubiquitination using the random forest algorithm with a feature selection procedure. combinatorial chemistry & high throughput screening. , (2017).
  19. Zhang, Q., et al. Predicting Citrullination Sites in Protein Sequences Using mRMR Method and Random Forest Algorithm. combinatorial chemistry & high throughput screening. 20, 164-173 (2017).
  20. Cuena-Lombrana, A., Fois, M., Fenu, G., Cogoni, D., Bacchetta, G. The impact of climatic variations on the reproductive success of Gentiana lutea L. in a Mediterranean mountain area. International journal of biometeorology. , (2018).
  21. Coghe, G., et al. Fatigue, as measured using the Modified Fatigue Impact Scale, is a predictor of processing speed improvement induced by exercise in patients with multiple sclerosis: data from a randomized controlled trial. Journal of Neurology. , (2018).
  22. Hong, H., et al. Applying genetic algorithms to set the optimal combination of forest fire related variables and model forest fire susceptibility based on data mining models. The case of Dayu County, China. Science of the Total Environment. 630, 1044-1056 (2018).
  23. Borges, D. L., et al. Photoanthropometric face iridial proportions for age estimation: An investigation using features selected via a joint mutual information criterion. Forensic Science International. 284, 9-14 (2018).
  24. Kohavi, R., John, G. H. Wrappers for feature subset selection. Artificial intelligence. 97, 273-324 (1997).
  25. Yu, L., Liu, H. Efficient feature selection via analysis of relevance and redundancy. Journal of machine learning research. 5, 1205-1224 (2004).
  26. Wexler, R. B., Martirez, J. M. P., Rappe, A. M. Chemical Pressure-Driven Enhancement of the Hydrogen Evolving Activity of Ni2P from Nonmetal Surface Doping Interpreted via Machine Learning. Journal of American Chemical Society. , (2018).
  27. Wijaya, S. H., Batubara, I., Nishioka, T., Altaf-Ul-Amin, M., Kanaya, S. Metabolomic Studies of Indonesian Jamu Medicines: Prediction of Jamu Efficacy and Identification of Important Metabolites. Molecular Informatics. 36, (2017).
  28. Shangkuan, W. C., et al. Risk analysis of colorectal cancer incidence by gene expression analysis. PeerJ. 5, e3003 (2017).
  29. Chu, C. M., et al. Gene expression profiling of colorectal tumors and normal mucosa by microarrays meta-analysis using prediction analysis of microarray, artificial neural network, classification, and regression trees. Disease Markers. , 634123 (2014).
  30. Fleuret, F. Fast binary feature selection with conditional mutual information. Journal of Machine Learning Research. 5, 1531-1555 (2004).
  31. Pacheco, J., Alfaro, E., Casado, S., Gámez, M., García, N. A GRASP method for building classification trees. Expert Systems with Applications. 39, 3241-3248 (2012).
  32. Jiao, X., et al. DAVID-WS: a stateful web service to facilitate gene/protein list analysis. Bioinformatics. 28, 1805-1806 (2012).
  33. Rappaport, N., et al. Rational confederation of genes and diseases: NGS interpretation via GeneCards, MalaCards and VarElect. Biomedical Engineering OnLine. 16, 72 (2017).
  34. Rebhan, M., Chalifa-Caspi, V., Prilusky, J., Lancet, D. GeneCards: integrating information about genes, proteins and diseases. Trends in Genet. 13, 163 (1997).
  35. Joosten, R. P., Long, F., Murshudov, G. N., Perrakis, A. The PDB_REDO server for macromolecular structure model optimization. IUCrJ. 1, 213-220 (2014).
  36. Maglott, D., Ostell, J., Pruitt, K. D., Tatusova, T. Entrez Gene: gene-centered information at NCBI. Nucleic Acids Research. 39, D52-D57 (2011).
  37. Amberger, J. S., Bocchini, C. A., Schiettecatte, F., Scott, A. F., Hamosh, A. OMIM.org: Online Mendelian Inheritance in Man (OMIM(R)), an online catalog of human genes and genetic disorders. Nucleic Acids Research. 43, D789-D798 (2015).
  38. Boutet, E., et al. the Manually Annotated Section of the UniProt KnowledgeBase: How to Use the Entry View. Methods in Molecular Biology. 1374, 23-54 (2016).
  39. Zerbino, D. R., et al. Ensembl 2018. Nucleic Acids Res. , (2017).
  40. McKusick, V. A., Amberger, J. S. The morbid anatomy of the human genome: chromosomal location of mutations causing disease. Journal of Medical Genetics. 30, 1-26 (1993).
  41. Finn, R. D., et al. The Pfam protein families database: towards a more sustainable future. Nucleic Acids Research. 44, D279-D285 (2016).
  42. Xue, Y., et al. GPS: a comprehensive www server for phosphorylation sites prediction. Nucleic Acids Research. 33, W184-W187 (2005).
  43. Deng, W., et al. GPS-PAIL: prediction of lysine acetyltransferase-specific modification sites from protein sequences. Scientific Reports. 6, 39787 (2016).
  44. Zhao, Q., et al. GPS-SUMO: a tool for the prediction of sumoylation sites and SUMO-interaction motifs. Nucleic Acids Research. 42, W325-W330 (2014).
  45. Wan, S., Duan, Y., Zou, Q. HPSLPred: An Ensemble Multi-Label Classifier for Human Protein Subcellular Location Prediction with Imbalanced Source. Proteomics. 17, (2017).
  46. Zhang, H., Zhu, L., Huang, D. S. WSMD: weakly-supervised motif discovery in transcription factor ChIP-seq data. Scientific Reports. 7, 3217 (2017).
  47. Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, D447-D452 (2015).
  48. Chiaretti, S., et al. Gene expression profile of adult T-cell acute lymphocytic leukemia identifies distinct subsets of patients with different response to therapy and survival. Blood. 103, 2771-2778 (2004).
  49. Rowley, J. D., et al. Mapping chromosome band 11q23 in human acute leukemia with biotinylated probes: identification of 11q23 translocation breakpoints with a yeast artificial chromosome. Proceedings of the National Academy of Sciences of the United States of America. 87, 9358-9362 (1990).
  50. Rabbitts, T. H., et al. The chromosomal location of T-cell receptor genes and a T cell rearranging gene: possible correlation with specific translocations in human T cell leukaemia. Embo Journal. 4, 1461-1465 (1985).
  51. Yin, L., et al. SH2D1A mutation analysis for diagnosis of XLP in typical and atypical patients. Human Genetics. 105, 501-505 (1999).
  52. Brandau, O., et al. Epstein-Barr virus-negative boys with non-Hodgkin lymphoma are mutated in the SH2D1A gene, as are patients with X-linked lymphoproliferative disease (XLP). Human Molecular Genetics. 8, 2407-2413 (1999).
  53. Burnett, R. C., Thirman, M. J., Rowley, J. D., Diaz, M. O. Molecular analysis of the T-cell acute lymphoblastic leukemia-associated t(1;7)(p34;q34) that fuses LCK and TCRB. Blood. 84, 1232-1236 (1994).
  54. Taylor, G. M., et al. Genetic susceptibility to childhood common acute lymphoblastic leukaemia is associated with polymorphic peptide-binding pocket profiles in HLA-DPB1*0201. Human Molecular Genetics. 11, 1585-1597 (2002).
  55. Wadia, P. P., et al. Antibodies specifically target AML antigen NuSAP1 after allogeneic bone marrow transplantation. Blood. 115, 2077-2087 (2010).
  56. Wilson, D. M., et al. 3rd et al. Hex1: a new human Rad2 nuclease family member with homology to yeast exonuclease 1. Nucleic Acids Research. 26, 3762-3768 (1998).
  57. O'Sullivan, R. J., et al. Rapid induction of alternative lengthening of telomeres by depletion of the histone chaperone ASF1. Nature Structural & Molecular Biology. 21, 167-174 (2014).
  58. Lee-Sherick, A. B., et al. Aberrant Mer receptor tyrosine kinase expression contributes to leukemogenesis in acute myeloid leukemia. Oncogene. 32, 5359-5368 (2013).
  59. Guyon, I., Elisseeff, A. An introduction to variable and feature selection. Journal of machine learning research. 3, 1157-1182 (2003).
  60. John, G. H., Kohavi, R., Pfleger, K. Machine learning: proceedings of the eleventh international conference. , 121-129 (1994).
  61. Jain, A., Zongker, D. Feature selection: Evaluation, application, and small sample performance. IEEE transactions on pattern analysis and machine intelligence. 19, 153-158 (1997).
  62. Taylor, S. L., Kim, K. A jackknife and voting classifier approach to feature selection and classification. Cancer Informatics. 10, 133-147 (2011).
  63. Andresen, K., et al. Novel target genes and a valid biomarker panel identified for cholangiocarcinoma. Epigenetics. 7, 1249-1257 (2012).
  64. Guo, P., et al. Gene expression profile based classification models of psoriasis. Genomics. 103, 48-55 (2014).
  65. Xie, J., Wang, C. Using support vector machines with a novel hybrid feature selection method for diagnosis of erythemato-squamous diseases. Expert Systems with Applications. 38, 5809-5815 (2011).
  66. Zou, Q., Zeng, J., Cao, L., Ji, R. A novel features ranking metric with application to scalable visual and bioinformatics data classification. Neurocomputing. 173, 346-354 (2016).

Tags

Ausgabe 140 Biomarker-Erkennung Krebsforschung Funktionsauswahl OMIC binäre Klassifikation Filter Wrapper extreme lernen Maschine ELM
Auswahl mehrerer Biomarker Teilmengen mit ebenso wirksame binäre Klassifikation Aufführungen
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Feng, X., Wang, S., Liu, Q., Li, H., More

Feng, X., Wang, S., Liu, Q., Li, H., Liu, J., Xu, C., Yang, W., Shu, Y., Zheng, W., Yu, B., Qi, M., Zhou, W., Zhou, F. Selecting Multiple Biomarker Subsets with Similarly Effective Binary Classification Performances. J. Vis. Exp. (140), e57738, doi:10.3791/57738 (2018).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter