Hvis du vælger flere biomarkør delmængder med tilsvarende effektive binære klassificering forestillinger

Cancer Research

Your institution must subscribe to JoVE's Cancer Research section to access this content.

Fill out the form below to receive a free trial or learn more about access:

 

Summary

Eksisterende algoritmer generere en løsning for en biomarkør påvisning datasæt. Denne protokol viser eksistensen af flere tilsvarende effektive løsninger og præsenterer en brugervenlig software til at hjælpe biomedicinske forskere undersøge deres datasæt for den foreslåede udfordring. Dataloger kan også give denne funktion i deres biomarkør påvisning algoritmer.

Cite this Article

Copy Citation | Download Citations

Feng, X., Wang, S., Liu, Q., Li, H., Liu, J., Xu, C., Yang, W., Shu, Y., Zheng, W., Yu, B., Qi, M., Zhou, W., Zhou, F. Selecting Multiple Biomarker Subsets with Similarly Effective Binary Classification Performances. J. Vis. Exp. (140), e57738, doi:10.3791/57738 (2018).

Please note that all translations are automatically generated.

Click here for the english version. For other languages click here.

Abstract

Registrering af biomarkør er en af de mere vigtige biomedicinske spørgsmål for høj overførselshastighed 'omik' forskere, og næsten alle eksisterende biomarkør påvisning algoritmer generere en biomarkør delmængde med optimeret performance-måling for et givet datasæt . Men en nylig undersøgelse påvist eksistensen af flere biomarkør delmængder med tilsvarende effektive eller endda identiske klassificering forestillinger. Denne protokol udgør en enkel og ligetil metode til påvisning af biomarkør delmængder med binære klassificering forestillinger, bedre end en brugerdefineret cutoff. Protokollen består af dataforberedelse og lastning, baseline oplysninger sammendrag, parameter tuning, biomarkør screening, resultatet visualisering og fortolkning, biomarkør gen anmærkninger, og resultatet og visualisering udførsel på publikation kvalitet. Den foreslåede biomarkør screening strategi er intuitiv og viser en generel regel for at udvikle biomarkør påvisning algoritmer. En bruger-kammeratlig anskuelighed brugergrænseflade (GUI) blev udviklet ved hjælp af programmeringssproget Python, tillader biomedicinske forskere at have direkte adgang til deres resultater. Kildekode og vejledning i kSolutionVis kan downloades fra http://www.healthinformaticslab.org/supp/resources.php.

Introduction

Binære klassificering, en af mest almindeligt undersøgt og udfordrende datamining problemer på det biomedicinske område, der bruges til at bygge en klassificering model uddannet på to grupper af prøver med den mest nøjagtige forskelsbehandling power1, 2 , 3 , 4 , 5 , 6 , 7. den store data genereret på det biomedicinske område har imidlertid den iboende "store lille PN" paradigme, med antallet af funktioner normalt langt større end antallet af prøver6,8,9. Biomedicinske forskere skal derfor reducere dimensionen funktion før bruger klassifikationen algoritmer for at undgå den overfitting problem8,9. Diagnose biomarkører er defineret som en delmængde af detekterede funktioner adskille patienter af en given sygdom fra sunde kontrol prøver10,11. Patienter er normalt defineret som de positive prøver, og de raske kontrolpersoner defineres som negative prøver12.

Nylige undersøgelser har antydet, at der findes mere end én løsning med identiske eller tilsvarende effektiv klassificering forestillinger til en biomedicinsk datasæt5. Næsten alle funktionen markering algoritmerne er deterministisk algoritmer, producerer kun én løsning til det samme datasæt. Genetiske algoritmer kan samtidig generere flere løsninger med lignende forestillinger, men de stadig forsøger at vælge en løsning med den bedste fitness-funktion som output for en given datasæt13,14.

Funktionen markering algoritmer kan grupperes groft som enten filtre eller wrappers12. Et filter algoritme vælger de top -k funktioner rangeret efter deres betydelige individuelle association med binære klasse etiketterne baseret på den antagelse, at funktioner er uafhængige af hinanden15,16,17 . Selv om denne antagelse ikke holder gælder for næsten alle virkelige datasæt, udfører heuristisk filterregel godt i mange tilfælde, for eksempel, Christinas (Minimum redundans og maksimale relevans) algoritme, Wilcoxon test baseret funktion filtrering (WRank) algoritme, og handlingen ROC (Receiver drift karakteristisk) baseret filtrering (ROCRank) algoritme. Flemming, er en effektiv filter algoritme fordi det tilnærmer kombinatorisk skøn problemet med en serie af meget mindre problemer, sammenligne med maksimum-afhængighed funktion udvalg algoritme, som hver omfatter kun to variabler, og Derfor bruger parvise joint sandsynligheder, som er mere robust18,19. Dog kan Christines undervurdere nytten af nogle funktioner, som det ikke måler interaktioner mellem funktioner, som kan øge relevans, og dermed misser nogle funktion de kombinationer, der er individuelt ubrugelig men er nyttige, kun når de kombineres. WRank algoritme beregner en ikke-parametrisk score på hvordan diskriminerende en funktion mellem to klasser af prøver, og er kendt for sin robusthed for outliers20,21. Derudover evaluerer ROCRank algoritme, hvordan væsentlige område Under the ROC kurve (AUC) af en bestemt funktion er for undersøgte binære klassificering ydeevne22,23.

På den anden side en wrapper evalueres forud definerede klassificeringen udførelsen af en given funktion delmængde, iterativt genereret af heuristisk regel og skaber funktion delmængde med den bedste performance måling24. En wrapper generelt udkonkurrerer et filter i klassificering ydeevne men kører langsommere25. Legaliseret tilfældige skov (RRF)26,27 algoritme bruges f.eks grådige regel ved at vurdere funktioner på en delmængde af træningsdata på hver tilfældig skov node, hvis funktion betydning scores evalueres ved Gini-indekset . Valget af en ny funktion vil blive straffet, hvis dens oplysninger gevinst ikke forbedres for de valgte funktioner. Derudover forudsigelse analyse for Microarrays (PAM)28,29 algoritme, også en wrapper algoritme, beregner en barycentrum for hver klasse etiketter, og derefter vælger egenskaber hen til krybe gen centroids mod samlet klasse barycentrum. PAM er robust til fjerntliggende funktioner.

Flere løsninger med øverste klassificering ydeevne kan være nødvendigt for enhver given datasæt. For det første, optimering mål af en deterministisk algoritme er defineret af en matematisk formel, f.eks., minimum fejl sats30, som er ikke nødvendigvis velegnet til biologiske prøver. For det andet kan et datasæt have flere, væsentligt anderledes løsninger med lignende effektiv eller endda identiske forestillinger. Næsten alle eksisterende funktion udvalg algoritmer vil tilfældigt vælge en af disse løsninger som output31.

Denne undersøgelse vil indføre en Informatik analytiske protokol til at generere flere funktion udvalg løsninger med lignende forestillinger for enhver given binære klassificering datasæt. I betragtning af at de fleste biomedicinske forskere ikke er fortrolig med it teknikker eller computer kodning, blev en bruger-kammeratlig anskuelighed brugergrænseflade (GUI) udviklet for at lette en hurtig analyse af biomedicinsk binære klassificering datasæt. Den analytiske protokollen består af dataindlæsning og opsummere, parameter tuning, rørledning udførelse og resultatet fortolkninger. Med et enkelt klik er at forskeren købedygtig frembringe biomarkør delmængder og publikation-kvalitet visualisering parceller. Protokollen er blevet testet ved hjælp af transcriptomes af to binære klassificering datasæt af akut lymfoblastær leukæmi (ALL), dvs., ALL1 og ALL212. Datasæt af ALL1 og ALL2 blev hentet fra bred Institut genom Data analyse Center, tilgængelig på http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi. ALL1 indeholder 128 prøver med 12,625 funktioner. Af disse prøver, 95 er B-celle alle og 33 er T-celle alle. ALL2 indeholder 100 prøver med 12,625 funktioner så godt. Af disse prøver er der 65 patienter, der har lidt tilbagefald og 35 patienter, der ikke gjorde. ALL1 var et let binære klassificering datasæt, med en minimum nøjagtigheden af fire filtre og fire wrappers 96,7% og 6 af de 8 funktion udvalg algoritmer at opnå 100%12. Mens ALL2 var en vanskeligere datasæt, med de ovenfor 8 funktion udvalg algoritmer at opnå bedre end 83,7% nøjagtighed12. Denne bedste nøjagtighed blev opnået med 56 funktioner opdaget af wrapper algoritme, korrelation-baseret funktion valg (CFS).

Subscription Required. Please recommend JoVE to your librarian.

Protocol

Bemærk: Følgende protokol beskriver detaljerne i Informatik analytiske procedure og pseudo koder af de store moduler. Automatisk analysesystem blev udviklet ved hjælp af Python version 3.6.0 og Python moduler pandaer, abc, numpy, scipy, sklearn, sys, PyQt5, sys, Flemming, matematik og matplotlib. Materialer i denne undersøgelse er angivet i Tabel af materialer.

1. forberede Data Matrix og klasse etiketter

  1. Forberede data matrix fil som en tabulator - eller kommasepareret matrix-fil, som illustreret i figur 1A.
    Bemærk: Hver række har alle værdier i en funktion, og det første element er kendetegn navn. En funktion er et probeset-ID for microarray-baserede transkriptom datasættet eller kan være en anden værdi ID som cystein rester med dens methylering værdi i en methylomic dataset. Hver kolonne giver funktionen værdierne af en given prøve, med det første element er navnet på prøve. En række er adskilt i kolonner af en FANE (figur 1B) eller komma (figur 1 c). En tabulatorsepareret matrix fil genkendes af fil forlængelse .tsv, og en kommasepareret matrix fil har filtypenavnet .csv. Denne fil kan blive genereret ved at gemme en matrix som enten .tsv eller .csv-format fra software som Microsoft Excel. Data matrix kan også genereres af computer kodning.
  2. Forberede klasse label-fil som en tabulator - eller kommasepareret matrix fil (fig. 1 d), svarende til filen data matrix.
    Bemærk: Den første kolonne giver prøven navne, og etiketten klasse af hver prøve er angivet i kolonnen med titlen klasse. Maksimal kompatibilitet anses i den kodning proces, således at yderligere kolonner kan tilføjes. Klasse label-fil kan være formateret som en .tsv eller .csv-fil. Navne i kolonnen klasse kan være nogen betingelser, og der kan være mere end to klasser af prøver. Brugeren kan vælge enhver to klasser for den følgende analyse.

2. Indlæs Data Matrix og klasse etiketter

  1. Indlæse data matrix og klasse etiketter i softwaren. Klik på knappen Indlæs data matrix at vælge filen brugerangivne data matrix. Klik på knappen Indlæs klasse etiketter til at vælge den tilsvarende klasse label-fil.
    Bemærk: Når begge filer er indlæst, kSolutionVis vil gennemføre en rutinemæssig skærm af kompatibilitet mellem de to filer.
  2. Opsummere de funktioner og prøver fra filen data matrix. Anslå størrelsen af filen data matrix.
  3. Opsummere de prøver og klasser fra klasse label-fil. Anslå størrelsen af klasse label-fil.
  4. Teste, om hver prøve fra data matrix har en klasse etiket. Opsummere antallet af stikprøver med klasse etiketter.

3. opsummere og viser Baseline statistikker for datasættet

  1. Klik på knappen Summér, uden nogen bestemt søgeord input, og softwaren vil vise 20 indekserede funktioner og tilsvarende funktioner navne.
    Bemærk: Brugere skal Angiv funktionsnavnet på den, de ønsker at finde sin oprindelige statistik og tilsvarende værdi distribution blandt alle input prøver.
  2. Give et nøgleord, f.eks "1000_at", i lærebog funktion til at finde en bestemt funktion der skal summeres. Klik på knappen Summér at få baseline statistikker for denne given funktion.
    Bemærk: Nøgleordet kan vises hvor som helst i target funktionsnavne, lette søgeproces for brugerne.
  3. Klik på Sammenfat at finde mere end én funktion med en given søgeord, og derefter angive unikke funktions-ID for at gå videre med ovenstående trin til at opsummere en bestemt funktion.

4. Bestem klasse etiketter og antallet af Top-rangerede funktioner

  1. Vælg navnene på Positive ("Pedersen (33)") og Negative ("Nielsen (95)") klasser i dropdown felterne Klasse Positive og Negative klasse, som vist i figur 2 (i midten).
    Bemærk: Det foreslås, for at vælge en afbalanceret binære klassificering datasæt, dvs.forskellen mellem antallet af positive og negative prøver er minimal. Antallet af prøver er også givet i parentes efter navnet på hver klasse etiket i boksene to dropdown.
  2. Vælg 10 som antallet af top-rangerede funktioner (parameter pTopX) i dropdown boksen Top_X (?) for en omfattende raster i funktion-undersæt.
    Bemærk: Softwaren automatisk placerer alle funktioner af P-værdi beregnet ved en t-test for hver funktion, der sammenligner de positive og negative klasser. En funktion med en mindre P-værdi har en bedre udslagsgivende magt mellem de to klasser af prøver. Modulet omfattende screening er meget beregningskrævende. Parameteren pTopX er 10 som standard. Brugere kan ændre denne parameter i rækken af 10 til 50, indtil de finder tilfredsstillende indslag delmængder med god klassificering forestillinger.

5. tune Systemparametre for forskellige forestillinger

  1. Vælg resultatmåling (pMeasurement) nøjagtighed (Acc) i dropdown boksen Acc/bAcc (?) for den valgte klassificering ekstreme læring maskine (ELM). En anden mulighed for denne parameter er måling afbalanceret nøjagtighed (bAcc).
    Bemærk: Lad TP, FN, TN, og FP være antallet af sandt positive, falske negativer, sande negativer og falske positiver, henholdsvis. Måling Acc er defineret som (TP+TN)/(TP+FN+TN+FP), som fungerer bedst på en afbalanceret datasæt6. Men en klassificering, der er optimeret til Acc tendens til at tildele den negative klasse alle prøver, hvis antallet af negative prøver er meget større end positive. BAcc er defineret som (Sn + Sp) / 2, hvor Sn = TP/(TP+FN) og Sp = TN/(TN+FP) er korrekt forudsagt satserne for positive og negative prøver, henholdsvis. Derfor bAcc normaliserer forudsigelse forestillinger over de to klasser, og kan føre til en afbalanceret forudsigelse ydeevne over to ubalanceret klasser. ACC er standardvalg af pMeasurement. Softwaren bruger klassificeringen ELM som standard til at beregne klassificering forestillinger. Brugeren kan også vælge en klassificering fra SVM (støtte vektor maskine), KNN (k nærmeste nabo), beslutningstræ eller Naïve Bayes.
  2. Vælg cutoff værdien 0,70 (parameter pCutoff) for den angivne resultatmåling i input-feltet pCutoff:.
    Bemærk: Både Acc og bAcc variere mellem 0 og 1, og brugeren kan angive en værdi pCutoffEquation[0, 1] som cutoff til at vise de matchede løsninger. Softwaren udfører en omfattende funktion-delmængde screening, og et passende valg af pCutoff vil gøre 3D-visualisering, mere intuitiv og eksplicitte. Standardværdien for pCutoff er 0,70.

6. Kør rørledningen og de interaktive VISUALISERET resultater

  1. Klik på knappen Analyze at køre rørledningen og generere visualisering parceller, som vist i figur 2 (nederst).
    Bemærk: Den venstre tabel giver alle funktion delmængder og deres pMeasurement beregnet af strategiens 10-fold cross validering af klassificeringen ELM, som tidligere beskrevet5. To 3D scatter plots og to-line parceller er genereret for funktion-delmængde screeningprocedure med de nuværende parameterindstillinger.
  2. Vælg 0,70 som standardværdien for pMeasurement cutoff (parameter piCutoff, input boksen værdi), og 10 som standard antallet af bedste funktion delmængder (parameter piFSNum).
    Bemærk: Rørledningen udføres ved hjælp af parametrene pTopX, pMeasurement, og pCutoff. Funktionen detekterede delmængder muligvis yderligere screenet ved hjælp af en cutoff piCutoff, men piCutoff kan ikke være mindre end pCutoff. Derfor, piCutoff er initialiseret som pCutoff og kun funktion delmængder med performance måling ≥ piCutoff vil være visualiseres. Standardværdien for piCutoff er pCutoff. Undertiden kSolutionVis registrerer mange løsninger, og kun den bedste piFSNum (standard: 10) funktion delmængder vil visualiseres. Hvis antallet af funktionen delmængder opdaget af softwaren er mindre end piFSNum, visualiseret alle funktion undersæt.
  3. Indsamle og fortolke de funktioner, der er opdaget af softwaren, som vist i figur 3.
    Bemærk: Tabellen i boksen til venstre viser de fundne funktion delmængder og deres performance målinger. Navnene på de tre første kolonner er "F1", "F2" og "F3". De tre funktioner i hver funktion delmængde er givet i deres prioriterede rækkefølge i en række (F1 < F2 < F3). Den sidste kolonne giver resultatmåling (Acc eller bAcc) for hver funktion undersæt, og kolonnenavn (Acc eller bAcc) er værdien af pMeasurement.

7. fortolke 3D Scatter parceller-visualisere og fortolke funktion delmængder med tilsvarende effektive binære klassificering forestillinger ved hjælp af 3D Scatter parceller

  1. Klik på knappen analyser til at generere 3D scatter plot af top 10 funktion delmængder med de bedste klassificering forestillinger (Acc eller bAcc) opdaget af softwaren, som vist i figur 3 (midterste boks). Sortere de tre funktioner i en funktion delmængde i stigende rækkefølge efter deres rækker og bruge i rækken af de tre funktioner som F1/F2/F3 akser, dvs., F1 < F2 < F3.
    Bemærk: Farven på en prik repræsenterer binære klassificering udførelsen af den tilsvarende funktion undersæt. Et datasæt kan have flere indslag delmængder med tilsvarende effektive performance målinger. En interaktiv og forenklet scatter plot er derfor nødvendig.
  2. Ændre værdien til 0,70 i input-feltet pCutoff: og klik på knappen analyser til at generere 3D scatter plot af funktionen delmængder med performance måling ≥ piCutoff, som det ses i figur 3 (højre boks). Klik på knappen 3D tuning til at åbne et nyt vindue for at manuelt indstille betragtningsvinkler 3D scatter plot.
    Bemærk: Hver funktion delmængde er repræsenteret af en prik på samme måde som ovenfor. 3D scatter plot blev genereret i standard vinkel. For at lette den 3D visualisering og tuning, et separat vindue åbnes ved at klikke på knappen 3D tuning.
  3. Klik på knappen Formindsk at reducere redundans af de fundne funktion delmængder.
    Bemærk: Hvis brugere ønsker at vælge funktion trillinger og minimere redundans af funktionen delmængder, softwaren også giver denne funktion ved hjælp af Christines funktion udvalg algoritme. Efter at klikke på knappen Formindsk kSolutionVis vil fjerne disse overflødige funktioner i funktionen trillinger og regenerere tabellen og de to scatter parceller nævnt ovenfor. De fjernede elementer i funktionen trillinger vil blive erstattet af nøgleordet i tabellen. Ingen værdier i F1/F2/F3 akse vil blive betegnet som værdien af piFSNum (rækken af den normale værdi for F1/F2/F3 er [1 top_x]). Derfor, de prikker, der omfatter en ingen værdi kan synes at være "outlier" prikker i 3D parceller. Manuelt afstemmelige 3D observationsområderne kan findes i "Manual tuning af 3D dot plots" i det supplerende materiale.

8. find gen anmærkninger og deres foreninger med sygdomme hos mennesker

Bemærk: Trin 8 til 10 vil illustrere hvordan anmærke et gen fra niveauet sekvens af DNA og protein. For det første gen symbol på hver biomarkør ID fra ovenstående trin kan hentes fra databasen DAVID32, og derefter to repræsentative webservere vil blive brugt til at analysere dette gen symbol fra niveauer af DNA og protein, henholdsvis. Server GeneCard giver en omfattende funktionelle anmærkning af et givent gen symbol og Online mendelske arven i mand database (OMIM) den mest omfattende datasikring af sygdomsgenet foreninger. Server UniProtKB er en af de mest omfattende protein database, og server gruppebaseret forudsigelse System (GPS) forudsiger den signaling fosforylerings for en meget lang liste af kinaser.

  1. Kopiere og indsætte web-link database DAVID i en webbrowser og åbne websiden for denne database. Klik på linket Gen ID konvertering ses i figur 4A og input funktionen id'er 38319_at/38147_at/33238_at af den første biomarkør undersæt af datasæt ALL1 (figur 4B). Klik på linket Gen liste og klik på Send liste som vist i figur 4B. Hente anmærkninger af interesse og klikke på Vis gen liste (figur 4 c). Få listen over gen symboler (figur 4D).
    Bemærk: Gen symboler hentes her vil blive brugt til yderligere funktionelle anmærkninger i de næste skridt.
  2. Kopiere og indsætte web-link af databasen gen kort i en webbrowser og åbne websiden for denne database. Søg et gen navn CD3D i boksen database query input og finde anmærkninger af dette gen fra gen kort33,34, som vist i tabel 1 og figur 5A.
    Bemærk: Gen kort er en omfattende-gen knowledgebase, nomenklatur, genomforskning, proteomics, subcellulært lokalisering, og involverede veje og andre funktionelle moduler. Det giver også eksterne links til forskellige andre biomedicinsk databaser som FBF/PDB_REDO35, Entrez genet36, OMIM37og UniProtKB38. Hvis kendetegn navn ikke er en standard gen symbol, skal du bruge database ENSEMBL for at konvertere det39. CD3D er navnet på gen T-celle receptoren T3 Delta kæde.
  3. Kopiere og indsætte web-link database OMIM i en webbrowser og åbne websiden for denne database. Søg et gen navn CD3D og find annotationer af dette gen fra databasen OMIM37, som vist i tabel 1 og figur 5B.
    Bemærk: OMIM fungerer nu som en af de mest omfattende og autoritative kilder af menneskegener forbindelser med arvelige sygdomme. OMIM blev indledt af Dr. Victor A. McKusick at katalogisere sygdom-associerede genetiske mutationer40. OMIM nu dækker over 15.000 menneskelige gener og over 8.500 fænotyper, i December 1st 2017.

9. anmærke de kodede proteiner og de posttranslationelle modifikationer

  1. Kopiere og indsætte web-link database UniProtKB i en webbrowser og åbne websiden for denne database. Søg et gen navn CD3D i boksen forespørgsel input i UniProtKB og finde anmærkninger af dette gen fra databasen38, som vist i tabel 1 og figur 5 c.
    Bemærk: UniProtKB indsamler en rig kilde til anmærkninger for proteiner, herunder både nomenklatur og funktionelle oplysninger. Denne database indeholder også eksterne links til andre udbredte databaser, herunder FBF/PDB_REDO35, OMIM37og Pfam41.
  2. Kopiere og indsætte webhyperlinket webserver GPS i en web-browser og åbne web-siden af denne web-server. Hente protein sekvensen kodet af biomarkør genet CD3D fra UniProtKB database38 og forudsige det protein posttranslationel modifikation (PTM) restkoncentrationer ved hjælp af værktøjet online GPS, som vist i tabel 1 og figur 5 d.
    Bemærk: Et biologisk system er dynamisk og kompliceret, og de eksisterende databaser indsamler kun kendte oplysninger. Derfor, Biomedicinsk forudsigelse online værktøjer samt offline programmer kan give nyttig dokumentation for at supplere en hypotetisk mekanisme. GPS er blevet udviklet og forbedret for over 12 år7,42 og kan bruges til at forudsige en protein PTM rester i en given peptid sekvens43,44. Værktøjer er også tilgængelige for forskellige forskningsemner, herunder forudsigelse af en protein subcellulært placering45 og transskription faktor bindende motiver 46 blandt andre.

10. anmærke Protein-Protein interaktioner og deres beriget funktionelle moduler

  1. Kopiere og indsætte webhyperlinket webserver strengen i en webbrowser og åbne web-siden af denne web-server. Søg på listen for gener CD3D og P53, og finde deres orkestreret egenskaber ved hjælp af databasen streng47. Samme fremgangsmåde kan udføres ved hjælp af en anden webserver, DAVID32.
    Bemærk: Udover de førnævnte anmærkninger for enkelte gener, der er mange store Informatik værktøjer til rådighed til at undersøge egenskaberne for en gruppe af gener. En nylig undersøgelse viste, at individuelt dårlig markørgener kan udgøre en langt bedre gen sæt5. Derfor er det værd den beregningsmæssige omkostninger til at screene for mere komplicerede biomarkører. Database streng kan visualisere de kendte eller forudsete interaktion forbindelser, og David serveren kan registrere de funktionelle moduler med betydelig fænotype-foreninger i kubestruktur gener47,32. Der tilbydes også forskellige andre store Informatik analyseværktøjer.

11. eksport genereret biomarkør delmængder og visualisering parceller

  1. Eksportere detekterede biomarkør delmængder som en .csv eller .tsv tekstfil til yderligere analyse. Klik på knappen Eksporter tabellen under tabellen over alle detekterede biomarkør delmængder og vælge hvilken tekstformat til at gemme som.
  2. Eksportere visualisering plots som en billedfil. Klik på knappen Gem under hver plot og vælge hvilket billedformat til at gemme som.
    Bemærk: Softwaren understøtter pixel format .png og vector format .svg. Pixel billeder er gode til at vise på skærmen, mens vektorbilleder kan konverteres til enhver opløsning kræves til journal publikation formål.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Målet med denne arbejdsproces (figur 6) er at opdage flere biomarkør delmængder med lignende effektivitetsgevinster for et datasæt, binære klassificering. Hele processen er illustreret af to eksempel datasæt ALL1 og ALL2 udvundet af en nyligt offentliggjorte biomarkør påvisning studere12,48. En bruger kan installere kSolutionVis ved at følge instruktionerne i de supplerende materialer.

DataSet ALL1 profileret 12 625 transkriptom funktioner af 95 B-celle og 33 T-celle alle patientens blodprøver. Mens datasæt ALL2 fundet udtryk niveauer af 12 625 transkriptom funktioner til 65 alle patienter, som recidiverende efter behandlingen og 35 alle patienter, der ikke gjorde. Til brugervenlighed leveres både transkriptom datasæt og deres klasse etiketter i version 1.4 af softwaren. Begge datasæt er i undermappen "data" af softwarens kilde kode bibliotek.

De to datasæt, ALL1 og ALL2, blev formateret som .csv-filer og indlæses i programmet ved hjælp af knapperne belastning data matrix og belastning klasse etiketter som vist i figur 7A-B. Figur 7A viser at alle 128 prøver med 12 625 funktioner blev indlæst, og alle 128 prøver også har klasse etiketter. Den endelige data matrix har 95 negative prøver (B-celle alle) og 33 positive prøver (T-celle alle). Derudover kan brugere også afgøre, hvilken klasse etiket er positive klasse etiketten (figur 7A, nederst). Hvis klassen label-fil definerer mere end to klasser, kan brugerne vil vælge hvilke to klasse etiketter til at undersøge. Lignende operationer blev også gennemført for det vanskelige datasæt ALL2, som vist i figur 7B.

Funktioner i matrixen data værdi-distributioner kan undersøges ved at klikke på knappen Summér mens du søger efter en bruger-specifikke søgeord i funktionsnavne, som vist i figur 8. Figur 8A viser histogrammet af funktion 1012_at i datasættet ALL1. Som det ses i fig. 8B, har den samme funktion 1012_at desuden en tilsvarende fordeling af udtryk i begge datasæt. Hvis ingen søgeord blev angivet af brugeren, vil nogle funktionsnavne blive opført for at hjælpe brugerne med at afgøre, hvilke funktioner til at summere.

Den lettere datasæt ALL1 screenet de top 10 rangeret funktioner (pTopX) for biomarkør delmængder med pMeasurement Acc ≥ 0.90 (pCutoff). Når du klikker på knappen Kør, algoritmen, der blev henrettet, og resultaterne, som det ses i figur 9A, blev illustreret i den nederste del af softwaren efter et par sekunder. Fra dette, var 120 kvalificerede biomarkør delmængder opdaget og opført i tabellen venstre figur9a. ALL1 var et let at diskriminere datasæt, idet den har 57 triplet biomarkør delmængder med 100% i Acc. Denne protokol understreger eksistensen af flere tilsvarende effektive løsninger for en binær klassificering problem. Derfor, den første 3D scatter plot kan illustrere mere end 10 (parameter piFSNum) biomarkør delmængder, hvis de har den klassificering ydeevne Acc (parameter pMeasurement) ≥, af top 10 rangeret (parameter piFSNum ) biomarkør undersæt. Brugeren kan også vælge at vise færre biomarkør subsets ved at ændre parameter piCutoff i boksen parameter over tabellen i figur 9A. Manuel indstilling af 3D observationsområderne kan findes i afsnittet, Manuel indstilling af 3D dot grunde , i det supplerende materiale.

Desuden, alle resultater kan eksporteres som eksterne filer til yderligere analyse ved at klikke på knappen Eksporter tabellen under tabel eller scatter parceller, som vist i figur 9.

Den første biomarkør delmængde (38319_at, 38147_at og 33238_at) til datasættet ALL1 blev valgt til funktionelle undersøgelser, som vist i figur 9A. Modulet Søg af ENSEMBL (http://useast.ensembl.org/Multi/Search/New?db=core) kommenteret disse tre funktioner som en gene klynge af differentiering 3 delta (CD3D, 38319_at), signalering lymfatisk aktivering molekyle-associerede gen (SH2D1A, 38147_at ) og lymfocytter celle-specifikke Protein-tyrosin Kinase (LCK, 33238_at). Desuden foreslået gen-disease association database OMIM37,40 at genet CD3D koder delta underenhed af T-celle antigen receptor komplekset og er involveret i 11q23 omplantninger observeres ofte i akut leukæmi hos mennesker49,50. OMIM foreslog også, at genomisk mutationer i genet SH2D1A i regionen kromosom af Xq25 kan være forbundet med B-celle leukæmi51,52. Derudover fremhævet OMIM også en mulig T-celle alle tilknyttede fusion begivenhed af LCK og beta T-celle receptoren (TCRB)53. Brugerne kan undersøge andre funktionelle aspekter af disse biomarkører med deres gen symboler, fxgen funktionen anmærkninger i Entrez genet36, protein funktion anmærkninger i UniProtKB38 eller Pfam41, 3D protein strukturer i FBF/PDB_REDO35, og PTM restkoncentrationer i GPS7,42,43,44. Interagerende sub-netværk (database streng47) og beriget funktionelle moduler (database David32) kan også blive screenet for disse biomarkører som en helhed. Forskellige andre databaser eller webservere kan også lette anmærkninger og i siliciummangan forudsigelser ved hjælp af symboler eller primære gen/protein sekvenser af disse gener.

Som det ses i tabel 2, nødvendigheden af at afsløre mere end én løsning med identiske eller tilsvarende effektiv forestillinger er indlysende, med 57 grupper af funktioner med binære klassificering nøjagtigheder for 100% mellem B-celle og T-celle alle prøver. Disse særlige biomarkør delmængder blev kaldt de perfekte løsninger. En hel biomarkører optrådte i disse perfekte løsninger gentagne gange, hvilket tyder på, at de kan udgøre de væsentligste forskelle på det molekylære niveau, mellem B - og T-celle alle. Hvis biomarkør opdagelse algoritme stopper henne ved opdager den første perfekte løsning af tre gener CD3D/SH2D1A/LCK, vil en anden perfekte løsning CD74/HLA-DPB1/PRKCQ blive savnet. For eksempel, HLA-DPB1 er kendt for at være signifikant associeret med pediatric T-cellen alle, men ikke B-celle alle54.

De tre elementer i den første biomarkør delmængde af ALL2 var kromatin forsamling faktor 1 subunit B (CHAF1B, 36912_at), exonuclease 1 (EXO1, 36041_at), og signal transducer og aktivator af transskription 6 (STAT6, 41222_at). CHAF1B blev observeret at være stærkt udtrykt i leukæmi cellelinjer og antistof mod CHAF1B kodet protein var betydeligt udviklet i akut myeloid leukæmi (AML) patienter55. EXO1 gik tabt i nogle tilfælde af akut leukæmi56, og upregulated i leukæmi cellelinie HL-60 [R]. Det er også blevet fundet negativt regulere den alternative forlængelse af telomerer (ALT) pathway, som lettet dannelsen af ALT-associerede PML (promyelocyt leukæmi) organer (APBs)57. STAT6 var fosforyleret for at aktivere Pro overlevelse og proliferativ signalering pathway i tilfælde af recidiverende AML58. Taget sammen, de tre gener var forbundet med udvikling og tilbagefald af leukæmi, men ingen eksplicit beviser blev offentliggjort på deres foreninger med alle tilbagefald. Dette kan udgøre en interessant emne til yderligere undersøgelse.

Den samme anmærkning procedure kan foretages på enhver biomarkør undersæt til ALL1 og ALL2. De tre biomarkører undersøgt i afsnittet ovenfor blev ikke identificeret som tilbagefald biomarkører i datasættet ALL2, som vist i figur 9B. Dette tyder på, at biomarkører er fænotype-specifik, hvilket er en anden stor udfordring for biomarkør påvisning, sammen med eksistensen af flere tilsvarende effektive løsninger.

Nogle tekniske moduler var gennemført og beskrevet her til interesserede brugere. Fejl håndtering modul giver informative beskeder til brugeren, når der opstår fejl under udførelsen af softwaren. De vigtigste fejlmeddelelser er anført og forklaret i "Fejlmeddelelser" i det supplerende materiale. En parallel beregning af biomarkører blev gennemført for computere med mere end en CPU kerne. De detaljerede forbedringer til den køretid kan findes i "Parallel køretid" i det supplerende materiale. Data tyder på, at brugen af flere CPU kerner ikke kan forbedre den køretid på grund af omkostningerne ved skift mellem forskellige CPU kerner.

Figure 1
Figur 1: eksempel datasættet udvundet fra transkriptom datasæt ALL1 har de første seks funktioner i de første ni prøver af ALL1. Matrixen data blev formateret i (a) formularen visualisering, (b) TAB-afgrænset tekst format fil og (c) komma-afgrænset tekst format fil. (d) klasse etiketdata blev formateret i formen visualisering. På grund af fanen karakter er usynlig, det er illustreret som [TAB] i (b). Kolonnen Platform giver microarray platform Affy i (b), og er ikke en nødvendig datakolonne. Venligst klik her for at se en større version af dette tal.

Figure 2
Figur 2: grafisk brugergrænseflade i softwaren. Baseline statistikker er sammenfattet i den øverste venstre boks. Brugere kan søge efter funktioner af interesse og undersøge værdien udlodninger i de to øverste højre bokse. Alle parametre for biomarkør detection procedure kan indstilles i den midterste vandrette linje. Alle biomarkør delmængder og deres tilsvarende visualiseret distributioner kan findes i den nederste del. Venligst klik her for at se en større version af dette tal.

Figure 3
Figur 3: biomarkør delmængder og deres visuelle effekter genereret. Brugere kan yderligere forfine tabellen og to 3D scatter parceller ved hjælp af parametrene piCutoff og piFSNum. Venligst klik her for at se en større version af dette tal.

Figure 4
Figur 4: gen anmærkninger af funktionen id'er fundet i denne undersøgelse. Tage de tre indslag-id'er 38319_at/38147_at/33238_at af den første biomarkør undersæt af datasæt ALL1. a få ID konvertering modul ved at klikke på linket Gen ID konvertering. (b) input funktionen id'er i den røde boks 1, Vælg den funktion i den røde boks 2 (standard "AFFYMETRIX_3PRIME_IVT_ID" er korrekt for denne undersøgelse), Vælg Gen liste i den røde boks 3, og klik på Indsend liste i den røde boks 4. c få alle de funktionelle anmærkninger i denne side og klikke på Vis gen liste for at få gen-symboler af disse kubestruktur funktioner. (d) få gen-symboler af de forespurgte funktion-id'er. Venligst klik her for at se en større version af dette tal.

Figure 5
Figur 5: anmærkninger og berigelse analyse af de fundne funktion delmængder. a gen anmærkninger fra genet Card. (B) OMIM beskriver sygdom sammenslutninger af hver funktion/gen. c anmærke det protein, kodet af genet af interesse i databasen UniProtKB. (d) forudsige tyrosin fosforylering rester i den givne protein ved hjælp af værktøjet online GPS. En rød boks blev tilføjet til at vise brugeren hvor skal klikke for at input forespørgselsdataene. Den primære sekvens af eksempel protein CD3D kan hentes som FASTA format fra den røde boks i (c) og input i forespørgselsvinduet ved klik på den røde boks i (d). Venligst klik her for at se en større version af dette tal.

Figure 6
Figur 6: arbejdsgang for kSolutionVis. Hvert modul af softwaren blev beskrevet i ovennævnte protokol. Venligst klik her for at se en større version af dette tal.

Figure 7
Figur 7: Baseline statistik af de to repræsentative datasæt. Antallet af prøver, funktioner og klasser i (a) ALL1 og (b) ALL2 beregnes. Filstørrelser matrix og klasse dataetiketter registreres også. Og en ny data matrix er udvundet af prøver med klasse etiketter. Venligst klik her for at se en større version af dette tal.

Figure 8
Figur 8: Histogram visualisering af funktion 1012_at i to datasæt. Både baseline statistikker og histogram blev genereret for (a) ALL1 og (b) ALL2. Venligst klik her for at se en større version af dette tal.

Figure 9
Figur 9: biomarkør delmængder og scatter parceller af de to datasæt. Brugere kan ændre parametrene i den anden række af parameter bokse til yderligere at forfine lister over biomarkør delmængder og 3D scatter grunde for datasæt (a) ALL1 og (b) ALL2. Venligst klik her for at se en større version af dette tal.

Web site Link Funktionalitet
GeneCards http://www.genecards.org/cgi-bin/carddisp.pl?gene=CD3D Gen anmærkning
OMIM https://OMIM.org/Entry/186790?Search=CD3D&highlight=cd3d Gen-disease association
UniProtKB http://www.uniprot.org/uniprot/P04234 Protein anmærkning
GPS http://GPS.biocuckoo.org/ Proteinets PTM forudsigelse
Streng https://string-dB.org/ Protein-protein interaktion
David https://David.ncifcrf.gov/ Gen sæt berigelse analyse

Tabel 1. Hjemmesider for udfyldelse og analysere de detekterede biomarkører. En liste over nyttige online værktøjer, der hjælper anmærke de detekterede biomarkører.

F1 F2 F3 Acc Symbol1 Symbol2 Symbol3
38319_at 38147_at 33238_at 1,0000 CD3D SH2D1A LCK
33238_at 35016_at 37039_at 1,0000 LCK CD74 HLA-DRA
38147_at 33238_at 35016_at 1,0000 SH2D1A LCK CD74
38147_at 33238_at 2059_s_at 1,0000 SH2D1A LCK LCK
38147_at 33238_at 37039_at 1,0000 SH2D1A LCK HLA-DRA
38147_at 33238_at 38095_i_at 1,0000 SH2D1A LCK HLA-DPB1
38147_at 33238_at 33039_at 1,0000 SH2D1A LCK TRAT1
38147_at 35016_at 2059_s_at 1,0000 SH2D1A CD74 LCK
38147_at 35016_at 33039_at 1,0000 SH2D1A CD74 TRAT1
38147_at 35016_at 38949_at 1,0000 SH2D1A CD74 PRKCQ
38147_at 2059_s_at 37039_at 1,0000 SH2D1A LCK HLA-DRA
38147_at 2059_s_at 38095_i_at 1,0000 SH2D1A LCK HLA-DPB1
38147_at 37039_at 33039_at 1,0000 SH2D1A HLA-DRA TRAT1
38147_at 37039_at 38949_at 1,0000 SH2D1A HLA-DRA PRKCQ
38319_at 38147_at 35016_at 1,0000 CD3D SH2D1A CD74
38147_at 38833_at 38949_at 1,0000 SH2D1A HLA-DPA1 PRKCQ
33238_at 35016_at 33039_at 1,0000 LCK CD74 TRAT1
38319_at 38833_at 38949_at 1,0000 CD3D HLA-DPA1 PRKCQ
33238_at 35016_at 38949_at 1,0000 LCK CD74 PRKCQ
33238_at 2059_s_at 37039_at 1,0000 LCK LCK HLA-DRA
33238_at 37039_at 38095_i_at 1,0000 LCK HLA-DRA HLA-DPB1
33238_at 37039_at 33039_at 1,0000 LCK HLA-DRA TRAT1
33238_at 37039_at 38949_at 1,0000 LCK HLA-DRA PRKCQ
33238_at 38095_i_at 38949_at 1,0000 LCK HLA-DPB1 PRKCQ
33238_at 38833_at 38949_at 1,0000 LCK HLA-DPA1 PRKCQ
33238_at 33039_at 38949_at 1,0000 LCK TRAT1 PRKCQ
35016_at 2059_s_at 33039_at 1,0000 CD74 LCK TRAT1
35016_at 2059_s_at 38949_at 1,0000 CD74 LCK PRKCQ
35016_at 38095_i_at 38949_at 1,0000 CD74 HLA-DPB1 PRKCQ
2059_s_at 37039_at 33039_at 1,0000 LCK HLA-DRA TRAT1
2059_s_at 38095_i_at 38949_at 1,0000 LCK HLA-DPB1 PRKCQ
2059_s_at 38833_at 38949_at 1,0000 LCK HLA-DPA1 PRKCQ
38319_at 33039_at 38949_at 1,0000 CD3D TRAT1 PRKCQ
38147_at 38095_i_at 38949_at 1,0000 SH2D1A HLA-DPB1 PRKCQ
38319_at 33238_at 38833_at 1,0000 CD3D LCK HLA-DPA1
38319_at 2059_s_at 38833_at 1,0000 CD3D LCK HLA-DPA1
38319_at 33238_at 33039_at 1,0000 CD3D LCK TRAT1
38319_at 33238_at 38095_i_at 1,0000 CD3D LCK HLA-DPB1
38319_at 33238_at 37039_at 1,0000 CD3D LCK HLA-DRA
38319_at 35016_at 38833_at 1,0000 CD3D CD74 HLA-DPA1
38319_at 33238_at 2059_s_at 1,0000 CD3D LCK LCK
38319_at 35016_at 33039_at 1,0000 CD3D CD74 TRAT1
38319_at 33238_at 35016_at 1,0000 CD3D LCK CD74
38319_at 35016_at 38949_at 1,0000 CD3D CD74 PRKCQ
38319_at 2059_s_at 37039_at 1,0000 CD3D LCK HLA-DRA
38319_at 38147_at 38949_at 1,0000 CD3D SH2D1A PRKCQ
38319_at 38147_at 33039_at 1,0000 CD3D SH2D1A TRAT1
38319_at 33238_at 38949_at 1,0000 CD3D LCK PRKCQ
38319_at 2059_s_at 38095_i_at 1,0000 CD3D LCK HLA-DPB1
38319_at 38147_at 38833_at 1,0000 CD3D SH2D1A HLA-DPA1
38319_at 2059_s_at 33039_at 1,0000 CD3D LCK TRAT1
38319_at 38147_at 38095_i_at 1,0000 CD3D SH2D1A HLA-DPB1
38319_at 37039_at 33039_at 1,0000 CD3D HLA-DRA TRAT1
38319_at 38147_at 37039_at 1,0000 CD3D SH2D1A HLA-DRA
38319_at 38147_at 2059_s_at 1,0000 CD3D SH2D1A LCK
38319_at 2059_s_at 38949_at 1,0000 CD3D LCK PRKCQ
38319_at 35016_at 2059_s_at 1,0000 CD3D CD74 LCK
2059_s_at 37039_at 38095_i_at 0.9922 LCK HLA-DRA HLA-DPB1
35016_at 33039_at 38949_at 0.9922 CD74 TRAT1 PRKCQ
2059_s_at 37039_at 38949_at 0.9922 LCK HLA-DRA PRKCQ
35016_at 2059_s_at 37039_at 0.9922 CD74 LCK HLA-DRA
35016_at 37039_at 38949_at 0.9922 CD74 HLA-DRA PRKCQ
35016_at 38833_at 38949_at 0.9922 CD74 HLA-DPA1 PRKCQ
2059_s_at 33039_at 38949_at 0.9922 LCK TRAT1 PRKCQ
37039_at 38833_at 38949_at 0.9922 HLA-DRA HLA-DPA1 PRKCQ
37039_at 33039_at 38949_at 0.9922 HLA-DRA TRAT1 PRKCQ
38319_at 38095_i_at 38949_at 0.9922 CD3D HLA-DPB1 PRKCQ
33238_at 37039_at 38833_at 0.9922 LCK HLA-DRA HLA-DPA1
38095_i_at 33039_at 38949_at 0.9922 HLA-DPB1 TRAT1 PRKCQ
33238_at 2059_s_at 38949_at 0.9922 LCK LCK PRKCQ
38319_at 38833_at 33039_at 0.9922 CD3D HLA-DPA1 TRAT1
38833_at 33039_at 38949_at 0.9922 HLA-DPA1 TRAT1 PRKCQ
38147_at 33039_at 38949_at 0.9922 SH2D1A TRAT1 PRKCQ
38319_at 37039_at 38833_at 0.9922 CD3D HLA-DRA HLA-DPA1
38147_at 2059_s_at 38949_at 0.9922 SH2D1A LCK PRKCQ
38147_at 38095_i_at 38833_at 0.9922 SH2D1A HLA-DPB1 HLA-DPA1
38147_at 33238_at 38949_at 0.9922 SH2D1A LCK PRKCQ
38147_at 2059_s_at 33039_at 0.9922 SH2D1A LCK TRAT1
38319_at 37039_at 38949_at 0.9922 CD3D HLA-DRA PRKCQ
38319_at 38095_i_at 38833_at 0.9922 CD3D HLA-DPB1 HLA-DPA1
38147_at 2059_s_at 38833_at 0.9922 SH2D1A LCK HLA-DPA1
33238_at 35016_at 2059_s_at 0.9922 LCK CD74 LCK
38319_at 35016_at 38095_i_at 0.9922 CD3D CD74 HLA-DPB1
33238_at 35016_at 38095_i_at 0.9922 LCK CD74 HLA-DPB1
38319_at 35016_at 37039_at 0.9922 CD3D CD74 HLA-DRA
38147_at 33238_at 38833_at 0.9922 SH2D1A LCK HLA-DPA1
38147_at 37039_at 38095_i_at 0.9844 SH2D1A HLA-DRA HLA-DPB1
38147_at 35016_at 38833_at 0.9844 SH2D1A CD74 HLA-DPA1
38147_at 35016_at 38095_i_at 0.9844 SH2D1A CD74 HLA-DPB1
35016_at 2059_s_at 38095_i_at 0.9844 CD74 LCK HLA-DPB1
38147_at 37039_at 38833_at 0.9844 SH2D1A HLA-DRA HLA-DPA1
35016_at 2059_s_at 38833_at 0.9844 CD74 LCK HLA-DPA1
38319_at 37039_at 38095_i_at 0.9844 CD3D HLA-DRA HLA-DPB1
37039_at 38095_i_at 38949_at 0.9844 HLA-DRA HLA-DPB1 PRKCQ
38147_at 38833_at 33039_at 0.9844 SH2D1A HLA-DPA1 TRAT1
38095_i_at 38833_at 38949_at 0.9844 HLA-DPB1 HLA-DPA1 PRKCQ
33238_at 35016_at 38833_at 0.9844 LCK CD74 HLA-DPA1
38319_at 38095_i_at 33039_at 0.9844 CD3D HLA-DPB1 TRAT1
2059_s_at 37039_at 38833_at 0.9844 LCK HLA-DRA HLA-DPA1
2059_s_at 38833_at 33039_at 0.9766 LCK HLA-DPA1 TRAT1
2059_s_at 38095_i_at 33039_at 0.9766 LCK HLA-DPB1 TRAT1
2059_s_at 38095_i_at 38833_at 0.9766 LCK HLA-DPB1 HLA-DPA1
33238_at 2059_s_at 38095_i_at 0.9766 LCK LCK HLA-DPB1
35016_at 38095_i_at 33039_at 0.9766 CD74 HLA-DPB1 TRAT1
38147_at 38095_i_at 33039_at 0.9766 SH2D1A HLA-DPB1 TRAT1
33238_at 2059_s_at 33039_at 0.9766 LCK LCK TRAT1
35016_at 37039_at 33039_at 0.9766 CD74 HLA-DRA TRAT1
33238_at 38095_i_at 33039_at 0.9766 LCK HLA-DPB1 TRAT1
33238_at 38833_at 33039_at 0.9766 LCK HLA-DPA1 TRAT1
35016_at 38833_at 33039_at 0.9766 CD74 HLA-DPA1 TRAT1
33238_at 38095_i_at 38833_at 0.9688 LCK HLA-DPB1 HLA-DPA1
37039_at 38833_at 33039_at 0.9688 HLA-DRA HLA-DPA1 TRAT1
38147_at 35016_at 37039_at 0.9688 SH2D1A CD74 HLA-DRA
33238_at 2059_s_at 38833_at 0.9688 LCK LCK HLA-DPA1
37039_at 38095_i_at 33039_at 0.9688 HLA-DRA HLA-DPB1 TRAT1
38095_i_at 38833_at 33039_at 0.9609 HLA-DPB1 HLA-DPA1 TRAT1
35016_at 38095_i_at 38833_at 0.9609 CD74 HLA-DPB1 HLA-DPA1
37039_at 38095_i_at 38833_at 0.9531 HLA-DRA HLA-DPB1 HLA-DPA1
35016_at 37039_at 38095_i_at 0.9531 CD74 HLA-DRA HLA-DPB1
35016_at 37039_at 38833_at 0.9531 CD74 HLA-DRA HLA-DPA1

Tabel 2. Anmærkninger af alle funktioner fra datasættet ALL1. Dette er et binært klassificering datasæt mellem B-celle og T-celle alle prøver. Gen symboler blev indsamlet til alle microarray funktioner i de sidste tre kolonner.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Denne undersøgelse præsenterer en nem at følge multi løsning biomarkør detektion og karakterisering protokol for et datasæt, bruger-specificeret binære klassificering. Softwaren sætter fokus på brugervenlighed og fleksible import/eksport grænseflader til forskellige filformater, tillader en biomedicinsk forsker at undersøge deres datasæt nemt ved hjælp af GUI af softwaren. Denne undersøgelse fremhæver også nødvendigheden af at generere mere end én løsning med tilsvarende effektive modellering forestillinger, tidligere ignoreret af mange eksisterende biomarkør påvisning algoritmer. I fremtiden, kan nyudviklede biomarkør påvisning algoritmer omfatte denne indstilling ved at optage alle de mellemliggende biomarkør delmængder med tilstrækkelig modellering forestillinger.

I denne protokol er trin 1 og 5 mest betydning, som softwaren er et fuldautomatisk system, der bygger på korrekt formateret input filer. Det blev konstateret, at under vores test skridt, mis-match af prøven navne fra data matrix og klasse etiketter filer kan forårsage fejl i softwaren, hvor softwaren vil affyre ud en advarselsdialogboks om denne fejl. Derfor, hvis brugeren finder ingen prøver blev indlæst fra data matrix eller klasse labelfiler, fejlfinding Tricket er at dobbelt-tjekke hvorvidt prøven navne i de to input filer er inkonsekvent. Hvis ingen prikker blev visualiseret i 3D scatter parceller, kan dette skyldes parameter pCutoff er højere end den bedste løsning. I dette tilfælde fejlfinding Tricket er at sænke cutoff af klassificering resultatmåling (parameter pCutoff). Dog kan maksimal ydeevne måling opnåede af biomarkør delmængder stadig blokeret af cutoff til et vanskeligt datasæt. En advarselsdialogboks vil give denne bedste resultatmåling, og brugeren kan vælge en mindre cutoff fortsat yderligere analyse.

De vigtigste begrænsninger af softwaren er dens langsomme beregning hastighed og dens evne til at kun fokusere på højst tre funktioner. Funktion udvælgelse er et NP-hårde problemer, defineret som en datamatisk problem hvis globalt optimal løsning ikke kan løses inden for polynomiel tid59. Den omfattende biomarkør delmængde screening skridt bruger en stor mængde datakraft. Kørselstiden kompleksiteten af kSolutionVis er O (n3), hvor n er parameter pTopX. Derudover fokuserer denne multiple-biomarkør opdagelse algoritme på visualisere skærmbilledet funktioner, derfor begrænser antallet af funktioner til tre eller færre. Denne begrænsning kan hindre nogle brugere, der kan arbejde på vanskelige problemer og ønsker at finde funktionen delmængder bestående af mere end tre funktioner. Men softwaren visualiserer funktion delmængder i 3D-rum og det er svært at direkte visualisere funktion delmængder i mere end tre dimensioner. Derudover baseret på repræsentative resultater præsenteret ovenfor, de flere indslag trillinger udvalgt af kSolutionVis er en meget effektiv metode i klassificering og viser betydelige resultater med vigtige biomedicinske betydning.

Softwaren repræsenterer nyttig supplerende software til de eksisterende funktion udvalg algoritmer. Inden for biomedicin kaldes funktionen markering biomarkør, med det mål at finde et undersæt af funktioner at opnå forbedret modellering ydeevne60,61,62. Softwaren er en omfattende screeningsværktøj af alle triplet biomarkør delmængder baseret på den strategi, der foreslås i en nylig undersøgelse5. De to repræsentative datasæt screenet af software's protokol, og deres resultater viser eksistenser af en hel løsninger med tilsvarende effektive eller endda identiske modellering forestillinger. Men heuristiske regler63,64,65,66 kan anvendes til at finde optimale løsninger, men sådanne algoritmer har en stærk tendens til at fremstille kun én løsning, at ignorere mange andre løsninger med tilsvarende effektive eller endda identiske modellering forestillinger. Derfor, computerkraft og den langvarige køretid af softwaren er umagen værd at sikre en mere omfattende registrering af potentielle biomarkører i fremtiden.

De repræsentative resultater var beregnet på to transkriptom datasæt, men software håndterer input data i forskellige standard-filformater og kan også bruges til at analysere andre 'omic' datasæt, herunder proteomforskning og metabolomics. Derudover kan parallelization øge beregningshastigheden i modulet biomarkør påvisning i softwaren. Der er nogle multi-core hardware herunder GPGPU (General-Purpose grafisk behandling forene) og Intel Xeon Phi processorer tilgængelige til dette formål. Men disse teknologier kræver forskellige kodning strategier og vil blive behandlet i den næste version af softwaren.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Vi har ingen interessekonflikter, der er relateret til denne betænkning.

Acknowledgments

Dette arbejde blev støttet af det strategiske prioritet Research Program af kinesiske Academy of Sciences (XDB13040400) og start tilskud fra Jilin Universitet. Anonym korrekturlæsere og biomedicinsk test brugere blev værdsat for deres konstruktive kommentarer om forbedring af brugervenligheden og funktionaliteten af kSolutionVis.

Materials

Name Company Catalog Number Comments
Hardware
laptop Lenovo X1 carbon Any computer works. Recommended minimum configuration: 1GB extra hard disk space, 1 GB memory, 2.0MHz CPU
Name Company Catalog Number Comments
Software
Python 3.0 WingWare Wing Personal Any python programming and running environments support Python version 3.0 or above

DOWNLOAD MATERIALS LIST

References

  1. Heckerman, D., et al. Genetic variants associated with physical performance and anthropometry in old age: a genome-wide association study in the ilSIRENTE cohort. Scientific Reports. 7, 15879 (2017).
  2. Li, Z., et al. Genome-wide association analysis identifies 30 new susceptibility loci for schizophrenia. Nature Genetics. 49, 1576-1583 (2017).
  3. Winkler, T. W., et al. Quality control and conduct of genome-wide association meta-analyses. Nature Protocols. 9, 1192-1212 (2014).
  4. Harrison, R. N. S., et al. Development of multivariable models to predict change in Body Mass Index within a clinical trial population of psychotic individuals. Scientific Reports. 7, 14738 (2017).
  5. Liu, J., et al. Multiple similarly-well solutions exist for biomedical feature selection and classification problems. Scientific Reports. 7, 12830 (2017).
  6. Ye, Y., Zhang, R., Zheng, W., Liu, S., Zhou, F. RIFS: a randomly restarted incremental feature selection algorithm. Scientific Reports. 7, 13013 (2017).
  7. Zhou, F. F., Xue, Y., Chen, G. L., Yao, X. GPS: a novel group-based phosphorylation predicting and scoring method. Biochemical and Biophysical Research Communications. 325, 1443-1448 (2004).
  8. Sanchez, B. N., Wu, M., Song, P. X., Wang, W. Study design in high-dimensional classification analysis. Biostatistics. 17, 722-736 (2016).
  9. Shujie, M. A., Carroll, R. J., Liang, H., Xu, S. Estimation and Inference in Generalized Additive Coefficient Models for Nonlinear Interactions with High-Dimensional Covariates. Annals of Statistics. 43, 2102-2131 (2015).
  10. Li, J. H., et al. MiR-205 as a promising biomarker in the diagnosis and prognosis of lung cancer. Oncotarget. 8, 91938-91949 (2017).
  11. Lyskjaer, I., Rasmussen, M. H., Andersen, C. L. Putting a brake on stress signaling: miR-625-3p as a biomarker for choice of therapy in colorectal cancer. Epigenomics. 8, 1449-1452 (2016).
  12. Ge, R., et al. McTwo: a two-step feature selection algorithm based on maximal information coefficient. BMC Bioinformatics. 17, 142 (2016).
  13. Tumuluru, J. S., McCulloch, R. Application of Hybrid Genetic Algorithm Routine in Optimizing Food and Bioengineering Processes. Foods. 5, (2016).
  14. Gen, M., Cheng, R., Lin, L. Network models and optimization: Multiobjective genetic algorithm approach. Springer Science & Business Media. (2008).
  15. Radovic, M., Ghalwash, M., Filipovic, N., Obradovic, Z. Minimum redundancy maximum relevance feature selection approach for temporal gene expression data. BMC Bioinformatics. 18, 9 (2017).
  16. Ciuculete, D. M., et al. A methylome-wide mQTL analysis reveals associations of methylation sites with GAD1 and HDAC3 SNPs and a general psychiatric risk score. Translational Psychiatry. 7, e1002 (2017).
  17. Lin, H., et al. Methylome-wide Association Study of Atrial Fibrillation in Framingham Heart Study. Scientific Reports. 7, 40377 (2017).
  18. Wang, S., Li, J., Yuan, F., Huang, T., Cai, Y. D. Computational method for distinguishing lysine acetylation, sumoylation, and ubiquitination using the random forest algorithm with a feature selection procedure. combinatorial chemistry & high throughput screening. (2017).
  19. Zhang, Q., et al. Predicting Citrullination Sites in Protein Sequences Using mRMR Method and Random Forest Algorithm. combinatorial chemistry & high throughput screening. 20, 164-173 (2017).
  20. Cuena-Lombrana, A., Fois, M., Fenu, G., Cogoni, D., Bacchetta, G. The impact of climatic variations on the reproductive success of Gentiana lutea L. in a Mediterranean mountain area. International journal of biometeorology. (2018).
  21. Coghe, G., et al. Fatigue, as measured using the Modified Fatigue Impact Scale, is a predictor of processing speed improvement induced by exercise in patients with multiple sclerosis: data from a randomized controlled trial. Journal of Neurology. (2018).
  22. Hong, H., et al. Applying genetic algorithms to set the optimal combination of forest fire related variables and model forest fire susceptibility based on data mining models. The case of Dayu County, China. Science of the Total Environment. 630, 1044-1056 (2018).
  23. Borges, D. L., et al. Photoanthropometric face iridial proportions for age estimation: An investigation using features selected via a joint mutual information criterion. Forensic Science International. 284, 9-14 (2018).
  24. Kohavi, R., John, G. H. Wrappers for feature subset selection. Artificial intelligence. 97, 273-324 (1997).
  25. Yu, L., Liu, H. Efficient feature selection via analysis of relevance and redundancy. Journal of machine learning research. 5, 1205-1224 (2004).
  26. Wexler, R. B., Martirez, J. M. P., Rappe, A. M. Chemical Pressure-Driven Enhancement of the Hydrogen Evolving Activity of Ni2P from Nonmetal Surface Doping Interpreted via Machine Learning. Journal of American Chemical Society. (2018).
  27. Wijaya, S. H., Batubara, I., Nishioka, T., Altaf-Ul-Amin, M., Kanaya, S. Metabolomic Studies of Indonesian Jamu Medicines: Prediction of Jamu Efficacy and Identification of Important Metabolites. Molecular Informatics. 36, (2017).
  28. Shangkuan, W. C., et al. Risk analysis of colorectal cancer incidence by gene expression analysis. PeerJ. 5, e3003 (2017).
  29. Chu, C. M., et al. Gene expression profiling of colorectal tumors and normal mucosa by microarrays meta-analysis using prediction analysis of microarray, artificial neural network, classification, and regression trees. Disease Markers. 634123 (2014).
  30. Fleuret, F. Fast binary feature selection with conditional mutual information. Journal of Machine Learning Research. 5, 1531-1555 (2004).
  31. Pacheco, J., Alfaro, E., Casado, S., Gámez, M., García, N. A GRASP method for building classification trees. Expert Systems with Applications. 39, 3241-3248 (2012).
  32. Jiao, X., et al. DAVID-WS: a stateful web service to facilitate gene/protein list analysis. Bioinformatics. 28, 1805-1806 (2012).
  33. Rappaport, N., et al. Rational confederation of genes and diseases: NGS interpretation via GeneCards, MalaCards and VarElect. Biomedical Engineering OnLine. 16, 72 (2017).
  34. Rebhan, M., Chalifa-Caspi, V., Prilusky, J., Lancet, D. GeneCards: integrating information about genes, proteins and diseases. Trends in Genet. 13, 163 (1997).
  35. Joosten, R. P., Long, F., Murshudov, G. N., Perrakis, A. The PDB_REDO server for macromolecular structure model optimization. IUCrJ. 1, 213-220 (2014).
  36. Maglott, D., Ostell, J., Pruitt, K. D., Tatusova, T. Entrez Gene: gene-centered information at NCBI. Nucleic Acids Research. 39, D52-D57 (2011).
  37. Amberger, J. S., Bocchini, C. A., Schiettecatte, F., Scott, A. F., Hamosh, A. OMIM.org: Online Mendelian Inheritance in Man (OMIM(R)), an online catalog of human genes and genetic disorders. Nucleic Acids Research. 43, D789-D798 (2015).
  38. Boutet, E., et al. the Manually Annotated Section of the UniProt KnowledgeBase: How to Use the Entry View. Methods in Molecular Biology. 1374, 23-54 (2016).
  39. Zerbino, D. R., et al. Ensembl 2018. Nucleic Acids Res. (2017).
  40. McKusick, V. A., Amberger, J. S. The morbid anatomy of the human genome: chromosomal location of mutations causing disease. Journal of Medical Genetics. 30, 1-26 (1993).
  41. Finn, R. D., et al. The Pfam protein families database: towards a more sustainable future. Nucleic Acids Research. 44, D279-D285 (2016).
  42. Xue, Y., et al. GPS: a comprehensive www server for phosphorylation sites prediction. Nucleic Acids Research. 33, W184-W187 (2005).
  43. Deng, W., et al. GPS-PAIL: prediction of lysine acetyltransferase-specific modification sites from protein sequences. Scientific Reports. 6, 39787 (2016).
  44. Zhao, Q., et al. GPS-SUMO: a tool for the prediction of sumoylation sites and SUMO-interaction motifs. Nucleic Acids Research. 42, W325-W330 (2014).
  45. Wan, S., Duan, Y., Zou, Q. HPSLPred: An Ensemble Multi-Label Classifier for Human Protein Subcellular Location Prediction with Imbalanced Source. Proteomics. 17, (2017).
  46. Zhang, H., Zhu, L., Huang, D. S. WSMD: weakly-supervised motif discovery in transcription factor ChIP-seq data. Scientific Reports. 7, 3217 (2017).
  47. Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, D447-D452 (2015).
  48. Chiaretti, S., et al. Gene expression profile of adult T-cell acute lymphocytic leukemia identifies distinct subsets of patients with different response to therapy and survival. Blood. 103, 2771-2778 (2004).
  49. Rowley, J. D., et al. Mapping chromosome band 11q23 in human acute leukemia with biotinylated probes: identification of 11q23 translocation breakpoints with a yeast artificial chromosome. Proceedings of the National Academy of Sciences of the United States of America. 87, 9358-9362 (1990).
  50. Rabbitts, T. H., et al. The chromosomal location of T-cell receptor genes and a T cell rearranging gene: possible correlation with specific translocations in human T cell leukaemia. Embo Journal. 4, 1461-1465 (1985).
  51. Yin, L., et al. SH2D1A mutation analysis for diagnosis of XLP in typical and atypical patients. Human Genetics. 105, 501-505 (1999).
  52. Brandau, O., et al. Epstein-Barr virus-negative boys with non-Hodgkin lymphoma are mutated in the SH2D1A gene, as are patients with X-linked lymphoproliferative disease (XLP). Human Molecular Genetics. 8, 2407-2413 (1999).
  53. Burnett, R. C., Thirman, M. J., Rowley, J. D., Diaz, M. O. Molecular analysis of the T-cell acute lymphoblastic leukemia-associated t(1;7)(p34;q34) that fuses LCK and TCRB. Blood. 84, 1232-1236 (1994).
  54. Taylor, G. M., et al. Genetic susceptibility to childhood common acute lymphoblastic leukaemia is associated with polymorphic peptide-binding pocket profiles in HLA-DPB1*0201. Human Molecular Genetics. 11, 1585-1597 (2002).
  55. Wadia, P. P., et al. Antibodies specifically target AML antigen NuSAP1 after allogeneic bone marrow transplantation. Blood. 115, 2077-2087 (2010).
  56. Wilson, D. M., et al. 3rd et al. Hex1: a new human Rad2 nuclease family member with homology to yeast exonuclease 1. Nucleic Acids Research. 26, 3762-3768 (1998).
  57. O'Sullivan, R. J., et al. Rapid induction of alternative lengthening of telomeres by depletion of the histone chaperone ASF1. Nature Structural & Molecular Biology. 21, 167-174 (2014).
  58. Lee-Sherick, A. B., et al. Aberrant Mer receptor tyrosine kinase expression contributes to leukemogenesis in acute myeloid leukemia. Oncogene. 32, 5359-5368 (2013).
  59. Guyon, I., Elisseeff, A. An introduction to variable and feature selection. Journal of machine learning research. 3, 1157-1182 (2003).
  60. John, G. H., Kohavi, R., Pfleger, K. Machine learning: proceedings of the eleventh international conference. 121-129 (1994).
  61. Jain, A., Zongker, D. Feature selection: Evaluation, application, and small sample performance. IEEE transactions on pattern analysis and machine intelligence. 19, 153-158 (1997).
  62. Taylor, S. L., Kim, K. A jackknife and voting classifier approach to feature selection and classification. Cancer Informatics. 10, 133-147 (2011).
  63. Andresen, K., et al. Novel target genes and a valid biomarker panel identified for cholangiocarcinoma. Epigenetics. 7, 1249-1257 (2012).
  64. Guo, P., et al. Gene expression profile based classification models of psoriasis. Genomics. 103, 48-55 (2014).
  65. Xie, J., Wang, C. Using support vector machines with a novel hybrid feature selection method for diagnosis of erythemato-squamous diseases. Expert Systems with Applications. 38, 5809-5815 (2011).
  66. Zou, Q., Zeng, J., Cao, L., Ji, R. A novel features ranking metric with application to scalable visual and bioinformatics data classification. Neurocomputing. 173, 346-354 (2016).

Comments

0 Comments


    Post a Question / Comment / Request

    You must be signed in to post a comment. Please or create an account.

    Usage Statistics