Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Cancer Research

Velge flere biomarkør delsett med tilsvarende effektiv binære klassifisering forestillinger

Published: October 11, 2018 doi: 10.3791/57738

Summary

Eksisterende algoritmer generere en løsning for et biomarkør oppdagelsen dataset. Denne protokollen viser eksistensen av flere lignende effektiv løsninger og presenterer en brukervennlig programvare for å hjelpe biomedisinske forskere undersøke deres datasett for foreslåtte challenge. Dataforskere kan også tilby denne funksjonen i deres biomarkør oppdagelsen algoritmer.

Abstract

Biomarkør oppdagelsen er en av de viktigere biomedisinske spørsmålene for høy gjennomstrømming 'omics' forskere, og nesten alle eksisterende biomarkør oppdagelsen algoritmer generere en biomarkør delsett med optimalisert ytelse målene for et gitt datasett . En fersk studie viste imidlertid eksistensen av flere biomarkør delsett med lignende effektiv eller selv identiske klassifisering forestillinger. Denne protokollen gir en enkel og grei metode for å oppdage biomarkør delsett med binære klassifisering forestillinger, bedre enn en brukerdefinert cutoff. Protokollen består av data forberedelse og lasting, opprinnelig informasjon Sammendragsstruktur, parameteren tuning, biomarkør screening, resultatet visualisering tolkning, biomarkør genet merknader og resultatet og visualisering eksport på publikasjonen kvalitet. Den foreslåtte biomarkør screening strategi er intuitivt og demonstrerer regel for å utvikle biomarkør oppdagelsen algoritmer. En bruker-vennlig grafisk bruker grenseflate (GUI) ble utviklet ved hjelp av programmeringsspråket Python, slik at biomedisinske forskere har direkte tilgang til sine resultater. Kildekoden og manuell av kSolutionVis kan lastes ned fra http://www.healthinformaticslab.org/supp/resources.php.

Introduction

Binær klassifisering, en av mest brukte undersøkt og utfordrende dataminering problemer i biomedisinsk området brukes til å bygge en klassifisering modell trent på to grupper av prøver med den mest nøyaktige diskriminering power1, 2 , 3 , 4 , 5 , 6 , 7. men store dataene som genereres i feltet biomedisinsk har iboende "store p liten n" paradigme, med antall funksjoner vanligvis mye større enn antall prøver6,8,9. Derfor må biomedisinske forskere redusere funksjonen dimensjonen før utnytte klassifisering algoritmer for å unngå overfitting problemet8,9. Diagnose biomarkers defineres som et delsett av oppdaget funksjoner skiller pasienter på en gitt sykdom fra sunn kontroll prøver10,11. Pasienter er vanligvis definert som positive prøvene, og sunn kontrollene er definert som den negative prøver12.

Nyere studier har antydet at det finnes mer enn én løsning med identiske eller lignende effektiv klassifisering forestillinger for biomedisinsk dataset5. Nesten alle funksjonen utvalg algoritmer er deterministisk algoritmer, produsere bare én løsning for samme datasettet. Genetiske algoritmer kan samtidig generere flere løsninger med lignende forestillinger, men fortsatt de prøver å velge en løsning med beste egnethetsfunksjonen utdata for et gitt datasett13,14.

Funksjonsvalg algoritmer kan grupperes omtrent som filtre eller wrappers12. En filter-algoritme velger topp -k funksjonene rangert av betydelige personlige tilknytning binære klasse etikettene basert på antagelsen om at funksjoner er uavhengig av hverandre15,16,17 . Selv om denne antakelsen ikke holder sant for nesten alle reelle datasett, utfører heuristisk filter regelen i mange tilfeller, for eksempel mRMR (Minimum redundans og maksimal relevans) algoritmen, Diversified test basert funksjonen filtrering (WRank) algoritme og ROC (mottaker drift karakteristiske) tomten basert filtrering (ROCRank) algoritme. mRMR, er en effektiv filter algoritme fordi den beregner kombinasjon estimering problemet med en rekke mye mindre problemer, sammenligne maksimum-avhengighet funksjonen utvalg algoritmen, hver bare involverer to variabler, og Derfor bruker parvis joint sannsynligheter som er mer robust18,19. MRMR kan imidlertid undervurdere nytten av noen funksjoner som det ikke måle samspillet mellom funksjoner som kan øke relevans, og dermed savner noen funksjon kombinasjoner som er individuelt ubrukelig men er nyttige bare når kombinert. WRank algoritmen beregner en ikke-parametriske score på hvordan discriminative en funksjon er mellom to klasser av prøver, og er kjent for sin robusthet for outliers20,21. Videre evaluerer ROCRank algoritmen betydelig området Under ROC kurven (AUC) for en bestemt funksjon er undersøkt binære klassifisering ytelse22,23.

På den annen side, en wrapper evaluerer forhåndsdefinerte klassifisererens ytelse til en gitt funksjon undergruppe, iterativt generert av heuristisk regel og oppretter funksjonen delsettet med de beste ytelse måling24. En wrapper vanligvis utkonkurrerer filtere i klassifisering ytelse, men kjører tregere25. For eksempel bruker Regularized tilfeldig skog (RRF)26,27 algoritmen grådig regel ved å evaluere funksjonene på et delsett av treningsdata på hver tilfeldig skogen node, hvis funksjonen betydning score evalueres i Gini indeksen . Valget av en ny funksjon skal straffes hvis sitt informasjon gevinst ikke forbedrer som de valgte funksjonene. I tillegg prediksjon analyse for Microarrays (PAM)28,29 algoritmen, også en wrapper algoritmen, beregner en centroid for hver klasse etiketter og deretter funksjoner krympe genet centroids mot generelt klassen centroid. PAM er robust for avsidesliggende funksjoner.

Flere løsninger med topp klassifisering ytelsen kan være nødvendig for en gitt datasett. Først er optimalisering målet av en deterministisk algoritme definert av en matematisk formel, f.eks, minst feil rate30, som er ikke nødvendigvis ideelt for biologiske prøver. Dernest kan dataset ha flere signifikant forskjellig, løsninger med lignende effektiv eller selv identiske forestillinger. Nesten alle eksisterende funksjonen utvalg algoritmer vil tilfeldig velger en av disse løsningene som utgang31.

Denne studien vil innføre en informatikk analytiske protokoll for å generere flere funksjonen utvalg løsninger med lignende forestillinger for enhver gitt binære klassifisering dataset. Tatt i betraktning at de fleste biomedisinske forskere ikke er kjent med informatic teknikker eller datamaskin koding, ble en bruker-vennlig grafisk bruker grenseflate (GUI) utviklet for å lette rask analyse av biomedisinsk binære klassifisering datasett. Analytiske protokollen består av data lessing og summere, parameteren tuning, rørledning utførelse og resultatet tolkninger. Med et enkelt klikk er forskeren kunne generere biomarkør delsett og publisering kvalitet visualisering tomter. Protokollen er testet med transcriptomes av to binære klassifisering datasett av akutt lymfatisk leukemi (alle), dvs, ALL1 og ALL212. Datasett ALL1 og ALL2 ble lastet ned fra bred Institute genomet analyse datasenteret, tilgjengelig på http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi. ALL1 inneholder 128 prøver med 12,625 funksjoner. Disse prøvene, 95 er B-celle alle og 33 er T-celle alle. ALL2 inkluderer 100 prøver med 12,625 funksjoner også. Disse prøvene er det 65 pasienter som LED tilbakefall og 35 pasienter som ikke. ALL1 var en enkel binær klassifisering datasett, med et minimum nøyaktigheten av fire filtre og fire wrappers 96.7%, og 6 av de 8 funksjon utvalg algoritmene å oppnå 100%12. Mens ALL2 var vanskeligere dataset, med over 8 funksjonen utvalg algoritmer å oppnå ikke bedre enn 83.7% nøyaktighet12. Dette best nøyaktighet ble oppnådd med 56 funksjoner oppdaget av wrapper algoritmen, korrelasjon-basert funksjon utvalg (CFS).

Subscription Required. Please recommend JoVE to your librarian.

Protocol

Merk: Følgende protokollen beskriver detaljer om informatikk analytiske prosedyren og pseudo koder av de store modulene. Automatisk analyse systemet ble utviklet med Python versjon 3.6.0 og Python moduler pandaer, abc, numpy, scipy, sklearn, sys, PyQt5, sys, mRMR, matematikk og matplotlib. Materialene som brukes i denne studien er oppført i Tabellen for materiale.

1. klargjør Data Matrix og klasse etiketter

  1. Forberede matrix datafilen som en tabulatordelt eller kommadelt matrix fil, som vist i figur 1A.
    Merk: Hver rad har alle verdiene for en funksjon, og det første elementet er funksjonsnavnet. En funksjon er en probeset-ID for microarray-baserte transcriptome datasettet eller kan være en annen verdi ID som en cystein resten med metylering verdien i methylomic dataset. Hver kolonne gir funksjonen verdiene for et gitt utvalg, med det første elementet som eksempel navnet. En rad er delt inn i kolonner med en TAB (figur 1B) eller komma (figur 1 c). En tabulatordelt matrix-fil er anerkjent av filen filtypen TSV, og en kommadelt matrix fil har filtypen CSV. Denne filen kan genereres ved å lagre en matrise som TSV- eller CSV-format fra for eksempel Microsoft Excel. Data matrix kan også genereres av datamaskin koding.
  2. Forberede etikettfilen klassen som en tabulatordelt eller kommadelt matrix fil (figur 1 d), ligner på matrix datafilen.
    Merk: Den første kolonnen gir eksempel navnene og klasse etiketten for hvert utvalg er gitt i kolonnen tittelen klasse. Maksimal kompatibilitet regnes i koding prosessen, slik at flere kolonner kan legges. Etikettfilen klassen kan formateres som en TSV eller CSV-fil. Navnene i kolonnen klassen kan være vilkår, og det kan være mer enn to klasser av eksempler. Brukeren kan velge to av klassene for følgende analyse.

2. Legg Data Matrix og klasse etiketter

  1. Legg matrise og klassen dataetiketter i programvaren. Klikk knappen Last data matrix å velge filen brukerangitte data matrix. Klikk knappen Last klasse etiketter å velge tilsvarende klasse etikettfilen.
    Merk: Når begge filene er lastet, kSolutionVis vil gjennomføre en rutinemessig skjerm på kompatibiliteten mellom de to filene.
  2. Oppsummer funksjonene og eksempler fra matrix datafilen. Beregne størrelsen på matrisen datafilen.
  3. Oppsummere prøver og klasser fra etikettfilen klasse. Beregne størrelsen på etikettfilen klasse.
  4. Teste om hvert utvalg fra data matrix har en klasse etikett. Summere antall prøvene med klassen etikettene.

3. oppsummere og vise planlagte statistikk for datasettet

  1. Klikke Oppsummer, uten noen bestemt søkeord inngang, og programvaren vil vise 20 indekserte funksjoner og tilsvarende funksjoner navn.
    Merk: Brukere må angi funksjonsnavnet de ønsker å finne for å se planlagte statistikk og tilsvarende verdien distribusjon blant alle innspill prøvene.
  2. Gi et søkeord, f.eks "1000_at", i tekstboksen funksjonen å finne en bestemt funksjon som skal summeres. Klikke Oppsummer hente planlagte statistikken for denne gitt funksjonen.
    Merk: Søkeordet vises hvor som helst i funksjonsnavnene mål, angivelsen søk for brukere.
  3. Klikke Oppsummer å finne flere funksjonen med nøkkelordet gitt, og angi den unike IDen for å fortsette med det over skrittet å oppsummere en bestemt funksjon.

4. Fastsett klasse etikettene og antall topprangerte funksjoner

  1. Velg navnene på Positive ("P (33)") og Negative ("N (95)") klasser i boksene dropdown Klasse Positive og Negative klasse, som vist i figur 2 (i midten).
    Merk: Det anbefales for å velge en balansert binære klassifisering datasett, dvsforskjellen mellom antall positive og negative prøver er minimal. Antall utdrag er også gitt i parentes etter navnet på hver klasse etikett i to dropdown-boksen.
  2. Velg 10 som antall topprangerte funksjoner (parameteren pTopX) i boksen Top_X (?) etter en omfattende skjermen av funksjonen-delsettet.
    Merk: Programvaren automatisk rangerer alle funksjonene av P-verdi beregnet ved en t-test for hver funksjon sammenligning av de positive og negative klassene. En funksjon med en mindre P-verdi har en bedre kresne makt mellom de to klassene av prøver. Modulen omfattende screening er beregningsmessig intensiv. Parameteren pTopX er 10 som standard. Brukere kan endre denne parameteren mellom 10 til 50, inntil de finner tilfredsstillende har delsett med god klassifisering forestillinger.

5. tune systemparametere for ulike forestillinger

  1. Velg ytelsesmåling (pMeasurement) nøyaktighet (Acc) i boksen Acc/bAcc (?) for valgte klassifisereren ekstreme læring maskin (ELM). Et annet alternativ for denne parameteren er måling balansert nøyaktighet (bAcc).
    Merk: La TP, FN, TN, og FP være antall sant positive, falske negative, sant negativer og feilaktige positiver, henholdsvis. Målingen Acc er definert som (TP+TN)/(TP+FN+TN+FP), som fungerer best på en balansert dataset6. Men en klassifiserer optimalisert for Acc tendens til å tilordne alle prøvene til negative klassen hvis negativ prøver er mye større enn positive meldinger. BAcc er definert som (Sn + Sp) / 2, der Sn = TP/(TP+FN) og Sp = TN/(TN+FP) er korrekt spådde tallene for positiv og negativ prøver, henholdsvis. Derfor bAcc normaliserer prediksjon forestillinger over de to klassene, og kan føre til en balansert prediksjon ytelse over to ubalansert klasser. ACC er standardvalget på pMeasurement. Programvaren bruker klassifisereren ELM standard for å beregne klassifisering forestillinger. Brukeren kan også velge en klassifiserer fra SVM (Support Vector maskin), KNN (k nærmeste nabo), beslutningstre eller Naïve Bayes.
  2. Velg en avkuttet verdi 0.70 (parameteren pCutoff) for den angitte ytelsesmåling i boksen pCutoff:.
    Merk: Både Acc og bAcc varierer mellom 0 og 1, og brukeren kan angi en verdi pCutoffEquation[0, 1] som cut-off vise samsvarende løsninger. Programvaren utfører et omfattende funksjon-delsett screening, og et passende valg av pCutoff vil gjøre 3D-visualisering mer intuitivt og eksplisitt. Verdien for pCutoff er 0.70.

6. Kjør rørledningen og gi de interaktive VISUALISERT resultatene

  1. Klikk analyser å kjøre rørledningen og generere visualisering tomter, som vist i figur 2 (nederst).
    Merk: Den venstre tabellen gir alle funksjonen delsettene og deres pMeasurement beregnet av 10 ganger tvers validering strategi klassifisereren ELM, som beskrevet tidligere5. To 3D scatter tomter og tolinjers tomter genereres for funksjonen-delsett screening prosedyre med de gjeldende parameterinnstillingene.
  2. Velg 0.70 som standardverdien for pMeasurement cutoff (parameteren piCutoff, inndataboksen verdi), og 10 som standard antall beste funksjonen delsett (parameteren piFSNum).
    Merk: Rørledningen utføres ved hjelp av parameterne pTopX, pMeasurement, og pCutoff. Funksjonen oppdaget delsett kan bli ytterligere vist bruker cutoff piCutoff, men piCutoff kan ikke være mindre enn pCutoff. Derfor piCutoff initialiseres som pCutoff og bare funksjonen delsettene med ytelse måling ≥ piCutoff vil bli visualisert. Standardverdien for piCutoff er pCutoff. Noen ganger kSolutionVis oppdager mange løsninger og bare de beste piFSNum (standard: 10) funksjonen delsett vil bli visualisert. Hvis funksjonen delsett gjenkjent av programvaren er mindre enn piFSNum, vil alle funksjonen delsettene visualiseres.
  3. Samle inn og tolke funksjonene oppdaget av programvaren, som vist i Figur 3.
    Merk: Tabellen i den venstre boksen viser oppdagede funksjonen delsettene og deres ytelse målinger. Navnene på de tre første kolonnene er "F1", "F2" og "F3". De tre funksjonene i hver funksjon delsett er gitt i deres rangeringen i én rad (F1 < F2 < F3). Den siste kolonnen gir ytelsesmåling (Acc eller bAcc) av hver funksjon delsett, og kolonnenavnet (Acc eller bAcc) er verdien av pMeasurement.

7. tolke 3D Scatter plott-Visualiser og tolke funksjonen delsett med lignende effektiv binære klassifisering forestillinger med 3D Scatter tomter

  1. Klikk analyser å generere 3D scatter tomten topp 10 funksjonen delsettene med de beste klassifisering forestillingene (Acc eller bAcc) oppdaget av programvaren, som vist i Figur 3 (midterste boksen). Sortere de tre funksjonene i et funksjonen delsett i stigende rekkefølge av deres rekker og bruke rekkene av de tre funksjonene som F1/F2/F3 akser, dvsF1 < F2 < F3.
    Merk: Fargen på en prikk representerer binær klassifisering ytelsen til tilsvarende funksjonen delsettet. Dataset kan ha flere funksjonen delsett med samme effektiv ytelse målinger. Derfor, en interaktiv og forenklet spredningsdiagram er nødvendig.
  2. Endre verdien til 0.70 i boksen pCutoff: og klikk på knappen analyser å generere 3D scatter tomten funksjonen delsettene med den ytelse måling ≥ piCutoff, som vist i Figur 3 (høyre boksen). Klikk 3D tuning til å åpne et nytt vindu for manuelt justere visningsvinkler av 3D scatter tomten.
    Merk: Hver funksjon delsett er representert ved en prikk på samme måte som ovenfor. Den 3D spredningsdiagram ble generert i standard vinkelen. For å lette 3D-visualisering og tuning, et eget vindu åpnes ved å klikke 3D tuning.
  3. Klikk Reduser å redusere redundans oppdaget funksjonen delsettene.
    Merk: Hvis brukere ønsker å ytterligere Velg funksjonen trillingene og redusere redundans funksjonen delsettene, programmet også gir denne funksjonen ved hjelp av mRMR funksjonen utvalg algoritmen. Når du klikker Reduser knappen, kSolutionVis vil fjerne disse redundante funksjoner i funksjonen trillingene og regenerere tabellen og de to spre tomter nevnt ovenfor. Fjernet funksjonene i funksjonen trillingene erstattes av nøkkelordet i tabellen. Verdiene ingen i F1/F2/F3 aksen vil bli merket som verdien av piFSNum (normalverdien av F1/F2/F3 er [1, top_x]). Derfor kan prikkene som ingen inkluderer synes å være "avvikende" prikker i 3D tomter. Manuelt tunable 3D tomter kan finnes i "Manuell innstilling av 3D dot tomter" i supplerende materiale.

8. Finn Gene merknader og tilknytning med menneskelige sykdommer

Merk: Trinn 8 til 10 illustrerer hvordan å kommentere et gen fra hvilket sekvens både DNA og proteiner. For det første gen symbolet på hver biomarkør ID fra ovenfor hentes fra databasen DAVID32, og deretter to representant web-servere brukes til å analysere dette genet symbolet fra nivåer av DNA og proteiner, henholdsvis. Serveren GeneCard gir en omfattende funksjonelle merknad av et gitt genet symbol, og Online Mendelian arv i mann-database (sette OMIM) gir den mest omfattende konservering av sykdom-genet foreninger. Serveren UniProtKB er en av de mest omfattende protein databasen serveren gruppebasert prediksjon System (GPS) spår at signalnettverk fosforylerings en meget stor liste av kinaser.

  1. Avskrift og pasta linken på databasen DAVID i en nettleser og åpne websiden av denne databasen. Klikk koblingen Gen ID konvertering i figur 4A og innspill funksjonen IDer 38319_at/38147_at/33238_at av det første biomarkør delsettet av datasettet ALL1 (figur 4B). Klikk koblingen Gene listen og klikk Send som vist i figur 4B. Hente merknadene rundt og klikk Vis Gene liste (figur 4C). Få listen over genet symboler (Figur 4 d).
    Merk: Genet symbolene hentet her brukes for ytterligere funksjonelle merknader i neste trinn.
  2. Avskrift og pasta linken av databasen Gene kort i en nettleser og åpne websiden av denne databasen. Søk et gen navnet CD3D i databasen søket input-boksen og finne merknader til dette genet fra Gene kort33,34, som vist i tabell 1 og figur 5A.
    Merk: Gene kortene er en omfattende genet kunnskapsbase, gir nomenklaturen, genomikk, Proteomikk, subcellular lokalisering, og involvert veier og andre funksjonelle modulene. Det tilbyr også eksterne lenker til ulike andre biomedisinsk databaser som PDB/PDB_REDO35, Entrez Gene36, sette OMIM37og UniProtKB38. Hvis funksjonsnavnet ikke er et standard genet symbol, kan du bruke databasen ENSEMBL konvertere den39. CD3D er navnet på genet T-celle reseptor T3 Delta kjeden.
  3. Avskrift og pasta linken på databasen sette OMIM i en webleser og åpne websiden av denne databasen. Søk et gen navn CD3D og finne merknader til dette genet fra databasen sette OMIM37, som vist i tabell 1 og figur 5B.
    Merk: Sette OMIM fungerer nå som en av de mest omfattende og autoritative kildene av menneskelig genet forbindelser med arvelige sykdommer. Sette OMIM ble initiert av Dr. Victor A. McKusick katalogisere sykdomsassosierte genetiske mutasjoner40. Sette OMIM nå dekker over 15.000 menneskelige gener og over 8500 fenotyper, som i desember 1st 2017.

9. merke de kodede proteinene og post-translasjonell endringene

  1. Avskrift og pasta linken på databasen UniProtKB i en webleser og åpne websiden av denne databasen. Søk et gen navnet CD3D i spørringen input-boksen på UniProtKB og finne merknader til dette genet fra databasen38, som vist i tabell 1 og figur 5C.
    Merk: UniProtKB samler en rik kilde til merknader for proteiner, inkludert både nomenklatur og funksjonelle informasjon. Denne databasen inneholder også eksterne koblinger til andre brukte databaser, inkludert PDB/PDB_REDO35, sette OMIM37og Pfam41.
  2. Avskrift og pasta linken på webserveren GPS i en nettleser og åpne websiden av denne web-serveren. Hente protein sekvensen kodet av biomarkør genet CD3D fra UniProtKB database38 og forutsi protein's post-translasjonell modifikasjon (PTM) rester ved hjelp online verktøyet GPS, som vist i tabell 1 og figur 5 d.
    Merk: Et biologisk system er dynamisk og komplisert, og de eksisterende databasene samle bare informasjon. Derfor kan biomedisinsk prediksjon nettverktøy samt frakoblede programmer gi nyttig dokumentasjon for å komplettere en hypotetisk gjennomsnitt mekanisme. GPS har vært utviklet og forbedret for over 12 år7,42 og kan brukes til å forutsi et protein PTM rester i en gitt peptid sekvens43,44. Verktøy er også tilgjengelig for ulike forskning emner, inkludert prediksjon av et protein subcellular beliggenhet45 og transkripsjon faktor bindende motiver 46 blant andre.

10. kommentere Protein-Protein interaksjoner og deres beriket funksjonelle modulene

  1. Kopiere og lime inn linken på webserveren strengen i en webleser og åpne websiden av denne web-serveren. Søke i genene CD3D og P53, og finner deres orkestrert egenskaper med streng47-databasen. Den samme fremgangsmåten kan utføres ved hjelp av en annen webserver, DAVID32.
    Merk: Foruten nevnte merknadene for enkelte gener, det er mange store informatikk verktøy tilgjengelig for å undersøke egenskapene til en gruppe av gener. En fersk studie viste at individuelt dårlig markør gener kan utgjøre en mye bedre genet angi5. Derfor er det verdt databehandlingskostnaden til skjermen for mer komplisert biomarkers. Databasen streng kan visualisere kjent eller spådd samhandling tilkoblinger og David serveren oppdager de funksjonelle modulene med betydelig fenotypen-foreninger i den forespurte gener47,32. Det finnes også ulike andre store informatikk Analyseverktøy.

11. eksportere genererte biomarkør delsettene og visualisering tomter

  1. Eksportere oppdaget biomarkør delsettene som en TSV eller CSV tekstfil for videre analyse. Klikk eksportere tabellen under bordet alle oppdaget biomarkør delsettene og velge hvilke tekstformat lagre som.
  2. Eksportere visualisering tomter som en bildefil. Klikk på knappen Lagre under hver tomten og velge hvilket bildeformat lagre som.
    Merk: Programvaren støtter pixel format PNG og vektor format .svg. Pixel bildene er gode for visning på skjermen, mens vektor-bilder kan konverteres til hvilken som helst oppløsning kreves for journalen publikasjonen formål.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Målet med denne arbeidsflyten (figur 6) er å oppdage flere biomarkør delsett med lignende effektivitet for binære klassifisering dataset. Hele prosessen er illustrert av to eksempel datasett ALL1 og ALL2 Hentet fra en nylig utgitte biomarkør oppdagelsen studere12,48. En bruker kan installere kSolutionVis ved å følge instruksjonene i supplerende materiale.

Datasett ALL1 profilert 12 625 transcriptomic funksjoner i 95 B-celle og 33 T-celle alle pasienten blodprøver. Mens dataset ALL2 oppdaget uttrykk nivåene av 12 625 transcriptomic funksjoner for 65 alle pasienter som tilbakefall etter behandling og 35 alle pasienter som ikke. For brukerens bekvemmelighet tilbys både transcriptomic datasett og klasse etikettene i versjon 1.4 av programvaren. Begge datasett er i underkatalogen "data" av programvaren koden kildemappen.

To datasett, ALL1 og ALL2, var formatert som CSV-filer og lastet inn i programvaren bruke knappene laste data matrix og Last klasse etiketter som vist i figur 7A-B. Figur 7A viser at alle 128 prøver med 12 625 funksjoner er lastet inn, og alle 128 prøver også har klasse etiketter. Endelige dataene matrise har 95 negative prøver (B-celle alle) og 33 positiv prøver (T-celle alle). I tillegg kan brukere også bestemme hvilken klasse etikett er positiv klasse etiketten (figur 7A, bunnen). Hvis etikettfilen klassen definerer mer enn to klasser, kan brukere du velge hvilke to class etiketter å undersøke. Liknende operasjoner ble også gjennomført for vanskelig datasettet ALL2, som vist i figur 7B.

Verdien distribusjonen av funksjonene i data matrix kan undersøkes ved å klikke Oppsummer etter en brukerspesifikk søkeord i funksjonsnavnene, som vist i Figur 8. Figur 8A illustrerer histogrammet av funksjonen 1012_at i datasettet ALL1. Videre, som vist i figur 8B, den samme funksjonen 1012_at har en lik fordeling av uttrykk i begge datasett. Hvis ingen nøkkelord er angitt av brukeren, vil noen funksjonsnavn vises for å hjelpe brukerne med å bestemme hvilke funksjoner som skal summere.

Enklere datasettet ALL1 vist topp 10 rangert funksjoner (pTopX) for biomarkør delsett med pMeasurement Acc ≥ 0.90 (pCutoff). Når du klikker knappen kjøre, algoritmen ble henrettet, og resultatene som vist i figur 9A, ble illustrert i den nederste delen av programvaren etter noen sekunder. Fra dette, ble 120 kvalifiserte biomarkør undergrupper oppdaget og oppført i tabellen til venstre av figur 9A. ALL1 var et lett å diskriminere datasett, at den har 57 trilling biomarkør delsett med 100% i Acc. Denne protokollen understreker eksistensen av flere lignende effektiv løsninger for en binær klassifisering problem. Derfor, den første 3D spredningsdiagram kan illustrere mer enn 10 (parameteren piFSNum) biomarkør undergrupper, hvis de har klassifisering ytelsen Acc (parameteren pMeasurement) ≥ at av de 10 rangert (parameteren piFSNum ) biomarkør delsett. Brukeren kan også velge å vise færre biomarkør delsett ved å endre parameteren piCutoff i parameter-boksen over tabellen i figur 9A. Manuell tuning av 3D tomter kan finnes i delen Manuell tuning av 3D dot tomter i supplerende materiale.

Videre kan alle resultatene eksporteres som eksterne filer for videre analyse ved å klikke eksportere tabellen under tabellen eller scatter tomter, som vist i figur 9.

Første biomarkør delsettet (38319_at, 38147_at og 33238_at) for datasettet ALL1 ble valgt for funksjonell undersøkelser, som vist i figur 9A. Modulen søk av ENSEMBL (http://useast.ensembl.org/Multi/Search/New?db=core) kommenterte disse tre funksjonene som en genet klynge av differensiering 3 delta (CD3D, 38319_at), signalisering lymfatisk aktivisering molekyl-assosiert genet (SH2D1A, 38147_at ) og lymfocytt cellen-spesifikke Protein-tyrosin Kinase (LCK, 33238_at). Videre foreslo gen-sykdom association databasen sette OMIM37,40 at genet CD3D koder delta delenhet i T-celle antigen reseptor komplekset og er involvert i de 11q23 translocations ofte observert i akutt leukemi hos mennesker49,50. Sette OMIM foreslo også at genomisk mutasjoner i genet SH2D1A i regionen kromosom i Xq25 være knyttet til B-celle leukemi51,52. I tillegg markert sette OMIM også en mulig T-celle alle tilknyttede fusion hendelsen LCK og beta T-celle reseptor (TCRB)53. Brukere kan undersøke andre funksjonelle aspekter av disse biomarkers med deres genet symboler, f.eksgenet funksjonen merknader i Entrez Gene36, protein funksjonen merknader i UniProtKB38 eller Pfam41, 3D-protein strukturer i PDB/PDB_REDO35og PTM rester i GPS7,42,43,44. Samspill sub nettverket (database streng47) og beriket funksjonelle modulene (database David32) kan også bli vist for disse biomarkers som en helhet. Ulike andre databaser eller web-servere kan også lette merknader og i sili spådommer bruker symboler eller primære genet/protein sekvenser av disse genene.

Som vist i tabell 2, nødvendigheten av å oppdage flere løsninger med identiske eller lignende effektiv forestillinger er tydelig, med 57 grupper med funksjoner med binære klassifisering nøyaktighet på 100% mellom B-cellen og T-celle alle eksempler. Disse bestemt biomarkør undergrupper ble kalt de perfekte løsningene. Mange biomarkers opptrådte i disse perfekte løsninger gjentatte ganger, noe som tyder på at de kan representere de viktigste forskjellene, på molekylært nivå, mellom B - og T-celle alle. Hvis algoritme biomarkør slutter på å oppdage den første perfekte løsningen av tre gener CD3D/SH2D1A/LCK, vil en perfekt løsning CD74/HLA-DPB1/PRKCQ bli savnet. For eksempel HLA-DPB1 er kjent for å være betydelig knyttet pediatric T-cellen alle men ikke B-celle alle54.

De tre funksjonene av første biomarkør undergruppe av ALL2 var chromatin montering faktor 1 delenhet B (CHAF1B, 36912_at), exonuclease 1 (EXO1, 36041_at), og signalet svinger og aktivator transkripsjon 6 (STAT6, 41222_at). CHAF1B ble observert å være svært leukemi linjer og antistoffer mot protein CHAF1B kodet utviklet betydelig i akutt myelogen leukemi (AML) pasienter55. EXO1 gikk tapt i noen tilfeller av akutt leukemi56og upregulated i leukemi cellen linje HL-60 [R]. Det har også blitt funnet for å regulere negativt alternativ forlengelsen av telomeres (ALT) veien, som muliggjorde dannelsen av ALT-assosiert PML (promyelocytic leukemi) organer (APBs)57. STAT6 var fosforylert for å aktivere Pro overlevelse og proliferativ signalveien i tilfeller av tilbakefall AML58. Til sammen tre gener var knyttet til utvikling og tilbakefall av leukemi, men ingen eksplisitt bevis ble publisert på sine assosiasjoner med alle tilbakefall. Dette kan representere et interessant tema for videre etterforskning.

Samme merknad prosedyren kan utføres på alle biomarkør delsett for ALL1 og ALL2. De tre biomarkers undersøkt i delen ovenfor ble ikke identifisert som tilbakefall biomarkers i datasettet ALL2, som vist i figur 9B. Dette tyder på at biomarkers er fenotypen-spesifikk, som er en stor utfordring for biomarkør oppdagelsen, sammen med eksistensen av flere lignende effektiv løsninger.

Noen tekniske moduler ble gjennomført og beskrevet her for interesserte brukere. Feil håndtering modulen inneholder informative meldinger for brukeren når det oppstår feil under kjøring av programvaren. Viktigste feilmeldingene er listet opp og forklart i "Feilmeldinger" i supplerende materiale. En parallell beregning av biomarkers ble implementert for datamaskiner med flere CPU-kjerne. Detaljerte forbedringer av kjøretiden kan finnes i "Parallelle kjøretiden" i supplerende materiale. Dataene tyder på at bruken av flere CPU-kjerner ikke kan bedre kjøretiden på grunn av kostnadene ved bytte mellom forskjellige CPU-kjerner.

Figure 1
Figur 1: eksempel datasettet utvunnet fra transcriptome datasettet ALL1 har seks første funksjoner av de første ni prøvene av ALL1. Data matrix ble formatert i (a) skjemaet visualisering, (b) formatfilen tabulatordelt tekst, og (c) kommadelt formatfil. (d) at klassen etikettdataene ble formatert i skjemaet visualisering. På grunn av kategorien er usynlig, det illustreres som [TAB] i (b). Kolonnen plattform gir microarray plattformen Affy med (b), og er ikke nødvendige data. Klikk her for å se en større versjon av dette tallet.

Figure 2
Figur 2: grafisk brukergrensesnitt avprogramvaren. Planlagte statistikken oppsummeres i boksen øverst til venstre. Brukere kan søke etter funksjoner av interesse og undersøke verdien distribusjoner i de to øverste høyre boksene. Alle parametere for biomarkør oppdagelsen prosedyren kan stilles inn i den midterste horisontale linjen. Alle biomarkør delsettene og deres tilsvarende visualisert distribusjoner kan finnes nederst. Klikk her for å se en større versjon av dette tallet.

Figure 3
Figur 3: biomarkør delsett og deres effekter generert. Brukere kan finpusse tabellen og to 3D scatter tomter ved hjelp av parameterne piCutoff og piFSNum. Klikk her for å se en større versjon av dette tallet.

Figure 4
Figur 4: Gene merknader til funksjonen IDer i denne studien. Ta de tre funksjonen IDer 38319_at/38147_at/33238_at av det første biomarkør delsettet av datasettet ALL1. (a) få ID konvertering modulen ved å klikke koblingen Gen ID konvertering. (b) input funksjonen IDer i den røde boksen 1, Velg funksjonen i den røde boksen 2 (standard "AFFYMETRIX_3PRIME_IVT_ID" er riktig for denne studien), velge Gene i den røde boksen 3, og klikk Send listen i den røde boksen 4. (c) får alle funksjonelle merknadene på denne siden og klikker Vis Gene-listen for å få genet symboler på funksjonene spørres. (d) få genet symboler på spurte funksjonen IDene. Klikk her for å se en større versjon av dette tallet.

Figure 5
Figur 5: merknader og berikelse analyse oppdaget funksjonen delsettene. (a) Gene merknader fra Gene Card. (B) OMIM beskriver sykdom sammenslutninger av hver funksjon/gen. (c) kommentere protein kodet av genet av interesse i databasen UniProtKB. (d) spå fosforylering tyrosin rester i gitt protein bruker online verktøyet GPS. En rød boks ble lagt til viser brukeren hvor du skal klikke for å angi spørringsdataene. Primære sekvensen for eksempel protein CD3D kan være hentet som FASTA format fra den røde boksen c, og input i spørringsvinduet ved klikk den røde boksen i (d). Klikk her for å se en større versjon av dette tallet.

Figure 6
Figur 6: arbeidsflyten kSolutionVis. Hver modul av programvaren ble beskrevet i over protokollen. Klikk her for å se en større versjon av dette tallet.

Figure 7
Figur 7: Baseline statistikk over to representant datasett. Antall eksempler, funksjoner og klasser i (a) ALL1 og (b) ALL2 beregnes. Filstørrelsen på matrix og klassen dataetiketter er likeledes oppdaget. Og en ny data-matrise er Hentet fra prøvene med klassen etiketter. Klikk her for å se en større versjon av dette tallet.

Figure 8
Figur 8: histogrammet visualisering av funksjonen 1012_at i to datasett. Både planlagte statistikk og histogrammet ble generert for (a) ALL1 og (b) ALL2. Klikk her for å se en større versjon av dette tallet.

Figure 9
Figur 9: biomarkør delsett og scatter plott av to datasett. Brukere kan endre parameterne i den andre boksraden parameteren til begrense listene over biomarkør delsett og 3D scatter tomter for datasett (a) ALL1 og (b) ALL2. Klikk her for å se en større versjon av dette tallet.

Webområde Kobling Funksjonalitet
GeneCards http://www.genecards.org/cgi-bin/carddisp.pl?Gene=CD3D Gene merknad
SETTE OMIM https://OMIM.org/Entry/186790?Search=CD3D&highlight=cd3d Gene-sykdommer association
UniProtKB http://www.uniprot.org/uniprot/P04234 Protein merknad
GPS http://GPS.biocuckoo.org/ Protein's PTM prediksjon
Streng https://string-DB.org/ Protein-protein interaksjon
David https://David.ncifcrf.gov/ Gene sett berikelse analyse

Tabell 1. Nettsteder for kommentering og analyse i oppdaget biomarkers. En liste over nyttige online tools som hjelper kommentere de oppdaget biomarkers.

F1 F2 F3 ACC Symbol1 Symbol2 Symbol3
38319_at 38147_at 33238_at 1.0000 CD3D SH2D1A LCK
33238_at 35016_at 37039_at 1.0000 LCK CD74 HLA-DRA
38147_at 33238_at 35016_at 1.0000 SH2D1A LCK CD74
38147_at 33238_at 2059_s_at 1.0000 SH2D1A LCK LCK
38147_at 33238_at 37039_at 1.0000 SH2D1A LCK HLA-DRA
38147_at 33238_at 38095_i_at 1.0000 SH2D1A LCK HLA-DPB1
38147_at 33238_at 33039_at 1.0000 SH2D1A LCK TRAT1
38147_at 35016_at 2059_s_at 1.0000 SH2D1A CD74 LCK
38147_at 35016_at 33039_at 1.0000 SH2D1A CD74 TRAT1
38147_at 35016_at 38949_at 1.0000 SH2D1A CD74 PRKCQ
38147_at 2059_s_at 37039_at 1.0000 SH2D1A LCK HLA-DRA
38147_at 2059_s_at 38095_i_at 1.0000 SH2D1A LCK HLA-DPB1
38147_at 37039_at 33039_at 1.0000 SH2D1A HLA-DRA TRAT1
38147_at 37039_at 38949_at 1.0000 SH2D1A HLA-DRA PRKCQ
38319_at 38147_at 35016_at 1.0000 CD3D SH2D1A CD74
38147_at 38833_at 38949_at 1.0000 SH2D1A HLA-DPA1 PRKCQ
33238_at 35016_at 33039_at 1.0000 LCK CD74 TRAT1
38319_at 38833_at 38949_at 1.0000 CD3D HLA-DPA1 PRKCQ
33238_at 35016_at 38949_at 1.0000 LCK CD74 PRKCQ
33238_at 2059_s_at 37039_at 1.0000 LCK LCK HLA-DRA
33238_at 37039_at 38095_i_at 1.0000 LCK HLA-DRA HLA-DPB1
33238_at 37039_at 33039_at 1.0000 LCK HLA-DRA TRAT1
33238_at 37039_at 38949_at 1.0000 LCK HLA-DRA PRKCQ
33238_at 38095_i_at 38949_at 1.0000 LCK HLA-DPB1 PRKCQ
33238_at 38833_at 38949_at 1.0000 LCK HLA-DPA1 PRKCQ
33238_at 33039_at 38949_at 1.0000 LCK TRAT1 PRKCQ
35016_at 2059_s_at 33039_at 1.0000 CD74 LCK TRAT1
35016_at 2059_s_at 38949_at 1.0000 CD74 LCK PRKCQ
35016_at 38095_i_at 38949_at 1.0000 CD74 HLA-DPB1 PRKCQ
2059_s_at 37039_at 33039_at 1.0000 LCK HLA-DRA TRAT1
2059_s_at 38095_i_at 38949_at 1.0000 LCK HLA-DPB1 PRKCQ
2059_s_at 38833_at 38949_at 1.0000 LCK HLA-DPA1 PRKCQ
38319_at 33039_at 38949_at 1.0000 CD3D TRAT1 PRKCQ
38147_at 38095_i_at 38949_at 1.0000 SH2D1A HLA-DPB1 PRKCQ
38319_at 33238_at 38833_at 1.0000 CD3D LCK HLA-DPA1
38319_at 2059_s_at 38833_at 1.0000 CD3D LCK HLA-DPA1
38319_at 33238_at 33039_at 1.0000 CD3D LCK TRAT1
38319_at 33238_at 38095_i_at 1.0000 CD3D LCK HLA-DPB1
38319_at 33238_at 37039_at 1.0000 CD3D LCK HLA-DRA
38319_at 35016_at 38833_at 1.0000 CD3D CD74 HLA-DPA1
38319_at 33238_at 2059_s_at 1.0000 CD3D LCK LCK
38319_at 35016_at 33039_at 1.0000 CD3D CD74 TRAT1
38319_at 33238_at 35016_at 1.0000 CD3D LCK CD74
38319_at 35016_at 38949_at 1.0000 CD3D CD74 PRKCQ
38319_at 2059_s_at 37039_at 1.0000 CD3D LCK HLA-DRA
38319_at 38147_at 38949_at 1.0000 CD3D SH2D1A PRKCQ
38319_at 38147_at 33039_at 1.0000 CD3D SH2D1A TRAT1
38319_at 33238_at 38949_at 1.0000 CD3D LCK PRKCQ
38319_at 2059_s_at 38095_i_at 1.0000 CD3D LCK HLA-DPB1
38319_at 38147_at 38833_at 1.0000 CD3D SH2D1A HLA-DPA1
38319_at 2059_s_at 33039_at 1.0000 CD3D LCK TRAT1
38319_at 38147_at 38095_i_at 1.0000 CD3D SH2D1A HLA-DPB1
38319_at 37039_at 33039_at 1.0000 CD3D HLA-DRA TRAT1
38319_at 38147_at 37039_at 1.0000 CD3D SH2D1A HLA-DRA
38319_at 38147_at 2059_s_at 1.0000 CD3D SH2D1A LCK
38319_at 2059_s_at 38949_at 1.0000 CD3D LCK PRKCQ
38319_at 35016_at 2059_s_at 1.0000 CD3D CD74 LCK
2059_s_at 37039_at 38095_i_at 0.9922 LCK HLA-DRA HLA-DPB1
35016_at 33039_at 38949_at 0.9922 CD74 TRAT1 PRKCQ
2059_s_at 37039_at 38949_at 0.9922 LCK HLA-DRA PRKCQ
35016_at 2059_s_at 37039_at 0.9922 CD74 LCK HLA-DRA
35016_at 37039_at 38949_at 0.9922 CD74 HLA-DRA PRKCQ
35016_at 38833_at 38949_at 0.9922 CD74 HLA-DPA1 PRKCQ
2059_s_at 33039_at 38949_at 0.9922 LCK TRAT1 PRKCQ
37039_at 38833_at 38949_at 0.9922 HLA-DRA HLA-DPA1 PRKCQ
37039_at 33039_at 38949_at 0.9922 HLA-DRA TRAT1 PRKCQ
38319_at 38095_i_at 38949_at 0.9922 CD3D HLA-DPB1 PRKCQ
33238_at 37039_at 38833_at 0.9922 LCK HLA-DRA HLA-DPA1
38095_i_at 33039_at 38949_at 0.9922 HLA-DPB1 TRAT1 PRKCQ
33238_at 2059_s_at 38949_at 0.9922 LCK LCK PRKCQ
38319_at 38833_at 33039_at 0.9922 CD3D HLA-DPA1 TRAT1
38833_at 33039_at 38949_at 0.9922 HLA-DPA1 TRAT1 PRKCQ
38147_at 33039_at 38949_at 0.9922 SH2D1A TRAT1 PRKCQ
38319_at 37039_at 38833_at 0.9922 CD3D HLA-DRA HLA-DPA1
38147_at 2059_s_at 38949_at 0.9922 SH2D1A LCK PRKCQ
38147_at 38095_i_at 38833_at 0.9922 SH2D1A HLA-DPB1 HLA-DPA1
38147_at 33238_at 38949_at 0.9922 SH2D1A LCK PRKCQ
38147_at 2059_s_at 33039_at 0.9922 SH2D1A LCK TRAT1
38319_at 37039_at 38949_at 0.9922 CD3D HLA-DRA PRKCQ
38319_at 38095_i_at 38833_at 0.9922 CD3D HLA-DPB1 HLA-DPA1
38147_at 2059_s_at 38833_at 0.9922 SH2D1A LCK HLA-DPA1
33238_at 35016_at 2059_s_at 0.9922 LCK CD74 LCK
38319_at 35016_at 38095_i_at 0.9922 CD3D CD74 HLA-DPB1
33238_at 35016_at 38095_i_at 0.9922 LCK CD74 HLA-DPB1
38319_at 35016_at 37039_at 0.9922 CD3D CD74 HLA-DRA
38147_at 33238_at 38833_at 0.9922 SH2D1A LCK HLA-DPA1
38147_at 37039_at 38095_i_at 0.9844 SH2D1A HLA-DRA HLA-DPB1
38147_at 35016_at 38833_at 0.9844 SH2D1A CD74 HLA-DPA1
38147_at 35016_at 38095_i_at 0.9844 SH2D1A CD74 HLA-DPB1
35016_at 2059_s_at 38095_i_at 0.9844 CD74 LCK HLA-DPB1
38147_at 37039_at 38833_at 0.9844 SH2D1A HLA-DRA HLA-DPA1
35016_at 2059_s_at 38833_at 0.9844 CD74 LCK HLA-DPA1
38319_at 37039_at 38095_i_at 0.9844 CD3D HLA-DRA HLA-DPB1
37039_at 38095_i_at 38949_at 0.9844 HLA-DRA HLA-DPB1 PRKCQ
38147_at 38833_at 33039_at 0.9844 SH2D1A HLA-DPA1 TRAT1
38095_i_at 38833_at 38949_at 0.9844 HLA-DPB1 HLA-DPA1 PRKCQ
33238_at 35016_at 38833_at 0.9844 LCK CD74 HLA-DPA1
38319_at 38095_i_at 33039_at 0.9844 CD3D HLA-DPB1 TRAT1
2059_s_at 37039_at 38833_at 0.9844 LCK HLA-DRA HLA-DPA1
2059_s_at 38833_at 33039_at 0.9766 LCK HLA-DPA1 TRAT1
2059_s_at 38095_i_at 33039_at 0.9766 LCK HLA-DPB1 TRAT1
2059_s_at 38095_i_at 38833_at 0.9766 LCK HLA-DPB1 HLA-DPA1
33238_at 2059_s_at 38095_i_at 0.9766 LCK LCK HLA-DPB1
35016_at 38095_i_at 33039_at 0.9766 CD74 HLA-DPB1 TRAT1
38147_at 38095_i_at 33039_at 0.9766 SH2D1A HLA-DPB1 TRAT1
33238_at 2059_s_at 33039_at 0.9766 LCK LCK TRAT1
35016_at 37039_at 33039_at 0.9766 CD74 HLA-DRA TRAT1
33238_at 38095_i_at 33039_at 0.9766 LCK HLA-DPB1 TRAT1
33238_at 38833_at 33039_at 0.9766 LCK HLA-DPA1 TRAT1
35016_at 38833_at 33039_at 0.9766 CD74 HLA-DPA1 TRAT1
33238_at 38095_i_at 38833_at 0.9688 LCK HLA-DPB1 HLA-DPA1
37039_at 38833_at 33039_at 0.9688 HLA-DRA HLA-DPA1 TRAT1
38147_at 35016_at 37039_at 0.9688 SH2D1A CD74 HLA-DRA
33238_at 2059_s_at 38833_at 0.9688 LCK LCK HLA-DPA1
37039_at 38095_i_at 33039_at 0.9688 HLA-DRA HLA-DPB1 TRAT1
38095_i_at 38833_at 33039_at 0.9609 HLA-DPB1 HLA-DPA1 TRAT1
35016_at 38095_i_at 38833_at 0.9609 CD74 HLA-DPB1 HLA-DPA1
37039_at 38095_i_at 38833_at 0.9531 HLA-DRA HLA-DPB1 HLA-DPA1
35016_at 37039_at 38095_i_at 0.9531 CD74 HLA-DRA HLA-DPB1
35016_at 37039_at 38833_at 0.9531 CD74 HLA-DRA HLA-DPA1

Tabell 2. Merknader om alle funksjonene fra datasettet ALL1. Dette er en binær klassifisering datasett mellom B-cellen og T-celle alle prøvene. Gene symboler var samlet for alle microarray funksjonene i de siste tre kolonnene.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Denne studien gir en lett-å-følge flere løsning biomarkør gjenkjenning og karakterisering protokoll for brukerdefinert binære klassifisering dataset. Programvaren legger vekt på brukervennlighet og fleksibel import/eksport grensesnitt for ulike filformater, slik at biomedisinsk forsker å undersøke deres dataset lett benytter GUI av programvaren. Denne studien også fremhever nødvendigheten av å generere flere løsninger med lignende effektiv modellering forestillinger, tidligere ignorert av mange eksisterende biomarkør oppdagelsen algoritmer. I fremtiden, kan nyutviklet biomarkør oppdagelsen algoritmer inkludere dette alternativet ved å registrere alle mellomliggende biomarkør delsett med tilstrekkelig modellering forestillinger.

I denne protokollen er trinn 1 og 5 mest viktighet, programvaren er et helautomatisk system som riktig formatert inndatafiler. Det ble funnet at under vår testing trinn, MIS-match eksempel navn fra data matrix og etiketter-klasse-filer kan forårsake feil i programvaren, hvor programvaren ville popmusikk ut en advarselsdialogboks om denne feilen. Derfor hvis brukeren finner ikke prøver ble lastet fra data matrix eller klasse etikettfiler, feilsøking trikset er å dobbeltsjekke om eksempel navnene i to inndatafiler er inkonsekvent. Hvis ingen prikker var visualisert 3D scatter tomter, kan dette skyldes parameteren pCutoff er høyere enn den beste løsningen. I dette tilfellet feilsøking trikset er å redusere cutoff over prestasjonsmåling klassifisering (parameteren pCutoff). Men kan maksimal ytelsesmåling av biomarkør delsettene være fortsatt blokkert av cut-off for et vanskelig dataset. En advarselsdialogboks gir best ytelse målingen, og brukeren kan velge en mindre cutoff å fortsette videre analyse.

De viktigste begrensningene av programvaren er treg beregning hastigheten og dens evne til å bare fokusere på, maksimalt tre funksjoner. Funksjonen utvalget er en NP-hard problem, definert som maskinelt problem som globalt optimal løsning ikke kan løses i Polynomisk tid59. Omfattende biomarkør delsettet screening trinn bruker et stort antall databehandlingskraft. Kjøretiden er kompleksiteten i kSolutionVis O (n3) der n er parameteren pTopX. I tillegg fokuserer denne flere-biomarkør algoritme på å synliggjøre skjermen funksjoner, derfor avgrense antall funksjoner tre eller færre. Denne begrensningen kan hindre noen brukere som kan arbeide med vanskelige problemer og ønsker å finne funksjonen delsett som består av mer enn tre funksjoner. Men programvaren visualiserer funksjonen delsett i 3D-rom og det er vanskelig å visualisere direkte funksjonen delsett i mer enn tre dimensjoner. I tillegg basert på representant resultatene presentert ovenfor, flere funksjonen trillingene valgt av kSolutionVis er en effektiv metode i klassifisering og viser betydelige resultater med viktige biomedisinsk betydningen.

Programvaren representerer nyttig utfyllende programvare til de eksisterende funksjonen utvalg algoritmene. I feltet biomedisin funksjonen utvalget kalles biomarkør, med det mål å finne et delsett av funksjoner oppnå bedre modellering ytelse60,61,62. Programvaren er en omfattende screening verktøyet alle trilling biomarkør delsettene basert på strategi foreslått i en fersk studie5. To representant datasett vist av programvarens protokoll, og deres resultater viser existences av mange løsninger med tilsvarende effektiv eller selv identiske modellering forestillinger. Men heuristisk regler63,64,65,66 kan brukes til å finne sub-optimale løsninger, men slike algoritmer har en sterk tendens til å produsere bare én løsning, ignorerer mange andre løsninger med tilsvarende effektiv eller selv identiske modellering forestillinger. Derfor er datamaskinen og lange kjøretiden av programvaren verdt å sikre en mer omfattende gjenkjenning av potensielle biomarkers i fremtiden.

Representant resultatene ble beregnet på to transcriptome datasett, men programvare håndtakene input data i ulike standard filformater og kan også brukes til å analysere andre 'omic' datasett, inkludert Proteomikk og metabolomics. I tillegg kan parallelization øke beregningshastigheten for modulen biomarkør oppdagelsen i programvaren. Det er noen flere kjerner maskinvare inkludert GPGPU (General-Purpose grafisk prosessering forene) og Intel Xeon Phi-prosessorer som er tilgjengelige for dette formålet. Men disse teknologiene krever forskjellige koding strategier og vil bli vurdert i neste versjon av programvaren.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Vi har ingen konflikter av interesse knyttet til denne rapporten.

Acknowledgments

Dette arbeidet ble støttet av den strategiske prioritet Research Program det kinesiske vitenskapsakademi (XDB13040400) og oppstart tilskudd fra Jilin University. Anonyme vurderinger og biomedisinsk testing brukere ble verdsatt for sine konstruktive kommentarer å forbedre brukervennligheten og funksjonaliteten til kSolutionVis.

Materials

Name Company Catalog Number Comments
Hardware
laptop Lenovo X1 carbon Any computer works. Recommended minimum configuration: 1GB extra hard disk space, 1 GB memory, 2.0MHz CPU
Name Company Catalog Number Comments
Software
Python 3.0 WingWare Wing Personal Any python programming and running environments support Python version 3.0 or above

DOWNLOAD MATERIALS LIST

References

  1. Heckerman, D., et al. Genetic variants associated with physical performance and anthropometry in old age: a genome-wide association study in the ilSIRENTE cohort. Scientific Reports. 7, 15879 (2017).
  2. Li, Z., et al. Genome-wide association analysis identifies 30 new susceptibility loci for schizophrenia. Nature Genetics. 49, 1576-1583 (2017).
  3. Winkler, T. W., et al. Quality control and conduct of genome-wide association meta-analyses. Nature Protocols. 9, 1192-1212 (2014).
  4. Harrison, R. N. S., et al. Development of multivariable models to predict change in Body Mass Index within a clinical trial population of psychotic individuals. Scientific Reports. 7, 14738 (2017).
  5. Liu, J., et al. Multiple similarly-well solutions exist for biomedical feature selection and classification problems. Scientific Reports. 7, 12830 (2017).
  6. Ye, Y., Zhang, R., Zheng, W., Liu, S., Zhou, F. RIFS: a randomly restarted incremental feature selection algorithm. Scientific Reports. 7, 13013 (2017).
  7. Zhou, F. F., Xue, Y., Chen, G. L., Yao, X. GPS: a novel group-based phosphorylation predicting and scoring method. Biochemical and Biophysical Research Communications. 325, 1443-1448 (2004).
  8. Sanchez, B. N., Wu, M., Song, P. X., Wang, W. Study design in high-dimensional classification analysis. Biostatistics. 17, 722-736 (2016).
  9. Shujie, M. A., Carroll, R. J., Liang, H., Xu, S. Estimation and Inference in Generalized Additive Coefficient Models for Nonlinear Interactions with High-Dimensional Covariates. Annals of Statistics. 43, 2102-2131 (2015).
  10. Li, J. H., et al. MiR-205 as a promising biomarker in the diagnosis and prognosis of lung cancer. Oncotarget. 8, 91938-91949 (2017).
  11. Lyskjaer, I., Rasmussen, M. H., Andersen, C. L. Putting a brake on stress signaling: miR-625-3p as a biomarker for choice of therapy in colorectal cancer. Epigenomics. 8, 1449-1452 (2016).
  12. Ge, R., et al. McTwo: a two-step feature selection algorithm based on maximal information coefficient. BMC Bioinformatics. 17, 142 (2016).
  13. Tumuluru, J. S., McCulloch, R. Application of Hybrid Genetic Algorithm Routine in Optimizing Food and Bioengineering Processes. Foods. 5, (2016).
  14. Gen, M., Cheng, R., Lin, L. Network models and optimization: Multiobjective genetic algorithm approach. , Springer Science & Business Media. (2008).
  15. Radovic, M., Ghalwash, M., Filipovic, N., Obradovic, Z. Minimum redundancy maximum relevance feature selection approach for temporal gene expression data. BMC Bioinformatics. 18, 9 (2017).
  16. Ciuculete, D. M., et al. A methylome-wide mQTL analysis reveals associations of methylation sites with GAD1 and HDAC3 SNPs and a general psychiatric risk score. Translational Psychiatry. 7, e1002 (2017).
  17. Lin, H., et al. Methylome-wide Association Study of Atrial Fibrillation in Framingham Heart Study. Scientific Reports. 7, 40377 (2017).
  18. Wang, S., Li, J., Yuan, F., Huang, T., Cai, Y. D. Computational method for distinguishing lysine acetylation, sumoylation, and ubiquitination using the random forest algorithm with a feature selection procedure. combinatorial chemistry & high throughput screening. , (2017).
  19. Zhang, Q., et al. Predicting Citrullination Sites in Protein Sequences Using mRMR Method and Random Forest Algorithm. combinatorial chemistry & high throughput screening. 20, 164-173 (2017).
  20. Cuena-Lombrana, A., Fois, M., Fenu, G., Cogoni, D., Bacchetta, G. The impact of climatic variations on the reproductive success of Gentiana lutea L. in a Mediterranean mountain area. International journal of biometeorology. , (2018).
  21. Coghe, G., et al. Fatigue, as measured using the Modified Fatigue Impact Scale, is a predictor of processing speed improvement induced by exercise in patients with multiple sclerosis: data from a randomized controlled trial. Journal of Neurology. , (2018).
  22. Hong, H., et al. Applying genetic algorithms to set the optimal combination of forest fire related variables and model forest fire susceptibility based on data mining models. The case of Dayu County, China. Science of the Total Environment. 630, 1044-1056 (2018).
  23. Borges, D. L., et al. Photoanthropometric face iridial proportions for age estimation: An investigation using features selected via a joint mutual information criterion. Forensic Science International. 284, 9-14 (2018).
  24. Kohavi, R., John, G. H. Wrappers for feature subset selection. Artificial intelligence. 97, 273-324 (1997).
  25. Yu, L., Liu, H. Efficient feature selection via analysis of relevance and redundancy. Journal of machine learning research. 5, 1205-1224 (2004).
  26. Wexler, R. B., Martirez, J. M. P., Rappe, A. M. Chemical Pressure-Driven Enhancement of the Hydrogen Evolving Activity of Ni2P from Nonmetal Surface Doping Interpreted via Machine Learning. Journal of American Chemical Society. , (2018).
  27. Wijaya, S. H., Batubara, I., Nishioka, T., Altaf-Ul-Amin, M., Kanaya, S. Metabolomic Studies of Indonesian Jamu Medicines: Prediction of Jamu Efficacy and Identification of Important Metabolites. Molecular Informatics. 36, (2017).
  28. Shangkuan, W. C., et al. Risk analysis of colorectal cancer incidence by gene expression analysis. PeerJ. 5, e3003 (2017).
  29. Chu, C. M., et al. Gene expression profiling of colorectal tumors and normal mucosa by microarrays meta-analysis using prediction analysis of microarray, artificial neural network, classification, and regression trees. Disease Markers. , 634123 (2014).
  30. Fleuret, F. Fast binary feature selection with conditional mutual information. Journal of Machine Learning Research. 5, 1531-1555 (2004).
  31. Pacheco, J., Alfaro, E., Casado, S., Gámez, M., García, N. A GRASP method for building classification trees. Expert Systems with Applications. 39, 3241-3248 (2012).
  32. Jiao, X., et al. DAVID-WS: a stateful web service to facilitate gene/protein list analysis. Bioinformatics. 28, 1805-1806 (2012).
  33. Rappaport, N., et al. Rational confederation of genes and diseases: NGS interpretation via GeneCards, MalaCards and VarElect. Biomedical Engineering OnLine. 16, 72 (2017).
  34. Rebhan, M., Chalifa-Caspi, V., Prilusky, J., Lancet, D. GeneCards: integrating information about genes, proteins and diseases. Trends in Genet. 13, 163 (1997).
  35. Joosten, R. P., Long, F., Murshudov, G. N., Perrakis, A. The PDB_REDO server for macromolecular structure model optimization. IUCrJ. 1, 213-220 (2014).
  36. Maglott, D., Ostell, J., Pruitt, K. D., Tatusova, T. Entrez Gene: gene-centered information at NCBI. Nucleic Acids Research. 39, D52-D57 (2011).
  37. Amberger, J. S., Bocchini, C. A., Schiettecatte, F., Scott, A. F., Hamosh, A. OMIM.org: Online Mendelian Inheritance in Man (OMIM(R)), an online catalog of human genes and genetic disorders. Nucleic Acids Research. 43, D789-D798 (2015).
  38. Boutet, E., et al. the Manually Annotated Section of the UniProt KnowledgeBase: How to Use the Entry View. Methods in Molecular Biology. 1374, 23-54 (2016).
  39. Zerbino, D. R., et al. Ensembl 2018. Nucleic Acids Res. , (2017).
  40. McKusick, V. A., Amberger, J. S. The morbid anatomy of the human genome: chromosomal location of mutations causing disease. Journal of Medical Genetics. 30, 1-26 (1993).
  41. Finn, R. D., et al. The Pfam protein families database: towards a more sustainable future. Nucleic Acids Research. 44, D279-D285 (2016).
  42. Xue, Y., et al. GPS: a comprehensive www server for phosphorylation sites prediction. Nucleic Acids Research. 33, W184-W187 (2005).
  43. Deng, W., et al. GPS-PAIL: prediction of lysine acetyltransferase-specific modification sites from protein sequences. Scientific Reports. 6, 39787 (2016).
  44. Zhao, Q., et al. GPS-SUMO: a tool for the prediction of sumoylation sites and SUMO-interaction motifs. Nucleic Acids Research. 42, W325-W330 (2014).
  45. Wan, S., Duan, Y., Zou, Q. HPSLPred: An Ensemble Multi-Label Classifier for Human Protein Subcellular Location Prediction with Imbalanced Source. Proteomics. 17, (2017).
  46. Zhang, H., Zhu, L., Huang, D. S. WSMD: weakly-supervised motif discovery in transcription factor ChIP-seq data. Scientific Reports. 7, 3217 (2017).
  47. Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, D447-D452 (2015).
  48. Chiaretti, S., et al. Gene expression profile of adult T-cell acute lymphocytic leukemia identifies distinct subsets of patients with different response to therapy and survival. Blood. 103, 2771-2778 (2004).
  49. Rowley, J. D., et al. Mapping chromosome band 11q23 in human acute leukemia with biotinylated probes: identification of 11q23 translocation breakpoints with a yeast artificial chromosome. Proceedings of the National Academy of Sciences of the United States of America. 87, 9358-9362 (1990).
  50. Rabbitts, T. H., et al. The chromosomal location of T-cell receptor genes and a T cell rearranging gene: possible correlation with specific translocations in human T cell leukaemia. Embo Journal. 4, 1461-1465 (1985).
  51. Yin, L., et al. SH2D1A mutation analysis for diagnosis of XLP in typical and atypical patients. Human Genetics. 105, 501-505 (1999).
  52. Brandau, O., et al. Epstein-Barr virus-negative boys with non-Hodgkin lymphoma are mutated in the SH2D1A gene, as are patients with X-linked lymphoproliferative disease (XLP). Human Molecular Genetics. 8, 2407-2413 (1999).
  53. Burnett, R. C., Thirman, M. J., Rowley, J. D., Diaz, M. O. Molecular analysis of the T-cell acute lymphoblastic leukemia-associated t(1;7)(p34;q34) that fuses LCK and TCRB. Blood. 84, 1232-1236 (1994).
  54. Taylor, G. M., et al. Genetic susceptibility to childhood common acute lymphoblastic leukaemia is associated with polymorphic peptide-binding pocket profiles in HLA-DPB1*0201. Human Molecular Genetics. 11, 1585-1597 (2002).
  55. Wadia, P. P., et al. Antibodies specifically target AML antigen NuSAP1 after allogeneic bone marrow transplantation. Blood. 115, 2077-2087 (2010).
  56. Wilson, D. M., et al. 3rd et al. Hex1: a new human Rad2 nuclease family member with homology to yeast exonuclease 1. Nucleic Acids Research. 26, 3762-3768 (1998).
  57. O'Sullivan, R. J., et al. Rapid induction of alternative lengthening of telomeres by depletion of the histone chaperone ASF1. Nature Structural & Molecular Biology. 21, 167-174 (2014).
  58. Lee-Sherick, A. B., et al. Aberrant Mer receptor tyrosine kinase expression contributes to leukemogenesis in acute myeloid leukemia. Oncogene. 32, 5359-5368 (2013).
  59. Guyon, I., Elisseeff, A. An introduction to variable and feature selection. Journal of machine learning research. 3, 1157-1182 (2003).
  60. John, G. H., Kohavi, R., Pfleger, K. Machine learning: proceedings of the eleventh international conference. , 121-129 (1994).
  61. Jain, A., Zongker, D. Feature selection: Evaluation, application, and small sample performance. IEEE transactions on pattern analysis and machine intelligence. 19, 153-158 (1997).
  62. Taylor, S. L., Kim, K. A jackknife and voting classifier approach to feature selection and classification. Cancer Informatics. 10, 133-147 (2011).
  63. Andresen, K., et al. Novel target genes and a valid biomarker panel identified for cholangiocarcinoma. Epigenetics. 7, 1249-1257 (2012).
  64. Guo, P., et al. Gene expression profile based classification models of psoriasis. Genomics. 103, 48-55 (2014).
  65. Xie, J., Wang, C. Using support vector machines with a novel hybrid feature selection method for diagnosis of erythemato-squamous diseases. Expert Systems with Applications. 38, 5809-5815 (2011).
  66. Zou, Q., Zeng, J., Cao, L., Ji, R. A novel features ranking metric with application to scalable visual and bioinformatics data classification. Neurocomputing. 173, 346-354 (2016).

Tags

Kreftforskning problemet 140 biomarkør gjenkjenning funksjonen utvalget OMIC binære klassifisering filter wrapper ekstrem læring maskin ELM
Velge flere biomarkør delsett med tilsvarende effektiv binære klassifisering forestillinger
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Feng, X., Wang, S., Liu, Q., Li, H., More

Feng, X., Wang, S., Liu, Q., Li, H., Liu, J., Xu, C., Yang, W., Shu, Y., Zheng, W., Yu, B., Qi, M., Zhou, W., Zhou, F. Selecting Multiple Biomarker Subsets with Similarly Effective Binary Classification Performances. J. Vis. Exp. (140), e57738, doi:10.3791/57738 (2018).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter