Cancer Research

Hvis du vælger flere biomarkør delmængder med tilsvarende effektive binære klassificering forestillinger

Published: October 11, 2018 doi: 10.3791/57738

Xin Feng¹, Shaofei Wang¹, Quewang Liu¹, Han Li², Jiamei Liu², Cheng Xu², Weifeng Yang², Yayun Shu², Weiwei Zheng¹, Bingxin Yu³, Mingran Qi⁴, Wenyang Zhou¹, Fengfeng Zhou¹

¹College of Computer Science and Technology, and Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education, Jilin University, ²College of Software, Jilin University, ³Ultrasonography Department, China-Japan Union Hospital of Jilin University, ⁴Department of Pathogenobiology, College of Basic Medical Science, Jilin University

Summary

Eksisterende algoritmer generere en løsning for en biomarkør påvisning datasæt. Denne protokol viser eksistensen af flere tilsvarende effektive løsninger og præsenterer en brugervenlig software til at hjælpe biomedicinske forskere undersøge deres datasæt for den foreslåede udfordring. Dataloger kan også give denne funktion i deres biomarkør påvisning algoritmer.

Abstract

Registrering af biomarkør er en af de mere vigtige biomedicinske spørgsmål for høj overførselshastighed 'omik' forskere, og næsten alle eksisterende biomarkør påvisning algoritmer generere en biomarkør delmængde med optimeret performance-måling for et givet datasæt . Men en nylig undersøgelse påvist eksistensen af flere biomarkør delmængder med tilsvarende effektive eller endda identiske klassificering forestillinger. Denne protokol udgør en enkel og ligetil metode til påvisning af biomarkør delmængder med binære klassificering forestillinger, bedre end en brugerdefineret cutoff. Protokollen består af dataforberedelse og lastning, baseline oplysninger sammendrag, parameter tuning, biomarkør screening, resultatet visualisering og fortolkning, biomarkør gen anmærkninger, og resultatet og visualisering udførsel på publikation kvalitet. Den foreslåede biomarkør screening strategi er intuitiv og viser en generel regel for at udvikle biomarkør påvisning algoritmer. En bruger-kammeratlig anskuelighed brugergrænseflade (GUI) blev udviklet ved hjælp af programmeringssproget Python, tillader biomedicinske forskere at have direkte adgang til deres resultater. Kildekode og vejledning i kSolutionVis kan downloades fra http://www.healthinformaticslab.org/supp/resources.php.

Introduction

Binære klassificering, en af mest almindeligt undersøgt og udfordrende datamining problemer på det biomedicinske område, der bruges til at bygge en klassificering model uddannet på to grupper af prøver med den mest nøjagtige forskelsbehandling power¹^, ² ^, ³ ^, ⁴ ^, ⁵ ^, ⁶ ^, ⁷. den store data genereret på det biomedicinske område har imidlertid den iboende "store lille PN" paradigme, med antallet af funktioner normalt langt større end antallet af prøver⁶^,⁸^,⁹. Biomedicinske forskere skal derfor reducere dimensionen funktion før bruger klassifikationen algoritmer for at undgå den overfitting problem⁸^,⁹. Diagnose biomarkører er defineret som en delmængde af detekterede funktioner adskille patienter af en given sygdom fra sunde kontrol prøver¹⁰^,¹¹. Patienter er normalt defineret som de positive prøver, og de raske kontrolpersoner defineres som negative prøver¹².

Nylige undersøgelser har antydet, at der findes mere end én løsning med identiske eller tilsvarende effektiv klassificering forestillinger til en biomedicinsk datasæt⁵. Næsten alle funktionen markering algoritmerne er deterministisk algoritmer, producerer kun én løsning til det samme datasæt. Genetiske algoritmer kan samtidig generere flere løsninger med lignende forestillinger, men de stadig forsøger at vælge en løsning med den bedste fitness-funktion som output for en given datasæt¹³^,¹⁴.

Funktionen markering algoritmer kan grupperes groft som enten filtre eller wrappers¹². Et filter algoritme vælger de top -k funktioner rangeret efter deres betydelige individuelle association med binære klasse etiketterne baseret på den antagelse, at funktioner er uafhængige af hinanden¹⁵^,¹⁶^,¹⁷. Selv om denne antagelse ikke holder gælder for næsten alle virkelige datasæt, udfører heuristisk filterregel godt i mange tilfælde, for eksempel, Christinas (Minimum redundans og maksimale relevans) algoritme, Wilcoxon test baseret funktion filtrering (WRank) algoritme, og handlingen ROC (Receiver drift karakteristisk) baseret filtrering (ROCRank) algoritme. Flemming, er en effektiv filter algoritme fordi det tilnærmer kombinatorisk skøn problemet med en serie af meget mindre problemer, sammenligne med maksimum-afhængighed funktion udvalg algoritme, som hver omfatter kun to variabler, og Derfor bruger parvise joint sandsynligheder, som er mere robust¹⁸^,¹⁹. Dog kan Christines undervurdere nytten af nogle funktioner, som det ikke måler interaktioner mellem funktioner, som kan øge relevans, og dermed misser nogle funktion de kombinationer, der er individuelt ubrugelig men er nyttige, kun når de kombineres. WRank algoritme beregner en ikke-parametrisk score på hvordan diskriminerende en funktion mellem to klasser af prøver, og er kendt for sin robusthed for outliers²⁰^,²¹. Derudover evaluerer ROCRank algoritme, hvordan væsentlige område Under the ROC kurve (AUC) af en bestemt funktion er for undersøgte binære klassificering ydeevne²²^,²³.

På den anden side en wrapper evalueres forud definerede klassificeringen udførelsen af en given funktion delmængde, iterativt genereret af heuristisk regel og skaber funktion delmængde med den bedste performance måling²⁴. En wrapper generelt udkonkurrerer et filter i klassificering ydeevne men kører langsommere²⁵. Legaliseret tilfældige skov (RRF)²⁶^,²⁷ algoritme bruges f.eks grådige regel ved at vurdere funktioner på en delmængde af træningsdata på hver tilfældig skov node, hvis funktion betydning scores evalueres ved Gini-indekset . Valget af en ny funktion vil blive straffet, hvis dens oplysninger gevinst ikke forbedres for de valgte funktioner. Derudover forudsigelse analyse for Microarrays (PAM)²⁸^,²⁹ algoritme, også en wrapper algoritme, beregner en barycentrum for hver klasse etiketter, og derefter vælger egenskaber hen til krybe gen centroids mod samlet klasse barycentrum. PAM er robust til fjerntliggende funktioner.

Flere løsninger med øverste klassificering ydeevne kan være nødvendigt for enhver given datasæt. For det første, optimering mål af en deterministisk algoritme er defineret af en matematisk formel, f.eks., minimum fejl sats³⁰, som er ikke nødvendigvis velegnet til biologiske prøver. For det andet kan et datasæt have flere, væsentligt anderledes løsninger med lignende effektiv eller endda identiske forestillinger. Næsten alle eksisterende funktion udvalg algoritmer vil tilfældigt vælge en af disse løsninger som output³¹.

Denne undersøgelse vil indføre en Informatik analytiske protokol til at generere flere funktion udvalg løsninger med lignende forestillinger for enhver given binære klassificering datasæt. I betragtning af at de fleste biomedicinske forskere ikke er fortrolig med it teknikker eller computer kodning, blev en bruger-kammeratlig anskuelighed brugergrænseflade (GUI) udviklet for at lette en hurtig analyse af biomedicinsk binære klassificering datasæt. Den analytiske protokollen består af dataindlæsning og opsummere, parameter tuning, rørledning udførelse og resultatet fortolkninger. Med et enkelt klik er at forskeren købedygtig frembringe biomarkør delmængder og publikation-kvalitet visualisering parceller. Protokollen er blevet testet ved hjælp af transcriptomes af to binære klassificering datasæt af akut lymfoblastær leukæmi (ALL), dvs., ALL1 og ALL2¹². Datasæt af ALL1 og ALL2 blev hentet fra bred Institut genom Data analyse Center, tilgængelig på http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi. ALL1 indeholder 128 prøver med 12,625 funktioner. Af disse prøver, 95 er B-celle alle og 33 er T-celle alle. ALL2 indeholder 100 prøver med 12,625 funktioner så godt. Af disse prøver er der 65 patienter, der har lidt tilbagefald og 35 patienter, der ikke gjorde. ALL1 var et let binære klassificering datasæt, med en minimum nøjagtigheden af fire filtre og fire wrappers 96,7% og 6 af de 8 funktion udvalg algoritmer at opnå 100%¹². Mens ALL2 var en vanskeligere datasæt, med de ovenfor 8 funktion udvalg algoritmer at opnå bedre end 83,7% nøjagtighed¹². Denne bedste nøjagtighed blev opnået med 56 funktioner opdaget af wrapper algoritme, korrelation-baseret funktion valg (CFS).

Subscription Required. Please recommend JoVE to your librarian.

Protocol

Bemærk: Følgende protokol beskriver detaljerne i Informatik analytiske procedure og pseudo koder af de store moduler. Automatisk analysesystem blev udviklet ved hjælp af Python version 3.6.0 og Python moduler pandaer, abc, numpy, scipy, sklearn, sys, PyQt5, sys, Flemming, matematik og matplotlib. Materialer i denne undersøgelse er angivet i Tabel af materialer.

1. forberede Data Matrix og klasse etiketter

Forberede data matrix fil som en tabulator - eller kommasepareret matrix-fil, som illustreret i figur 1A.
Bemærk: Hver række har alle værdier i en funktion, og det første element er kendetegn navn. En funktion er et probeset-ID for microarray-baserede transkriptom datasættet eller kan være en anden værdi ID som cystein rester med dens methylering værdi i en methylomic dataset. Hver kolonne giver funktionen værdierne af en given prøve, med det første element er navnet på prøve. En række er adskilt i kolonner af en FANE (figur 1B) eller komma (figur 1 c). En tabulatorsepareret matrix fil genkendes af fil forlængelse .tsv, og en kommasepareret matrix fil har filtypenavnet .csv. Denne fil kan blive genereret ved at gemme en matrix som enten .tsv eller .csv-format fra software som Microsoft Excel. Data matrix kan også genereres af computer kodning.
Forberede klasse label-fil som en tabulator - eller kommasepareret matrix fil (fig. 1 d), svarende til filen data matrix.
Bemærk: Den første kolonne giver prøven navne, og etiketten klasse af hver prøve er angivet i kolonnen med titlen klasse. Maksimal kompatibilitet anses i den kodning proces, således at yderligere kolonner kan tilføjes. Klasse label-fil kan være formateret som en .tsv eller .csv-fil. Navne i kolonnen klasse kan være nogen betingelser, og der kan være mere end to klasser af prøver. Brugeren kan vælge enhver to klasser for den følgende analyse.

2. Indlæs Data Matrix og klasse etiketter

Indlæse data matrix og klasse etiketter i softwaren. Klik på knappen Indlæs data matrix at vælge filen brugerangivne data matrix. Klik på knappen Indlæs klasse etiketter til at vælge den tilsvarende klasse label-fil.
Bemærk: Når begge filer er indlæst, kSolutionVis vil gennemføre en rutinemæssig skærm af kompatibilitet mellem de to filer.
Opsummere de funktioner og prøver fra filen data matrix. Anslå størrelsen af filen data matrix.
Opsummere de prøver og klasser fra klasse label-fil. Anslå størrelsen af klasse label-fil.
Teste, om hver prøve fra data matrix har en klasse etiket. Opsummere antallet af stikprøver med klasse etiketter.

3. opsummere og viser Baseline statistikker for datasættet

Klik på knappen Summér, uden nogen bestemt søgeord input, og softwaren vil vise 20 indekserede funktioner og tilsvarende funktioner navne.
Bemærk: Brugere skal Angiv funktionsnavnet på den, de ønsker at finde sin oprindelige statistik og tilsvarende værdi distribution blandt alle input prøver.
Give et nøgleord, f.eks "1000_at", i lærebog funktion til at finde en bestemt funktion der skal summeres. Klik på knappen Summér at få baseline statistikker for denne given funktion.
Bemærk: Nøgleordet kan vises hvor som helst i target funktionsnavne, lette søgeproces for brugerne.
Klik på Sammenfat at finde mere end én funktion med en given søgeord, og derefter angive unikke funktions-ID for at gå videre med ovenstående trin til at opsummere en bestemt funktion.

4. Bestem klasse etiketter og antallet af Top-rangerede funktioner

Vælg navnene på Positive ("Pedersen (33)") og Negative ("Nielsen (95)") klasser i dropdown felterne Klasse Positive og Negative klasse, som vist i figur 2 (i midten).
Bemærk: Det foreslås, for at vælge en afbalanceret binære klassificering datasæt, dvs.forskellen mellem antallet af positive og negative prøver er minimal. Antallet af prøver er også givet i parentes efter navnet på hver klasse etiket i boksene to dropdown.
Vælg 10 som antallet af top-rangerede funktioner (parameter pTopX) i dropdown boksen Top_X (?) for en omfattende raster i funktion-undersæt.
Bemærk: Softwaren automatisk placerer alle funktioner af P-værdi beregnet ved en t-test for hver funktion, der sammenligner de positive og negative klasser. En funktion med en mindre P-værdi har en bedre udslagsgivende magt mellem de to klasser af prøver. Modulet omfattende screening er meget beregningskrævende. Parameteren pTopX er 10 som standard. Brugere kan ændre denne parameter i rækken af 10 til 50, indtil de finder tilfredsstillende indslag delmængder med god klassificering forestillinger.

5. tune Systemparametre for forskellige forestillinger

Vælg resultatmåling (pMeasurement) nøjagtighed (Acc) i dropdown boksen Acc/bAcc (?) for den valgte klassificering ekstreme læring maskine (ELM). En anden mulighed for denne parameter er måling afbalanceret nøjagtighed (bAcc).
Bemærk: Lad TP, FN, TN, og FP være antallet af sandt positive, falske negativer, sande negativer og falske positiver, henholdsvis. Måling Acc er defineret som (TP+TN)/(TP+FN+TN+FP), som fungerer bedst på en afbalanceret datasæt⁶. Men en klassificering, der er optimeret til Acc tendens til at tildele den negative klasse alle prøver, hvis antallet af negative prøver er meget større end positive. BAcc er defineret som (Sn + Sp) / 2, hvor Sn = TP/(TP+FN) og Sp = TN/(TN+FP) er korrekt forudsagt satserne for positive og negative prøver, henholdsvis. Derfor bAcc normaliserer forudsigelse forestillinger over de to klasser, og kan føre til en afbalanceret forudsigelse ydeevne over to ubalanceret klasser. ACC er standardvalg af pMeasurement. Softwaren bruger klassificeringen ELM som standard til at beregne klassificering forestillinger. Brugeren kan også vælge en klassificering fra SVM (støtte vektor maskine), KNN (k nærmeste nabo), beslutningstræ eller Naïve Bayes.
Vælg cutoff værdien 0,70 (parameter pCutoff) for den angivne resultatmåling i input-feltet pCutoff:.
Bemærk: Både Acc og bAcc variere mellem 0 og 1, og brugeren kan angive en værdi pCutoff[0, 1] som cutoff til at vise de matchede løsninger. Softwaren udfører en omfattende funktion-delmængde screening, og et passende valg af pCutoff vil gøre 3D-visualisering, mere intuitiv og eksplicitte. Standardværdien for pCutoff er 0,70.

6. Kør rørledningen og de interaktive VISUALISERET resultater

Klik på knappen Analyze at køre rørledningen og generere visualisering parceller, som vist i figur 2 (nederst).
Bemærk: Den venstre tabel giver alle funktion delmængder og deres pMeasurement beregnet af strategiens 10-fold cross validering af klassificeringen ELM, som tidligere beskrevet⁵. To 3D scatter plots og to-line parceller er genereret for funktion-delmængde screeningprocedure med de nuværende parameterindstillinger.
Vælg 0,70 som standardværdien for pMeasurement cutoff (parameter piCutoff, input boksen værdi), og 10 som standard antallet af bedste funktion delmængder (parameter piFSNum).
Bemærk: Rørledningen udføres ved hjælp af parametrene pTopX, pMeasurement, og pCutoff. Funktionen detekterede delmængder muligvis yderligere screenet ved hjælp af en cutoff piCutoff, men piCutoff kan ikke være mindre end pCutoff. Derfor, piCutoff er initialiseret som pCutoff og kun funktion delmængder med performance måling ≥ piCutoff vil være visualiseres. Standardværdien for piCutoff er pCutoff. Undertiden kSolutionVis registrerer mange løsninger, og kun den bedste piFSNum (standard: 10) funktion delmængder vil visualiseres. Hvis antallet af funktionen delmængder opdaget af softwaren er mindre end piFSNum, visualiseret alle funktion undersæt.
Indsamle og fortolke de funktioner, der er opdaget af softwaren, som vist i figur 3.
Bemærk: Tabellen i boksen til venstre viser de fundne funktion delmængder og deres performance målinger. Navnene på de tre første kolonner er "F1", "F2" og "F3". De tre funktioner i hver funktion delmængde er givet i deres prioriterede rækkefølge i en række (F1 < F2 < F3). Den sidste kolonne giver resultatmåling (Acc eller bAcc) for hver funktion undersæt, og kolonnenavn (Acc eller bAcc) er værdien af pMeasurement.

7. fortolke 3D Scatter parceller-visualisere og fortolke funktion delmængder med tilsvarende effektive binære klassificering forestillinger ved hjælp af 3D Scatter parceller

Klik på knappen analyser til at generere 3D scatter plot af top 10 funktion delmængder med de bedste klassificering forestillinger (Acc eller bAcc) opdaget af softwaren, som vist i figur 3 (midterste boks). Sortere de tre funktioner i en funktion delmængde i stigende rækkefølge efter deres rækker og bruge i rækken af de tre funktioner som F1/F2/F3 akser, dvs., F1 < F2 < F3.
Bemærk: Farven på en prik repræsenterer binære klassificering udførelsen af den tilsvarende funktion undersæt. Et datasæt kan have flere indslag delmængder med tilsvarende effektive performance målinger. En interaktiv og forenklet scatter plot er derfor nødvendig.
Ændre værdien til 0,70 i input-feltet pCutoff: og klik på knappen analyser til at generere 3D scatter plot af funktionen delmængder med performance måling ≥ piCutoff, som det ses i figur 3 (højre boks). Klik på knappen 3D tuning til at åbne et nyt vindue for at manuelt indstille betragtningsvinkler 3D scatter plot.
Bemærk: Hver funktion delmængde er repræsenteret af en prik på samme måde som ovenfor. 3D scatter plot blev genereret i standard vinkel. For at lette den 3D visualisering og tuning, et separat vindue åbnes ved at klikke på knappen 3D tuning.
Klik på knappen Formindsk at reducere redundans af de fundne funktion delmængder.
Bemærk: Hvis brugere ønsker at vælge funktion trillinger og minimere redundans af funktionen delmængder, softwaren også giver denne funktion ved hjælp af Christines funktion udvalg algoritme. Efter at klikke på knappen Formindsk kSolutionVis vil fjerne disse overflødige funktioner i funktionen trillinger og regenerere tabellen og de to scatter parceller nævnt ovenfor. De fjernede elementer i funktionen trillinger vil blive erstattet af nøgleordet i tabellen. Ingen værdier i F1/F2/F3 akse vil blive betegnet som værdien af piFSNum (rækken af den normale værdi for F1/F2/F3 er [1 top_x]). Derfor, de prikker, der omfatter en ingen værdi kan synes at være "outlier" prikker i 3D parceller. Manuelt afstemmelige 3D observationsområderne kan findes i "Manual tuning af 3D dot plots" i det supplerende materiale.

8. find gen anmærkninger og deres foreninger med sygdomme hos mennesker

Bemærk: Trin 8 til 10 vil illustrere hvordan anmærke et gen fra niveauet sekvens af DNA og protein. For det første gen symbol på hver biomarkør ID fra ovenstående trin kan hentes fra databasen DAVID³², og derefter to repræsentative webservere vil blive brugt til at analysere dette gen symbol fra niveauer af DNA og protein, henholdsvis. Server GeneCard giver en omfattende funktionelle anmærkning af et givent gen symbol og Online mendelske arven i mand database (OMIM) den mest omfattende datasikring af sygdomsgenet foreninger. Server UniProtKB er en af de mest omfattende protein database, og server gruppebaseret forudsigelse System (GPS) forudsiger den signaling fosforylerings for en meget lang liste af kinaser.

Kopiere og indsætte web-link database DAVID i en webbrowser og åbne websiden for denne database. Klik på linket Gen ID konvertering ses i figur 4A og input funktionen id'er 38319_at/38147_at/33238_at af den første biomarkør undersæt af datasæt ALL1 (figur 4B). Klik på linket Gen liste og klik på Send liste som vist i figur 4B. Hente anmærkninger af interesse og klikke på Vis gen liste (figur 4 c). Få listen over gen symboler (figur 4D).
Bemærk: Gen symboler hentes her vil blive brugt til yderligere funktionelle anmærkninger i de næste skridt.
Kopiere og indsætte web-link af databasen gen kort i en webbrowser og åbne websiden for denne database. Søg et gen navn CD3D i boksen database query input og finde anmærkninger af dette gen fra gen kort³³^,³⁴, som vist i tabel 1 og figur 5A.
Bemærk: Gen kort er en omfattende-gen knowledgebase, nomenklatur, genomforskning, proteomics, subcellulært lokalisering, og involverede veje og andre funktionelle moduler. Det giver også eksterne links til forskellige andre biomedicinsk databaser som FBF/PDB_REDO³⁵, Entrez genet³⁶, OMIM³⁷og UniProtKB³⁸. Hvis kendetegn navn ikke er en standard gen symbol, skal du bruge database ENSEMBL for at konvertere det³⁹. CD3D er navnet på gen T-celle receptoren T3 Delta kæde.
Kopiere og indsætte web-link database OMIM i en webbrowser og åbne websiden for denne database. Søg et gen navn CD3D og find annotationer af dette gen fra databasen OMIM³⁷, som vist i tabel 1 og figur 5B.
Bemærk: OMIM fungerer nu som en af de mest omfattende og autoritative kilder af menneskegener forbindelser med arvelige sygdomme. OMIM blev indledt af Dr. Victor A. McKusick at katalogisere sygdom-associerede genetiske mutationer⁴⁰. OMIM nu dækker over 15.000 menneskelige gener og over 8.500 fænotyper, i December 1^st 2017.

9. anmærke de kodede proteiner og de posttranslationelle modifikationer

Kopiere og indsætte web-link database UniProtKB i en webbrowser og åbne websiden for denne database. Søg et gen navn CD3D i boksen forespørgsel input i UniProtKB og finde anmærkninger af dette gen fra databasen³⁸, som vist i tabel 1 og figur 5 c.
Bemærk: UniProtKB indsamler en rig kilde til anmærkninger for proteiner, herunder både nomenklatur og funktionelle oplysninger. Denne database indeholder også eksterne links til andre udbredte databaser, herunder FBF/PDB_REDO³⁵, OMIM³⁷og Pfam⁴¹.
Kopiere og indsætte webhyperlinket webserver GPS i en web-browser og åbne web-siden af denne web-server. Hente protein sekvensen kodet af biomarkør genet CD3D fra UniProtKB database³⁸ og forudsige det protein posttranslationel modifikation (PTM) restkoncentrationer ved hjælp af værktøjet online GPS, som vist i tabel 1 og figur 5 d.
Bemærk: Et biologisk system er dynamisk og kompliceret, og de eksisterende databaser indsamler kun kendte oplysninger. Derfor, Biomedicinsk forudsigelse online værktøjer samt offline programmer kan give nyttig dokumentation for at supplere en hypotetisk mekanisme. GPS er blevet udviklet og forbedret for over 12 år⁷^,⁴² og kan bruges til at forudsige en protein PTM rester i en given peptid sekvens⁴³^,⁴⁴. Værktøjer er også tilgængelige for forskellige forskningsemner, herunder forudsigelse af en protein subcellulært placering⁴⁵ og transskription faktor bindende motiver ⁴⁶ blandt andre.

10. anmærke Protein-Protein interaktioner og deres beriget funktionelle moduler

Kopiere og indsætte webhyperlinket webserver strengen i en webbrowser og åbne web-siden af denne web-server. Søg på listen for gener CD3D og P53, og finde deres orkestreret egenskaber ved hjælp af databasen streng⁴⁷. Samme fremgangsmåde kan udføres ved hjælp af en anden webserver, DAVID³².
Bemærk: Udover de førnævnte anmærkninger for enkelte gener, der er mange store Informatik værktøjer til rådighed til at undersøge egenskaberne for en gruppe af gener. En nylig undersøgelse viste, at individuelt dårlig markørgener kan udgøre en langt bedre gen sæt⁵. Derfor er det værd den beregningsmæssige omkostninger til at screene for mere komplicerede biomarkører. Database streng kan visualisere de kendte eller forudsete interaktion forbindelser, og David serveren kan registrere de funktionelle moduler med betydelig fænotype-foreninger i kubestruktur gener⁴⁷,³². Der tilbydes også forskellige andre store Informatik analyseværktøjer.

11. eksport genereret biomarkør delmængder og visualisering parceller

Eksportere detekterede biomarkør delmængder som en .csv eller .tsv tekstfil til yderligere analyse. Klik på knappen Eksporter tabellen under tabellen over alle detekterede biomarkør delmængder og vælge hvilken tekstformat til at gemme som.
Eksportere visualisering plots som en billedfil. Klik på knappen Gem under hver plot og vælge hvilket billedformat til at gemme som.
Bemærk: Softwaren understøtter pixel format .png og vector format .svg. Pixel billeder er gode til at vise på skærmen, mens vektorbilleder kan konverteres til enhver opløsning kræves til journal publikation formål.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Målet med denne arbejdsproces (figur 6) er at opdage flere biomarkør delmængder med lignende effektivitetsgevinster for et datasæt, binære klassificering. Hele processen er illustreret af to eksempel datasæt ALL1 og ALL2 udvundet af en nyligt offentliggjorte biomarkør påvisning studere¹²^,⁴⁸. En bruger kan installere kSolutionVis ved at følge instruktionerne i de supplerende materialer.

DataSet ALL1 profileret 12 625 transkriptom funktioner af 95 B-celle og 33 T-celle alle patientens blodprøver. Mens datasæt ALL2 fundet udtryk niveauer af 12 625 transkriptom funktioner til 65 alle patienter, som recidiverende efter behandlingen og 35 alle patienter, der ikke gjorde. Til brugervenlighed leveres både transkriptom datasæt og deres klasse etiketter i version 1.4 af softwaren. Begge datasæt er i undermappen "data" af softwarens kilde kode bibliotek.

De to datasæt, ALL1 og ALL2, blev formateret som .csv-filer og indlæses i programmet ved hjælp af knapperne belastning data matrix og belastning klasse etiketter som vist i figur 7A-B. Figur 7A viser at alle 128 prøver med 12 625 funktioner blev indlæst, og alle 128 prøver også har klasse etiketter. Den endelige data matrix har 95 negative prøver (B-celle alle) og 33 positive prøver (T-celle alle). Derudover kan brugere også afgøre, hvilken klasse etiket er positive klasse etiketten (figur 7A, nederst). Hvis klassen label-fil definerer mere end to klasser, kan brugerne vil vælge hvilke to klasse etiketter til at undersøge. Lignende operationer blev også gennemført for det vanskelige datasæt ALL2, som vist i figur 7B.

Funktioner i matrixen data værdi-distributioner kan undersøges ved at klikke på knappen Summér mens du søger efter en bruger-specifikke søgeord i funktionsnavne, som vist i figur 8. Figur 8A viser histogrammet af funktion 1012_at i datasættet ALL1. Som det ses i fig. 8B, har den samme funktion 1012_at desuden en tilsvarende fordeling af udtryk i begge datasæt. Hvis ingen søgeord blev angivet af brugeren, vil nogle funktionsnavne blive opført for at hjælpe brugerne med at afgøre, hvilke funktioner til at summere.

Den lettere datasæt ALL1 screenet de top 10 rangeret funktioner (pTopX) for biomarkør delmængder med pMeasurement Acc ≥ 0.90 (pCutoff). Når du klikker på knappen Kør, algoritmen, der blev henrettet, og resultaterne, som det ses i figur 9A, blev illustreret i den nederste del af softwaren efter et par sekunder. Fra dette, var 120 kvalificerede biomarkør delmængder opdaget og opført i tabellen venstre figur9a. ALL1 var et let at diskriminere datasæt, idet den har 57 triplet biomarkør delmængder med 100% i Acc. Denne protokol understreger eksistensen af flere tilsvarende effektive løsninger for en binær klassificering problem. Derfor, den første 3D scatter plot kan illustrere mere end 10 (parameter piFSNum) biomarkør delmængder, hvis de har den klassificering ydeevne Acc (parameter pMeasurement) ≥, af top 10 rangeret (parameter piFSNum ) biomarkør undersæt. Brugeren kan også vælge at vise færre biomarkør subsets ved at ændre parameter piCutoff i boksen parameter over tabellen i figur 9A. Manuel indstilling af 3D observationsområderne kan findes i afsnittet, Manuel indstilling af 3D dot grunde , i det supplerende materiale.

Desuden, alle resultater kan eksporteres som eksterne filer til yderligere analyse ved at klikke på knappen Eksporter tabellen under tabel eller scatter parceller, som vist i figur 9.

Den første biomarkør delmængde (38319_at, 38147_at og 33238_at) til datasættet ALL1 blev valgt til funktionelle undersøgelser, som vist i figur 9A. Modulet Søg af ENSEMBL (http://useast.ensembl.org/Multi/Search/New?db=core) kommenteret disse tre funktioner som en gene klynge af differentiering 3 delta (CD3D, 38319_at), signalering lymfatisk aktivering molekyle-associerede gen (SH2D1A, 38147_at ) og lymfocytter celle-specifikke Protein-tyrosin Kinase (LCK, 33238_at). Desuden foreslået gen-disease association database OMIM³⁷^,⁴⁰ at genet CD3D koder delta underenhed af T-celle antigen receptor komplekset og er involveret i 11q23 omplantninger observeres ofte i akut leukæmi hos mennesker⁴⁹^,⁵⁰. OMIM foreslog også, at genomisk mutationer i genet SH2D1A i regionen kromosom af Xq25 kan være forbundet med B-celle leukæmi⁵¹^,⁵². Derudover fremhævet OMIM også en mulig T-celle alle tilknyttede fusion begivenhed af LCK og beta T-celle receptoren (TCRB)⁵³. Brugerne kan undersøge andre funktionelle aspekter af disse biomarkører med deres gen symboler, fxgen funktionen anmærkninger i Entrez genet³⁶, protein funktion anmærkninger i UniProtKB³⁸ eller Pfam⁴¹, 3D protein strukturer i FBF/PDB_REDO³⁵, og PTM restkoncentrationer i GPS⁷^,⁴²^,⁴³^,⁴⁴. Interagerende sub-netværk (database streng⁴⁷) og beriget funktionelle moduler (database David³²) kan også blive screenet for disse biomarkører som en helhed. Forskellige andre databaser eller webservere kan også lette anmærkninger og i siliciummangan forudsigelser ved hjælp af symboler eller primære gen/protein sekvenser af disse gener.

Som det ses i tabel 2, nødvendigheden af at afsløre mere end én løsning med identiske eller tilsvarende effektiv forestillinger er indlysende, med 57 grupper af funktioner med binære klassificering nøjagtigheder for 100% mellem B-celle og T-celle alle prøver. Disse særlige biomarkør delmængder blev kaldt de perfekte løsninger. En hel biomarkører optrådte i disse perfekte løsninger gentagne gange, hvilket tyder på, at de kan udgøre de væsentligste forskelle på det molekylære niveau, mellem B - og T-celle alle. Hvis biomarkør opdagelse algoritme stopper henne ved opdager den første perfekte løsning af tre gener CD3D/SH2D1A/LCK, vil en anden perfekte løsning CD74/HLA-DPB1/PRKCQ blive savnet. For eksempel, HLA-DPB1 er kendt for at være signifikant associeret med pediatric T-cellen alle, men ikke B-celle alle⁵⁴.

De tre elementer i den første biomarkør delmængde af ALL2 var kromatin forsamling faktor 1 subunit B (CHAF1B, 36912_at), exonuclease 1 (EXO1, 36041_at), og signal transducer og aktivator af transskription 6 (STAT6, 41222_at). CHAF1B blev observeret at være stærkt udtrykt i leukæmi cellelinjer og antistof mod CHAF1B kodet protein var betydeligt udviklet i akut myeloid leukæmi (AML) patienter⁵⁵. EXO1 gik tabt i nogle tilfælde af akut leukæmi⁵⁶, og upregulated i leukæmi cellelinie HL-60 [R]. Det er også blevet fundet negativt regulere den alternative forlængelse af telomerer (ALT) pathway, som lettet dannelsen af ALT-associerede PML (promyelocyt leukæmi) organer (APBs)⁵⁷. STAT6 var fosforyleret for at aktivere Pro overlevelse og proliferativ signalering pathway i tilfælde af recidiverende AML⁵⁸. Taget sammen, de tre gener var forbundet med udvikling og tilbagefald af leukæmi, men ingen eksplicit beviser blev offentliggjort på deres foreninger med alle tilbagefald. Dette kan udgøre en interessant emne til yderligere undersøgelse.

Den samme anmærkning procedure kan foretages på enhver biomarkør undersæt til ALL1 og ALL2. De tre biomarkører undersøgt i afsnittet ovenfor blev ikke identificeret som tilbagefald biomarkører i datasættet ALL2, som vist i figur 9B. Dette tyder på, at biomarkører er fænotype-specifik, hvilket er en anden stor udfordring for biomarkør påvisning, sammen med eksistensen af flere tilsvarende effektive løsninger.

Nogle tekniske moduler var gennemført og beskrevet her til interesserede brugere. Fejl håndtering modul giver informative beskeder til brugeren, når der opstår fejl under udførelsen af softwaren. De vigtigste fejlmeddelelser er anført og forklaret i "Fejlmeddelelser" i det supplerende materiale. En parallel beregning af biomarkører blev gennemført for computere med mere end en CPU kerne. De detaljerede forbedringer til den køretid kan findes i "Parallel køretid" i det supplerende materiale. Data tyder på, at brugen af flere CPU kerner ikke kan forbedre den køretid på grund af omkostningerne ved skift mellem forskellige CPU kerner.

Figur 1: eksempel datasættet udvundet fra transkriptom datasæt ALL1 har de første seks funktioner i de første ni prøver af ALL1. Matrixen data blev formateret i (a) formularen visualisering, (b) TAB-afgrænset tekst format fil og (c) komma-afgrænset tekst format fil. (d) klasse etiketdata blev formateret i formen visualisering. På grund af fanen karakter er usynlig, det er illustreret som [TAB] i (b). Kolonnen Platform giver microarray platform Affy i (b), og er ikke en nødvendig datakolonne. Venligst klik her for at se en større version af dette tal.

Figur 2: grafisk brugergrænseflade i softwaren. Baseline statistikker er sammenfattet i den øverste venstre boks. Brugere kan søge efter funktioner af interesse og undersøge værdien udlodninger i de to øverste højre bokse. Alle parametre for biomarkør detection procedure kan indstilles i den midterste vandrette linje. Alle biomarkør delmængder og deres tilsvarende visualiseret distributioner kan findes i den nederste del. Venligst klik her for at se en større version af dette tal.

Figur 3: biomarkør delmængder og deres visuelle effekter genereret. Brugere kan yderligere forfine tabellen og to 3D scatter parceller ved hjælp af parametrene piCutoff og piFSNum. Venligst klik her for at se en større version af dette tal.

Figur 4: gen anmærkninger af funktionen id'er fundet i denne undersøgelse. Tage de tre indslag-id'er 38319_at/38147_at/33238_at af den første biomarkør undersæt af datasæt ALL1. a få ID konvertering modul ved at klikke på linket Gen ID konvertering. (b) input funktionen id'er i den røde boks 1, Vælg den funktion i den røde boks 2 (standard "AFFYMETRIX_3PRIME_IVT_ID" er korrekt for denne undersøgelse), Vælg Gen liste i den røde boks 3, og klik på Indsend liste i den røde boks 4. c få alle de funktionelle anmærkninger i denne side og klikke på Vis gen liste for at få gen-symboler af disse kubestruktur funktioner. (d) få gen-symboler af de forespurgte funktion-id'er. Venligst klik her for at se en større version af dette tal.

Figur 5: anmærkninger og berigelse analyse af de fundne funktion delmængder. a gen anmærkninger fra genet Card. (B) OMIM beskriver sygdom sammenslutninger af hver funktion/gen. c anmærke det protein, kodet af genet af interesse i databasen UniProtKB. (d) forudsige tyrosin fosforylering rester i den givne protein ved hjælp af værktøjet online GPS. En rød boks blev tilføjet til at vise brugeren hvor skal klikke for at input forespørgselsdataene. Den primære sekvens af eksempel protein CD3D kan hentes som FASTA format fra den røde boks i (c) og input i forespørgselsvinduet ved klik på den røde boks i (d). Venligst klik her for at se en større version af dette tal.

Figur 6: arbejdsgang for kSolutionVis. Hvert modul af softwaren blev beskrevet i ovennævnte protokol. Venligst klik her for at se en større version af dette tal.

Figur 7: Baseline statistik af de to repræsentative datasæt. Antallet af prøver, funktioner og klasser i (a) ALL1 og (b) ALL2 beregnes. Filstørrelser matrix og klasse dataetiketter registreres også. Og en ny data matrix er udvundet af prøver med klasse etiketter. Venligst klik her for at se en større version af dette tal.

Figur 8: Histogram visualisering af funktion 1012_at i to datasæt. Både baseline statistikker og histogram blev genereret for (a) ALL1 og (b) ALL2. Venligst klik her for at se en større version af dette tal.

Figur 9: biomarkør delmængder og scatter parceller af de to datasæt. Brugere kan ændre parametrene i den anden række af parameter bokse til yderligere at forfine lister over biomarkør delmængder og 3D scatter grunde for datasæt (a) ALL1 og (b) ALL2. Venligst klik her for at se en større version af dette tal.

Web site	Link	Funktionalitet
GeneCards	http://www.genecards.org/cgi-bin/carddisp.pl?gene=CD3D	Gen anmærkning
OMIM	https://OMIM.org/Entry/186790?Search=CD3D&highlight=cd3d	Gen-disease association
UniProtKB	http://www.uniprot.org/uniprot/P04234	Protein anmærkning
GPS	http://GPS.biocuckoo.org/	Proteinets PTM forudsigelse
Streng	https://string-dB.org/	Protein-protein interaktion
David	https://David.ncifcrf.gov/	Gen sæt berigelse analyse

Tabel 1. Hjemmesider for udfyldelse og analysere de detekterede biomarkører. En liste over nyttige online værktøjer, der hjælper anmærke de detekterede biomarkører.

F1	F2	F3	Acc	Symbol1	Symbol2	Symbol3
38319_at	38147_at	33238_at	1,0000	CD3D	SH2D1A	LCK
33238_at	35016_at	37039_at	1,0000	LCK	CD74	HLA-DRA
38147_at	33238_at	35016_at	1,0000	SH2D1A	LCK	CD74
38147_at	33238_at	2059_s_at	1,0000	SH2D1A	LCK	LCK
38147_at	33238_at	37039_at	1,0000	SH2D1A	LCK	HLA-DRA
38147_at	33238_at	38095_i_at	1,0000	SH2D1A	LCK	HLA-DPB1
38147_at	33238_at	33039_at	1,0000	SH2D1A	LCK	TRAT1
38147_at	35016_at	2059_s_at	1,0000	SH2D1A	CD74	LCK
38147_at	35016_at	33039_at	1,0000	SH2D1A	CD74	TRAT1
38147_at	35016_at	38949_at	1,0000	SH2D1A	CD74	PRKCQ
38147_at	2059_s_at	37039_at	1,0000	SH2D1A	LCK	HLA-DRA
38147_at	2059_s_at	38095_i_at	1,0000	SH2D1A	LCK	HLA-DPB1
38147_at	37039_at	33039_at	1,0000	SH2D1A	HLA-DRA	TRAT1
38147_at	37039_at	38949_at	1,0000	SH2D1A	HLA-DRA	PRKCQ
38319_at	38147_at	35016_at	1,0000	CD3D	SH2D1A	CD74
38147_at	38833_at	38949_at	1,0000	SH2D1A	HLA-DPA1	PRKCQ
33238_at	35016_at	33039_at	1,0000	LCK	CD74	TRAT1
38319_at	38833_at	38949_at	1,0000	CD3D	HLA-DPA1	PRKCQ
33238_at	35016_at	38949_at	1,0000	LCK	CD74	PRKCQ
33238_at	2059_s_at	37039_at	1,0000	LCK	LCK	HLA-DRA
33238_at	37039_at	38095_i_at	1,0000	LCK	HLA-DRA	HLA-DPB1
33238_at	37039_at	33039_at	1,0000	LCK	HLA-DRA	TRAT1
33238_at	37039_at	38949_at	1,0000	LCK	HLA-DRA	PRKCQ
33238_at	38095_i_at	38949_at	1,0000	LCK	HLA-DPB1	PRKCQ
33238_at	38833_at	38949_at	1,0000	LCK	HLA-DPA1	PRKCQ
33238_at	33039_at	38949_at	1,0000	LCK	TRAT1	PRKCQ
35016_at	2059_s_at	33039_at	1,0000	CD74	LCK	TRAT1
35016_at	2059_s_at	38949_at	1,0000	CD74	LCK	PRKCQ
35016_at	38095_i_at	38949_at	1,0000	CD74	HLA-DPB1	PRKCQ
2059_s_at	37039_at	33039_at	1,0000	LCK	HLA-DRA	TRAT1
2059_s_at	38095_i_at	38949_at	1,0000	LCK	HLA-DPB1	PRKCQ
2059_s_at	38833_at	38949_at	1,0000	LCK	HLA-DPA1	PRKCQ
38319_at	33039_at	38949_at	1,0000	CD3D	TRAT1	PRKCQ
38147_at	38095_i_at	38949_at	1,0000	SH2D1A	HLA-DPB1	PRKCQ
38319_at	33238_at	38833_at	1,0000	CD3D	LCK	HLA-DPA1
38319_at	2059_s_at	38833_at	1,0000	CD3D	LCK	HLA-DPA1
38319_at	33238_at	33039_at	1,0000	CD3D	LCK	TRAT1
38319_at	33238_at	38095_i_at	1,0000	CD3D	LCK	HLA-DPB1
38319_at	33238_at	37039_at	1,0000	CD3D	LCK	HLA-DRA
38319_at	35016_at	38833_at	1,0000	CD3D	CD74	HLA-DPA1
38319_at	33238_at	2059_s_at	1,0000	CD3D	LCK	LCK
38319_at	35016_at	33039_at	1,0000	CD3D	CD74	TRAT1
38319_at	33238_at	35016_at	1,0000	CD3D	LCK	CD74
38319_at	35016_at	38949_at	1,0000	CD3D	CD74	PRKCQ
38319_at	2059_s_at	37039_at	1,0000	CD3D	LCK	HLA-DRA
38319_at	38147_at	38949_at	1,0000	CD3D	SH2D1A	PRKCQ
38319_at	38147_at	33039_at	1,0000	CD3D	SH2D1A	TRAT1
38319_at	33238_at	38949_at	1,0000	CD3D	LCK	PRKCQ
38319_at	2059_s_at	38095_i_at	1,0000	CD3D	LCK	HLA-DPB1
38319_at	38147_at	38833_at	1,0000	CD3D	SH2D1A	HLA-DPA1
38319_at	2059_s_at	33039_at	1,0000	CD3D	LCK	TRAT1
38319_at	38147_at	38095_i_at	1,0000	CD3D	SH2D1A	HLA-DPB1
38319_at	37039_at	33039_at	1,0000	CD3D	HLA-DRA	TRAT1
38319_at	38147_at	37039_at	1,0000	CD3D	SH2D1A	HLA-DRA
38319_at	38147_at	2059_s_at	1,0000	CD3D	SH2D1A	LCK
38319_at	2059_s_at	38949_at	1,0000	CD3D	LCK	PRKCQ
38319_at	35016_at	2059_s_at	1,0000	CD3D	CD74	LCK
2059_s_at	37039_at	38095_i_at	0.9922	LCK	HLA-DRA	HLA-DPB1
35016_at	33039_at	38949_at	0.9922	CD74	TRAT1	PRKCQ
2059_s_at	37039_at	38949_at	0.9922	LCK	HLA-DRA	PRKCQ
35016_at	2059_s_at	37039_at	0.9922	CD74	LCK	HLA-DRA
35016_at	37039_at	38949_at	0.9922	CD74	HLA-DRA	PRKCQ
35016_at	38833_at	38949_at	0.9922	CD74	HLA-DPA1	PRKCQ
2059_s_at	33039_at	38949_at	0.9922	LCK	TRAT1	PRKCQ
37039_at	38833_at	38949_at	0.9922	HLA-DRA	HLA-DPA1	PRKCQ
37039_at	33039_at	38949_at	0.9922	HLA-DRA	TRAT1	PRKCQ
38319_at	38095_i_at	38949_at	0.9922	CD3D	HLA-DPB1	PRKCQ
33238_at	37039_at	38833_at	0.9922	LCK	HLA-DRA	HLA-DPA1
38095_i_at	33039_at	38949_at	0.9922	HLA-DPB1	TRAT1	PRKCQ
33238_at	2059_s_at	38949_at	0.9922	LCK	LCK	PRKCQ
38319_at	38833_at	33039_at	0.9922	CD3D	HLA-DPA1	TRAT1
38833_at	33039_at	38949_at	0.9922	HLA-DPA1	TRAT1	PRKCQ
38147_at	33039_at	38949_at	0.9922	SH2D1A	TRAT1	PRKCQ
38319_at	37039_at	38833_at	0.9922	CD3D	HLA-DRA	HLA-DPA1
38147_at	2059_s_at	38949_at	0.9922	SH2D1A	LCK	PRKCQ
38147_at	38095_i_at	38833_at	0.9922	SH2D1A	HLA-DPB1	HLA-DPA1
38147_at	33238_at	38949_at	0.9922	SH2D1A	LCK	PRKCQ
38147_at	2059_s_at	33039_at	0.9922	SH2D1A	LCK	TRAT1
38319_at	37039_at	38949_at	0.9922	CD3D	HLA-DRA	PRKCQ
38319_at	38095_i_at	38833_at	0.9922	CD3D	HLA-DPB1	HLA-DPA1
38147_at	2059_s_at	38833_at	0.9922	SH2D1A	LCK	HLA-DPA1
33238_at	35016_at	2059_s_at	0.9922	LCK	CD74	LCK
38319_at	35016_at	38095_i_at	0.9922	CD3D	CD74	HLA-DPB1
33238_at	35016_at	38095_i_at	0.9922	LCK	CD74	HLA-DPB1
38319_at	35016_at	37039_at	0.9922	CD3D	CD74	HLA-DRA
38147_at	33238_at	38833_at	0.9922	SH2D1A	LCK	HLA-DPA1
38147_at	37039_at	38095_i_at	0.9844	SH2D1A	HLA-DRA	HLA-DPB1
38147_at	35016_at	38833_at	0.9844	SH2D1A	CD74	HLA-DPA1
38147_at	35016_at	38095_i_at	0.9844	SH2D1A	CD74	HLA-DPB1
35016_at	2059_s_at	38095_i_at	0.9844	CD74	LCK	HLA-DPB1
38147_at	37039_at	38833_at	0.9844	SH2D1A	HLA-DRA	HLA-DPA1
35016_at	2059_s_at	38833_at	0.9844	CD74	LCK	HLA-DPA1
38319_at	37039_at	38095_i_at	0.9844	CD3D	HLA-DRA	HLA-DPB1
37039_at	38095_i_at	38949_at	0.9844	HLA-DRA	HLA-DPB1	PRKCQ
38147_at	38833_at	33039_at	0.9844	SH2D1A	HLA-DPA1	TRAT1
38095_i_at	38833_at	38949_at	0.9844	HLA-DPB1	HLA-DPA1	PRKCQ
33238_at	35016_at	38833_at	0.9844	LCK	CD74	HLA-DPA1
38319_at	38095_i_at	33039_at	0.9844	CD3D	HLA-DPB1	TRAT1
2059_s_at	37039_at	38833_at	0.9844	LCK	HLA-DRA	HLA-DPA1
2059_s_at	38833_at	33039_at	0.9766	LCK	HLA-DPA1	TRAT1
2059_s_at	38095_i_at	33039_at	0.9766	LCK	HLA-DPB1	TRAT1
2059_s_at	38095_i_at	38833_at	0.9766	LCK	HLA-DPB1	HLA-DPA1
33238_at	2059_s_at	38095_i_at	0.9766	LCK	LCK	HLA-DPB1
35016_at	38095_i_at	33039_at	0.9766	CD74	HLA-DPB1	TRAT1
38147_at	38095_i_at	33039_at	0.9766	SH2D1A	HLA-DPB1	TRAT1
33238_at	2059_s_at	33039_at	0.9766	LCK	LCK	TRAT1
35016_at	37039_at	33039_at	0.9766	CD74	HLA-DRA	TRAT1
33238_at	38095_i_at	33039_at	0.9766	LCK	HLA-DPB1	TRAT1
33238_at	38833_at	33039_at	0.9766	LCK	HLA-DPA1	TRAT1
35016_at	38833_at	33039_at	0.9766	CD74	HLA-DPA1	TRAT1
33238_at	38095_i_at	38833_at	0.9688	LCK	HLA-DPB1	HLA-DPA1
37039_at	38833_at	33039_at	0.9688	HLA-DRA	HLA-DPA1	TRAT1
38147_at	35016_at	37039_at	0.9688	SH2D1A	CD74	HLA-DRA
33238_at	2059_s_at	38833_at	0.9688	LCK	LCK	HLA-DPA1
37039_at	38095_i_at	33039_at	0.9688	HLA-DRA	HLA-DPB1	TRAT1
38095_i_at	38833_at	33039_at	0.9609	HLA-DPB1	HLA-DPA1	TRAT1
35016_at	38095_i_at	38833_at	0.9609	CD74	HLA-DPB1	HLA-DPA1
37039_at	38095_i_at	38833_at	0.9531	HLA-DRA	HLA-DPB1	HLA-DPA1
35016_at	37039_at	38095_i_at	0.9531	CD74	HLA-DRA	HLA-DPB1
35016_at	37039_at	38833_at	0.9531	CD74	HLA-DRA	HLA-DPA1

Tabel 2. Anmærkninger af alle funktioner fra datasættet ALL1. Dette er et binært klassificering datasæt mellem B-celle og T-celle alle prøver. Gen symboler blev indsamlet til alle microarray funktioner i de sidste tre kolonner.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Denne undersøgelse præsenterer en nem at følge multi løsning biomarkør detektion og karakterisering protokol for et datasæt, bruger-specificeret binære klassificering. Softwaren sætter fokus på brugervenlighed og fleksible import/eksport grænseflader til forskellige filformater, tillader en biomedicinsk forsker at undersøge deres datasæt nemt ved hjælp af GUI af softwaren. Denne undersøgelse fremhæver også nødvendigheden af at generere mere end én løsning med tilsvarende effektive modellering forestillinger, tidligere ignoreret af mange eksisterende biomarkør påvisning algoritmer. I fremtiden, kan nyudviklede biomarkør påvisning algoritmer omfatte denne indstilling ved at optage alle de mellemliggende biomarkør delmængder med tilstrækkelig modellering forestillinger.

I denne protokol er trin 1 og 5 mest betydning, som softwaren er et fuldautomatisk system, der bygger på korrekt formateret input filer. Det blev konstateret, at under vores test skridt, mis-match af prøven navne fra data matrix og klasse etiketter filer kan forårsage fejl i softwaren, hvor softwaren vil affyre ud en advarselsdialogboks om denne fejl. Derfor, hvis brugeren finder ingen prøver blev indlæst fra data matrix eller klasse labelfiler, fejlfinding Tricket er at dobbelt-tjekke hvorvidt prøven navne i de to input filer er inkonsekvent. Hvis ingen prikker blev visualiseret i 3D scatter parceller, kan dette skyldes parameter pCutoff er højere end den bedste løsning. I dette tilfælde fejlfinding Tricket er at sænke cutoff af klassificering resultatmåling (parameter pCutoff). Dog kan maksimal ydeevne måling opnåede af biomarkør delmængder stadig blokeret af cutoff til et vanskeligt datasæt. En advarselsdialogboks vil give denne bedste resultatmåling, og brugeren kan vælge en mindre cutoff fortsat yderligere analyse.

De vigtigste begrænsninger af softwaren er dens langsomme beregning hastighed og dens evne til at kun fokusere på højst tre funktioner. Funktion udvælgelse er et NP-hårde problemer, defineret som en datamatisk problem hvis globalt optimal løsning ikke kan løses inden for polynomiel tid⁵⁹. Den omfattende biomarkør delmængde screening skridt bruger en stor mængde datakraft. Kørselstiden kompleksiteten af kSolutionVis er O (n³), hvor n er parameter pTopX. Derudover fokuserer denne multiple-biomarkør opdagelse algoritme på visualisere skærmbilledet funktioner, derfor begrænser antallet af funktioner til tre eller færre. Denne begrænsning kan hindre nogle brugere, der kan arbejde på vanskelige problemer og ønsker at finde funktionen delmængder bestående af mere end tre funktioner. Men softwaren visualiserer funktion delmængder i 3D-rum og det er svært at direkte visualisere funktion delmængder i mere end tre dimensioner. Derudover baseret på repræsentative resultater præsenteret ovenfor, de flere indslag trillinger udvalgt af kSolutionVis er en meget effektiv metode i klassificering og viser betydelige resultater med vigtige biomedicinske betydning.

Softwaren repræsenterer nyttig supplerende software til de eksisterende funktion udvalg algoritmer. Inden for biomedicin kaldes funktionen markering biomarkør, med det mål at finde et undersæt af funktioner at opnå forbedret modellering ydeevne⁶⁰^,⁶¹^,⁶². Softwaren er en omfattende screeningsværktøj af alle triplet biomarkør delmængder baseret på den strategi, der foreslås i en nylig undersøgelse⁵. De to repræsentative datasæt screenet af software's protokol, og deres resultater viser eksistenser af en hel løsninger med tilsvarende effektive eller endda identiske modellering forestillinger. Men heuristiske regler⁶³^,⁶⁴^,⁶⁵^,⁶⁶ kan anvendes til at finde optimale løsninger, men sådanne algoritmer har en stærk tendens til at fremstille kun én løsning, at ignorere mange andre løsninger med tilsvarende effektive eller endda identiske modellering forestillinger. Derfor, computerkraft og den langvarige køretid af softwaren er umagen værd at sikre en mere omfattende registrering af potentielle biomarkører i fremtiden.

De repræsentative resultater var beregnet på to transkriptom datasæt, men software håndterer input data i forskellige standard-filformater og kan også bruges til at analysere andre 'omic' datasæt, herunder proteomforskning og metabolomics. Derudover kan parallelization øge beregningshastigheden i modulet biomarkør påvisning i softwaren. Der er nogle multi-core hardware herunder GPGPU (General-Purpose grafisk behandling forene) og Intel Xeon Phi processorer tilgængelige til dette formål. Men disse teknologier kræver forskellige kodning strategier og vil blive behandlet i den næste version af softwaren.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Vi har ingen interessekonflikter, der er relateret til denne betænkning.

Acknowledgments

Dette arbejde blev støttet af det strategiske prioritet Research Program af kinesiske Academy of Sciences (XDB13040400) og start tilskud fra Jilin Universitet. Anonym korrekturlæsere og biomedicinsk test brugere blev værdsat for deres konstruktive kommentarer om forbedring af brugervenligheden og funktionaliteten af kSolutionVis.

Materials

Name	Company	Catalog Number	Comments
Hardware
laptop	Lenovo	X1 carbon	Any computer works. Recommended minimum configuration: 1GB extra hard disk space, 1 GB memory, 2.0MHz CPU
Name	Company	Catalog Number	Comments
Software
Python 3.0	WingWare	Wing Personal	Any python programming and running environments support Python version 3.0 or above