Cancer Research

Att välja flera biomarkör grupper med liknande effektiva binär klassificering föreställningar

Published: October 11, 2018 doi: 10.3791/57738

Xin Feng¹, Shaofei Wang¹, Quewang Liu¹, Han Li², Jiamei Liu², Cheng Xu², Weifeng Yang², Yayun Shu², Weiwei Zheng¹, Bingxin Yu³, Mingran Qi⁴, Wenyang Zhou¹, Fengfeng Zhou¹

¹College of Computer Science and Technology, and Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education, Jilin University, ²College of Software, Jilin University, ³Ultrasonography Department, China-Japan Union Hospital of Jilin University, ⁴Department of Pathogenobiology, College of Basic Medical Science, Jilin University

Summary

Befintliga algoritmer generera en lösning för en biomarkör identifiering datamängd. Detta protokoll visar förekomsten av flera liknande effektiva lösningar och presenterar ett användarvänligt program för att hjälpa biomedicinsk forskare undersöka deras datamängder för de föreslagna utmaningen. Datavetare kan också tillhandahålla den här funktionen i deras biomarkör detekteringsalgoritmer.

Abstract

Biomarkör identifiering är en av de mer viktiga biomedicinska frågorna för high-throughput ”omics' forskare, och nästan alla befintliga biomarkör detekteringsalgoritmer generera en biomarkör delmängd med optimerad prestanda mätningen för en given datamängd . En nyligen genomförd studie visade dock förekomsten av flera biomarkör grupper med lika effektiva eller till och med identiska klassificering föreställningar. Detta protokoll presenterar en enkel och okomplicerad metod för att upptäcka biomarkörer undergrupper med binär klassificering föreställningar, bättre än en användardefinierad cutoff. Protokollet består av dataförberedelse och lastning, baseline information sammanfattning, parametern tuning, biomarkör screening, resultatet visualisering och tolkning, biomarkör gen anteckningar och resultatet och visualisering export på publikationen kvalitet. Den föreslagna biomarkör screening strategi är intuitivt och visar en allmän regel för att utveckla detekteringsalgoritmer biomarkör. Ett användarvänligt grafiskt användargränssnitt (GUI) utvecklades med programmeringsspråket Python, så att biomedicinska forskare ha direkt tillgång till deras resultat. Källa koden och handbok av kSolutionVis kan laddas ner från http://www.healthinformaticslab.org/supp/resources.php.

Introduction

Binär klassificering, en av de vanligaste utreds och utmanande datautvinning problem i det biomedicinska området, används för att bygga en klassificering modell utbildade på två grupper av prover med den mest exakta diskriminering power¹^, ² ^, ³ ^, ⁴ ^, ⁵ ^, ⁶ ^, ⁷. men de stora data som genereras i det biomedicinska området har inneboende ”stora p liten n” paradigm, med många funktioner som är oftast mycket större än antalet prover⁶^,⁸^,⁹. Därför har biomedicinska forskare att minska dimensionen funktion före utnyttja klassificering algoritmer för att undvika de overfitting problem⁸^,⁹. Diagnos biomarkörer definieras som en delmängd av upptäckta funktioner skiljer patienter av en viss sjukdom från friska kontroll prover¹⁰^,¹¹. Patienter definieras ofta som de positiva proverna och de friska kontrollerna definieras som den negativa prover¹².

Nyligen genomförda studier har föreslagit att det finns mer än en lösning med identisk eller lika effektiv klassificering föreställningar för en biomedicinsk datamängden⁵. Nästan alla funktionen urval algoritmer är deterministiska algoritmer, producerar bara en lösning för samma datamängd. Genetiska algoritmer kan samtidigt generera flera lösningar med liknande föreställningar, men de försöker fortfarande att välja en lösning med bästa fitness-funktionen som utdata för en given datamängd¹³^,¹⁴.

Funktionen urval algoritmer kan grovt grupperas som antingen filter eller wrappers¹². Ett filter algoritmen väljer top -k funktioner rankas av deras betydande enskilda association med binära klass etiketter baserat på antagandet att har är oberoende av varandra¹⁵^,¹⁶^,¹⁷. Även om detta antagande inte håller sant för nästan alla verkliga datamängder, presterar den heuristiska filterregeln bra i många fall, exempelvis mRMR (Minimum redundans och maximal relevans) algoritm, Wilcoxon test baserat funktionen filtrering (WRank) algoritmen och ROC (mottagare operativa kännetecken) tomten baserat filtrering (ROCRank) algoritm. mRMR, är en effektiv filter algoritm eftersom det efterliknar kombinatoriska uppskattning problemet med en rad mycket mindre problem, jämfört med max-beroende funktionen urval algoritm, som alla innebär endast två variabler, och Därför använder parvisa joint sannolikheter som är mer robust¹⁸^,¹⁹. MRMR kan emellertid underskatta nyttan av vissa funktioner som den inte mäter samspelet mellan funktioner som kan öka relevans, och därmed missar några funktion kombinationer som är individuellt värdelös men är användbara endast när de sammanställts. WRank algoritmen beräknar en icke-parametrisk poäng av hur diskriminerande en funktion är mellan två klasser av prover, och är känd för sin robusthet för extremvärden²⁰^,²¹. Dessutom utvärderar ROCRank algoritmen hur betydelsefullt område Under the ROC kurva (AUC) för en viss funktion är för den undersökta binära klassificering prestanda²²^,²³.

Däremot, en wrapper utvärderar fördefinierade klassificerarens prestanda för en viss funktion delmängd, iterativt genereras av heuristisk regel och skapar delmängden funktion på bästa prestanda mätning²⁴. En wrapper i allmänhet överträffar ett filter i klassificering prestanda men körs långsammare²⁵. Reglerats Random Forest (RRF)²⁶^,²⁷ algoritmen använder till exempel en girig regel, genom att utvärdera funktionerna på en delmängd av utbildning data på varje random forest nod, vars funktion betydelse noter utvärderas av Gini-indexet . Valet av en ny funktion kommer att straffas om sin information vinst inte förbättras av valda funktioner. Dessutom förutsägelse analysen för Microarrays (PAM)²⁸^,²⁹ algoritm, också en wrapper algoritm, beräknar en centroiden för varje klass etiketterna och väljer sedan funktioner krympa de genen centroids mot totalt klass centroiden. PAM är robusta för perifera funktioner.

Flera lösningar med högsta klassificering prestanda kan vara nödvändigt för någon given datamängd. För det första definieras optimering målet av en deterministisk algoritm av en matematisk formel, t.ex., minsta fel hastighet³⁰, som inte är nödvändigtvis idealiska för biologiska prover. För det andra kan en datamängd ha flera, betydligt olika, lösningar med liknande effektiva eller till och med identiska föreställningar. Nästan alla befintliga funktionen urval algoritmer väljer slumpmässigt en av dessa lösningar som utgång³¹.

Denna studie kommer att införa ett informatik analytiska protokoll för att generera flera funktionen urval lösningar med liknande föreställningar för någon viss binär klassificering datamängd. Med tanke på att de flesta biomedicinska forskare inte är bekant med datoriserad teknik eller datorn kodning, utvecklades ett användarvänligt grafiskt användargränssnitt (GUI) för att underlätta snabba analysen av biomedicinska binär klassificering datamängder. Analytic protokollet består av data lastning och sammanfatta, parametern tuning, pipeline utförande och resultat tolkningar. Med ett enkelt klick är forskaren kunna generera biomarkör delmängder och publikation-kvalitet visualisering tomter. Protokollet har testats med hjälp av transcriptomes av två binär klassificering datamängder av akut lymfoblastisk leukemi (ALL), dvs, hela1 och alla2¹². Datamängderna hela1 och alla2 hämtades från Broad Institute genomet Data analys Center, finns på http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi. Hela1 innehåller 128 prover med 12,625 funktioner. Av dessa prover, 95 är B-cell är alla och 33 T-cell alla. Alla2 innehåller 100 prover med 12,625 funktioner samt. Av dessa prover finns det 65 patienter som drabbades av återfall och 35 patienter som inte gjorde. Hela1 var en lätt binär klassificering datamängd, med en minsta noggrannhet av fyra filter och fyra wrappers 96,7%, och 6 av de 8 funktion urval algoritmer att uppnå 100%¹². Medan alla2 var en svårare datamängd, med ovanstående 8 funktionen urval algoritmer att uppnå bättre än 83,7% noggrannhet¹². Denna bästa noggrannhet uppnåddes med 56 funktioner identifieras av wrapper algoritm, korrelation-baserade funktionen urval (CFS).

Subscription Required. Please recommend JoVE to your librarian.

Protocol

Obs: Följande protokoll beskriver detaljerna i förfarandet för informatik-analytic och pseudo koder av de stora modulerna. Automatisk analys systemet utvecklades med Python version 3.6.0 och Python moduler pandor, abc, numpy, scipy, sklearn, sys, PyQt5, sys, mRMR, matematik och matplotlib. Material som används i denna studie visas i Tabell för material.

1. förbereda DataMatrix och klass etiketter

Förbereda data matrix filen som en tabb - eller semikolonavgränsad matrix-filen, som illustreras i figur 1A.
Obs: Varje rad har alla värden för en funktion, och det första objektet är funktionsnamnet. En funktion är ett probeset-ID för microarray-baserade transkriptom datamängden eller kan vara en annan värde ID vilja en cysteinrest med dess metylering värde i en datamängd i methylomic. Varje kolumn ger funktionen värdena för ett givet prov, med det första objektet är namnet på provet. En rad avgränsas i kolumner med en flik (figur 1B) eller kommatecken (figur 1 c). En tabbavgränsad matrix fil känns igen av den fil filändelsen .tsv, och en kommaavgränsad matrix-filen har den filändelsen .csv. Denna fil kan skapas genom att spara en matris som antingen i TSV eller CSV-format från programvara som Microsoft Excel. DataMatrix kan också genereras av dator kodning.
Förbered klassen etikettfilen som en tabb - eller semikolonavgränsad matrix fil (figur 1 d), liknar filen data matrix.
Anmärkning: Den första kolumnen ger prov namnen och klass etiketten för varje prov ges i kolumnen med titeln klass. Maximal kompatibilitet anses i kodning processen, så att ytterligare kolumner kan läggas. Klass etikettfilen kan formateras som en TSV eller CSV-fil. Namnen i kolumnen klass kan vara eventuella villkor, och det kan finnas mer än två klasser av prover. Användaren kan välja två av klasserna för följande analys.

2. Ladda DataMatrix och klass etiketter

Läsa in data matrix och klass etiketterna i programvaran. Klicka på knappen Ladda DataMatrix att välja filen användardefinierade data matrix. Klicka på knappen Load klass etiketter att välja motsvarande klassfil etikett.
Obs: Efter båda filerna är lastade, kSolutionVis kommer att genomföra en rutinmässig skärm av förenlighet mellan de två filerna.
Sammanfatta funktioner och prover från filen data matrix. Uppskatta storleken på filen data matrix.
Sammanfatta prover och klasser från klass etikettfilen. Uppskatta storleken på klassen etikettfilen.
Testa om varje prov från DataMatrix har en klass-etikett. Summera siffrorna av proverna med klass etiketter.

3. sammanfatta och Visa baslinjen statistik på datamängden

Klicka på knappen sammanfatta, utan några angivna sökord ingång, och programvaran kommer att visa 20 indexerade funktioner och motsvarande funktioner namnen.
Obs: Användare måste ange funktionsnamnet på som de vill hitta för att se dess baslinjen statistik och motsvarande värde fördelning mellan alla ingående prover.
Ge en sökord, exempelvis ”1000_at”, i textrutan funktionen hitta en specifik funktion som ska summeras. Klicka på knappen sammanfatta att få baslinjen statistiken för detta viss funktion.
Obs: Sökordet kan visas var som helst i målet funktionsnamn, underlätta sökprocessen för användare.
Klicka på knappen sammanfatta hitta mer än en funktion med visst nyckelordet, och sedan ange unika funktions-ID för att fortsätta med ovanstående steg med att sammanfatta en viss funktion.

4. Bestäm klass etiketterna och antalet topprankade funktioner

Välja namn på positiv (”P (33)”) och negativa (N (95) ”) klasser i rutorna dropdown Klass positiva och Negativa klass, som visas i figur 2 (mitten).
Obs: Det föreslås för att välja en balanserad binär klassificering datamängd, dvsskillnaden mellan antalet positiva och negativa prover är minimal. Antalet prov ges även inom parentes efter namnet på varje klass etikett i de två listrutor.
Välj 10 som många topp-rankade funktioner (parametern pTopX) i den nedrullningsbara rutan Top_X (?) för en heltäckande skärm av funktionen-delmängden.
Obs: Programvaran automatiskt rangordnar alla funktioner av P-värde beräknas genom ett t-test för varje funktion som jämföra klasserna positiva och negativa. En funktion med en mindre P-värde har en bättre diskriminerande effekt mellan de två klasserna av prover. Modulen omfattande screening är processorkrävande. Parametern pTopX är 10 som standard. Användare kan ändra denna parameter i intervallet 10 till 50, tills de hittar tillfredsställande har undergrupper med bra klassificering föreställningar.

5. Ställ in systemparametrar för olika föreställningar

Välj prestandamätningen (pMeasurement), noggrannhet (Acc) i den nedrullningsbara rutan Acc/bAcc (?) för valda klassificeraren extrema lärande maskin (ELM). Ett annat alternativ för den här parametern är mätningen balanserad noggrannhet (bAcc).
Obs: Låt TP, FN, TN, och FP vara antalet sant positiva, falska negativa, sant negativa och falskt positiva, respektive. Mätning Acc definieras som (TP+TN)/(TP+FN+TN+FP), vilket fungerar bäst på en balanserad datamängd⁶. Men en klassificerare optimerad för Acc tenderar att tilldela alla prover till klassen negativt om antalet negativa prover är mycket större än för de positiva. Den bAcc definieras som (Sn + Sp) / 2, där Sn = TP/(TP+FN) och Sp = TN/(TN+FP) de korrekt förutspådda priserna för positiva och negativa prover, respektive. Därför bAcc normaliserar förutsägelse föreställningarna över två klasser, och kan leda till en balanserad prognos prestanda över två obalanserade klasser. ACC är standardvalet av pMeasurement. Programvaran använder klassificeraren ELM som standard för att beräkna klassificering föreställningarna. Användaren kan också välja en klassificerare från SVM (stöd vektor maskin), KNN (k närmsta granne), beslutsträd eller Naïve Bayes.
Välj värdet cutoff 0,70 (parametern pCutoff) för den angivna resultatmätning i inmatningsrutan pCutoff:.
Obs: Både Acc och bAcc variera mellan 0 och 1, och användaren kan ange ett värde pCutoff[0, 1] som cutoff att visa de matchade lösningarna. Programvaran utför en omfattande funktionen-delmängd screening, och ett lämpligt val av pCutoff kommer att göra 3D-visualisering mer intuitiv och explicita. Standardvärdet för pCutoff är 0,70.

6. kör rörledningen och producera interaktiva VISUALISERADE resultatet

Klicka på knappen analysera att köra rörledningen och generera visualisering tomterna, som visas i figur 2 (nederst).
Obs: Den vänstra tabellen ger alla funktionen delmängder och deras pMeasurement beräknas genom strategin 10-faldig cross validering av klassificeraren ELM, som tidigare beskrivits⁵. Två 3D spridningsdiagram och två-line tomter skapas för funktionen-delmängd screeningen med nuvarande parameterinställningarna.
Välj 0,70 som standardvärdet av den pMeasurement cutoff (parameter piCutoff, inmatningsrutan värde) och 10 som standard av antalet bästa funktionen grupper (parametern piFSNum).
Obs: Rörledningen utförs med hjälp av parametrarna pTopX, pMeasurement, och pCutoff. Funktionen identifierade undergrupper kan vara ytterligare screening använder den cutoff piCutoff, men piCutoff inte vara mindre än pCutoff. Därför piCutoff initieras som pCutoff och endast funktionen delmängder med den prestanda mätning ≥ piCutoff kommer att visualiseras. Standardvärdet för piCutoff är pCutoff. Ibland kSolutionVis upptäcker många lösningar, och endast de bästa piFSNum (standard: 10) funktionen grupper kommer att visualiseras. Om antalet funktionen delmängder upptäcks av programvaran är mindre än piFSNum, kommer alla funktionen delmängder visualiseras.
Samla in och tolka de funktioner som upptäcks av programvaran, som visas i figur 3.
Anmärkning: Tabellen i den vänstra rutan visar identifierade funktionen delmängder och deras prestandamätningar. Namnen på de tre första kolumnerna är ”F1”, ”F2” och ”F3”. De tre funktionerna i varje funktion delmängd ges i deras rankningsordning i en rad (F1 < F2 < F3). Den sista kolumnen ger prestandamätningen (Acc eller bAcc) av varje funktion-delmängd, och dess kolumnnamn (Acc eller bAcc) är värdet av pMeasurement.

7. tolka de 3D Scatter tomter-visualisera och tolka funktionen delmängder med likaså effektiv binär klassificering föreställningar använder 3D spridningsdiagram

Klicka på knappen analysera att generera 3D spridningsdiagrammet för top 10 funktionen delmängder med de bästa klassificering föreställningarna (Acc eller bAcc) upptäcks av programvaran, som visas i figur 3 (mellersta rutan). Sortera de tre funktionerna i en funktion delmängd i stigande ordning efter deras led och använda leden av de tre funktionerna som F1/F2/F3 axlarna, dvsF1 < F2 < F3.
Notera: Färgen på en punkt representerar binär klassificering prestanda för den motsvarande funktion delmängden. En datamängd kan ha flera funktionen grupper med liknande effektiva prestandamätningar. En interaktiv och förenklade spridningsdiagram är därför nödvändigt.
Ändra värdet till 0,70 i inmatningsrutan pCutoff: och klicka på knappen analysera att generera 3D spridningsdiagrammet av funktionen delmängder med den prestanda mätning ≥ piCutoff, som kan ses i figur 3 (höger ruta). Klicka på knappen 3D tuning att öppna ett nytt fönster för att manuellt ställa in visning metar av 3D spridningsdiagrammet.
Obs: Varje funktion delmängd representeras av en prick på samma sätt som ovan. 3D spridningsdiagrammet genererades i standard vinkel. För att underlätta 3D-visualisering och tuning, ett separat fönster öppnas genom att klicka på knappen 3D tuning.
Klicka på knappen minska att minska redundans av upptäckta funktionen delmängder.
Obs: Om användare önskar att ytterligare Markera funktionen trillingarna och minimera redundans av funktionen delmängder, programvaran också ger denna funktion med mRMR funktionen urval algoritm. Klicka på knappen minska och kSolutionVis kommer att ta bort de överflödiga funktionerna i funktionen trillingarna och regenerera tabellen och de två scatter tomter som nämns ovan. Borttagna funktioner i funktionen trillingarna kommer att ersättas av det nyckel-uttrycker i tabellen. Värdena för ingen i F1/F2/F3-axeln kommer att betecknas som värde för piFSNum (spänna av normalvärdet för F1/F2/F3 är [1, top_x]). Prickar som inkluderar ett inget värde kan därför tyckas vara ”avvikare” prickar i 3D tomter. Manuellt avstämbara 3D tomterna kan hittas i ”manuell inställning av 3D dot tomterna” i det kompletterande materialet.

8. hitta genen anteckningar och deras sammanslutningar med mänskliga sjukdomar

Obs: Steg 8 till 10 illustrerar hur man kommentera en gen från sekvens nivå av både DNA och protein. För det första gen symbolen för varje biomarkör-ID från stegen ovan hämtas från databasen DAVID³²och sedan två representativa webbservrar används för att analysera denna gen symbol från nivåerna av DNA och protein, respektive. Servern GeneCard ger en omfattande funktionella annotering av en viss gen symbol och Online Mendelian arvet i Man-databasen (OMIM) ger den mest omfattande curation sjukdomsgen föreningar. Servern UniProtKB är en av de mest omfattande databasen för protein och servern gruppen-baserad prognos System (GPS) förutspår signalering phosphorylationens en mycket stor lista av kinaser.

Kopiera och klistra in webblänken i databasen DAVID i en webbläsare och öppna webbsidan för denna databas. Klicka på länken Gen ID konvertering ses i figur 4A och mata in funktionen ID 38319_at/38147_at/33238_at av den första biomarkör delmängden av datamängden hela1 (figur 4B). Klicka på länken Gen lista och klicka på Skicka lista som visas i figur 4B. Hämta anteckningar av intresse och klicka på Visa gen lista (figur 4 c). Få listan över gen symboler (figur 4 d),.
Obs: Gen symbolerna Hämtad här kommer att användas för ytterligare funktionella annotations i nästa steg.
Kopiera och klistra in webblänken i databasen gen kort i en webbläsare och öppna webbsidan denna databas. Sök en genens namn CD3D i rutan databas fråga och hitta anteckningar av denna gen från Gene kort³³^,³⁴, som visas i tabell 1 och figur 5A.
Obs: Gen kort är en omfattande gen knowledgebase, som tillhandahåller nomenklaturen, genomik, proteomik, subcellulär lokalisering, och involverade vägar och andra funktionella moduler. Det ger också externa länkar till olika andra biomedicinska databaser som PDB/PDB_REDO³⁵, Entrez genen³⁶, OMIM³⁷och UniProtKB³⁸. Om funktionsnamnet inte är en standard gen symbol, använda databasen HÄCKNING för att konvertera det³⁹. CD3D är namnet på genen T-cells Receptor T3 Delta kedja.
Kopiera och klistra in webblänken i databasen OMIM i en webbläsare och öppna webbsidan denna databas. Sök en genens namn CD3D och hitta anteckningar av denna gen från databasen OMIM³⁷, som visas i tabell 1 och figur 5B.
Obs: OMIM fungerar nu som en av de mest omfattande och auktoritativa källorna av mänsklig gen anslutningar med ärftliga sjukdomar. OMIM initierades av Dr Victor A. McKusick att katalogisera sjukdomsassocierade genetiska mutationer⁴⁰. OMIM omfattar nu över 15.000 mänskliga gener och över 8 500 fenotyper, per 31 December 1^st 2017.

9. kommentera de kodade proteinerna och de post-translationella modifieringarna

Kopiera och klistra in webblänken i databasen UniProtKB i en webbläsare och öppna webbsidan för denna databas. Sök en genens namn CD3D i rutan fråga ingående av UniProtKB och hitta anteckningar av denna gen från den databasen³⁸, som visas i tabell 1 och figur 5 c.
Obs: UniProtKB samlar en rik källa av anteckningar för proteiner, inklusive både nomenklaturen och funktionell information. Denna databas innehåller även externa länkar till andra utbredda databaser, inklusive PDB/PDB_REDO³⁵, OMIM³⁷och Pfam⁴¹.
Kopiera och klistra in webblänken webbserverns GPS i en webbläsare och öppna webbsidan på denna webbserver. Hämta sekvensen protein som kodas av genen biomarkör CD3D från UniProtKB databas³⁸ och förutsäga proteinets posttranslationella modifieringen (PTM) rester med verktyget online GPS, vilket visas i tabell 1 och figur 5 d.
Obs: Ett biologiskt system är dynamisk och komplicerade, och de befintliga databaserna samla endast känd information. Därför, online-verktyg för biomedicinsk prognos liksom offline program kan ge användbar bevis för att komplettera en hypotetisk mekanism. GPS har varit utvecklade och förbättrade för över 12 år⁷^,⁴² och kan användas för att förutsäga en proteinets PTM rester i en given peptid sekvens⁴³^,⁴⁴. Det finns också verktyg för olika forskningsområden, inklusive förutsägelse av en proteinets subcellulär läge⁴⁵ och transkription faktorn bindande motiv ⁴⁶ bland andra.

10. kommentera Protein-Protein interaktioner och deras berikad funktionella moduler

Kopiera och klistra in webblänken webbserverns sträng i en webbläsare och öppna webbsidan på denna webbserver. Sök i listan för generna CD3D och P53, och hitta sina iscensatt egenskaper använder databasen sträng⁴⁷. Samma procedur kan utföras med en annan webbserver, DAVID³².
Obs: Förutom ovannämnda anteckningarna för enskilda gener, det finns många storskaliga informatik verktyg tillgängliga för att undersöka egenskaperna för en grupp av gener. En nyligen genomförd studie visade att individuellt dåliga markörgener skulle utgöra en mycket bättre gen set⁵. Därför är det värt computational kostnaden till skärmen för mer komplicerade biomarkörer. Databasen sträng kan visualisera känd eller förutsedd interaktion anslutningarna och David servern kan identifiera de funktionella modulerna med betydande fenotyp-föreningar i efterfrågade gener⁴⁷,³². Det finns även olika andra storskaliga informatik analysverktyg.

11. exportera genererade biomarkör delmängder och visualisering tomterna

Exportera upptäckta biomarkör delmängder som en TSV eller CSV-textfil för vidare analys. Klicka på knappen exportera tabellen under bordet av alla upptäckta biomarkör delmängder och välja vilket textformat att spara som.
Exportera visualisering tomterna som en bildfil. Klicka på knappen Spara under varje tomt och välja vilken image format att spara som.
Obs: Programvaran stöder den pixel format .png och den vektor format .svg. Pixel bilder är bra för visning på skärmen, medan vektorbilder kan omvandlas till någon resolution krävs för tidning publikation ändamål.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Målet med detta arbetsflöde (figur 6) är att upptäcka flera biomarkör grupper med liknande effektivitetsvinster för en binär klassificering datamängd. Hela processen illustreras av två exempel datamängder hela1 och alla2 utvinns ur en nyligen publicerade biomarkör identifiering studera¹²^,⁴⁸. En användare kan installera kSolutionVis genom att följa instruktionerna i de kompletterande material.

Dataset ALL1 profilerade 12 625 transcriptomic dragen av 95 B-cell och 33 T-cell alla patientens blodprov. Medan datamängd alla2 upptäckt uttrycksnivåerna av 12 625 transcriptomic funktioner för 65 alla patienter som fått återfall efter behandling och 35 alla patienter som inte gjorde. För användarens bekvämlighet finns både transcriptomic datamängder och deras klass etiketter i version 1.4 av programvaran. Både datamängder är i underkatalogen ”data” av programvarans källkod kod katalog.

De två datamängderna, hela1 och alla2, var formaterad som CSV-filer och lastat in på programvaran med knapparna Load DataMatrix och belastning klass etiketter , som visas i figur 7A-B. Figur 7A visar alla 128 prover med 12 625 funktioner var lastade, som alla 128 prover har även klass etiketter. Slutliga DataMatrix har 95 negativa prover (B-cell alla) och 33 positiva prover (T-cell alla). Dessutom kan användare också avgöra vilket klass-etikett är positiv klass etiketten (figur 7A, botten). Om en klass etikettfil definierar mer än två klasser, kanske användare vill välja vilka två klass etiketter att undersöka. Liknande transaktioner genomfördes också för svårt datamängden alla2, som visas i figur 7B.

Värdet fördelningorna av funktionerna i matrisen uppgifter kan undersökas genom att klicka på knappen sammanfatta samtidigt söka efter ett specifikt nyckelord i funktionsnamnen, som visas i figur 8. Figur 8A visar histogrammet av funktionen 1012_at i datamängden hela1. Dessutom som kan ses i figur 8B, har den samma funktion 1012_at en liknande fördelning av uttryck i både datamängder. Om inga sökord angavs av användaren, anges några funktionsnamn för att hjälpa användare att välja vilka funktioner du vill sammanfatta.

Enklare datamängden hela1 långfilmen de toppa 10 rankade funktionerna (pTopX) för biomarkör undergrupper med den pMeasurement Acc ≥ 0,90 (pCutoff). Klicka på knappen Köroch algoritmen avrättades, och resultat som kan ses i figur 9A, illustrerades i nedre delen av programvaran efter några sekunder. Från detta, 120 kvalificerade biomarkör delmängder upptäcktes och som anges i den vänstra tabellen figur9a. Hela1 var en lätt-till-diskriminera datamängd, som har 57 triplett biomarkör undergrupper med 100% i Acc. Detta protokoll betonar existensen av flera liknande effektiva lösningar för en binär klassificering problem. Därför, den första 3D punktdiagram kan illustrera mer än 10 (parametern piFSNum) biomarkör delmängder, om de har den klassificering prestanda Acc (parametern pMeasurement) ≥ som av topp 10 rankade (parameter piFSNum ) biomarkör delmängd. Användaren kan också välja att visa färre biomarkör delmängder genom att ändra parametern piCutoff i parameterrutan ovanför tabellen i figur 9A. Manuell trimning av 3D tomterna finns i avsnittet Manuell inställning av 3D dot tomter i det kompletterande materialet.

Alla resultat kan dessutom exporteras som externa filer för vidare analys genom att klicka på knappen exportera tabellen under tabellen eller scatter tomterna, som visas i figur 9.

Den första biomarkör delmängden (38319_at, 38147_at och 33238_at) för datamängden hela1 valdes för funktionella undersökningar, som visas i figur 9A. Sök modulen av HÄCKNING (http://useast.ensembl.org/Multi/Search/New?db=core) kommenterade dessa tre funktioner som ett gen kluster av differentiering 3 delta (CD3D, 38319_at), signalering lymfatisk aktiveringen molekyl-associerad gen (SH2D1A, 38147_at ) och lymfocyter-specifika Protein-tyrosinkinas (LCK, 33238_at). Dessutom föreslog gen-sjukdom föreningen databasen OMIM³⁷^,⁴⁰ att genen CD3D kodar den delta subuniten av T-cells antigen receptorn komplex och är involverad i de 11q23 flyttningar frekvent hos akut leukemi hos människor⁴⁹^,⁵⁰. OMIM föreslog också att genetiska mutationer i genen SH2D1A i regionen kromosom i Xq25 kan vara associerade med B-cells leukemi⁵¹^,⁵². Dessutom betonade OMIM också en möjlig T-cell alla associerade fusion händelse av LCK och beta T-cells receptor (TCRB)⁵³. Användare kan undersöka andra funktionella aspekter av dessa biomarkörer med deras gen symboler, t.ex., gen funktion anteckningar i Entrez genen³⁶, protein funktion anteckningar i UniProtKB³⁸ eller Pfam⁴¹, 3D protein strukturer i PDB/PDB_REDO³⁵och PTM rester i GPS-⁷^,⁴²^,⁴³^,⁴⁴. De samverkande sub nätverk (databasen sträng⁴⁷) och berikade funktionella moduler (databas David³²) kan också undersökas för dessa biomarkörer som en helhet. Olika andra databaser eller webbservrar kan också underlätta de anteckningar och i silico förutsägelser med hjälp av symboler eller primära genen och protein sekvenser av dessa gener.

Som kan ses i tabell 2, nödvändigheten av att upptäcka mer än en lösning med identiska eller liknande effektiva föreställningar är tydlig, med 57 grupper av funktioner med binär klassificering exaktheter av 100% mellan B-cell och T-cell alla prover. Dessa särskilda biomarkör delmängder kallades den perfekta lösningen. En hel del biomarkörer medverkat i dessa perfekta lösningar upprepade gånger, vilket tyder på att de kan utgöra viktiga skillnader, på molekylär nivå, mellan B - och T-cell alla. Om biomarkör identifiering algoritmen slutar på att upptäcka den första perfekta lösningen av tre gener CD3D/SH2D1A/LCK, kommer en annan perfekt lösning CD74/HLA-DPB1/PRKCQ att missas. Till exempel HLA-DPB1 är kända för att vara signifikant samband med pediatric T-cellen alla utom inte B-cell alla⁵⁴.

De tre funktionerna av den första biomarkör delmängden av alla2 var kromatin församlingen faktor 1 subenhet B (CHAF1B, 36912_at), exonuclease 1 (EXO1, 36041_at), och signal givaren och aktivator av transkription 6 (STAT6, 41222_at). CHAF1B observerades för att uttryckas mycket i leukemi cellinjer och antikroppen mot CHAF1B kodade proteinet utvecklades betydligt i akut myeloisk leukemi (AML) patienter⁵⁵. EXO1 försvann i vissa fall av akut leukemi⁵⁶och uppreglerad i leukemi cell linje HL-60 [R]. Det har också visat att negativt reglera den alternativa förlängning av telomerer (ALT) väg, vilket underlättade bildandet av ALT-associerade PML (promyeloisk leukemi) organ (APBs)⁵⁷. STAT6 var fosforyleras aktivera Pro överlevnad och proliferativ signalering utbildningsavsnitt i fall av recidiverande AML⁵⁸. Tillsammans de tre generna var förknippade med utveckling och återfall i leukemi, men inga uttryckliga bevis publicerades på deras föreningar med de alla återfall. Detta kan utgöra ett intressant ämne för vidare utredning.

Samma anteckning procedur kan utföras på en biomarkör delmängd för hela1 och alla2. De tre biomarkörer som undersökts i ovanstående avsnitt identifierades inte som återfall biomarkörer i datamängden alla2, som visas i figur 9B. Detta tyder på att biomarkörer är fenotyp-specifika, vilket är en annan stor utmaning för biomarkör identifiering, tillsammans med förekomsten av flera liknande effektiva lösningar.

Några tekniska moduler var genomfört och beskrivs här för intresserade användare. Modulen fel hantering ger informativa meddelanden för användaren när fel uppstår under körningen av programvaran. De huvudsakliga felmeddelandena är listade och förklaras i ”felmeddelanden” i det kompletterande materialet. En parallell beräkning av biomarkörer genomfördes för datorer med mer än en CPU-kärna. De detaljerade förbättringarna av den rinnande tiden kan hittas i ”parallella rinnande tid” i det kompletterande materialet. Data tyder på att användningen av mer CPU-kärnor inte kan förbättra den rinnande tiden på grund av kostnaderna för att byta mellan olika CPU-kärnor.

Figur 1: exempel datamängden utvinns ur transkriptom datamängden hela1 har första sex funktioner för de första nio proverna av hela1. DataMatrix var formaterad i (a) formuläret visualisering, b tabbavgränsad textfil format och (c) kommaavgränsad textfil format. (d) klass etikettdata formaterades i formuläret visualisering. Beror på fliken karaktär är osynlig, det är illustreras som [TAB] (b). Kolumnen plattform ger microarray plattformen Affy i (b), och är inte en kolumn med data som krävs. Klicka här för att se en större version av denna siffra.

Figur 2: grafiskt användargränssnitt programvaran. Baslinjen statistiken sammanfattas i den övre vänstra rutan. Användare kan söka efter funktioner av intresse och undersöka värdet fördelningarna i två rätt boxar. Alla parametrar för biomarkör identifiering förfarande kan stämmas i den mittersta vågräta fältet. Alla biomarkör delmängder och deras motsvarande visualiserade distributioner kan hittas i den nedre delen. Klicka här för att se en större version av denna siffra.

Figur 3: biomarkör underdelar och deras visualiseringar genereras. Användare kan ytterligare förfina bordet och två 3D spridningsdiagram med hjälp av parametrarna piCutoff och piFSNum. Klicka här för att se en större version av denna siffra.

Figur 4: gen anteckningar av funktionen-ID har påträffats i denna studie. Ta de tre funktionen ID 38319_at/38147_at/33238_at av den första biomarkör delmängden av datamängden hela1. (a) få ID konvertering modul genom att klicka på länken Gen ID konvertering. (b) input funktionen ID: N i den röda rutan 1, Välj den funktionen i röda boxen 2 (standard ”AFFYMETRIX_3PRIME_IVT_ID” är korrekt för denna studie), välja Genen lista i röd ruta 3 och klicka på Skicka lista i den röda rutan-4. (c) få alla funktionella anteckningarna i sidan och klicka på Visa gen lista för att få dessa efterfrågade funktioner gen symboler. (d) få gen symbolerna ID som efterfrågade funktionen. Klicka här för att se en större version av denna siffra.

Figur 5: anteckningar och anrikning analys av upptäckta funktionen delmängder. (a) genen anteckningar från Gene Card. (B) OMIM beskriver sjukdomen sammanslutningarna för varje funktion/gen. (c) kommentera det protein som kodas av genen sevärdheter i databasen UniProtKB. (d) förutsäga tyrosin fosforylering rester i viss proteinet med verktyget online GPS. En röd ruta lades till Visa användaren var att klicka för att mata in query data. Den primära sekvensen av proteinet exempel CD3D kan vara Hämtad som FASTA format från den röda rutan i (c), och ingång i query-fönstret genom att klicka på den röda rutan i (d). Klicka här för att se en större version av denna siffra.

Figur 6: arbetsflöde för kSolutionVis. Varje modul av programvaran beskrevs ovan protokollet. Klicka här för att se en större version av denna siffra.

Figur 7: Baseline statistiken för de två representativa datamängderna. Antalet prover, funktioner och klasser i a hela1 och (b) alla2 beräknas. Filstorleken på matrix och klass dataetiketterna upptäcks också. Och en ny DataMatrix utvinns från proverna med klass etiketter. Klicka här för att se en större version av denna siffra.

Figur 8: Histogram visualisering av den funktionen 1012_at i de två datamängderna. Både baslinjen statistik och histogram genererades för hela1 (a) och (b) alla2. Klicka här för att se en större version av denna siffra.

Figur 9: biomarkör underdelar och scatter tomterna av de två datamängderna. Användare kan ändra parametrarna i den andra raden av parametern rutor för att ytterligare förfina listor över biomarkör delmängder och 3D punktdiagram tomter för datamängder (a) hela1 och (b) alla2. Klicka här för att se en större version av denna siffra.

Webbplats	Länk	Funktionalitet
GeneCards	http://www.genecards.org/cgi-bin/carddisp.pl?Gene=CD3D	Gen anteckning
OMIM	https://OMIM.org/Entry/186790?search=CD3D&highlight=cd3d	Gen-förening
UniProtKB	http://www.Uniprot.org/Uniprot/P04234	Protein anteckning
GPS	http://GPS.biocuckoo.org/	Proteinets PTM förutsägelse
Sträng	https://String-dB.org/	Protein-protein interaktioner
David	https://David.ncifcrf.gov/	Gen Set-anrikning analys

Tabell 1. Webbplatser för att kommentera och analysera de upptäckta biomarkörer. En lista över användbara online-verktyg som hjälper kommentera de upptäckta biomarkörer.

F1	F2	F3	ACC	Symbol1	Symbol2	Symbol3
38319_at	38147_at	33238_at	1,0000	CD3D	SH2D1A	LCK
33238_at	35016_at	37039_at	1,0000	LCK	CD74	HLA-DRA
38147_at	33238_at	35016_at	1,0000	SH2D1A	LCK	CD74
38147_at	33238_at	2059_s_at	1,0000	SH2D1A	LCK	LCK
38147_at	33238_at	37039_at	1,0000	SH2D1A	LCK	HLA-DRA
38147_at	33238_at	38095_i_at	1,0000	SH2D1A	LCK	HLA-DPB1
38147_at	33238_at	33039_at	1,0000	SH2D1A	LCK	TRAT1
38147_at	35016_at	2059_s_at	1,0000	SH2D1A	CD74	LCK
38147_at	35016_at	33039_at	1,0000	SH2D1A	CD74	TRAT1
38147_at	35016_at	38949_at	1,0000	SH2D1A	CD74	PRKCQ
38147_at	2059_s_at	37039_at	1,0000	SH2D1A	LCK	HLA-DRA
38147_at	2059_s_at	38095_i_at	1,0000	SH2D1A	LCK	HLA-DPB1
38147_at	37039_at	33039_at	1,0000	SH2D1A	HLA-DRA	TRAT1
38147_at	37039_at	38949_at	1,0000	SH2D1A	HLA-DRA	PRKCQ
38319_at	38147_at	35016_at	1,0000	CD3D	SH2D1A	CD74
38147_at	38833_at	38949_at	1,0000	SH2D1A	HLA-DPA1	PRKCQ
33238_at	35016_at	33039_at	1,0000	LCK	CD74	TRAT1
38319_at	38833_at	38949_at	1,0000	CD3D	HLA-DPA1	PRKCQ
33238_at	35016_at	38949_at	1,0000	LCK	CD74	PRKCQ
33238_at	2059_s_at	37039_at	1,0000	LCK	LCK	HLA-DRA
33238_at	37039_at	38095_i_at	1,0000	LCK	HLA-DRA	HLA-DPB1
33238_at	37039_at	33039_at	1,0000	LCK	HLA-DRA	TRAT1
33238_at	37039_at	38949_at	1,0000	LCK	HLA-DRA	PRKCQ
33238_at	38095_i_at	38949_at	1,0000	LCK	HLA-DPB1	PRKCQ
33238_at	38833_at	38949_at	1,0000	LCK	HLA-DPA1	PRKCQ
33238_at	33039_at	38949_at	1,0000	LCK	TRAT1	PRKCQ
35016_at	2059_s_at	33039_at	1,0000	CD74	LCK	TRAT1
35016_at	2059_s_at	38949_at	1,0000	CD74	LCK	PRKCQ
35016_at	38095_i_at	38949_at	1,0000	CD74	HLA-DPB1	PRKCQ
2059_s_at	37039_at	33039_at	1,0000	LCK	HLA-DRA	TRAT1
2059_s_at	38095_i_at	38949_at	1,0000	LCK	HLA-DPB1	PRKCQ
2059_s_at	38833_at	38949_at	1,0000	LCK	HLA-DPA1	PRKCQ
38319_at	33039_at	38949_at	1,0000	CD3D	TRAT1	PRKCQ
38147_at	38095_i_at	38949_at	1,0000	SH2D1A	HLA-DPB1	PRKCQ
38319_at	33238_at	38833_at	1,0000	CD3D	LCK	HLA-DPA1
38319_at	2059_s_at	38833_at	1,0000	CD3D	LCK	HLA-DPA1
38319_at	33238_at	33039_at	1,0000	CD3D	LCK	TRAT1
38319_at	33238_at	38095_i_at	1,0000	CD3D	LCK	HLA-DPB1
38319_at	33238_at	37039_at	1,0000	CD3D	LCK	HLA-DRA
38319_at	35016_at	38833_at	1,0000	CD3D	CD74	HLA-DPA1
38319_at	33238_at	2059_s_at	1,0000	CD3D	LCK	LCK
38319_at	35016_at	33039_at	1,0000	CD3D	CD74	TRAT1
38319_at	33238_at	35016_at	1,0000	CD3D	LCK	CD74
38319_at	35016_at	38949_at	1,0000	CD3D	CD74	PRKCQ
38319_at	2059_s_at	37039_at	1,0000	CD3D	LCK	HLA-DRA
38319_at	38147_at	38949_at	1,0000	CD3D	SH2D1A	PRKCQ
38319_at	38147_at	33039_at	1,0000	CD3D	SH2D1A	TRAT1
38319_at	33238_at	38949_at	1,0000	CD3D	LCK	PRKCQ
38319_at	2059_s_at	38095_i_at	1,0000	CD3D	LCK	HLA-DPB1
38319_at	38147_at	38833_at	1,0000	CD3D	SH2D1A	HLA-DPA1
38319_at	2059_s_at	33039_at	1,0000	CD3D	LCK	TRAT1
38319_at	38147_at	38095_i_at	1,0000	CD3D	SH2D1A	HLA-DPB1
38319_at	37039_at	33039_at	1,0000	CD3D	HLA-DRA	TRAT1
38319_at	38147_at	37039_at	1,0000	CD3D	SH2D1A	HLA-DRA
38319_at	38147_at	2059_s_at	1,0000	CD3D	SH2D1A	LCK
38319_at	2059_s_at	38949_at	1,0000	CD3D	LCK	PRKCQ
38319_at	35016_at	2059_s_at	1,0000	CD3D	CD74	LCK
2059_s_at	37039_at	38095_i_at	0.9922	LCK	HLA-DRA	HLA-DPB1
35016_at	33039_at	38949_at	0.9922	CD74	TRAT1	PRKCQ
2059_s_at	37039_at	38949_at	0.9922	LCK	HLA-DRA	PRKCQ
35016_at	2059_s_at	37039_at	0.9922	CD74	LCK	HLA-DRA
35016_at	37039_at	38949_at	0.9922	CD74	HLA-DRA	PRKCQ
35016_at	38833_at	38949_at	0.9922	CD74	HLA-DPA1	PRKCQ
2059_s_at	33039_at	38949_at	0.9922	LCK	TRAT1	PRKCQ
37039_at	38833_at	38949_at	0.9922	HLA-DRA	HLA-DPA1	PRKCQ
37039_at	33039_at	38949_at	0.9922	HLA-DRA	TRAT1	PRKCQ
38319_at	38095_i_at	38949_at	0.9922	CD3D	HLA-DPB1	PRKCQ
33238_at	37039_at	38833_at	0.9922	LCK	HLA-DRA	HLA-DPA1
38095_i_at	33039_at	38949_at	0.9922	HLA-DPB1	TRAT1	PRKCQ
33238_at	2059_s_at	38949_at	0.9922	LCK	LCK	PRKCQ
38319_at	38833_at	33039_at	0.9922	CD3D	HLA-DPA1	TRAT1
38833_at	33039_at	38949_at	0.9922	HLA-DPA1	TRAT1	PRKCQ
38147_at	33039_at	38949_at	0.9922	SH2D1A	TRAT1	PRKCQ
38319_at	37039_at	38833_at	0.9922	CD3D	HLA-DRA	HLA-DPA1
38147_at	2059_s_at	38949_at	0.9922	SH2D1A	LCK	PRKCQ
38147_at	38095_i_at	38833_at	0.9922	SH2D1A	HLA-DPB1	HLA-DPA1
38147_at	33238_at	38949_at	0.9922	SH2D1A	LCK	PRKCQ
38147_at	2059_s_at	33039_at	0.9922	SH2D1A	LCK	TRAT1
38319_at	37039_at	38949_at	0.9922	CD3D	HLA-DRA	PRKCQ
38319_at	38095_i_at	38833_at	0.9922	CD3D	HLA-DPB1	HLA-DPA1
38147_at	2059_s_at	38833_at	0.9922	SH2D1A	LCK	HLA-DPA1
33238_at	35016_at	2059_s_at	0.9922	LCK	CD74	LCK
38319_at	35016_at	38095_i_at	0.9922	CD3D	CD74	HLA-DPB1
33238_at	35016_at	38095_i_at	0.9922	LCK	CD74	HLA-DPB1
38319_at	35016_at	37039_at	0.9922	CD3D	CD74	HLA-DRA
38147_at	33238_at	38833_at	0.9922	SH2D1A	LCK	HLA-DPA1
38147_at	37039_at	38095_i_at	0.9844	SH2D1A	HLA-DRA	HLA-DPB1
38147_at	35016_at	38833_at	0.9844	SH2D1A	CD74	HLA-DPA1
38147_at	35016_at	38095_i_at	0.9844	SH2D1A	CD74	HLA-DPB1
35016_at	2059_s_at	38095_i_at	0.9844	CD74	LCK	HLA-DPB1
38147_at	37039_at	38833_at	0.9844	SH2D1A	HLA-DRA	HLA-DPA1
35016_at	2059_s_at	38833_at	0.9844	CD74	LCK	HLA-DPA1
38319_at	37039_at	38095_i_at	0.9844	CD3D	HLA-DRA	HLA-DPB1
37039_at	38095_i_at	38949_at	0.9844	HLA-DRA	HLA-DPB1	PRKCQ
38147_at	38833_at	33039_at	0.9844	SH2D1A	HLA-DPA1	TRAT1
38095_i_at	38833_at	38949_at	0.9844	HLA-DPB1	HLA-DPA1	PRKCQ
33238_at	35016_at	38833_at	0.9844	LCK	CD74	HLA-DPA1
38319_at	38095_i_at	33039_at	0.9844	CD3D	HLA-DPB1	TRAT1
2059_s_at	37039_at	38833_at	0.9844	LCK	HLA-DRA	HLA-DPA1
2059_s_at	38833_at	33039_at	0.9766	LCK	HLA-DPA1	TRAT1
2059_s_at	38095_i_at	33039_at	0.9766	LCK	HLA-DPB1	TRAT1
2059_s_at	38095_i_at	38833_at	0.9766	LCK	HLA-DPB1	HLA-DPA1
33238_at	2059_s_at	38095_i_at	0.9766	LCK	LCK	HLA-DPB1
35016_at	38095_i_at	33039_at	0.9766	CD74	HLA-DPB1	TRAT1
38147_at	38095_i_at	33039_at	0.9766	SH2D1A	HLA-DPB1	TRAT1
33238_at	2059_s_at	33039_at	0.9766	LCK	LCK	TRAT1
35016_at	37039_at	33039_at	0.9766	CD74	HLA-DRA	TRAT1
33238_at	38095_i_at	33039_at	0.9766	LCK	HLA-DPB1	TRAT1
33238_at	38833_at	33039_at	0.9766	LCK	HLA-DPA1	TRAT1
35016_at	38833_at	33039_at	0.9766	CD74	HLA-DPA1	TRAT1
33238_at	38095_i_at	38833_at	0.9688	LCK	HLA-DPB1	HLA-DPA1
37039_at	38833_at	33039_at	0.9688	HLA-DRA	HLA-DPA1	TRAT1
38147_at	35016_at	37039_at	0.9688	SH2D1A	CD74	HLA-DRA
33238_at	2059_s_at	38833_at	0.9688	LCK	LCK	HLA-DPA1
37039_at	38095_i_at	33039_at	0.9688	HLA-DRA	HLA-DPB1	TRAT1
38095_i_at	38833_at	33039_at	0.9609	HLA-DPB1	HLA-DPA1	TRAT1
35016_at	38095_i_at	38833_at	0.9609	CD74	HLA-DPB1	HLA-DPA1
37039_at	38095_i_at	38833_at	0.9531	HLA-DRA	HLA-DPB1	HLA-DPA1
35016_at	37039_at	38095_i_at	0.9531	CD74	HLA-DRA	HLA-DPB1
35016_at	37039_at	38833_at	0.9531	CD74	HLA-DRA	HLA-DPA1

Tabell 2. Anteckningar av alla funktioner från datamängden hela1. Detta är en binär klassificering datamängd mellan B-cell och T-cell alla prover. Gen symbolerna samlades för alla microarray funktioner i de tre sista kolumnerna.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Denna studie presenterar ett lätt att följa flera lösning biomarkör identifiering och karakterisering protokoll för en användarspecificerad binär klassificering datamängd. Programmet sätter fokus på användarvänlighet och flexibla import och export gränssnitt för olika filformat, så att en biomedicinsk forskare att undersöka deras dataset som enkelt använda GUI av programvaran. Denna studie betonar också nödvändigheten av att generera mer än en lösning med likaså effektiv modellering föreställningar, tidigare ignorerade av många befintliga biomarkör identifiering algoritmer. I framtiden, innefatta nyutvecklade biomarkör detekteringsalgoritmer detta alternativ genom att registrera alla mellanliggande biomarkör delmängder med tillräcklig modellering föreställningar.

I detta protokoll är steg 1 och 5 av mest betydelse, eftersom programvaran är ett helautomatiskt system som bygger på korrekt formaterade indatafiler. Det konstaterades att under vårt test steg, mis-match prov namn från DataMatrix och etiketter klassfiler kan orsaka fel i programvaran, där mjukvaran vilja popmusik ute en varningsruta om felet. Därför, om användaren finner inga Prover var lastade från DataMatrix eller etikett klassfiler, felsökning Tricket är att dubbelkolla om namnen på prov i de två indatafilerna är inkonsekvent. Om inga prickar var visualiserat i de 3D spridningsdiagram, kan detta bero på den parameter pCutoff är högre än den bästa lösningen. I detta fall felsökning Tricket är att sänka cutoff av klassificering prestandamätningen (parametern pCutoff). Dock kan maximal prestandamätning genom biomarkör delmängder blockeras fortfarande av cutoff för en svårt datamängd. En varningsdialogruta ger detta bästa resultatmätning, och användaren kan välja en mindre cutoff att fortsätta ytterligare analys.

De viktigaste begränsningarna av programvaran är dess långsamma beräkningshastighet och dess förmåga att bara fokusera på, som mest tre funktioner. Funktionsurval är en NP-hard problem definieras som ett computational problem vars globalt optimal lösning inte kan lösas inom polynom tid⁵⁹. Den omfattande biomarkör delmängd screening steg förbrukar en stor mängd datorkraft. Den rinnande tiden komplexitet kSolutionVis är O (n³) där n är den parametern pTopX. Dessutom fokuserar denna multipel-biomarkör upptäckt algoritm på visualisera skärmen av funktioner, därför begränsa antalet funktioner till tre eller färre. Denna begränsning kan hindra vissa användare som kan arbeta med svåra problem och vill hitta funktionen grupper bestående av fler än tre funktioner. Men programvaran visualiserar funktionen delmängder i 3D rymden och det är svårt att direkt visualisera funktionen delmängder i mer än tre dimensioner. Baserat på de representativa resultat som presenteras ovan, flera funktionen trillingarna valts av kSolutionVis är en mycket effektiv metod i klassificering och visar betydande resultat med viktiga biomedicinska menande, dessutom.

Programvaran representerar användbar kompletterande mjukvara till de befintliga funktionen urval algoritmerna. Inom biomedicin, funktionen valet benämns biomarkör, med målet att hitta en delmängd av funktionerna att uppnå förbättrad modellering prestanda⁶⁰^,⁶¹^,⁶². Programvaran är ett heltäckande screeningverktyg för alla triplett biomarkör delmängder baserat på den strategi som föreslås i en senare studie⁵. De två representativa datamängderna säkerhetskontrolleras med programvarans protokoll, och deras resultat visar existenserna av en hel del lösningar med lika effektiva eller till och med identiska modellering föreställningar. Heuristiska regler⁶³^,⁶⁴^,⁶⁵^,⁶⁶ kan användas för att hitta optimala lösningar, men sådana algoritmer har en stark tendens att producera bara en lösning, ignorerar många andra lösningar med lika effektiva eller till och med identiska modellering föreställningar. Datorkraften och den långa rinnande tiden av programvaran är därför värt att säkerställa ett mer omfattande upptäckt av potentiella biomarkörer i framtiden.

De representativa resultat beräknades på två transkriptom datamängder, men programvara handtagen mata in data i olika format som standard och kan också användas för att analysera andra 'miska' datauppsättningar, inklusive Proteomik och metabolomik. Dessutom kan parallelization påskynda beräkningen av modulen biomarkör identifiering i programvaran. Det finns vissa multi-core maskinvara inklusive GPGPU (General-Purpose grafisk bearbetning Unite) och Intel Xeon Phi processorer tillgänglig för detta ändamål. Men dessa tekniker kräver olika kodning strategier och kommer att behandlas i nästa version av programvaran.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Vi har inga intressekonflikter som relaterade till detta betänkande.

Acknowledgments

Detta arbete stöds av prioriterade strategiska forskningsprogrammet av Chinese Academy of Sciences (XDB13040400) och start bidraget från Jilin University. Anonyma recensioner och biomedicinsk tester användare uppskattades för deras konstruktiva kommentarer på förbättrad användbarhet och funktionalitet i kSolutionVis.

Materials

Name	Company	Catalog Number	Comments
Hardware
laptop	Lenovo	X1 carbon	Any computer works. Recommended minimum configuration: 1GB extra hard disk space, 1 GB memory, 2.0MHz CPU
Name	Company	Catalog Number	Comments
Software
Python 3.0	WingWare	Wing Personal	Any python programming and running environments support Python version 3.0 or above