Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Cancer Research

Att välja flera biomarkör grupper med liknande effektiva binär klassificering föreställningar

Published: October 11, 2018 doi: 10.3791/57738

Summary

Befintliga algoritmer generera en lösning för en biomarkör identifiering datamängd. Detta protokoll visar förekomsten av flera liknande effektiva lösningar och presenterar ett användarvänligt program för att hjälpa biomedicinsk forskare undersöka deras datamängder för de föreslagna utmaningen. Datavetare kan också tillhandahålla den här funktionen i deras biomarkör detekteringsalgoritmer.

Abstract

Biomarkör identifiering är en av de mer viktiga biomedicinska frågorna för high-throughput ”omics' forskare, och nästan alla befintliga biomarkör detekteringsalgoritmer generera en biomarkör delmängd med optimerad prestanda mätningen för en given datamängd . En nyligen genomförd studie visade dock förekomsten av flera biomarkör grupper med lika effektiva eller till och med identiska klassificering föreställningar. Detta protokoll presenterar en enkel och okomplicerad metod för att upptäcka biomarkörer undergrupper med binär klassificering föreställningar, bättre än en användardefinierad cutoff. Protokollet består av dataförberedelse och lastning, baseline information sammanfattning, parametern tuning, biomarkör screening, resultatet visualisering och tolkning, biomarkör gen anteckningar och resultatet och visualisering export på publikationen kvalitet. Den föreslagna biomarkör screening strategi är intuitivt och visar en allmän regel för att utveckla detekteringsalgoritmer biomarkör. Ett användarvänligt grafiskt användargränssnitt (GUI) utvecklades med programmeringsspråket Python, så att biomedicinska forskare ha direkt tillgång till deras resultat. Källa koden och handbok av kSolutionVis kan laddas ner från http://www.healthinformaticslab.org/supp/resources.php.

Introduction

Binär klassificering, en av de vanligaste utreds och utmanande datautvinning problem i det biomedicinska området, används för att bygga en klassificering modell utbildade på två grupper av prover med den mest exakta diskriminering power1, 2 , 3 , 4 , 5 , 6 , 7. men de stora data som genereras i det biomedicinska området har inneboende ”stora p liten n” paradigm, med många funktioner som är oftast mycket större än antalet prover6,8,9. Därför har biomedicinska forskare att minska dimensionen funktion före utnyttja klassificering algoritmer för att undvika de overfitting problem8,9. Diagnos biomarkörer definieras som en delmängd av upptäckta funktioner skiljer patienter av en viss sjukdom från friska kontroll prover10,11. Patienter definieras ofta som de positiva proverna och de friska kontrollerna definieras som den negativa prover12.

Nyligen genomförda studier har föreslagit att det finns mer än en lösning med identisk eller lika effektiv klassificering föreställningar för en biomedicinsk datamängden5. Nästan alla funktionen urval algoritmer är deterministiska algoritmer, producerar bara en lösning för samma datamängd. Genetiska algoritmer kan samtidigt generera flera lösningar med liknande föreställningar, men de försöker fortfarande att välja en lösning med bästa fitness-funktionen som utdata för en given datamängd13,14.

Funktionen urval algoritmer kan grovt grupperas som antingen filter eller wrappers12. Ett filter algoritmen väljer top -k funktioner rankas av deras betydande enskilda association med binära klass etiketter baserat på antagandet att har är oberoende av varandra15,16,17 . Även om detta antagande inte håller sant för nästan alla verkliga datamängder, presterar den heuristiska filterregeln bra i många fall, exempelvis mRMR (Minimum redundans och maximal relevans) algoritm, Wilcoxon test baserat funktionen filtrering (WRank) algoritmen och ROC (mottagare operativa kännetecken) tomten baserat filtrering (ROCRank) algoritm. mRMR, är en effektiv filter algoritm eftersom det efterliknar kombinatoriska uppskattning problemet med en rad mycket mindre problem, jämfört med max-beroende funktionen urval algoritm, som alla innebär endast två variabler, och Därför använder parvisa joint sannolikheter som är mer robust18,19. MRMR kan emellertid underskatta nyttan av vissa funktioner som den inte mäter samspelet mellan funktioner som kan öka relevans, och därmed missar några funktion kombinationer som är individuellt värdelös men är användbara endast när de sammanställts. WRank algoritmen beräknar en icke-parametrisk poäng av hur diskriminerande en funktion är mellan två klasser av prover, och är känd för sin robusthet för extremvärden20,21. Dessutom utvärderar ROCRank algoritmen hur betydelsefullt område Under the ROC kurva (AUC) för en viss funktion är för den undersökta binära klassificering prestanda22,23.

Däremot, en wrapper utvärderar fördefinierade klassificerarens prestanda för en viss funktion delmängd, iterativt genereras av heuristisk regel och skapar delmängden funktion på bästa prestanda mätning24. En wrapper i allmänhet överträffar ett filter i klassificering prestanda men körs långsammare25. Reglerats Random Forest (RRF)26,27 algoritmen använder till exempel en girig regel, genom att utvärdera funktionerna på en delmängd av utbildning data på varje random forest nod, vars funktion betydelse noter utvärderas av Gini-indexet . Valet av en ny funktion kommer att straffas om sin information vinst inte förbättras av valda funktioner. Dessutom förutsägelse analysen för Microarrays (PAM)28,29 algoritm, också en wrapper algoritm, beräknar en centroiden för varje klass etiketterna och väljer sedan funktioner krympa de genen centroids mot totalt klass centroiden. PAM är robusta för perifera funktioner.

Flera lösningar med högsta klassificering prestanda kan vara nödvändigt för någon given datamängd. För det första definieras optimering målet av en deterministisk algoritm av en matematisk formel, t.ex., minsta fel hastighet30, som inte är nödvändigtvis idealiska för biologiska prover. För det andra kan en datamängd ha flera, betydligt olika, lösningar med liknande effektiva eller till och med identiska föreställningar. Nästan alla befintliga funktionen urval algoritmer väljer slumpmässigt en av dessa lösningar som utgång31.

Denna studie kommer att införa ett informatik analytiska protokoll för att generera flera funktionen urval lösningar med liknande föreställningar för någon viss binär klassificering datamängd. Med tanke på att de flesta biomedicinska forskare inte är bekant med datoriserad teknik eller datorn kodning, utvecklades ett användarvänligt grafiskt användargränssnitt (GUI) för att underlätta snabba analysen av biomedicinska binär klassificering datamängder. Analytic protokollet består av data lastning och sammanfatta, parametern tuning, pipeline utförande och resultat tolkningar. Med ett enkelt klick är forskaren kunna generera biomarkör delmängder och publikation-kvalitet visualisering tomter. Protokollet har testats med hjälp av transcriptomes av två binär klassificering datamängder av akut lymfoblastisk leukemi (ALL), dvs, hela1 och alla212. Datamängderna hela1 och alla2 hämtades från Broad Institute genomet Data analys Center, finns på http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi. Hela1 innehåller 128 prover med 12,625 funktioner. Av dessa prover, 95 är B-cell är alla och 33 T-cell alla. Alla2 innehåller 100 prover med 12,625 funktioner samt. Av dessa prover finns det 65 patienter som drabbades av återfall och 35 patienter som inte gjorde. Hela1 var en lätt binär klassificering datamängd, med en minsta noggrannhet av fyra filter och fyra wrappers 96,7%, och 6 av de 8 funktion urval algoritmer att uppnå 100%12. Medan alla2 var en svårare datamängd, med ovanstående 8 funktionen urval algoritmer att uppnå bättre än 83,7% noggrannhet12. Denna bästa noggrannhet uppnåddes med 56 funktioner identifieras av wrapper algoritm, korrelation-baserade funktionen urval (CFS).

Subscription Required. Please recommend JoVE to your librarian.

Protocol

Obs: Följande protokoll beskriver detaljerna i förfarandet för informatik-analytic och pseudo koder av de stora modulerna. Automatisk analys systemet utvecklades med Python version 3.6.0 och Python moduler pandor, abc, numpy, scipy, sklearn, sys, PyQt5, sys, mRMR, matematik och matplotlib. Material som används i denna studie visas i Tabell för material.

1. förbereda DataMatrix och klass etiketter

  1. Förbereda data matrix filen som en tabb - eller semikolonavgränsad matrix-filen, som illustreras i figur 1A.
    Obs: Varje rad har alla värden för en funktion, och det första objektet är funktionsnamnet. En funktion är ett probeset-ID för microarray-baserade transkriptom datamängden eller kan vara en annan värde ID vilja en cysteinrest med dess metylering värde i en datamängd i methylomic. Varje kolumn ger funktionen värdena för ett givet prov, med det första objektet är namnet på provet. En rad avgränsas i kolumner med en flik (figur 1B) eller kommatecken (figur 1 c). En tabbavgränsad matrix fil känns igen av den fil filändelsen .tsv, och en kommaavgränsad matrix-filen har den filändelsen .csv. Denna fil kan skapas genom att spara en matris som antingen i TSV eller CSV-format från programvara som Microsoft Excel. DataMatrix kan också genereras av dator kodning.
  2. Förbered klassen etikettfilen som en tabb - eller semikolonavgränsad matrix fil (figur 1 d), liknar filen data matrix.
    Anmärkning: Den första kolumnen ger prov namnen och klass etiketten för varje prov ges i kolumnen med titeln klass. Maximal kompatibilitet anses i kodning processen, så att ytterligare kolumner kan läggas. Klass etikettfilen kan formateras som en TSV eller CSV-fil. Namnen i kolumnen klass kan vara eventuella villkor, och det kan finnas mer än två klasser av prover. Användaren kan välja två av klasserna för följande analys.

2. Ladda DataMatrix och klass etiketter

  1. Läsa in data matrix och klass etiketterna i programvaran. Klicka på knappen Ladda DataMatrix att välja filen användardefinierade data matrix. Klicka på knappen Load klass etiketter att välja motsvarande klassfil etikett.
    Obs: Efter båda filerna är lastade, kSolutionVis kommer att genomföra en rutinmässig skärm av förenlighet mellan de två filerna.
  2. Sammanfatta funktioner och prover från filen data matrix. Uppskatta storleken på filen data matrix.
  3. Sammanfatta prover och klasser från klass etikettfilen. Uppskatta storleken på klassen etikettfilen.
  4. Testa om varje prov från DataMatrix har en klass-etikett. Summera siffrorna av proverna med klass etiketter.

3. sammanfatta och Visa baslinjen statistik på datamängden

  1. Klicka på knappen sammanfatta, utan några angivna sökord ingång, och programvaran kommer att visa 20 indexerade funktioner och motsvarande funktioner namnen.
    Obs: Användare måste ange funktionsnamnet på som de vill hitta för att se dess baslinjen statistik och motsvarande värde fördelning mellan alla ingående prover.
  2. Ge en sökord, exempelvis ”1000_at”, i textrutan funktionen hitta en specifik funktion som ska summeras. Klicka på knappen sammanfatta att få baslinjen statistiken för detta viss funktion.
    Obs: Sökordet kan visas var som helst i målet funktionsnamn, underlätta sökprocessen för användare.
  3. Klicka på knappen sammanfatta hitta mer än en funktion med visst nyckelordet, och sedan ange unika funktions-ID för att fortsätta med ovanstående steg med att sammanfatta en viss funktion.

4. Bestäm klass etiketterna och antalet topprankade funktioner

  1. Välja namn på positiv (”P (33)”) och negativa (N (95) ”) klasser i rutorna dropdown Klass positiva och Negativa klass, som visas i figur 2 (mitten).
    Obs: Det föreslås för att välja en balanserad binär klassificering datamängd, dvsskillnaden mellan antalet positiva och negativa prover är minimal. Antalet prov ges även inom parentes efter namnet på varje klass etikett i de två listrutor.
  2. Välj 10 som många topp-rankade funktioner (parametern pTopX) i den nedrullningsbara rutan Top_X (?) för en heltäckande skärm av funktionen-delmängden.
    Obs: Programvaran automatiskt rangordnar alla funktioner av P-värde beräknas genom ett t-test för varje funktion som jämföra klasserna positiva och negativa. En funktion med en mindre P-värde har en bättre diskriminerande effekt mellan de två klasserna av prover. Modulen omfattande screening är processorkrävande. Parametern pTopX är 10 som standard. Användare kan ändra denna parameter i intervallet 10 till 50, tills de hittar tillfredsställande har undergrupper med bra klassificering föreställningar.

5. Ställ in systemparametrar för olika föreställningar

  1. Välj prestandamätningen (pMeasurement), noggrannhet (Acc) i den nedrullningsbara rutan Acc/bAcc (?) för valda klassificeraren extrema lärande maskin (ELM). Ett annat alternativ för den här parametern är mätningen balanserad noggrannhet (bAcc).
    Obs: Låt TP, FN, TN, och FP vara antalet sant positiva, falska negativa, sant negativa och falskt positiva, respektive. Mätning Acc definieras som (TP+TN)/(TP+FN+TN+FP), vilket fungerar bäst på en balanserad datamängd6. Men en klassificerare optimerad för Acc tenderar att tilldela alla prover till klassen negativt om antalet negativa prover är mycket större än för de positiva. Den bAcc definieras som (Sn + Sp) / 2, där Sn = TP/(TP+FN) och Sp = TN/(TN+FP) de korrekt förutspådda priserna för positiva och negativa prover, respektive. Därför bAcc normaliserar förutsägelse föreställningarna över två klasser, och kan leda till en balanserad prognos prestanda över två obalanserade klasser. ACC är standardvalet av pMeasurement. Programvaran använder klassificeraren ELM som standard för att beräkna klassificering föreställningarna. Användaren kan också välja en klassificerare från SVM (stöd vektor maskin), KNN (k närmsta granne), beslutsträd eller Naïve Bayes.
  2. Välj värdet cutoff 0,70 (parametern pCutoff) för den angivna resultatmätning i inmatningsrutan pCutoff:.
    Obs: Både Acc och bAcc variera mellan 0 och 1, och användaren kan ange ett värde pCutoffEquation[0, 1] som cutoff att visa de matchade lösningarna. Programvaran utför en omfattande funktionen-delmängd screening, och ett lämpligt val av pCutoff kommer att göra 3D-visualisering mer intuitiv och explicita. Standardvärdet för pCutoff är 0,70.

6. kör rörledningen och producera interaktiva VISUALISERADE resultatet

  1. Klicka på knappen analysera att köra rörledningen och generera visualisering tomterna, som visas i figur 2 (nederst).
    Obs: Den vänstra tabellen ger alla funktionen delmängder och deras pMeasurement beräknas genom strategin 10-faldig cross validering av klassificeraren ELM, som tidigare beskrivits5. Två 3D spridningsdiagram och två-line tomter skapas för funktionen-delmängd screeningen med nuvarande parameterinställningarna.
  2. Välj 0,70 som standardvärdet av den pMeasurement cutoff (parameter piCutoff, inmatningsrutan värde) och 10 som standard av antalet bästa funktionen grupper (parametern piFSNum).
    Obs: Rörledningen utförs med hjälp av parametrarna pTopX, pMeasurement, och pCutoff. Funktionen identifierade undergrupper kan vara ytterligare screening använder den cutoff piCutoff, men piCutoff inte vara mindre än pCutoff. Därför piCutoff initieras som pCutoff och endast funktionen delmängder med den prestanda mätning ≥ piCutoff kommer att visualiseras. Standardvärdet för piCutoff är pCutoff. Ibland kSolutionVis upptäcker många lösningar, och endast de bästa piFSNum (standard: 10) funktionen grupper kommer att visualiseras. Om antalet funktionen delmängder upptäcks av programvaran är mindre än piFSNum, kommer alla funktionen delmängder visualiseras.
  3. Samla in och tolka de funktioner som upptäcks av programvaran, som visas i figur 3.
    Anmärkning: Tabellen i den vänstra rutan visar identifierade funktionen delmängder och deras prestandamätningar. Namnen på de tre första kolumnerna är ”F1”, ”F2” och ”F3”. De tre funktionerna i varje funktion delmängd ges i deras rankningsordning i en rad (F1 < F2 < F3). Den sista kolumnen ger prestandamätningen (Acc eller bAcc) av varje funktion-delmängd, och dess kolumnnamn (Acc eller bAcc) är värdet av pMeasurement.

7. tolka de 3D Scatter tomter-visualisera och tolka funktionen delmängder med likaså effektiv binär klassificering föreställningar använder 3D spridningsdiagram

  1. Klicka på knappen analysera att generera 3D spridningsdiagrammet för top 10 funktionen delmängder med de bästa klassificering föreställningarna (Acc eller bAcc) upptäcks av programvaran, som visas i figur 3 (mellersta rutan). Sortera de tre funktionerna i en funktion delmängd i stigande ordning efter deras led och använda leden av de tre funktionerna som F1/F2/F3 axlarna, dvsF1 < F2 < F3.
    Notera: Färgen på en punkt representerar binär klassificering prestanda för den motsvarande funktion delmängden. En datamängd kan ha flera funktionen grupper med liknande effektiva prestandamätningar. En interaktiv och förenklade spridningsdiagram är därför nödvändigt.
  2. Ändra värdet till 0,70 i inmatningsrutan pCutoff: och klicka på knappen analysera att generera 3D spridningsdiagrammet av funktionen delmängder med den prestanda mätning ≥ piCutoff, som kan ses i figur 3 (höger ruta). Klicka på knappen 3D tuning att öppna ett nytt fönster för att manuellt ställa in visning metar av 3D spridningsdiagrammet.
    Obs: Varje funktion delmängd representeras av en prick på samma sätt som ovan. 3D spridningsdiagrammet genererades i standard vinkel. För att underlätta 3D-visualisering och tuning, ett separat fönster öppnas genom att klicka på knappen 3D tuning.
  3. Klicka på knappen minska att minska redundans av upptäckta funktionen delmängder.
    Obs: Om användare önskar att ytterligare Markera funktionen trillingarna och minimera redundans av funktionen delmängder, programvaran också ger denna funktion med mRMR funktionen urval algoritm. Klicka på knappen minska och kSolutionVis kommer att ta bort de överflödiga funktionerna i funktionen trillingarna och regenerera tabellen och de två scatter tomter som nämns ovan. Borttagna funktioner i funktionen trillingarna kommer att ersättas av det nyckel-uttrycker i tabellen. Värdena för ingen i F1/F2/F3-axeln kommer att betecknas som värde för piFSNum (spänna av normalvärdet för F1/F2/F3 är [1, top_x]). Prickar som inkluderar ett inget värde kan därför tyckas vara ”avvikare” prickar i 3D tomter. Manuellt avstämbara 3D tomterna kan hittas i ”manuell inställning av 3D dot tomterna” i det kompletterande materialet.

8. hitta genen anteckningar och deras sammanslutningar med mänskliga sjukdomar

Obs: Steg 8 till 10 illustrerar hur man kommentera en gen från sekvens nivå av både DNA och protein. För det första gen symbolen för varje biomarkör-ID från stegen ovan hämtas från databasen DAVID32och sedan två representativa webbservrar används för att analysera denna gen symbol från nivåerna av DNA och protein, respektive. Servern GeneCard ger en omfattande funktionella annotering av en viss gen symbol och Online Mendelian arvet i Man-databasen (OMIM) ger den mest omfattande curation sjukdomsgen föreningar. Servern UniProtKB är en av de mest omfattande databasen för protein och servern gruppen-baserad prognos System (GPS) förutspår signalering phosphorylationens en mycket stor lista av kinaser.

  1. Kopiera och klistra in webblänken i databasen DAVID i en webbläsare och öppna webbsidan för denna databas. Klicka på länken Gen ID konvertering ses i figur 4A och mata in funktionen ID 38319_at/38147_at/33238_at av den första biomarkör delmängden av datamängden hela1 (figur 4B). Klicka på länken Gen lista och klicka på Skicka lista som visas i figur 4B. Hämta anteckningar av intresse och klicka på Visa gen lista (figur 4 c). Få listan över gen symboler (figur 4 d),.
    Obs: Gen symbolerna Hämtad här kommer att användas för ytterligare funktionella annotations i nästa steg.
  2. Kopiera och klistra in webblänken i databasen gen kort i en webbläsare och öppna webbsidan denna databas. Sök en genens namn CD3D i rutan databas fråga och hitta anteckningar av denna gen från Gene kort33,34, som visas i tabell 1 och figur 5A.
    Obs: Gen kort är en omfattande gen knowledgebase, som tillhandahåller nomenklaturen, genomik, proteomik, subcellulär lokalisering, och involverade vägar och andra funktionella moduler. Det ger också externa länkar till olika andra biomedicinska databaser som PDB/PDB_REDO35, Entrez genen36, OMIM37och UniProtKB38. Om funktionsnamnet inte är en standard gen symbol, använda databasen HÄCKNING för att konvertera det39. CD3D är namnet på genen T-cells Receptor T3 Delta kedja.
  3. Kopiera och klistra in webblänken i databasen OMIM i en webbläsare och öppna webbsidan denna databas. Sök en genens namn CD3D och hitta anteckningar av denna gen från databasen OMIM37, som visas i tabell 1 och figur 5B.
    Obs: OMIM fungerar nu som en av de mest omfattande och auktoritativa källorna av mänsklig gen anslutningar med ärftliga sjukdomar. OMIM initierades av Dr Victor A. McKusick att katalogisera sjukdomsassocierade genetiska mutationer40. OMIM omfattar nu över 15.000 mänskliga gener och över 8 500 fenotyper, per 31 December 1st 2017.

9. kommentera de kodade proteinerna och de post-translationella modifieringarna

  1. Kopiera och klistra in webblänken i databasen UniProtKB i en webbläsare och öppna webbsidan för denna databas. Sök en genens namn CD3D i rutan fråga ingående av UniProtKB och hitta anteckningar av denna gen från den databasen38, som visas i tabell 1 och figur 5 c.
    Obs: UniProtKB samlar en rik källa av anteckningar för proteiner, inklusive både nomenklaturen och funktionell information. Denna databas innehåller även externa länkar till andra utbredda databaser, inklusive PDB/PDB_REDO35, OMIM37och Pfam41.
  2. Kopiera och klistra in webblänken webbserverns GPS i en webbläsare och öppna webbsidan på denna webbserver. Hämta sekvensen protein som kodas av genen biomarkör CD3D från UniProtKB databas38 och förutsäga proteinets posttranslationella modifieringen (PTM) rester med verktyget online GPS, vilket visas i tabell 1 och figur 5 d.
    Obs: Ett biologiskt system är dynamisk och komplicerade, och de befintliga databaserna samla endast känd information. Därför, online-verktyg för biomedicinsk prognos liksom offline program kan ge användbar bevis för att komplettera en hypotetisk mekanism. GPS har varit utvecklade och förbättrade för över 12 år7,42 och kan användas för att förutsäga en proteinets PTM rester i en given peptid sekvens43,44. Det finns också verktyg för olika forskningsområden, inklusive förutsägelse av en proteinets subcellulär läge45 och transkription faktorn bindande motiv 46 bland andra.

10. kommentera Protein-Protein interaktioner och deras berikad funktionella moduler

  1. Kopiera och klistra in webblänken webbserverns sträng i en webbläsare och öppna webbsidan på denna webbserver. Sök i listan för generna CD3D och P53, och hitta sina iscensatt egenskaper använder databasen sträng47. Samma procedur kan utföras med en annan webbserver, DAVID32.
    Obs: Förutom ovannämnda anteckningarna för enskilda gener, det finns många storskaliga informatik verktyg tillgängliga för att undersöka egenskaperna för en grupp av gener. En nyligen genomförd studie visade att individuellt dåliga markörgener skulle utgöra en mycket bättre gen set5. Därför är det värt computational kostnaden till skärmen för mer komplicerade biomarkörer. Databasen sträng kan visualisera känd eller förutsedd interaktion anslutningarna och David servern kan identifiera de funktionella modulerna med betydande fenotyp-föreningar i efterfrågade gener47,32. Det finns även olika andra storskaliga informatik analysverktyg.

11. exportera genererade biomarkör delmängder och visualisering tomterna

  1. Exportera upptäckta biomarkör delmängder som en TSV eller CSV-textfil för vidare analys. Klicka på knappen exportera tabellen under bordet av alla upptäckta biomarkör delmängder och välja vilket textformat att spara som.
  2. Exportera visualisering tomterna som en bildfil. Klicka på knappen Spara under varje tomt och välja vilken image format att spara som.
    Obs: Programvaran stöder den pixel format .png och den vektor format .svg. Pixel bilder är bra för visning på skärmen, medan vektorbilder kan omvandlas till någon resolution krävs för tidning publikation ändamål.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Målet med detta arbetsflöde (figur 6) är att upptäcka flera biomarkör grupper med liknande effektivitetsvinster för en binär klassificering datamängd. Hela processen illustreras av två exempel datamängder hela1 och alla2 utvinns ur en nyligen publicerade biomarkör identifiering studera12,48. En användare kan installera kSolutionVis genom att följa instruktionerna i de kompletterande material.

Dataset ALL1 profilerade 12 625 transcriptomic dragen av 95 B-cell och 33 T-cell alla patientens blodprov. Medan datamängd alla2 upptäckt uttrycksnivåerna av 12 625 transcriptomic funktioner för 65 alla patienter som fått återfall efter behandling och 35 alla patienter som inte gjorde. För användarens bekvämlighet finns både transcriptomic datamängder och deras klass etiketter i version 1.4 av programvaran. Både datamängder är i underkatalogen ”data” av programvarans källkod kod katalog.

De två datamängderna, hela1 och alla2, var formaterad som CSV-filer och lastat in på programvaran med knapparna Load DataMatrix och belastning klass etiketter , som visas i figur 7A-B. Figur 7A visar alla 128 prover med 12 625 funktioner var lastade, som alla 128 prover har även klass etiketter. Slutliga DataMatrix har 95 negativa prover (B-cell alla) och 33 positiva prover (T-cell alla). Dessutom kan användare också avgöra vilket klass-etikett är positiv klass etiketten (figur 7A, botten). Om en klass etikettfil definierar mer än två klasser, kanske användare vill välja vilka två klass etiketter att undersöka. Liknande transaktioner genomfördes också för svårt datamängden alla2, som visas i figur 7B.

Värdet fördelningorna av funktionerna i matrisen uppgifter kan undersökas genom att klicka på knappen sammanfatta samtidigt söka efter ett specifikt nyckelord i funktionsnamnen, som visas i figur 8. Figur 8A visar histogrammet av funktionen 1012_at i datamängden hela1. Dessutom som kan ses i figur 8B, har den samma funktion 1012_at en liknande fördelning av uttryck i både datamängder. Om inga sökord angavs av användaren, anges några funktionsnamn för att hjälpa användare att välja vilka funktioner du vill sammanfatta.

Enklare datamängden hela1 långfilmen de toppa 10 rankade funktionerna (pTopX) för biomarkör undergrupper med den pMeasurement Acc ≥ 0,90 (pCutoff). Klicka på knappen Köroch algoritmen avrättades, och resultat som kan ses i figur 9A, illustrerades i nedre delen av programvaran efter några sekunder. Från detta, 120 kvalificerade biomarkör delmängder upptäcktes och som anges i den vänstra tabellen figur9a. Hela1 var en lätt-till-diskriminera datamängd, som har 57 triplett biomarkör undergrupper med 100% i Acc. Detta protokoll betonar existensen av flera liknande effektiva lösningar för en binär klassificering problem. Därför, den första 3D punktdiagram kan illustrera mer än 10 (parametern piFSNum) biomarkör delmängder, om de har den klassificering prestanda Acc (parametern pMeasurement) ≥ som av topp 10 rankade (parameter piFSNum ) biomarkör delmängd. Användaren kan också välja att visa färre biomarkör delmängder genom att ändra parametern piCutoff i parameterrutan ovanför tabellen i figur 9A. Manuell trimning av 3D tomterna finns i avsnittet Manuell inställning av 3D dot tomter i det kompletterande materialet.

Alla resultat kan dessutom exporteras som externa filer för vidare analys genom att klicka på knappen exportera tabellen under tabellen eller scatter tomterna, som visas i figur 9.

Den första biomarkör delmängden (38319_at, 38147_at och 33238_at) för datamängden hela1 valdes för funktionella undersökningar, som visas i figur 9A. Sök modulen av HÄCKNING (http://useast.ensembl.org/Multi/Search/New?db=core) kommenterade dessa tre funktioner som ett gen kluster av differentiering 3 delta (CD3D, 38319_at), signalering lymfatisk aktiveringen molekyl-associerad gen (SH2D1A, 38147_at ) och lymfocyter-specifika Protein-tyrosinkinas (LCK, 33238_at). Dessutom föreslog gen-sjukdom föreningen databasen OMIM37,40 att genen CD3D kodar den delta subuniten av T-cells antigen receptorn komplex och är involverad i de 11q23 flyttningar frekvent hos akut leukemi hos människor49,50. OMIM föreslog också att genetiska mutationer i genen SH2D1A i regionen kromosom i Xq25 kan vara associerade med B-cells leukemi51,52. Dessutom betonade OMIM också en möjlig T-cell alla associerade fusion händelse av LCK och beta T-cells receptor (TCRB)53. Användare kan undersöka andra funktionella aspekter av dessa biomarkörer med deras gen symboler, t.ex., gen funktion anteckningar i Entrez genen36, protein funktion anteckningar i UniProtKB38 eller Pfam41, 3D protein strukturer i PDB/PDB_REDO35och PTM rester i GPS-7,42,43,44. De samverkande sub nätverk (databasen sträng47) och berikade funktionella moduler (databas David32) kan också undersökas för dessa biomarkörer som en helhet. Olika andra databaser eller webbservrar kan också underlätta de anteckningar och i silico förutsägelser med hjälp av symboler eller primära genen och protein sekvenser av dessa gener.

Som kan ses i tabell 2, nödvändigheten av att upptäcka mer än en lösning med identiska eller liknande effektiva föreställningar är tydlig, med 57 grupper av funktioner med binär klassificering exaktheter av 100% mellan B-cell och T-cell alla prover. Dessa särskilda biomarkör delmängder kallades den perfekta lösningen. En hel del biomarkörer medverkat i dessa perfekta lösningar upprepade gånger, vilket tyder på att de kan utgöra viktiga skillnader, på molekylär nivå, mellan B - och T-cell alla. Om biomarkör identifiering algoritmen slutar på att upptäcka den första perfekta lösningen av tre gener CD3D/SH2D1A/LCK, kommer en annan perfekt lösning CD74/HLA-DPB1/PRKCQ att missas. Till exempel HLA-DPB1 är kända för att vara signifikant samband med pediatric T-cellen alla utom inte B-cell alla54.

De tre funktionerna av den första biomarkör delmängden av alla2 var kromatin församlingen faktor 1 subenhet B (CHAF1B, 36912_at), exonuclease 1 (EXO1, 36041_at), och signal givaren och aktivator av transkription 6 (STAT6, 41222_at). CHAF1B observerades för att uttryckas mycket i leukemi cellinjer och antikroppen mot CHAF1B kodade proteinet utvecklades betydligt i akut myeloisk leukemi (AML) patienter55. EXO1 försvann i vissa fall av akut leukemi56och uppreglerad i leukemi cell linje HL-60 [R]. Det har också visat att negativt reglera den alternativa förlängning av telomerer (ALT) väg, vilket underlättade bildandet av ALT-associerade PML (promyeloisk leukemi) organ (APBs)57. STAT6 var fosforyleras aktivera Pro överlevnad och proliferativ signalering utbildningsavsnitt i fall av recidiverande AML58. Tillsammans de tre generna var förknippade med utveckling och återfall i leukemi, men inga uttryckliga bevis publicerades på deras föreningar med de alla återfall. Detta kan utgöra ett intressant ämne för vidare utredning.

Samma anteckning procedur kan utföras på en biomarkör delmängd för hela1 och alla2. De tre biomarkörer som undersökts i ovanstående avsnitt identifierades inte som återfall biomarkörer i datamängden alla2, som visas i figur 9B. Detta tyder på att biomarkörer är fenotyp-specifika, vilket är en annan stor utmaning för biomarkör identifiering, tillsammans med förekomsten av flera liknande effektiva lösningar.

Några tekniska moduler var genomfört och beskrivs här för intresserade användare. Modulen fel hantering ger informativa meddelanden för användaren när fel uppstår under körningen av programvaran. De huvudsakliga felmeddelandena är listade och förklaras i ”felmeddelanden” i det kompletterande materialet. En parallell beräkning av biomarkörer genomfördes för datorer med mer än en CPU-kärna. De detaljerade förbättringarna av den rinnande tiden kan hittas i ”parallella rinnande tid” i det kompletterande materialet. Data tyder på att användningen av mer CPU-kärnor inte kan förbättra den rinnande tiden på grund av kostnaderna för att byta mellan olika CPU-kärnor.

Figure 1
Figur 1: exempel datamängden utvinns ur transkriptom datamängden hela1 har första sex funktioner för de första nio proverna av hela1. DataMatrix var formaterad i (a) formuläret visualisering, b tabbavgränsad textfil format och (c) kommaavgränsad textfil format. (d) klass etikettdata formaterades i formuläret visualisering. Beror på fliken karaktär är osynlig, det är illustreras som [TAB] (b). Kolumnen plattform ger microarray plattformen Affy i (b), och är inte en kolumn med data som krävs. Klicka här för att se en större version av denna siffra.

Figure 2
Figur 2: grafiskt användargränssnitt programvaran. Baslinjen statistiken sammanfattas i den övre vänstra rutan. Användare kan söka efter funktioner av intresse och undersöka värdet fördelningarna i två rätt boxar. Alla parametrar för biomarkör identifiering förfarande kan stämmas i den mittersta vågräta fältet. Alla biomarkör delmängder och deras motsvarande visualiserade distributioner kan hittas i den nedre delen. Klicka här för att se en större version av denna siffra.

Figure 3
Figur 3: biomarkör underdelar och deras visualiseringar genereras. Användare kan ytterligare förfina bordet och två 3D spridningsdiagram med hjälp av parametrarna piCutoff och piFSNum. Klicka här för att se en större version av denna siffra.

Figure 4
Figur 4: gen anteckningar av funktionen-ID har påträffats i denna studie. Ta de tre funktionen ID 38319_at/38147_at/33238_at av den första biomarkör delmängden av datamängden hela1. (a) få ID konvertering modul genom att klicka på länken Gen ID konvertering. (b) input funktionen ID: N i den röda rutan 1, Välj den funktionen i röda boxen 2 (standard ”AFFYMETRIX_3PRIME_IVT_ID” är korrekt för denna studie), välja Genen lista i röd ruta 3 och klicka på Skicka lista i den röda rutan-4. (c) få alla funktionella anteckningarna i sidan och klicka på Visa gen lista för att få dessa efterfrågade funktioner gen symboler. (d) få gen symbolerna ID som efterfrågade funktionen. Klicka här för att se en större version av denna siffra.

Figure 5
Figur 5: anteckningar och anrikning analys av upptäckta funktionen delmängder. (a) genen anteckningar från Gene Card. (B) OMIM beskriver sjukdomen sammanslutningarna för varje funktion/gen. (c) kommentera det protein som kodas av genen sevärdheter i databasen UniProtKB. (d) förutsäga tyrosin fosforylering rester i viss proteinet med verktyget online GPS. En röd ruta lades till Visa användaren var att klicka för att mata in query data. Den primära sekvensen av proteinet exempel CD3D kan vara Hämtad som FASTA format från den röda rutan i (c), och ingång i query-fönstret genom att klicka på den röda rutan i (d). Klicka här för att se en större version av denna siffra.

Figure 6
Figur 6: arbetsflöde för kSolutionVis. Varje modul av programvaran beskrevs ovan protokollet. Klicka här för att se en större version av denna siffra.

Figure 7
Figur 7: Baseline statistiken för de två representativa datamängderna. Antalet prover, funktioner och klasser i a hela1 och (b) alla2 beräknas. Filstorleken på matrix och klass dataetiketterna upptäcks också. Och en ny DataMatrix utvinns från proverna med klass etiketter. Klicka här för att se en större version av denna siffra.

Figure 8
Figur 8: Histogram visualisering av den funktionen 1012_at i de två datamängderna. Både baslinjen statistik och histogram genererades för hela1 (a) och (b) alla2. Klicka här för att se en större version av denna siffra.

Figure 9
Figur 9: biomarkör underdelar och scatter tomterna av de två datamängderna. Användare kan ändra parametrarna i den andra raden av parametern rutor för att ytterligare förfina listor över biomarkör delmängder och 3D punktdiagram tomter för datamängder (a) hela1 och (b) alla2. Klicka här för att se en större version av denna siffra.

Webbplats Länk Funktionalitet
GeneCards http://www.genecards.org/cgi-bin/carddisp.pl?Gene=CD3D Gen anteckning
OMIM https://OMIM.org/Entry/186790?search=CD3D&highlight=cd3d Gen-förening
UniProtKB http://www.Uniprot.org/Uniprot/P04234 Protein anteckning
GPS http://GPS.biocuckoo.org/ Proteinets PTM förutsägelse
Sträng https://String-dB.org/ Protein-protein interaktioner
David https://David.ncifcrf.gov/ Gen Set-anrikning analys

Tabell 1. Webbplatser för att kommentera och analysera de upptäckta biomarkörer. En lista över användbara online-verktyg som hjälper kommentera de upptäckta biomarkörer.

F1 F2 F3 ACC Symbol1 Symbol2 Symbol3
38319_at 38147_at 33238_at 1,0000 CD3D SH2D1A LCK
33238_at 35016_at 37039_at 1,0000 LCK CD74 HLA-DRA
38147_at 33238_at 35016_at 1,0000 SH2D1A LCK CD74
38147_at 33238_at 2059_s_at 1,0000 SH2D1A LCK LCK
38147_at 33238_at 37039_at 1,0000 SH2D1A LCK HLA-DRA
38147_at 33238_at 38095_i_at 1,0000 SH2D1A LCK HLA-DPB1
38147_at 33238_at 33039_at 1,0000 SH2D1A LCK TRAT1
38147_at 35016_at 2059_s_at 1,0000 SH2D1A CD74 LCK
38147_at 35016_at 33039_at 1,0000 SH2D1A CD74 TRAT1
38147_at 35016_at 38949_at 1,0000 SH2D1A CD74 PRKCQ
38147_at 2059_s_at 37039_at 1,0000 SH2D1A LCK HLA-DRA
38147_at 2059_s_at 38095_i_at 1,0000 SH2D1A LCK HLA-DPB1
38147_at 37039_at 33039_at 1,0000 SH2D1A HLA-DRA TRAT1
38147_at 37039_at 38949_at 1,0000 SH2D1A HLA-DRA PRKCQ
38319_at 38147_at 35016_at 1,0000 CD3D SH2D1A CD74
38147_at 38833_at 38949_at 1,0000 SH2D1A HLA-DPA1 PRKCQ
33238_at 35016_at 33039_at 1,0000 LCK CD74 TRAT1
38319_at 38833_at 38949_at 1,0000 CD3D HLA-DPA1 PRKCQ
33238_at 35016_at 38949_at 1,0000 LCK CD74 PRKCQ
33238_at 2059_s_at 37039_at 1,0000 LCK LCK HLA-DRA
33238_at 37039_at 38095_i_at 1,0000 LCK HLA-DRA HLA-DPB1
33238_at 37039_at 33039_at 1,0000 LCK HLA-DRA TRAT1
33238_at 37039_at 38949_at 1,0000 LCK HLA-DRA PRKCQ
33238_at 38095_i_at 38949_at 1,0000 LCK HLA-DPB1 PRKCQ
33238_at 38833_at 38949_at 1,0000 LCK HLA-DPA1 PRKCQ
33238_at 33039_at 38949_at 1,0000 LCK TRAT1 PRKCQ
35016_at 2059_s_at 33039_at 1,0000 CD74 LCK TRAT1
35016_at 2059_s_at 38949_at 1,0000 CD74 LCK PRKCQ
35016_at 38095_i_at 38949_at 1,0000 CD74 HLA-DPB1 PRKCQ
2059_s_at 37039_at 33039_at 1,0000 LCK HLA-DRA TRAT1
2059_s_at 38095_i_at 38949_at 1,0000 LCK HLA-DPB1 PRKCQ
2059_s_at 38833_at 38949_at 1,0000 LCK HLA-DPA1 PRKCQ
38319_at 33039_at 38949_at 1,0000 CD3D TRAT1 PRKCQ
38147_at 38095_i_at 38949_at 1,0000 SH2D1A HLA-DPB1 PRKCQ
38319_at 33238_at 38833_at 1,0000 CD3D LCK HLA-DPA1
38319_at 2059_s_at 38833_at 1,0000 CD3D LCK HLA-DPA1
38319_at 33238_at 33039_at 1,0000 CD3D LCK TRAT1
38319_at 33238_at 38095_i_at 1,0000 CD3D LCK HLA-DPB1
38319_at 33238_at 37039_at 1,0000 CD3D LCK HLA-DRA
38319_at 35016_at 38833_at 1,0000 CD3D CD74 HLA-DPA1
38319_at 33238_at 2059_s_at 1,0000 CD3D LCK LCK
38319_at 35016_at 33039_at 1,0000 CD3D CD74 TRAT1
38319_at 33238_at 35016_at 1,0000 CD3D LCK CD74
38319_at 35016_at 38949_at 1,0000 CD3D CD74 PRKCQ
38319_at 2059_s_at 37039_at 1,0000 CD3D LCK HLA-DRA
38319_at 38147_at 38949_at 1,0000 CD3D SH2D1A PRKCQ
38319_at 38147_at 33039_at 1,0000 CD3D SH2D1A TRAT1
38319_at 33238_at 38949_at 1,0000 CD3D LCK PRKCQ
38319_at 2059_s_at 38095_i_at 1,0000 CD3D LCK HLA-DPB1
38319_at 38147_at 38833_at 1,0000 CD3D SH2D1A HLA-DPA1
38319_at 2059_s_at 33039_at 1,0000 CD3D LCK TRAT1
38319_at 38147_at 38095_i_at 1,0000 CD3D SH2D1A HLA-DPB1
38319_at 37039_at 33039_at 1,0000 CD3D HLA-DRA TRAT1
38319_at 38147_at 37039_at 1,0000 CD3D SH2D1A HLA-DRA
38319_at 38147_at 2059_s_at 1,0000 CD3D SH2D1A LCK
38319_at 2059_s_at 38949_at 1,0000 CD3D LCK PRKCQ
38319_at 35016_at 2059_s_at 1,0000 CD3D CD74 LCK
2059_s_at 37039_at 38095_i_at 0.9922 LCK HLA-DRA HLA-DPB1
35016_at 33039_at 38949_at 0.9922 CD74 TRAT1 PRKCQ
2059_s_at 37039_at 38949_at 0.9922 LCK HLA-DRA PRKCQ
35016_at 2059_s_at 37039_at 0.9922 CD74 LCK HLA-DRA
35016_at 37039_at 38949_at 0.9922 CD74 HLA-DRA PRKCQ
35016_at 38833_at 38949_at 0.9922 CD74 HLA-DPA1 PRKCQ
2059_s_at 33039_at 38949_at 0.9922 LCK TRAT1 PRKCQ
37039_at 38833_at 38949_at 0.9922 HLA-DRA HLA-DPA1 PRKCQ
37039_at 33039_at 38949_at 0.9922 HLA-DRA TRAT1 PRKCQ
38319_at 38095_i_at 38949_at 0.9922 CD3D HLA-DPB1 PRKCQ
33238_at 37039_at 38833_at 0.9922 LCK HLA-DRA HLA-DPA1
38095_i_at 33039_at 38949_at 0.9922 HLA-DPB1 TRAT1 PRKCQ
33238_at 2059_s_at 38949_at 0.9922 LCK LCK PRKCQ
38319_at 38833_at 33039_at 0.9922 CD3D HLA-DPA1 TRAT1
38833_at 33039_at 38949_at 0.9922 HLA-DPA1 TRAT1 PRKCQ
38147_at 33039_at 38949_at 0.9922 SH2D1A TRAT1 PRKCQ
38319_at 37039_at 38833_at 0.9922 CD3D HLA-DRA HLA-DPA1
38147_at 2059_s_at 38949_at 0.9922 SH2D1A LCK PRKCQ
38147_at 38095_i_at 38833_at 0.9922 SH2D1A HLA-DPB1 HLA-DPA1
38147_at 33238_at 38949_at 0.9922 SH2D1A LCK PRKCQ
38147_at 2059_s_at 33039_at 0.9922 SH2D1A LCK TRAT1
38319_at 37039_at 38949_at 0.9922 CD3D HLA-DRA PRKCQ
38319_at 38095_i_at 38833_at 0.9922 CD3D HLA-DPB1 HLA-DPA1
38147_at 2059_s_at 38833_at 0.9922 SH2D1A LCK HLA-DPA1
33238_at 35016_at 2059_s_at 0.9922 LCK CD74 LCK
38319_at 35016_at 38095_i_at 0.9922 CD3D CD74 HLA-DPB1
33238_at 35016_at 38095_i_at 0.9922 LCK CD74 HLA-DPB1
38319_at 35016_at 37039_at 0.9922 CD3D CD74 HLA-DRA
38147_at 33238_at 38833_at 0.9922 SH2D1A LCK HLA-DPA1
38147_at 37039_at 38095_i_at 0.9844 SH2D1A HLA-DRA HLA-DPB1
38147_at 35016_at 38833_at 0.9844 SH2D1A CD74 HLA-DPA1
38147_at 35016_at 38095_i_at 0.9844 SH2D1A CD74 HLA-DPB1
35016_at 2059_s_at 38095_i_at 0.9844 CD74 LCK HLA-DPB1
38147_at 37039_at 38833_at 0.9844 SH2D1A HLA-DRA HLA-DPA1
35016_at 2059_s_at 38833_at 0.9844 CD74 LCK HLA-DPA1
38319_at 37039_at 38095_i_at 0.9844 CD3D HLA-DRA HLA-DPB1
37039_at 38095_i_at 38949_at 0.9844 HLA-DRA HLA-DPB1 PRKCQ
38147_at 38833_at 33039_at 0.9844 SH2D1A HLA-DPA1 TRAT1
38095_i_at 38833_at 38949_at 0.9844 HLA-DPB1 HLA-DPA1 PRKCQ
33238_at 35016_at 38833_at 0.9844 LCK CD74 HLA-DPA1
38319_at 38095_i_at 33039_at 0.9844 CD3D HLA-DPB1 TRAT1
2059_s_at 37039_at 38833_at 0.9844 LCK HLA-DRA HLA-DPA1
2059_s_at 38833_at 33039_at 0.9766 LCK HLA-DPA1 TRAT1
2059_s_at 38095_i_at 33039_at 0.9766 LCK HLA-DPB1 TRAT1
2059_s_at 38095_i_at 38833_at 0.9766 LCK HLA-DPB1 HLA-DPA1
33238_at 2059_s_at 38095_i_at 0.9766 LCK LCK HLA-DPB1
35016_at 38095_i_at 33039_at 0.9766 CD74 HLA-DPB1 TRAT1
38147_at 38095_i_at 33039_at 0.9766 SH2D1A HLA-DPB1 TRAT1
33238_at 2059_s_at 33039_at 0.9766 LCK LCK TRAT1
35016_at 37039_at 33039_at 0.9766 CD74 HLA-DRA TRAT1
33238_at 38095_i_at 33039_at 0.9766 LCK HLA-DPB1 TRAT1
33238_at 38833_at 33039_at 0.9766 LCK HLA-DPA1 TRAT1
35016_at 38833_at 33039_at 0.9766 CD74 HLA-DPA1 TRAT1
33238_at 38095_i_at 38833_at 0.9688 LCK HLA-DPB1 HLA-DPA1
37039_at 38833_at 33039_at 0.9688 HLA-DRA HLA-DPA1 TRAT1
38147_at 35016_at 37039_at 0.9688 SH2D1A CD74 HLA-DRA
33238_at 2059_s_at 38833_at 0.9688 LCK LCK HLA-DPA1
37039_at 38095_i_at 33039_at 0.9688 HLA-DRA HLA-DPB1 TRAT1
38095_i_at 38833_at 33039_at 0.9609 HLA-DPB1 HLA-DPA1 TRAT1
35016_at 38095_i_at 38833_at 0.9609 CD74 HLA-DPB1 HLA-DPA1
37039_at 38095_i_at 38833_at 0.9531 HLA-DRA HLA-DPB1 HLA-DPA1
35016_at 37039_at 38095_i_at 0.9531 CD74 HLA-DRA HLA-DPB1
35016_at 37039_at 38833_at 0.9531 CD74 HLA-DRA HLA-DPA1

Tabell 2. Anteckningar av alla funktioner från datamängden hela1. Detta är en binär klassificering datamängd mellan B-cell och T-cell alla prover. Gen symbolerna samlades för alla microarray funktioner i de tre sista kolumnerna.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Denna studie presenterar ett lätt att följa flera lösning biomarkör identifiering och karakterisering protokoll för en användarspecificerad binär klassificering datamängd. Programmet sätter fokus på användarvänlighet och flexibla import och export gränssnitt för olika filformat, så att en biomedicinsk forskare att undersöka deras dataset som enkelt använda GUI av programvaran. Denna studie betonar också nödvändigheten av att generera mer än en lösning med likaså effektiv modellering föreställningar, tidigare ignorerade av många befintliga biomarkör identifiering algoritmer. I framtiden, innefatta nyutvecklade biomarkör detekteringsalgoritmer detta alternativ genom att registrera alla mellanliggande biomarkör delmängder med tillräcklig modellering föreställningar.

I detta protokoll är steg 1 och 5 av mest betydelse, eftersom programvaran är ett helautomatiskt system som bygger på korrekt formaterade indatafiler. Det konstaterades att under vårt test steg, mis-match prov namn från DataMatrix och etiketter klassfiler kan orsaka fel i programvaran, där mjukvaran vilja popmusik ute en varningsruta om felet. Därför, om användaren finner inga Prover var lastade från DataMatrix eller etikett klassfiler, felsökning Tricket är att dubbelkolla om namnen på prov i de två indatafilerna är inkonsekvent. Om inga prickar var visualiserat i de 3D spridningsdiagram, kan detta bero på den parameter pCutoff är högre än den bästa lösningen. I detta fall felsökning Tricket är att sänka cutoff av klassificering prestandamätningen (parametern pCutoff). Dock kan maximal prestandamätning genom biomarkör delmängder blockeras fortfarande av cutoff för en svårt datamängd. En varningsdialogruta ger detta bästa resultatmätning, och användaren kan välja en mindre cutoff att fortsätta ytterligare analys.

De viktigaste begränsningarna av programvaran är dess långsamma beräkningshastighet och dess förmåga att bara fokusera på, som mest tre funktioner. Funktionsurval är en NP-hard problem definieras som ett computational problem vars globalt optimal lösning inte kan lösas inom polynom tid59. Den omfattande biomarkör delmängd screening steg förbrukar en stor mängd datorkraft. Den rinnande tiden komplexitet kSolutionVis är O (n3) där n är den parametern pTopX. Dessutom fokuserar denna multipel-biomarkör upptäckt algoritm på visualisera skärmen av funktioner, därför begränsa antalet funktioner till tre eller färre. Denna begränsning kan hindra vissa användare som kan arbeta med svåra problem och vill hitta funktionen grupper bestående av fler än tre funktioner. Men programvaran visualiserar funktionen delmängder i 3D rymden och det är svårt att direkt visualisera funktionen delmängder i mer än tre dimensioner. Baserat på de representativa resultat som presenteras ovan, flera funktionen trillingarna valts av kSolutionVis är en mycket effektiv metod i klassificering och visar betydande resultat med viktiga biomedicinska menande, dessutom.

Programvaran representerar användbar kompletterande mjukvara till de befintliga funktionen urval algoritmerna. Inom biomedicin, funktionen valet benämns biomarkör, med målet att hitta en delmängd av funktionerna att uppnå förbättrad modellering prestanda60,61,62. Programvaran är ett heltäckande screeningverktyg för alla triplett biomarkör delmängder baserat på den strategi som föreslås i en senare studie5. De två representativa datamängderna säkerhetskontrolleras med programvarans protokoll, och deras resultat visar existenserna av en hel del lösningar med lika effektiva eller till och med identiska modellering föreställningar. Heuristiska regler63,64,65,66 kan användas för att hitta optimala lösningar, men sådana algoritmer har en stark tendens att producera bara en lösning, ignorerar många andra lösningar med lika effektiva eller till och med identiska modellering föreställningar. Datorkraften och den långa rinnande tiden av programvaran är därför värt att säkerställa ett mer omfattande upptäckt av potentiella biomarkörer i framtiden.

De representativa resultat beräknades på två transkriptom datamängder, men programvara handtagen mata in data i olika format som standard och kan också användas för att analysera andra 'miska' datauppsättningar, inklusive Proteomik och metabolomik. Dessutom kan parallelization påskynda beräkningen av modulen biomarkör identifiering i programvaran. Det finns vissa multi-core maskinvara inklusive GPGPU (General-Purpose grafisk bearbetning Unite) och Intel Xeon Phi processorer tillgänglig för detta ändamål. Men dessa tekniker kräver olika kodning strategier och kommer att behandlas i nästa version av programvaran.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Vi har inga intressekonflikter som relaterade till detta betänkande.

Acknowledgments

Detta arbete stöds av prioriterade strategiska forskningsprogrammet av Chinese Academy of Sciences (XDB13040400) och start bidraget från Jilin University. Anonyma recensioner och biomedicinsk tester användare uppskattades för deras konstruktiva kommentarer på förbättrad användbarhet och funktionalitet i kSolutionVis.

Materials

Name Company Catalog Number Comments
Hardware
laptop Lenovo X1 carbon Any computer works. Recommended minimum configuration: 1GB extra hard disk space, 1 GB memory, 2.0MHz CPU
Name Company Catalog Number Comments
Software
Python 3.0 WingWare Wing Personal Any python programming and running environments support Python version 3.0 or above

DOWNLOAD MATERIALS LIST

References

  1. Heckerman, D., et al. Genetic variants associated with physical performance and anthropometry in old age: a genome-wide association study in the ilSIRENTE cohort. Scientific Reports. 7, 15879 (2017).
  2. Li, Z., et al. Genome-wide association analysis identifies 30 new susceptibility loci for schizophrenia. Nature Genetics. 49, 1576-1583 (2017).
  3. Winkler, T. W., et al. Quality control and conduct of genome-wide association meta-analyses. Nature Protocols. 9, 1192-1212 (2014).
  4. Harrison, R. N. S., et al. Development of multivariable models to predict change in Body Mass Index within a clinical trial population of psychotic individuals. Scientific Reports. 7, 14738 (2017).
  5. Liu, J., et al. Multiple similarly-well solutions exist for biomedical feature selection and classification problems. Scientific Reports. 7, 12830 (2017).
  6. Ye, Y., Zhang, R., Zheng, W., Liu, S., Zhou, F. RIFS: a randomly restarted incremental feature selection algorithm. Scientific Reports. 7, 13013 (2017).
  7. Zhou, F. F., Xue, Y., Chen, G. L., Yao, X. GPS: a novel group-based phosphorylation predicting and scoring method. Biochemical and Biophysical Research Communications. 325, 1443-1448 (2004).
  8. Sanchez, B. N., Wu, M., Song, P. X., Wang, W. Study design in high-dimensional classification analysis. Biostatistics. 17, 722-736 (2016).
  9. Shujie, M. A., Carroll, R. J., Liang, H., Xu, S. Estimation and Inference in Generalized Additive Coefficient Models for Nonlinear Interactions with High-Dimensional Covariates. Annals of Statistics. 43, 2102-2131 (2015).
  10. Li, J. H., et al. MiR-205 as a promising biomarker in the diagnosis and prognosis of lung cancer. Oncotarget. 8, 91938-91949 (2017).
  11. Lyskjaer, I., Rasmussen, M. H., Andersen, C. L. Putting a brake on stress signaling: miR-625-3p as a biomarker for choice of therapy in colorectal cancer. Epigenomics. 8, 1449-1452 (2016).
  12. Ge, R., et al. McTwo: a two-step feature selection algorithm based on maximal information coefficient. BMC Bioinformatics. 17, 142 (2016).
  13. Tumuluru, J. S., McCulloch, R. Application of Hybrid Genetic Algorithm Routine in Optimizing Food and Bioengineering Processes. Foods. 5, (2016).
  14. Gen, M., Cheng, R., Lin, L. Network models and optimization: Multiobjective genetic algorithm approach. , Springer Science & Business Media. (2008).
  15. Radovic, M., Ghalwash, M., Filipovic, N., Obradovic, Z. Minimum redundancy maximum relevance feature selection approach for temporal gene expression data. BMC Bioinformatics. 18, 9 (2017).
  16. Ciuculete, D. M., et al. A methylome-wide mQTL analysis reveals associations of methylation sites with GAD1 and HDAC3 SNPs and a general psychiatric risk score. Translational Psychiatry. 7, e1002 (2017).
  17. Lin, H., et al. Methylome-wide Association Study of Atrial Fibrillation in Framingham Heart Study. Scientific Reports. 7, 40377 (2017).
  18. Wang, S., Li, J., Yuan, F., Huang, T., Cai, Y. D. Computational method for distinguishing lysine acetylation, sumoylation, and ubiquitination using the random forest algorithm with a feature selection procedure. combinatorial chemistry & high throughput screening. , (2017).
  19. Zhang, Q., et al. Predicting Citrullination Sites in Protein Sequences Using mRMR Method and Random Forest Algorithm. combinatorial chemistry & high throughput screening. 20, 164-173 (2017).
  20. Cuena-Lombrana, A., Fois, M., Fenu, G., Cogoni, D., Bacchetta, G. The impact of climatic variations on the reproductive success of Gentiana lutea L. in a Mediterranean mountain area. International journal of biometeorology. , (2018).
  21. Coghe, G., et al. Fatigue, as measured using the Modified Fatigue Impact Scale, is a predictor of processing speed improvement induced by exercise in patients with multiple sclerosis: data from a randomized controlled trial. Journal of Neurology. , (2018).
  22. Hong, H., et al. Applying genetic algorithms to set the optimal combination of forest fire related variables and model forest fire susceptibility based on data mining models. The case of Dayu County, China. Science of the Total Environment. 630, 1044-1056 (2018).
  23. Borges, D. L., et al. Photoanthropometric face iridial proportions for age estimation: An investigation using features selected via a joint mutual information criterion. Forensic Science International. 284, 9-14 (2018).
  24. Kohavi, R., John, G. H. Wrappers for feature subset selection. Artificial intelligence. 97, 273-324 (1997).
  25. Yu, L., Liu, H. Efficient feature selection via analysis of relevance and redundancy. Journal of machine learning research. 5, 1205-1224 (2004).
  26. Wexler, R. B., Martirez, J. M. P., Rappe, A. M. Chemical Pressure-Driven Enhancement of the Hydrogen Evolving Activity of Ni2P from Nonmetal Surface Doping Interpreted via Machine Learning. Journal of American Chemical Society. , (2018).
  27. Wijaya, S. H., Batubara, I., Nishioka, T., Altaf-Ul-Amin, M., Kanaya, S. Metabolomic Studies of Indonesian Jamu Medicines: Prediction of Jamu Efficacy and Identification of Important Metabolites. Molecular Informatics. 36, (2017).
  28. Shangkuan, W. C., et al. Risk analysis of colorectal cancer incidence by gene expression analysis. PeerJ. 5, e3003 (2017).
  29. Chu, C. M., et al. Gene expression profiling of colorectal tumors and normal mucosa by microarrays meta-analysis using prediction analysis of microarray, artificial neural network, classification, and regression trees. Disease Markers. , 634123 (2014).
  30. Fleuret, F. Fast binary feature selection with conditional mutual information. Journal of Machine Learning Research. 5, 1531-1555 (2004).
  31. Pacheco, J., Alfaro, E., Casado, S., Gámez, M., García, N. A GRASP method for building classification trees. Expert Systems with Applications. 39, 3241-3248 (2012).
  32. Jiao, X., et al. DAVID-WS: a stateful web service to facilitate gene/protein list analysis. Bioinformatics. 28, 1805-1806 (2012).
  33. Rappaport, N., et al. Rational confederation of genes and diseases: NGS interpretation via GeneCards, MalaCards and VarElect. Biomedical Engineering OnLine. 16, 72 (2017).
  34. Rebhan, M., Chalifa-Caspi, V., Prilusky, J., Lancet, D. GeneCards: integrating information about genes, proteins and diseases. Trends in Genet. 13, 163 (1997).
  35. Joosten, R. P., Long, F., Murshudov, G. N., Perrakis, A. The PDB_REDO server for macromolecular structure model optimization. IUCrJ. 1, 213-220 (2014).
  36. Maglott, D., Ostell, J., Pruitt, K. D., Tatusova, T. Entrez Gene: gene-centered information at NCBI. Nucleic Acids Research. 39, D52-D57 (2011).
  37. Amberger, J. S., Bocchini, C. A., Schiettecatte, F., Scott, A. F., Hamosh, A. OMIM.org: Online Mendelian Inheritance in Man (OMIM(R)), an online catalog of human genes and genetic disorders. Nucleic Acids Research. 43, D789-D798 (2015).
  38. Boutet, E., et al. the Manually Annotated Section of the UniProt KnowledgeBase: How to Use the Entry View. Methods in Molecular Biology. 1374, 23-54 (2016).
  39. Zerbino, D. R., et al. Ensembl 2018. Nucleic Acids Res. , (2017).
  40. McKusick, V. A., Amberger, J. S. The morbid anatomy of the human genome: chromosomal location of mutations causing disease. Journal of Medical Genetics. 30, 1-26 (1993).
  41. Finn, R. D., et al. The Pfam protein families database: towards a more sustainable future. Nucleic Acids Research. 44, D279-D285 (2016).
  42. Xue, Y., et al. GPS: a comprehensive www server for phosphorylation sites prediction. Nucleic Acids Research. 33, W184-W187 (2005).
  43. Deng, W., et al. GPS-PAIL: prediction of lysine acetyltransferase-specific modification sites from protein sequences. Scientific Reports. 6, 39787 (2016).
  44. Zhao, Q., et al. GPS-SUMO: a tool for the prediction of sumoylation sites and SUMO-interaction motifs. Nucleic Acids Research. 42, W325-W330 (2014).
  45. Wan, S., Duan, Y., Zou, Q. HPSLPred: An Ensemble Multi-Label Classifier for Human Protein Subcellular Location Prediction with Imbalanced Source. Proteomics. 17, (2017).
  46. Zhang, H., Zhu, L., Huang, D. S. WSMD: weakly-supervised motif discovery in transcription factor ChIP-seq data. Scientific Reports. 7, 3217 (2017).
  47. Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, D447-D452 (2015).
  48. Chiaretti, S., et al. Gene expression profile of adult T-cell acute lymphocytic leukemia identifies distinct subsets of patients with different response to therapy and survival. Blood. 103, 2771-2778 (2004).
  49. Rowley, J. D., et al. Mapping chromosome band 11q23 in human acute leukemia with biotinylated probes: identification of 11q23 translocation breakpoints with a yeast artificial chromosome. Proceedings of the National Academy of Sciences of the United States of America. 87, 9358-9362 (1990).
  50. Rabbitts, T. H., et al. The chromosomal location of T-cell receptor genes and a T cell rearranging gene: possible correlation with specific translocations in human T cell leukaemia. Embo Journal. 4, 1461-1465 (1985).
  51. Yin, L., et al. SH2D1A mutation analysis for diagnosis of XLP in typical and atypical patients. Human Genetics. 105, 501-505 (1999).
  52. Brandau, O., et al. Epstein-Barr virus-negative boys with non-Hodgkin lymphoma are mutated in the SH2D1A gene, as are patients with X-linked lymphoproliferative disease (XLP). Human Molecular Genetics. 8, 2407-2413 (1999).
  53. Burnett, R. C., Thirman, M. J., Rowley, J. D., Diaz, M. O. Molecular analysis of the T-cell acute lymphoblastic leukemia-associated t(1;7)(p34;q34) that fuses LCK and TCRB. Blood. 84, 1232-1236 (1994).
  54. Taylor, G. M., et al. Genetic susceptibility to childhood common acute lymphoblastic leukaemia is associated with polymorphic peptide-binding pocket profiles in HLA-DPB1*0201. Human Molecular Genetics. 11, 1585-1597 (2002).
  55. Wadia, P. P., et al. Antibodies specifically target AML antigen NuSAP1 after allogeneic bone marrow transplantation. Blood. 115, 2077-2087 (2010).
  56. Wilson, D. M., et al. 3rd et al. Hex1: a new human Rad2 nuclease family member with homology to yeast exonuclease 1. Nucleic Acids Research. 26, 3762-3768 (1998).
  57. O'Sullivan, R. J., et al. Rapid induction of alternative lengthening of telomeres by depletion of the histone chaperone ASF1. Nature Structural & Molecular Biology. 21, 167-174 (2014).
  58. Lee-Sherick, A. B., et al. Aberrant Mer receptor tyrosine kinase expression contributes to leukemogenesis in acute myeloid leukemia. Oncogene. 32, 5359-5368 (2013).
  59. Guyon, I., Elisseeff, A. An introduction to variable and feature selection. Journal of machine learning research. 3, 1157-1182 (2003).
  60. John, G. H., Kohavi, R., Pfleger, K. Machine learning: proceedings of the eleventh international conference. , 121-129 (1994).
  61. Jain, A., Zongker, D. Feature selection: Evaluation, application, and small sample performance. IEEE transactions on pattern analysis and machine intelligence. 19, 153-158 (1997).
  62. Taylor, S. L., Kim, K. A jackknife and voting classifier approach to feature selection and classification. Cancer Informatics. 10, 133-147 (2011).
  63. Andresen, K., et al. Novel target genes and a valid biomarker panel identified for cholangiocarcinoma. Epigenetics. 7, 1249-1257 (2012).
  64. Guo, P., et al. Gene expression profile based classification models of psoriasis. Genomics. 103, 48-55 (2014).
  65. Xie, J., Wang, C. Using support vector machines with a novel hybrid feature selection method for diagnosis of erythemato-squamous diseases. Expert Systems with Applications. 38, 5809-5815 (2011).
  66. Zou, Q., Zeng, J., Cao, L., Ji, R. A novel features ranking metric with application to scalable visual and bioinformatics data classification. Neurocomputing. 173, 346-354 (2016).

Tags

Cancerforskning fråga 140 biomarkör identifiering Funktionsurval miska binär klassificering filter wrapper extrema lärande maskin ELM
Att välja flera biomarkör grupper med liknande effektiva binär klassificering föreställningar
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Feng, X., Wang, S., Liu, Q., Li, H., More

Feng, X., Wang, S., Liu, Q., Li, H., Liu, J., Xu, C., Yang, W., Shu, Y., Zheng, W., Yu, B., Qi, M., Zhou, W., Zhou, F. Selecting Multiple Biomarker Subsets with Similarly Effective Binary Classification Performances. J. Vis. Exp. (140), e57738, doi:10.3791/57738 (2018).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter