Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Cancer Research

Selecteren van meerdere Biomarker Subsets met ook effectieve binaire indeling optredens

Published: October 11, 2018 doi: 10.3791/57738

Summary

Bestaande algoritmen genereren een oplossing voor een biomarker detectie dataset. Dit protocol blijkt van het bestaan van meerdere ook doeltreffende oplossingen en presenteert een gebruikersvriendelijke software om te helpen biomedische onderzoekers onderzoeken hun datasets voor de voorgestelde challenge. Computerwetenschappers kunnen deze functie in hun biomerker ook detectie algoritmen.

Abstract

Biomerker detectie is een van de meer belangrijke biomedische vragen voor high-throughput 'omics' onderzoekers, en bijna alle bestaande biomerker detectie algoritmen genereren een biomarker subset met de geoptimaliseerde prestatiemeting voor een gegeven dataset . Een recente studie blijkt echter het bestaan van meerdere biomerker deelverzamelingen met ook doeltreffend of zelfs identieke indeling optredens. Dit protocol biedt een eenvoudige en ongecompliceerde methode voor het opsporen van biomerker deelverzamelingen met binaire indeling optredens, beter dan een door de gebruiker gedefinieerde cutoff. Het protocol bestaat uit gegevensvoorbereiding en laden, basislijn informatie Samenvattingsstructuur parameter tuning, biomerker screening, resultaat visualisatie en interpretatie, biomerker gene aantekeningen en resultaat en visualisatie uitvoer op kwaliteit van de publicatie. De voorgestelde biomerker screening strategie is intuïtief en toont een algemene regel voor het ontwikkelen van biomerker detectie algoritmen. Een gebruiksvriendelijke grafische user interface (GUI) werd ontwikkeld met behulp van de programmeertaal Python, waardoor biomedische onderzoekers directe toegang hebben tot hun resultaten. De broncode en de handleiding van kSolutionVis kunnen worden gedownload van http://www.healthinformaticslab.org/supp/resources.php.

Introduction

Binaire indeling, een van de meest algemeen onderzocht en uitdagende data mining problemen op het gebied van biomedische, worden gebruikt voor het bouwen van een model van de classificatie getraind op twee groepen van monsters met de meest nauwkeurige discriminatie macht1, 2 , 3 , 4 , 5 , 6 , 7. de grote gegevens gegenereerd op het gebied van biomedische heeft echter de inherente "grote p kleine n" paradigma, met het aantal functies meestal veel groter dan het aantal monsters6,8,9. Daarom moeten biomedische onderzoekers beperken de functie dimensie vóór gebruik te maken van de classificatie-algoritmen om te voorkomen dat de overfitting probleem8,9. Diagnose biomarkers worden gedefinieerd als een deelverzameling van gedetecteerde functies scheiden van patiënten van een bepaalde ziekte van gezonde controle monsters10,11. Patiënten zijn meestal gedefinieerd als de positieve monsters, en de gezonde controles worden gedefinieerd als de negatieve monsters12.

Recente studies hebben gesuggereerd dat er meer dan één oplossing met identieke of ook effectief classificatie voorstellingen voor een biomedische dataset5bestaat. Bijna alle functie selectie algoritmes zijn deterministische algoritmen, produceren slechts één oplossing voor de dezelfde dataset. Genetische algoritmen kunnen gelijktijdig meerdere oplossingen met soortgelijke voorstellingen genereren, maar ze nog steeds probeert te selecteren één oplossing met de beste fitness-functie als de output voor een gegeven dataset13,14.

Functie selectie algoritmen kunnen ruwweg worden gegroepeerd als filters of wrappers12. Een filter algoritme kiest dek functies boven - gerangschikt door hun belangrijke individuele associatie met de labels van de binaire klasse gebaseerd op de veronderstelling dat functies zijn onafhankelijk van elkaar15,16,17 . Hoewel deze veronderstelling niet voor bijna alle levensechte datasets geldt, presteert de heuristische filterregel goed in veel gevallen, bijvoorbeeld, de mRMR (Minimum redundantie en maximale relevantie) algoritme, de Wilcoxon test gebaseerd functie filtering (WRank) algoritme en het ROC (operationele karakteristiek van de ontvanger) perceel gebaseerd algoritme filteren (ROCRank). mRMR, is een efficiënte filter algoritme omdat het benadert het probleem van de combinatorische schatting met een reeks van veel kleinere problemen, vergelijken met de maximale-afhankelijkheid functie selectie algoritme, die elk slechts betrekking heeft op twee variabelen, en Daarom gebruikt paarsgewijze joint waarschijnlijkheden die meer robuuste18,19. Echter kan mRMR onderschatten het nut van sommige functies, zoals het niet de interacties tussen de functies die relevantie kunnen verhogen meet, en dus mist sommige functie combinaties die individueel nutteloos zijn, maar zijn handig alleen wanneer ze gecombineerd. De WRank-algoritme berekent een niet-parametrische score van hoe discriminatoire een functie tussen twee klassen van monsters, en staat bekend om zijn robuustheid voor uitschieters20,21. Voorts evalueert het algoritme ROCRank hoe belangrijk de ruimte onder de ROC Curve (AUC) van een bepaalde functie is voor de onderzochte binaire indeling prestaties22,23.

Aan de andere kant, een wrapper evalueert de vooraf gedefinieerde classificatie uitoefeningvan-een gegeven functie subset, iteratief gegenereerd door een heuristische regel, en creëert de functie subset met de beste prestaties meten24. Een wrapper in het algemeen beter presteert dan een filter in de prestaties van de classificatie, maar loopt langzamer25. De geregulariseerde Random Bos (SRF)26,27 algoritme gebruikt bijvoorbeeld een hebzuchtige regel, met een evaluatie van de functies op een subset van de trainingsgegevens op elk knooppunt van willekeurige bos, wiens functie belang scores worden geëvalueerd door de Gini-index . De keuze van een nieuwe functie worden gestraft als de winst van de informatie niet die van de gekozen functies verbetert. Bovendien, de analyse van de voorspelling voor Microarrays (PAM)28,29 -algoritme, ook een wrapper-algoritme, een centroid berekend voor elk van de klasse etiketten en selecteert vervolgens functies te krimpen de gene centroids richting de algemene klasse centroid. PAM is robuust voor perifere functies.

Meerdere oplossingen met de hoogste classificatie prestaties kunnen nodig zijn voor een gegeven dataset. Ten eerste, het doel van de optimalisatie van een deterministische algoritme wordt gedefinieerd door een wiskundige formule, bijvoorbeeld, minimale fout tarief30, die is niet per se ideaal voor biologische monsters. Ten tweede, een dataset wellicht meerdere afwijkt, oplossingen met vergelijkbare effectieve of zelfs identieke prestaties. Bijna alle bestaande functie selectie algoritmen zal willekeurig een van deze oplossingen als de uitgang-31.

Deze studie zal een analytische informatica-protocol voor het genereren van meerdere oplossingen van de selectie van de functie met soortgelijke voorstellingen voor een bepaalde binaire indeling dataset introduceren. Gezien het feit dat de meest biomedische onderzoekers niet vertrouwd met informatic technieken of computer codering zijn, werd een gebruiksvriendelijke grafische user interface (GUI) ontwikkeld om de snelle analyse van biomedische binaire indeling datasets. Het analytische protocol bestaat uit gegevens laden en samenvatten, parameter tuning pijpleiding uitvoering en resultaat interpretaties. Met een simpele klik is de onderzoeker in staat om de biomerker deelverzamelingen en publicatie hoogwaardige visualisatie percelen te genereren. Het protocol is getest met behulp van de transcriptomes van twee binaire indeling datasets van Acute lymfatische leukemie (ALL), dat wil zeggen, ALL1 en ALL212. De datasets van ALL1 en ALL2 werden gedownload uit het brede Instituut genoom analyse datacenter, beschikbaar op http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi. ALL1 bevat 128 monsters met 12,625 functies. Van deze monsters, 95 zijn B-cel alle en 33 zijn T-cell ALL. ALL2 bevat 100 monsters met 12,625 functies zo goed. Van deze monsters zijn er 65 patiënten die geleden herval en 35 patiënten dat niet. ALL1 was een eenvoudige, binaire indeling dataset, met een minimale nauwkeurigheid van vier filters en vier wrappers 96,7% en 6 van de 8 functie selectie algoritmen bereiken van 100%12. Terwijl ALL2 een moeilijker dataset, met de bovenstaande 8 functie selectie algoritmen niet beter dan 83,7% nauwkeurigheid12bereiken was. Deze beste nauwkeurigheid was bereikt met 56 functies aangetroffen door de wrapper-algoritme, correlatie gebaseerde functie selectie (CFS).

Subscription Required. Please recommend JoVE to your librarian.

Protocol

Opmerking: Het volgende protocol beschrijft de details van de analytische procedure van informatica en pseudo-codes van de belangrijkste modules. De automatische analyse-systeem werd ontwikkeld met behulp van Python versie 3.6.0 en de Python modules Panda's, abc, numpy, scipy, sklearn, sys, PyQt5, sys, mRMR, wiskunde en matplotlib. De materialen die worden gebruikt in deze studie staan in de Tabel van materialen.

1. Prepareer de Data Matrix en klasse van etiketten

  1. Bereid het gegevensbestand van de matrix als een door tabs of komma-gescheiden matrix-bestand, zoals wordt geïllustreerd in figuur 1A.
    Opmerking: Elke rij bevat alle waarden van een functie, en het eerste item is de naam van de functie. Een functie is een probeset-ID voor de microarray gebaseerde transcriptome dataset of mogelijk een andere waarde ID zoals een cysteine residu met de methylering waarde in een methylomic dataset. Elke kolom geeft de waarden van de functie van een monster, met het eerste item is de naam van het monster. Een rij is in kolommen verdeeld door een TAB (figuur 1B) of een komma (Figuur 1 c). Een matrix tabgescheiden bestand wordt herkend door het bestand extensie .tsv, en een matrix CSV bestand heeft de extensie .csv. Dit bestand kan worden gegenereerd door het opslaan van een matrix als het .tsv- of CSV-formaat van software zoals Microsoft Excel. De gegevens matrix kan ook worden gegenereerd door een computer codering.
  2. Bereid het klassebestand van de label als een door tabs of komma-gescheiden matrix bestand (Figuur 1 d), vergelijkbaar met het gegevensbestand van de matrix.
    Opmerking: De eerste kolom geeft de steekproef namen, en de klasse label van elk monster wordt gegeven in de kolom getiteld klasse. Maximale compatibiliteit wordt beschouwd als in het coderingsproces, zodat meer kolommen kunnen worden toegevoegd. Het label klassebestand mogelijk opgemaakt als een .tsv- of CSV-bestand. De namen in de kolom klasse kunnen eventuele voorwaarden, en kunnen er meer dan twee klassen van monsters. De gebruiker kan kiezen twee van de klassen voor de volgende analyse.

2. Laad de Data Matrix en klasse van etiketten

  1. Laad de gegevenslabels matrix en klasse in de software. Klik op de knop Load data matrix om de gebruiker opgegeven gegevens matrix bestand te kiezen. Klik op de knop Load klasse etiketten om de bijbehorende klasse label bestand te kiezen.
    Opmerking: Nadat beide bestanden zijn geladen, zal kSolutionVis een routine scherm van de compatibiliteit tussen de twee bestanden uitvoeren.
  2. Overzicht gegeven van de functies en de monsters uit het gegevensbestand van de matrix. Schatting van de grootte van het gegevensbestand van de matrix.
  3. Het samenvatten van de monsters en de klassen van het klassebestand van de label. Schatting van de grootte van het label klassebestand.
  4. Testen of elk monster uit de data matrix een klasse label heeft. De nummers van de monsters met de klasse etiketten samen te vatten.

3. samenvatten en weergeven van de statistieken van de basislijn van de Dataset

  1. Klik op de knop samenvatten, zonder een opgegeven trefwoord invoeren, en de software zal tonen 20 geïndexeerde functies en de namen van de bijbehorende functies.
    Opmerking: Gebruikers moeten opgeven van de naam van de functie die zij wensen te vinden om te zien de basislijn statistieken en de bijbehorende waarde verdeling over alle input monsters.
  2. Het bieden van een trefwoord, bijvoorbeeld "1000_at", in de textbox functie te vinden van een specifieke functie worden samengevat. Klik op de knop samenvatten om de statistieken van de basislijn voor deze bepaalde functie.
    Opmerking: Het sleutelwoord kan overal verschijnen in de functie doelnamen, het zoeken te vergemakkelijken voor gebruikers.
  3. Klik op de knop samenvatten om te vinden van meer dan één functie met de bepaald zoekwoord, en geef vervolgens de ID van de unieke voorziening om verder te gaan met de bovenstaande stap van de samenvatting van een bepaalde functie.

4. Bepaal de klasse etiketten en het aantal Top-ranked functies

  1. Kies de namen van positieve ("P (33)") en negatieve ("N (95)") klassen in de dropdown dozen Klasse positieve en Negatieve klasse, zoals weergegeven in Figuur 2 (midden).
    Opmerking: Er wordt voorgesteld om te kiezen dat een evenwichtige binaire indeling dataset, dat wil zeggen, het verschil tussen het aantal positieve en negatieve monsters is minimaal. Het aantal monsters krijgt ook haakjes na de naam van elke klasse label in de twee vakken van de dropdown.
  2. 10 als het aantal top-ranked functies (met de parameter pTopX) Kies in de vervolgkeuzelijst Top_X (?) voor een uitgebreide scherm van de functie-subset.
    Opmerking: De software automatisch rangschikt alle functies van de P-waarde berekend door een t-toets van elke voorziening vergelijken van de positieve en negatieve klassen. Een functie met een kleinere P-waarde heeft een beter onderscheidende kracht tussen de twee soorten monsters. De alomvattende screening-module is een computationeel intensief. De parameter pTopX is 10 standaard. Gebruikers kunnen deze parameter in de range van 10 tot en met 50, wijzigen, totdat ze vinden die voldoet aan zijn voorzien van deelverzamelingen met goede indeling optredens.

5. stem systeemparameters voor verschillende voorstellingen

  1. De prestatiemeting (pMeasurement) nauwkeurigheid (Acc) Kies in de vervolgkeuzelijst Acc/bAcc (?) voor de geselecteerde classificatie Extreme leren Machine (ELM). Een andere mogelijkheid van deze parameter is de meting evenwichtig nauwkeurigheid (bAcc).
    Opmerking: Laat TP, FN, TN, en FP worden de aantallen van het ware positieven, valse negatieven, echte negatieven en valse positieven, respectievelijk. De meting Acc is gedefinieerd als (TP+TN)/(TP+FN+TN+FP), dat werkt het beste op een evenwichtige dataset6. Maar een classificatie die is geoptimaliseerd voor Acc heeft de neiging om alle monsters aan de negatieve klasse toewijzen als het aantal negatieve monsters veel groter dan die van de positieve is. De bAcc is gedefinieerd als (Sn + Sp) / 2, waar Sn = TP/(TP+FN) en Sp = TN/(TN+FP) zijn de correct voorspelde toegangsprijzen voor positieve en negatieve monsters, respectievelijk. Daarom, bAcc normaliseert de voorspelling voorstellingen over de twee klassen, en kan leiden tot een evenwichtige voorspelling prestaties over twee onevenwichtig klassen. ACC is de standaardkeuze van pMeasurement. De software maakt gebruik van de classificatie, ELM standaard voor de berekening van de prestaties van de classificatie. De gebruiker kan ook kiezen voor een classificatie van SVM (Support Vector Machine), Pauw (k naaste buur), besluit boom of Naïve Bayes.
  2. Keuze van de cutoff waarde 0,70 (parameter pCutoff) voor de gespecificeerde prestatiemeting in het invoervak pCutoff:.
    Opmerking: Zowel Acc en bAcc variëren tussen 0 en 1, en de gebruiker kan opgeven een waarde-pCutoffEquation[0, 1] als de cutoff om weer te geven van de gevonden oplossingen. De software voert een uitgebreide functie-subset screening zal, en een juiste keuze van de pCutoff de 3D visualisatie intuïtiever en expliciete. De standaardwaarde voor pCutoff is 0.70.

6. stormloop van de pijpleiding en de interactieve GEVISUALISEERDE resultaten

  1. Klik op de knop analyseren de pijpleiding worden uitgevoerd en genereren van de visualisatie percelen, zoals weergegeven in Figuur 2 (onder).
    Opmerking: De linkertabel geeft alle deelverzamelingen van de functie en hun pMeasurement berekend door het 10-fold Kruis validatie-strategie van de classificatie, ELM, zoals eerder beschreven5. Twee 3D scatter Staanplaatsen en twee-line percelen worden gegenereerd voor de screeningprocedure functie-deelverzameling met de huidige parameterinstellingen.
  2. Kies 0.70 als de standaardwaarde van de pMeasurement cutoff (met de parameter piCutoff, invoervak waarde), en 10 als de standaardwaarde voor het aantal van de beste functie deelverzamelingen (parameter piFSNum).
    Opmerking: De pijpleiding wordt uitgevoerd met behulp van de parameters pTopX, pMeasurement, en pCutoff. De gedetecteerde functie deelverzamelingen kunnen verder worden gescreend met de cutoff piCutoff, maar piCutoff mag niet kleiner zijn dan pCutoff. Daarom, piCutoff wordt geïnitialiseerd als pCutoff en alleen de functie subsets kunt weergeven met de prestaties meting ≥ piCutoff zal worden gevisualiseerd. De standaardwaarde van piCutoff is pCutoff. Soms detecteert de kSolutionVis veel oplossingen, en alleen de beste piFSNum (standaard: 10) functie deelverzamelingen zal worden gevisualiseerd. Als het aantal functie deelverzamelingen gedetecteerd door de software kleiner dan piFSNum is, zullen alle deelverzamelingen van de functie worden gevisualiseerd.
  3. Verzamelen en interpreteren van de functies die zijn gedetecteerd door de software, zoals afgebeeld in Figuur 3.
    Opmerking: De tabel in het linkervak bevat de gedetecteerde functie subsets en hun metingen van de prestaties. De namen van de eerste drie kolommen zijn "F1", "F2" en "F3 in". De drie functies in elke functie-subset zijn gegeven in hun volgorde in één rij (F1 < F2 < F3). De laatste kolom geeft de prestatiemeting (Acc of bAcc) van elke deelverzameling van de functie, en de naam van de kolom (Acc of bAcc) is de waarde van pMeasurement.

7. interpreteren de 3D Scatter Plots-visualiseren en interpreteren van de functie Subsets met ook effectieve binaire indeling optredens met behulp van 3D Scatter percelen

  1. Klik op de knop analyseren voor het genereren van de 3D scatterplot van de deelverzamelingen van de top 10 functie met de beste prestaties van de classificatie (Acc of bAcc) gedetecteerd door de software, zoals blijkt uit Figuur 3 (middelste vak). Sorteren van de drie functies in een subset van de functie in oplopende volgorde van hun rangen en de rangen van de drie functies gebruiken als de F1/F2/F3 assen, d.w.z., F1 < F2 < F3.
    Opmerking: De kleur van een stip geeft de prestaties van de binaire indeling van de overeenkomstige subset van de functie. Een dataset wellicht meerdere functie deelverzamelingen met ook de metingen van de effectieve prestaties. Daarom is een interactieve en vereenvoudigde scatterplot noodzakelijk.
  2. Wijzig de waarde in het invoervak 0.70 pCutoff: en klik op de knop analyseren voor het genereren van de 3D scatterplot van de deelverzamelingen van de functie met de prestaties meting ≥ piCutoff, zoals te zien in Figuur 3 (het vak rechtsonder). Klik op de knop 3D afstemmen op openen een nieuw schermpje handmatig afstemmen de kijkhoeken van de 3D scatterplot.
    Opmerking: Elke functie-subset wordt vertegenwoordigd door een stip op dezelfde manier als hierboven. De 3D scatterplot werd gemaakt in de standaardhoek. Om de 3D-visualisatie en tuning, een apart venster wordt geopend door te klikken op de knop 3D afstemmen.
  3. Klik op de knop verkleinen om de redundantie van de gedetecteerde functie deelverzamelingen.
    Opmerking: Als gebruikers willen verder selecteert u de functie drieling en minimaliseren van de redundantie van de deelverzamelingen van de functie, de software biedt ook deze functie met behulp van de mRMR functie selectie algoritme. Na het klikken op de knop verkleinen , kSolutionVis zal die redundante functies in de drieling functie verwijderen en het regenereren van de tabel en de twee percelen bovengenoemde verstrooien. De verwijderde functies van de drieling functie zal worden vervangen door het woord van de sleutel in de tabel. De waarden van niemand in de F1/F2/F3 as zal worden aangeduid als de waarde van piFSNum (het bereik van de normale waarde van F1/F2/F3 is [1, top_x]). Daarom is de puntjes die geen waarde bevatten lijken te zijn "uitschieter" stippen in de 3D percelen. De handmatig afstembare 3D percelen kunnen worden gevonden in "Handmatige afstemming van de percelen 3D dot" in het aanvullend materiaal.

8. Zoek Gene aantekeningen en hun verenigingen met ziekten bij de mens

Opmerking: Stappen 8 tot en met 10 zal illustreren hoe een gen van het niveau van de opeenvolging van zowel eiwitten als DNA van aantekeningen voorzien. Ten eerste, het symbool van de gene van elke biomerker-ID van de bovenstaande stappen zal worden opgehaald uit de database DAVID32, en vervolgens twee representatieve webservers worden gebruikt voor het analyseren van dit gen-symbool van de niveaus van DNA en eiwit, respectievelijk. De server GeneCard biedt een uitgebreide functionele annotatie van een bepaald gen-symbool en de Online Mendelian Inheritance in Man-database (OMIM) biedt de meest uitgebreide curatie van ziekte-gen verenigingen. De server UniProtKB is een van de meest uitgebreide database van eiwit, en de server groep gebaseerde voorspelling systeem (GPS) voorspelt de signalering fosforylatie van voor een zeer grote lijst van kinases.

  1. Kopieer en plak de link van de database DAVID in een webbrowser en open de webpagina van deze database. Klik op de koppeling Gene ID conversie gezien in figuur 4A en input van de functie id's 38319_at/38147_at/33238_at van de eerste biomerker subset van de dataset ALL1 (figuur 4B). Klik op de koppeling Gene lijst en klik op Submit lijst zoals weergegeven in figuur 4B. Ophalen van de aantekeningen van belang en klik op Gen-lijst weergeven (figuur 4C). Krijg de lijst van gene symbolen (Figuur 4 d).
    Opmerking: De symbolen van de gene hier ontvangen zal worden gebruikt voor verdere functionele aantekeningen in de volgende stappen.
  2. Kopieer en plak de link van de database Gene kaarten in een webbrowser en open de webpagina van deze database. Zoek een genes naam CD3D in het vak database query input en vinden de annotaties van dit gen van Gene kaarten33,34, zoals aangegeven in tabel 1 en figuur 5A.
    Opmerking: Gene kaarten is een uitgebreide gene knowledgebase, nomenclatuur, genomics, proteomics, subcellular localisatie, en betrokken trajecten en andere functionele modules bieden. Het biedt ook externe links naar verschillende andere biomedische databanken zoals VOB/PDB_REDO35, Entrez Gene36, OMIM37en38van de UniProtKB. Als de naam van de functie niet een standaard gen-symbool is, wordt de database ENSEMBL gebruiken omzetten in39. CD3D is de naam van het gen T-cel Receptor T3 Delta Chain.
  3. Kopieer en plak de link van de database OMIM in een webbrowser en open de webpagina van deze database. Zoek een genes naam CD3D en vinden de annotaties van dit gen uit de database OMIM37, zoals aangegeven in tabel 1 en figuur 5B.
    Opmerking: OMIM dient nu als een van de meest uitgebreide en gezaghebbende bronnen van verbindingen van de menselijke genen met erfelijke ziekten. OMIM werd ingeleid door Dr. Victor A. McKusick om te catalogiseren van de genetische mutaties ziekte-geassocieerde40. OMIM bestrijkt nu meer dan 15.000 menselijke genen en de meer dan 8.500 fenotypen, vanaf December 1st 2017.

9. de gecodeerde eiwitten als de posttranslationele modificaties annoteren

  1. Kopieer en plak de link van de database UniProtKB in een webbrowser en open de webpagina van deze database. Zoek een genes naam CD3D in het vak query input van UniProtKB en vinden de annotaties van dit gen uit de database38, zoals aangegeven in tabel 1 en figuur 5C.
    Opmerking: UniProtKB verzamelt een rijke bron van aantekeningen voor eiwitten, met inbegrip van zowel de nomenclatuur en de functionele informatie. Deze database bevat ook externe koppelingen naar andere gebruikte databases, met inbegrip van de VOB/PDB_REDO35, OMIM37en41van de Pfam.
  2. Kopieer en plak de link van de webserver GPS in een webbrowser en open de webpagina van deze webserver. De volgorde van de eiwitten door het biomerker gen CD3D van de UniProtKB database38 gecodeerd halen en voorspellen van het eiwit posttranslationele modificatie (PTM) residuen met behulp van de online tool GPS, zoals aangegeven in tabel 1 en figuur 5D.
    Opmerking: Een biologisch systeem is dynamisch en ingewikkeld, en de bestaande databases alleen bekende informatie verzamelen. Daarom, biomedische voorspelling onlinetools evenals off line programma's kunnen bewijzen nuttig ter aanvulling van een hypothetische mechanisme. GPS is ontwikkelde en verbeterde voor meer dan 12 jaar7,42 en kan worden gebruikt voor het voorspellen van een eiwit PTM residuen in een bepaald peptide reeks43,44. Hulpmiddelen zijn ook beschikbaar voor verschillende onderzoeksonderwerpen, met inbegrip van de voorspelling van van een eiwit subcellular locatie45 en transcriptie factor bindende motieven 46 onder anderen.

10. de eiwit-eiwitinteractie- als hun verrijkt functionele Modules annoteren

  1. Kopieer en plak de link van de webserver tekenreeks in een webbrowser en open de webpagina van deze webserver. Zoek in de lijst voor de genen CD3D en P53 en vinden hun georkestreerde eigenschappen met behulp van de database String47. Dezelfde procedure kan worden uitgevoerd met behulp van een andere webserver, DAVID32.
    Opmerking: Naast de bovengenoemde aantekeningen voor afzonderlijke genen zijn er vele grootschalige informatica hulpmiddelen beschikbaar voor het onderzoeken van de eigenschappen van een groep genen. Een recente studie aangetoond dat individueel slechte markers een sterk verbeterde gene set5kunnen inhouden. Daarom loont de computationele kosten aan het scherm voor meer ingewikkelde biomarkers. De database String kan visualiseren de bekende of voorspelde interactie-verbindingen en de David-server detecteert de functionele modules met aanzienlijke fenotype-verenigingen in de opgevraagde genen47,32. Verschillende andere grootschalige informatica analysetools zijn ook beschikbaar.

11. de subgroepen van de gegenereerde Biomarker en de visualisatie percelen exporteren

  1. De gedetecteerde biomerker subsets exporteren als een tekstbestand .tsv of CSV voor verdere analyse. Klik op de knop Exporteer de tabel onder de tabel van alle deelverzamelingen van de gedetecteerde biomerker en kies welke tekstopmaak opslaan als.
  2. De visualisatie percelen als een afbeeldingsbestand exporteren. Klik op de knop Opslaan onder ieder waarnemingspunt en kies welk afbeeldingsformaat opslaan als.
    Opmerking: De software ondersteunt de pixel formaat .png en de vector formaat .svg. De pixel beelden zijn goed voor weergeven op het computerscherm, terwijl de vector-afbeeldingen kunnen worden geconverteerd naar een resolutie die nodig zijn voor publicatie dagboek.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Het doel van deze workflow (Figuur 6) is te detecteren van meerdere biomerker deelverzamelingen met soortgelijke efficiency voor een binaire indeling dataset. Het hele proces wordt geïllustreerd door twee voorbeeld datasets ALL1 en ALL2 geëxtraheerd uit een onlangs gepubliceerd biomerker detectie bestuderen van12,48. Een gebruiker kan het installeren van kSolutionVis door de instructies te volgen in de aanvullende materialen.

Dataset ALL1 geprofileerd 12 625 transcriptomic kenmerken van 95 B-cel en 33 T-cel alle patiënten bloedmonsters. Terwijl dataset ALL2 de niveaus van de expressie van 12 625 transcriptomic functies voor 65 alle patiënten die recidiverende na de behandeling en 35 alle patiënten die dat niet deden ontdekt. Voor het gemak van de gebruiker zowel de datasets van de transcriptomic en de bijbehorende klasse-labels vindt u in versie 1.4 van de software. Beide datasets zijn in de subdirectory "gegevens" van de bronmap code van de software.

De twee datasets, ALL1 en ALL2, werden opgemaakt als .csv-bestanden en geladen in de software met de Load data matrix en Load klasse etiketten knoppen, zoals wordt weergegeven in figuur 7A-B. Figuur 7A blijkt dat alle 128 monsters met 12 625 functies werden geladen, en alle 128 monsters ook klasse etiketten hebben. De definitieve gegevens matrix heeft 95 negatieve monsters (B-cel alle) en 33 positieve monsters (T-cell ALL). Bovendien kunnen gebruikers tevens vaststellen welk klasse label is het positieve klasse label (figuur 7A, bodem). Als het label klassebestand zijn meer dan twee klassen gedefinieerd, kunnen gebruikers wilt kiezen welke twee klasse-labels te onderzoeken. Soortgelijke operaties werden ook uitgevoerd voor de moeilijke dataset ALL2, zoals getoond in figuur 7B.

De verdelingen van de waarde van de functies in de matrix van de gegevens kunnen worden onderzocht door te klikken op de knop samenvatten tijdens het zoeken naar een gebruiker-specifieke sleutelwoord in de functienamen, zoals weergegeven in Figuur 8. Figuur 8A illustreert het histogram van de functie 1012_at in de dataset ALL1. Verder, zoals te zien in figuur 8B, de zelfde functie 1012_at heeft een gelijkaardige distributie van meningsuiting in beide datasets. Als geen sleutelwoord is opgegeven door de gebruiker, zou enkele functienamen worden vermeld om te helpen de gebruikers om te beslissen welke functies om samen te vatten.

De gemakkelijker dataset ALL1 vertoond in de top 10 gerangschikte functies (pTopX) voor biomerker subsets met de pMeasurement Acc ≥ 0.90 (pCutoff). Het algoritme werd geëxecuteerd na het klikken op de knop uitvoeren, en de resultaten zoals te zien in figuur 9A, werden geïllustreerd in het onderste gedeelte van de software na een paar seconden. Hieruit werden 120 gekwalificeerde biomerker deelverzamelingen gedetecteerd en wordt vermeld in de linkertabel van figuur 9A. ALL1 was een gemakkelijk-aan-discrimineren dataset, doordat het 57 triplet biomerker deelverzamelingen met 100% in Acc. Dit protocol onderstreept het bestaan van meerdere ook effectieve oplossingen voor een probleem van de binaire indeling. De eerste 3D scatterplot kan daarom, meer dan 10 (met de parameter piFSNum) biomerker deelverzamelingen, illustreren, als ze hebben de indeling prestaties Acc (parameter pMeasurement) ≥ die van de top 10 gerangschikt (parameter piFSNum ) biomerker deelverzameling. De gebruiker kan er ook voor kiezen om minder biomerker deelverzamelingen door het veranderen van de piCutoff van de parameter in het parametervak boven de tabel in figuur 9Aweer te geven. De handmatige afstemming van de 3D percelen kan worden gevonden in de sectie Handmatige afstemming van de 3D dot percelen in het aanvullend materiaal.

Bovendien kunnen alle resultaten worden geëxporteerd als externe bestanden voor verdere analyse door te klikken op de knop Exporteer de tabel onder de tabel of scatter percelen, zoals aangegeven in Figuur 9.

De eerste biomerker subset (38319_at, 38147_at en 33238_at) voor de dataset ALL1 werd gekozen voor functioneel onderzoek, zoals weergegeven in figuur 9A. De zoekmodule van ENSEMBL (http://useast.ensembl.org/Multi/Search/New?db=core) geannoteerde deze drie functies als een gen cluster van differentiatie 3 delta (CD3D, 38319_at), signalering Lymphocytic activering molecuul-geassocieerde gene (SH2D1A, 38147_at ) en lymfocyt cel-specifieke Protein-Tyrosine Kinase (LCK, 33238_at). Bovendien, de gen-ziekte vereniging database OMIM37,40 gesuggereerd dat het gen CD3D de subeenheid van de delta van de T-cel antigeen receptor complex codeert en betrokken bij de 11q23 translocaties vaak waargenomen bij acute is leukemie in mens49,50. OMIM geopperd dat genomische mutaties in het gen SH2D1A in de regio van chromosoom van Xq25 kan gepaard gaan met B-cel leukemie51,52. Daarnaast OMIM ook gemarkeerd een mogelijke T-cel alle bijbehorende fusion-gebeurtenis van het LCK en beta T-cel receptor (TCRB)53. Gebruikers kunnen het onderzoeken van andere functionele aspecten van deze biomarkers met hun symbolen gen, bijvoorbeeld, gene functie Aantekeningen in Entrez Gene36, eiwit functie Aantekeningen in UniProtKB38 of Pfam41, 3D eiwit structuren in het VOB/PDB_REDO35, en PTM residuen in GPS7,42,43,44. De interactie sub netwerk (database tekenreeks47) en verrijkte functionele modules (database David32) kunnen ook voor deze biomarkers worden gescreend als een geheel. Verschillende andere databanken of webservers kunnen ook de aantekeningen en in silico voorspellingen met behulp van de symbolen of primaire gen/proteïne sequenties van deze genen bevorderen.

Zoals vermeld in tabel 2, blijkt de noodzaak van meer dan één oplossing met identieke of ook effectieve prestaties opsporen, met 57 groepen functies met binaire indeling nauwkeurigheden 100% tussen B-cel en T-cel alle monsters. Deze bijzondere biomerker deelverzamelingen heetten de perfecte oplossingen. Een flink aantal biomarkers verscheen in deze perfecte oplossingen herhaaldelijk, suggereren dat ze de belangrijkste verschillen, op moleculair niveau, tussen B - en T-cel alle kunnen betekenen. Als de biomerker detectie algoritme stopt op het opsporen van de eerste perfecte oplossing van drie genen CD3D/SH2D1A/LCK, zal een andere perfecte oplossing CD74/HLA-DPB1/PRKCQ worden gemist. Bijvoorbeeld HLA-DPB1 is bekend om zijn sterk geassocieerd met de pediatrische T-cell ALL maar niet B-cel alle54.

De drie kenmerken van de eerste biomerker subset van ALL2 waren chromatine vergadering factor 1 subunit B (CHAF1B, 36912_at), exonuclease 1 (EXO1, 36041_at), en het signaal van de transducer en activator van transcriptie 6 (STAT6, 41222_at). CHAF1B werd waargenomen worden sterk uitgedrukt in cellijnen van leukemie en het antilichaam tegen het eiwit CHAF1B gecodeerd was aanzienlijk ontwikkeld in acute myeloïde leukemie (AML) patiënten55. EXO1 werd in sommige gevallen van acute leukemie56, en upregulated in de leukemie cellijn HL-60 [R] verloren. Ook is gebleken om te negatief regelen de alternatieve verlenging van telomeren (ALT) traject, dat de vorming van ALT-geassocieerde PML (promyelocytic leukemie) organen (APBs)57 vergemakkelijkt. STAT6 was phosphorylated om te activeren van de pro-overleving en proliferatieve signalering traject in het geval van recidiverende AML58. Samen genomen, de drie genen werden geassocieerd met de ontwikkeling en de terugval van leukemie, maar geen expliciete bewijs werd gepubliceerd op hun verenigingen met de alle herval. Dit kan inhouden dat een interessant onderwerp voor verder onderzoek.

Dezelfde aantekening procedure kan worden uitgevoerd op enige deelverzameling van biomerker voor ALL1 en ALL2. De drie biomarkers onderzocht in de bovenstaande sectie werden niet geïdentificeerd zoals biomarkers in de dataset ALL2, terugvalpreventie, zoals weergegeven in figuur 9B. Dit suggereert dat biomarkers fenotype wordt bepaald zijn, dat is een andere belangrijke uitdaging voor de biomerker detectie, naast het bestaan van meerdere ook doeltreffende oplossingen.

Sommige technische modules werden geïmplementeerd en hier voor de geinteresseerde gebruikers beschreven. De fout behandeling module biedt informatieve berichten voor de gebruiker als er fouten tijdens het uitvoeren van de software optreden. De belangrijkste foutberichten worden vermeld en toegelicht in 'Foutberichten' in het aanvullend materiaal. Een parallelle berekening van de biomarkers werd geïmplementeerd voor computers met meer dan één CPU-core. De gedetailleerde verbeteringen aan de lopende tijd kunnen worden gevonden in "Parallelle running time" in het aanvullend materiaal. De gegevens suggereren dat het gebruik van meer CPU cores niet de lopende tijd als gevolg van de kosten van het schakelen tussen verschillende CPU-cores kan verbeteren.

Figure 1
Afbeelding 1: voorbeeld dataset geëxtraheerd uit de transcriptome dataset ALL1 heeft de eerste zes kenmerken van de eerste negen monsters van ALL1. De matrix van de gegevens werd opgemaakt in de vorm van (a) de visualisatie, (b) het tabgescheiden tekst-bestandsindeling, en (c) de bestandsindeling door lijstscheidingstekens gescheiden tekst. (d) de klasse label gegevens werd opgemaakt in de vorm van visualisatie. Als gevolg van het tabblad karakter onzichtbaar is, het wordt geïllustreerd als [TAB] in (b). De kolom Platform geeft het microarray platform Affy in (b), en is niet een vereiste gegevenskolom. Klik hier voor een grotere versie van dit cijfer.

Figure 2
Figuur 2: grafische gebruikersinterface van de software. De statistieken van de basislijn worden samengevat in het bovenste linker vak. Gebruikers kunnen zoeken naar kenmerken van belang en de waarde distributies in de twee hoogste juiste vakken onderzoeken. Alle parameters voor biomerker detectie procedure kunnen worden afgestemd op de middelste horizontale balk. Alle deelverzamelingen van de biomerker en hun overeenkomstige gevisualiseerde distributies kunnen gevonden worden in het onderste gedeelte. Klik hier voor een grotere versie van dit cijfer.

Figure 3
Figuur 3: Biomarker deelverzamelingen en hun visualisaties gegenereerd. Gebruikers kunnen verder te verfijnen in de tabel en twee 3D scatter percelen met behulp van de parameters piCutoff en piFSNum. Klik hier voor een grotere versie van dit cijfer.

Figure 4
Figuur 4: Gene annotaties van de functie id's die bij dit onderzoek van de waargenomen. Neem de drie functie-id 38319_at/38147_at/33238_at van de eerste biomerker subset van de dataset ALL1. (a) krijgen de ID conversie module door te klikken op de link Gene ID conversie. (b) input de functie-id's in het rode vak 1, kies het type functie in het rode vak 2 (standaard "AFFYMETRIX_3PRIME_IVT_ID" is correct is voor deze studie), Gene lijst te kiezen in het rode vak 3 en klikt u op Lijst indienen in het rode vak 4. (c) krijgen alle functionele aantekeningen in deze pagina en klik op Gen-lijst weergeven om de gene symbolen van deze aangevraagde functies. (d) de gene symbolen van de aangevraagde functie-id's ophalen Klik hier voor een grotere versie van dit cijfer.

Figure 5
Figuur 5: aantekeningen en analyse van de verrijking van de gedetecteerde functie deelverzamelingen. (a) Gene aantekeningen uit Gene Card. (B) OMIM beschrijft de ziekte verenigingen van elke functie/gen. (c) aantekeningen het eiwit dat gecodeerd wordt door het gen van belang in de database UniProtKB. (d) het voorspellen van de tyrosine fosforylering residuen in de bepaalde eiwitten via de online tool GPS. Een rood vak toevoegde aan de gebruiker tonen waar u moet klikken om de querygegevens invoeren. De primaire volgorde van het voorbeeld-eiwit CD3D kan worden ontvangen als de FASTA formaat van het rode vak in (c), en input in het query-venster door Klik op het rode vak in (d). Klik hier voor een grotere versie van dit cijfer.

Figure 6
Figuur 6: Workflow van kSolutionVis. Elke module van de software werd beschreven in het bovenstaande protocol. Klik hier voor een grotere versie van dit cijfer.

Figure 7
Figuur 7: basislijn statistieken van de twee representatieve datasets. Het aantal monsters, functies en klassen in ALL1 (a) en (b) ALL2 worden berekend. De bestandsgrootte van de matrix en klasse gegevenslabels worden ook gedetecteerd. En een nieuwe gegevens matrix wordt gewonnen uit de monsters met klasse etiketten. Klik hier voor een grotere versie van dit cijfer.

Figure 8
Figuur 8: Histogram visualisatie van de functie 1012_at in de twee datasets. Zowel basislijn statistieken en histogram werden gegenereerd voor ALL1 (a) en (b) ALL2. Klik hier voor een grotere versie van dit cijfer.

Figure 9
Figuur 9: Biomarker deelverzamelingen en de percelen van de spreiding van de twee datasets. Gebruikers kunnen het veranderen van de parameters in de tweede rij met vakken van de parameter om de lijsten van biomerker deelverzamelingen verder te verfijnen en 3D scatter plots voor de datasets ALL1 (a) en (b) ALL2. Klik hier voor een grotere versie van dit cijfer.

Website Koppeling Functionaliteit
GeneCards http://www.genecards.org/cgi-bin/carddisp.pl?Gene=CD3D Gene aantekening
OMIM https://OMIM.org/entry/186790?Search=CD3D&highlight=cd3d Gen-ziekte vereniging
UniProtKB http://www.uniprot.org/uniprot/P04234 Eiwit aantekening
GPS http://GPS.biocuckoo.org/ Eiwit van PTM voorspelling
Tekenreeks https://String-db.org/ Eiwit-eiwit interactie
David https://David.ncifcrf.gov/ Gene Set verrijking analyse

Tabel 1. Websites voor aantekeningen maken en analyseren van de gedetecteerde biomarkers. Een lijst van handige online tools die helpen aantekeningen de gedetecteerde biomarkers.

F1 F2 F3 ACC Symbol1 Symbol2 Symbol3
38319_at 38147_at 33238_at 1.0000 CD3D SH2D1A LCK
33238_at 35016_at 37039_at 1.0000 LCK CD74 HLA-DRA
38147_at 33238_at 35016_at 1.0000 SH2D1A LCK CD74
38147_at 33238_at 2059_s_at 1.0000 SH2D1A LCK LCK
38147_at 33238_at 37039_at 1.0000 SH2D1A LCK HLA-DRA
38147_at 33238_at 38095_i_at 1.0000 SH2D1A LCK HLA-DPB1
38147_at 33238_at 33039_at 1.0000 SH2D1A LCK TRAT1
38147_at 35016_at 2059_s_at 1.0000 SH2D1A CD74 LCK
38147_at 35016_at 33039_at 1.0000 SH2D1A CD74 TRAT1
38147_at 35016_at 38949_at 1.0000 SH2D1A CD74 PRKCQ
38147_at 2059_s_at 37039_at 1.0000 SH2D1A LCK HLA-DRA
38147_at 2059_s_at 38095_i_at 1.0000 SH2D1A LCK HLA-DPB1
38147_at 37039_at 33039_at 1.0000 SH2D1A HLA-DRA TRAT1
38147_at 37039_at 38949_at 1.0000 SH2D1A HLA-DRA PRKCQ
38319_at 38147_at 35016_at 1.0000 CD3D SH2D1A CD74
38147_at 38833_at 38949_at 1.0000 SH2D1A HLA-DPA1 PRKCQ
33238_at 35016_at 33039_at 1.0000 LCK CD74 TRAT1
38319_at 38833_at 38949_at 1.0000 CD3D HLA-DPA1 PRKCQ
33238_at 35016_at 38949_at 1.0000 LCK CD74 PRKCQ
33238_at 2059_s_at 37039_at 1.0000 LCK LCK HLA-DRA
33238_at 37039_at 38095_i_at 1.0000 LCK HLA-DRA HLA-DPB1
33238_at 37039_at 33039_at 1.0000 LCK HLA-DRA TRAT1
33238_at 37039_at 38949_at 1.0000 LCK HLA-DRA PRKCQ
33238_at 38095_i_at 38949_at 1.0000 LCK HLA-DPB1 PRKCQ
33238_at 38833_at 38949_at 1.0000 LCK HLA-DPA1 PRKCQ
33238_at 33039_at 38949_at 1.0000 LCK TRAT1 PRKCQ
35016_at 2059_s_at 33039_at 1.0000 CD74 LCK TRAT1
35016_at 2059_s_at 38949_at 1.0000 CD74 LCK PRKCQ
35016_at 38095_i_at 38949_at 1.0000 CD74 HLA-DPB1 PRKCQ
2059_s_at 37039_at 33039_at 1.0000 LCK HLA-DRA TRAT1
2059_s_at 38095_i_at 38949_at 1.0000 LCK HLA-DPB1 PRKCQ
2059_s_at 38833_at 38949_at 1.0000 LCK HLA-DPA1 PRKCQ
38319_at 33039_at 38949_at 1.0000 CD3D TRAT1 PRKCQ
38147_at 38095_i_at 38949_at 1.0000 SH2D1A HLA-DPB1 PRKCQ
38319_at 33238_at 38833_at 1.0000 CD3D LCK HLA-DPA1
38319_at 2059_s_at 38833_at 1.0000 CD3D LCK HLA-DPA1
38319_at 33238_at 33039_at 1.0000 CD3D LCK TRAT1
38319_at 33238_at 38095_i_at 1.0000 CD3D LCK HLA-DPB1
38319_at 33238_at 37039_at 1.0000 CD3D LCK HLA-DRA
38319_at 35016_at 38833_at 1.0000 CD3D CD74 HLA-DPA1
38319_at 33238_at 2059_s_at 1.0000 CD3D LCK LCK
38319_at 35016_at 33039_at 1.0000 CD3D CD74 TRAT1
38319_at 33238_at 35016_at 1.0000 CD3D LCK CD74
38319_at 35016_at 38949_at 1.0000 CD3D CD74 PRKCQ
38319_at 2059_s_at 37039_at 1.0000 CD3D LCK HLA-DRA
38319_at 38147_at 38949_at 1.0000 CD3D SH2D1A PRKCQ
38319_at 38147_at 33039_at 1.0000 CD3D SH2D1A TRAT1
38319_at 33238_at 38949_at 1.0000 CD3D LCK PRKCQ
38319_at 2059_s_at 38095_i_at 1.0000 CD3D LCK HLA-DPB1
38319_at 38147_at 38833_at 1.0000 CD3D SH2D1A HLA-DPA1
38319_at 2059_s_at 33039_at 1.0000 CD3D LCK TRAT1
38319_at 38147_at 38095_i_at 1.0000 CD3D SH2D1A HLA-DPB1
38319_at 37039_at 33039_at 1.0000 CD3D HLA-DRA TRAT1
38319_at 38147_at 37039_at 1.0000 CD3D SH2D1A HLA-DRA
38319_at 38147_at 2059_s_at 1.0000 CD3D SH2D1A LCK
38319_at 2059_s_at 38949_at 1.0000 CD3D LCK PRKCQ
38319_at 35016_at 2059_s_at 1.0000 CD3D CD74 LCK
2059_s_at 37039_at 38095_i_at 0.9922 LCK HLA-DRA HLA-DPB1
35016_at 33039_at 38949_at 0.9922 CD74 TRAT1 PRKCQ
2059_s_at 37039_at 38949_at 0.9922 LCK HLA-DRA PRKCQ
35016_at 2059_s_at 37039_at 0.9922 CD74 LCK HLA-DRA
35016_at 37039_at 38949_at 0.9922 CD74 HLA-DRA PRKCQ
35016_at 38833_at 38949_at 0.9922 CD74 HLA-DPA1 PRKCQ
2059_s_at 33039_at 38949_at 0.9922 LCK TRAT1 PRKCQ
37039_at 38833_at 38949_at 0.9922 HLA-DRA HLA-DPA1 PRKCQ
37039_at 33039_at 38949_at 0.9922 HLA-DRA TRAT1 PRKCQ
38319_at 38095_i_at 38949_at 0.9922 CD3D HLA-DPB1 PRKCQ
33238_at 37039_at 38833_at 0.9922 LCK HLA-DRA HLA-DPA1
38095_i_at 33039_at 38949_at 0.9922 HLA-DPB1 TRAT1 PRKCQ
33238_at 2059_s_at 38949_at 0.9922 LCK LCK PRKCQ
38319_at 38833_at 33039_at 0.9922 CD3D HLA-DPA1 TRAT1
38833_at 33039_at 38949_at 0.9922 HLA-DPA1 TRAT1 PRKCQ
38147_at 33039_at 38949_at 0.9922 SH2D1A TRAT1 PRKCQ
38319_at 37039_at 38833_at 0.9922 CD3D HLA-DRA HLA-DPA1
38147_at 2059_s_at 38949_at 0.9922 SH2D1A LCK PRKCQ
38147_at 38095_i_at 38833_at 0.9922 SH2D1A HLA-DPB1 HLA-DPA1
38147_at 33238_at 38949_at 0.9922 SH2D1A LCK PRKCQ
38147_at 2059_s_at 33039_at 0.9922 SH2D1A LCK TRAT1
38319_at 37039_at 38949_at 0.9922 CD3D HLA-DRA PRKCQ
38319_at 38095_i_at 38833_at 0.9922 CD3D HLA-DPB1 HLA-DPA1
38147_at 2059_s_at 38833_at 0.9922 SH2D1A LCK HLA-DPA1
33238_at 35016_at 2059_s_at 0.9922 LCK CD74 LCK
38319_at 35016_at 38095_i_at 0.9922 CD3D CD74 HLA-DPB1
33238_at 35016_at 38095_i_at 0.9922 LCK CD74 HLA-DPB1
38319_at 35016_at 37039_at 0.9922 CD3D CD74 HLA-DRA
38147_at 33238_at 38833_at 0.9922 SH2D1A LCK HLA-DPA1
38147_at 37039_at 38095_i_at 0.9844 SH2D1A HLA-DRA HLA-DPB1
38147_at 35016_at 38833_at 0.9844 SH2D1A CD74 HLA-DPA1
38147_at 35016_at 38095_i_at 0.9844 SH2D1A CD74 HLA-DPB1
35016_at 2059_s_at 38095_i_at 0.9844 CD74 LCK HLA-DPB1
38147_at 37039_at 38833_at 0.9844 SH2D1A HLA-DRA HLA-DPA1
35016_at 2059_s_at 38833_at 0.9844 CD74 LCK HLA-DPA1
38319_at 37039_at 38095_i_at 0.9844 CD3D HLA-DRA HLA-DPB1
37039_at 38095_i_at 38949_at 0.9844 HLA-DRA HLA-DPB1 PRKCQ
38147_at 38833_at 33039_at 0.9844 SH2D1A HLA-DPA1 TRAT1
38095_i_at 38833_at 38949_at 0.9844 HLA-DPB1 HLA-DPA1 PRKCQ
33238_at 35016_at 38833_at 0.9844 LCK CD74 HLA-DPA1
38319_at 38095_i_at 33039_at 0.9844 CD3D HLA-DPB1 TRAT1
2059_s_at 37039_at 38833_at 0.9844 LCK HLA-DRA HLA-DPA1
2059_s_at 38833_at 33039_at 0.9766 LCK HLA-DPA1 TRAT1
2059_s_at 38095_i_at 33039_at 0.9766 LCK HLA-DPB1 TRAT1
2059_s_at 38095_i_at 38833_at 0.9766 LCK HLA-DPB1 HLA-DPA1
33238_at 2059_s_at 38095_i_at 0.9766 LCK LCK HLA-DPB1
35016_at 38095_i_at 33039_at 0.9766 CD74 HLA-DPB1 TRAT1
38147_at 38095_i_at 33039_at 0.9766 SH2D1A HLA-DPB1 TRAT1
33238_at 2059_s_at 33039_at 0.9766 LCK LCK TRAT1
35016_at 37039_at 33039_at 0.9766 CD74 HLA-DRA TRAT1
33238_at 38095_i_at 33039_at 0.9766 LCK HLA-DPB1 TRAT1
33238_at 38833_at 33039_at 0.9766 LCK HLA-DPA1 TRAT1
35016_at 38833_at 33039_at 0.9766 CD74 HLA-DPA1 TRAT1
33238_at 38095_i_at 38833_at 0.9688 LCK HLA-DPB1 HLA-DPA1
37039_at 38833_at 33039_at 0.9688 HLA-DRA HLA-DPA1 TRAT1
38147_at 35016_at 37039_at 0.9688 SH2D1A CD74 HLA-DRA
33238_at 2059_s_at 38833_at 0.9688 LCK LCK HLA-DPA1
37039_at 38095_i_at 33039_at 0.9688 HLA-DRA HLA-DPB1 TRAT1
38095_i_at 38833_at 33039_at 0.9609 HLA-DPB1 HLA-DPA1 TRAT1
35016_at 38095_i_at 38833_at 0.9609 CD74 HLA-DPB1 HLA-DPA1
37039_at 38095_i_at 38833_at 0.9531 HLA-DRA HLA-DPB1 HLA-DPA1
35016_at 37039_at 38095_i_at 0.9531 CD74 HLA-DRA HLA-DPB1
35016_at 37039_at 38833_at 0.9531 CD74 HLA-DRA HLA-DPA1

Tabel 2. Aantekeningen van alle functies van de dataset ALL1. Dit is een binaire indeling dataset tussen B-cel en T-cel alle monsters. De gen-symbolen werden verzameld voor alle microarray functies in de laatste drie kolommen.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Deze studie geeft een gemakkelijk-aan-volg multi oplossing biomerker detectie en karakterisering van het protocol voor een gebruiker opgegeven binaire indeling dataset. De software legt de nadruk op gebruiksvriendelijkheid en flexibele import/export interfaces voor verschillende bestandsindelingen, zodat een biomedisch onderzoeker te onderzoeken hun dataset gemakkelijk met behulp van de GUI van de software. Deze studie belicht eveneens de noodzaak van het genereren van meer dan één oplossing met eveneens effectief modelleren optredens, eerder genegeerd door veel bestaande biomerker detectie algoritmen. In de toekomst, bevatten nieuw ontwikkelde biomerker detectie algoritmen deze optie door het opnemen van alle deelverzamelingen van de tussenliggende biomerker met voldoende modellering optredens.

In dit protocol zijn stap 1 en 5 van de meeste belang, als de software is een volledig automatisch systeem dat op correct opgemaakte invoerbestanden berust. Bleek dat tijdens onze testen stap, de mis wedstrijd van de steekproef namen uit gegevens matrix en etiketten klassebestanden fouten in de software, waar de software zal pop uit een waarschuwingsdialoogvenster over deze fout kunnen veroorzaken. Daarom, als de gebruiker vindt geen monsters werden geladen uit de matrix met gegevens of label klassebestanden, het oplossen van problemen met truc is om te controleren of de namen van de steekproef in de twee invoerbestanden zijn inconsistent. Als geen puntjes zijn gevisualiseerd in de 3D-scatter percelen, kan dit worden veroorzaakt door de parameter pCutoff wordt hoger is dan de beste oplossing. In dit geval de probleemoplossing truc is het verlagen van de cutoff van de prestatiemeting indeling (met de parameter pCutoff). De meting van de maximale prestaties bereikt door de biomerker subsets worden echter nog steeds geblokkeerd door de cutoff voor een moeilijk dataset. Een waarschuwingsvenster geeft deze beste prestatiemeting, en de gebruiker kan ervoor kiezen een kleinere cutoff blijven verder analyse.

De belangrijkste beperkingen van de software zijn de langzame berekening snelheid en haar vermogen om alleen de nadruk op, ten hoogste drie functies. Functie selectie is een NP-moeilijk probleem, gedefinieerd als een computationele probleem waarvan wereldwijd optimale oplossing niet kan opgelost binnen polynomiale tijd59 worden. De subset van de uitgebreide biomerker screening stap verbruikt een hoog volume van rekenkracht. De lopende tijd complexiteit van kSolutionVis is O (n-3) waarbij n staat voor de parameter pTopX. Bovendien, dit meerdere-biomerker detectie algoritme is gericht op het visualiseren van het scherm van functies, dus het beperken van het aantal van de functies tot drie of minder. Deze beperking kan sommige gebruikers die willen vinden functie deelverzamelingen die bestaat uit meer dan drie functies kunnen werken op moeilijke problemen belemmeren. Echter, de software visualiseert functie deelverzamelingen in de 3D-ruimte, en het is moeilijk te visualiseren direct functie deelverzamelingen in meer dan drie dimensies. Bovendien, op basis van de representatieve resultaten boven, de meerdere functie drieling geselecteerd door kSolutionVis is een zeer effectieve methode in indeling en toont significante resultaten met belangrijke biomedische betekenis.

Nuttige aanvullende software vormt de software voor de bestaande functie selectie algoritmen. Op het gebied van biogeneeskunde, heet de functie selectie biomerker, met het doel om te vinden van een subset van functies bereiken van verbeterde modellering prestaties6261,60,,. De software is een hulpmiddel van de alomvattende screening van alle de triplet biomerker subsets kunt weergeven op basis van de strategie die in een recente studie5. De twee representatieve datasets gescreend door de software-protocol, en hun resultaten tonen de existenties van heel wat oplossingen met ook doeltreffend of zelfs identieke modellering optredens. Heuristische regels63,64,,65,66 kan worden ingezet om sub-optimale oplossingen te vinden, maar dergelijke algoritmen hebben een sterke neiging om te produceren maar één oplossing, het negeren van vele andere oplossingen met ook doeltreffend of zelfs identieke modellering optredens. Dus, de macht van de computer en de lange speelduur van de software zijn moeite waard om te zorgen voor een meer uitgebreide opsporing van mogelijke biomarkers in de toekomst.

De representatieve resultaten op twee transcriptome datasets werden berekend, echter de grepen software input gegevens in verschillende indelingen voor standaard en kunnen ook worden gebruikt voor het analyseren van andere 'dienst' datasets, met inbegrip van proteomica en metabolomica. Bovendien kan paralellisatie de berekening van de detectiemodule biomarker in de software versnellen. Er is sommige multicore-hardware met inbegrip van GPGPU (General-Purpose grafische verwerking verenigen) en Phi van Intel Xeon-processors die beschikbaar voor dit doel. Echter, deze technologieën vereisen verschillende codering strategieën en de volgende versie van de software wordt beschouwd.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

We hebben geen conflicten van belang aan dit verslag gerelateerde.

Acknowledgments

Dit werk werd gesteund door de strategische prioriteit onderzoeksprogramma van de Chinese Academie van Wetenschappen (XDB13040400) en de subsidie van het opstarten van Universiteit Jilin. Anoniem reviewers en biomedische testen gebruikers werden gewaardeerd voor hun constructieve opmerkingen over de verbetering van de bruikbaarheid en de functionaliteit van kSolutionVis.

Materials

Name Company Catalog Number Comments
Hardware
laptop Lenovo X1 carbon Any computer works. Recommended minimum configuration: 1GB extra hard disk space, 1 GB memory, 2.0MHz CPU
Name Company Catalog Number Comments
Software
Python 3.0 WingWare Wing Personal Any python programming and running environments support Python version 3.0 or above

DOWNLOAD MATERIALS LIST

References

  1. Heckerman, D., et al. Genetic variants associated with physical performance and anthropometry in old age: a genome-wide association study in the ilSIRENTE cohort. Scientific Reports. 7, 15879 (2017).
  2. Li, Z., et al. Genome-wide association analysis identifies 30 new susceptibility loci for schizophrenia. Nature Genetics. 49, 1576-1583 (2017).
  3. Winkler, T. W., et al. Quality control and conduct of genome-wide association meta-analyses. Nature Protocols. 9, 1192-1212 (2014).
  4. Harrison, R. N. S., et al. Development of multivariable models to predict change in Body Mass Index within a clinical trial population of psychotic individuals. Scientific Reports. 7, 14738 (2017).
  5. Liu, J., et al. Multiple similarly-well solutions exist for biomedical feature selection and classification problems. Scientific Reports. 7, 12830 (2017).
  6. Ye, Y., Zhang, R., Zheng, W., Liu, S., Zhou, F. RIFS: a randomly restarted incremental feature selection algorithm. Scientific Reports. 7, 13013 (2017).
  7. Zhou, F. F., Xue, Y., Chen, G. L., Yao, X. GPS: a novel group-based phosphorylation predicting and scoring method. Biochemical and Biophysical Research Communications. 325, 1443-1448 (2004).
  8. Sanchez, B. N., Wu, M., Song, P. X., Wang, W. Study design in high-dimensional classification analysis. Biostatistics. 17, 722-736 (2016).
  9. Shujie, M. A., Carroll, R. J., Liang, H., Xu, S. Estimation and Inference in Generalized Additive Coefficient Models for Nonlinear Interactions with High-Dimensional Covariates. Annals of Statistics. 43, 2102-2131 (2015).
  10. Li, J. H., et al. MiR-205 as a promising biomarker in the diagnosis and prognosis of lung cancer. Oncotarget. 8, 91938-91949 (2017).
  11. Lyskjaer, I., Rasmussen, M. H., Andersen, C. L. Putting a brake on stress signaling: miR-625-3p as a biomarker for choice of therapy in colorectal cancer. Epigenomics. 8, 1449-1452 (2016).
  12. Ge, R., et al. McTwo: a two-step feature selection algorithm based on maximal information coefficient. BMC Bioinformatics. 17, 142 (2016).
  13. Tumuluru, J. S., McCulloch, R. Application of Hybrid Genetic Algorithm Routine in Optimizing Food and Bioengineering Processes. Foods. 5, (2016).
  14. Gen, M., Cheng, R., Lin, L. Network models and optimization: Multiobjective genetic algorithm approach. , Springer Science & Business Media. (2008).
  15. Radovic, M., Ghalwash, M., Filipovic, N., Obradovic, Z. Minimum redundancy maximum relevance feature selection approach for temporal gene expression data. BMC Bioinformatics. 18, 9 (2017).
  16. Ciuculete, D. M., et al. A methylome-wide mQTL analysis reveals associations of methylation sites with GAD1 and HDAC3 SNPs and a general psychiatric risk score. Translational Psychiatry. 7, e1002 (2017).
  17. Lin, H., et al. Methylome-wide Association Study of Atrial Fibrillation in Framingham Heart Study. Scientific Reports. 7, 40377 (2017).
  18. Wang, S., Li, J., Yuan, F., Huang, T., Cai, Y. D. Computational method for distinguishing lysine acetylation, sumoylation, and ubiquitination using the random forest algorithm with a feature selection procedure. combinatorial chemistry & high throughput screening. , (2017).
  19. Zhang, Q., et al. Predicting Citrullination Sites in Protein Sequences Using mRMR Method and Random Forest Algorithm. combinatorial chemistry & high throughput screening. 20, 164-173 (2017).
  20. Cuena-Lombrana, A., Fois, M., Fenu, G., Cogoni, D., Bacchetta, G. The impact of climatic variations on the reproductive success of Gentiana lutea L. in a Mediterranean mountain area. International journal of biometeorology. , (2018).
  21. Coghe, G., et al. Fatigue, as measured using the Modified Fatigue Impact Scale, is a predictor of processing speed improvement induced by exercise in patients with multiple sclerosis: data from a randomized controlled trial. Journal of Neurology. , (2018).
  22. Hong, H., et al. Applying genetic algorithms to set the optimal combination of forest fire related variables and model forest fire susceptibility based on data mining models. The case of Dayu County, China. Science of the Total Environment. 630, 1044-1056 (2018).
  23. Borges, D. L., et al. Photoanthropometric face iridial proportions for age estimation: An investigation using features selected via a joint mutual information criterion. Forensic Science International. 284, 9-14 (2018).
  24. Kohavi, R., John, G. H. Wrappers for feature subset selection. Artificial intelligence. 97, 273-324 (1997).
  25. Yu, L., Liu, H. Efficient feature selection via analysis of relevance and redundancy. Journal of machine learning research. 5, 1205-1224 (2004).
  26. Wexler, R. B., Martirez, J. M. P., Rappe, A. M. Chemical Pressure-Driven Enhancement of the Hydrogen Evolving Activity of Ni2P from Nonmetal Surface Doping Interpreted via Machine Learning. Journal of American Chemical Society. , (2018).
  27. Wijaya, S. H., Batubara, I., Nishioka, T., Altaf-Ul-Amin, M., Kanaya, S. Metabolomic Studies of Indonesian Jamu Medicines: Prediction of Jamu Efficacy and Identification of Important Metabolites. Molecular Informatics. 36, (2017).
  28. Shangkuan, W. C., et al. Risk analysis of colorectal cancer incidence by gene expression analysis. PeerJ. 5, e3003 (2017).
  29. Chu, C. M., et al. Gene expression profiling of colorectal tumors and normal mucosa by microarrays meta-analysis using prediction analysis of microarray, artificial neural network, classification, and regression trees. Disease Markers. , 634123 (2014).
  30. Fleuret, F. Fast binary feature selection with conditional mutual information. Journal of Machine Learning Research. 5, 1531-1555 (2004).
  31. Pacheco, J., Alfaro, E., Casado, S., Gámez, M., García, N. A GRASP method for building classification trees. Expert Systems with Applications. 39, 3241-3248 (2012).
  32. Jiao, X., et al. DAVID-WS: a stateful web service to facilitate gene/protein list analysis. Bioinformatics. 28, 1805-1806 (2012).
  33. Rappaport, N., et al. Rational confederation of genes and diseases: NGS interpretation via GeneCards, MalaCards and VarElect. Biomedical Engineering OnLine. 16, 72 (2017).
  34. Rebhan, M., Chalifa-Caspi, V., Prilusky, J., Lancet, D. GeneCards: integrating information about genes, proteins and diseases. Trends in Genet. 13, 163 (1997).
  35. Joosten, R. P., Long, F., Murshudov, G. N., Perrakis, A. The PDB_REDO server for macromolecular structure model optimization. IUCrJ. 1, 213-220 (2014).
  36. Maglott, D., Ostell, J., Pruitt, K. D., Tatusova, T. Entrez Gene: gene-centered information at NCBI. Nucleic Acids Research. 39, D52-D57 (2011).
  37. Amberger, J. S., Bocchini, C. A., Schiettecatte, F., Scott, A. F., Hamosh, A. OMIM.org: Online Mendelian Inheritance in Man (OMIM(R)), an online catalog of human genes and genetic disorders. Nucleic Acids Research. 43, D789-D798 (2015).
  38. Boutet, E., et al. the Manually Annotated Section of the UniProt KnowledgeBase: How to Use the Entry View. Methods in Molecular Biology. 1374, 23-54 (2016).
  39. Zerbino, D. R., et al. Ensembl 2018. Nucleic Acids Res. , (2017).
  40. McKusick, V. A., Amberger, J. S. The morbid anatomy of the human genome: chromosomal location of mutations causing disease. Journal of Medical Genetics. 30, 1-26 (1993).
  41. Finn, R. D., et al. The Pfam protein families database: towards a more sustainable future. Nucleic Acids Research. 44, D279-D285 (2016).
  42. Xue, Y., et al. GPS: a comprehensive www server for phosphorylation sites prediction. Nucleic Acids Research. 33, W184-W187 (2005).
  43. Deng, W., et al. GPS-PAIL: prediction of lysine acetyltransferase-specific modification sites from protein sequences. Scientific Reports. 6, 39787 (2016).
  44. Zhao, Q., et al. GPS-SUMO: a tool for the prediction of sumoylation sites and SUMO-interaction motifs. Nucleic Acids Research. 42, W325-W330 (2014).
  45. Wan, S., Duan, Y., Zou, Q. HPSLPred: An Ensemble Multi-Label Classifier for Human Protein Subcellular Location Prediction with Imbalanced Source. Proteomics. 17, (2017).
  46. Zhang, H., Zhu, L., Huang, D. S. WSMD: weakly-supervised motif discovery in transcription factor ChIP-seq data. Scientific Reports. 7, 3217 (2017).
  47. Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, D447-D452 (2015).
  48. Chiaretti, S., et al. Gene expression profile of adult T-cell acute lymphocytic leukemia identifies distinct subsets of patients with different response to therapy and survival. Blood. 103, 2771-2778 (2004).
  49. Rowley, J. D., et al. Mapping chromosome band 11q23 in human acute leukemia with biotinylated probes: identification of 11q23 translocation breakpoints with a yeast artificial chromosome. Proceedings of the National Academy of Sciences of the United States of America. 87, 9358-9362 (1990).
  50. Rabbitts, T. H., et al. The chromosomal location of T-cell receptor genes and a T cell rearranging gene: possible correlation with specific translocations in human T cell leukaemia. Embo Journal. 4, 1461-1465 (1985).
  51. Yin, L., et al. SH2D1A mutation analysis for diagnosis of XLP in typical and atypical patients. Human Genetics. 105, 501-505 (1999).
  52. Brandau, O., et al. Epstein-Barr virus-negative boys with non-Hodgkin lymphoma are mutated in the SH2D1A gene, as are patients with X-linked lymphoproliferative disease (XLP). Human Molecular Genetics. 8, 2407-2413 (1999).
  53. Burnett, R. C., Thirman, M. J., Rowley, J. D., Diaz, M. O. Molecular analysis of the T-cell acute lymphoblastic leukemia-associated t(1;7)(p34;q34) that fuses LCK and TCRB. Blood. 84, 1232-1236 (1994).
  54. Taylor, G. M., et al. Genetic susceptibility to childhood common acute lymphoblastic leukaemia is associated with polymorphic peptide-binding pocket profiles in HLA-DPB1*0201. Human Molecular Genetics. 11, 1585-1597 (2002).
  55. Wadia, P. P., et al. Antibodies specifically target AML antigen NuSAP1 after allogeneic bone marrow transplantation. Blood. 115, 2077-2087 (2010).
  56. Wilson, D. M., et al. 3rd et al. Hex1: a new human Rad2 nuclease family member with homology to yeast exonuclease 1. Nucleic Acids Research. 26, 3762-3768 (1998).
  57. O'Sullivan, R. J., et al. Rapid induction of alternative lengthening of telomeres by depletion of the histone chaperone ASF1. Nature Structural & Molecular Biology. 21, 167-174 (2014).
  58. Lee-Sherick, A. B., et al. Aberrant Mer receptor tyrosine kinase expression contributes to leukemogenesis in acute myeloid leukemia. Oncogene. 32, 5359-5368 (2013).
  59. Guyon, I., Elisseeff, A. An introduction to variable and feature selection. Journal of machine learning research. 3, 1157-1182 (2003).
  60. John, G. H., Kohavi, R., Pfleger, K. Machine learning: proceedings of the eleventh international conference. , 121-129 (1994).
  61. Jain, A., Zongker, D. Feature selection: Evaluation, application, and small sample performance. IEEE transactions on pattern analysis and machine intelligence. 19, 153-158 (1997).
  62. Taylor, S. L., Kim, K. A jackknife and voting classifier approach to feature selection and classification. Cancer Informatics. 10, 133-147 (2011).
  63. Andresen, K., et al. Novel target genes and a valid biomarker panel identified for cholangiocarcinoma. Epigenetics. 7, 1249-1257 (2012).
  64. Guo, P., et al. Gene expression profile based classification models of psoriasis. Genomics. 103, 48-55 (2014).
  65. Xie, J., Wang, C. Using support vector machines with a novel hybrid feature selection method for diagnosis of erythemato-squamous diseases. Expert Systems with Applications. 38, 5809-5815 (2011).
  66. Zou, Q., Zeng, J., Cao, L., Ji, R. A novel features ranking metric with application to scalable visual and bioinformatics data classification. Neurocomputing. 173, 346-354 (2016).

Tags

Kankeronderzoek kwestie 140 Biomarker detectie functie selectie dienst binaire indeling filter wrapper extreme leren machine ELM
Selecteren van meerdere Biomarker Subsets met ook effectieve binaire indeling optredens
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Feng, X., Wang, S., Liu, Q., Li, H., More

Feng, X., Wang, S., Liu, Q., Li, H., Liu, J., Xu, C., Yang, W., Shu, Y., Zheng, W., Yu, B., Qi, M., Zhou, W., Zhou, F. Selecting Multiple Biomarker Subsets with Similarly Effective Binary Classification Performances. J. Vis. Exp. (140), e57738, doi:10.3791/57738 (2018).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter