Bestaande algoritmen genereren een oplossing voor een biomarker detectie dataset. Dit protocol blijkt van het bestaan van meerdere ook doeltreffende oplossingen en presenteert een gebruikersvriendelijke software om te helpen biomedische onderzoekers onderzoeken hun datasets voor de voorgestelde challenge. Computerwetenschappers kunnen deze functie in hun biomerker ook detectie algoritmen.
Biomerker detectie is een van de meer belangrijke biomedische vragen voor high-throughput ‘omics’ onderzoekers, en bijna alle bestaande biomerker detectie algoritmen genereren een biomarker subset met de geoptimaliseerde prestatiemeting voor een gegeven dataset . Een recente studie blijkt echter het bestaan van meerdere biomerker deelverzamelingen met ook doeltreffend of zelfs identieke indeling optredens. Dit protocol biedt een eenvoudige en ongecompliceerde methode voor het opsporen van biomerker deelverzamelingen met binaire indeling optredens, beter dan een door de gebruiker gedefinieerde cutoff. Het protocol bestaat uit gegevensvoorbereiding en laden, basislijn informatie Samenvattingsstructuur parameter tuning, biomerker screening, resultaat visualisatie en interpretatie, biomerker gene aantekeningen en resultaat en visualisatie uitvoer op kwaliteit van de publicatie. De voorgestelde biomerker screening strategie is intuïtief en toont een algemene regel voor het ontwikkelen van biomerker detectie algoritmen. Een gebruiksvriendelijke grafische user interface (GUI) werd ontwikkeld met behulp van de programmeertaal Python, waardoor biomedische onderzoekers directe toegang hebben tot hun resultaten. De broncode en de handleiding van kSolutionVis kunnen worden gedownload van http://www.healthinformaticslab.org/supp/resources.php.
Binaire indeling, een van de meest algemeen onderzocht en uitdagende data mining problemen op het gebied van biomedische, worden gebruikt voor het bouwen van een model van de classificatie getraind op twee groepen van monsters met de meest nauwkeurige discriminatie macht1, 2 , 3 , 4 , 5 , 6 , 7. de grote gegevens gegenereerd op het gebied van biomedische heeft echter de inherente “grote p kleine n” paradigma, met het aantal functies meestal veel groter dan het aantal monsters6,8,9. Daarom moeten biomedische onderzoekers beperken de functie dimensie vóór gebruik te maken van de classificatie-algoritmen om te voorkomen dat de overfitting probleem8,9. Diagnose biomarkers worden gedefinieerd als een deelverzameling van gedetecteerde functies scheiden van patiënten van een bepaalde ziekte van gezonde controle monsters10,11. Patiënten zijn meestal gedefinieerd als de positieve monsters, en de gezonde controles worden gedefinieerd als de negatieve monsters12.
Recente studies hebben gesuggereerd dat er meer dan één oplossing met identieke of ook effectief classificatie voorstellingen voor een biomedische dataset5bestaat. Bijna alle functie selectie algoritmes zijn deterministische algoritmen, produceren slechts één oplossing voor de dezelfde dataset. Genetische algoritmen kunnen gelijktijdig meerdere oplossingen met soortgelijke voorstellingen genereren, maar ze nog steeds probeert te selecteren één oplossing met de beste fitness-functie als de output voor een gegeven dataset13,14.
Functie selectie algoritmen kunnen ruwweg worden gegroepeerd als filters of wrappers12. Een filter algoritme kiest dek functies boven – gerangschikt door hun belangrijke individuele associatie met de labels van de binaire klasse gebaseerd op de veronderstelling dat functies zijn onafhankelijk van elkaar15,16,17 . Hoewel deze veronderstelling niet voor bijna alle levensechte datasets geldt, presteert de heuristische filterregel goed in veel gevallen, bijvoorbeeld, de mRMR (Minimum redundantie en maximale relevantie) algoritme, de Wilcoxon test gebaseerd functie filtering (WRank) algoritme en het ROC (operationele karakteristiek van de ontvanger) perceel gebaseerd algoritme filteren (ROCRank). mRMR, is een efficiënte filter algoritme omdat het benadert het probleem van de combinatorische schatting met een reeks van veel kleinere problemen, vergelijken met de maximale-afhankelijkheid functie selectie algoritme, die elk slechts betrekking heeft op twee variabelen, en Daarom gebruikt paarsgewijze joint waarschijnlijkheden die meer robuuste18,19. Echter kan mRMR onderschatten het nut van sommige functies, zoals het niet de interacties tussen de functies die relevantie kunnen verhogen meet, en dus mist sommige functie combinaties die individueel nutteloos zijn, maar zijn handig alleen wanneer ze gecombineerd. De WRank-algoritme berekent een niet-parametrische score van hoe discriminatoire een functie tussen twee klassen van monsters, en staat bekend om zijn robuustheid voor uitschieters20,21. Voorts evalueert het algoritme ROCRank hoe belangrijk de ruimte onder de ROC Curve (AUC) van een bepaalde functie is voor de onderzochte binaire indeling prestaties22,23.
Aan de andere kant, een wrapper evalueert de vooraf gedefinieerde classificatie uitoefeningvan-een gegeven functie subset, iteratief gegenereerd door een heuristische regel, en creëert de functie subset met de beste prestaties meten24. Een wrapper in het algemeen beter presteert dan een filter in de prestaties van de classificatie, maar loopt langzamer25. De geregulariseerde Random Bos (SRF)26,27 algoritme gebruikt bijvoorbeeld een hebzuchtige regel, met een evaluatie van de functies op een subset van de trainingsgegevens op elk knooppunt van willekeurige bos, wiens functie belang scores worden geëvalueerd door de Gini-index . De keuze van een nieuwe functie worden gestraft als de winst van de informatie niet die van de gekozen functies verbetert. Bovendien, de analyse van de voorspelling voor Microarrays (PAM)28,29 -algoritme, ook een wrapper-algoritme, een centroid berekend voor elk van de klasse etiketten en selecteert vervolgens functies te krimpen de gene centroids richting de algemene klasse centroid. PAM is robuust voor perifere functies.
Meerdere oplossingen met de hoogste classificatie prestaties kunnen nodig zijn voor een gegeven dataset. Ten eerste, het doel van de optimalisatie van een deterministische algoritme wordt gedefinieerd door een wiskundige formule, bijvoorbeeld, minimale fout tarief30, die is niet per se ideaal voor biologische monsters. Ten tweede, een dataset wellicht meerdere afwijkt, oplossingen met vergelijkbare effectieve of zelfs identieke prestaties. Bijna alle bestaande functie selectie algoritmen zal willekeurig een van deze oplossingen als de uitgang-31.
Deze studie zal een analytische informatica-protocol voor het genereren van meerdere oplossingen van de selectie van de functie met soortgelijke voorstellingen voor een bepaalde binaire indeling dataset introduceren. Gezien het feit dat de meest biomedische onderzoekers niet vertrouwd met informatic technieken of computer codering zijn, werd een gebruiksvriendelijke grafische user interface (GUI) ontwikkeld om de snelle analyse van biomedische binaire indeling datasets. Het analytische protocol bestaat uit gegevens laden en samenvatten, parameter tuning pijpleiding uitvoering en resultaat interpretaties. Met een simpele klik is de onderzoeker in staat om de biomerker deelverzamelingen en publicatie hoogwaardige visualisatie percelen te genereren. Het protocol is getest met behulp van de transcriptomes van twee binaire indeling datasets van Acute lymfatische leukemie (ALL), dat wil zeggen, ALL1 en ALL212. De datasets van ALL1 en ALL2 werden gedownload uit het brede Instituut genoom analyse datacenter, beschikbaar op http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi. ALL1 bevat 128 monsters met 12,625 functies. Van deze monsters, 95 zijn B-cel alle en 33 zijn T-cell ALL. ALL2 bevat 100 monsters met 12,625 functies zo goed. Van deze monsters zijn er 65 patiënten die geleden herval en 35 patiënten dat niet. ALL1 was een eenvoudige, binaire indeling dataset, met een minimale nauwkeurigheid van vier filters en vier wrappers 96,7% en 6 van de 8 functie selectie algoritmen bereiken van 100%12. Terwijl ALL2 een moeilijker dataset, met de bovenstaande 8 functie selectie algoritmen niet beter dan 83,7% nauwkeurigheid12bereiken was. Deze beste nauwkeurigheid was bereikt met 56 functies aangetroffen door de wrapper-algoritme, correlatie gebaseerde functie selectie (CFS).
Deze studie geeft een gemakkelijk-aan-volg multi oplossing biomerker detectie en karakterisering van het protocol voor een gebruiker opgegeven binaire indeling dataset. De software legt de nadruk op gebruiksvriendelijkheid en flexibele import/export interfaces voor verschillende bestandsindelingen, zodat een biomedisch onderzoeker te onderzoeken hun dataset gemakkelijk met behulp van de GUI van de software. Deze studie belicht eveneens de noodzaak van het genereren van meer dan één oplossing met eveneens effectief mode…
The authors have nothing to disclose.
Dit werk werd gesteund door de strategische prioriteit onderzoeksprogramma van de Chinese Academie van Wetenschappen (XDB13040400) en de subsidie van het opstarten van Universiteit Jilin. Anoniem reviewers en biomedische testen gebruikers werden gewaardeerd voor hun constructieve opmerkingen over de verbetering van de bruikbaarheid en de functionaliteit van kSolutionVis.
Hardware | |||
laptop | Lenovo | X1 carbon | Any computer works. Recommended minimum configuration: 1GB extra hard disk space, 1 GB memory, 2.0MHz CPU |
Name | Company | Catalog Number | Comments |
Software | |||
Python 3.0 | WingWare | Wing Personal | Any python programming and running environments support Python version 3.0 or above |