Vi introducerer CorExplorer web portal, en ressource til udforskning af tumor RNA sekvensering faktorer, der findes ved maskinel indlæring algoritme CorEx (korrelations forklaring), og vise, hvordan faktorer kan analyseres i forhold til overlevelse, database anmærkninger, protein-protein interaktioner, og hinanden for at få indsigt i tumor biologi og terapeutiske interventioner.
Differentialgenekspression analyse er en vigtig teknik til at forstå sygdomstilstande. Maskinel indlæring algoritme CorEx har vist nytte i at analysere differentialekspression af grupper af gener i tumor RNA-SEQ på en måde, der kan være nyttige for at fremme præcision onkologi. Men, CorEx producerer mange faktorer, der kan være udfordrende at analysere og forbinde til eksisterende forståelse. For at lette sådanne forbindelser, har vi bygget en hjemmeside, CorExplorer, der giver brugerne mulighed for interaktivt at udforske de data og besvare almindelige spørgsmål i forbindelse med sin analyse. Vi uddannede CorEx på RNA-SEQ-genet Expression data for fire tumortyper: æggestokkene, lunge, melanom, og kolorektal. Vi inkorporerede derefter tilsvarende overlevelse, protein-protein interaktioner, Gene Ontology (GO) og Kyoto Encyclopedia af gener og genomer (KEGG) pathway berigelser, og Heatmaps ind på hjemmesiden for Association med Factor Graph visualisering. Her anvender vi eksempel protokoller for at illustrere brugen af databasen til at forstå betydningen af de lærde tumor faktorer i forbindelse med disse eksterne data.
Siden introduktionen for lidt over et årti siden er RNA-SEQ blevet et allestedsnærværende værktøj til måling af genekspression1. Dette skyldes, at det giver mulighed for hurtig og billig de Novo profilering af hele transkriptomet af en prøve. Men, RNA-SEQ tumordata afspejler en underliggende biologi, der er uløseligt komplekse og ofte under-samples, mens dataene i sig selv er højt dimensionelle og støjende. Dette udgør en betydelig udfordring for udvinding af pålidelige signaler. Den Corex algoritme udnytter multivariat gensidig information for at finde subtile mønstre i sådanne situationer2,3. Denne teknik blev tidligere tilpasset til at analysere ovarie tumor RNA-SEQ prøver fra The Cancer Genome Atlas (TCGA) og i denne sammenhæng syntes det at have betydelige fordele i forhold til mere almindeligt anvendte analysemetoder4.
Selv om brugen af RNA-SEQ er enormt udbredt i forsknings applikationer, herunder i onkologi, har disse bestræbelser ikke ført til en bred udnyttelse med henblik på kliniske indgreb5. En del af årsagen til dette er en mangel på brugervenlige algoritmer og software rettet mod disse specifikke problemer. For at hjælpe med at slå bro over dette hul har vi designet CorExplorer-webportalen, så forskere fra en række forskellige baggrunde kan studere genekspressions faktorer af tumor RNA-SEQ-prøver som fundet ved CorEx Machine Learning-algoritmen. Den corexplorer Portal understøtter interaktiv visualisering og forespørge på faktorer fra flere forskellige tumortyper, herunder lunge, kolon, melanom, og æggestokkene6,7,8,9, 10, med den hensigt at hjælpe forskerne til at SIFT gennem data korrelationer og identificere kandidat veje til stratificere patienter til terapeutiske formål.
Vi forventer, at CorExplorer-portalen kan være nyttig for flere typer brugere. Portalen er designet med brugeren i tankerne, som ønsker at forstå de brede faktorer, der driver tumor genekspression forskelle i offentlige databaser og eventuelt også placere individuelle genekspression profiler i forbindelse med tumorer med lignende Karakteristik. Ud over de repræsentative protokoller, der er skitseret her, kan CorExplorer undersøgelser tjene som udgangspunkt for at foreslå hypoteser for yderligere testning, at sammenligne og kontrast CorEx resultater på datasæt uden for CorExplorer, og at forbinde patologiske udtryk signaturer af en eller nogle få gener i en individuel tumor til større grupper, der kan være koordineret påvirket. Endelig kan det tjene som en brugervenlig Introduktion til anvendelsen af maskinel indlæring til RNA-SEQ for dem, der kommer i gang i marken.
Vi har præsenteret den CorExplorer site, en offentligt tilgængelig webserver til interaktiv udforskning af maksimalt korrelerede genekspression faktorer lært fra tumor RNA-SEQ af CorEx algoritme. Vi har vist, hvordan hjemmesiden kan bruges til at stratificere patienter i henhold til tumor genekspression, og hvordan en sådan stratificering svarer til biologisk funktion og overlevelse.
Andre webservere til RNA-SEQ-analyse er blevet bygget. Differentiel og co-Expression analyse for tumorer kan undersøges og integreres med andre datatyper i cbioportal19,20. Serverne GenePattern21, MeV22, og Morpheus23, inkorporerer etablerede klynge teknikker som hovedkomponent analyse (PCA), kmidler eller selvorganiserende kort (Soms). Mere nyskabende indsats omfatter CamurWeb24, baseret på en automatiseret regel-genererende klassifikator, og Tacco25, som implementerer tilfældige skov klassificeringer og lassos. Den Corex algoritme, der anvendes her optimerer multivariat oplysninger for at finde et hierarki af faktorer, der forklarer mønstre i data. Den ikke-lineære og hierarkiske faktor indlæring synes at give bedre fortolknings evne i forhold til de lineære globale faktorer, der findes via PCA4. Desuden, teknikken finkornet parsing af prøve signaler tillader præcise tumor sammenligninger Vis-à-Vis mere almindeligt anvendte brede undertyper. Denne kombination af overlappende og hierarkisk faktor analyse adskiller CorExplorer fra de fleste andre tilgange og nødvendiggør nye værktøjer til visualisering og opsummering.
En kritisk del af CorExplorer faktor analyse er evnen til at udforske ikke blot flere, men over 100 faktorer med informative gen mønstre, der er placeret i et overlap hierarki. Den CorExplorer letter minedrift af disse utallige faktorer for biologiske og kliniske foreninger og giver mulighed for usædvanligt detaljeret karakterisering af individuelle tumorer. Den uovervågede indlæring af et så stort antal faktorer betyder, at ikke alle vil være relevante for sygdoms biologi. I et sådant tilfælde er det vigtigt at enten bruge anmærkninger eller kendte gener til at trække ud faktorer af interesse eller søge efter faktorer, der er forbundet med kliniske data såsom overlevelse. Således, den CorExplorer giver brugerne mulighed for at gennemføre denne meget vigtige filtreringstrin. Tilstedeværelsen af faktor gen mønstre i en tumor kan endda foreslå en tilgang til personlig onkologi behandling. Yderligere, mangfoldigheden af faktor scores for hver tumor, der giver mulighed for opdagelse af potentielt nyttige terapeutiske kombinationer.
Det er undertiden tilfældet, at ingen væsentlige GO anmærkninger vises for faktorer, der er stærkt korreleret med overlevelse. Selv om dette kan forekomme på grund af støjende eller under indsamlede data, er der andre mulige årsager såsom en klyngestørrelse, der er for lille til at registrere signifikante berigende resultater, eller hvor gruppen er en “kurv” af enkelte gener fra forskellige veje uden sammenhængende biologiske Association. Derudover kan en kategori af anmærkning, der er forskellig fra den biologiske proces KEGG og GO, f. eks. Disse kan tilgås ved at linke ud til StringDB som vist i protokollen. Genet ontologi berigelse analyse på CorExplorer site i øjeblikket ikke tegner sig for genvægtning i en faktor, selv om dette vil sandsynligvis blive afhjulpet i den nærmeste fremtid. Bemærk en genliste mulighed er tilgængelig under “Tilføj vindue”, der giver mulighed for download af den komplette faktor genliste til yderligere analyse med eksterne værktøjer.
Med henblik på hjemmesiden blev CorEx kørt på hvert datasæt fem gange, og det løb, der resulterede i den største samlede samlede korrelation, blev bevaret. At have en statistisk repræsentation af resultaterne af flere kørsler kan være mere informativ og er et mål for det fremtidige arbejde. Derudover er det sæt af tumortyper tilgængelige på serveren er temmelig lille, men vi forventer, at dette udvides over tid i henhold til brugerens interesse.
Som skitseret ovenfor, den CorExplorer visualiserer CorEx RNA-SEQ faktor relationer sammen med kliniske og database oplysninger, hvilket muliggør en række forskellige former for forhør. Vi håber, at dette værktøj vil føre til yderligere arbejde for at udnytte kraften i RNA-SEQ analyse for opdagelse og klinisk anvendelse i onkologi.
The authors have nothing to disclose.
GV blev støttet af DARPA Award W911NF-16-0575.
Public server for CorExplorer website | USC | http://corex.isi.edu | Intel Xeon E5-2690 4-core 2.6 GHz, 8GB RAM. Backend architecture is LAMP: Linux, Apache, MySQL, PHP. |
Web browser | Google/Apple | Chrome/Safari | Verified web browsers. |