Vi introduserer CorExplorer webportal, en ressurs for utforskning av tumor RNA sekvensering faktorer funnet av maskinen læring algoritmen CorEx (korrelasjon forklaring), og viser hvordan faktorer kan analyseres i forhold til overlevelse, database merknader, Protein-protein interaksjoner, og en annen for å få innsikt i tumor biologi og terapeutiske intervensjoner.
Differensial genuttrykk analyse er en viktig teknikk for å forstå sykdomstilstander. Maskinen læring algoritmen CorEx har vist nytte i å analysere differensial uttrykk for grupper av gener i tumor RNA-SEQ på en måte som kan være nyttig for å fremme presisjon onkologi. Imidlertid produserer CorEx mange faktorer som kan være utfordrende å analysere og koble til eksisterende forståelse. For å lette slike forbindelser, har vi bygget et nettsted, CorExplorer, som lar brukerne interaktivt utforske data og svare på vanlige spørsmål knyttet til sin analyse. Vi trente CorEx på RNA-SEQ gen uttrykks data for fire tumor typer: eggstokkene, lunge, melanom og tykk tarms. Vi har deretter innarbeidet tilsvarende overlevelse, protein-protein interaksjoner, Gene ontologi (GO) og Kyoto Encyclopedia of gener og genomer (KEGG) Pathway elementene, og heatmaps inn på nettsiden for tilknytning til faktor grafen visualisering. Her bruker vi eksempel protokoller for å illustrere bruken av databasen for å forstå betydningen av de lærde tumor faktorene i sammenheng med disse eksterne dataene.
Siden introduksjonen litt over et ti år siden, har RNA-SEQ blitt et allestedsnærværende verktøy for måling av genuttrykk1. Dette er fordi det gir rask og billig de Novo profilering av hele transcriptome av en prøve. Imidlertid reflekterer RNA-SEQ tumor data en underliggende biologi som er egentlig kompleks og ofte under-samplet, mens dataene i seg selv er høy-dimensjonale og støyende. Dette utgjør en betydelig utfordring for å trekke ut pålitelige signaler. Den CorEx algoritmen utnytter multivariabel gjensidig informasjon for å finne subtile mønstre i slike situasjoner2,3 . Denne teknikken ble tidligere tilpasset for å analysere eggstokkene tumor RNA-SEQ prøver fra The Cancer Genova Atlas (TCGA) og i denne sammenheng det syntes å ha betydelige fordeler fremfor mer brukte analysemetoder4.
Selv om bruken av RNA-SEQ er enormt utbredt i forskningsprogrammer, inkludert i onkologi, har ikke dette arbeidet ført til bred utnyttelse i forbindelse med kliniske intervensjoner5. En del av grunnen til dette er en mangel på brukervennlige algoritmer og programvare rettet mot disse spesifikke problemene. For å bidra til å bygge bro over dette gapet, har vi designet CorExplorer Web-portal for å muliggjøre forskere fra en rekke bakgrunner for å studere genuttrykk faktorer av tumor RNA-SEQ prøver som finnes ved CorEx maskinlæring algoritme. CorExplorer-portalen støtter interaktiv visualisering og spørring av faktorer fra flere ulike tumor typer, inkludert lunge, kolon, melanom og eggstokkene6,7,8,9, 10, med den hensikt å hjelpe forskere til å sile gjennom data sammenhenger og identifisere kandidat trasé å Stratify pasienter for terapeutiske formål.
Vi forventer at CorExplorer portalen kan være nyttig for flere typer brukere. Portalen ble designet med brukeren i tankene som ønsker å forstå de brede faktorene som driver tumoral genuttrykk forskjeller i offentlige databaser og muligens også plassere individuelle genuttrykk profiler i sammenheng med svulster med lignende Egenskaper. I tillegg til representative protokoller skissert her, CorExplorer undersøkelser kan tjene som et utgangspunkt for å foreslå hypoteser for videre testing, å sammenligne og kontrast CorEx funn på datasett utenfor CorExplorer, og å koble patologisk uttrykk underskrifter av en eller noen få gener i en individuell svulst til større grupper som kan være coordinately berørt. Til slutt kan det fungere som en brukervennlig introduksjon til anvendelsen av maskinlæring til RNA-SEQ for de som kommer i gang i felten.
Vi har presentert CorExplorer området, en offentlig tilgjengelig Web server for interaktiv utforskning av maksimalt korrelert genuttrykk faktorer lært fra tumor RNA-SEQ av CorEx algoritmen. Vi har vist hvordan nettstedet kan brukes til å Stratify pasienter i henhold til tumor genuttrykk, og hvordan slike lagdeling tilsvarer biologisk funksjon og overlevelse.
Andre webservere for RNA-SEQ-analyser er blitt bygget. Differensial og co-Expression analyse for svulster kan undersøkes og integreres med andre datatyper i cbioPortal19,20. Serverne GenePattern21, MeV22, og Morpheus23, innlemme etablerte Clustering teknikker som viktigste komponenten analyse (PCA), kmeans, eller selv-organisering kart (somer). Flere nyskapende anstrengelser inkludere CamurWeb24, basert på en automatisert beherske-utvikler klassifisere, og TACCO25, hvilke iverksette tilfeldig skog klassifiserere og lassos. Den CorEx algoritmen brukes her optimaliserer multivariabel informasjon for å finne et hierarki av faktorer som forklarer mønstre i data. Den ikke-lineære og hierarkiske faktoren læring ser ut til å gi bedre interpretability i forhold til de lineære globale faktorene funnet via PCA4. I tillegg gir teknikken en finkornet analyse av prøve signaler presis tumor sammenligninger Vis-à-Vis mer vanlig brukte brede under typer. Denne kombinasjonen av overlappende og hierarkiske faktoranalyse skiller CorExplorer fra de fleste andre tilnærminger og nødvendiggjør nye verktøy for visualisering og oppsummering.
En kritisk del av CorExplorer faktoranalyse er evnen til å utforske ikke bare flere, men over 100 faktorer med informative gen mønstre som er plassert i et overlappende hierarki. Den CorExplorer forenkler gruvedrift av disse utallige faktorer for biologiske og kliniske foreninger og gir usedvanlig detaljert karakterisering av individuelle svulster. Den uten tilsyn læring av et så stort antall faktorer betyr at ikke alle vil være relevant for sykdoms biologi. I et slikt tilfelle er det viktig å enten bruke merknader eller kjente gener for å trekke ut faktorer av interesse eller søke etter faktorer knyttet til kliniske data som overlevelse. Således, det CorExplorer innrømmer brukernes å iverksette denne meget betydelig filterene steg. Tilstedeværelsen av faktor gen mønstre i en svulst kan også foreslå en tilnærming til personlig onkologi behandling. Videre, mangfoldet av faktor score for hver svulst som gjør det mulig for oppdagelsen av potensielt nyttige terapeutiske kombinasjoner.
Det er noen ganger slik at ingen signifikante GO-merknader vises for faktorer som er svært korrelert med overlevelse. Selv om dette kan skje på grunn av støyende eller under samplet data, er det andre mulige årsaker, for eksempel en klyngestørrelse som er for liten til å registrere betydelige berikelse score eller gruppen være en “kurv” av enkelt gener fra ulike veier uten sammenhengende biologiske Association. I tillegg kan en kategori av merknad forskjellig fra KEGG og GO biologiske prosessen, for eksempel mobilnettet kupé, være hensiktsmessig. Disse kan nås ved å linke ut til StringDB som demonstrert i protokollen. The Gene ontologi berikelse analyse på CorExplorer nettstedet for tiden ikke står for genet vekting i en faktor, men dette vil trolig bli utbedret i nær fremtid. Merk en gen liste alternativet er tilgjengelig under “Legg til vindu” som gir mulighet for nedlasting av den komplette faktoren gen liste for videre analyse med eksterne verktøy.
I forbindelse med nettstedet ble CorEx kjørt på hvert av datasettene fem ganger, og kjøringen som resulterte i den største total korrelasjon ble beholdt. Å ha en statistisk representasjon av resultatene av flere runs kan være mer informativ og er et mål for fremtidig arbeid. I tillegg er sett av tumor typer tilgjengelig på serveren ganske liten, men vi forventer at dette skal utvides over tid i henhold til brukerens interesse.
Som beskrevet ovenfor, den CorExplorer visualiserer CorEx RNA-SEQ faktor relasjoner sammen med klinisk og databaseinformasjon, og dermed muliggjøre en rekke forskjellige moduser av avhør. Vi er håpefull det denne verktøyet ville føre til fremme arbeide å anvende makten av RNA-SEQ analyse for oppdagelsen og klinisk søknad inne onkologi.
The authors have nothing to disclose.
GV ble støttet av DARPA Award W911NF-16-0575.
Public server for CorExplorer website | USC | http://corex.isi.edu | Intel Xeon E5-2690 4-core 2.6 GHz, 8GB RAM. Backend architecture is LAMP: Linux, Apache, MySQL, PHP. |
Web browser | Google/Apple | Chrome/Safari | Verified web browsers. |