Summary

Analyse af tumor Genekspressions faktorer med CorExplorer-webportalen

Published: October 11, 2019
doi:

Summary

Vi introducerer CorExplorer web portal, en ressource til udforskning af tumor RNA sekvensering faktorer, der findes ved maskinel indlæring algoritme CorEx (korrelations forklaring), og vise, hvordan faktorer kan analyseres i forhold til overlevelse, database anmærkninger, protein-protein interaktioner, og hinanden for at få indsigt i tumor biologi og terapeutiske interventioner.

Abstract

Differentialgenekspression analyse er en vigtig teknik til at forstå sygdomstilstande. Maskinel indlæring algoritme CorEx har vist nytte i at analysere differentialekspression af grupper af gener i tumor RNA-SEQ på en måde, der kan være nyttige for at fremme præcision onkologi. Men, CorEx producerer mange faktorer, der kan være udfordrende at analysere og forbinde til eksisterende forståelse. For at lette sådanne forbindelser, har vi bygget en hjemmeside, CorExplorer, der giver brugerne mulighed for interaktivt at udforske de data og besvare almindelige spørgsmål i forbindelse med sin analyse. Vi uddannede CorEx på RNA-SEQ-genet Expression data for fire tumortyper: æggestokkene, lunge, melanom, og kolorektal. Vi inkorporerede derefter tilsvarende overlevelse, protein-protein interaktioner, Gene Ontology (GO) og Kyoto Encyclopedia af gener og genomer (KEGG) pathway berigelser, og Heatmaps ind på hjemmesiden for Association med Factor Graph visualisering. Her anvender vi eksempel protokoller for at illustrere brugen af databasen til at forstå betydningen af de lærde tumor faktorer i forbindelse med disse eksterne data.

Introduction

Siden introduktionen for lidt over et årti siden er RNA-SEQ blevet et allestedsnærværende værktøj til måling af genekspression1. Dette skyldes, at det giver mulighed for hurtig og billig de Novo profilering af hele transkriptomet af en prøve. Men, RNA-SEQ tumordata afspejler en underliggende biologi, der er uløseligt komplekse og ofte under-samples, mens dataene i sig selv er højt dimensionelle og støjende. Dette udgør en betydelig udfordring for udvinding af pålidelige signaler. Den Corex algoritme udnytter multivariat gensidig information for at finde subtile mønstre i sådanne situationer2,3. Denne teknik blev tidligere tilpasset til at analysere ovarie tumor RNA-SEQ prøver fra The Cancer Genome Atlas (TCGA) og i denne sammenhæng syntes det at have betydelige fordele i forhold til mere almindeligt anvendte analysemetoder4.

Selv om brugen af RNA-SEQ er enormt udbredt i forsknings applikationer, herunder i onkologi, har disse bestræbelser ikke ført til en bred udnyttelse med henblik på kliniske indgreb5. En del af årsagen til dette er en mangel på brugervenlige algoritmer og software rettet mod disse specifikke problemer. For at hjælpe med at slå bro over dette hul har vi designet CorExplorer-webportalen, så forskere fra en række forskellige baggrunde kan studere genekspressions faktorer af tumor RNA-SEQ-prøver som fundet ved CorEx Machine Learning-algoritmen. Den corexplorer Portal understøtter interaktiv visualisering og forespørge på faktorer fra flere forskellige tumortyper, herunder lunge, kolon, melanom, og æggestokkene6,7,8,9, 10, med den hensigt at hjælpe forskerne til at SIFT gennem data korrelationer og identificere kandidat veje til stratificere patienter til terapeutiske formål.

Vi forventer, at CorExplorer-portalen kan være nyttig for flere typer brugere. Portalen er designet med brugeren i tankerne, som ønsker at forstå de brede faktorer, der driver tumor genekspression forskelle i offentlige databaser og eventuelt også placere individuelle genekspression profiler i forbindelse med tumorer med lignende Karakteristik. Ud over de repræsentative protokoller, der er skitseret her, kan CorExplorer undersøgelser tjene som udgangspunkt for at foreslå hypoteser for yderligere testning, at sammenligne og kontrast CorEx resultater på datasæt uden for CorExplorer, og at forbinde patologiske udtryk signaturer af en eller nogle få gener i en individuel tumor til større grupper, der kan være koordineret påvirket. Endelig kan det tjene som en brugervenlig Introduktion til anvendelsen af maskinel indlæring til RNA-SEQ for dem, der kommer i gang i marken.

Protocol

1. udforskning af faktorer, der indeholder et gen af interesse Åbn en webbrowser, og gå til http://corex.isi.edu, startsiden for CorExplorer. På højre side under hurtige links, klik på + Udvid knappen ved siden af æggestokkene (tcga-OV) for at se et resumé af Corex Factor Graph, der blev uddannet på tcga ovariecancer data (vist i figur 1). Klik eventuelt på andre for at sammenligne. Når du er færdig med at inspicere faktor graferne,Lunge (TCGA-LUAD)for at få adgang til CorExplorer-siden for lungekræft RNA-SEQ.Udforsk CorEx Factor Graph for et gen af interesse ved hjælp af CorExplorer ‘ Factor Graph ‘ vindue. Flyt musemarkøren hen over vinduet faktor grafvisning. Zoom ind i faktor grafen ved hjælp af muserullehjulet eller pegefeltet for at se detaljer om grafen som de vigtigste gener i hver faktor og forbindelserne mellem noder på forskellige lag. Du kan også klikke og trække for at flytte visningsområdet eller en vilkårlig node. For at finde et målgen (her vil vi bruge BRCA1), skal du klikke på gen dropdown menuen øverst i Factor Graph vinduet. Skriv ‘ BRCA1 ‘ for at vælge den på rullelisten, og tryk på Returtasten for at få vist zoom til faktor 26, som er den faktor, som BRCA1 er mest korreleret til. Flyt musen hen over Grafvisningen, og rul for at zoome ud for at se niveau 2-noden, L2_8 og de tilknyttede faktorer, der er naboer til faktor 26. Bemærk, at kun gener med en vægt, der er større end den tærskel, der er angivet på mærket min link vægt , vises. Hvis du vil se alle de gener, der er forbundet med faktoren, skal du klikke på noden L1_26 og vælge Indlæs yderligere gener i pop op-vinduet. Når ordet ‘ Done ‘ vises, skal du lukke pop op-vinduet. Gå nu tilbage til headersektionen over Factor Graph-vinduet, og Grib og træk min link -modifikatoren. Nu, da link vægt skyderen er flyttet ned til 0,05, andre gener i faktor L1_26, herunder BRCA2, vises i vægtrækkefølge. Du skal eventuelt flytte noder ved at snuppe og trække for at forbedre layoutet. Bestemme, hvordan stratificering af patienter med hensyn til faktoren påvirker overlevelse ved at forespørge i overlevelses vinduet. I overlevelses vinduet skal du fjerne markeringen af Sortér efter p-Valog derefter vælge faktor 26 i rullemenuen med enkelt faktor for at vise overlevelses kurver for faktor 26. Rul ned overlevelses grafen for at vise antallet af patienter med risiko langs x-aksen. Find tilknytninger med biologisk funktion ved at forespørge i anmærknings vinduet. I anmærknings vinduet skal du fjerne markeringen af FDR sortfor at sortere faktor rullemenuen efter faktor nummer i stedet for falsk Discovery rate (FDR). Rul, og klik for at vælge faktor 26 i rullemenuen anmærknings vindue for at vise berigelses anmærkninger for faktoren. Rul ned på anmærknings listen, indtil DNA-reparation er synlig, og klik på den for straks at se associerede gener fremhævet med gult på graf displayet. Se midterste panel af figur 2. Bemærk, at faktorerne forsvinder eller vises som forskellige GO-termer, alt efter om de er beriget for gener med den valgte anmærkning, fx “iboende apoptotiske signalerings veje som reaktion på DNA-skader”. Udforsk faktorerne yderligere ved at tilføje Windows med forskellig funktionalitet. Tilføj et vindue af typen protein-interaktions netværk (PPI) på den øverste menulinje ved at vælge PPI på rullelisten Tilføj vindue , og klik derefter på knappen Tilføj for at føje et PPI-graf vindue til visningsområdet. I vinduet PPI Graph skal du vælge faktor ‘ Layer1:26 ‘ for at vise protein-protein interaktioner. Bemærk tætheden af tilslutninger. Fra øverste menulinje i stedet for PPIskal du vælge heatmap i rullemenuen Tilføj vindue og derefter klikke på knappen Tilføj for at føje et heatmap-vindue til visningsområdet. I vinduet heatmap skal du vælge faktor ‘ Layer1:26 ‘ for at vise genekspressions mønstrene. Grib og Flyt vinduet heatmap, så overlevelses vinduet også er synligt. Langs toppen af heatmap, observere, hvordan orange/blå/grå farvet bar svarer til patientens risiko Strata på overlevelse graf. Resultaterne vises i bunden af figur 2. 2. filtrering og tolkning af CorEx-faktorer ved hjælp af genvægt, overlevelse og anmærknings data Filtrer efter interesse faktorer ved hjælp af overlevelse og klynge kvalitet. Fra Datasætrulle menuen øverst skal du vælge TCGA_OVCA for at gå til corexplorer-siden for tcga ovariecancer RNA-SEQ. Når siden er indlæst, skal du bemærke fra overlevelses vinduet, at faktoren med den største overlevelses forskel for forskellige Strata er 114. Øverst i Factor Graph-vinduet skal du vælge ‘ Layer1:114 ‘ i rullemenuen faktor . Grib skyderen for link vægt med musen, og Flyt den op til 0,5. Bemærk, at det store antal gener i faktor 114 (1609), med ingen vægt > 0,35, indikerer en relativt svag klyngedannelse. Udvid derefter listen over faktorer i overlevelses vinduet, og vælg den næstbedste faktor i rullemenuen overlevelses vindue, faktor 39, for at vise de tilknyttede overlevelses kurver. Vælg faktor 39 i anmærknings vinduet ved at klikke på den. De betydelige GO-og KEGG-anmærkninger vises. For at få en bedre forståelse af genernes biologiske rolle i faktor 39, skal du fortolke faktorerne ved hjælp af kvarte anmærknings oplysninger som følger. Øverst i vinduet faktor graf skal du vælge faktor ‘ Layer1:39 ‘ i rullemenuen faktor. Flyt derefter musen hen over Factor Graph-vinduet, og zoom ud for at afsløre hele L2_14-klyngen med 6 faktorer: 14, 32, 39, 42, 52 og 82 (vist i figur 3). For at forstå den relative betydning af de faktorer, som er knyttet til L2_14-noden, skal du starte med at se overlevelses forskellene for hver af de L2_14 faktorer. Fjern markeringen af Sortér efter p-Val i overlevelses vinduet, og klik derefter på hvert af faktor numrene i træk. Hvis du gør dette, skal du være opmærksom på, at kun faktorerne 14, 32 og 39 viser en overlevelses forening. Nu fra den øverste menubjælke, Vælg PPI fra Tilføj vindue dropdown igen. Tryk på Tilføj for at føje et PPI-graf vindue til visningsområdet. I vinduet PPI Graph skal du vælge faktor ‘ Layer1:52 ‘ for at vise protein-protein interaktioner, der er signifikante. Et eksempel på et layout af vinduer på dette tidspunkt er vist i figur 3. Klik på linket Vis på String DB nederst i ppi-vinduet for at linke til String DB Online-databasen. Klik på Fortsæt fra det første skærmbillede, og vælg derefter fanen analyse under netværks grafen som før for at få en online Go-analyse for PPI-netværks gener. Den øverste celle komponent er ‘ MHC klasse II protein kompleks. ‘ Vend tilbage til fanen CorExplorer og PPI, og vælg faktor 32, denne gang fra rullemenuen faktor. Klik på link visningen på String DB ud til String DB-analysen. Den øverste celle komponent er ‘ MHC Class I protein Complex ‘, i modsætning til klasse II for faktor 52 i det foregående trin! Til sidst skal du gå tilbage til vinduet PPI og vælge ‘ Layer1:39 ‘ i rullemenuen faktor øverst. Klik på link visningen på stringdb for at linke til stringdb-analysen. Klik på Fortsæt fra det første skærmbillede, og vælg derefter fanen analyse under netværks grafen for at få en online Go-analyse for PPI-netværks gener. Vær opmærksom på, at den øverste molekylære funktion er ‘ CXCR3 chemokine receptor binding. ‘ 3. brug af overlevelse og database anmærkninger til at kigge efter lovende terapeutiske kombinationer Skift til tcga melanom corexplorer ved at vælge TCGA_SKCM i rullemenuen datasæt . Bemærk, at faktoren med den største overlevelses forskel er faktor 171. Undersøg faktoren 171 anmærkninger ved at rulle og Bemærk, at ‘ immunrespons ‘ og ‘ cytokinmedieret signalering pathway ‘ er nær toppen (som de var for den øverste ovarie faktor). For at finde en komplementær faktor skal du undersøge de bedste overlevelses relaterede faktorer sammen med deres topanmærknings termer. For at gøre dette, skal du klikke på datasætoversigt linket i den øverste menulinje for at åbne en separat fane, der indeholder en tabel med datasætbehandling detaljer samt en oversigt over de vigtigste faktorer i henhold til p-værdien af overlevelses differentialet. Bemærk, at den første ikke-immun faktor er 88. Vend tilbage til fanen TCGA_SKCM browser. Vælg faktor 88 i vinduerne overlevelse, anmærkning og graf. De øverste flere GO vilkår er relateret til ‘ rRNA Processing ‘ og ‘ mitochondrion organisation, ‘ bekræfter det som adskiller sig fra de immun-relaterede faktorer. I overlevelses vinduet skal du på rullelisten parrede faktorer vælge ‘ 88_171 ‘ for at se, hvordan overlevelse er forbedret for patienter i midterstratet for de kombinerede 171-og 88-udtryks faktorer. Anmærkning og overlevelse sammenligninger er illustreret i figur 4. 4. finde fælles træk og forskelle i genekspressions variation på tværs af tumortyper ved hjælp af søgesiden Klik på overskriften Corexplorer for at vende tilbage til forsiden. Klik på Søg på den øverste menubjælke for at gå til en side, der giver mulighed for at søge i alle datasæt på corexplorer-webstedet. Indtast ‘ FLT1 ‘ (VEGFR1) i søgefeltet for gensøgning , eller tryk på Søg. FLT1 er fundet med en relativ høj vægt i følgende faktorer: OVCA-76, LUAD-162, SKCM-195 og SKCM-184, samt COAD-112 og COAD-74. Alternativt kan du søge efter en relateret GO term på tværs af alle datasæt. Prøv dette i ‘ GO Search ‘ boksen ved at skrive ‘ angiogenesis ‘ og trykke på Return eller trykke på Search. Alle FLT1 faktorer, med undtagelse af SKCM-195, er angivet som statistisk beriget for ‘ angiogenesis ‘ gener-faktor 195 har faktisk anmærkningen, men under standard 10-8 tærsklen. Søgeresultaterne for dette og det forudgående trin er vist i figur 5. Som yderligere eksempler, i GO søgefeltet, første type ‘ epidermal vækstfaktor receptor. ‘ Kun LUAD er beriget til dette udtryk, en velkendt stratifikations faktor for lungekræft. Skriv derefter ‘ mesenchymal ‘ i søgefeltet. Dette udtryk er beriget i genekspressions grupper for OVCA, hvor det er en velstuderet stratificerings faktor.

Representative Results

Søgning efter genet ‘ BRCA1 ‘ i lungecancer datasæt afslører, at det er mest forbundet med CorEx Factor 26 (figur 2). GO term berigelse for denne faktor ses at være ekstremt høj, med DNA reparation udstiller en FDR på kun 1 x 10-19. Udvælgelsen henleder også opmærksomheden på det andet niveau klynge L2_8, der har seks nært beslægtede faktorer som børn. Valg af ‘ DNA Repair ‘ i enten GO term anmærkninger eller Factor Graph ‘s GO beriget dropdown fremhæver associerede gener i hver af faktorerne, med faktoren 26, der har langt den mest, som forventet11. Protein-protein interaktions netværket er stærkt forbundet, hvilket yderligere understøtter den tæt forbundne funktionalitet af generne i faktor 26. Den tilknyttede overlevelses graf antyder en mulig tilknytning til patientens overlevelse, men dette skulle bekræftes i et større datasæt. Begyndende med overlevelse kan give dissektion af årsager til forbedret overlevelse forbundet med bestemte genekspression grupper. Som et eksempel, den øverste faktor påvirker overlevelse for kræft i æggestokkene ses at være nummer 39, som er stærkt beriget for gener i forbindelse med immunsystemet (figur 3). Fem andre faktorer forbundet med samme niveau 2 node er også indiceret til at være immun-relaterede, men overlevelses effekten synes at være stærkt variable blandt dem, med 39 er den højeste og 52 er den laveste. Tilføjelse af et protein-protein interaktion vindue for en faktor viser den umiddelbare interaktion netværk og giver mulighed for link ud til StringDB12 hjemmeside for at forespørge forskellige BERIDELSER for PPI netværk gener. Ved at gøre dette for hver af de L2_14 faktorer til gengæld, man konstaterer, at StringDB beridelser for PPI netværk gener foreslå følgende mulige forklaring for foreninger med overlevelse. Faktor 32 indeholder gener, der udgør det store komplekse Complex (MHC) klasse I-protein kompleks, som er anerkendt af cytotoksiske T-lymfocytter. Faktor 39 svarer til cytokinsignalering og CXCR3-receptor binding, relateret til CD8 + T-lymfocytter. Begge disse faktorer synes at give en betydelig overlevelsesfordel for patienter udviser relativt høj ekspression af de tilsvarende gener. Cytotoksiske CD8 + T lymfocytter er primært ansvarlige for anti-tumor immunitet. Faktor 52 består derimod af gener, der koder for proteiner i MHC-klasse II-komplekset, som primært anerkendes af CD4 + T-hjælpe celler i stedet for direkte af cytotoksiske T-lymfocytter. De resterende L2_14 faktorer afspejler generaliseret immunsystemet aktivering, der ikke differentiere de to typer af lymfocyt populationer. En overlevelse Association specifikke for cytotoksiske T lymfocyt anerkendelse af MCH klasse I cellulære antigener er i overensstemmelse med vores forståelse af antitumor immunitet i almindelighed og fra andre kræftformer såsom melanom13,14. Webportalen understøtter opdagelsen af par af faktorer med komplementære funktioner, der kan foreslå effektive tumor specifikke Kombinationsbehandlinger. Datasættet oversigt kan scannes for faktorer, der viser en sammenhæng med overlevelse endnu har forskellige GO beridelser. For melanom (TCGA_SKCM; Figur 4), ses det, at den øverste overlevelsesfaktor 171 er immunrelateret, mens faktor 88 ned på listen viser berigelse for gener relateret til mitokondrion organisation. Dette er faktisk blevet foreslået som et mål i melanom15. Tilføjelse overlevelse vinduer til den CorExplorer side tillader sammenligning af stratificering ved hjælp af faktoren par til hver faktor individuelt, viser, at gunstige genekspression mønstre fra begge grupper udviser en tendens til overlevelse bedre end at for enten faktor alene. Den øverste stratum synes ikke at være forbedret dog, tyder immunterapi kun kan være den bedste løsning for nogle patienter. Fælles træk og forskelle mellem tumorer kan ses ved at søge på tværs datasæt for gener eller gå vilkår (figur 5). Som et eksempel, FLT1 (alias VEGFR1) er en velstuderet Pro-angiogenic markør16,17. Når det er sat i søgelinjen, alle tumorer har faktorer, hvor FLT1 spiller en stor rolle. Omvendt, når GO sigt ‘ angiogenesis ‘ er input på søgesiden, 5 ud af 6 af de FLT1 grupper vises med denne berigelse. Alle FLT1 faktorer, med undtagelse af SKCM-195, er opført som statistisk beriget for ‘ angiogenesis ‘ gener. Den sjette faktor har faktisk anmærkningen, men under standarden 10-8 tærskel. Når vægtningen inden for faktor listen udnyttes i en alternativ berigelses kalkulator, f. eks. (GSEA)18, anses den sjette faktor for at være betydeligt beriget for ‘ angiogenesis ‘ gener. Det er vigtigt at kontrollere hedekortene for at sikre, at genekspressions mønsteret er af tilstrækkelig kvalitet til at understøtte biologiske fortolkninger. Heatmaps, der udviser stærk, klar variation, kan udvise enten koordineret ekspression af faktor gener fra lave til høje eller mere komplekse mønstre med nogle gener med lavt ekspression korreleret med andre, der har høj (figur 6). En nøgle markør for en gruppering af høj kvalitet er tilstedeværelsen af flere gener med en jævn variation i ekspression som en funktion af faktor score. Faktor Heatmaps viser prøver bestilt i henhold til faktor score, således at der bør være en jævn gradient bevæger sig fra venstre til højre. Dette kan dog ikke ske på mindst to forskellige måder. Oftest kan korrelationerne være ekstremt støjende (figur 5c), hvilket vil stille spørgsmålstegn ved robusthed og nytte af eventuelle slutninger vedrørende overlevelse og/eller biologisk funktion. Også mønstre, der kun sker i et lille mindretal af prøver kan ikke være i overensstemmelse med den model af tre udtryk stater antages ved CorEx algoritme, hvilket resulterer i en misvisende klassificering af prøverne (højre side af figur 5D). Figur 1: forsiden af CorExplorer. Efter at have klikket på + ved siden af æggestokkene kræft under hurtige links, faktor graf detaljer vises. Den CorEx hierarkiske model består af input variabler (genekspression i dette tilfælde) på det nederste lag og udledes latente faktorer i de højere lag. Venligst klik her for at se en større version af dette tal. Figur 2: brug af et gen navn til at vejlede udforskning. Figuren viser en række screenshots illustrerer udforskning af CorEx lungekræft faktorer stærkt relateret til BRCA1. For det første får Grafvisningen til at zoome ind på den faktor, som BRCA1 har størst vægt på, når du vælger ‘ BRCA1 ‘ i rullelisten for en faktor graf. Zoome ud en bit frames lag to node L2_8 forbinder denne faktor til andre relaterede dem. Overlevelse og anmærkninger kan sammenlignes: at klikke på GO sigt DNA reparation fremhæver annoterede gener. Der tilføjes et PPI-vindue for at vise netværks interaktioner for gener i faktoren. Ved hjælp af knappen Tilføj vindue for at tilføje et varmekort viser sammenslutningen af udtryks mønstre med overlevelse, hvilket tyder på øget EKSPRESSION af DNA-reparations gener kan være forbundet med nedsat overlevelse. Venligst klik her for at se en større version af dette tal. Figur 3: brug af kliniske data (overlevelse) til at vejlede udforskning. At udforske top overlevelse-associeret faktor (39) for kræft i æggestokkene afslører interessante relationer mellem nabo faktorer. Efter at have valgt faktor 39 i faktor grafen og zoome ud en smule, laget to faktor knyttet til faktor 39 er set at har fem andre associerede faktorer. Et ekstra overlevelses vindue giver mulighed for direkte sammenligning af de associerede overlevelses forskelle. Faktorerne 39 og 32 viser begge en positiv overlevelses korrelation, i modsætning til faktor 52, hvilket ikke er. De protein-protein interaktion netværk er alle veldefinerede. Sammenkædning ud til StringDB giver mulighed for sammenligning af GO anmærkninger (ikke vist): faktor 39 er forbundet med en cytokin signalering netværk relateret til cytotoksisk CD8 + T lymfocyt aktivering og faktor 32 er domineret af MHC klasse I antigen præsenterer proteiner, der udløse anerkendelse af sådanne lymfocytter; de tilstødende faktorer, dog, er domineret af andre immunsystemet komponenter såsom CD4 + hjælper T celler og viser ingen overlevelse korrelation. Venligst klik her for at se en større version af dette tal. Figur 4: udforskning af topoverlevelses faktorer tyder på potentielle terapeutiske kombinationer. Linket ‘ datasæt ‘ på Startside-menulinjen fører til en kortfattet tabel over overlevelsesfaktorer bestilt af p-værdi sammen med top GO annotation (ikke vist). Ved hjælp af disse oplysninger for melanom, kombinationen af faktor 171 for immunforsvaret med faktor 88 for mitokondrion organisation synes komplementære. Figuren viser anmærknings vinduer for hver af faktorerne side om side for at gøre dem til kontrast. Overlevelses kurver for patienter stratificeret af de to faktorer enkeltvis eller tilsammen indikerer, at kombinationen øger overlevelses forskellen sammenlignet med enten faktor alene. Venligst klik her for at se en større version af dette tal. Figur 5: søgesiden letter pan-Cancer analyse. Gener eller gå biologisk proces vilkår kan søges på tværs af alle datasæt ved hjælp af linket Søg fra hjemmesiden. Figuren viser søgeresultater for genet FLT1 og GO term ‘ angiogenesis ‘. Resultaterne viser tilstedeværelsen af FLT1 i faktorer kommenteret med udtrykket ‘ angiogenesis ‘ på tværs af kræft. Venligst klik her for at se en større version af dette tal. Figur 6: Heatmaps kan bruges til kvalitativt at vurdere korrelationer mellem gener og prøver efter faktor score. Høj kvalitet genekspression relationer er vist ved glat graduering, når patienter er bestilt af faktor score i Heatmaps. Heatmap længst til venstre for faktor 18 er et eksempel. Mønstrene kan også omfatte komplekse signaturer af op og ned udtryk som i den midterste store heatmap for faktor 11. Lavere kvalitet mønstre undertiden viser pludselige ændringer i udtryk for en under gruppe af patienter som i faktoren 9 heatmap på højre eller simpel meget støjende korrelationer som i faktoren 161 heatmap i nederste højre. Venligst klik her for at se en større version af dette tal.

Discussion

Vi har præsenteret den CorExplorer site, en offentligt tilgængelig webserver til interaktiv udforskning af maksimalt korrelerede genekspression faktorer lært fra tumor RNA-SEQ af CorEx algoritme. Vi har vist, hvordan hjemmesiden kan bruges til at stratificere patienter i henhold til tumor genekspression, og hvordan en sådan stratificering svarer til biologisk funktion og overlevelse.

Andre webservere til RNA-SEQ-analyse er blevet bygget. Differentiel og co-Expression analyse for tumorer kan undersøges og integreres med andre datatyper i cbioportal19,20. Serverne GenePattern21, MeV22, og Morpheus23, inkorporerer etablerede klynge teknikker som hovedkomponent analyse (PCA), kmidler eller selvorganiserende kort (Soms). Mere nyskabende indsats omfatter CamurWeb24, baseret på en automatiseret regel-genererende klassifikator, og Tacco25, som implementerer tilfældige skov klassificeringer og lassos. Den Corex algoritme, der anvendes her optimerer multivariat oplysninger for at finde et hierarki af faktorer, der forklarer mønstre i data. Den ikke-lineære og hierarkiske faktor indlæring synes at give bedre fortolknings evne i forhold til de lineære globale faktorer, der findes via PCA4. Desuden, teknikken finkornet parsing af prøve signaler tillader præcise tumor sammenligninger Vis-à-Vis mere almindeligt anvendte brede undertyper. Denne kombination af overlappende og hierarkisk faktor analyse adskiller CorExplorer fra de fleste andre tilgange og nødvendiggør nye værktøjer til visualisering og opsummering.

En kritisk del af CorExplorer faktor analyse er evnen til at udforske ikke blot flere, men over 100 faktorer med informative gen mønstre, der er placeret i et overlap hierarki. Den CorExplorer letter minedrift af disse utallige faktorer for biologiske og kliniske foreninger og giver mulighed for usædvanligt detaljeret karakterisering af individuelle tumorer. Den uovervågede indlæring af et så stort antal faktorer betyder, at ikke alle vil være relevante for sygdoms biologi. I et sådant tilfælde er det vigtigt at enten bruge anmærkninger eller kendte gener til at trække ud faktorer af interesse eller søge efter faktorer, der er forbundet med kliniske data såsom overlevelse. Således, den CorExplorer giver brugerne mulighed for at gennemføre denne meget vigtige filtreringstrin. Tilstedeværelsen af faktor gen mønstre i en tumor kan endda foreslå en tilgang til personlig onkologi behandling. Yderligere, mangfoldigheden af faktor scores for hver tumor, der giver mulighed for opdagelse af potentielt nyttige terapeutiske kombinationer.

Det er undertiden tilfældet, at ingen væsentlige GO anmærkninger vises for faktorer, der er stærkt korreleret med overlevelse. Selv om dette kan forekomme på grund af støjende eller under indsamlede data, er der andre mulige årsager såsom en klyngestørrelse, der er for lille til at registrere signifikante berigende resultater, eller hvor gruppen er en “kurv” af enkelte gener fra forskellige veje uden sammenhængende biologiske Association. Derudover kan en kategori af anmærkning, der er forskellig fra den biologiske proces KEGG og GO, f. eks. Disse kan tilgås ved at linke ud til StringDB som vist i protokollen. Genet ontologi berigelse analyse på CorExplorer site i øjeblikket ikke tegner sig for genvægtning i en faktor, selv om dette vil sandsynligvis blive afhjulpet i den nærmeste fremtid. Bemærk en genliste mulighed er tilgængelig under “Tilføj vindue”, der giver mulighed for download af den komplette faktor genliste til yderligere analyse med eksterne værktøjer.

Med henblik på hjemmesiden blev CorEx kørt på hvert datasæt fem gange, og det løb, der resulterede i den største samlede samlede korrelation, blev bevaret. At have en statistisk repræsentation af resultaterne af flere kørsler kan være mere informativ og er et mål for det fremtidige arbejde. Derudover er det sæt af tumortyper tilgængelige på serveren er temmelig lille, men vi forventer, at dette udvides over tid i henhold til brugerens interesse.

Som skitseret ovenfor, den CorExplorer visualiserer CorEx RNA-SEQ faktor relationer sammen med kliniske og database oplysninger, hvilket muliggør en række forskellige former for forhør. Vi håber, at dette værktøj vil føre til yderligere arbejde for at udnytte kraften i RNA-SEQ analyse for opdagelse og klinisk anvendelse i onkologi.

Disclosures

The authors have nothing to disclose.

Acknowledgements

GV blev støttet af DARPA Award W911NF-16-0575.

Materials

Public server for CorExplorer website USC http://corex.isi.edu Intel Xeon E5-2690 4-core 2.6 GHz, 8GB RAM. Backend architecture is LAMP: Linux, Apache, MySQL, PHP.
Web browser Google/Apple Chrome/Safari Verified web browsers.

References

  1. Petryszak, R., et al. The RNASeq-er API-a gateway to systematically updated analysis of public RNA-seq data. Bioinformatics. 33, 2218-2220 (2017).
  2. Steeg, G. V., Galstyan, A. Maximally Informative Hierarchical Representations of High-Dimensional Data. Proceedings of the Eighteenth International Conference on Artificial Intelligence and Statistics (AISTATS). , (2015).
  3. Ver Steeg, G., Galstyan, A. Discovering structure in high-dimensional data through correlation explanation. Advances in Neural Information Processing Systems. , (2014).
  4. Pepke, S., Ver Steeg, G. Comprehensive discovery of subsample gene expression components by information explanation: therapeutic implications in cancer. BMC medical Genomics. 10, 12 (2017).
  5. Byron, S. A., Van Keuren-Jensen, K. R., Engelthaler, D. M., Carpten, J. D., Craig, D. W. Translating RNA sequencing into clinical diagnostics: opportunities and challenges. Nature Reviews Genetics. 17, 257 (2016).
  6. Cancer Genome Atlas Research Network. Comprehensive molecular profiling of lung adenocarcinoma. Nature. 511, 543 (2014).
  7. Cancer Genome Atlas Network. Comprehensive molecular characterization of human colon and rectal cancer. Nature. 487, 330 (2012).
  8. Akbani, R., et al. Genomic classification of cutaneous melanoma. Cell. 161, 1681-1696 (2015).
  9. Cancer Genome Atlas Research Network. Integrated genomic analyses of ovarian carcinoma. Nature. 474, 609 (2011).
  10. Grossman, R. L., et al. Toward a shared vision for cancer genomic data. New England Journal of Medicine. 375, 1109-1112 (2016).
  11. Moynahan, M. E., Chiu, J. W., Koller, B. H., Jasin, M. Brca1 controls homology-directed DNA repair. Molecular Cell. 4, 511-518 (1999).
  12. Szklarczyk, D., et al. STRING v11: protein–protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, 607-613 (2018).
  13. Durgeau, A., Virk, Y., Corgnac, S., Mami-Chouaib, F. Recent advances in targeting CD8 T-cell immunity for more effective cancer immunotherapy. Frontiers in Immunology. 9, 14 (2018).
  14. Sato, E., et al. Intraepithelial CD8+ tumor-infiltrating lymphocytes and a high CD8+/regulatory T cell ratio are associated with favorable prognosis in ovarian cancer. Proceedings of the National Academy of Sciences of the United States of America. 102, 18538-18543 (2005).
  15. De Moura, M. B., et al. Mitochondrial respiration-an important therapeutic target in melanoma. PLoS One. 7, 40690 (2012).
  16. Folkman, J., Merler, E., Abernathy, C., Williams, G. Isolation of a tumor factor responsible for angiogenesis. Journal of Experimental Medicine. 133, 275-288 (1971).
  17. Takahashi, S. Vascular endothelial growth factor (VEGF), VEGF receptors and their inhibitors for antiangiogenic tumor therapy. Biological and Pharmaceutical Bulletin. 34, 1785-1788 (2011).
  18. Subramanian, A., et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proceedings of the National Academy of Sciences of the United States of America. 102, 15545-15550 (2005).
  19. Cerami, E., et al. The cBio Cancer Genomics Portal: An Open Platform for Exploring Multidimensional Cancer Genomics Data. Cancer Discovery. 2, 401-404 (2012).
  20. Gao, J., et al. Integrative Analysis of Complex Cancer Genomics and Clinical Profiles Using the cBioPortal. Science Signalling. 6, 1 (2013).
  21. Reich, M., et al. GenePattern 2.0. Nature Genetics. 38, 500 (2006).
  22. Wang, Y. E., Kutnetsov, L., Partensky, A., Farid, J., Quackenbush, J. WebMeV: A Cloud Platform for Analyzing and Visualizing Cancer Genomic Data. Cancer Research. 77, 11-14 (2017).
  23. . Morpheus Available from: https://software.broadinstitute.org/morpheus (2019)
  24. Weitschek, E., Lauro, S. D., Cappelli, E., Bertolazzi, P., Felici, G. CamurWeb: a classification software and a large knowledge base for gene expression data of cancer. BMC Bioinformatics. 19, 354 (2018).
  25. Chou, P. -. H., et al. tACCo, a Database Connecting transcriptome Alterations, pathway Alterations and Clinical outcomes in Cancers. Scientific Reports. 9, 3877 (2019).

Play Video

Cite This Article
Pepke, S., Nelson, W. M., Ver Steeg, G. Analyzing Tumor Gene Expression Factors with the CorExplorer Web Portal. J. Vis. Exp. (152), e60431, doi:10.3791/60431 (2019).

View Video