Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Cancer Research

Analysere tumor Gene Expression faktorer med CorExplorer Web portal

Published: October 11, 2019 doi: 10.3791/60431

Summary

Vi introduserer CorExplorer webportal, en ressurs for utforskning av tumor RNA sekvensering faktorer funnet av maskinen læring algoritmen CorEx (korrelasjon forklaring), og viser hvordan faktorer kan analyseres i forhold til overlevelse, database merknader, Protein-protein interaksjoner, og en annen for å få innsikt i tumor biologi og terapeutiske intervensjoner.

Abstract

Differensial genuttrykk analyse er en viktig teknikk for å forstå sykdomstilstander. Maskinen læring algoritmen CorEx har vist nytte i å analysere differensial uttrykk for grupper av gener i tumor RNA-SEQ på en måte som kan være nyttig for å fremme presisjon onkologi. Imidlertid produserer CorEx mange faktorer som kan være utfordrende å analysere og koble til eksisterende forståelse. For å lette slike forbindelser, har vi bygget et nettsted, CorExplorer, som lar brukerne interaktivt utforske data og svare på vanlige spørsmål knyttet til sin analyse. Vi trente CorEx på RNA-SEQ gen uttrykks data for fire tumor typer: eggstokkene, lunge, melanom og tykk tarms. Vi har deretter innarbeidet tilsvarende overlevelse, protein-protein interaksjoner, Gene ontologi (GO) og Kyoto Encyclopedia of gener og genomer (KEGG) Pathway elementene, og heatmaps inn på nettsiden for tilknytning til faktor grafen visualisering. Her bruker vi eksempel protokoller for å illustrere bruken av databasen for å forstå betydningen av de lærde tumor faktorene i sammenheng med disse eksterne dataene.

Introduction

Siden introduksjonen litt over et ti år siden, har RNA-SEQ blitt et allestedsnærværende verktøy for måling av genuttrykk1. Dette er fordi det gir rask og billig de Novo profilering av hele transcriptome av en prøve. Imidlertid reflekterer RNA-SEQ tumor data en underliggende biologi som er egentlig kompleks og ofte under-samplet, mens dataene i seg selv er høy-dimensjonale og støyende. Dette utgjør en betydelig utfordring for å trekke ut pålitelige signaler. Den CorEx algoritmen utnytter multivariabel gjensidig informasjon for å finne subtile mønstre i slike situasjoner2,3 . Denne teknikken ble tidligere tilpasset for å analysere eggstokkene tumor RNA-SEQ prøver fra The Cancer Genova Atlas (TCGA) og i denne sammenheng det syntes å ha betydelige fordeler fremfor mer brukte analysemetoder4.

Selv om bruken av RNA-SEQ er enormt utbredt i forskningsprogrammer, inkludert i onkologi, har ikke dette arbeidet ført til bred utnyttelse i forbindelse med kliniske intervensjoner5. En del av grunnen til dette er en mangel på brukervennlige algoritmer og programvare rettet mot disse spesifikke problemene. For å bidra til å bygge bro over dette gapet, har vi designet CorExplorer Web-portal for å muliggjøre forskere fra en rekke bakgrunner for å studere genuttrykk faktorer av tumor RNA-SEQ prøver som finnes ved CorEx maskinlæring algoritme. CorExplorer-portalen støtter interaktiv visualisering og spørring av faktorer fra flere ulike tumor typer, inkludert lunge, kolon, melanom og eggstokkene6,7,8,9, 10, med den hensikt å hjelpe forskere til å sile gjennom data sammenhenger og identifisere kandidat trasé å Stratify pasienter for terapeutiske formål.

Vi forventer at CorExplorer portalen kan være nyttig for flere typer brukere. Portalen ble designet med brukeren i tankene som ønsker å forstå de brede faktorene som driver tumoral genuttrykk forskjeller i offentlige databaser og muligens også plassere individuelle genuttrykk profiler i sammenheng med svulster med lignende Egenskaper. I tillegg til representative protokoller skissert her, CorExplorer undersøkelser kan tjene som et utgangspunkt for å foreslå hypoteser for videre testing, å sammenligne og kontrast CorEx funn på datasett utenfor CorExplorer, og å koble patologisk uttrykk underskrifter av en eller noen få gener i en individuell svulst til større grupper som kan være coordinately berørt. Til slutt kan det fungere som en brukervennlig introduksjon til anvendelsen av maskinlæring til RNA-SEQ for de som kommer i gang i felten.

Protocol

1. Exploring faktorer som inneholder et gen av interesse

  1. Åpne en nettleser og gå til http://corex.isi.edu, CorExplorer hjemmeside.
  2. På høyre side under hurtigkoblinger, klikk på + Expand knappen ved siden av eggstokkene (TCGA-OV) for å se en oppsummering av CorEx FAKTOR grafen som ble trent på TCGA eggstokkene kreft data (vist i figur 1). Du kan også klikke på andre for å sammenligne.
  3. Når ferdig inspeksjon faktoren grafer, klikk påLunge (TCGA-LUAD)for å få tilgang til CorExplorer-siden for lungekreft RNA-SEQ.
    1. Utforsk CorEx faktor grafen for et gen av interesse ved å bruke CorExplorer ' Factor Graph ' vindu.
      1. Beveg musepekeren over visningsvinduet for faktor grafen. Zoom inn i faktor grafen ved hjelp av musen rullehjulet eller styreflaten for å se detaljer om grafen som de viktigste genene i hver faktor og sammenhengene mellom noder på ulike lag. Du kan også klikke og dra for å flytte visningsområdet eller en hvilken som helst node.
      2. For å finne et mål gen (her vil vi bruke BRCA1), klikk på Gene dropdown menyen øverst i faktor grafen vinduet. Type ' BRCA1 ' for å velge den i rullegardinlisten og trykk Return å gjøre visningen zoome til faktor 26, faktoren som BRCA1 er sterkest korrelert.
      3. Flytt musen over Grafvisningen, og bla for å zoome ut for å se nivå 2-noden, L2_8, og de tilknyttede faktorene som er naboer til faktor 26. Vær oppmerksom på at bare gener med større vekt enn terskelen som er angitt på glidebryteren for min koblings vekt , vises.
      4. Hvis du vil se alle genene som er knyttet til faktoren, klikker du på L1_26-noden og velger Last inn flere gener i popup-vinduet. Når ordet "Done" vises, lukker du popup-vinduet.
      5. Nå gå tilbake til toppteksten delen over faktor grafen vinduet og grip og dra min link vekt spesial. Nå, idet leddet vekt skyve er flyttet ned å 0,05, annet gener inne faktoren L1_26, inkluderer BRCA2, ville komme inne vekt ordre. Du kan eventuelt omplassere noder ved å flytte og dra for å forbedre layouten.
    2. Bestem hvordan lagdeling av pasienter med hensyn til faktoren påvirker overlevelse ved å spørre i overlevelses vinduet.
      1. I overlevelse vinduet, uncheck Sorter etter p-Val, velg deretter faktor 26 i single Factor rullegardinmenyen for å vise overlevelse kurver for faktor 26.
      2. Bla nedover overlevelse grafen for å vise antall pasienter i fare langs x-aksen.
    3. Søk etter tilknytninger med biologisk funksjon ved å spørre i merknads vinduet.
      1. I merknads vinduet, for å sortere faktor dropdown-menyen etter faktor tall i stedet for false Discovery rate (FDR), fjerner du merket FDR sortere.
      2. Bla og klikk for å velge faktor 26 i merknads vinduet dropdown å vise berikelse merknader for faktoren.
      3. Bla nedover i merknads listen til DNA-reparasjon er synlig, og klikk på den for å umiddelbart se tilknyttede gener uthevet i gult på graf skjermen. Se midten panel av figur 2.
      4. Merk at faktorer forsvinner eller vises som forskjellige GO-vilkår er valgt, i henhold til om de er beriket for gener med den valgte merknaden, for eksempel ' indre apoptotisk signal vei som svar på DNA-skade. '
    4. Utforsk faktorene ytterligere ved å legge til Vinduer med ulik funksjonalitet.
      1. Fra den øverste menylinjen, legge til et protein-protein samspill nettverk (PPI) ved å velge ppi fra Legg til vindu dropdown, og klikk deretter på Legg til-knappen for å legge til en ppi grafen vinduet til displayet området. I vinduet PPI-graf velger du faktor ' Layer1:26 ' for å vise interaksjoner mellom protein og proteiner. Legg merke til tettheten av tilkoblinger.
      2. Fra topp meny stang, istedet for ppi, velge heatmap fra det sammenlegge vindu dropdown, så falle i staver det sammenlegge knapp å sammenlegge en heatmap vindu å utfoldelsen område. I heatmap-vinduet velger du faktor ' Layer1:26 ' for å vise gen uttrykks mønstrene.
      3. Grab og omplassere heatmap vinduet slik at overlevelse vinduet er også synlig. Langs toppen av heatmap, observere hvordan den oransje/blå/grå farget bar tilsvarer pasientens risiko lag på overlevelse grafen. Resultatene er vist i bunnen av figur 2.

2. filtrering og tolking CorEx faktorer ved hjelp av gen vekt, overlevelse, og merknadsdata

  1. Filtrer etter faktorer av interesse ved hjelp av overlevelse og klynge kvalitet.
    1. Fra rullegardinmenyen for DataSet øverst velger du TCGA_OVCA for å gå til CorExplorer-siden for TCGA-kreften RNA-SEQ.
    2. Når siden er lastet, notat fra overlevelse vinduet at faktoren med den største overlevelse differensial for ulike lag er 114.
    3. På toppen av faktor grafen vinduet velger du ' Layer1:114 ' fra faktor dropdown.
    4. Grab koblingen vekt glidebryteren med musen og flytte den opp til 0,5. Merk at det store antall gener i faktor 114 (1609), med ingen har vekt > 0.35, indikerer en relativt svak Clustering.
    5. Neste, utvide listen over faktorer i overlevelse vinduet og velg den nest beste faktoren i overlevelse vinduet dropdown, faktor 39, for å vise sine tilknyttede overlevelse kurver.
    6. Velg faktor 39 i merknads vinduet ved å klikke på den. Viktige GO-og KEGG-merknader vises.
  2. For å få en bedre forståelse av den biologiske rolle gener i faktor 39, tolke faktorene ved hjelp av nabolaget merknadsinformasjon som følger.
    1. På toppen av faktor grafen vinduet, Velg faktor ' Layer1:39 ' i faktor dropdown. Deretter flytter du musen over faktor graf vinduet og zoomer ut for å avdekke hele L2_14-klyngen med 6 faktorer: 14, 32, 39, 42, 52 og 82 (vist i Figur 3).
    2. For å forstå den relative betydningen av faktorene knyttet til L2_14-noden, kan du starte med å vise overlevelses forskjeller for hver av L2_14-faktorene. Fjern merket for Sorter etter p-Val i overlevelses vinduet, og klikk deretter på hver av faktor numrene etter hverandre. Å gjøre dette, Merk at bare faktorer 14, 32, og 39 vise en overlevelse forening.
    3. Nå fra den øverste menylinjen, velger du ppi fra Legg til vinduet dropdown igjen. Trykk Legg til for å legge til et ppi-diagram i visningsområdet. I vinduet PPI-graf velger du faktor ' Layer1:52 ' for å vise hvilke protein-protein interaksjoner som er signifikante. Et eksempel på oppsettet av Vinduer på dette punktet er vist i Figur 3.
    4. Klikk på Vis på StringDB linken nederst i PPI vinduet for å koble ut til StringDB online database. Klikk på Fortsett fra den første skjermen, velg deretter analyse -fanen under nettverks grafen som før for å få en online go-analyse for ppi-nettverk gener. Den øverste cellulære komponenten er ' MHC klasse II protein kompleks.
    5. Gå tilbake til CorExplorer kategorien og PPI vinduet og velg faktor 32, denne gangen fra faktor dropdown. Klikk koblings visningen på StringDB ut til StringDB-analysen. Den øverste cellulære komponenten er "MHC klasse I protein kompleks," i motsetning til klasse II for faktor 52 i forrige trinn!
    6. Til slutt, gå tilbake til PPI-vinduet og velg ' Layer1:39 ' fra faktor rullegardinmenyen øverst. Klikk koblings visningen på StringDB for å koble til StringDB-analysen.
    7. Klikk på Fortsett fra det første skjermbildet, og velg deretter analyse -fanen under nettverks grafen for å få en online go-analyse for nettverks genene til ppi. Observer at den øverste molekyl funksjonen er ' CXCR3 chemokine reseptor binding '.

3. bruke overlevelse og database merknader for å se etter lovende terapeutiske kombinasjoner

  1. Bytt til TCGA melanom CorExplorer ved å velge TCGA_SKCM fra rullegardinmenyen for DataSet .
  2. Merk at faktoren med den største overlevelse differensial er faktor 171. Undersøk faktoren 171 merknader ved å rulle og Legg merke til at "immunrespons" og "cytokin-mediert signalering veien" er nær toppen (som de var for toppen eggstokkene faktor).
  3. Hvis du vil finne en utfyllende faktor, kan du undersøke de viktigste overlevelses faktorene sammen med de øverste merknads termene. Hvis du vil gjøre dette, klikker du Oversikt over DataSet -koblingen i den øverste menylinjen for å åpne en egen kategori som inneholder en tabell med informasjon om behandling av datasett, samt et sammendrag av topp faktorer i henhold til p-verdien av overlevelse differensial. Merk at den første ikke-immune faktoren er 88.
  4. Gå tilbake til kategorien TCGA_SKCM nettleser.
  5. Velg faktor 88 i overlevelses-, merknads-og graf vinduene. De øverste flere GO vilkår er relatert til "rRNA behandling" og "mitokondrie organisasjon," bekrefter det som skiller seg fra de immune-relaterte faktorer.
  6. I overlevelse vinduet, på sammenkoblede faktorer dropdown, velg ' 88_171 for å se hvordan overlevelse er forbedret for pasienter i midten stratum for kombinert 171 og 88 uttrykk faktorer. Merknader og overlevelse sammenligninger er illustrert i Figur 4.

4. finne fellestrekk og forskjeller i genuttrykk variasjon på tvers av tumor typer ved hjelp av Søk-siden

  1. Klikk på CorExplorer -overskriften for å gå tilbake til forsiden.
  2. Falle i staver opp på søke på topp meny stang å gå til en side tillater forskende over alle datasettene på CorExplorer sted.
  3. Inne det Gene søke bokse med, gå inn ' FLT1 ' (VEGFR1) og finne retur eller presse søke. FLT1 er funnet med en relativt høy vekt i følgende faktorer: OVCA-76, LUAD-162, SKCM-195 og SKCM-184, samt COAD-112 og COAD-74.
  4. Du kan også søke etter en relatert GO-term på tvers av alle datasettene. Prøv dette i "GO søk"-boksen ved å skrive "angiogenese" og trykke Return eller trykke Søk. Alle FLT1 faktorer, med unntak av SKCM-195, er oppført som statistisk beriket for ' angiogenese ' gener-faktor 195 gjør, faktisk, har merknaden, men under standard 10-8 terskelen. Søkeresultater for dette og det tidligere trinnet vises i figur 5.
  5. Som ytterligere eksempler, i GO søkeboksen, første typen ' epidermal vekstfaktorreseptor. Kun LUAD er beriket for dette begrepet, en velkjent lagdeling faktor for lungekreft. Deretter skriver du inn "mesenchymal" i søkeboksen. Dette begrepet er beriket i gen uttrykks grupper for OVCA, hvor det er en godt studert lagdeling faktor.

Representative Results

Søker etter genet ' BRCA1 ' i lungekreft datasettet avslører det å være mest sterkt assosiert med CorEx faktor 26 (figur 2). GO sikt berikelse for denne faktoren er sett å være ekstremt høy, med DNA-reparasjon viser en FDR på bare 1 x 10-19. Utvalget trekker også oppmerksomhet til andre nivå klyngen L2_8 som har seks nært beslektede faktorer som barn. Velge "DNA reparasjon" i enten GO sikt merknader eller faktor grafen ' s GO beriket dropdown høydepunkter tilhørende gener i hver av faktorene, med faktor 26 har langt mest, som forventet11. Det protein-protein interaksjon nettverket er sterkt tilkoblet, ytterligere støtte for tett knyttet funksjonaliteten av genene i faktor 26. Den tilknyttede overlevelse grafen antyder en mulig tilknytning til pasientens overlevelse, men dette må bekreftes i et større datasett.

Fra og med overlevelse kan tillate Disseksjon av årsaker til økt overlevelse forbundet med bestemte gen uttrykks grupper. Som et eksempel, den øverste faktoren som påvirker overlevelse for kreft i eggstokkene er sett på som nummer 39, som er sterkt beriket for gener knyttet til immunsystemet (Figur 3). Fem andre faktorer knyttet til samme nivå 2 node er også indikert for å være immune-relatert, men overlevelse effekten synes å være sterkt variabel blant dem, med 39 er den høyeste og 52 er den laveste. Legge til en protein-protein interaksjon vindu for en faktor viser umiddelbar interaksjon nettverket og gir mulighet for kobling til StringDB12 nettsted for å søke ulike ELEMENTENE for ppi nettverk gener. Ved å gjøre dette for hver av de L2_14 faktorene i sin tur, finner man at StringDB elementene for PPI nettverk gener tyder på følgende mulige forklaring for assosiasjoner med overlevelse. Faktor 32 inneholder gener som utgjør den store histocompatibility kompleks (MHC) klasse I protein kompleks, som er anerkjent av cytotoksisk T-lymfocytter. Faktor 39 tilsvarer cytokin signalering og CXCR3 reseptor binding, relatert til CD8 + T-lymfocytter. Begge disse faktorene ser ut til å tildele en betydelig overlevelses fordel for pasienter som stiller relativt høye uttrykk for de tilsvarende genene. Cytotoksisk CD8 + T-lymfocytter er primært ansvarlig for anti-tumor immunitet. Faktor 52, på den annen side, består av gener koding for proteiner i MHC klasse II kompleks som er anerkjent hovedsakelig av CD4 + T hjelper celler i stedet for direkte ved cytotoksisk T-lymfocytter. De resterende L2_14 faktorene reflekterer generalisert immunsystem aktivering som ikke skiller mellom de to typene lymfocytter populasjoner. En overlevelse forening spesifikk å cytotoksisk T lymfocytter gjenkjennelse av MCH klassen jeg Cellular antigener er forenlig med våre forståelse av antitumor immunitet i alminnelighet og fra annet kreften som melanom13,14.

Nettportalen støtter oppdagelsen av par faktorer med utfyllende funksjoner som kan tyde på effektiv tumor-spesifikk Kombinasjonsbehandling. Datasett oversikten kan skannes for faktorer som viser en korrelasjon med overlevelse, men som likevel har distinkte GO-elementene. For melanom (TCGA_SKCM; Figur 4), er det sett at den øverste overlevelse faktor 171 er immune relatert, mens faktor 88 nedover listen viser berikelse for gener knyttet til mitokondrie organisasjon. Faktisk har dette blitt foreslått som et mål i melanom15. Tilføyer overlevelse Vinduer å det CorExplorer side innrømmer sammenligningen av lagdeling benytter faktoren par å det av hver faktoren hver for seg, viser det fordelaktig gen gjengivelsen mønstre fra begge to holdene forevise en trend av overlevelse bedre enn det for enten den ene eller den andre av faktor alene. Den øverste stratum ser ikke ut til å være forbedret imidlertid antyder immunterapi bare kan være det beste alternativet for noen pasienter.

Fellestrekk og forskjellene blant svulster kan sees ved å søke på tvers av datasett for gener eller GO termer (figur 5). Som et eksempel, FLT1 (aka VEGFR1) er en godt studert Pro-angiogenic markør16,17. Når det er satt inn i søkefeltet, alle svulster har faktorer som FLT1 spiller en stor rolle. Omvendt, når GO term ' angiogenese ' er innspill på søkesiden, 5 av 6 av de FLT1 gruppene vises med at berikelse. Alle FLT1 faktorer, med unntak av SKCM-195, er listet som statistisk beriket for ' angiogenese ' gener. Den sjette faktoren gjør faktisk har merknaden, men under standard 10-8 terskelen. Når vekting i faktor listen er benyttet i en alternativ berikelse kalkulator, for eksempel Gene set berikelse Analysis (GSEA)18, den sjette faktoren er funnet å være betydelig beriket for ' angiogenese ' gener også.

Det er viktig å sjekke heatmaps for å sikre at gen uttrykks mønsteret er av adekvat kvalitet for å støtte biologiske tolkninger. Heatmaps som viser sterk klar variasjon kan vise enten koordinert uttrykk for faktor gener som spenner fra lav til høy eller mer komplekse mønstre med noen gener har lavt uttrykk korrelert med andre som har høy (figur 6). En viktig markør for en høy kvalitet gruppering er tilstedeværelsen av flere gener med en jevn variasjon i uttrykket som en funksjon av faktor score. Faktoren heatmaps viser prøvene sortert etter faktor score, og dermed bør det være en jevn gradient flytte fra venstre til høyre. Men dette kan ikke skje i minst to forskjellige måter. Vanligvis kan sammenhenger være ekstremt bråkete (figur 5c), ringer inn spørsmålet robusthet og nytte av eventuelle slutninger om overlevelse og/eller biologisk funksjon. Også mønstre som skjer bare i et lite mindretall av prøvene kan ikke samsvare med modellen av tre uttrykk stater antatt av CorEx algoritmen, noe som resulterer i en misvisende klassifisering av prøvene (høyre side av figur 5D).

Figure 1
Figur 1: CorExplorer forside. Etter å ha klikket på + ved siden av eggstokkene under hurtigkoblinger, vises faktor Graph detaljer. Den CorEx hierarkiske modellen består av input variabler (genuttrykk i dette tilfellet) på det nederste laget og utledes latente faktorer i høyere lag. Vennligst klikk her for å se en større versjon av dette tallet.

Figure 2
Figur 2: bruke et gen navn til å veilede leting. Figuren viser en rekke screenshots illustrerer utforskning av CorEx lungekreft faktorer sterkt knyttet til BRCA1. Først velger du ' BRCA1 ' i Gene dropdown-boksen for faktor grafen forårsaker grafen visning for å zoome inn på faktoren som BRCA1 har størst vekt. Zoome ut en bit rammer laget to noden L2_8 kobler den faktoren til andre relaterte seg. Overlevelse og merknader kan sammenlignes: å klikke på GO term DNA reparasjon høydepunkter kommenterte gener. Det legges til et PPT-vindu for å vise nettverks interaksjoner for gener i faktoren. Bruke Legg til vindu -knappen for å legge til et varme kart viser sammenslutning av uttrykks mønstre med overlevelse, noe som tyder på økt uttrykk for DNA-reparasjon gener kan være forbundet med redusert overlevelse. Vennligst klikk her for å se en større versjon av dette tallet.

Figure 3
Figur 3: bruk av kliniske data (overlevelse) til å veilede leting. Utforske toppen overlevelse-assosiert faktor (39) for eggstokkene avslører interessante relasjoner mellom nabo faktorer. Når du har valgt faktor 39 i faktor grafen og zoome ut litt, er laget to faktor knyttet til faktor 39 sett å ha fem andre tilknyttede faktorer. En ekstra overlevelse vinduet tillater direkte sammenligning av tilhørende overlevelse forskjeller. Faktorer 39 og 32 begge viser en positiv overlevelse korrelasjon, i motsetning til faktor 52, som ikke. Den protein-protein samhandling nettverk er alle godt definert. Linking ut til StringDB tillater sammenligning av GO merknader (ikke vist): faktor 39 er forbundet med en cytokin signalering nettverk knyttet til cytotoksisk CD8 + T lymfocytter aktivisering og faktor 32 er dominert av MHC klasse jeg antigen presentere proteiner som utløse anerkjennelse av slike lymfocytter; nabokommunene faktorer, men er dominert av andre immunsystem komponenter som CD4 + Helper T celler og viser ingen overlevelse korrelasjon. Vennligst klikk her for å se en større versjon av dette tallet.

Figure 4
Figur 4: Exploring topp overlevelse faktorer antyder potensielle terapeutiske kombinasjoner. "DataSet"-koblingen på menylinjen for hjemmesiden fører til en kortfattet tabell med overlevelses faktorer sortert etter p-verdi, sammen med den øverste GO-merknaden (vises ikke). Ved hjelp av denne informasjonen for melanom, kombinasjonen av faktor 171 for immun funksjon med faktor 88 for mitokondrie organisasjon vises komplementær. Figuren viser merknads Vinduer for hver av faktorene side ved side for å sammenligne dem. Overlevelse kurver for pasienter lagdelt av de to faktorene enkeltvis eller sammen tyder på at kombinasjonen øker overlevelse differensial i forhold til enten faktor alene. Vennligst klikk her for å se en større versjon av dette tallet.

Figure 5
Figur 5: søkesiden Letter Pan-Cancer analyse. Gener eller GO biologiske prosess vilkår kan søkes på tvers av alle datasett ved hjelp av Søk link fra hjemmesiden. Figuren viser søkeresultater for genet FLT1 og GO term ' angiogenese '. Resultatene viser tilstedeværelsen av FLT1 i forhold kommentert med begrepet "angiogenese" på tvers av kreft. Vennligst klikk her for å se en større versjon av dette tallet.

Figure 6
Figur 6: heatmaps kan brukes til kvalitativt vurdere sammenhenger blant gener og prøver i henhold til faktor score. Høy kvalitet genuttrykk relasjoner vises ved jevne gradering når pasientene er organisert etter faktor score i heatmaps. Heatmap lengst til venstre for faktor 18 er ett eksempel. Mønstrene kan også omfatte sammensatte signaturer av opp og ned uttrykk som i den midtre store heatmap for faktor 11. Lavere kvalitet mønstre noen ganger viser brå endringer i uttrykket for en undergruppe av pasienter som i faktor 9 heatmap på høyre eller enkle svært støyende sammenhenger som i faktor 161 heatmap nederst til høyre. Vennligst klikk her for å se en større versjon av dette tallet.

Discussion

Vi har presentert CorExplorer området, en offentlig tilgjengelig Web server for interaktiv utforskning av maksimalt korrelert genuttrykk faktorer lært fra tumor RNA-SEQ av CorEx algoritmen. Vi har vist hvordan nettstedet kan brukes til å Stratify pasienter i henhold til tumor genuttrykk, og hvordan slike lagdeling tilsvarer biologisk funksjon og overlevelse.

Andre webservere for RNA-SEQ-analyser er blitt bygget. Differensial og co-Expression analyse for svulster kan undersøkes og integreres med andre datatyper i cbioPortal19,20. Serverne GenePattern21, MeV22, og Morpheus23, innlemme etablerte Clustering teknikker som viktigste komponenten analyse (PCA), kmeans, eller selv-organisering kart (somer). Flere nyskapende anstrengelser inkludere CamurWeb24, basert på en automatisert beherske-utvikler klassifisere, og TACCO25, hvilke iverksette tilfeldig skog klassifiserere og lassos. Den CorEx algoritmen brukes her optimaliserer multivariabel informasjon for å finne et hierarki av faktorer som forklarer mønstre i data. Den ikke-lineære og hierarkiske faktoren læring ser ut til å gi bedre interpretability i forhold til de lineære globale faktorene funnet via PCA4. I tillegg gir teknikken en finkornet analyse av prøve signaler presis tumor sammenligninger Vis-à-Vis mer vanlig brukte brede under typer. Denne kombinasjonen av overlappende og hierarkiske faktoranalyse skiller CorExplorer fra de fleste andre tilnærminger og nødvendiggjør nye verktøy for visualisering og oppsummering.

En kritisk del av CorExplorer faktoranalyse er evnen til å utforske ikke bare flere, men over 100 faktorer med informative gen mønstre som er plassert i et overlappende hierarki. Den CorExplorer forenkler gruvedrift av disse utallige faktorer for biologiske og kliniske foreninger og gir usedvanlig detaljert karakterisering av individuelle svulster. Den uten tilsyn læring av et så stort antall faktorer betyr at ikke alle vil være relevant for sykdoms biologi. I et slikt tilfelle er det viktig å enten bruke merknader eller kjente gener for å trekke ut faktorer av interesse eller søke etter faktorer knyttet til kliniske data som overlevelse. Således, det CorExplorer innrømmer brukernes å iverksette denne meget betydelig filterene steg. Tilstedeværelsen av faktor gen mønstre i en svulst kan også foreslå en tilnærming til personlig onkologi behandling. Videre, mangfoldet av faktor score for hver svulst som gjør det mulig for oppdagelsen av potensielt nyttige terapeutiske kombinasjoner.

Det er noen ganger slik at ingen signifikante GO-merknader vises for faktorer som er svært korrelert med overlevelse. Selv om dette kan skje på grunn av støyende eller under samplet data, er det andre mulige årsaker, for eksempel en klyngestørrelse som er for liten til å registrere betydelige berikelse score eller gruppen være en "kurv" av enkelt gener fra ulike veier uten sammenhengende biologiske Association. I tillegg kan en kategori av merknad forskjellig fra KEGG og GO biologiske prosessen, for eksempel mobilnettet kupé, være hensiktsmessig. Disse kan nås ved å linke ut til StringDB som demonstrert i protokollen. The Gene ontologi berikelse analyse på CorExplorer nettstedet for tiden ikke står for genet vekting i en faktor, men dette vil trolig bli utbedret i nær fremtid. Merk en gen liste alternativet er tilgjengelig under "Legg til vindu" som gir mulighet for nedlasting av den komplette faktoren gen liste for videre analyse med eksterne verktøy.

I forbindelse med nettstedet ble CorEx kjørt på hvert av datasettene fem ganger, og kjøringen som resulterte i den største total korrelasjon ble beholdt. Å ha en statistisk representasjon av resultatene av flere runs kan være mer informativ og er et mål for fremtidig arbeid. I tillegg er sett av tumor typer tilgjengelig på serveren ganske liten, men vi forventer at dette skal utvides over tid i henhold til brukerens interesse.

Som beskrevet ovenfor, den CorExplorer visualiserer CorEx RNA-SEQ faktor relasjoner sammen med klinisk og databaseinformasjon, og dermed muliggjøre en rekke forskjellige moduser av avhør. Vi er håpefull det denne verktøyet ville føre til fremme arbeide å anvende makten av RNA-SEQ analyse for oppdagelsen og klinisk søknad inne onkologi.

Disclosures

Forfatterne erklærer at de ikke har noen konkurrerende finansielle interesser.

Acknowledgments

GV ble støttet av DARPA Award W911NF-16-0575.

Materials

Name Company Catalog Number Comments
Public server for CorExplorer website USC http://corex.isi.edu Intel Xeon E5-2690 4-core 2.6 GHz, 8GB RAM. Backend architecture is LAMP: Linux, Apache, MySQL, PHP.
Web browser Google/Apple Chrome/Safari Verified web browsers.

DOWNLOAD MATERIALS LIST

References

  1. Petryszak, R., et al. The RNASeq-er API-a gateway to systematically updated analysis of public RNA-seq data. Bioinformatics. 33, 2218-2220 (2017).
  2. Steeg, G. V., Galstyan, A. Maximally Informative Hierarchical Representations of High-Dimensional Data. Proceedings of the Eighteenth International Conference on Artificial Intelligence and Statistics (AISTATS). , San Diego, CA. (2015).
  3. Ver Steeg, G., Galstyan, A. Discovering structure in high-dimensional data through correlation explanation. Advances in Neural Information Processing Systems. , Montreal, Canada. (2014).
  4. Pepke, S., Ver Steeg, G. Comprehensive discovery of subsample gene expression components by information explanation: therapeutic implications in cancer. BMC medical Genomics. 10, 12 (2017).
  5. Byron, S. A., Van Keuren-Jensen, K. R., Engelthaler, D. M., Carpten, J. D., Craig, D. W. Translating RNA sequencing into clinical diagnostics: opportunities and challenges. Nature Reviews Genetics. 17, 257 (2016).
  6. Cancer Genome Atlas Research Network. Comprehensive molecular profiling of lung adenocarcinoma. Nature. 511, 543 (2014).
  7. Cancer Genome Atlas Network. Comprehensive molecular characterization of human colon and rectal cancer. Nature. 487, 330 (2012).
  8. Akbani, R., et al. Genomic classification of cutaneous melanoma. Cell. 161, 1681-1696 (2015).
  9. Cancer Genome Atlas Research Network. Integrated genomic analyses of ovarian carcinoma. Nature. 474, 609 (2011).
  10. Grossman, R. L., et al. Toward a shared vision for cancer genomic data. New England Journal of Medicine. 375, 1109-1112 (2016).
  11. Moynahan, M. E., Chiu, J. W., Koller, B. H., Jasin, M. Brca1 controls homology-directed DNA repair. Molecular Cell. 4, 511-518 (1999).
  12. Szklarczyk, D., et al. STRING v11: protein–protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, 607-613 (2018).
  13. Durgeau, A., Virk, Y., Corgnac, S., Mami-Chouaib, F. Recent advances in targeting CD8 T-cell immunity for more effective cancer immunotherapy. Frontiers in Immunology. 9, 14 (2018).
  14. Sato, E., et al. Intraepithelial CD8+ tumor-infiltrating lymphocytes and a high CD8+/regulatory T cell ratio are associated with favorable prognosis in ovarian cancer. Proceedings of the National Academy of Sciences of the United States of America. 102, 18538-18543 (2005).
  15. De Moura, M. B., et al. Mitochondrial respiration-an important therapeutic target in melanoma. PLoS One. 7, 40690 (2012).
  16. Folkman, J., Merler, E., Abernathy, C., Williams, G. Isolation of a tumor factor responsible for angiogenesis. Journal of Experimental Medicine. 133, 275-288 (1971).
  17. Takahashi, S. Vascular endothelial growth factor (VEGF), VEGF receptors and their inhibitors for antiangiogenic tumor therapy. Biological and Pharmaceutical Bulletin. 34, 1785-1788 (2011).
  18. Subramanian, A., et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proceedings of the National Academy of Sciences of the United States of America. 102, 15545-15550 (2005).
  19. Cerami, E., et al. The cBio Cancer Genomics Portal: An Open Platform for Exploring Multidimensional Cancer Genomics Data. Cancer Discovery. 2, 401-404 (2012).
  20. Gao, J., et al. Integrative Analysis of Complex Cancer Genomics and Clinical Profiles Using the cBioPortal. Science Signalling. 6, 1 (2013).
  21. Reich, M., et al. GenePattern 2.0. Nature Genetics. 38, 500 (2006).
  22. Wang, Y. E., Kutnetsov, L., Partensky, A., Farid, J., Quackenbush, J. WebMeV: A Cloud Platform for Analyzing and Visualizing Cancer Genomic Data. Cancer Research. 77, 11-14 (2017).
  23. Morpheus. , Available from: https://software.broadinstitute.org/morpheus (2019).
  24. Weitschek, E., Lauro, S. D., Cappelli, E., Bertolazzi, P., Felici, G. CamurWeb: a classification software and a large knowledge base for gene expression data of cancer. BMC Bioinformatics. 19, 354 (2018).
  25. Chou, P. -H., et al. tACCo, a Database Connecting transcriptome Alterations, pathway Alterations and Clinical outcomes in Cancers. Scientific Reports. 9, 3877 (2019).

Tags

Kreftforskning korrelasjon forklaring tumor RNA-SEQ beregningsorientert onkologi gjensidig informasjon genuttrykk kreft
Analysere tumor Gene Expression faktorer med CorExplorer Web portal
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Pepke, S., Nelson, W. M., Ver Steeg, More

Pepke, S., Nelson, W. M., Ver Steeg, G. Analyzing Tumor Gene Expression Factors with the CorExplorer Web Portal. J. Vis. Exp. (152), e60431, doi:10.3791/60431 (2019).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter