Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Cancer Research

Analysera tumör gen uttrycks faktorer med CorExplorer webb Portal

Published: October 11, 2019 doi: 10.3791/60431

Summary

Vi introducerar CorExplorer webbportal, en resurs för utforskning av tumör RNA sekvenserings faktorer som hittades av maskininlärningsalgoritmen CorEx (korrelation förklaring), och visar hur faktorer kan analyseras i förhållande till överlevnad, databas anteckningar, protein-protein interaktioner, och en annan för att få insikt i tumörbiologi och terapeutiska interventioner.

Abstract

Differential gen uttrycks analys är en viktig teknik för att förstå sjukdomstillstånd. Den maskininlärningsalgoritm CorEx har visat nytta i att analysera differential uttryck av grupper av gener i tumör RNA-SEQ på ett sätt som kan vara till hjälp för att främja precision onkologi. Men CorEx producerar många faktorer som kan vara utmanande att analysera och ansluta till befintlig förståelse. För att underlätta sådana anslutningar har vi byggt en webbplats, CorExplorer, som tillåter användare att interaktivt utforska data och besvara vanliga frågor som rör dess analys. Vi utbildade CorEx på RNA-SEQ gene expression data för fyra tumörtyper: ovariell, lung, melanom, och kolorektal. Vi inkorporerade sedan motsvarande överlevnad, protein-protein interaktioner, Gene ontologi (GO) och Kyoto Encyclopedia of gener och Genomes (KEGG) väg enrichments, och heatmaps till webbplatsen för Association med faktor graf visualisering. Här använder vi exempel protokoll för att illustrera användningen av databasen för att förstå betydelsen av de lärde tumör faktorerna i samband med denna externa data.

Introduction

Sedan introduktionen för drygt tio år sedan har RNA-SEQ blivit ett allestädes närvarande verktyg för att mäta genuttryck1. Detta beror på att det möjliggör snabb och billig de Novo profilering av hela transkriptome av ett prov. Men, RNA-SEQ tumör data återspeglar en underliggande biologi som är i sig komplex och ofta under-samplas, medan själva data är hög-dimensionell och bullrig. Detta innebär en betydande utmaning för att utvinna pålitliga signaler. CoreX-algoritmen utnyttjar multivariat ömsesidig information för att hitta subtila mönster i sådana situationer2,3 . Denna teknik har tidigare anpassats för att analysera äggstocks tumör RNA-SEQ prover från cancer Genome Atlas (TCGA) och i detta sammanhang verkade det ha betydande fördelar jämfört med mer allmänt använda analysmetoder4.

Även om användningen av RNA-SEQ är enormt utbredd i forskningstillämpningar, bland annat i onkologi, har dessa insatser inte lett till ett brett utnyttjande för kliniska interventioner5. En del av orsaken till detta är avsaknaden av användarvänliga algoritmer och programvara riktade mot dessa specifika problem. För att överbrygga denna lucka har vi utformat CorExplorer-webbportalen för att göra det möjligt för forskare från olika bakgrunder att studera gen uttrycks faktorer av tumör-RNA-SEQ-prover som hittats av CorEx-maskininlärningsalgoritmen. Corexplorer Portal stöder interaktiv visualisering och frågor av faktorer från flera olika tumörtyper inklusive lung, kolon, melanom, och äggstocks6,7,8,9, 10, med avsikten att hjälpa forskare att sålla genom data korrelationer och identifiera kandidat vägar att stratifiera patienter för terapeutiska ändamål.

Vi förväntar oss att CorExplorer-portalen kan vara användbar för flera typer av användare. Portalen har utformats med användaren i åtanke som vill förstå de breda faktorer som driver tumoral skillnader i genuttryck i offentliga databaser och möjligen också placera enskilda genuttrycksprofiler i samband med tumörer med liknande Egenskaper. Utöver de representativa protokoll som beskrivs här kan CorExplorer-undersökningar tjäna som utgångspunkt för att föreslå hypoteser för ytterligare tester, jämföra och kontrastera CorEx-fynd på dataset utanför CorExplorer och ansluta patologiska uttrycket signaturer av en eller några gener i en individuell tumör till större grupper som kan vara samordnande påverkas. Slutligen, det kan fungera som en användarvänlig introduktion till tillämpningen av maskininlärning till RNA-SEQ för dem att komma igång i fältet.

Protocol

1. utforska faktorer som innehåller en gen av intresse

  1. Öppna en webbläsare och gå till http://corex.isi.edu, hemsidan för CorExplorer.
  2. På höger sida under Snabblänkar, klicka på + Expand-knappen bredvid äggstockarna (TCGA-OV) för att se en sammanfattning av CoreX Factor Graph som var utbildad på TCGA ovarialcancer data (visas i figur 1). Du kan också klicka på andra att jämföra.
  3. När du är klar med att inspektera faktor diagrammen, klicka påLung (TCGA-LUAD)för att komma åt CorExplorer-sidan för lungcancer RNA-SEQ.
    1. Utforska CorEx Factor Graph för en gen av intresse med hjälp av CorExplorer ' Factor Graph '-fönstret.
      1. Flytta muspekaren över visnings fönstret för faktor diagrammet. Zooma in i faktor diagrammet med hjälp av musens rullningshjul eller styrplattan för att visa detaljer om grafen, till exempel de viktigaste generna i varje faktor och anslutningarna mellan noder i olika skikt. Du kan också klicka och dra för att flytta vyområdet eller en nod.
      2. För att hitta en målgen (här kommer vi att använda BRCA1), klicka på gen rullgardinsmenyn högst upp i Factor Graph-fönstret. Skriv ' BRCA1 ' för att välja den i listrutan och tryck på Return för att göra vyn zoom till faktor 26, den faktor som BRCA1 är starkast korrelerade.
      3. Flytta musen över diagrammets display och bläddra för att zooma ut för att se nivå 2-noden, L2_8, och dess associerade faktorer som är grannar till faktor 26. Observera att endast gener med en vikt som är större än tröskelvärdet som anges på skjutreglaget för min-länk vikt visas.
      4. Om du vill se alla gener som är associerade med faktorn klickar du på noden L1_26 och väljer Läs in ytterligare gener i popup-fönstret. När ordet "klar" visas stänger du popup-fönstret.
      5. Gå nu tillbaka till rubriksektionen ovanför faktor graf-fönstret och greppa och dra i min-länken vikt modifierare. Nu, eftersom länken vikt reglaget flyttas ner till 0,05, andra gener i faktor L1_26, inklusive BRCA2, kommer att visas i viktordning. Du kan också flytta noder genom att ta tag i och dra för att förbättra layouten.
    2. Bestäm hur stratifiering av patienter med avseende på faktorn påverkar överlevnaden genom att fråga i överlevnads fönstret.
      1. I överlevnad fönster, avmarkera Sortera efter p-val, välj sedan faktor 26 i den enda faktor dropdown menyn för att Visa överlevnad kurvor för faktor 26.
      2. Rulla nedåt i överlevnads diagrammet för att visa antalet patienter i riskzonen längs x-axeln.
    3. Hitta associationer med biologisk funktion genom att fråga i anteckningsfönstret.
      1. I anteckningsfönstret för att sortera rullgardinsmenyn faktor efter faktor nummer i stället för false Discovery Rate (FDR), avmarkera FDR sortera.
      2. Rulla och markera faktor 26 i listrutan anteckningsfönster om du vill visa beriknings kommentarer för faktorn.
      3. Scrolla ner i anteckningslistan tills DNA Repair är synlig och klicka på den för att omedelbart se associerade gener markerade i gult på grafdisplayen. Se Mittenpanelen i figur 2.
      4. Observera att faktorer försvinner eller visas som olika GO-villkor väljs, beroende på om de är berikade för gener med den valda anteckningen, till exempel "inneboende apoptotiska signaleringsväg som svar på DNA-skador."
    4. Utforska faktorerna ytterligare genom att lägga till Windows med olika funktioner.
      1. Från den övre menyraden lägger du till ett protein-protein-interaktions nätverk (PPI) genom att välja ppi i listrutan Lägg till fönster och sedan klicka på knappen Lägg till för att lägga till ett PPI Graph-fönster i visningsområdet. I PPI Graph-fönstret väljer du Factor ' LAYER1:26 ' för att Visa proteinproteininteraktioner. Notera tätheten av anslutningar.
      2. Från övre menyraden, istället för ppi, Välj heatmap från rullgardinsmenyn Lägg till fönster och klicka sedan på knappen Lägg till för att lägga till ett heatmap-fönster i visningsområdet. I fönstret heatmap väljer du Factor ' LAYER1:26 ' för att Visa gen uttrycks mönstren.
      3. Greppa och flytta heatmap-fönstret så att överlevnads fönstret också syns. Längs toppen av heatmap, Observera hur orange/blå/grå färgad stapel motsvarar patientens risk Strata på överlevnad graf. Resultaten visas i botten av figur 2.

2. filtrering och tolkning av CorEx-faktorer med hjälp av gen vikt, överlevnad och anteckningsdata

  1. Filtrera efter faktorer av intresse med hjälp av överlevnad och kluster kvalitet.
    1. I listrutan datauppsättning högst upp väljer du TCGA_OVCA för att gå till sidan CorExplorer för TCGA ovarialcancer RNA-SEQ.
    2. När sidan har laddats, notera från överlevnad fönstret att faktorn med den största överlevnads skillnaden för olika Strata är 114.
    3. Överst i fönstret faktor graf väljer du "LAYER1:114" i listrutan faktor .
    4. Greppa skjutreglaget länk vikt med musen och flytta den upp till 0,5. Observera att det stora antalet gener i faktor 114 (1609), med ingen vikt > 0,35, indikerar en relativt svag klustring.
    5. Expandera sedan listan över faktorer i överlevnads fönstret och välj den näst bästa faktorn i listrutan överlevnads fönster, faktor 39, för att visa dess associerade överlevnadskurvor.
    6. Välj faktor 39 i anteckningsfönstret genom att klicka på den. De betydelsefulla GO-och KEGG-anteckningarna visas.
  2. För att få en bättre förståelse för geners biologiska roll i faktor 39, tolka faktorerna med hjälp av information om grannskaps anteckning enligt följande.
    1. Överst i fönstret faktor diagram väljer du faktor ' LAYER1:39 ' i listrutan faktor. Flytta sedan musen över faktor graf-fönstret och zooma ut för att visa hela L2_14-klustret med 6 faktorer: 14, 32, 39, 42, 52 och 82 (visas i figur 3).
    2. För att förstå den relativa betydelsen av de faktorer som är kopplade till L2_14-noden, börja med att Visa överlevnads skillnader för var och en av de L2_14 faktorerna. Avmarkera Sortera efter p-val i överlevnads fönstret och klicka sedan på var och en av faktor numren i följd. Observera att endast faktorer 14, 32 och 39 visar en överlevnads Association.
    3. Nu från den övre menyraden, Välj ppi från rullgardinsmenyn Lägg till fönster en gång till. Tryck på Lägg till för att lägga till ett PPI Graph-fönster i visningsområdet. I PPI Graph-fönstret väljer du Factor ' LAYER1:52 ' för att visa de protein-proteininteraktioner som är signifikanta. Ett exempel på Windows-layouten visas i figur 3.
    4. Klicka på länken Visa vid StringDB längst ner i ppi-fönstret för att länka till stringdb online-databas. Klicka på Fortsätt från den första skärmen och välj sedan fliken analys under nätverksdiagrammet som tidigare för att få en online go-analys för ppi-nätverkgenerna. Den översta cellulära komponenten är "MHC klass II protein Complex."
    5. Återgå till fliken CorExplorer och PPI-fönstret och välj faktor 32, denna gång från rullgardinsmenyn faktor. Klicka på länken Visa på stringdb ut till stringdb analys. Den översta cellulära komponenten är "MHC klass I protein Complex," i motsats till klass II för faktor 52 i föregående steg!
    6. Slutligen, gå tillbaka till PPI-fönstret och välj "LAYER1:39" från Factor rullgardinsmenyn högst upp. Klicka på länkvyn på stringdb för att länka till stringdb-analysen.
    7. Klicka på Fortsätt från den första skärmen och välj sedan fliken analys under nätverksdiagrammet för att få en online go-analys för ppi-nätverkgenerna. Observera att den översta molekylära funktionen är "CXCR3 Chemokine receptor Binding."

3. använda överlevnad och databas anteckningar för att leta efter lovande terapeutiska kombinationer

  1. Växla till TCGA melanom CorExplorer genom att välja TCGA_SKCM från den datauppsättning nedrullningsbara menyn.
  2. Observera att faktorn med den största överlevnads skillnaden är faktor 171. Undersök faktorn 171 anteckningar genom att rulla och notera att "immunsvar" och "cytokin-medierad signalering väg" är nära toppen (som de var för den övre ovarialfaktorn).
  3. För att hitta en kompletterande faktor, undersöka de bästa överlevnad-associerade faktorer tillsammans med deras topp anteckning termer. Det gör du genom att klicka på länken Översikt över datamängd i det övre menyfältet för att öppna en separat flik som innehåller en tabell med datamängds uppgifter samt en sammanfattning av de främsta faktorerna enligt p-värdet för överlevnads differentialen. Observera att den första icke-immunologiska faktorn är 88.
  4. Gå tillbaka till TCGA_SKCM webbläsarfliken.
  5. Välj faktor 88 i Fönstren överlevnad, anteckning och graf. De översta flera GO termer är relaterade till "rRNA Processing" och "mitokonförorganisationen", bekräftar det som skiljer sig från immun-relaterade faktorer.
  6. I överlevnads fönstret, i listrutan Parade factors, väljer du "88_171" för att se hur överlevnaden förbättras för patienter i mitten stratum för de kombinerade 171-och 88-uttrycksfaktorerna. Kommentarer och överlevnads jämförelser illustreras i figur 4.

4. hitta gemensamma nämnare och skillnader i gen uttrycks variation mellan tumörtyper med hjälp av söksidan

  1. Klicka på rubriken Corexplorer för att gå tillbaka till startsidan.
  2. Klicka på Sök på den övre menyraden för att gå till en sida som tillåter sökning över alla datauppsättningar på webbplatsen CorExplorer.
  3. I rutan gen sökning anger du "FLT1" (VEGFR1) och trycker på RETUR eller tryck på Sök. FLT1 finns med en relativt hög vikt i följande faktorer: OVCA-76, LUAD-162, SKCM-195 och SKCM-184, samt COAD-112 och COAD-74.
  4. Du kan också söka efter en relaterad GO-term i alla datauppsättningar. Prova detta i "GO search" rutan genom att skriva "angiogenes" och slå tillbaka eller trycka på Sök. Alla FLT1 faktorer, med undantag för SKCM-195, är listade som statistiskt berikade för "angiogenes" gener – faktor 195 har i själva verket anteckningen, men under standardvärdet 10-8 tröskelvärdet. Sökresultat för detta och föregående steg visas i figur 5.
  5. Som ytterligare exempel, i GO-sökrutan, första typ "epidermal tillväxtfaktorreceptor." Endast LUAD är berikat för denna term, en välkänd stratifiering faktor för lungcancer. Skriv sedan "mesenchymal" i sökrutan. Denna term är berikad i gen uttrycks grupper för OVCA, där det är en väl studerade stratifiering faktor.

Representative Results

Söka efter genen "BRCA1" i lungcancer dataset visar att det är mest starkt förknippad med CorEx faktor 26 (figur 2). GO term berikning för denna faktor ses vara extremt hög, med DNA-reparation uppvisar en FDR på endast 1 x 10-19. Urvalet uppmärksammar också den andra nivån Cluster L2_8 som har sex närbesläktade faktorer som barn. Välja "DNA Repair" i antingen GO term anteckningar eller Factor Graph ' s GO berikade dropdown belyser associerade gener i var och en av faktorerna, med faktorn 26 har i särklass mest, som förväntat11. Proteinet-proteinet växelverkan nätverken är stark kopplet, i tillägg stöttar den tätt länkat funktionellitet om gener i faktorn 26. Den associerade överlevnads grafen antyder en möjlig koppling till patientens överlevnad, men detta måste bekräftas i en större datauppsättning.

Börjar med överlevnad kan tillåta dissektion av skäl för förbättrad överlevnad i samband med särskilda gen uttrycks grupper. Som ett exempel, den översta faktorn som påverkar överlevnad för äggstockscancer anses vara nummer 39, som är starkt berikat för gener i samband med immunförsvaret (figur 3). Fem andra faktorer som är förknippade med samma nivå 2-nod är också indicerat för att vara immunrelaterade, men överlevnads effekten verkar vara starkt varierande bland dem, med 39 är den högsta och 52 är den lägsta. Lägga till ett protein-protein interaktion fönster för en faktor visar omedelbar interaktion nätverk och möjliggör länk ut till StringDB12 webbplats för att fråga olika ENRICHMENTS för ppi nätverkgener. Genom att göra detta för varje av de L2_14 faktorerna i sin tur finner man att StringDB enrichments för PPI knyter kontakt generna föreslår den efter möjlighet förklaringen för anslutningarna med överlevnad. Faktor 32 innehåller gener som utgör det större histocompatibility complex (MHC) klass I protein Complex, som är erkänt av cytotoxiska T-lymfocyter. Faktor 39 motsvarar cytokinsignalering och CXCR3 receptorbindning, relaterat till CD8 + T-lymfocyter. Båda dessa faktorer verkar ge en betydande överlevnadsfördel för patienter uppvisar relativt högt uttryck för motsvarande gener. Cytotoxiska CD8 + T-lymfocyter är primärt ansvarig för anti-tumörimmunitet. Faktor 52, å andra sidan, består av gener som kodar för proteiner i MHC klass II-komplexet som främst erkänns av CD4 + T-hjälparceller snarare än direkt av cytotoxiska T-lymfocyter. De återstående L2_14 faktorer återspeglar generaliserad immunförsvaret aktivering som inte skiljer de två typerna av lymfocytpopulationer. En överlevnads förening som är specifik för cytotoxiska T lymfocytigenkänning av MCH klass I cellulära antigener är förenligt med vår förståelse av antitumörimmunitet i allmänhet och från andra cancerformer såsom melanom13,14.

Webbportalen stöder upptäckten av par faktorer med kompletterande funktioner som kan föreslå effektiva tumörspecifika kombinationsbehandlingar. Översikt över datauppsättningen kan skannas för faktorer som visar ett samband med överlevnad men har distinkta gå enrichments. För melanom (TCGA_SKCM; Figur 4), är det sett att den översta överlevnads faktorn 171 är immunrelaterad, medan faktor 88 i listan visar berikning för gener relaterade till mitokonsorganiseringen. I själva verket har detta föreslagits som ett mål i melanom15. Genom att lägga till överlevnads fönster på sidan CorExplorer kan man jämföra stratifiering med faktor paret som för varje faktor individuellt, vilket visar att gynnsamma gen uttrycksmönster från båda grupperna uppvisar en överlevnads trend som är bättre än för antingen faktor ensamt. Den översta stratum verkar inte vara bättre men tyder immunterapi bara kan vara det bästa alternativet för vissa patienter.

Gemensamma nämnare och skillnader mellan tumörer kan ses genom att söka över datauppsättningar för gener eller GO-villkor (figur 5). Som ett exempel, FLT1 (aka VEGFR1) är en väl studerade Pro-angiogen markör16,17. När det sätts i sökfältet, alla tumörer har faktorer som FLT1 spelar en viktig roll. Omvänt, när GO termen "angiogenes" är input på söksidan, 5 av 6 av de FLT1 grupperna visas med denna berikning. Alla FLT1 faktorer, med undantag för SKCM-195, listas som statistiskt berikade för "angiogenes" gener. Den sjätte faktorn har i själva verket anteckningen, men under standardvärdet 10-8 tröskelvärdet. När viktningen inom faktor listan utnyttjas i en alternativ beriknings kalkylator, t. ex., ärdet den sjätte faktorn som visar sig vara signifikant berikad för "angiogenes"-gener.

Det är viktigt att kontrollera värme kartorna för att säkerställa att gen uttrycksmönstret är av tillräcklig kvalitet för att stödja biologiska tolkningar. Heatmaps som visar stark tydlig variation kan uppvisa antingen koordinerat uttryck av faktorgener som sträcker sig från låga till höga eller mer komplexa mönster med vissa gener med lågt uttryck korrelerade med andra med hög (figur 6). En viktig markör för en högkvalitativ gruppering är närvaron av flera gener med en jämn variation i uttrycket som en funktion av faktor poäng. Faktorn heatmaps visar prov beställda enligt faktor poäng, därför bör det finnas en jämn gradient som rör sig från vänster till höger. Detta kan dock inte ske på minst två olika sätt. Vanligast är att korrelationerna kan vara extremt bullriga (figur 5c), vilket ifrågasätter robustheten och nyttan av eventuella slutsatser om överlevnad och/eller biologisk funktion. Mönster som bara sker i en liten minoritet av proverna kan inte heller överensstämma med modellen för tre uttrycks tillstånd som förutsätts av CorEx-algoritmen, vilket resulterar i en vilseledande klassificering av proverna (höger sida av figur 5D).

Figure 1
Bild 1: CorExplorer framsida. Efter att ha klickat på + bredvid äggstocks cancer under Snabblänkar, faktor graf detaljer visas. CorEx hierarkiska modellen består av indata variabler (genuttryck i detta fall) på bottenskiktet och härledas latent faktorer i de högre lagren. Vänligen klicka här för att se en större version av denna siffra.

Figure 2
Figur 2: använda ett gen namn för att vägleda prospektering. Figuren visar en serie av skärmdumpar som illustrerar utforskning av CorEx lungcancer faktorer starkt relaterade till BRCA1. Först väljer du "BRCA1" i gen listrutan för faktor diagrammet gör att diagramvyn zoomar in på faktorn som BRCA1 har störst vikt för. Zooma ut en bit ramar lagret två nod L2_8 ansluta denna faktor till andra relaterade. Överlevnad och annoteringar kan jämföras: att klicka på GO-termen DNA Repair belyser kommenterade gener. Ett PPI-fönster läggs till för att Visa nätverksinteraktioner för gener i faktorn. Med hjälp av knappen Lägg till fönster för att lägga till en värmekarta visar sambandet mellan uttrycksmönster och överlevnad, vilket tyder på ökat uttryck av DNA-reparationgener kan associeras med minskad överlevnad. Vänligen klicka här för att se en större version av denna siffra.

Figure 3
Figur 3: användning av kliniska data (överlevnad) för att vägleda prospektering. Exploring den översta överlevnad-associerad faktor (39) för äggstockscancer avslöjar intressanta relationer mellan angränsande faktorer. Efter att ha valt faktor 39 i faktor diagrammet och zooma ut lite, är lagret två faktorn som är kopplad till faktor 39 anses ha fem andra associerade faktorer. Ett extra överlevnads fönster möjliggör direkt jämförelse av de associerade överlevnads differentialerna. Faktorer 39 och 32 visar båda en positiv överlevnad korrelation, i motsats till faktor 52, vilket inte. Protein protein interaktionen nätverk är alla väl definierade. Länka ut till StringDB tillåter jämförelse av GO anteckningar (visas inte): faktor 39 är associerad med en cytokin signalering nätverk relaterade till cytotoxiska CD8 + T lymfocytaktivering och faktor 32 domineras av MHC klass I antigen presentera proteiner som utlösa erkännande av sådana lymfocyter; de angränsande faktorerna, dock domineras av andra immunsystem komponenter såsom CD4 + helper T-celler och visar ingen överlevnad korrelation. Vänligen klicka här för att se en större version av denna siffra.

Figure 4
Figur 4: att utforska de främsta överlevnads faktorerna antyder potentiella terapeutiska kombinationer. Länken "datauppsättningar" på startsidans menyrad leder till en kortfattad tabell över överlevnads faktorer som beställts av p-Value, tillsammans med den översta GO-anteckningen (visas inte). Med hjälp av denna information för melanom, kombinationen av faktor 171 för immunförsvaret med faktor 88 för mitokondorganiseringen verkar kompletterande. Figuren visar anteckningsfönster för var och en av faktorerna sida vid sida för att kontrastera dem. Överlevnadskurvor för patienter stratifierade med de två faktorerna individuellt eller tillsammans indikerar att kombinationen ökar överlevnads skillnaden jämfört med endera faktorn ensamt. Vänligen klicka här för att se en större version av denna siffra.

Figure 5
Figur 5: söksidan underlättar Pan-cancer analys. Gener eller gå biologiska process termer kan sökas för alla datauppsättningar med hjälp av Sök länken från startsidan. Figuren visar sökresultat för genen FLT1 och GO termen "angiogenes". Resultaten visar närvaron av FLT1 i faktorer kommenterade med termen "angiogenes" över cancer. Vänligen klicka här för att se en större version av denna siffra.

Figure 6
Figur 6: heatmaps kan användas för att kvalitativt bedöma korrelationer mellan gener och prover enligt faktor poäng. Hög kvalitet gen uttrycks förhållanden visas genom smidig gradering när patienter sorteras efter faktor Poäng i heatmaps. Den vänstra Heatmap för faktor 18 är ett exempel. Mönstren kan också omfatta komplexa signaturer av upp och ner uttryck som i mitten stora Heatmap för faktor 11. Lägre kvalitet mönster visar ibland plötsliga förändringar i uttrycket för en undergrupp av patienter som i faktor 9 heatmap på höger eller enkel mycket bullriga korrelationer som i faktorn 161 heatmap längst nere till höger. Vänligen klicka här för att se en större version av denna siffra.

Discussion

Vi har presenterat CorExplorer webbplats, en allmänt tillgänglig webbserver för interaktiv utforskning av maximally korrelerade gen uttrycks faktorer lärt från tumör RNA-SEQ av CorEx algoritmen. Vi har visat hur webbplatsen kan användas för att stratifiera patienter enligt tumör genuttryck, och hur sådan stratifiering motsvarar biologisk funktion och överlevnad.

Andra webbservrar för RNA-SEQ-analyser har byggts. Differential-och co-Expression analys för tumörer kan undersökas och integreras med andra datatyper i cbioportal19,20. Servrarna GenePattern21, MeV22, och Morpheus23, införliva etablerade klustertekniker såsom huvudkomponent analys (PCA), kmeans, eller självorganiserande kartor (Soms). Mer innovativa insatser är CamurWeb24, baserat på en automatiserad regelgenererande klassificerare och Tacco25, som implementerar slumpmässiga skogklassificerare och lassos. Den CorEx algoritm som används här optimerar multivariat information för att hitta en hierarki av faktorer som förklarar mönster i data. Den ickelinjära och hierarkiska faktorn lärande tycks ge bättre tolkningsbarhet i förhållande till de linjära globala faktorer som finns via PCA4. Dessutom, tekniken är finkornig tolkning av prov signaler möjliggör exakta tumör jämförelser vis-à-vis mer vanligt förekommande breda subtyper. Denna kombination av överlappande och hierarkiska faktoranalys skiljer CorExplorer från de flesta andra metoder och kräver nya verktyg för visualisering och sammanfattning.

En kritisk del av CorExplorer Factor analys är möjligheten att utforska inte bara flera, men över 100 faktorer med informativa gen mönster som placeras inom en överlappande hierarki. Den CorExplorer underlättar gruvdrift av dessa otaliga faktorer för biologiska och kliniska föreningar och möjliggör exceptionellt detaljerad karakterisering av enskilda tumörer. Den oövervakade inlärningen av ett så stort antal faktorer innebär att inte alla kommer att vara relevanta för sjukdoms bio logi. I ett sådant fall är det viktigt att antingen använda Anteckningar eller kända gener för att dra ut faktorer av intresse eller söka efter faktorer som är förknippade med kliniska data såsom överlevnad. Sålunda, den CorExplorer tillåt förbrukaren till realisera den här mycket viktig filtersteg. Närvaron av faktor gen mönster i en tumör kan även föreslå ett förhållningssätt till personlig onkologi behandling. Ytterligare, mångfalden av faktor Poäng för varje tumör som gör det möjligt för upptäckten av potentiellt användbara terapeutiska kombinationer.

Det är ibland så att inga signifikanta GO-kommentarer visas för faktorer som är starkt korrelerade med överlevnad. Även om detta kan inträffa på grund av bullriga eller under samplade data, det finns andra möjliga orsaker som en klusterstorlek som är för liten för att registrera betydande beriknings poäng eller gruppen är en "korg" av enskilda gener från olika vägar utan sammanhängande biologiska Association. Dessutom, en kategori av anteckning skiljer sig från KEGG och gå biologisk process, e.g. cellulära facket, kan vara lämpligt. Dessa kan nås genom att länka ut till StringDB som visas i protokollet. Analysen av gen ontologi på CorExplorer-webbplatsen står för närvarande inte för genen som viktas i en faktor, även om detta sannolikt kommer att åtgärdas inom en snar framtid. En gen lista alternativ finns under "Lägg till fönster" som gör det möjligt för nedladdning av hela Factor Gene lista för vidare analys med externa verktyg.

Vid tillämpningen av webbplatsen kördes CorEx på var och en av datauppsättningarna fem gånger och körningen som resulterade i den största totala korrelationen behölls. Att ha en statistisk representation av resultaten av flera körningar kan vara mer informativ och är ett mål för framtida arbete. Dessutom är den uppsättning av tumörtyper som finns på servern ganska liten, men vi förväntar oss att detta ska expandera över tiden enligt användarens intresse.

Som beskrivits ovan, visualiserar CorExplorer CorEx RNA-SEQ Factor relationer tillsammans med kliniska och databasinformation, vilket möjliggör en mängd olika typer av förhör. Vi är hoppfulla att detta verktyg kommer att leda till ytterligare arbete för att utnyttja kraften i RNA-SEQ analys för upptäckt och klinisk tillämpning i onkologi.

Disclosures

Författarna förklarar att de inte har några konkurrerande ekonomiska intressen.

Acknowledgments

GV fick stöd av DARPA Award W911NF-16-0575.

Materials

Name Company Catalog Number Comments
Public server for CorExplorer website USC http://corex.isi.edu Intel Xeon E5-2690 4-core 2.6 GHz, 8GB RAM. Backend architecture is LAMP: Linux, Apache, MySQL, PHP.
Web browser Google/Apple Chrome/Safari Verified web browsers.

DOWNLOAD MATERIALS LIST

References

  1. Petryszak, R., et al. The RNASeq-er API-a gateway to systematically updated analysis of public RNA-seq data. Bioinformatics. 33, 2218-2220 (2017).
  2. Steeg, G. V., Galstyan, A. Maximally Informative Hierarchical Representations of High-Dimensional Data. Proceedings of the Eighteenth International Conference on Artificial Intelligence and Statistics (AISTATS). , San Diego, CA. (2015).
  3. Ver Steeg, G., Galstyan, A. Discovering structure in high-dimensional data through correlation explanation. Advances in Neural Information Processing Systems. , Montreal, Canada. (2014).
  4. Pepke, S., Ver Steeg, G. Comprehensive discovery of subsample gene expression components by information explanation: therapeutic implications in cancer. BMC medical Genomics. 10, 12 (2017).
  5. Byron, S. A., Van Keuren-Jensen, K. R., Engelthaler, D. M., Carpten, J. D., Craig, D. W. Translating RNA sequencing into clinical diagnostics: opportunities and challenges. Nature Reviews Genetics. 17, 257 (2016).
  6. Cancer Genome Atlas Research Network. Comprehensive molecular profiling of lung adenocarcinoma. Nature. 511, 543 (2014).
  7. Cancer Genome Atlas Network. Comprehensive molecular characterization of human colon and rectal cancer. Nature. 487, 330 (2012).
  8. Akbani, R., et al. Genomic classification of cutaneous melanoma. Cell. 161, 1681-1696 (2015).
  9. Cancer Genome Atlas Research Network. Integrated genomic analyses of ovarian carcinoma. Nature. 474, 609 (2011).
  10. Grossman, R. L., et al. Toward a shared vision for cancer genomic data. New England Journal of Medicine. 375, 1109-1112 (2016).
  11. Moynahan, M. E., Chiu, J. W., Koller, B. H., Jasin, M. Brca1 controls homology-directed DNA repair. Molecular Cell. 4, 511-518 (1999).
  12. Szklarczyk, D., et al. STRING v11: protein–protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, 607-613 (2018).
  13. Durgeau, A., Virk, Y., Corgnac, S., Mami-Chouaib, F. Recent advances in targeting CD8 T-cell immunity for more effective cancer immunotherapy. Frontiers in Immunology. 9, 14 (2018).
  14. Sato, E., et al. Intraepithelial CD8+ tumor-infiltrating lymphocytes and a high CD8+/regulatory T cell ratio are associated with favorable prognosis in ovarian cancer. Proceedings of the National Academy of Sciences of the United States of America. 102, 18538-18543 (2005).
  15. De Moura, M. B., et al. Mitochondrial respiration-an important therapeutic target in melanoma. PLoS One. 7, 40690 (2012).
  16. Folkman, J., Merler, E., Abernathy, C., Williams, G. Isolation of a tumor factor responsible for angiogenesis. Journal of Experimental Medicine. 133, 275-288 (1971).
  17. Takahashi, S. Vascular endothelial growth factor (VEGF), VEGF receptors and their inhibitors for antiangiogenic tumor therapy. Biological and Pharmaceutical Bulletin. 34, 1785-1788 (2011).
  18. Subramanian, A., et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proceedings of the National Academy of Sciences of the United States of America. 102, 15545-15550 (2005).
  19. Cerami, E., et al. The cBio Cancer Genomics Portal: An Open Platform for Exploring Multidimensional Cancer Genomics Data. Cancer Discovery. 2, 401-404 (2012).
  20. Gao, J., et al. Integrative Analysis of Complex Cancer Genomics and Clinical Profiles Using the cBioPortal. Science Signalling. 6, 1 (2013).
  21. Reich, M., et al. GenePattern 2.0. Nature Genetics. 38, 500 (2006).
  22. Wang, Y. E., Kutnetsov, L., Partensky, A., Farid, J., Quackenbush, J. WebMeV: A Cloud Platform for Analyzing and Visualizing Cancer Genomic Data. Cancer Research. 77, 11-14 (2017).
  23. Morpheus. , Available from: https://software.broadinstitute.org/morpheus (2019).
  24. Weitschek, E., Lauro, S. D., Cappelli, E., Bertolazzi, P., Felici, G. CamurWeb: a classification software and a large knowledge base for gene expression data of cancer. BMC Bioinformatics. 19, 354 (2018).
  25. Chou, P. -H., et al. tACCo, a Database Connecting transcriptome Alterations, pathway Alterations and Clinical outcomes in Cancers. Scientific Reports. 9, 3877 (2019).

Tags

Cancerforskning korrelation förklaring tumör RNA-SEQ Computational onkologi ömsesidig information genuttryck cancer
Analysera tumör gen uttrycks faktorer med CorExplorer webb Portal
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Pepke, S., Nelson, W. M., Ver Steeg, More

Pepke, S., Nelson, W. M., Ver Steeg, G. Analyzing Tumor Gene Expression Factors with the CorExplorer Web Portal. J. Vis. Exp. (152), e60431, doi:10.3791/60431 (2019).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter