Vi introducerar CorExplorer webbportal, en resurs för utforskning av tumör RNA sekvenserings faktorer som hittades av maskininlärningsalgoritmen CorEx (korrelation förklaring), och visar hur faktorer kan analyseras i förhållande till överlevnad, databas anteckningar, protein-protein interaktioner, och en annan för att få insikt i tumörbiologi och terapeutiska interventioner.
Differential gen uttrycks analys är en viktig teknik för att förstå sjukdomstillstånd. Den maskininlärningsalgoritm CorEx har visat nytta i att analysera differential uttryck av grupper av gener i tumör RNA-SEQ på ett sätt som kan vara till hjälp för att främja precision onkologi. Men CorEx producerar många faktorer som kan vara utmanande att analysera och ansluta till befintlig förståelse. För att underlätta sådana anslutningar har vi byggt en webbplats, CorExplorer, som tillåter användare att interaktivt utforska data och besvara vanliga frågor som rör dess analys. Vi utbildade CorEx på RNA-SEQ gene expression data för fyra tumörtyper: ovariell, lung, melanom, och kolorektal. Vi inkorporerade sedan motsvarande överlevnad, protein-protein interaktioner, Gene ontologi (GO) och Kyoto Encyclopedia of gener och Genomes (KEGG) väg enrichments, och heatmaps till webbplatsen för Association med faktor graf visualisering. Här använder vi exempel protokoll för att illustrera användningen av databasen för att förstå betydelsen av de lärde tumör faktorerna i samband med denna externa data.
Sedan introduktionen för drygt tio år sedan har RNA-SEQ blivit ett allestädes närvarande verktyg för att mäta genuttryck1. Detta beror på att det möjliggör snabb och billig de Novo profilering av hela transkriptome av ett prov. Men, RNA-SEQ tumör data återspeglar en underliggande biologi som är i sig komplex och ofta under-samplas, medan själva data är hög-dimensionell och bullrig. Detta innebär en betydande utmaning för att utvinna pålitliga signaler. CoreX-algoritmen utnyttjar multivariat ömsesidig information för att hitta subtila mönster i sådana situationer2,3 . Denna teknik har tidigare anpassats för att analysera äggstocks tumör RNA-SEQ prover från cancer Genome Atlas (TCGA) och i detta sammanhang verkade det ha betydande fördelar jämfört med mer allmänt använda analysmetoder4.
Även om användningen av RNA-SEQ är enormt utbredd i forskningstillämpningar, bland annat i onkologi, har dessa insatser inte lett till ett brett utnyttjande för kliniska interventioner5. En del av orsaken till detta är avsaknaden av användarvänliga algoritmer och programvara riktade mot dessa specifika problem. För att överbrygga denna lucka har vi utformat CorExplorer-webbportalen för att göra det möjligt för forskare från olika bakgrunder att studera gen uttrycks faktorer av tumör-RNA-SEQ-prover som hittats av CorEx-maskininlärningsalgoritmen. Corexplorer Portal stöder interaktiv visualisering och frågor av faktorer från flera olika tumörtyper inklusive lung, kolon, melanom, och äggstocks6,7,8,9, 10, med avsikten att hjälpa forskare att sålla genom data korrelationer och identifiera kandidat vägar att stratifiera patienter för terapeutiska ändamål.
Vi förväntar oss att CorExplorer-portalen kan vara användbar för flera typer av användare. Portalen har utformats med användaren i åtanke som vill förstå de breda faktorer som driver tumoral skillnader i genuttryck i offentliga databaser och möjligen också placera enskilda genuttrycksprofiler i samband med tumörer med liknande Egenskaper. Utöver de representativa protokoll som beskrivs här kan CorExplorer-undersökningar tjäna som utgångspunkt för att föreslå hypoteser för ytterligare tester, jämföra och kontrastera CorEx-fynd på dataset utanför CorExplorer och ansluta patologiska uttrycket signaturer av en eller några gener i en individuell tumör till större grupper som kan vara samordnande påverkas. Slutligen, det kan fungera som en användarvänlig introduktion till tillämpningen av maskininlärning till RNA-SEQ för dem att komma igång i fältet.
Vi har presenterat CorExplorer webbplats, en allmänt tillgänglig webbserver för interaktiv utforskning av maximally korrelerade gen uttrycks faktorer lärt från tumör RNA-SEQ av CorEx algoritmen. Vi har visat hur webbplatsen kan användas för att stratifiera patienter enligt tumör genuttryck, och hur sådan stratifiering motsvarar biologisk funktion och överlevnad.
Andra webbservrar för RNA-SEQ-analyser har byggts. Differential-och co-Expression analys för tumörer kan undersökas och integreras med andra datatyper i cbioportal19,20. Servrarna GenePattern21, MeV22, och Morpheus23, införliva etablerade klustertekniker såsom huvudkomponent analys (PCA), kmeans, eller självorganiserande kartor (Soms). Mer innovativa insatser är CamurWeb24, baserat på en automatiserad regelgenererande klassificerare och Tacco25, som implementerar slumpmässiga skogklassificerare och lassos. Den CorEx algoritm som används här optimerar multivariat information för att hitta en hierarki av faktorer som förklarar mönster i data. Den ickelinjära och hierarkiska faktorn lärande tycks ge bättre tolkningsbarhet i förhållande till de linjära globala faktorer som finns via PCA4. Dessutom, tekniken är finkornig tolkning av prov signaler möjliggör exakta tumör jämförelser vis-à-vis mer vanligt förekommande breda subtyper. Denna kombination av överlappande och hierarkiska faktoranalys skiljer CorExplorer från de flesta andra metoder och kräver nya verktyg för visualisering och sammanfattning.
En kritisk del av CorExplorer Factor analys är möjligheten att utforska inte bara flera, men över 100 faktorer med informativa gen mönster som placeras inom en överlappande hierarki. Den CorExplorer underlättar gruvdrift av dessa otaliga faktorer för biologiska och kliniska föreningar och möjliggör exceptionellt detaljerad karakterisering av enskilda tumörer. Den oövervakade inlärningen av ett så stort antal faktorer innebär att inte alla kommer att vara relevanta för sjukdoms bio logi. I ett sådant fall är det viktigt att antingen använda Anteckningar eller kända gener för att dra ut faktorer av intresse eller söka efter faktorer som är förknippade med kliniska data såsom överlevnad. Sålunda, den CorExplorer tillåt förbrukaren till realisera den här mycket viktig filtersteg. Närvaron av faktor gen mönster i en tumör kan även föreslå ett förhållningssätt till personlig onkologi behandling. Ytterligare, mångfalden av faktor Poäng för varje tumör som gör det möjligt för upptäckten av potentiellt användbara terapeutiska kombinationer.
Det är ibland så att inga signifikanta GO-kommentarer visas för faktorer som är starkt korrelerade med överlevnad. Även om detta kan inträffa på grund av bullriga eller under samplade data, det finns andra möjliga orsaker som en klusterstorlek som är för liten för att registrera betydande beriknings poäng eller gruppen är en “korg” av enskilda gener från olika vägar utan sammanhängande biologiska Association. Dessutom, en kategori av anteckning skiljer sig från KEGG och gå biologisk process, e.g. cellulära facket, kan vara lämpligt. Dessa kan nås genom att länka ut till StringDB som visas i protokollet. Analysen av gen ontologi på CorExplorer-webbplatsen står för närvarande inte för genen som viktas i en faktor, även om detta sannolikt kommer att åtgärdas inom en snar framtid. En gen lista alternativ finns under “Lägg till fönster” som gör det möjligt för nedladdning av hela Factor Gene lista för vidare analys med externa verktyg.
Vid tillämpningen av webbplatsen kördes CorEx på var och en av datauppsättningarna fem gånger och körningen som resulterade i den största totala korrelationen behölls. Att ha en statistisk representation av resultaten av flera körningar kan vara mer informativ och är ett mål för framtida arbete. Dessutom är den uppsättning av tumörtyper som finns på servern ganska liten, men vi förväntar oss att detta ska expandera över tiden enligt användarens intresse.
Som beskrivits ovan, visualiserar CorExplorer CorEx RNA-SEQ Factor relationer tillsammans med kliniska och databasinformation, vilket möjliggör en mängd olika typer av förhör. Vi är hoppfulla att detta verktyg kommer att leda till ytterligare arbete för att utnyttja kraften i RNA-SEQ analys för upptäckt och klinisk tillämpning i onkologi.
The authors have nothing to disclose.
GV fick stöd av DARPA Award W911NF-16-0575.
Public server for CorExplorer website | USC | http://corex.isi.edu | Intel Xeon E5-2690 4-core 2.6 GHz, 8GB RAM. Backend architecture is LAMP: Linux, Apache, MySQL, PHP. |
Web browser | Google/Apple | Chrome/Safari | Verified web browsers. |