Cancer Research

Esecuzione di data mining e analisi integrativa dei biomarcatori nel cancro al seno utilizzando più database accessibili pubblicamente

Published: May 17, 2019 doi: 10.3791/59238

Min-na Chen¹, De Zeng², Zhuo-qun Zheng³, Zheng Li³, Jian-le Wu³, Jun-yu Jin³, He-jia Wang³, Cui-zhen Huang¹, Hao-yu Lin¹

¹Department of Thyroid and Breast Surgery, First Affiliated Hospital of Shantou University Medical College, ²Department of Medical Oncology, Cancer Hospital of Shantou University Medical College, ³Shantou University Medical College

Summary

Qui, presentiamo un protocollo per esplorare il biomarcatore e il predittore di sopravvivenza del cancro al seno sulla base dell'analisi completa dei dataset clinici aggregati derivati da una varietà di database accessibili pubblicamente, utilizzando la strategia di espressione, correlazione e analisi di sopravvivenza passo dopo passo.

Abstract

Negli ultimi anni, le banche dati emergenti sono state progettate per abbassare le barriere per avvicinarsi agli intricati DataSet genomici del cancro, facilitando così i simpatizzanti ad analizzare e interpretare i geni, i campioni e le informazioni cliniche su diversi tipi di cancro. Nel presente documento Descriviamo una procedura operativa pratica, prendendo ad esempio ID1 (inibitore delle proteine di legame del DNA 1), per caratterizzare i modelli di espressione di biomarcatori e predittori di sopravvivenza del cancro al seno sulla base di dataset clinici aggregati derivati da database accessibili online, tra cui ONCOMINE, bcGenExMiner v 4.0 (cancro al seno Gene-Expression Miner v 4.0), GOBO (risultato basato sull'espressione genica per il cancro al seno online), HPA (l'Atlante proteico umano) e il plotter Kaplan-Meier. L'analisi è iniziata con l'interrogazione del modello di espressione del gene di interesse (ad esempio, ID1) nei campioni cancerogeni rispetto ai campioni normali. Quindi, è stata eseguita l'analisi di correlazione tra ID1 e le caratteristiche clinicopatologiche nel carcinoma mammario. Successivamente, i profili di espressione di ID1 sono stati stratificati in base a diversi sottogruppi. Infine, è stata analizzata l'associazione tra l'espressione ID1 e l'esito della sopravvivenza. La procedura di funzionamento semplifica il concetto di integrare i tipi di dati multidimensionali a livello genetico da diversi database e ipotesi di test riguardanti il contesto di ricorrenza e genomica degli eventi di alterazione genica nel cancro al seno. Questo metodo può migliorare la credibilità e la rappresentatività delle conclusioni, in tal modo, presentare una prospettiva informativa su un gene di interesse.

Introduction

Il cancro al seno è una malattia eterogenea con diverse prognosi e strategie di trattamento in diversi sottotipi molecolari, in cui la patogenesi e lo sviluppo sono probabilmente associati a meccanismi molecolari disparati¹^,² ^, ³. Tuttavia, l'identificazione di un bersaglio terapeutico richiede solitamente anni, o addirittura decenni, dalla scoperta iniziale nella ricerca di base all'uso clinico⁴. L'ampia applicazione del genoma della tecnologia di sequenziamento ad alto rendimento per il genoma del cancro ha notevolmente avanzato il processo di ricerca di biomarcatori preziosi o bersagli terapeutici ⁵.

L'enorme quantità di dati di genomica del cancro generati dalle piattaforme di genomica del cancro su larga scala, come l'ICGC (Consorzio internazionale del genoma del cancro) e TCGA (l'Atlante del genoma del cancro), rappresenta una grande sfida per i ricercatori nell'eseguire esplorazione, integrazione e analisi, in particolare per gli utenti privi di formazione intensiva in informatica e computazione⁶^,⁷^,⁸^,⁹^,¹⁰. Negli ultimi anni, le banche dati emergenti (ad esempio, ONCOMINE, bcGenExMiner v 4.0 e Kaplan-Meier plotter, ecc.) sono state progettate e sviluppate per abbassare la barra per avvicinarsi agli intricati set di dati genomici del cancro, facilitando così i simpatizzanti ad analizzare e interpretare i geni, i campioni e i dati clinici tra i vari tipi di tumore¹¹. L'obiettivo di questo protocollo è quello di descrivere una strategia di ricerca che si integra con molteplici livelli di informazione genica da una serie di database di accesso aperto, che sono stati ampiamente riconosciuti da un gran numero di ricercatori, per identificare i potenziali biomarcatori e fattori prognostici per il carcinoma mammario.

Il database ONCOMINE è una piattaforma di data mining basata sul Web con informazioni sul microarray del cancro ed è progettata per facilitare la scoperta di nuovi biomarcatori e bersagli terapeutici¹¹. Attualmente, ci sono più di 48 milioni misurazioni dell'espressione genica da 65 set di dati di espressione genica in questo database¹¹^,¹². Il bcGenExMiner v 4.0 (uno strumento gratuito per l'istituzione senza scopo di lucro), chiamato anche cancro al seno Gene-Expression Miner, è un'applicazione Web-friendly che comprende i risultati di microarray di DNA di 3.414 pazienti con cancro al seno recuperati e 1.209 sperimentato un evento pejorative¹³. È progettato per migliorare le prestazioni di analisi prognostica genica con software e pacchetti statistici R.

Il GOBO è uno strumento multifunzionale user-friendly online con informazioni microarray (ad esempio, Affymetrix U133A) da un 51-campione di linea di cellule di cancro al seno set e un 1881-campione di dati del tumore al seno set, che consente una vasta gamma di analisi¹⁴. Ci sono una varietà di applicazioni disponibili nel database GOBO, che includono l'analisi rapida dei profili di espressione genica in diversi sottotipi molecolari di tumori al seno e linee cellulari, screening per geni co-espressi per la creazione di potenziali metageni, e analisi di correlazione tra il risultato e i livelli di espressione genica di geni singoli, insiemi di geni o firme genetiche nel set di dati sul cancro al seno¹⁵.

L'Atlante delle proteine umane è un programma di accesso aperto progettato per gli scienziati per esplorare il proteoma umano, che ha già contribuito a un gran numero di pubblicazioni nel campo della biologia umana e della malattia. L'Atlante delle proteine umane è riconosciuto come risorsa di base europea per la Comunità delle scienze biologiche¹⁶^,¹⁷.

Il plotter Kaplan Meier è uno strumento online che integra simultaneamente l'espressione genica e i dati clinici che consente di valutare l'effetto prognostico di 54.675 geni basati su 10.461 campioni di cancro, che includono 1.065 gastrico, 2.437 polmone, 1.816 ovarico e 5.143 pazienti affetti da tumore al seno con un follow-up medio di 33/49/40/69 mesi¹⁸. Le informazioni sull'espressione genica, la sopravvivenza libera da ricadute (RFS) e la sopravvivenza complessiva (OS) sono scaricabili da questo database¹⁹^,²⁰.

Qui, descriviamo una procedura operativa pratica di utilizzare più database accessibili pubblicamente per confrontare, analizzare e visualizzare modelli di alterazioni nell'espressione del gene di interesse in più studi sul cancro, con l'obiettivo di riassumere il profili di espressione, valori prognostici e potenziali funzioni biologiche nel carcinoma mammario. Ad esempio, studi recenti hanno indicato le proprietà oncogeniche delle proteine ID nei tumori e sono stati associati a caratteristiche maligne, tra cui la trasformazione cellulare, l'immortalizzazione, la proliferazione e la metastasi²¹^, ²²^,²³. Tuttavia, ogni membro della famiglia ID svolge ruoli distinti in diversi tipi di tumori solidi, e il loro ruolo nel cancro al seno rimane poco chiaro²⁴. Negli studi precedenti, esplorati attraverso questo metodo, abbiamo scoperto che ID1 era un indicatore prognostico significativo nel cancro al seno²⁵. Pertanto, il protocollo prenderà ID1 come esempio per introdurre i metodi di data mining.

L'analisi inizia dall'interrogazione del modello di espressione del gene di interesse nei campioni cancerogeni rispetto ai campioni normali in ONCOMINE. Quindi, la correlazione di espressione dei geni di interesse nel cancro al seno è stata eseguita utilizzando il BC-GenExMiner v 4.0, GOBO, e ONCOMINE. Successivamente, i profili di espressione di ID1 sono stati stratificati in base a diversi sottogruppi utilizzando i tre database precedenti. Infine, l'associazione tra l'espressione ID1 e la sopravvivenza è stata analizzata usando BC-GenExMiner v 4.0, l'Atlante proteico umano e il plotter Kaplan-Meier. La procedura operativa è stata mostrata come diagramma di flusso in Figura 1.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. analisi del modello di espressione

Accedere all'interfaccia Web di ONCOMINE²⁶.
Ottenere i livelli di espressione relativi di gene ID1 in vari tipi di neoplasie digitando ID1 nella casella di ricerca.
Selezionare tipo di analisi dal menu filtri primari . Quindi, selezionare cancro contro l'analisi normale, cancro al seno vs analisi normale.
Selezionare vista Riepilogo gene dal menu altre viste . Impostare la soglia del valore Pa 0,01. Scarica le figure.
Nota: la soglia di modifica della piega è 2, come descritto nello studio precedente²⁷.

2. analisi di correlazione delle espressioni

Andare al BC-GenExMiner v 4.0 interfaccia Web²⁸.
Selezionare correlazione dal menu analisi , premere il pulsante esaustivo . Digitare ID1 nella casella di ricerca. Premere il pulsante Submit e il pulsante Avvia analisi .
Nota: l'impostazione predefinita mostra l'analisi di correlazione delle espressioni di tutti i pazienti, che può essere più accurata in diversi sottotipi di cancro al seno premendo il filtro sottotipo molecola .

3. analisi dei sottogruppi

Analisi dei sottogruppi in BC-GenExMiner v 4.0
1. Andare al BC-GenExMiner v 4.0 interfaccia Web²⁸.
2. Selezionare espressione dal menu analisi , premere il pulsante esaustivo . Digita ID1 nella casella di ricerca e premi il pulsante Invia e il pulsante Avvia analisi .
3. Fare clic sulle miniature stato nodale (LN) e Scarff Bloom & Richardson Grade status (SBR) per visualizzare le immagini complete. Nelle immagini SBR, premere il pulsante qui sotto per visualizzare i valori Pdelle figure. Scarica le figure.
Analisi dei sottogruppi in risultati basati sull'espressione genica per il cancro al seno online (GOBO)
1. Accedere all'interfaccia Web GOBO¹⁴.
2. Tipo gene simbolo di interesse ID1 alla schermata carica il gene impostato.
3. Impostare l'intervallo di ricerca di Definisci identificatori gene/Probe sul simbolo del gene. Impostare tutto nella selezione del tumore. Selezionare lo stato del nodo e il grado stratificato nei parametri multivariati. Altri elementi restano di default. Invia la richiesta e Scarica le figure.

4. analisi di sopravvivenza

Analisi di sopravvivenza in BC-GenExMiner v 4.0
1. Andare al BC-GenExMiner v 4.0 interfaccia Web²⁸.
2. Selezionare Prognostic dal menu analisi , premere il pulsante esaustivo . Digita ID1 nella casella di ricerca e premi il pulsante Invia e il pulsante Avvia analisi .
3. Nell'analisi prognostica esaustiva, selezionare nm, ERm, Mr nei criteri di popolamento e evento e premere il pulsante Invia per ottenere ulteriori informazioni. Premere le miniature delle curve di Kaplan-Meier per esportare i grafici completi.
  Nota: N (+,-, m): stato nodale (+: positivo,-: negativo, m: misto); ER (+,-, m): stato del recettore estrogenico (+: positivo,-: negativo, m: misto); MR: recidiva metastatica
Analisi di sopravvivenza nell'Atlante proteico umano (HPA)
1. Vai all'interfaccia Web dell'Atlante delle proteine umane²⁹.
2. Digita ID1 nella casella di ricerca e fai clic sul pulsante Cerca . Selezionare sottoatlante patologia .
  Nota: i livelli di espressione mRNA nei 17 tipi di tumore sono mostrati nella sezione Panoramica dell'espressione di RNA. Ogni etichetta del tessuto del cancro del Box Plot è clictabile per accedere a una pagina dettagliata che fornisce dati di analisi di sopravvivenza e livelli di espressione di RNA.
3. Fare clic sull'etichetta di cancro al seno, quindi la pagina dettagliata per mostrare il grafico scatter di sopravvivenza interattiva e l'analisi di sopravvivenza. Scarica le figure.
Analisi di sopravvivenza nella sopravvivenza del plotter Kaplan-Meier
1. Accedere all'interfaccia Web di Kaplan-Meier plotter³⁰. Fare clic sul plotter Start km per il tumore al seno nella zona del chip genico mRNA.
2. Digita ID1 sulla barra di ricerca e seleziona l'elemento verde nel menu candidato.
3. Selezionare RFS come tipo di sopravvivenza e altri elementi rimangono di default. Fare clic su Disegna trama Kaplan-Meier e scaricare le figure.
  Nota: le impostazioni dei tipi di sopravvivenza, i tipi di taglio e la soglia di follow-up, nonché le opzioni del set di sonde, possono essere modificate come richiesto. L'analisi prognostica del sottogruppo comprendente ER, PR, HER-2, linfonodi, grado, stato Tp53 e sottotipi molecolari può essere ottenuta modificando l'impostazione nell' analisi Restrict in sottotipi box¹. Analogamente, la limitazione del filtro del trattamento potrebbe essere impostata in limita l'analisi alla casella dei coorti selezionati .

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Un risultato rappresentativo dell'estrazione di dati e dell'analisi integrativa del biomarcatore del cancro al seno è stato eseguito usando ID1, uno degli inibitori dei membri della famiglia che legano il DNA, che sono stati riportati nello studio precedente ²⁵.

Come dimostrato in Figura 2, le differenze di ID1 espressione mRNA tra tumore e tessuti normali in più tipi di cancro sono stati analizzati utilizzando il database ONCOMINE, che conteneva un totale di 445 analisi uniche. Ci sono stati 5 studi che hanno rivelato che il livello di espressione dell'mRNA di ID1 era significativamente più alto nei tessuti normali rispetto ai tessuti del cancro al seno. Questi dati hanno indicato l'espressione disregolazione di ID1 nel carcinoma mammario. La Figura 3 ha mostrato i migliori geni correlativi positivi e negativi di ID1 dall'analisi eseguita in BC-GenExMiner v 4.0. Per identificare la correlazione tra l'espressione di mRNA di ID1 e i parametri clinicopatologici dei pazienti con BC, è stata utilizzata l'analisi del database BC-GenExMiner v 4.0. Come mostrato nella Figura 4, è stato riscontrato un aumento significativo del livello di mRNA di ID1 nei pazienti affetti da carcinoma mammario senza metastasi del linfonodo, rispetto a quelli con metastasi del linfonodo (P= 0,0005). Inoltre, l'analisi in GOBO ha dimostrato che i livelli aumentati di mRNA di ID1 sono stati correlati al grado di tumore inferiore (Figura 5, P< 0.00001). Questi risultati implicavano che l'aumentata espressione di ID1 era legata al potenziale metastatico inferiore e al grado patologico inferiore in BC. L'analisi dal database BC-GenExMiner v 4.0 ha indicato che il livello di mRNA più elevato di ID1 era correlato alla sopravvivenza libera da metastasi più lontana (DMFS) nei pazienti affetti da carcinoma mammario (Figura 6, HR = 0,82, 95% ci: 0,73-0,92, P= 0,001). Coerentemente, l'analisi dell'Atlante delle proteine umane ha suggerito che il livello proteico elevato di ID1 era associato a un migliore risultato di sopravvivenza nei pazienti affetti da tumore al seno (Figura 7, P= 0,0389). L'analisi di sopravvivenza del plotter Kaplan-Meier ha anche mostrato che un livello superiore di mRNA dell'espressione ID1 prevedeva una migliore sopravvivenza libera da recidiva (RFS) nei pazienti affetti da tumore al seno (Figura 8, HR = 0,81, P= 0,00023).

Figura 1. Panoramica dell'esplorazione dei modelli di espressione e dei valori prognostici dei biomarcatori del tumore al seno distinti e della selezione dei database online. L'analisi sistematica di biomarcatori del cancro al seno distinti è stata eseguita passo dopo passo in una varietà di database. In primo luogo, il modello di espressione del gene di interesse nei campioni cancerogeni rispetto ai campioni normali. Quindi, è stata eseguita la correlazione di espressione dei geni di interesse nel cancro al seno. Successivamente, i profili di espressione di ID1 sono stati stratificati secondo diversi. Infine, è stata analizzata l'associazione tra l'espressione ID1 e la sopravvivenza. Si prega di cliccare qui per visualizzare una versione più grande di questa cifra.

Figura 2. Il modello di espressione di mRNA dell'ID1 in diversi tipi di cancro umano. L'espressione di mRNA di ID1 analizzata con il database ONCOMINE. La grafica ha dimostrato il numero di DataSet con iperespressione di mRNA statisticamente significativa (rosso) o espressione downregolamentate (blu) del gene bersaglio. Il numero in ogni cella rappresentava il numero di analisi che soddisfano la soglia all'interno di tali analisi e tipi di cancro. Il grado genico è stato analizzato per percentile del gene bersaglio nella parte superiore di tutti i geni misurati in ciascuna ricerca. Il colore delle cellule è stato determinato dal miglior percentile di rango genico per le analisi all'interno della cellula. Il valore P è stato impostato su 0,01 e il cambio piega è stato definito come 2, come mostrato nella cornice rossa. Questa cifra è stata modificata dal precedente studio²⁵. Si prega di cliccare qui per visualizzare una versione più grande di questa cifra.

Figura 3. Analisi di correlazione genica di ID1 in BC-GenExMiner v 4.0. La correlazione dell'espressione mRNA di ID1 e dei relativi geni in 5, 696 pazienti affetti da carcinoma mammario all'interno di 36 studi analizzati in bcGenExMiner v 4.0. Questa cifra è stata modificata dal precedente studio²⁵. Si prega di cliccare qui per visualizzare una versione più grande di questa cifra.

Figura 4. La relazione tra l'espressione ID1 e lo stato di metastasi del linfonodo. Il livello di espressione di mRNA di ID1 in 4, 307 pazienti affetti da carcinoma mammario con differente stato del linfonodo (LN) analizzato in bcGenExMiner v 4.0. Questa cifra è stata modificata dal precedente studio²⁵. Si prega di cliccare qui per visualizzare una versione più grande di questa cifra.

Figura 5. Il rapporto tra il livello di espressione genica di ID1 e il grado tumorale. Il livello di espressione dell'mRNA di ID1 nei pazienti affetti da carcinoma mammario con diverso grado patologico è stato analizzato in GOBO. La differenza significativa globale tra i gruppi è stata valutata per generare valori pe p< 0.05 è stato considerato per indicare una differenza statisticamente significativa. 1, 2, 3 in supporto asse x per sottogruppi di pazienti in diversi grado patologico 1, grado 2, grado 3. Questa cifra è stata modificata dal precedente studio ²⁵. Si prega di cliccare qui per visualizzare una versione più grande di questa cifra.

Figura 6. I valori prognostici di ID1 per la sopravvivenza libera da metastasi distanti nei pazienti affetti da carcinoma mammario. L'associazione tra i livelli di mRNA di ID1 e le stime di sopravvivenza libera da metastasi lontane è stata analizzata in bcGenExMiner v 4.0. Questa cifra è stata modificata dal precedente studio²⁵. Si prega di cliccare qui per visualizzare una versione più grande di questa cifra.

Figura 7. La probabilità di sopravvivenza di ID1 nei pazienti affetti da carcinoma mammario. L'impatto del livello proteico di ID1 per la sopravvivenza dei pazienti affetti da tumore della mammella è stato analizzato nell'Atlante proteico umano (HPA). Questa cifra è stata modificata dal precedente studio²⁵. Si prega di cliccare qui per visualizzare una versione più grande di questa cifra.

Figura 8. I valori prognostici di ID1 nel carcinoma mammario secondo la sopravvivenza libera da recidiva (RFS). Diverso livello di mRNA di ID1 in tutti i 3, 951 pazienti affetti da carcinoma mammario analizzati nel plotter Kaplan-Meier. Questa cifra è stata modificata dal precedente studio²⁵. Si prega di cliccare qui per visualizzare una versione più grande di questa cifra.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Un'analisi completa delle banche dati pubbliche può indicare la funzione sottostante del gene di interesse e rivelare il potenziale legame tra questo gene e i parametri clinicopatologici in specifici tumori²⁷^,³¹. L'esplorazione e l'analisi basate su un unico database potrebbero fornire prospettive limitate o isolate a causa del potenziale bias di selezione, o in una certa misura, probabilmente a causa della varietà di qualità dei dati, compresa la raccolta dei dati e l'algoritmo analitico della banca dati¹⁹. Il passo più importante di questo protocollo è quello di selezionare i database appropriati, che dovrebbero essere ampiamente riconosciuti da un numero maggiore di scienziati con una rappresentatività adeguata. Lo sperimentatore deve utilizzare più database per testare l'ipotesi e corroborare i risultati derivati da diversi database, piuttosto che utilizzare un singolo database.

Il protocollo descritto qui è una procedura di funzionamento amichevole investigatore. Il vantaggio di questo metodo è che permette la rapida visualizzazione e l'interpretazione del ruolo potenziale di un gene nel cancro al seno. Inoltre, tutti i risultati ottenuti attraverso questa procedura possono essere immediatamente testati e ripetuti semplicemente interrogando i siti Web corrispondenti. La limitazione di questo metodo è che le conclusioni che provengono dall'analisi approfondita delle banche dati potrebbero non riflettere esattamente la funzione o il rapporto effettivo nell'ambiente clinico. Questo potrebbe derivare dalla polarizzazione sistematica del database, e in alcuni casi, probabilmente a causa di dimensioni del campione insufficiente³²^,³³. Utilizzando più di un database per interrogare la stessa domanda di ricerca potrebbe confermare reciprocamente i risultati e aumentare la credibilità della conclusione³⁴. Si consiglia vivamente di utilizzare i campioni dell'istituzione dello sperimentatore per verificare i risultati, o se fattibile, per eseguire esperimenti di base correlati per testare i risultati.

Sempre più database online di genomica del cancro o proteomica saranno disponibili e accessibili per i ricercatori³⁵^,³⁶. Il protocollo potrebbe fornire un metodo efficiente ed economico per il ricercatore per identificare un potenziale gene bersaglio e il percorso di segnalazione associato attraverso un'analisi approfondita dei database online e utilizzando la genomica, la trascrittomica e l'epigenomica avvicinarsi.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Gli autori non hanno nulla da rivelare

Acknowledgments

Questo lavoro è stato in parte sostenuto dalla Fondazione di scienze naturali della provincia di Guangdong, Cina (No. 2018A030313562), il progetto di riforma didattica della base di insegnamento clinico Guangdong (NO. 2016JDB092), Fondazione nazionale di scienze naturali della Cina (81600358), e giovanile progetto di talenti innovativi di collegi e Università nella provincia di Guangdong, Cina (NO. 2017KQNCX073)

Materials

Name	Company	Catalog Number	Comments
A personal computer or computing device with an Internet browser with Javascript enabled	Microsoft	051690762553	We support and test the following browsers: Google Chrome, Firefox 3.0 and above, Safari, and Internet Explorer 9.0 and above
Adobe Flash player	Adobe Systems Inc.	It can be freely downloaded from http://get.adobe.com/flashplayer/.	This browser plug-in is required for visualizing networks on the network analysis tab.
Chrome Broswer	Google Inc.	It can be freely downloaded from https://www.google.cn/chrome/	This is necessary for viewing PDF files including the Pathology Reports and many of the downloadable files.
Java Runtime Environment	Oracle Corporation	It can be downloaded from http://www.java.com/getjava/.
Office 365 ProPlus for Faculty	Microsoft	2003BFFD8117EA68	This is necessary for viewing the Pathology Reports and for viewing many of the downloadable files.
Vectr Online	Vectr Labs Inc.	It can be freely used from https://vectr.com/new	This is necessary for visualizing and editing many of the downloadable files and pictures.