Cancer Research

Realizando a mineração de dados e análise Integrativa do biomarcador no câncer de mama usando vários bancos de dados acessíveis publicamente

Published: May 17, 2019 doi: 10.3791/59238

Min-na Chen¹, De Zeng², Zhuo-qun Zheng³, Zheng Li³, Jian-le Wu³, Jun-yu Jin³, He-jia Wang³, Cui-zhen Huang¹, Hao-yu Lin¹

¹Department of Thyroid and Breast Surgery, First Affiliated Hospital of Shantou University Medical College, ²Department of Medical Oncology, Cancer Hospital of Shantou University Medical College, ³Shantou University Medical College

Summary

Aqui, apresentamos um protocolo para explorar o biomarcador e preditor de sobrevivência do câncer de mama com base na análise abrangente de conjuntos de dados clínicos agrupados derivados de uma variedade de bases de dados acessíveis publicamente, utilizando a estratégia de expressão, correlação e análise de sobrevivência passo a passo.

Abstract

Nos últimos anos, as bases de dados emergentes foram projetadas para reduzir as barreiras para abordar os intrincados conjuntos de dados genóricos do câncer, facilitando assim que os investigadores analisem e interpretem genes, amostras e dados clínicos em diferentes tipos de câncer. Nisto, nós descrevemos um procedimento prático da operação, tomando ID1 (inibidor de proteínas de ligação do ADN 1) como um exemplo, para caracterizar os testes padrões da expressão de biomarcador e de preditores da sobrevivência do cancro da mama baseado em conjuntos de dados clínicos agrupados derivados de bancos de dados acessíveis on-line, incluindo ONCOMINE, bcGenExMiner v 4.0 (câncer de mama gene-expressão mineiro v 4.0), GOBO (resultado baseado em expressão gênica para câncer de mama on-line), HPA (o Atlas de proteína humana), e plotter de Kaplan-Meier. A análise começou com a consulta do padrão de expressão do gene de interesse (por exemplo, ID1) em amostras cancerosas versus amostras normais. Em seguida, foi realizada a análise de correlação entre ID1 e características clinicopatológicas no câncer de mama. Em seguida, os perfis de expressão de ID1 foram estratificados de acordo com diferentes subgrupos. Finalmente, analisou-se a associação entre expressão de ID1 e desfecho de sobrevida. O procedimento de operação simplifica o conceito de integração de tipos de dados multidimensionais no nível genético a partir de diferentes bases de dados e hipóteses de teste sobre recorrência e contexto genómico de eventos de alteração genética no câncer de mama. Este método pode melhorar a credibilidade e a representatividade das conclusões, assim, apresentar uma perspectiva informativa sobre um gene de interesse.

Introduction

O câncer de mama é uma doença heterogênea com diversas estratégias de prognóstico e tratamento em diferentes subtipos moleculares, em que a patogênese e o desenvolvimento estão provavelmente associados a mecanismos moleculares distintos^1,2 ^, ³. Entretanto, identificar um alvo terapêutico toma geralmente anos, ou mesmo décadas, da descoberta inicial na pesquisa básica ao uso clínico⁴. A ampla aplicação do genoma da tecnologia de sequenciamento de alto débito para o genoma do câncer avançou muito no processo de busca de biomarcadores valiosos ou alvos terapêuticos ⁵.

A quantidade esmagadora de dados de genômica de câncer gerada a partir das plataformas de genômica de câncer em grande escala, como o ICGC (consórcio internacional do genoma do câncer) e o TCGA (o Atlas do genoma do câncer), está colocando um grande desafio para os pesquisadores realizarem dados exploração, integração e análise, especialmente para usuários que não possuem treinamento intensivo em informática e computação⁶^,⁷^,⁸^,⁹^,¹⁰. Nos últimos anos, bases de dados emergentes, (por exemplo, ONCOMINE, bcGenExMiner v 4.0, e Kaplan-Meier plotter, etc.) foram projetados e desenvolvidos para reduzir a barra para abordar os intrincados conjuntos de dados genóricos do cancro, assim, facilitando os investigadores para analisar e interpretar os genes, amostras e dados clínicos em vários tipos de câncer¹¹. O objetivo deste protocolo é descrever uma estratégia de pesquisa que integrou com múltiplos níveis de informação genética de uma série de bases de dados de acesso aberto, que têm sido amplamente reconhecidas por um grande número de pesquisadores, para identificar os potenciais biomarcadores e fatores prognósticos para o cancro da mama.

A base de dados de oncomine é uma plataforma Web-baseada da mineração do dado com informação do microarray do cancro e é projetada facilitar a descoberta de biomarcadores novos e de alvos terapêuticos¹¹. Atualmente, há mais de 48 milhões medições de expressão gênica de conjuntos de dados de expressão de genes 65 neste banco de dados^11,12. O bcGenExMiner v 4.0 (uma ferramenta livre para a instituição sem fins lucrativos), também chamado de câncer de mama gene-Expression Miner, é um aplicativo baseado na Web de fácil utilização compreendendo resultados de Microarrays de DNA de 3.414 recuperado pacientes com câncer de mama e 1.209 experimentou um evento pejorativo¹³. Ele é projetado para melhorar o desempenho da análise de prognóstico genético com R software estatístico e pacotes.

O GOBO é uma ferramenta on-line multifuncional de fácil utilização com informações de Microarrays (por exemplo, Affymetrix U133A) de um conjunto de linha celular de câncer de mama de 51 amostras e um conjunto de dados de tumor de mama 1881-Sample, que permite uma ampla variedade de análises¹⁴. Há uma variedade de aplicações disponíveis na base de dados de gobo, que incluem a análise rápida de perfis da expressão de gene em subtipos moleculars diferentes de tumores da mama e de linhas de pilha, a seleção para genes coexpressados para a criação de Metagenes potenciais, e análise de correlação entre o desfecho e os níveis de expressão gênica de genes únicos, conjuntos de genes ou assinaturas genéticas no conjunto de dados de câncer de mama¹⁵.

O Atlas da proteína humana é um programa de acesso aberto projetado para que os cientistas explorem o Proteome humano, que tem contribuído já a um grande número publicações no campo da biologia humana e da doença. O Atlas da proteína humana é reconhecido como um recurso Central Europeu para a comunidade de Ciências da vida^16,17.

O plotador de Kaplan Meier é uma ferramenta em linha que integra a expressão genética e os dados clínicos simultaneamente que permite a avaliação do efeito prognóstico de 54.675 genes baseados em 10.461 amostras do cancro, que incluem 1.065 gastric, 2.437 pulmão, 1.816 ovariano e 5.143 pacientes com câncer de mama com seguimento médio de 33/49/40/69 meses¹⁸. Informações de expressão gênica, sobrevida livre de recaídas (RFS) e sobrevida global (os) estão disponíveis para download a partir deste banco de dados^19,20.

Aqui, nós descrevemos um procedimento prático da operação de usar bases de dados publicamente acessíveis múltiplas para comparar, analisar e Visualizar testes padrões das alterações na expressão do gene do interesse através dos estudos múltiplos do cancro, com o objetivo de resumir perfis de expressão, valores prognósticos e potenciais funções biológicas no cancro da mama. Por exemplo, estudos recentes indicaram as propriedades oncogênicas de proteínas de identificação em tumores e foram associadas a características malignas, incluindo transformação celular, imortalização, proliferação aumentada e metástase²¹^, ²²^,²³. Entretanto, cada membro da família da identificação joga papéis distintos em tipos diferentes de tumores contínuos, e seu papel no cancro da mama permanece obscuro²⁴. Em estudos prévios, explorados através deste método, verificou-se que o ID1 foi um indicador prognóstico significativo no câncer de mama²⁵. Portanto, o protocolo levará ID1 como um exemplo para introduzir os métodos de mineração de dados.

A análise começa a partir de consultar o padrão de expressão do gene de interesse em amostras cancerosas versus amostras normais em ONCOMINE. Em seguida, a correlação de expressão de genes de interesse em câncer de mama foi realizada utilizando-se o BC-GenExMiner v 4.0, GOBO e ONCOMINE. Em seguida, os perfis de expressão de ID1 foram estratificados de acordo com diferentes subgrupos utilizando as três bases de dados acima. Finalmente, a associação entre a expressão de ID1 e a sobrevida foi analisada utilizando-se o BC-GenExMiner v 4.0, o Atlas de proteínas humanas e o plotter de Kaplan-Meier. O procedimento de operação foi mostrado como o fluxograma na Figura 1.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. análise de padrão de expressão

Vá para a interface Web ONCOMINE²⁶.
Obter os níveis de expressão relativa de gene ID1 em vários tipos de malignidades, digitando ID1 para a caixa de pesquisa.
Selecione tipo de análise no menu filtros primários . Em seguida, selecione Cancer vs. análise normal, câncer de mama versus análise normal.
Selecione exibição de resumo do gene no menu outros modos de exibição . Defina o limiar de valor- Pem 0, 1. Baixe os números.
Nota: o limiar de mudança de dobra é 2, como descrito no estudo anterior²⁷.

2. análise de correlação de expressão

Vá para a interface da Web BC-GenExMiner v 4.0²⁸.
Selecione correlação no menu análise , pressione o botão exaustivo . Digite ID1 na caixa de pesquisa. Pressione o botão Submit e o botão iniciar análise .
Nota: a configuração padrão mostra a análise de correlação de expressão de todos os pacientes, que podem ser mais precisos em diferentes subtipos de câncer de mama pressionando o filtro de subtipo molécula .

3. análise de subgrupos

Análise de subgrupos em BC-GenExMiner v 4.0
1. Vá para a interface da Web BC-GenExMiner v 4.0²⁸.
2. Selecione expressão no menu análise , pressione o botão exaustivo . Digite ID1 na caixa de pesquisa e pressione o botão Submit e o botão iniciar análise .
3. Clique no status nodal (ln) e no Scarff Bloom & as miniaturas do status da classe Richardson (SBR) para visualizar imagens completas. Nas imagens SBR, pressione o botão abaixo para visualizar os valores de Pdas figuras. Baixe os números.
Análise de subgrupos em resultado baseado em expressão gênica para câncer de mama online (GOBO)
1. Vá para a interface Web do GOBO¹⁴.
2. Digite gene símbolo de interesse ID1 para a tela de upload do gene definido.
3. Defina o intervalo de pesquisa de definir identificadores de gene/sonda para o símbolo do gene. Ajuste tudo na seleção do tumor. Selecione o status do nó e a classe estratificada nos parâmetros multivariados. Outros itens permanecem padrão. Envie o inquérito e faça o download dos números.

4. análise de sobrevivência

Análise de sobrevivência em BC-GenExMiner v 4.0
1. Vá para a interface da Web BC-GenExMiner v 4.0²⁸.
2. Selecione prognóstico no menu análise , pressione o botão exaustivo . Digite ID1 na caixa de pesquisa e pressione o botão Submit e o botão iniciar análise .
3. Na análise prognóstica exaustiva, selecione nm, ERm, Mr nos critérios de população e evento e pressione o botão Submit para obter mais informações. Pressione as miniaturas da curva Kaplan-Meier para exportar os gráficos completos.
  Nota: N (+,-, m): nodal status (+: positivo,-: negativo, m: misto); ER (+,-, m): estado do receptor de estrogénio (+: positivo,-: negativo, m: misto); MR: recidiva metastática
Análise de sobrevida no Atlas da proteína humana (HPA)
1. Vá para a interface da Web Human protein Atlas²⁹.
2. Digite ID1 na caixa de pesquisa e clique no botão Pesquisar . Selecione sub-Atlas de patologia .
  Nota: os níveis da expressão de mRNA através dos 17 tipos do cancro são mostrados na seção da vista geral da expressão do RNA. Cada rótulo de tecido de câncer do gráfico de caixa é clicável para acessar uma página detalhada fornecendo dados de análise de sobrevivência e níveis de expressão de RNA.
3. Clique no rótulo de câncer de mama, em seguida, a página detalhada para mostrar gráfico de dispersão de sobrevivência interativa e análise de sobrevivência. Baixe os números.
Análise de sobrevida na sobrevivência do plotter Kaplan-Meier
1. Vá para a interface da Web de plotter Kaplan-Meier³⁰. Clique em Iniciar plotter km para o cancro da mama na zona de chip de gene mRNA.
2. Digite ID1 na barra de pesquisa e selecione o item verde no menu candidato.
3. Selecione RFS como tipo de sobrevivência e outros itens permanecem padrão. Clique draw Kaplan-Meier parcela e baixar os números.
  Nota: as definições dos tipos de sobrevivência, tipos de corte e limiar de seguimento, bem como as opções do conjunto de sondas, podem ser alteradas conforme necessário. A análise prognóstica do subgrupo, incluindo ER, PR, HER-2, linfonodos, grau, status Tp53 e subtipos moleculares, pode ser obtida por meio da alteração da configuração na análise restrita para subtipos da caixa¹. Da mesma forma, a limitação do tratamento do filtro pode ser definida na análise restrita à caixa de coortes selecionadas .

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Um resultado representativo da mineração de dados e análise Integrativa do biomarcador de câncer de mama foi realizado usando ID1, um dos inibidores de membros da família de ligação ao DNA, que foram relatados no estudo anterior ²⁵.

Como demonstrado na Figura 2, as diferenças da expressão do mRNA de ID1 entre o tumor e os tecidos normais em vários tipos de câncer foram analisadas por meio do banco de dados ONCOMINE, que continha um total de 445 análises únicas. Havia 5 estudos que revelaram que o nível da expressão do mRNA de ID1 era significativamente mais elevado em tecidos normais do que em tecidos do cancro da mama. Estes dados indicaram a disregulação da expressão de ID1 no cancro da mama. A Figura 3 apresentou os melhores genes correlativos positivos e negativos da ID1 a partir da análise realizada no BC-GenExMiner v 4.0. Para identificar a correlação entre a expressão de mRNA de ID1 e os parâmetros clinicopatológicos de pacientes com BC, utilizou-se a base de dados BC-GenExMiner v 4.0. Como mostrado na Figura 4, observou-se aumento significativo do nível de mRNA de ID1 em pacientes com câncer de mama sem metástase linfonodal, em comparação àqueles com metástase linfonodal (P= 0, 5). Além disso, a análise no GOBO demonstrou que níveis aumentados de mRNA de ID1 foram correlacionados com menor grau tumoral (Figura 5, P< 0.00001). Estes resultados implicaram que a expressão aumentada de ID1 estêve lig para abaixar o potencial metastático e abaixar a classe patológica em BC. A análise do banco de dados BC-GenExMiner v 4.0 indicou que o maior nível de mRNA de ID1 foi correlacionado com a sobrevida livre de metástase mais longa (DMFS) em pacientes com câncer de mama (Figura 6, hr = 0,82, 95% IC: 0,73-0,92, P= 0, 1). Consistentemente, a análise do Atlas da proteína humana sugeriu que o nível elevado de proteína de ID1 estivesse associado a um melhor desfecho de sobrevida em pacientes com câncer de mama (Figura 7, P= 0, 389). A análise de sobrevida do plotter de Kaplan-Meier também mostrou que maior nível de mRNA de expressão de ID1 previu melhor sobrevida livre de recorrência (RFS) em pacientes com câncer de mama (Figura 8, hr = 0,81, P= 0, 23).

Figura 1. Visão geral da exploração dos padrões de expressão e valores prognósticos de diferentes biomarcadores de câncer de mama e seleção de bases de dados online. A análise sistemática de biomarcadores distintos do cancro da mama foi executada passo a passo em uma variedade de bases de dados. Primeiro, o padrão de expressão do gene de interesse em amostras cancerosas versus amostras normais. Em seguida, foi realizada a correlação de expressão de genes de interesse no câncer de mama. Em seguida, os perfis de expressão de ID1 foram estratificados de acordo com diferentes. Finalmente, foi analisada a associação entre a expressão de ID1 e a sobrevida. Por favor clique aqui para ver uma versão maior desta figura.

Figura 2. O padrão de expressão de mRNA do ID1 em diferentes tipos de câncer humano. A expressão de mRNA de ID1 analisada com o banco de dados ONCOMINE. O gráfico demonstrou o número de conjuntos de dados com superexpressão de mRNA estatisticamente significante (vermelho) ou expressão desregulada (azul) do gene alvo. O número em cada célula representou o número de análises que atendem ao limiar dentro dessas análises e tipos de câncer. A classificação gênica foi analisada por percentil do gene alvo no topo de todos os genes medidos em cada pesquisa. A cor da célula foi determinada pelo melhor percentil de classificação gênica para as análises dentro da célula. O valor de P foi configurado em 0, 1 e a mudança de dobra foi definida como 2, como mostrado no quadro vermelho. Este número foi modificado a partir do estudo anterior²⁵. Por favor clique aqui para ver uma versão maior desta figura.

Figura 3. Análise de correlação gênica de ID1 em BC-GenExMiner v 4.0. A correlação da expressão de mRNA de ID1 e genes relevantes em 5, 696 pacientes do cancro da mama dentro de 36 estudos analisados em bcGenExMiner v 4.0. Este número foi modificado a partir do estudo anterior²⁵. Por favor clique aqui para ver uma versão maior desta figura.

Figura 4. O relacionamento entre a expressão ID1 e o status da metástase do nó de linfa. O nível da expressão de mRNA de ID1 em 4, 307 pacientes do cancro da mama com o status diferente do nó de linfa (LN) analisou em bcGenExMiner v 4.0. Este número foi modificado a partir do estudo anterior²⁵. Por favor clique aqui para ver uma versão maior desta figura.

Figura 5. A relação entre o nível de expressão gênica de ID1 e a classe tumoral. O nível de expressão de mRNA de ID1 em pacientes com câncer de mama com diferentes graus patológicos foi analisado em GOBO. A diferença global significativa entre os grupos foi avaliada para gerar valores- pe p< 0,05 foi considerada para indicar diferença estatisticamente significante. 1, 2, 3 no suporte do eixo x para subgrupos de pacientes em diferentes graus patológicos 1, grau 2, grau 3. Este número foi modificado a partir do estudo anterior ²⁵. Por favor clique aqui para ver uma versão maior desta figura.

Figura 6. Os valores prognósticos de ID1 para a sobrevivência distante metástase-livre em pacientes do cancro da mama. A associação entre os níveis de mRNA ID1 e estimativas de sobrevida livre de metástases distantes foi analisada no bcGenExMiner v 4.0. Este número foi modificado a partir do estudo anterior²⁵. Por favor clique aqui para ver uma versão maior desta figura.

Figura 7. A probabilidade de sobrevivência de ID1 em pacientes com câncer de mama. O impacto do nível de proteína ID1 para a sobrevida de pacientes com câncer de mama foi analisado no Atlas de proteínas humanas (HPA). Este número foi modificado a partir do estudo anterior²⁵. Por favor clique aqui para ver uma versão maior desta figura.

Figura 8. Os valores prognósticos de ID1 no cancro da mama de acordo com a sobrevivência livre de repetição (RFS). Nível ID1 de mRNA diferente em todos os 3, 951 pacientes do cancro da mama analisados no plotador de Kaplan-Meier. Este número foi modificado a partir do estudo anterior²⁵. Por favor clique aqui para ver uma versão maior desta figura.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

A análise detalhada de bases de dados públicas pode indicar a função subjacente do gene do interesse e revelar a ligação potencial entre este gene e parâmetros clinicopatológicos no cancro específico²⁷^,³¹. A exploração e análise com base em um único banco de dados pode fornecer perspectivas limitadas ou isoladas devido ao viés de seleção potencial, ou em certa medida, possivelmente devido à variedade de qualidade de dados, incluindo a coleta de dados e o algoritmo analítico do banco de dados¹⁹. A etapa mais importante deste protocolo é selecionar as bases de dados apropriadas, que devem ser amplamente reconhecidas por um número maior de cientistas com representatividade adequada. O investigador deve usar vários bancos de dados para testar a hipótese e corroborar os resultados derivados de diferentes bancos de dados, em vez de usar um único banco de dados.

O protocolo descrito aqui é um procedimento de operação amigável do investigador. A vantagem deste método é que permite a visualização rápida e a interpretação do papel potencial de um gene no cancro da mama. Além disso, todos os resultados obtidos através deste procedimento podem ser imediatamente testados e repetidos simplesmente consultando os sites correspondentes. A limitação desse método é que as conclusões que vêm da análise abrangente das bases de dados podem não refletir exatamente a função ou relação real no cenário clínico. Isso pode ser decorrente do viés sistematical do banco de dados e, em alguns casos, possivelmente devido ao tamanho inadequado da amostra³²^,³³. Usar mais de um banco de dados para consultar a mesma questão de pesquisa poderia confirmar mutuamente os resultados e aumentar a credibilidade da conclusão³⁴. Recomenda-se vivamente a utilização de amostras da instituição do investigador para verificar os resultados, ou, se possível, para realizar experimentos básicos relacionados para testar os resultados.

Mais e mais online Cancer genômica ou proteômica bases de dados estarão disponíveis e acessíveis para pesquisadores³⁵^,³⁶. O protocolo pode fornecer um método eficiente e econômico para que o pesquisador identifique um potencial gene alvo e a via de sinalização associada através de uma análise aprofundada das bases de dados on-line e usando genômica, transcriptomicina e epigenômica Abordagem.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Os autores não têm nada a divulgar

Acknowledgments

Este trabalho foi apoiado parcialmente pela Fundação da ciência natural da província de Guangdong, China (no. 2018A030313562), o projeto de reforma ensinando da base de ensino clínica de Guangdong (NO. 2016JDB092), Fundação Nacional da ciência natural de China (81600358), e projeto inovativo do Talent da juventude das faculdades e das universidades na província de Guangdong, China (NO. 2017KQNCX073)

Materials

Name	Company	Catalog Number	Comments
A personal computer or computing device with an Internet browser with Javascript enabled	Microsoft	051690762553	We support and test the following browsers: Google Chrome, Firefox 3.0 and above, Safari, and Internet Explorer 9.0 and above
Adobe Flash player	Adobe Systems Inc.	It can be freely downloaded from http://get.adobe.com/flashplayer/.	This browser plug-in is required for visualizing networks on the network analysis tab.
Chrome Broswer	Google Inc.	It can be freely downloaded from https://www.google.cn/chrome/	This is necessary for viewing PDF files including the Pathology Reports and many of the downloadable files.
Java Runtime Environment	Oracle Corporation	It can be downloaded from http://www.java.com/getjava/.
Office 365 ProPlus for Faculty	Microsoft	2003BFFD8117EA68	This is necessary for viewing the Pathology Reports and for viewing many of the downloadable files.
Vectr Online	Vectr Labs Inc.	It can be freely used from https://vectr.com/new	This is necessary for visualizing and editing many of the downloadable files and pictures.