Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Cancer Research

L’exploration de données et l’analyse intégrative du biomarqueur dans le cancer du sein à l’aide de plusieurs bases de données accessibles au public

Published: May 17, 2019 doi: 10.3791/59238

Summary

Ici, nous présentons un protocole pour explorer le biomarqueur et le prédicteur de survie du cancer du sein sur la base de l’analyse exhaustive des ensembles de données cliniques regroupées provenant d’une variété de bases de donnees accessibles au public, en utilisant la stratégie d’expression, de corrélation et l’analyse de survie pas à pas.

Abstract

Ces dernières années, les bases de données émergentes ont été conçues pour réduire les barrières à l’approche des ensembles de données génomiques complexes du cancer, facilitant ainsi les enquêteurs pour analyser et interpréter les gènes, les échantillons et les données cliniques sur différents types de cancers. Dans les présentes, nous décrivons une procédure d’opération pratique, en prenant l’exemple de l’ADN (inhibiteur des protéines de liaison 1), pour caractériser les schémas d’expression des biomarqueurs et des prédicteurs de survie du cancer du sein basés sur des ensembles de données cliniques groupés dérivés de bases de données accessibles en ligne, y compris ONCOMINE, bcGenExMiner v 4.0 (Breast Cancer gene-expression miner v 4.0), GOBO (résultat basé sur l’expression génique pour le cancer du sein en ligne), HPA (l’Atlas des protéines humaines), et le traceur Kaplan-Meier. L’analyse a commencé par l’interrogation du modèle d’expression du gène d’intérêt (p. ex., le type d’échantillon) dans les échantillons cancéreux par rapport aux échantillons normaux. Ensuite, on a effectué l’analyse de corrélation entre les caractéristiques clinicopathologiques et de l’évaluation du cancer du sein. Ensuite, les profils d’expression de l', ont été stratifiés selon différents sous-groupes. Enfin, on a analysé l’association entre l’expression et le résultat de survie. La procédure d’opération simplifie le concept pour intégrer des types de données multidimensionnelles au niveau du gène à partir de différentes bases de données et des hypothèses de test concernant la récurrence et le contexte génomique des événements d’altération génique dans le cancer du sein. Cette méthode peut améliorer la crédibilité et la représentativité des conclusions, ce qui présente une perspective informative sur un gène d’intérêt.

Introduction

Le cancer du sein est une maladie hétérogène avec diverses stratégies de pronostic et de traitement dans différents sous-types moléculaires, dans lesquels la pathogenèse et le développement sont probablement associés à des mécanismes moléculaires disparates1,2 , 3. Cependant, l’identification d’une cible thérapeutique prend habituellement des années, voire des décennies, de la découverte initiale dans la recherche fondamentale à l’utilisation clinique4. L’application à l’échelle du génome de la technologie de séquençage à haut débit pour le génome du cancer a grandement avancé le processus de recherche de biomarqueurs précieux ou de cibles thérapeutiques 5.

La quantité écrasante de données sur la génomique du cancer générées par les plates-formes de génomique du cancer à grande échelle, telles que l’ICGC (International cancer génome Consortium) et TCGA (l’Atlas du génome du cancer), pose un grand défi pour les chercheurs d’effectuer des données exploration, intégration et analytique, en particulier pour les utilisateurs dépourvus de formation intensive en informatique et en calcul6,7,8,9,10. Ces dernières années, des bases de données émergentes (p. ex., ONCOMINE, bcGenExMiner v 4.0, et le traceur Kaplan-Meier, etc.) ont été conçues et développées pour abaisser la barre pour approcher les ensembles de données génomiques complexes du cancer, facilitant ainsi les enquêteurs à analyser et interpréter les gènes, les échantillons et les données cliniques sur différents types de cancers11. Le but de ce protocole est de décrire une stratégie de recherche qui s’intègre à de multiples niveaux d’information génique provenant d’une série de bases de données à accès libre, qui ont été largement reconnues par un grand nombre de chercheurs, pour identifier les biomarqueurs potentiels et facteurs pronostiques du cancer du sein.

La base de données ONCOMINE est une plate-forme d’exploration de données basée sur le Web avec des informations sur les MICROMATRICES cancéreuses et est conçue pour faciliter la découverte de nouveaux biomarqueurs et de cibles thérapeutiques11. Actuellement, il y a plus de 48 millions mesures d’expression génique de 65 datasets d’expression génique dans cette base de données11,12. Le bcGenExMiner v 4.0 (un outil gratuit pour l’institution à but non lucratif), également appelé cancer du sein gene-expression miner, est une application Web conviviale comprenant des résultats de microarrays d’ADN de 3 414 patients atteints de cancer du sein récupérés et 1 209 a connu un événement péjoratif13. Il est conçu pour améliorer les performances d’analyse pronostique des gènes avec les logiciels et les packages statistiques R.

Le GOBO est un outil en ligne multifonctionnel et convivial avec des informations sur les microarrays (par exemple, Affymetrix U133A) à partir d’un ensemble de cellules cancéreuses du sein à échantillon de 51 et un ensemble de données sur les tumeurs mammaires de 1881 échantillons, qui permet un large éventail d’analyses14. Il existe une variété d’applications disponibles dans la base de données GOBO, qui comprennent l’analyse rapide des profils d’expression génique dans différents sous-types moléculaires des tumeurs du sein et des lignées cellulaires, le dépistage des gènes co-exprimés pour la création de métagènes potentiels, et analyse de corrélation entre le résultat et les niveaux d’expression génique des gènes isolés, des ensembles de gènes ou des signatures génétiques dans les données du cancer du sein ensemble15.

L’Atlas des protéines humaines est un programme d’accès ouvert destiné aux scientifiques à explorer le protéome humain, qui a déjà contribué à un grand nombre de publications dans le domaine de la biologie humaine et de la maladie. L’Atlas des protéines humaines est reconnu comme une ressource de base européenne pour la communauté des sciences de la vie16,17.

Le traceur Kaplan Meier est un outil en ligne intégrant l’expression génique et les données cliniques simultanément qui permet l’évaluation de l’effet pronostique de 54 675 gènes basés sur 10 461 échantillons de cancer, qui comprennent 1 065 gastrique, 2 437 poumon, 1 816 ovarienne et 5 143 patients atteints de cancer du sein avec un suivi moyen de 33/49/40/69 mois18. Les informations sur l’expression génique, la survie sans rechute (RFS) et la survie globale (OS) sont téléchargeables à partir de cette base de données19,20.

Ici, nous décrivons une procédure pratique d’utilisation de plusieurs bases de données accessibles au public pour comparer, analyser et visualiser les modèles de modifications dans l’expression du gène d’intérêt dans plusieurs études sur le cancer, dans le but de résumer les les profils d’expression, les valeurs pronostiques et les fonctions biologiques potentielles dans le cancer du sein. Par exemple, des études récentes ont indiqué les propriétés oncogéniques des protéines d’identification dans les tumeurs et ont été associées à des caractéristiques malignes, y compris la transformation cellulaire, l’immortalisation, la prolifération accrue et les métastases21, 22,23. Cependant, chaque membre de la famille d’ID joue des rôles distincts dans différents types de tumeurs solides, et leur rôle dans le cancer du sein reste incertain24. Dans des études antérieures, explorées par cette méthode, nous avons constaté que l’indice de pronostic était un indicateur pronostique significatif dans le cancer du sein25. Par conséquent, le protocole prendra l’exemple de la méthode pour introduire les méthodes d’exploration de données.

L’analyse commence par l’interrogation du modèle d’expression du gène d’intérêt dans les échantillons cancéreux par rapport aux échantillons normaux dans ONCOMINE. Ensuite, la corrélation d’expression des gènes d’intérêt dans le cancer du sein a été réalisée en utilisant le BC-GenExMiner v 4.0, GOBO, et ONCOMINE. Ensuite, les profils d’expression de l', ont été stratifiés selon différents sous-groupes à l’aide des trois bases de données ci-dessus. Enfin, on a analysé l’association entre l’expression et la survie en utilisant BC-GenExMiner v 4.0, l’Atlas des protéines humaines et le traceur Kaplan-Meier. La procédure d’opération a été montrée comme organigramme dans la figure 1.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. analyse des motifs d’expression

  1. Accédez à l’interface Web ONCOMINE26.
  2. Obtenir les niveaux d’expression relative des gènes de gène dans divers types de tumeurs malignes en tapant l’option de la boîte de recherche.
  3. Sélectionnez type d’analyse dans le menu filtres principaux . Ensuite, sélectionnez cancer vs analyse normale, cancer du sein vs analyse normale.
  4. Sélectionnez vue Sommaire du gène dans le menu autres vues . Réglez le seuil de P-value à 0,01. Téléchargez les chiffres.
    NOTE: le seuil de changement de pli est 2, comme décrit dans l’étude précédente27.

2. analyse de corrélation d’expression

  1. Accédez à l’interface Web de BC-GenExMiner v 4.028.
  2. Sélectionnez corrélation dans le menu analyse , appuyez sur le bouton exhaustif . Tapez le type d’un dans la zone de recherche. Appuyez sur le bouton Submit et le bouton d’analyse de démarrage .
    Remarque: le paramètre par défaut montre l’analyse de corrélation d’expression de tous les patients, qui peut être plus précis dans différents sous-types de cancer du sein en appuyant sur le filtre de sous-type de molécule .

3. analyse des sous-groupes

  1. Analyse des sous-groupes dans BC-GenExMiner v 4.0
    1. Accédez à l’interface Web de BC-GenExMiner v 4.028.
    2. Sélectionnez expression dans le menu analyse , appuyez sur le bouton exhaustif . Tapez l’option de recherche et appuyez sur le bouton Envoyer et le bouton d’analyse de démarrage .
    3. Cliquez sur l' État nodal (LN) et Scarff Bloom & les vignettes de statut de grade Richardson (SBR) pour afficher les images complètes. Dans les images SBR, appuyez sur le bouton ci-dessous pour visualiser les valeurs Pdes figures. Téléchargez les chiffres.
  2. Analyse des sous-groupes dans les résultats fondés sur l’expression génique pour le cancer du sein en ligne (GOBO)
    1. Accédez à l’interface Web de GOBO14.
    2. Type symbole de gène d' intérêt à l’écran, chargez le jeu de gènes.
    3. Définissez la plage de recherche de définir les identificateurs de gène/sonde sur le symbole du gène. Définir tous dans la sélection de tumeurs. Sélectionnez l' État du nœud et la nuance stratifiée dans les paramètres multivariés. Les autres éléments restent par défaut. Soumettez l’enquête et téléchargez les chiffres.

4. analyse de la survie

  1. Analyse de survie en BC-GenExMiner v 4.0
    1. Accédez à l’interface Web de BC-GenExMiner v 4.028.
    2. Sélectionnez pronostique dans le menu analyse , appuyez sur le bouton exhaustif . Tapez l’option de recherche et appuyez sur le bouton Envoyer et le bouton d’analyse de démarrage .
    3. Dans l’analyse pronostique exhaustive, sélectionnez nm, ERm, Mr dans la population et les critères d’événement et appuyez sur le bouton Submit pour obtenir plus d’informations. Appuyez sur les vignettes de courbe Kaplan-Meier pour exporter les graphiques complets.
      NOTE: N (+,-, m): état nodales (+: positif,-: négatif, m: mixte); ER (+,-, m): état du récepteur des œstrogènes (+: positif,-: négatif, m: mixte); MR: rechute métastatique
  2. Analyse de survie dans l’Atlas des protéines humaines (HPA)
    1. Accédez à l’interface Web de Human protein Atlas29.
    2. Tapez l’option de recherche et cliquez sur le bouton Rechercher . Sélectionnez pathologie sous-Atlas.
      Remarque: les niveaux d’expression de l’ARNm dans les 17 types de cancer sont affichés dans la section vue d’ensemble de l’expression ARN. Chaque étiquette de tissu de cancer de l’intrigue de boîte est cliquable pour accéder à une page détaillée fournissant des données d’analyse de survie et des niveaux d’expression d’ARN.
    3. Cliquez sur l’étiquette du cancer du sein, puis sur la page détaillée pour afficher le diagramme de dispersion interactif de survie et l’analyse de survie. Téléchargez les chiffres.
  3. Analyse de survie dans la survie du traceur Kaplan-Meier
    1. Accédez à l’interface Web du traceur Kaplan-Meier30. Cliquez sur le traceur Start km pour le cancer du sein dans la zone de puce génétique de l’ARNm.
    2. Tapez la barre de recherche et sélectionnez l’élément vert dans le menu candidat.
    3. Sélectionnez RFS comme type de survie et autres éléments restent par défaut. Cliquez sur tracer Kaplan-Meier tracer et télécharger les chiffres.
      Remarque: les paramètres des types de survie, des types de coupure et du seuil de suivi, ainsi que les options de jeu de sondes, peuvent être modifiés selon les besoins. L’analyse pronostique de sous-groupe, y compris ER, PR, HER-2, ganglions lymphatiques, grade, statut Tp53 et sous-types moléculaires peut être obtenue via la modification du paramètre dans l' analyse restreindre aux sous-types case1. De même, la limitation du traitement du filtre pourrait être définie dans restreindre l’analyse à la boîte de cohortes sélectionnées .

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Un résultat représentatif de l’exploration de données et de l’analyse intégrative du biomarqueur du cancer du sein a été effectué à l’aide de l’un des inhibiteurs des membres de la famille liant l’ADN, qui ont été rapportés dans l’étude précédente 25.

Comme le montre la figure 2, on a analysé les différences d’expression de l’ARNm de l’ADN entre les tumeurs et les tissus normaux dans plusieurs types de cancers à l’aide de la base de données oncomine, qui contenait un total de 445 analyses uniques. Il y a eu 5 études qui ont révélé que le niveau d’expression de l’ARNm de l’ADN était significativement plus élevé dans les tissus normaux que dans les tissus du cancer du sein. Ces données indiquaient l’expression de la dysrégulation de l’i dans le cancer du sein. La figure 3 a montré les meilleurs gènes corrélativaux positifs et négatifs de l’analyse effectuée dans BC-GenExMiner v 4.0. Pour identifier la corrélation entre l’expression de l’ARNm de l’ADN et les paramètres clinicopathologiques des patients de la Colombie-Britannique, la base de données BC-GenExMiner v 4.0 a été utilisée l’analyse. Comme le montre la figure 4, on a observé une augmentation significative du taux d’ARNm chez les patients atteints de cancer du sein sans métastase ganglionnaire, comparativement à ceux atteints de métastase ganglionnaire (P= 0,0005). En outre, l’analyse dans GOBO a démontré que l’augmentation des niveaux d’ARNm de l’ADN a été corrélée à la teneur en tumeurs inférieures (figure 5, P< 0.00001). Ces résultats impliquent que l’augmentation de l’expression de l’e-s est liée à un potentiel métastatique inférieur et à une classe pathologique inférieure en Colombie-Britannique. L’analyse de la base de données BC-GenExMiner v 4.0 indiquait que l’augmentation du taux d’ARNm de l’ADN était corrélée à une survie sans métastases plus lointaine (DMFS) chez les patients atteints de cancer du sein (figure 6, hr = 0,82, 95% IC: 0,73-0,92, P= 0,001). De façon cohérente, l’analyse de l’Atlas des protéines humaines a suggéré que le niveau élevé de protéine de l’i a été associé à un meilleur résultat de survie chez les patients atteints de cancer du sein (figure 7, P= 0,0389). L’analyse de survie du traceur Kaplan-Meier a également montré que le niveau élevé d’ARNm de l’expression de l’ADN a prédit une meilleure survie sans récidive (RFS) chez les patients atteints de cancer du sein (figure 8, hr = 0,81, P= 0,00023).

Figure 1
La figure 1. Vue d’ensemble de l’exploration des modèles d’expression et des valeurs pronostiques des biomarqueurs du cancer du sein distincts et sélection des bases de données en ligne. L’analyse systématique de biomarqueurs distincts du cancer du sein a été effectuée étape par étape dans une variété de bases de données. Premièrement, le modèle d’expression du gène d’intérêt dans les échantillons cancéreux par rapport aux échantillons normaux. Ensuite, la corrélation d’expression des gènes d’intérêt dans le cancer du sein a été réalisée. Ensuite, les profils d’expression de l', ont été stratifiés selon différents. Enfin, on a analysé l’association entre l’expression et la survie. S’il vous plaît cliquez ici pour voir une version plus grande de ce chiffre.

Figure 2
La figure 2. Le modèle d’expression de l’ARNm de l’ADN dans différents types de cancer humain. L’expression de l’ARNm de l’ADN analysé avec la base de données ONCOMINE. Le graphique a démontré le nombre de jeux de données avec une surexpression statistiquement significative de l’ARNm (rouge) ou une expression rétroréglementée (bleue) du gène cible. Le nombre dans chaque cellule représentait le nombre d’analyses qui satisfont au seuil au sein de ces types d’analyse et de cancer. Le rang de gène a été analysé par percentile du gène cible dans le sommet de tous les gènes mesurés dans chaque recherche. La couleur de cellule a été déterminée par le meilleur percentile de rang de gène pour les analyses dans la cellule. La valeur de P a été établie à 0,01 et le changement de pli a été défini comme étant 2, comme illustré dans le cadre rouge. Ce chiffre a été modifié à partir de l’étude précédente25. S’il vous plaît cliquez ici pour voir une version plus grande de ce chiffre.

Figure 3
La figure 3. Analyse de la corrélation génique de l’in BC-GenExMiner v 4.0. La corrélation d’expression de l’ARNm de l’ADN et des gènes pertinents dans 5, 696 patients atteints de cancer du sein dans 36 études analysées dans bcGenExMiner v 4.0. Ce chiffre a été modifié à partir de l’étude précédente25. S’il vous plaît cliquez ici pour voir une version plus grande de ce chiffre.

Figure 4
La figure 4. La relation entre l’expression d’un et l’état de métastase de ganglion lymphatique. Le niveau d’expression de l’ARNm de l’ADN dans 4, 307 patients atteints de cancer du sein avec le statut de ganglion lymphatique différent (LN) analysés dans bcGenExMiner v 4.0. Ce chiffre a été modifié à partir de l’étude précédente25. S’il vous plaît cliquez ici pour voir une version plus grande de ce chiffre.

Figure 5
La figure 5. La relation entre le niveau d’expression génique de l’e et le grade tumoral. Le niveau d’expression de l’ARNm chez les patients atteints de cancer du sein avec une classe pathologique différente a été analysé dans le GOBO. La différence significative globale entre les groupes a été évaluée pour générer des valeurs pet p< 0,05 a été considérée comme indiquant une différence statistiquement significative. 1, 2, 3 dans l’axe des abscisses pour les sous-groupes de patients de classe pathologique 1, grade 2, grade 3. Ce chiffre a été modifié à partir de l’étude précédente 25. S’il vous plaît cliquez ici pour voir une version plus grande de ce chiffre.

Figure 6
La figure 6. Les valeurs pronostiques de l’i pour la survie sans métastase lointaine chez les patients atteints de cancer du sein. L’association entre les niveaux d’ARNm et les estimations de survie sans métastases distantes a été analysée dans bcGenExMiner v 4.0. Ce chiffre a été modifié à partir de l’étude précédente25. S’il vous plaît cliquez ici pour voir une version plus grande de ce chiffre.

Figure 7
La figure 7. La probabilité de survie de l’un des patients atteints de cancer du sein.  L’impact du niveau de protéine d’i-i pour la survie des patients atteints de cancer du sein a été analysé dans l’Atlas des protéines humaines (HPA). Ce chiffre a été modifié à partir de l’étude précédente25. S’il vous plaît cliquez ici pour voir une version plus grande de ce chiffre.

Figure 8
La figure 8. Les valeurs pronostiques du cancer du sein en fonction de la survie sans récidive (RFS). Différents niveaux d’ARNm de l’ADN dans les 3 951 patients atteints de cancer du sein analysés dans le traceur Kaplan-Meier. Ce chiffre a été modifié à partir de l’étude précédente25. S’il vous plaît cliquez ici pour voir une version plus grande de ce chiffre.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Une analyse exhaustive des bases de données publiques peut indiquer la fonction sous-jacente du gène d’intérêt et révéler le lien potentiel entre ce gène et les paramètres clinicopathologiques dans le cancer spécifique27,31. L’exploration et l’analyse basées sur une seule base de données peuvent fournir des perspectives limitées ou isolées en raison du biais potentiel de sélection, ou dans une certaine mesure, peut-être en raison de la variété de la qualité des données, y compris la collecte de données et l’algorithme analytique de la base de données19. L’étape la plus importante de ce protocole est de sélectionner les bases de données appropriées, qui devraient être largement reconnues par un plus grand nombre de scientifiques avec une représentativité adéquate. L’investigateur devrait utiliser plusieurs bases de données pour tester l’hypothèse et corer les résultats tirés de différentes bases de données, plutôt que d’utiliser une seule base de données.

Le protocole décrit ici est une procédure d’opération amicale d’enquêteur. L’avantage de cette méthode est qu’il permet la visualisation rapide et l’interprétation du rôle potentiel d’un gène dans le cancer du sein. En outre, tous les résultats obtenus grâce à cette procédure peuvent être immédiatement testés et répétés en interrogeant simplement les sites Web correspondants. La limitation de cette méthode est que les conclusions qui proviennent de l’analyse exhaustive des bases de données peuvent ne pas refléter exactement la fonction ou la relation réelle dans le cadre clinique. Cela pourrait provenir du biais systématique de la base de données, et dans certains cas, peut-être en raison de la taille insuffisante de l’échantillon32,33. L’utilisation de plus d’une base de données pour interroger la même question de recherche pourrait confirmer mutuellement les résultats et accroître la crédibilité de la conclusion34. Il est fortement recommandé d’utiliser des échantillons de l’établissement de l’enquêteur pour vérifier les résultats, ou si possible, pour effectuer des expériences de base connexes pour tester les résultats.

De plus en plus de bases de données sur la génomique du cancer ou la protéomique seront disponibles et accessibles aux chercheurs35,36. Le protocole pourrait fournir une méthode efficace et économique permettant au chercheur d’identifier un gène cible potentiel et la voie de signalisation associée grâce à une analyse approfondie des bases de données en ligne et à l’utilisation de la génomique, de la transcriptomique et de l’épigénomique approche.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Les auteurs n’ont rien à divulguer

Acknowledgments

Ce travail a été partiellement soutenu par la Fondation des sciences naturelles de la province de Guangdong, Chine (no. 2018A030313562), le projet de réforme pédagogique de la base d’enseignement clinique de Guangdong (NO.  2016JDB092), Fondation nationale des sciences naturelles de la Chine (81600358), et projet de jeunes talents innovants des collèges et universités dans la province de Guangdong, Chine (n ° 2017KQNCX073)

Materials

Name Company Catalog Number Comments
A personal computer or computing device with an Internet browser with Javascript
enabled
Microsoft 051690762553 We support and test the following browsers: Google Chrome, Firefox 3.0 and above, Safari, and Internet Explorer 9.0 and above
Adobe Flash player Adobe Systems Inc. It can be freely downloaded from http://get.adobe.com/flashplayer/. This browser plug-in is required for visualizing networks on the network
analysis tab.
Chrome Broswer Google Inc. It can be freely downloaded from https://www.google.cn/chrome/ This is necessary for viewing PDF files including the Pathology Reports and many of
the downloadable files.
Java Runtime Environment Oracle Corporation It can be downloaded from http://www.java.com/getjava/.
Office 365 ProPlus for Faculty Microsoft 2003BFFD8117EA68 This is necessary for viewing the Pathology Reports and for viewing many of
the downloadable files.
Vectr Online Vectr Labs Inc. It can be freely used from https://vectr.com/new This is necessary for visualizing and editing many of
the downloadable files and pictures.

DOWNLOAD MATERIALS LIST

References

  1. van 't Veer, L. J., et al. Gene expression profiling predicts clinical outcome of breast cancer. Nature. 415 (6871), 530-536 (2002).
  2. Loi, S., et al. Definition of clinically distinct molecular subtypes in estrogen receptor-positive breast carcinomas through genomic grade. Journal of Clinical Oncology. 25 (10), 1239-1246 (2007).
  3. Cancer Genome Atlas, N. Comprehensive molecular portraits of human breast tumours. Nature. 490 (7418), 61-70 (2012).
  4. Emerson, J. W., Dolled-Filhart, M., Harris, L., Rimm, D. L., Tuck, D. P. Quantitative assessment of tissue biomarkers and construction of a model to predict outcome in breast cancer using multiple imputation. Cancer Informatics. 7, 29-40 (2009).
  5. Yu, H., et al. Integrative genomic and transcriptomic analysis for pinpointing recurrent alterations of plant homeodomain genes and their clinical significance in breast cancer. Oncotarget. 8 (8), 13099-13115 (2017).
  6. He, W., et al. TCGA datasetbased construction and integrated analysis of aberrantly expressed long noncoding RNA mediated competing endogenous RNA network in gastric cancer. Oncology Reports. , (2018).
  7. Liu, J., et al. An Integrated TCGA Pan-Cancer Clinical Data Resource to Drive High-Quality Survival Outcome Analytics. Cell. 173 (2), e411 400-416 (2018).
  8. Esgueva, R., et al. Next-generation prostate cancer biobanking: toward a processing protocol amenable for the International Cancer Genome Consortium. Diagnostic Molecular Pathology. 21 (2), 61-68 (2012).
  9. Joly, Y., Dove, E. S., Knoppers, B. M., Bobrow, M., Chalmers, D. Data sharing in the post-genomic world: the experience of the International Cancer Genome Consortium (ICGC) Data Access Compliance Office (DACO). PLoS Computational Biology. 8 (7), e1002549 (2012).
  10. Zhang, J., et al. International Cancer Genome Consortium Data Portal--a one-stop shop for cancer genomics data. Database (Oxford). 2011, bar026 (2011).
  11. Rhodes, D. R., et al. ONCOMINE: a cancer microarray database and integrated data-mining platform. Neoplasia. 6 (1), 1-6 (2004).
  12. Rhodes, D. R., et al. Oncomine 3.0: genes, pathways, and networks in a collection of 18,000 cancer gene expression profiles. Neoplasia. 9 (2), 166-180 (2007).
  13. Jezequel, P., et al. bc-GenExMiner: an easy-to-use online platform for gene prognostic analyses in breast cancer. Breast Cancer Research and Treatment. 131 (3), 765-775 (2012).
  14. , Available from: http://co.bmc.lu.se/gobo/gsa.plb (2018).
  15. Ringner, M., Fredlund, E., Hakkinen, J., Borg, A., Staaf, J. GOBO: gene expression-based outcome for breast cancer online. PLoS One. 6 (3), e17911 (2011).
  16. Ponten, F., Jirstrom, K., Uhlen, M. The Human Protein Atlas--a tool for pathology. Journal of Pathology. 216 (4), 387-393 (2008).
  17. Ponten, F., Schwenk, J. M., Asplund, A., Edqvist, P. H. The Human Protein Atlas as a proteomic resource for biomarker discovery. Journal of Internal Medicine. 270 (5), 428-446 (2011).
  18. Gyorffy, B., et al. An online survival analysis tool to rapidly assess the effect of 22,277 genes on breast cancer prognosis using microarray data of 1,809 patients. Breast Cancer Research and Treatment. 123 (3), 725-731 (2010).
  19. Stevinson, C., Lawlor, D. A. Searching multiple databases for systematic reviews: added value or diminishing returns? Complementary Therapies in Medicine. 12 (4), 228-232 (2004).
  20. Yin, J., et al. Integrating multiple genome annotation databases improves the interpretation of microarray gene expression data. BMC Genomics. 11, 50 (2010).
  21. Patel, D., Morton, D. J., Carey, J., Havrda, M. C., Chaudhary, J. Inhibitor of differentiation 4 (ID4): From development to cancer. Biochimica et Biophysica Acta. 1855 (1), 92-103 (2015).
  22. Kamalian, L., et al. Increased expression of Id family proteins in small cell lung cancer and its prognostic significance. Clinical Cancer Research. 14 (8), 2318-2325 (2008).
  23. Cruz-Rodriguez, N., et al. High expression of ID family and IGJ genes signature as predictor of low induction treatment response and worst survival in adult Hispanic patients with B-acute lymphoblastic leukemia. Journal of Experimental and Clinical Cancer Research. 35, 64 (2016).
  24. Yang, H. Y., et al. Expression and prognostic value of Id protein family in human breast carcinoma. Oncology Reports. 23 (2), 321-328 (2010).
  25. Zhou, X. L., et al. Prognostic values of the inhibitor of DNAbinding family members in breast cancer. Oncology Reports. 40 (4), 1897-1906 (2018).
  26. , Available from: https://www.oncomine.org (2018).
  27. Lin, H. Y., Zeng, L., iang, Y. K., Wei, X. L., Chen, C. F. GATA3 and TRPS1 are distinct biomarkers and prognostic factors in breast cancer: database mining for GATA family members in malignancies. Oncotarget. 8 (21), 34750-34761 (2017).
  28. , Available from: http://bcgenex.centregauducheau.fr/BCGEM/GEM-requete.php (2018).
  29. , Available from: https://www.proteinatlas.org (2018).
  30. , Available from: http://kmplot.com/analysis (2018).
  31. Zhu, Y. F., Dong, M. Expression of TUSC3 and its prognostic significance in colorectal cancer. Pathology-Research and Practice. 214 (9), 1497-1503 (2018).
  32. Nelson, J. C., et al. Validation sampling can reduce bias in health care database studies: an illustration using influenza vaccination effectiveness. Journal of Clinical Epidemiology. 66 (8 Suppl), S110-S121 (2013).
  33. Haibe-Kains, B., Desmedt, C., Sotiriou, C., Bontempi, G. A comparative study of survival models for breast cancer prognostication based on microarray data: does a single gene beat them all? Bioinformatics. 24 (19), 2200-2208 (2008).
  34. Yang, C., et al. Understanding genetic toxicity through data mining: the process of building knowledge by integrating multiple genetic toxicity databases. Toxicology Mechanisms and Methods. 18 (2-3), 277-295 (2008).
  35. Cannata, N., Merelli, E., Altman, R. B. Time to organize the bioinformatics resourceome. PLoS Computational Biology. 1 (7), e76 (2005).
  36. Wren, J. D., Bateman, A. Databases, data tombs and dust in the wind. Bioinformatics. 24 (19), 2127-2128 (2008).

Tags

Recherche sur le cancer numéro 147 cancer du sein biomarqueur base de données exploration de donnée pronostic BioInformation
L’exploration de données et l’analyse intégrative du biomarqueur dans le cancer du sein à l’aide de plusieurs bases de données accessibles au public
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Chen, M. n., Zeng, D., Zheng, Z. q., More

Chen, M. n., Zeng, D., Zheng, Z. q., Li, Z., Wu, J. l., Jin, J. y., Wang, H. j., Huang, C. z., Lin, H. y. Performing Data Mining And Integrative Analysis Of Biomarker in Breast Cancer Using Multiple Publicly Accessible Databases. J. Vis. Exp. (147), e59238, doi:10.3791/59238 (2019).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter