Cancer Research

L’exploration de données et l’analyse intégrative du biomarqueur dans le cancer du sein à l’aide de plusieurs bases de données accessibles au public

Published: May 17, 2019 doi: 10.3791/59238

Min-na Chen¹, De Zeng², Zhuo-qun Zheng³, Zheng Li³, Jian-le Wu³, Jun-yu Jin³, He-jia Wang³, Cui-zhen Huang¹, Hao-yu Lin¹

¹Department of Thyroid and Breast Surgery, First Affiliated Hospital of Shantou University Medical College, ²Department of Medical Oncology, Cancer Hospital of Shantou University Medical College, ³Shantou University Medical College

Summary

Ici, nous présentons un protocole pour explorer le biomarqueur et le prédicteur de survie du cancer du sein sur la base de l’analyse exhaustive des ensembles de données cliniques regroupées provenant d’une variété de bases de donnees accessibles au public, en utilisant la stratégie d’expression, de corrélation et l’analyse de survie pas à pas.

Abstract

Ces dernières années, les bases de données émergentes ont été conçues pour réduire les barrières à l’approche des ensembles de données génomiques complexes du cancer, facilitant ainsi les enquêteurs pour analyser et interpréter les gènes, les échantillons et les données cliniques sur différents types de cancers. Dans les présentes, nous décrivons une procédure d’opération pratique, en prenant l’exemple de l’ADN (inhibiteur des protéines de liaison 1), pour caractériser les schémas d’expression des biomarqueurs et des prédicteurs de survie du cancer du sein basés sur des ensembles de données cliniques groupés dérivés de bases de données accessibles en ligne, y compris ONCOMINE, bcGenExMiner v 4.0 (Breast Cancer gene-expression miner v 4.0), GOBO (résultat basé sur l’expression génique pour le cancer du sein en ligne), HPA (l’Atlas des protéines humaines), et le traceur Kaplan-Meier. L’analyse a commencé par l’interrogation du modèle d’expression du gène d’intérêt (p. ex., le type d’échantillon) dans les échantillons cancéreux par rapport aux échantillons normaux. Ensuite, on a effectué l’analyse de corrélation entre les caractéristiques clinicopathologiques et de l’évaluation du cancer du sein. Ensuite, les profils d’expression de l', ont été stratifiés selon différents sous-groupes. Enfin, on a analysé l’association entre l’expression et le résultat de survie. La procédure d’opération simplifie le concept pour intégrer des types de données multidimensionnelles au niveau du gène à partir de différentes bases de données et des hypothèses de test concernant la récurrence et le contexte génomique des événements d’altération génique dans le cancer du sein. Cette méthode peut améliorer la crédibilité et la représentativité des conclusions, ce qui présente une perspective informative sur un gène d’intérêt.

Introduction

Le cancer du sein est une maladie hétérogène avec diverses stratégies de pronostic et de traitement dans différents sous-types moléculaires, dans lesquels la pathogenèse et le développement sont probablement associés à des mécanismes moléculaires disparates¹^,² ^, ³. Cependant, l’identification d’une cible thérapeutique prend habituellement des années, voire des décennies, de la découverte initiale dans la recherche fondamentale à l’utilisation clinique⁴. L’application à l’échelle du génome de la technologie de séquençage à haut débit pour le génome du cancer a grandement avancé le processus de recherche de biomarqueurs précieux ou de cibles thérapeutiques ⁵.

La quantité écrasante de données sur la génomique du cancer générées par les plates-formes de génomique du cancer à grande échelle, telles que l’ICGC (International cancer génome Consortium) et TCGA (l’Atlas du génome du cancer), pose un grand défi pour les chercheurs d’effectuer des données exploration, intégration et analytique, en particulier pour les utilisateurs dépourvus de formation intensive en informatique et en calcul⁶^,⁷^,⁸^,⁹^,¹⁰. Ces dernières années, des bases de données émergentes (p. ex., ONCOMINE, bcGenExMiner v 4.0, et le traceur Kaplan-Meier, etc.) ont été conçues et développées pour abaisser la barre pour approcher les ensembles de données génomiques complexes du cancer, facilitant ainsi les enquêteurs à analyser et interpréter les gènes, les échantillons et les données cliniques sur différents types de cancers¹¹. Le but de ce protocole est de décrire une stratégie de recherche qui s’intègre à de multiples niveaux d’information génique provenant d’une série de bases de données à accès libre, qui ont été largement reconnues par un grand nombre de chercheurs, pour identifier les biomarqueurs potentiels et facteurs pronostiques du cancer du sein.

La base de données ONCOMINE est une plate-forme d’exploration de données basée sur le Web avec des informations sur les MICROMATRICES cancéreuses et est conçue pour faciliter la découverte de nouveaux biomarqueurs et de cibles thérapeutiques¹¹. Actuellement, il y a plus de 48 millions mesures d’expression génique de 65 datasets d’expression génique dans cette base de données¹¹^,¹². Le bcGenExMiner v 4.0 (un outil gratuit pour l’institution à but non lucratif), également appelé cancer du sein gene-expression miner, est une application Web conviviale comprenant des résultats de microarrays d’ADN de 3 414 patients atteints de cancer du sein récupérés et 1 209 a connu un événement péjoratif¹³. Il est conçu pour améliorer les performances d’analyse pronostique des gènes avec les logiciels et les packages statistiques R.

Le GOBO est un outil en ligne multifonctionnel et convivial avec des informations sur les microarrays (par exemple, Affymetrix U133A) à partir d’un ensemble de cellules cancéreuses du sein à échantillon de 51 et un ensemble de données sur les tumeurs mammaires de 1881 échantillons, qui permet un large éventail d’analyses¹⁴. Il existe une variété d’applications disponibles dans la base de données GOBO, qui comprennent l’analyse rapide des profils d’expression génique dans différents sous-types moléculaires des tumeurs du sein et des lignées cellulaires, le dépistage des gènes co-exprimés pour la création de métagènes potentiels, et analyse de corrélation entre le résultat et les niveaux d’expression génique des gènes isolés, des ensembles de gènes ou des signatures génétiques dans les données du cancer du sein ensemble¹⁵.

L’Atlas des protéines humaines est un programme d’accès ouvert destiné aux scientifiques à explorer le protéome humain, qui a déjà contribué à un grand nombre de publications dans le domaine de la biologie humaine et de la maladie. L’Atlas des protéines humaines est reconnu comme une ressource de base européenne pour la communauté des sciences de la vie¹⁶^,¹⁷.

Le traceur Kaplan Meier est un outil en ligne intégrant l’expression génique et les données cliniques simultanément qui permet l’évaluation de l’effet pronostique de 54 675 gènes basés sur 10 461 échantillons de cancer, qui comprennent 1 065 gastrique, 2 437 poumon, 1 816 ovarienne et 5 143 patients atteints de cancer du sein avec un suivi moyen de 33/49/40/69 mois¹⁸. Les informations sur l’expression génique, la survie sans rechute (RFS) et la survie globale (OS) sont téléchargeables à partir de cette base de données¹⁹^,²⁰.

Ici, nous décrivons une procédure pratique d’utilisation de plusieurs bases de données accessibles au public pour comparer, analyser et visualiser les modèles de modifications dans l’expression du gène d’intérêt dans plusieurs études sur le cancer, dans le but de résumer les les profils d’expression, les valeurs pronostiques et les fonctions biologiques potentielles dans le cancer du sein. Par exemple, des études récentes ont indiqué les propriétés oncogéniques des protéines d’identification dans les tumeurs et ont été associées à des caractéristiques malignes, y compris la transformation cellulaire, l’immortalisation, la prolifération accrue et les métastases²¹^, ²²^,²³. Cependant, chaque membre de la famille d’ID joue des rôles distincts dans différents types de tumeurs solides, et leur rôle dans le cancer du sein reste incertain²⁴. Dans des études antérieures, explorées par cette méthode, nous avons constaté que l’indice de pronostic était un indicateur pronostique significatif dans le cancer du sein²⁵. Par conséquent, le protocole prendra l’exemple de la méthode pour introduire les méthodes d’exploration de données.

L’analyse commence par l’interrogation du modèle d’expression du gène d’intérêt dans les échantillons cancéreux par rapport aux échantillons normaux dans ONCOMINE. Ensuite, la corrélation d’expression des gènes d’intérêt dans le cancer du sein a été réalisée en utilisant le BC-GenExMiner v 4.0, GOBO, et ONCOMINE. Ensuite, les profils d’expression de l', ont été stratifiés selon différents sous-groupes à l’aide des trois bases de données ci-dessus. Enfin, on a analysé l’association entre l’expression et la survie en utilisant BC-GenExMiner v 4.0, l’Atlas des protéines humaines et le traceur Kaplan-Meier. La procédure d’opération a été montrée comme organigramme dans la figure 1.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. analyse des motifs d’expression

Accédez à l’interface Web ONCOMINE²⁶.
Obtenir les niveaux d’expression relative des gènes de gène dans divers types de tumeurs malignes en tapant l’option de la boîte de recherche.
Sélectionnez type d’analyse dans le menu filtres principaux . Ensuite, sélectionnez cancer vs analyse normale, cancer du sein vs analyse normale.
Sélectionnez vue Sommaire du gène dans le menu autres vues . Réglez le seuil de P-value à 0,01. Téléchargez les chiffres.
NOTE: le seuil de changement de pli est 2, comme décrit dans l’étude précédente²⁷.

2. analyse de corrélation d’expression

Accédez à l’interface Web de BC-GenExMiner v 4.0²⁸.
Sélectionnez corrélation dans le menu analyse , appuyez sur le bouton exhaustif . Tapez le type d’un dans la zone de recherche. Appuyez sur le bouton Submit et le bouton d’analyse de démarrage .
Remarque: le paramètre par défaut montre l’analyse de corrélation d’expression de tous les patients, qui peut être plus précis dans différents sous-types de cancer du sein en appuyant sur le filtre de sous-type de molécule .

3. analyse des sous-groupes

Analyse des sous-groupes dans BC-GenExMiner v 4.0
1. Accédez à l’interface Web de BC-GenExMiner v 4.0²⁸.
2. Sélectionnez expression dans le menu analyse , appuyez sur le bouton exhaustif . Tapez l’option de recherche et appuyez sur le bouton Envoyer et le bouton d’analyse de démarrage .
3. Cliquez sur l' État nodal (LN) et Scarff Bloom & les vignettes de statut de grade Richardson (SBR) pour afficher les images complètes. Dans les images SBR, appuyez sur le bouton ci-dessous pour visualiser les valeurs Pdes figures. Téléchargez les chiffres.
Analyse des sous-groupes dans les résultats fondés sur l’expression génique pour le cancer du sein en ligne (GOBO)
1. Accédez à l’interface Web de GOBO¹⁴.
2. Type symbole de gène d' intérêt à l’écran, chargez le jeu de gènes.
3. Définissez la plage de recherche de définir les identificateurs de gène/sonde sur le symbole du gène. Définir tous dans la sélection de tumeurs. Sélectionnez l' État du nœud et la nuance stratifiée dans les paramètres multivariés. Les autres éléments restent par défaut. Soumettez l’enquête et téléchargez les chiffres.

4. analyse de la survie

Analyse de survie en BC-GenExMiner v 4.0
1. Accédez à l’interface Web de BC-GenExMiner v 4.0²⁸.
2. Sélectionnez pronostique dans le menu analyse , appuyez sur le bouton exhaustif . Tapez l’option de recherche et appuyez sur le bouton Envoyer et le bouton d’analyse de démarrage .
3. Dans l’analyse pronostique exhaustive, sélectionnez nm, ERm, Mr dans la population et les critères d’événement et appuyez sur le bouton Submit pour obtenir plus d’informations. Appuyez sur les vignettes de courbe Kaplan-Meier pour exporter les graphiques complets.
  NOTE: N (+,-, m): état nodales (+: positif,-: négatif, m: mixte); ER (+,-, m): état du récepteur des œstrogènes (+: positif,-: négatif, m: mixte); MR: rechute métastatique
Analyse de survie dans l’Atlas des protéines humaines (HPA)
1. Accédez à l’interface Web de Human protein Atlas²⁹.
2. Tapez l’option de recherche et cliquez sur le bouton Rechercher . Sélectionnez pathologie sous-Atlas.
  Remarque: les niveaux d’expression de l’ARNm dans les 17 types de cancer sont affichés dans la section vue d’ensemble de l’expression ARN. Chaque étiquette de tissu de cancer de l’intrigue de boîte est cliquable pour accéder à une page détaillée fournissant des données d’analyse de survie et des niveaux d’expression d’ARN.
3. Cliquez sur l’étiquette du cancer du sein, puis sur la page détaillée pour afficher le diagramme de dispersion interactif de survie et l’analyse de survie. Téléchargez les chiffres.
Analyse de survie dans la survie du traceur Kaplan-Meier
1. Accédez à l’interface Web du traceur Kaplan-Meier³⁰. Cliquez sur le traceur Start km pour le cancer du sein dans la zone de puce génétique de l’ARNm.
2. Tapez la barre de recherche et sélectionnez l’élément vert dans le menu candidat.
3. Sélectionnez RFS comme type de survie et autres éléments restent par défaut. Cliquez sur tracer Kaplan-Meier tracer et télécharger les chiffres.
  Remarque: les paramètres des types de survie, des types de coupure et du seuil de suivi, ainsi que les options de jeu de sondes, peuvent être modifiés selon les besoins. L’analyse pronostique de sous-groupe, y compris ER, PR, HER-2, ganglions lymphatiques, grade, statut Tp53 et sous-types moléculaires peut être obtenue via la modification du paramètre dans l' analyse restreindre aux sous-types case¹. De même, la limitation du traitement du filtre pourrait être définie dans restreindre l’analyse à la boîte de cohortes sélectionnées .

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Un résultat représentatif de l’exploration de données et de l’analyse intégrative du biomarqueur du cancer du sein a été effectué à l’aide de l’un des inhibiteurs des membres de la famille liant l’ADN, qui ont été rapportés dans l’étude précédente ²⁵.

Comme le montre la figure 2, on a analysé les différences d’expression de l’ARNm de l’ADN entre les tumeurs et les tissus normaux dans plusieurs types de cancers à l’aide de la base de données oncomine, qui contenait un total de 445 analyses uniques. Il y a eu 5 études qui ont révélé que le niveau d’expression de l’ARNm de l’ADN était significativement plus élevé dans les tissus normaux que dans les tissus du cancer du sein. Ces données indiquaient l’expression de la dysrégulation de l’i dans le cancer du sein. La figure 3 a montré les meilleurs gènes corrélativaux positifs et négatifs de l’analyse effectuée dans BC-GenExMiner v 4.0. Pour identifier la corrélation entre l’expression de l’ARNm de l’ADN et les paramètres clinicopathologiques des patients de la Colombie-Britannique, la base de données BC-GenExMiner v 4.0 a été utilisée l’analyse. Comme le montre la figure 4, on a observé une augmentation significative du taux d’ARNm chez les patients atteints de cancer du sein sans métastase ganglionnaire, comparativement à ceux atteints de métastase ganglionnaire (P= 0,0005). En outre, l’analyse dans GOBO a démontré que l’augmentation des niveaux d’ARNm de l’ADN a été corrélée à la teneur en tumeurs inférieures (figure 5, P< 0.00001). Ces résultats impliquent que l’augmentation de l’expression de l’e-s est liée à un potentiel métastatique inférieur et à une classe pathologique inférieure en Colombie-Britannique. L’analyse de la base de données BC-GenExMiner v 4.0 indiquait que l’augmentation du taux d’ARNm de l’ADN était corrélée à une survie sans métastases plus lointaine (DMFS) chez les patients atteints de cancer du sein (figure 6, hr = 0,82, 95% IC: 0,73-0,92, P= 0,001). De façon cohérente, l’analyse de l’Atlas des protéines humaines a suggéré que le niveau élevé de protéine de l’i a été associé à un meilleur résultat de survie chez les patients atteints de cancer du sein (figure 7, P= 0,0389). L’analyse de survie du traceur Kaplan-Meier a également montré que le niveau élevé d’ARNm de l’expression de l’ADN a prédit une meilleure survie sans récidive (RFS) chez les patients atteints de cancer du sein (figure 8, hr = 0,81, P= 0,00023).

La figure 1. Vue d’ensemble de l’exploration des modèles d’expression et des valeurs pronostiques des biomarqueurs du cancer du sein distincts et sélection des bases de données en ligne. L’analyse systématique de biomarqueurs distincts du cancer du sein a été effectuée étape par étape dans une variété de bases de données. Premièrement, le modèle d’expression du gène d’intérêt dans les échantillons cancéreux par rapport aux échantillons normaux. Ensuite, la corrélation d’expression des gènes d’intérêt dans le cancer du sein a été réalisée. Ensuite, les profils d’expression de l', ont été stratifiés selon différents. Enfin, on a analysé l’association entre l’expression et la survie. S’il vous plaît cliquez ici pour voir une version plus grande de ce chiffre.

La figure 2. Le modèle d’expression de l’ARNm de l’ADN dans différents types de cancer humain. L’expression de l’ARNm de l’ADN analysé avec la base de données ONCOMINE. Le graphique a démontré le nombre de jeux de données avec une surexpression statistiquement significative de l’ARNm (rouge) ou une expression rétroréglementée (bleue) du gène cible. Le nombre dans chaque cellule représentait le nombre d’analyses qui satisfont au seuil au sein de ces types d’analyse et de cancer. Le rang de gène a été analysé par percentile du gène cible dans le sommet de tous les gènes mesurés dans chaque recherche. La couleur de cellule a été déterminée par le meilleur percentile de rang de gène pour les analyses dans la cellule. La valeur de P a été établie à 0,01 et le changement de pli a été défini comme étant 2, comme illustré dans le cadre rouge. Ce chiffre a été modifié à partir de l’étude précédente²⁵. S’il vous plaît cliquez ici pour voir une version plus grande de ce chiffre.

La figure 3. Analyse de la corrélation génique de l’in BC-GenExMiner v 4.0. La corrélation d’expression de l’ARNm de l’ADN et des gènes pertinents dans 5, 696 patients atteints de cancer du sein dans 36 études analysées dans bcGenExMiner v 4.0. Ce chiffre a été modifié à partir de l’étude précédente²⁵. S’il vous plaît cliquez ici pour voir une version plus grande de ce chiffre.

La figure 4. La relation entre l’expression d’un et l’état de métastase de ganglion lymphatique. Le niveau d’expression de l’ARNm de l’ADN dans 4, 307 patients atteints de cancer du sein avec le statut de ganglion lymphatique différent (LN) analysés dans bcGenExMiner v 4.0. Ce chiffre a été modifié à partir de l’étude précédente²⁵. S’il vous plaît cliquez ici pour voir une version plus grande de ce chiffre.

La figure 5. La relation entre le niveau d’expression génique de l’e et le grade tumoral. Le niveau d’expression de l’ARNm chez les patients atteints de cancer du sein avec une classe pathologique différente a été analysé dans le GOBO. La différence significative globale entre les groupes a été évaluée pour générer des valeurs pet p< 0,05 a été considérée comme indiquant une différence statistiquement significative. 1, 2, 3 dans l’axe des abscisses pour les sous-groupes de patients de classe pathologique 1, grade 2, grade 3. Ce chiffre a été modifié à partir de l’étude précédente ²⁵. S’il vous plaît cliquez ici pour voir une version plus grande de ce chiffre.

La figure 6. Les valeurs pronostiques de l’i pour la survie sans métastase lointaine chez les patients atteints de cancer du sein. L’association entre les niveaux d’ARNm et les estimations de survie sans métastases distantes a été analysée dans bcGenExMiner v 4.0. Ce chiffre a été modifié à partir de l’étude précédente²⁵. S’il vous plaît cliquez ici pour voir une version plus grande de ce chiffre.

La figure 7. La probabilité de survie de l’un des patients atteints de cancer du sein. L’impact du niveau de protéine d’i-i pour la survie des patients atteints de cancer du sein a été analysé dans l’Atlas des protéines humaines (HPA). Ce chiffre a été modifié à partir de l’étude précédente²⁵. S’il vous plaît cliquez ici pour voir une version plus grande de ce chiffre.

La figure 8. Les valeurs pronostiques du cancer du sein en fonction de la survie sans récidive (RFS). Différents niveaux d’ARNm de l’ADN dans les 3 951 patients atteints de cancer du sein analysés dans le traceur Kaplan-Meier. Ce chiffre a été modifié à partir de l’étude précédente²⁵. S’il vous plaît cliquez ici pour voir une version plus grande de ce chiffre.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Une analyse exhaustive des bases de données publiques peut indiquer la fonction sous-jacente du gène d’intérêt et révéler le lien potentiel entre ce gène et les paramètres clinicopathologiques dans le cancer spécifique²⁷^,³¹. L’exploration et l’analyse basées sur une seule base de données peuvent fournir des perspectives limitées ou isolées en raison du biais potentiel de sélection, ou dans une certaine mesure, peut-être en raison de la variété de la qualité des données, y compris la collecte de données et l’algorithme analytique de la base de données¹⁹. L’étape la plus importante de ce protocole est de sélectionner les bases de données appropriées, qui devraient être largement reconnues par un plus grand nombre de scientifiques avec une représentativité adéquate. L’investigateur devrait utiliser plusieurs bases de données pour tester l’hypothèse et corer les résultats tirés de différentes bases de données, plutôt que d’utiliser une seule base de données.

Le protocole décrit ici est une procédure d’opération amicale d’enquêteur. L’avantage de cette méthode est qu’il permet la visualisation rapide et l’interprétation du rôle potentiel d’un gène dans le cancer du sein. En outre, tous les résultats obtenus grâce à cette procédure peuvent être immédiatement testés et répétés en interrogeant simplement les sites Web correspondants. La limitation de cette méthode est que les conclusions qui proviennent de l’analyse exhaustive des bases de données peuvent ne pas refléter exactement la fonction ou la relation réelle dans le cadre clinique. Cela pourrait provenir du biais systématique de la base de données, et dans certains cas, peut-être en raison de la taille insuffisante de l’échantillon³²^,³³. L’utilisation de plus d’une base de données pour interroger la même question de recherche pourrait confirmer mutuellement les résultats et accroître la crédibilité de la conclusion³⁴. Il est fortement recommandé d’utiliser des échantillons de l’établissement de l’enquêteur pour vérifier les résultats, ou si possible, pour effectuer des expériences de base connexes pour tester les résultats.

De plus en plus de bases de données sur la génomique du cancer ou la protéomique seront disponibles et accessibles aux chercheurs³⁵^,³⁶. Le protocole pourrait fournir une méthode efficace et économique permettant au chercheur d’identifier un gène cible potentiel et la voie de signalisation associée grâce à une analyse approfondie des bases de données en ligne et à l’utilisation de la génomique, de la transcriptomique et de l’épigénomique approche.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Les auteurs n’ont rien à divulguer

Acknowledgments

Ce travail a été partiellement soutenu par la Fondation des sciences naturelles de la province de Guangdong, Chine (no. 2018A030313562), le projet de réforme pédagogique de la base d’enseignement clinique de Guangdong (NO. 2016JDB092), Fondation nationale des sciences naturelles de la Chine (81600358), et projet de jeunes talents innovants des collèges et universités dans la province de Guangdong, Chine (n ° 2017KQNCX073)

Materials

Name	Company	Catalog Number	Comments
A personal computer or computing device with an Internet browser with Javascript enabled	Microsoft	051690762553	We support and test the following browsers: Google Chrome, Firefox 3.0 and above, Safari, and Internet Explorer 9.0 and above
Adobe Flash player	Adobe Systems Inc.	It can be freely downloaded from http://get.adobe.com/flashplayer/.	This browser plug-in is required for visualizing networks on the network analysis tab.
Chrome Broswer	Google Inc.	It can be freely downloaded from https://www.google.cn/chrome/	This is necessary for viewing PDF files including the Pathology Reports and many of the downloadable files.
Java Runtime Environment	Oracle Corporation	It can be downloaded from http://www.java.com/getjava/.
Office 365 ProPlus for Faculty	Microsoft	2003BFFD8117EA68	This is necessary for viewing the Pathology Reports and for viewing many of the downloadable files.
Vectr Online	Vectr Labs Inc.	It can be freely used from https://vectr.com/new	This is necessary for visualizing and editing many of the downloadable files and pictures.