RESEARCH
Peer reviewed scientific video journal
Video encyclopedia of advanced research methods
Visualizing science through experiment videos
EDUCATION
Video textbooks for undergraduate courses
Visual demonstrations of key scientific experiments
BUSINESS
Video textbooks for business education
OTHERS
Interactive video based quizzes for formative assessments
Products
RESEARCH
JoVE Journal
Peer reviewed scientific video journal
JoVE Encyclopedia of Experiments
Video encyclopedia of advanced research methods
EDUCATION
JoVE Core
Video textbooks for undergraduates
JoVE Science Education
Visual demonstrations of key scientific experiments
JoVE Lab Manual
Videos of experiments for undergraduate lab courses
BUSINESS
JoVE Business
Video textbooks for business education
Solutions
Language
French
Menu
Menu
Menu
Menu
Research Article
Jooa Kwon1,2, George Z. He3,4, Mirana Ramialison1,2,3,4,5, Hieu T. Nim1,2,3,4
1Department of Paediatrics, Faculty of Medicine, Dentistry and Health Sciences,University of Melbourne, 2Australian Regenerative Medicine Institute,Monash University, 3Stem Cell Medicine Department, Murdoch Children's Research Institute,The Royal Children's Hospital, 4The Novo Nordisk Foundation Center for Stem Cell Medicine, reNEW Melbourne,Murdoch Children's Research Institute, 5Systems Biology Institute (SBI) Australia
Please note that some of the translations on this page are AI generated. Click here for the English version.
Erratum Notice
Important: There has been an erratum issued for this article. View Erratum Notice
Retraction Notice
The article Assisted Selection of Biomarkers by Linear Discriminant Analysis Effect Size (LEfSe) in Microbiome Data (10.3791/61715) has been retracted by the journal upon the authors' request due to a conflict regarding the data and methodology. View Retraction Notice
Nous présentons un flux de travail sans codage permettant aux biologistes d’identifier les amplificateurs de gènes spécifiques aux tissus en utilisant uniquement des outils basés sur un navigateur. Notre protocole exploite les marques d’histones publiques H3K4me1/H3K27ac et les données Hi-C, permettant aux chercheurs sans expertise en programmation d’accéder, d’analyser et d’identifier des éléments régulateurs potentiels associés à leurs gènes d’intérêt.
Les amplificateurs sont des régions de l’ADN qui régulent l’expression des gènes. Les mutations au sein des amplificateurs peuvent entraîner une régulation anormale des gènes conduisant à la maladie. Par conséquent, l’identification des amplificateurs qui régulent l’activité des gènes dans des tissus spécifiques est cruciale pour comprendre la base génétique de la maladie. Cependant, les amplificateurs sont difficiles à identifier car ils ne codent pas pour des protéines. Bien qu’il existe de nombreux dépôts d’amplificateurs et d’outils d’identification, la complexité de ces outils peut présenter un défi pour les biologistes. Pour faciliter l’utilisation de ces ressources par les biologistes, nous présentons un protocole adapté aux biologistes (https://github.com/Ramialison-Lab/EnhancerWorkflow) qui exploite les données génomiques existantes sur le Web telles que les marques d’histones H3K4me1 et H3K27ac et les données d’analyse de la conformation de la chromatine (Hi-C) pour découvrir des amplificateurs associés à un gène d’intérêt (GdI) dans un tissu cible où l’amplificateur est actif. Ce protocole est entièrement basé sur le Web et ne nécessite pas de compétences en programmation de la part des utilisateurs finaux. Nous avons démontré l’utilité de cette approche en caractérisant des amplificateurs candidats régulant TBX5, un gène essentiel au développement cardiaque. Ce protocole facilite l’identification des amplificateurs associés à ce gène dans le ventricule gauche.
Les amplificateurs sont des régions d’ADN non codantes qui régulent la transcription des gènes, le développement et la différenciation cellulaire 1,2. La mutation des amplificateurs peut entraîner diverses maladies, notamment des troubles du développement, des cancers et d’autres conditions génétiques 3,4,5,6. Par conséquent, la compréhension des amplificateurs est primordiale pour comprendre l’expression des gènes, les mutations et les maladies.
Pour comprendre comment les amplificateurs interagissent avec leurs gènes cibles, il est important d’identifier leur emplacement dans le génome. Cependant, l’identification des emplacements des amplificateurs n’est pas toujours simple, car les amplificateurs peuvent être situés à la fois près du site de début de transcription (TSS) et beaucoup plus loin, s’étendant sur des dizaines à des centaines de kilobases 2,7,8,9.
Malgré leur emplacement génomique imprévisible, les amplificateurs présentent des signatures biochimiques et structurelles distinctes, ce qui leur permet d’être systématiquement tracés. En général, les amplificateurs ont tendance à être enrichis dans les régions intergéniques et introniques, avec un petit nombre trouvé dans les exons2 et 8. Ils sont souvent marqués par des modifications spécifiques des histones et la liaison aux facteurs de transcription, qui définissent leurs rôles régulateurs et déterminent leur activité spatio-temporelle à travers différents stades de développement et tissus10,11.
ChIP-seq est utilisé pour identifier les sites de liaison des facteurs de transcription (TFBS) et les marques de modification des histones, telles que le poinçon des amplificateurs, H3K4me1, les marques d’activateur, H3K27ac et les marques H3K4me3, qui sont enrichies dans les régions promotrices 1,12,13,14,15. Les techniques de capture de la conformation de la chromatine (3C) et leurs dérivés, tels que 4C, 5C, Hi-C et-PET, sont utilisés pour cartographier les interactions physiques entre les régions génomiques distantes. Alors que 3C cible des interactions spécifiques dans des tissus spécifiques, Hi-C offre une architecture à l’échelle du génome à travers les types de cellules16,17.
En plus des méthodes actuelles, des approches spécialisées ont été développées pour caractériser les amplificateurs, y compris des bases de données d’amplificateurs regroupées, telles que EnhancerAtlas ou EnhancerFinder18,19. Cependant, ces outils obligent souvent les chercheurs à intégrer plusieurs ensembles de données pour étudier plusieurs amplificateurs dans de nombreux tissus, ce qui peut être écrasant pour les biologistes sans expérience en bioinformatique et en exploration de données.
Nous décrivons ici un protocole convivial pour sélectionner des amplificateurs, entièrement basé sur les outils web existants. Cela permet aux chercheurs d’interroger un gène d’intérêt (GdI) et de récupérer les amplificateurs correspondants. Le protocole sélectionne les amplificateurs en fonction d’un ensemble spécifique de critères : modifications des histones, interactions chromatiniennes et spécificité tissulaire 1,12,13,14,15,16,17,20,21. Les amplificateurs présents dans les introns sont plus susceptibles de montrer une activité spécifique aux tissus par rapport aux amplificateurs intergéniques, qui sont positionnés dans les régions génomiques entre les gènes22. Pour assurer une couverture complète des amplificateurs actifs potentiels, nous avons défini la plage de recherche entre deux GdI voisins afin d’augmenter la probabilité de capturer des éléments régulateurs situés en dehors des corps de gènes. Nous avons utilisé un marqueur épigénétique spécifique à l’amplificateur, H3K4me1, et un marqueur d’amplification actif, H3K27ac, pour répertorier les candidats amplificateurs. Ces candidats ont ensuite été affinés sur la base de données Hi-C, en conservant les amplificateurs avec des interactions physiques avec le promoteur correspondant. Ce protocole est conçu pour guider les biologistes tout au long du processus d’identification des amplificateurs à l’aide d’outils Web accessibles au public. En intégrant des données d’interaction épigénétique et chromatinienne, l’approche décrite ici offre un cadre pratique pour générer des hypothèses sur les amplificateurs potentiels en vue d’une validation expérimentale ultérieure.
REMARQUE : Une procédure pas à pas est disponible à l’adresse https://github.com/Ramialison-Lab/EnhancerWorkflow. Les données utilisées dans le protocole sont résumées dans les tableaux 1 et 2. Le dépannage est disponible dans le fichier supplémentaire 1.
1. Localisation du GdI (Figure 1)
2. Définition de la région de détection de l’amplificateur (Figure 2)
3. Analyse des marques d’histostones (Figure 3)
4. Analyse de capture de la conformation de la chromatine (Hi-C) (Figure 4)
Pour illustrer l’utilisation du protocole présenté, nous avons étudié le gène TBX5 dans le cœur humain, en explorant les amplificateurs associés à TBX5 à l’aide du flux de travail complet impliquant des données H3K4me1, H3K27ac et Hi-C. TBX5 est un gène qui contribue au développement des membres et du cœur, y compris la formation des quatre chambres et la séparation du septum24. La mutation de ce gène est l’une des principales causes du syndrome de Holt-Oram (HOS), qui provoque des anomalies des membres et des cardiopathies congénitales (CHD), y compris des anomalies du septum24. La mutation des amplificateurs cardiaques associés à TBX5 peut influencer de manière critique la CHD24. Une étude antérieure a découvert trois amplificateurs TBX5 connus dans des tissus spécifiques au cœur humain - à savoir « Enhancer 2 », « Enhancer 9 » et « Enhancer 16 » (Fichier supplémentaire 2), dont il a été démontré qu’ils avaient des phénotypes comparatifs chez les souris transgéniques23.
Nous avons étudié les régions enrichies en H3K4me1 et H3K27ac entre RBM19 et TBX3, qui sont deux gènes flanquants en aval et en amont de TBX5 chez l’homme, afin de récupérer des amplificateurs présumés au locus TBX5 (Figure 1 et Figure 2). Pour identifier les amplificateurs spécifiques du cœur, les cellules du muscle cardiaque ont été choisies. Les régions présumées de l’amplificateur cardiaque TBX5 ont été récupérées sous forme de coordonnées (chr12 : début-fin), et 22 régions associées à H3K4me1 et H3K27ac ont été identifiées (figure 3 et fichier supplémentaire 3). Des amplificateurs cardiaques TBX5 présumés ont été extraits de la base de données génomique EnsEMBL pour croiser les données Hi-C contenues dans la base de données 4DNucleome (Figure 4). Cela a été fait pour évaluer les interactions possibles entre les amplificateurs potentiels et le promoteur cardiaque TBX5 . Selon le protocole décrit ici, il a été confirmé que 21 des 22 régions génomiques interagissent avec le promoteur TBX5 (chr12 : 114400143-114410103) dans les cellules du muscle cardiaque (Fichier supplémentaire 4). Il y avait une région qui n’avait pas d’interaction physique avec le promoteur (Figure 4, étape 4.8). Enfin, nous avons comparé ce protocole avec ces amplificateurs validés biologiquement et la base de données actuelle de référence des amplificateurs cardiaques, VISTA Cardiac Enhancers Browser, et avons révélé d’autres amplificateurs non actuellement capturés par la base de données25.
Nous avons effectué une comparaison croisée des 21 amplificateurs TBX5 récupérés par le protocole présenté ici avec les bases de données existantes. Nous avons récupéré 4 amplificateurs TBX5 du navigateur VISTA Cardiac Enhancer (fichier supplémentaire 5)25. Sur les 4 amplificateurs cardiaques identifiés par VISTA, 3 amplificateurs, hs2329, mm1282 et m370, chevauchaient les régions identifiées par ce protocole de détection d’amplificateurs en ligne (Figure 5). Chacun des amplificateurs prédits partageait également les régions génomiques avec les amplificateurs précédemment validés expérimentalement de Smemo et al.23, Enhancer 2 (chr12:114025907-114026275, GRCh38) et Enhancer 16 (chr12:114415466-114420433, GRCh38), alors qu’ils n’ont pas montré de chevauchement avec Enhancer 9 (chr12:114263402-114266886, GRCh38). L’un des amplificateurs identifiés par VISTA, hs498 , n’a pas chevauché les amplificateurs prédits par ce protocole ou les amplificateurs validés expérimentalement par Smemo et al.23 (Figure 5), même si la région a montré un chevauchement partiel avec les marques H34Kme1 (Figure 5). De même, Enhancer 9 n’a pas chevauché les amplificateurs prédits par ce pipeline, mais a été associé à des marques H3K4me1 (figure 5).

Figure 1 : Guide étape par étape pour localiser le GdI dans le navigateur génomique EnsEMBL. L’utilisateur ouvre d’abord la page d’accueil d’EnsEMBL (1.1), sélectionne l’espèce (humaine) et saisit le gène dans la barre de recherche (1.2-1.3). Dans la liste des résultats, l’ID de gène approprié est sélectionné (1.4), ce qui ouvre la page de résumé du gène. L’utilisateur clique ensuite sur le lien hypertexte Région en détail (1.5) pour visualiser la région génomique entourant le GdI, y compris les éléments voisins et les caractéristiques régulatrices. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 2 : Définition de la région de détection de l’amplificateur autour du GdI à l’aide du navigateur génomique EnsEMBL. Pour définir la région de détection de l’amplificateur, identifiez les deux gènes voisins flanquant le GdI à l’aide des annotations génétiques de base de la piste GENCODE, où les gènes sont représentés par des blocs jaune foncé étiquetés avec des annotations EnsEMBL/Havana fusionnées. La direction transcriptionnelle de chaque gène est indiquée par des pointes de flèche (< ou >) à côté du nom du gène (2.1). Pour sélectionner la région intergénique entre les gènes voisins, cliquez et faites glisser sur la région d’intérêt, puis choisissez Aller à la région dans la fenêtre contextuelle pour zoomer (2.2). Pour ajouter des annotations réglementaires ou liées à l’amplificateur, cliquez sur Ajouter/supprimer des pistes (2.3). Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 3 : Configuration des pistes de modification des histones dans la région de détection de l’amplificateur à l’aide du navigateur génomique EnsEMBL. Dans la barre d’outils de gauche, cliquez sur Configurer cette page (3.1) pour accéder au panneau de configuration de la piste et accédez à « Activité par cellule/tissu » dans la section Régulation (3.2). Dans l’onglet ouvert, sélectionnez la section « Expériences » (3.3) et utilisez la barre de recherche Cellules/Tissus pour localiser et sélectionner le tissu qui vous intéresse (cellule du muscle cardiaque) (3.4). Dans le panneau des marques d’histones (3.5), activez H3K4me1 et H3K27ac en tant que marques d’amplification actives et H3K4me3 en tant que marque de promoteur, puis cliquez sur « Configurer l’affichage des pistes » (3.6). Après avoir confirmé les sélections de pistes, cliquez sur « Afficher les pistes » (3.7) pour revenir à la visionneuse de génome. Les pics de marques d’histones sont maintenant représentés dans la région de détection (3.8) sous forme de blocs colorés sous l’étiquette tissulaire correspondante (jaune : H3K4me1, bleu : H3K27ac et orange : H3K4me3). Fenêtre contextuelle « Hists & Pols » contenant les coordonnées génomiques de la région par paires de bases (chr :start-end), qui peuvent être copiées et enregistrées pour une analyse en aval. Une pop-up « Hists & Pols » apparaît après avoir cliqué sur les éléments colorés du morceau. La fenêtre contextuelle contient les coordonnées génomiques de la région par paires de bases (par exemple, chr12:11443450-114451611 pour la région promotrice), qui peuvent être copiées et enregistrées pour l’analyse en aval (3.8). De même, pour extraire des amplificateurs candidats, privilégiez les régions où les pics H3K4me1 et H3K27ac se chevauchent, comme le montre l’alignement vertical des pics et des boîtes sur les pistes (3.9). Les régions qui se chevauchent peuvent être sélectionnées directement en cliquant sur leurs cases ou en cliquant-glissant manuellement sur les pics alignés pour définir une région (par exemple, chr12:114400143-114410103 pour une région candidate active). Les coordonnées affichées dans la fenêtre contextuelle doivent être enregistrées au format BED pour une validation ou une visualisation en aval. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 4 : Visualisation des interactions promoteur-amplificateur de la chromatine à l’aide de cartes thermiques Hi-C du portail de données sur les nucléomes 4D. La page d’accueil du portail de données 4D Nucleome affiche un graphique à barres empilées résumant les types d’expériences disponibles par organisme. L’ensemble de données « in situ Hi-C » pour les échantillons humains est sélectionné en cliquant sur la section correspondante de la barre (4.1). Une liste filtrée d’ensembles de données pertinents s’affiche. un ensemble de données Hi-C dérivé de cellules H9 différenciées en myoblastes cardiaques est sélectionné (4.2). L’ensemble de données sélectionné (4.3) s’ouvre dans le navigateur HiGlass via le bouton Explorer les données (4.4). La région génomique d’intérêt est saisie dans la boîte de coordonnées (4.5), et la matrice de contact est rendue sous la forme d’une carte thermique à l’échelle des couleurs. Les couleurs plus foncées (rouge foncé à noir) indiquent une fréquence de contact de chromatine plus forte, tandis que les couleurs plus claires (blanc à orange) représentent des interactions plus faibles. Une règle horizontale est placée à la coordonnée du promoteur, et des règles verticales sont tracées aux positions de trois amplificateurs de contrôle validés expérimentalement (4.6). Ces intersections sont utilisées pour définir un seuil d’interaction strict, défini par le signal visible le plus fort (couleur la plus foncée) parmi les contacts promoteur-amplificateur (4.7). Des règles verticales supplémentaires sont tracées aux emplacements des amplificateurs candidats marqués H3K27ac et H3K4me1 (à partir de l’étape 3.8). Les candidats dont les intersections promoteur-amplificateur sont égales ou plus foncées que le seuil sont retenus, tandis que ceux dont les signaux sont plus faibles (carrés de couleur plus claire) sont exclus (4.8). Les coordonnées conservées sont extraites manuellement et enregistrées au format BED pour les analyses en aval. (a. Enhancer 2, b. Enhancer 9 et c. Enhancer 16) Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 5 : Vue génomique du navigateur des amplificateurs TBX5 prédits par rapport aux amplificateurs cardiaques et aux amplificateurs de contrôle validés par VISTA. Les instantanés du navigateur génomique affichent la plage de recherche de l’amplificateur (ÉTAPE 2), comparant les amplificateurs prédits récupérés par le protocole Web (en bas) avec les amplificateurs validés par VISTA (en haut) et les amplificateurs de contrôle validés expérimentalement (au centre). Le panneau principal montre le locus génomique complet avec des éléments régulateurs annotés, y compris les pics H3K4me1 (jaune), H3K27ac (bleu) et H3K4me3 spécifiques aux cellules du muscle cardiaque (orange). Trois figures zoomées capturent l’alignement entre les éléments récupérés par le protocole, VISTA et les amplificateurs de contrôle. Le chevauchement avec les amplificateurs de contrôle est encadré par des cases rouges. Les coordonnées de chaque sous-région sont affichées dans les panneaux inférieurs du navigateur. Veuillez cliquer ici pour voir une version agrandie de cette figure.
Tableau 1 : Données utilisées dans l’étude. Veuillez cliquer ici pour télécharger ce tableau.
Tableau 2 : Outils Web utilisés dans l’étude. Veuillez cliquer ici pour télécharger ce tableau.
Fichier supplémentaire 1 : Instructions de dépannage pour EnsEMBL Genome Browser. Veuillez cliquer ici pour télécharger ce fichier.
Dossier supplémentaire 2 : Un fichier BED au format GRCh38, les amplificateurs de contrôle cardiaque TBX5 validés expérimentalement 23. Veuillez cliquer ici pour télécharger ce fichier.
Fichier supplémentaire 3 : Un fichier BED au format GRCh38, activateurs cardiaques TBX5 récupérés par STEP3 auprès d’EnsEMBL. Veuillez cliquer ici pour télécharger ce fichier.
Dossier supplémentaire 4 : Un fichier BED au format GRCh38, des amplificateurs cardiaques TBX5 récupérés par STEP4 auprès d’EnsEMBL. Veuillez cliquer ici pour télécharger ce fichier.
Fichier supplémentaire 5 : Un fichier BED au format GRCh38, activateurs cardiaques TBX5 récupérés du navigateur d’amplificateurs cardiaques VISTA25. Veuillez cliquer ici pour télécharger ce fichier.
Les auteurs ne signalent aucun intérêt concurrent.
Nous présentons un flux de travail sans codage permettant aux biologistes d’identifier les amplificateurs de gènes spécifiques aux tissus en utilisant uniquement des outils basés sur un navigateur. Notre protocole exploite les marques d’histones publiques H3K4me1/H3K27ac et les données Hi-C, permettant aux chercheurs sans expertise en programmation d’accéder, d’analyser et d’identifier des éléments régulateurs potentiels associés à leurs gènes d’intérêt.
Nous remercions les membres du laboratoire Ramialison (Transcriptomique et bioinformatique, reNEW Bioinformatics Hub) pour les discussions utiles. MR et HTN sont soutenus par une subvention d’idées du NHMRC (APP1180905). Nous remercions Richard Saffery pour son soutien. MR est financé par une bourse Future Leader Fellowship (107328) de la Heart Foundation. Un financement supplémentaire de l’infrastructure du Murdoch Children’s Research Institute a été fourni par le programme de soutien à l’infrastructure de l’Institut de recherche indépendant du Conseil national de la santé et de la recherche médicale du gouvernement australien. L’Institut australien de médecine régénérative est soutenu par des subventions du gouvernement de l’État de Victoria et du gouvernement australien. Le Centre de médecine des cellules souches de la Fondation Novo Nordisk est soutenu par des subventions de la Fondation Novo Nordisk (NNF21CC0073729).
| Poste de travail informatique | N/A | N/A | Ordinateur compatible avec un navigateur Web, système d’exploitation Windows/Mac/Linux |
| Portail de données 4DN | Portail de données 4DN | https://data.4dnucleome.org/ | |
| Galaxie | Galaxie | https://usegalaxy.org/published/history?id=aff5db4e07064445 | |
| Github | Github | https://github.com/Ramialison-Lab/EnhancerWorkflow | |
| VISTA  ; | Navigateur d’amplificateurs cardiaques VISTA | https://portal.nersc.gov/dna/RD/heart/ |