$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Les données préliminaires de qRT-PCR ont suggéré qu’un mutant EWS/FLI appelé DAF, avec des mutations spécifiques de tyrosine à alanine dans la région répétitive et désordonnée de EWS, maintenait la capacité d’activer les gènes cibles EWS/FLI, mais ne parvenait pas à réprimer les gènes cibles critiques23. Afin de mieux comprendre la relation entre ces résidus dans le domaine EWS et la fonction EWS/FLI, le protocole décrit ci-dessus et décrit à la figure 1 a été utilisé. Les cellules du sarcome d’Ewing A673 ont été transduites viralement avec un shRNA ciblant le 3'UTR de FLI1,ce qui a entraîné l’épuisement des EWS/FLI endogènes. Après quatre jours de sélection, la fonction EWS /FLI a été sauvée avec la transduction virale de différentes constructions mutantes EWS/FLI marquées 3XFLAG, avec un vecteur vide comme contrôle de l’absence de sauvetage. Un mutant non fonctionnel dépourvu du domaine EWS, appelé Δ22, a été utilisé comme témoin négatif et un EWS/FLI de type sauvage, appelé wtEF, a été utilisé comme témoin positif(Figure 2A). DAF a été utilisé comme construction de test, bien que plus d’une construction de test puisse être utilisée si vous le souhaitez. Les cellules ont été sélectionnées pendant 10 jours supplémentaires pour permettre à l’expression de la construction de se stabiliser, puis collectées pour l’ARN (avec une étape d’élimination de l’ADNg), les tests de formation de protéines et de colonies. Quatre répliques ont été recueillies et des qRT-PCR représentatives et des transferts occidentaux montrant un renversement et un sauvetage efficaces sont représentés à la figure 2B-D. Il convient de noter que les cellules sauvées par le DAF n’ont pas réussi à former des colonies, comme le montre la figure 2E,ce qui suggère une altération de la transformation oncogénique.
Après l’achèvement de la validation répliquée et des tests phénotypiques, l’ARN a été soumis à l’Institut de médecine génomique du Nationwide Children’s Hospital pour la préparation de la bibliothèque et le séquençage de nouvelle génération avec environ 50 millions de lectures appariées de 150 pb collectées. Les données ont été renvoyées sous forme de fichiers fastq.gz. Les lectures de mauvaise qualité ont été coupées à partir de ces fichiers avec TrimGalore et STAR a été utilisé pour aligner les lectures sur le génome humain hg19 et compter les lectures par gène. hg19 a été utilisé à des fins de compatibilité avec les autres ensembles de données organisés pour EWS/FLI utilisés dans l’analyse en aval. Ces comptages de lecture ont été combinés en une seule matrice de comptage pour tous les échantillons, dont les 6 premières lignes sont illustrées à la figure 3.
Les comptages ont d’abord été effectués à travers DESeq2 sans normalisation de lot, cependant, l’inspection visuelle de la distance d’échantillon à échantillon a montré des effets de lot potentiellement confondants, comme le montrent des flèches rouges à la figure 4A. Cela est probablement dû à la variabilité biologique introduite par le passage des cellules en culture et aux différences dans le traitement de chaque lot. La normalisation des effets de lot a été effectuée avec ComBat et est généralement recommandée. Les distances d’échantillon à échantillon des données normalisées par lots sont illustrées à la figure 4B. Après la normalisation par lots, DESeq2 a été utilisé pour générer des profils transcriptionnels pour les trois constructions (wtEF, Δ22 et DAF) par rapport à la ligne de base. Notez que bien que les cellules A673 « parentales » (simulation de renversement et de sauvetage simulé, appelées « iLuc » ici) aient été incluses dans l’analyse différentielle, la référence pour cette expérience sont les cellules avec des cellules appauvries en EWS / FLI, appelées cellules iEF. Le profil transcriptionnel peut être généré pour la protéine endogène ici en comparant l’échantillon iLuc à l’iEF, ce qui peut être intéressant pour comprendre le fonctionnement du système de sauvetage, mais ce n’est pas le but de cette analyse particulière. Les profils transcriptionnels générés pour les mutants comprennent des contrôles positifs (wtEF) et négatifs (Δ22), en ce qui concerne l’iEF, de sorte que ceux-ci devraient servir de repères pour d’autres mutants. Ceci est important, car le contrôle positif dans cet exemple n’a pas complètement récapitulé la fonction de l’EWS/FLI endogène comme discutéailleurs 7,23.
L’analyse en composantes principales (ACP) de la figure 5 suggère que le profil transcriptionnel du DAF est intermédiaire entre wtEF et Δ22, confirmant la fonction partielle. De plus, le regroupement hiérarchique des 1000 gènes les plus variables sur les échantillons a montré que le DAF n’a pas réussi à réprimer les gènes cibles EWS/FLI et n’a que partiellement conservé l’activité d’activation des gènes, comme le montrent les figures 6A et S5. L’analyse de ToppGene a suggéré que les classes de gènes que DAF active sont fonctionnellement distinctes des cibles activées par EWS / FLI où DAF n’est pas fonctionnel (Figure 6B). Fait intéressant, la fonction des gènes activés sauvés par wtEF, mais pas par DAF, semble être liée au contrôle transcriptionnel et à la régulation de la chromatine. Sur la base des résultats des essais de formation de colonies, les gènes de cette signature génétique de base devraient être analysés plus en détail pour leur rôle dans l’oncogenèse médiée par EWS / FLI. L’importance de la répression génique médiée par EWS/FLI a déjà été décrite17.
On sait que EWS/FLI possède une affinité de liaison unique pour les éléments répétitifs GGAA-microsatellites19,22, et que la liaison à ces éléments entraîne la régulation génique en aval11,15,18,20,22. Ces microsatellites ont été caractérisés comme étant soit associés à l’activation ou à la répression, et soit proximaux au TSS (< 5 kb), soit distaux au (> 5 kb) TSS25. En outre, il existe des gènes régulés EWS / FLI avec des motifs ETS à haute affinité (HA) proximaux à TSS23. Afin d’analyser davantage les caractéristiques de la fonction DAF et les types de gènes activés par EWS / FLI que DAF a pu sauver, l’expression différentielle des gènes associés à ces différentes classes a été analysée. Fait intéressant, DAF a été le plus en mesure de sauver les gènes activés par microsatellite GGAA, mais incapable de sauver les gènes activés près d’un site HA comme le montre la figure 7. Comme on l’a vu avec le regroupement hiérarchique, DAF ne parvient pas à sauver la répression médiée par EWS / FLI à travers les classes de motifs. Ces données suggèrent que le DAF conserve suffisamment de caractéristiques structurelles de l’EWS pour se lier et s’activer à partir des microsatellites GGAA, à la fois proximaux et distaux au TSS. Cela provient probablement du domaine SYGQ intact considéré comme important pour l’activité EWS / FLI à GGAA répète11. Ces données suggèrent également que les tyrosines spécifiques mutées dans le DAF jouent des rôles importants, mais mal compris, dans la régulation des gènes médiée par EWS / FLI à partir des sites HA, ainsi que dans la répression des gènes, mettant en évidence un domaine important d’investigation supplémentaire.

Figure 1 : Flux de travail. Représentation de la procédure étape par étape pour effectuer un mappage structure-fonction par transcriptomique. Les cellules ont d’abord été préparées pour exprimer la suite de constructions requises pour la cartographie structure-fonction. Après l’expression, les cellules ont été récoltées pour l’ARN et les protéines et testées pour les phénotypes corrélatifs. L’expression des constructions a été validée, et ce processus a été répété 3-4 fois pour recueillir des répliques biologiques indépendantes. L’ARN a ensuite été soumis au séquençage de nouvelle génération (NGS). Lorsque les données ont été reçues, les données ont été ajustées pour la qualité, alignées et le nombre de transcriptions a été calculé. Les effets des lots ont été contrôlés et les signatures transcriptomiques et l’expression différentielle ont été déterminées à l’aide de DESeq2. Le clustering hiérarchique et l’analyse en aval intégrant d’autres ensembles de données -omiques et différentes analyses de chemin ou fonctionnelles peuvent être incorporés. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 2 : Validation de l’expression de construction et des essais corrélatifs. (A) Schéma représentant les constructions testées dans cet exemple. (B) Validation de l’élimination des EWS/FLI endogènes et expression des constructions marquées 3X-FLAG par immunoblot. (C,D) Validation de l’activité de construction d’un gène cible activé EWS/FLI(C), NR0B1,et(D)gène cible réprimé, TGFBR2,par qRT-PCR. Les données sont présentées sous forme d’écart-type moyen +/-. Les valeurs de P ont été calculées avec un test de signification honnête de Tukey. * p < 0,05, ** p < 0,01, *** p < 0,005 (E) Nombre de colonies à partir d’essais de gélose molle effectués pour évaluer l’activité de transformation des constructions. Les valeurs de P ont été calculées avec un test de signification honnête de Tukey. * p < 0,05, ** p < 0,01, *** p < 0,005. Cette figure est adaptée de Theisen, et al.23Veuillez cliquer ici pour voir une version plus grande de cette figure.

Figure 3 : Données finales de comptage rassemblées pour analyse. Capture d’écran des 6 premières lignes du fichier de comptage avec les numérations de gènes pour tous les échantillons à normaliser et à analyser par lots. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 4 : Cartes thermiques de distance d’échantillon à échantillon. (A) Graphique de distance d’échantillon à échantillon montrant le regroupement d’échantillons des données de comptage brutes. Les échantillons qui se regroupent à la fois par lot et par échantillon sont signalés par des flèches rouges. (B) Diagramme de distance échantillon à échantillon suivant la normalisation du lot avec ComBat. Ici, les échantillons de toutes les répliques se regroupent ensemble, indépendamment du lot. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 5 : Résultats de l’analyse de l’expression différentielle. (A) Le diagramme d’analyse composante principale (APC) des signatures transcriptomiques générées pour tous les échantillons montre un fort regroupement intra-échantillon et démontre que le DAF est intermédié entre les témoins positifs (wtEF) et négatifs (Δ22). (B) Diagrammes de volcan montrant le -log(p-value) tracé par rapport au log2FoldChange pour les gènes dans chaque construction. Gènes avec une valeur de p ajustée < 0,05 et une |log2(FoldChange)| > 1 sont considérés comme significatifs et sont indiqués en rouge. Le panneau 5B est adapté de Theisen, et al.23Veuillez cliquer ici pour voir une version plus grande de cette figure.

Figure 6 : Regroupement hiérarchique pour identifier les classes de gènes. (A) Le regroupement hiérarchique des 1000 gènes les plus variables dans toutes les constructions et la ligne de base, iEF, montre que DAF sauve partiellement l’activation génique médiée par EWS / FLI. (B) Résultats de l’ontologie génique (fonction moléculaire) de ToppGene montrant l’enrichissement fonctionnel des gènes activés par EWS / FLI qui sont sauvés ou non sauvés par DAF. Le panneau 6B est adapté de Theisen, et al.23Veuillez cliquer ici pour voir une version plus grande de cette figure.

Figure 7: Analyse détaillée de différents éléments de réponse du facteur de transcription à différentes constructions: (A) Schéma illustrant le traitement des données utilisé pour générer des panels (B) et (C) en incorporant d’autres ensembles de données disponibles avec les profils transcriptomiques ici. (B,C) Compilation montrant le sauvetage de différentes classes de cibles directes EWS/FLI- (B) activées et (C) réprimées. Les gènes inclus n’étaient que les gènes dont l’expression différentielle était détectable par EWS/FLI endogène. Dans chaque diagramme à secteurs, le gris représente la partie des gènes qui ne sont pas sauvés par la construction. Le rouge représente la partie des gènes qui sont activés différentiellement, et le bleu représente la partie des gènes qui sont réprimés différentiellement. Cette figure est adaptée de Theisen, et al.23Veuillez cliquer ici pour voir une version plus grande de cette figure.
Figure S1 : Chargement des fichiers fastq.gz dans l’environnement HPC, rognage et alignement. Veuillez cliquer ici pour télécharger cette figure.
Figure S2 : Regroupement des nombres de lectures entre les échantillons et exécution de la normalisation des lots avec ComBat. Veuillez cliquer ici pour télécharger cette figure.
Figure S3 : Exécution de DESeq2 et extraction des résultats de l’analyse de l’expression différentielle. Veuillez cliquer ici pour télécharger cette figure.
Figure S4 : Analyse de la sortie. Veuillez cliquer ici pour télécharger cette figure.
Figure S5 : Regroupement hiérarchique pour identifier les classes de gènes : Regroupement hiérarchique des 1000 gènes les plus variables dans toutes les constructions et la base de référence, iEF, triée en k clusters. Dans ce cas, k= 7, mais ce paramètre est défini par l’utilisateur comme illustré à la figure S4D. Veuillez cliquer ici pour télécharger cette figure.
Tableau S1 : Liste des gènes (ID du gène Ensembl) avec annotation de cluster. Veuillez cliquer ici pour télécharger ce tableau.