$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Los datos preliminares de qRT-PCR sugirieron que un mutante EWS/FLI llamado DAF, con mutaciones específicas de tirosina a alanina en la región repetitiva y desordenada de EWS, mantuvo la capacidad de activar genes diana EWS/FLI, pero no logró reprimir genes diana críticos23. Con el fin de comprender mejor la relación entre estos residuos en el dominio EWS y la función EWS/FLI, se utilizó el protocolo descrito anteriormente y descrito en la Figura 1. Las células del sarcoma de Ewing A673 se transdujeron viralmente con un shRNA dirigido a los 3'UTR de FLI1,lo que resultó en el agotamiento de EWS / FLI endógenos. Después de cuatro días de selección, la función EWS/FLI fue rescatada con la transducción viral de diferentes construcciones mutantes EWS/FLI marcadas con 3XFLAG, con vector vacío como control para ningún rescate. Un mutante no funcional que carecía del dominio EWS, llamado Δ22, se utilizó como control negativo y EWS/FLI de tipo salvaje, llamado wtEF, se utilizó como control positivo(Figura 2A). DAF se utilizó como la construcción de prueba, aunque se puede usar más de una construcción de prueba si se desea. Las células se seleccionaron durante 10 días adicionales para permitir que la expresión de constructo se estabilizara y luego se recolectaron para los ensayos de ARN (con un paso de eliminación de gDNA), proteínas y colonias. Se recolectaron cuatro réplicas y en la Figura 2B-Dse muestran qRT-PCR representativas y western blots que muestran un derribo y rescate efectivos. Cabe señalar que las células rescatadas por DAF no pudieron formar colonias como se muestra en la Figura 2E,lo que sugiere una transformación oncogénica deteriorada.
Después de completar la validación de la réplica y los ensayos fenotípicos, el ARN se envió al Instituto de Medicina Genómica del Nationwide Children's Hospital para la preparación de la biblioteca y la secuenciación de próxima generación con ~ 50 millones de lecturas de extremo pareado de 150 pb recopiladas. Los datos se devolvieron como archivos fastq.gz. Las lecturas de baja calidad se recortaron de estos archivos con TrimGalore y STAR se utilizó para alinear las lecturas con el genoma humano hg19 y contar las lecturas por gen. hg19 se utilizó con fines de compatibilidad con los otros conjuntos de datos seleccionados para EWS/FLI utilizados en el análisis posterior. Estos recuentos de lectura se combinaron en una sola matriz de recuento para todas las muestras, cuyas primeras 6 filas se muestran en la Figura 3.
Los recuentos se ejecutaron inicialmente a través de DESeq2 sin normalización de lotes, sin embargo, la inspección visual de la distancia de muestra a muestra mostró posibles efectos de lote de confusión como se muestra resaltado con flechas rojas en la Figura 4A. Esto probablemente surgió debido a la variabilidad biológica introducida por el paso de las células en cultivo y las diferencias en el procesamiento de cada lote. La normalización de los efectos por lotes se realizó con ComBat y generalmente se recomienda. Las distancias de muestra a muestra de los datos normalizados por lotes se muestran en la Figura 4B. Después de la normalización por lotes, se utilizó DESeq2 para generar perfiles transcripcionales para los tres constructos (wtEF, Δ22 y DAF) en relación con la línea de base. Tenga en cuenta que mientras que las células A673 "parentales" (simulacro de derribo y simulacro de rescate, llamado "iLuc" aquí) se incluyeron en el análisis diferencial, la referencia para este experimento son las células con EWS / FLI-agotado, llamadas células iEF. El perfil transcripcional se puede generar para la proteína endógena aquí comparando la muestra de iLuc con iEF, y esto puede ser de interés para comprender cómo funciona el sistema de rescate, pero ese no es el objetivo de este análisis en particular. Los perfiles transcripcionales generados para los mutantes incluyen controles positivos (wtEF) y negativos (Δ22), con respecto a iEF, de modo que estos deberían funcionar como puntos de referencia para otros mutantes. Esto es importante, ya que el control positivo en este ejemplo no recapituló completamente la función de EWS/FLI endógeno como se discutió en otra parte7,23.
El análisis de componentes principales (ACP) de la Figura 5 sugiere que el perfil transcripcional de DAF es intermedio entre wtEF y Δ22, confirmando la función parcial. Además, la agrupación jerárquica de los 1000 genes más variables en todas las muestras mostró que DAF no pudo reprimir los genes diana EWS / FLI, y solo retuvo parcialmente la actividad de activación de genes como se muestra en la Figura 6A y la Figura S5. El análisis de ToppGene sugirió que las clases de genes que DAF activa son funcionalmente distintas de aquellos objetivos activados por EWS / FLI donde DAF no es funcional (Figura 6B). Curiosamente, la función de los genes activados rescatados por wtEF, pero no por DAF, parece estar relacionada con el control transcripcional y la regulación de la cromatina. Sobre la base de los resultados de los ensayos de formación de colonias, los genes de esta firma genética central deben analizarse más a fondo para determinar su papel en la oncogénesis mediada por EWS / FLI. La importancia de la represión genética mediada por EWS/FLI ha sido descrita previamente17.
Se sabe que EWS/FLI posee una afinidad de unión única para los elementos de repetición de microsatélites GGAA19,22, y que la unión a estos elementos impulsa la regulación génica aguasabajo 11,15,18,20,22. Estos microsatélites se han caracterizado por estar asociados con la activación o la represión, y ya sea proximal a (< 5 kb) TSS o distal a (> 5 kb) TSS25. Además, existen genes regulados por EWS/FLI con motivos ETS de alta afinidad (HA) proximales a TSS23. Con el fin de analizar más a fondo las características de la función DAF y qué tipos de genes activados por EWS/FLI DAF fue capaz de rescatar, se analizó la expresión diferencial de genes asociados con estas diferentes clases. Curiosamente, DAF fue más capaz de rescatar genes activados por microsatélites GGAA, pero no pudo rescatar genes activados cerca de un sitio ha como se ve en la Figura 7. Como se ve con la agrupación jerárquica, DAF no logra rescatar la represión mediada por EWS / FLI en todas las clases de motivos. Estos datos sugieren que DAF conserva suficientes características estructurales de EWS para unirse y activarse desde microsatélites GGAA, tanto proximales como distales a TSS. Esto probablemente surge del dominio SYGQ intacto que se cree que es importante para la actividad de EWS / FLI en las repeticiones GGAA11. Estos datos también sugieren que las tirosinas específicas mutadas en DAF desempeñan un papel importante, pero poco comprendido, en la regulación génica mediada por EWS / FLI de los sitios de HA, así como en la represión génica, destacando un área importante de investigación adicional.

Figura 1: Flujo de trabajo. Representación del procedimiento paso a paso para realizar el mapeo estructura-función por transcriptómica. Las células se prepararon primero para expresar el conjunto de construcciones requeridas para el mapeo estructura-función. Después de la expresión, las células se cosecharon para ARN y proteínas y se analizaron para fenotipos correlativos. Se validó la expresión de los constructos, y este proceso se repitió 3-4 veces para recolectar réplicas biológicas independientes. El ARN se sometió a la secuenciación de próxima generación (NGS). Cuando se recibieron los datos, los datos se recortaron por calidad, se alinearon y se calcularon los recuentos por transcripción. Se controlaron los efectos por lotes y se determinaron las firmas transcriptómicas y la expresión diferencial mediante DESeq2. Se puede incorporar la agrupación jerárquica y el análisis posterior que integran otros conjuntos de datos -ómicos y diferentes vías o análisis funcionales. Haga clic aquí para ver una versión más grande de esta figura.

Figura 2: Validación de la expresión de constructo y ensayos correlativos. (A) Esquema que representa las construcciones probadas en este ejemplo. (B) Validación del knockdown de EWS/FLI endógeno y expresión de constructos marcados con 3X-FLAG por immunoblot. (C,D) Validación de la actividad de constructo en un gen diana activado por EWS/FLI(C), NR0B1,y(D)gen diana reprimido, TGFBR2,por qRT-PCR. Los datos se presentan como media +/- desviación estándar. Los valores de P se calcularon con una prueba de significación honesta de Tukey. * p < 0,05, ** p < 0,01, *** p < 0,005 (E) Recuentos de colonias a partir de ensayos de agar blando realizados para evaluar la actividad transformadora de los constructos. Los valores de P se calcularon con una prueba de significación honesta de Tukey. * p < 0,05, ** p < 0,01, *** p < 0,005. Esta figura está adaptada de Theisen, et al.23Haga clic aquí para ver una versión más grande de esta figura.

Figura 3: Datos finales de conteo cotejado para el análisis. Captura de pantalla de las primeras 6 filas del archivo de recuento con recuentos de genes para todas las muestras a normalizar y analizar por lotes. Haga clic aquí para ver una versión más grande de esta figura.

Figura 4: Mapas de calor de distancia de muestra a muestra. (A) Gráfico de distancia de muestra a muestra que muestra la agrupación de muestras de los datos de recuento sin procesar. Las muestras que se agrupan tanto por lote como por muestra se denotan con flechas rojas. (B) Diagrama de distancia de muestra a muestra después de la normalización de lotes con ComBat. Aquí, las muestras de todas las réplicas se agrupan, independientemente del lote. Haga clic aquí para ver una versión más grande de esta figura.

Figura 5: Resultados del análisis de expresión diferencial. ( A ) El gráfico de análisis de componentes principales (PCA) de las firmas transcriptómicas generadas para todas las muestras muestranunafuerte agrupación intramuestrema y demuestran que DAF está intermediado entre los controles positivos (wtEF) y negativos (Δ22). (B) Gráficos de volcanes que muestran el -log(p-value) trazado contra el log2FoldChange para los genes en cada constructo. Genes con un valor p ajustado < 0,05 y un |log2(FoldChange)| > 1 se consideran significativas y se muestran en rojo. Panel 5B es una adaptación de Theisen, et al.23Haga clic aquí para ver una versión más grande de esta figura.

Figura 6: Agrupación jerárquica para identificar clases de genes. (A) La agrupación jerárquica de los 1000 genes más variables en todos los constructos y la línea de base, iEF, muestra que DAF rescata parcialmente la activación de genes mediada por EWS / FLI. (B) La ontología génica (función molecular) resulta de ToppGene que muestra el enriquecimiento funcional de genes activados por EWS / FLI que son rescatados o no rescatados por DAF. Panel 6B está adaptado de Theisen, et al.23Haga clic aquí para ver una versión más grande de esta figura.

Figura 7: Análisis detallado de diferentes elementos de respuesta del factor de transcripción a diferentes constructos: (A) Esquema que representa el procesamiento de datos utilizado para generar paneles (B) y (C) mediante la incorporación de otros conjuntos de datos disponibles con los perfiles transcriptómicos aquí. (B,C) Compilación que muestra el rescate de diferentes clases de objetivos directos EWS/FLI- (B) activados y (C) reprimidos. Los genes incluidos fueron solo aquellos genes con expresión diferencial detectable por EWS/FLI endógeno. En cada gráfico circular, el gris representa la porción de genes que no son rescatados por la construcción. El rojo representa la porción de genes que se activan diferencialmente, y el azul representa la porción de genes que se reprimen diferencialmente. Esta figura está adaptada de Theisen, et al.23Haga clic aquí para ver una versión más grande de esta figura.
Figura S1: Carga de los archivos fastq.gz en el entorno HPC, recorte y alineación. Haga clic aquí para descargar esta figura.
Figura S2: Recopilación de recuentos de lectura entre muestras y ejecución de la normalización por lotes con ComBat. Haga clic aquí para descargar esta figura.
Figura S3: Ejecución de DESeq2 y extracción de resultados del análisis de expresión diferencial. Haga clic aquí para descargar esta figura.
Figura S4: Análisis de la salida. Haga clic aquí para descargar esta figura.
Figura S5: Agrupación jerárquica para identificar clases de genes: Agrupación jerárquica de los 1000 genes más variables en todos los constructos y la línea de base, iEF, ordenada en k grupos. En este caso k= 7, pero este parámetro es establecido por el usuario como se muestra en la Figura S4D. Haga clic aquí para descargar esta figura.
Tabla S1: Lista de genes (Ensembl gene ID) con anotación de clúster. Haga clic aquí para descargar esta tabla.