Summary

Análisis de los factores de expresión génica tumoral con el portal web de CorExplorer

Published: October 11, 2019
doi:

Summary

Presentamos el portal web CorExplorer, un recurso para la exploración de los factores de secuenciación de ARN tumoral encontrado según el algoritmo de aprendizaje automático CorEx (Correlation Explanation), y mostramos cómo se pueden analizar los factores en relación con la supervivencia, las anotaciones de la base de datos, interacciones proteína-proteína, y entre sí para obtener información sobre la biología tumoral y las intervenciones terapéuticas.

Abstract

El análisis diferencial de la expresión génica es una técnica importante para entender los estados de la enfermedad. El algoritmo de aprendizaje automático CorEx ha mostrado utilidad en el análisis de la expresión diferencial de grupos de genes en el ARN-seq tumoral de una manera que puede ser útil para avanzar en la oncología de precisión. Sin embargo, CorEx produce muchos factores que pueden ser difíciles de analizar y conectar con la comprensión existente. Para facilitar este tipo de conexiones, hemos creado un sitio web, CorExplorer, que permite a los usuarios explorar interactivamente los datos y responder a preguntas comunes relacionadas con su análisis. Capacitamos a CorEx en datos de expresión génica ARN-seq para cuatro tipos de tumores: ovario, pulmón, melanoma y colorrectal. A continuación, incorporamos los correspondientes enriquecimientos de vías de supervivencia, proteínas y proteínas, Gene Ontology (GO) y Kyoto Encyclopedia of Genes and Genomes (KEGG), y mapas de calor en el sitio web para su asociación con la visualización de gráficos de factores. Aquí empleamos protocolos de ejemplo para ilustrar el uso de la base de datos para comprender la importancia de los factores tumorales aprendidos en el contexto de estos datos externos.

Introduction

Desde su introducción hace poco más de una década, el ARN-seq se ha convertido en una herramienta omnipresente para medir la expresión génica1. Esto se debe a que permite una elaboración rápida y barata de novo de todo el transcriptoma de una muestra. Sin embargo, los datos del tumor ARN-seq reflejan una biología subyacente que es intrínsecamente compleja y a menudo submuestreada, mientras que los datos en sí son altos dimensiones y ruidosos. Esto presenta un desafío significativo para extraer señales confiables. El algoritmo CorEx aprovecha la información mutua multivariada para encontrar patrones sutiles en tales situaciones2,3 . Esta técnica fue adaptada previamente para analizar muestras de ARN-seq tumoral de ovario del Atlas del Genoma del Cáncer (TCGA) y en este contexto parecía tener ventajas significativas sobre los métodos de análisis más utilizados4.

Aunque el uso de ARN-seq está enormemente extendido en aplicaciones de investigación, incluso en oncología, esos esfuerzos no han llevado a una amplia utilización a los efectos de las intervenciones clínicas5. Parte de la razón de esto es la falta de algoritmos fáciles de usar y software dirigido a estos problemas específicos. Para ayudar a salvar esta brecha, hemos diseñado el portal web CorExplorer para permitir a los investigadores de una variedad de orígenes estudiar los factores de expresión génica de las muestras de ARN-seq tumoral según lo encontrado por el algoritmo de aprendizaje automático De CorEx. El portal CorExplorer admite la visualización interactiva y la consulta de factores de varios tipos de tumores diferentes, incluyendo pulmón, colon, melanoma y ovario6,7,8,9, 10, con la intención de ayudar a los investigadores a tamificar las correlaciones de datos e identificar las vías candidatas para estratificar a los pacientes con fines terapéuticos.

Esperamos que el portal CorExplorer pueda ser útil para varios tipos de usuarios. El portal fue diseñado pensando en el usuario que desea comprender los amplios factores que impulsan las diferencias de expresión génica tumoral en las bases de datos públicas y posiblemente también colocar perfiles de expresión génica individuales en el contexto de tumores con similares Características. Además de los protocolos representativos descritos aquí, las investigaciones de CorExplorer pueden servir como punto de partida para sugerir hipótesis para pruebas adicionales, comparar y contrastar los hallazgos de CorEx en conjuntos de datos fuera de CorExplorer, y para conectarse firmas de expresión patológica de uno o algunos genes en un tumor individual a grupos más grandes que pueden verse afectados de forma coordinada. Por último, puede servir como una introducción fácil de usar a la aplicación de aprendizaje automático a RNA-seq para aquellos que comienzan en el campo.

Protocol

1. Explorar factores que contienen un gen de interés Abra un navegador web y vaya a http://corex.isi.edu, la página de inicio de CorExplorer. En el lado derecho, en Vínculos rápidos, haga clic en el botón + expandir junto a Ovarian (TCGA-OV) para ver un resumen del gráfico del factor CorEx que se entrenó en los datos de cáncer de ovario TCGA (que se muestran en la Figura 1). Opcionalmente, haga clic en otros para comparar. Una vez que haya terminado de inspeccionar los gráficos de factores, haga clic enPulmón (TCGA-LUAD)para acceder a la página De CorExplorer para el cáncer de pulmón RNA-seq.Explore el gráfico del factor CorEx para ver un gen de interés utilizando la ventana ‘Factor Graph’ de CorExplorer. Mueva el cursor del ratón sobre la ventana de visualización del gráfico de factores. Amplíe el gráfico de factores utilizando la rueda de desplazamiento del ratón o el trackpad para ver detalles del gráfico, como los genes más importantes de cada factor y las conexiones entre nodos en diferentes capas. También puede hacer clic y arrastrar para mover el área de vista o cualquier nodo. Para encontrar un gen objetivo (aquí usaremos BRCA1), haga clic en el menú desplegable Gene en la parte superior de la ventana del gráfico de factores. Escriba ‘BRCA1’ para seleccionarlo en la lista desplegable y pulse Retorno para que el zoom de vista se haga el factor 26, el factor con el que BRCA1 está más fuertemente correlacionado. Cambie la posición del ratón sobre la visualización del gráfico y desplácese para alejar para ver el nodo de nivel 2, L2_8, y sus factores asociados que son vecinos al factor 26. Tenga en cuenta que solo se muestran los genes con un peso superior al umbral indicado en el control deslizante Peso de enlace mínimo. Para ver todos los genes asociados con el factor, haga clic en el nodo L1_26 y seleccione Cargar genes adicionales en la ventana emergente. Cuando aparezca la palabra “Hecho”, cierre la ventana emergente. Ahora vuelva a la sección de encabezado sobre la ventana del gráfico de factores y agarre y arrastre el modificador de peso de vínculo mínimo. Ahora, a medida que el control deslizante de peso del enlace se mueve hacia abajo a 0,05, otros genes en el factor L1_26, incluyendo BRCA2, aparecerán en orden de peso. Opcionalmente, cambie la posición de los nodos agarrando y arrastrando para mejorar el diseño. Determinar cómo la estratificación de los pacientes con respecto al factor afecta la supervivencia consultando en la ventana de supervivencia. En la ventana de supervivencia, desactive Ordenar por p-valy, a continuación, seleccione el factor 26 en el menú desplegable Factor único para mostrar las curvas de supervivencia para el factor 26. Desplácese hacia abajo en el gráfico de supervivencia para mostrar el número de pacientes en riesgo a lo largo del eje X. Encuentre asociaciones con la función biológica consultando dentro de la ventana Anotación. En la ventana de anotación, para ordenar el menú desplegable Factor por número de factor en lugar de False Discovery Rate (FDR), desactive Clasificación FDR. Desplácese y haga clic para seleccionar el factor 26 en el menú desplegable de la ventana de anotación para mostrar anotaciones de enriquecimiento para el factor. Desplácese hacia abajo en la lista de anotación hasta que la reparación del ADN sea visible y haga clic en ella para ver inmediatamente los genes asociados resaltados en amarillo en la pantalla del gráfico. Consulte el panel central de la Figura 2. Tenga en cuenta que los factores desaparecen o aparecen como diferentes términos GO se seleccionan, de acuerdo con si están enriquecidos o no para los genes con la anotación seleccionada, por ejemplo, “vía de señalización apoptotica intrínseca en respuesta al daño del ADN”. Explore los factores más además agregando ventanas con diferentes funciones. En la barra de menús superior, agregue una ventana de red de interacción proteína-proteína (PPI) seleccionando PPI en el menú desplegable Agregar ventana y, a continuación, haga clic en el botón Agregar para agregar una ventana de gráfico DE PPI al área de visualización. En la ventana gráfica de PPI, elija el factor ‘Layer1: 26’ para mostrar las interacciones proteína-proteína. Observe la densidad de las conexiones. En la barra de menús superior, en lugar de PPI, seleccione Heatmap en el menú desplegable Agregar ventana y, a continuación, haga clic en el botón Agregar para agregar una ventana de mapa de calor al área de visualización. En la ventana del mapa de calor, elija el factor ‘Layer1: 26’ para mostrar los patrones de expresión génica. Agarre y cambie la posición de la ventana del mapa de calor para que la ventana de supervivencia también sea visible. A lo largo de la parte superior del mapa de calor, observe cómo la barra de color naranja/azul/gris corresponde a los estratos de riesgo del paciente en el gráfico de supervivencia. Los resultados se muestran en la parte inferior de la Figura 2. 2. Filtrar e interpretar los factores CorEx utilizando datos de peso genético, supervivencia y anotación Filtrar por factores de interés utilizando la supervivencia y la calidad del clúster. En el menú desplegable Conjunto de datos en la parte superior, seleccione TCGA_OVCA para ir a la página CorExplorer para el ARN-seq de cáncer de ovario TCGA. Una vez cargada la página, tenga en cuenta desde la ventana de supervivencia que el factor con el mayor diferencial de supervivencia para diferentes estratos es 114. En la parte superior de la ventana del gráfico de factores, seleccione ‘Capa1: 114’ en el menú desplegable Factor. Coge el control deslizante de peso del enlace con el ratón y muévelo hasta 0.5. Tenga en cuenta que el gran número de genes en el factor 114 (1609), sin que ninguno tenga peso >0,35, indica una agrupación relativamente débil. A continuación, expanda la lista de factores en la ventana de supervivencia y seleccione el siguiente mejor factor en la lista desplegable de la ventana de supervivencia, factor 39, para mostrar sus curvas de supervivencia asociadas. Seleccione el factor 39 en la ventana de anotación haciendo clic en él. Se muestran las anotaciones GO y KEGG significativas. Para comprender mejor el papel biológico de los genes en el factor 39, interprete los factores utilizando la información de anotación de vecindad de la siguiente manera. En la parte superior de la ventana del gráfico de factores, seleccione el factor ‘Layer1: 39’ en la lista desplegable de factores. A continuación, mueva el ratón sobre la ventana del gráfico de factores y alénelo para mostrar todo el clúster L2_14 con 6 factores: 14, 32, 39, 42, 52 y 82 (que se muestra en la Figura 3). Para comprender la importancia relativa de los factores vinculados al nodo L2_14, comience por ver los diferenciales de supervivencia para cada uno de los factores L2_14. Desmarque Ordenar por p-val en la ventana de supervivencia y luego haga clic en cada uno de los números de factor en sucesión. Al hacer esto, tenga en cuenta que sólo los factores 14, 32 y 39 muestran una asociación de supervivencia. Ahora, en la barra de menús superior, seleccione PPI en el menú desplegable Agregar ventana una vez más. Pulse Añadir para añadir una ventana de gráfico PPI al área de visualización. En la ventana gráfica de PPI, seleccione el factor ‘Layer1: 52’ para mostrar las interacciones proteína-proteína que son significativas. Un diseño de ejemplo de ventanas en este punto se muestra en la Figura 3. Haga clic en el vínculo Ver en StringDB en la parte inferior de la ventana PPI para vinculara a la base de datos en línea de StringDB. Haga clic en Continuar en la primera pantalla y, a continuación, seleccione la pestaña Análisis debajo del gráfico de red como antes para obtener un análisis GO en línea para los genes de red PPI. El componente celular principal es el “complejo proteico MHC clase II”. Vuelva a la pestaña CorExplorer y a la ventana PPI y seleccione el factor 32, esta vez en la lista desplegable de factores. Haga clic en el vínculo Ver en StringDB hasta el análisis de StringDB. El componente celular superior es ‘MHC clase I complejo,’ en contraste con la clase II para el factor 52 en el paso anterior! Por último, vuelva a la ventana de PPI y seleccione ‘Capa1: 39’ en el menú desplegable del factor en la parte superior. Haga clic en el vínculo Ver en StringDB para vincularlo al análisis de StringDB. Haga clic en Continuar en la primera pantalla y, a continuación, seleccione la pestaña Análisis debajo del gráfico de red para obtener un análisis GO en línea para los genes de red PPI. Observe que la función molecular superior es ‘la unión del receptor de quimiocina CXCR3.’ 3. Uso de anotaciones de supervivencia y bases de datos para buscar combinaciones terapéuticas prometedoras Cambie al CorExplorer de melanoma TCGA seleccionando TCGA_SKCM en el menú desplegable Conjunto de datos. Tenga en cuenta que el factor con el mayor diferencial de supervivencia es el factor 171. Examine el factor 171 anotaciones desplazándose y observe que la “respuesta inmune” y la “vía de señalización mediada por citoquinas” están cerca de la parte superior (como lo fueron para el factor ovárico superior). Para encontrar un factor complementario, examine los principales factores asociados a la supervivencia junto con sus términos de anotación superiores. Para ello, haga clic en el vínculo Visión general del conjunto de datos en la barra de menú superior para abrir una pestaña independiente que contiene una tabla con detalles de procesamiento del conjunto de datos, así como un resumen de los factores principales según el valor p del diferencial de supervivencia. Tenga en cuenta que el primer factor no inmune es 88. Vuelva a la pestaña del explorador TCGA_SKCM. Seleccione el factor 88 en las ventanas de supervivencia, anotación y gráfico. Los principales términos GO están relacionados con el “procesamiento de ARNm” y la “organización de mitocondrion”, confirmándolo como distinto de los factores relacionados con el sistema inmunitario. En la ventana de supervivencia, en la lista desplegable de factores emparejados, seleccione ’88_171′ para ver cómo se mejora la supervivencia para los pacientes en el estrato medio para los factores de expresión combinados de 171 y 88. Las comparaciones de anotación y supervivencia se ilustran en la Figura 4. 4. Encontrar puntos en común y diferencias de variación de la expresión génica entre los tipos de tumores utilizando la página de búsqueda Haga clic en el encabezado CorExplorer para volver a la página principal. Haga clic en Buscar en la barra de menúsuperior superior para ir a una página que permite buscar en todos los conjuntos de datos en el sitio CorExplorer. En el cuadro de búsqueda Gene, escriba ‘FLT1’ (VEGFR1) y pulse Retorno o pulse Buscar. FLT1 se encuentra con un peso relativamente alto en los siguientes factores: OVCA – 76, LUAD – 162, SKCM – 195 y SKCM – 184, así como COAD – 112 y COAD – 74. Como alternativa, busque un término GO relacionado en todos los conjuntos de datos. Pruebe esto en el cuadro ‘GO Search’ escribiendo ‘angiogénesis’ y pulsando Retorno o pulsando Buscar. Todos los factores FLT1, con la excepción de SKCM-195, se enumeran como enriquecidos estadísticamente para los genes de la «angiogénesis»: el factor 195 tiene, de hecho, la anotación, pero por debajo del umbral predeterminado 10-8. Los resultados de la búsqueda para esto y el paso anterior se muestran en la figura 5. Como otros ejemplos, en el cuadro de búsqueda GO, primero escriba ‘receptor del factor de crecimiento epidérmico’. Sólo LUAD se enriquece para este término, un factor de estratificación bien conocido para el cáncer de pulmón. A continuación, escriba ‘mesenchymal’ en el cuadro de búsqueda. Este término se enriquece en grupos de expresión génica para OVCA, donde es un factor de estratificación bien estudiado.

Representative Results

La búsqueda del gen ‘BRCA1’ en el conjunto de datos de cáncer de pulmón revela que está fuertemente asociado con el factor 26 de CorEx(Figura 2). GO término enriquecimiento para este factor se ve que es extremadamente alto, con la reparación de ADN exhibiendo un FDR de sólo 1 x 10-19. La selección también llama la atención sobre el clúster de segundo nivel L2_8 que tiene seis factores estrechamente relacionados como niños. La selección de la “reparación del ADN” en las anotaciones del término GO o en la lista desplegable GO enriquecida del gráfico de factores resalta los genes asociados en cada uno de los factores, y el factor 26 tiene más, como se esperaba11. La red de interacción proteína-proteína está fuertemente conectada, apoyando aún más la funcionalidad estrechamente vinculada de los genes en el factor 26. El gráfico de supervivencia asociado sugiere una posible asociación con la supervivencia del paciente, pero esto tendría que ser confirmado en un conjunto de datos más grande. Comenzar con la supervivencia puede permitir la disección de razones para mejorar la supervivencia asociada con grupos de expresión génica particulares. Por ejemplo, el principal factor que influye en la supervivencia del cáncer de ovario se considera el número 39, que está fuertemente enriquecido para los genes asociados con el sistema inmunitario(Figura 3). Otros cinco factores asociados con el mismo nodo de nivel 2 también están indicados para ser inmunes, sin embargo, el impacto de supervivencia parece ser fuertemente variable entre ellos, siendo 39 el más alto y 52 el más bajo. La adición de una ventana de interacción proteína-proteína para un factor muestra la red de interacción inmediata y permite enlazar con el sitio web stringDB12 para consultar varios enriquecimientos para los genes de la red PPI. Al hacer esto para cada uno de los factores L2_14 a su vez, uno encuentra que los enriquecimientos de StringDB para los genes de la red PPI sugieren la siguiente explicación posible para las asociaciones con la supervivencia. El factor 32 contiene genes que conforman el principal complejo proteico de clase I del complejo de histocompatibilidad (MHC), reconocido por los linfocitos T citotóxicos. El factor 39 corresponde a la señalización de citoquinas y la unión del receptor CXCR3, relacionada con los linfocitos T CD8+. Ambos factores parecen conferir una ventaja significativa de supervivencia para los pacientes que presentan una expresión relativamente alta de los genes correspondientes. Los linfocitos T CD8+ citotóxicos son los principales responsables de la inmunidad antitumoral. El factor 52, por otro lado, se compone de genes que codifican proteínas en el complejo MHC clase II que son reconocidos principalmente por las células auxiliares CD4+ T en lugar de directamente por linfocitos T citotóxicos. Los factores L2_14 restantes reflejan la activación generalizada del sistema inmunitario que no diferencia los dos tipos de poblaciones de linfocitos. Una asociación de supervivencia específica para el reconocimiento citotóxico de linfocitos T de antígenos celulares MCH clase I es coherente con nuestra comprensión de la inmunidad antitumoral en general y de otros tipos de cáncer como el melanoma13,14. El portal web apoya el descubrimiento de pares de factores con funciones complementarias que pueden sugerir terapias combinadas efectivas de tumores específicos. La descripción general del conjunto de datos se puede analizar en busca de factores que muestren una correlación con la supervivencia pero que tengan distintos enriquecimientos de GO. Para el melanoma (TCGA_SKCM; Figura 4),se ve que el factor de supervivencia 171 principal está relacionado con el inmune, mientras que el factor 88 en la lista muestra el enriquecimiento de genes relacionados con la organización de la mitocondción. De hecho, esto ha sido sugerido como un objetivo en el melanoma15. La adición de ventanas de supervivencia a la página CorExplorer permite comparar la estratificación utilizando el par de factores con el de cada factor individualmente, mostrando que los patrones de expresión génica favorable de ambos grupos muestran una tendencia de supervivencia mejor que la de cualquiera de los dos solo factor. El estrato superior no parece mejorars sin embargo, lo que sugiere inmunoterapia sólo puede ser la mejor opción para algunos pacientes. Los puntos en común y las diferencias entre los tumores se pueden ver buscando genes en conjuntos de datos o términos GO (Figura 5). Por ejemplo, FLT1 (también conocido como VEGFR1) es un marcador pro-angiogénico bien estudiado16,17. Cuando se coloca en la barra de búsqueda, todos los tumores tienen factores en los que FLT1 juega un papel importante. Por el contrario, cuando se introduce el término GO «angiogénesis» en la página de búsqueda, 5 de cada 6 grupos FLT1 aparecen con ese enriquecimiento. Todos los factores FLT1, con la excepción de SKCM-195, están catalogados como enriquecidos estadísticamente para genes de “angiogénesis”. El sexto factor, de hecho, tiene la anotación, pero por debajo del umbral predeterminado 10-8. Cuando la ponderación dentro de la lista de factores se utiliza en una calculadora de enriquecimiento alternativo, por ejemplo, Gene Set Enrichment Analysis (GSEA)18, el sexto factor se encuentra significativamente enriquecido para los genes de ‘angiogénesis’, así. Es importante comprobar los mapas de calor para asegurarse de que el patrón de expresión génica es de calidad adecuada para apoyar las interpretaciones biológicas. Los mapas de calor que muestran una fuerte variación clara pueden presentar una expresión coordinada de los genes factores que van desde patrones bajos a altos o más complejos con algunos genes con baja expresión correlacionados con otros que tienen alta(Figura 6). Un marcador clave de una agrupación de alta calidad es la presencia de varios genes con una variación suave en la expresión en función de la puntuación de factor. Los mapas de calor de factor muestran muestras ordenadas según la puntuación del factor, por lo que debe haber un degradado suave moviéndose de izquierda a derecha. Sin embargo, esto puede no suceder de al menos dos maneras diferentes. Más comúnmente, las correlaciones pueden ser extremadamente ruidosas(Figura 5C),lo que pone en tela de juicio la robustez y utilidad de cualquier inferencia con respecto a la supervivencia y/ o función biológica. Además, los patrones que ocurren sólo en una pequeña minoría de muestras pueden no ajustarse al modelo de tres estados de expresión asumidos por el algoritmo CorEx, lo que resulta en una clasificación engañosa de las muestras (lado derecho de la Figura 5D). Figura 1: Página principal de CorExplorer. Después de hacer clic en + junto a Cáncer de ovario en Enlaces rápidos, se muestran los detalles del gráfico de factores. El modelo jerárquico CorEx se compone de variables de entrada (expresión genética en este caso) en la capa inferior y factores latentes inferidos en las capas superiores. Haga clic aquí para ver una versión más grande de esta figura. Figura 2: Uso de un nombre genético para guiar la exploración. La figura muestra una serie de capturas de pantalla que ilustran la exploración de los factores del cáncer de pulmón CorEx fuertemente relacionados con BRCA1. En primer lugar, al seleccionar ‘BRCA1’ en el cuadro desplegable Gene para el gráfico de factores, la vista de gráfico hace que la vista del gráfico se acerque al factor para el que BRCA1 tiene el mayor peso. Al alejar un bit, el nodo L2_8 de la capa dos conecta ese factor a otros relacionados. La supervivencia y las anotaciones se pueden comparar: al hacer clic en el término GO, la reparación del ADN resalta los genes anotados. Se agrega una ventana de PPI para mostrar las interacciones de red de los genes en el factor. El uso del botón Añadir ventana para agregar un mapa de calor muestra la asociación de patrones de expresión con la supervivencia, lo que sugiere que una mayor expresión de genes de reparación del ADN puede estar asociada con una disminución de la supervivencia. Haga clic aquí para ver una versión más grande de esta figura. Figura 3: Uso de datos clínicos (supervivencia) para guiar la exploración. Explorar el principal factor asociado a la supervivencia (39) para el cáncer de ovario revela relaciones interesantes entre los factores vecinos. Después de seleccionar el factor 39 en el gráfico de factores y alejar un poco, se considera que la capa dos factor vinculado al factor 39 tiene otros cinco factores asociados. Una ventana de supervivencia adicional permite la comparación directa de los diferenciales de supervivencia asociados. Los factores 39 y 32 muestran una correlación positiva de supervivencia, en contraste con el factor 52, que no lo hace. Las redes de interacción proteína-proteína están bien definidas. La vinculación a StringDB permite la comparación de las anotaciones GO (no se muestra): Factor 39 está asociado con una red de señalización de citoquinas relacionada con la activación del linfocitos T CD8+ citotóxico y el factor 32 está dominado por el antígeno MHC clase I que presenta proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan desencadenar el reconocimiento por tales linfocitos; los factores vecinos, sin embargo, están dominados por otros componentes del sistema inmunitario como los linfocitos T auxiliares CD4+ y no muestran correlación de supervivencia. Haga clic aquí para ver una versión más grande de esta figura. Figura 4: Explorar los principales factores de supervivencia sugiere posibles combinaciones terapéuticas. El enlace “Conjuntos de datos” en la barra de menús de la página principal conduce a una tabla concisa de factores de supervivencia ordenados por valor p, junto con la anotación GO superior (no se muestra). Usando esta información para el melanoma, la combinación del factor 171 para la función inmune con el factor 88 para la organización de los mitocondriones parece complementaria. La figura muestra ventanas de anotación para cada uno de los factores uno al lado del otro para contrastarlos. Las curvas de supervivencia para pacientes estratificadas por los dos factores individualmente o juntos indican que la combinación aumenta el diferencial de supervivencia en comparación con cualquiera de los factores solos. Haga clic aquí para ver una versión más grande de esta figura. Figura 5: La página de búsqueda facilita el análisis del pancáncer. Los genes o los términos del proceso biológico GO se pueden buscar en todos los conjuntos de datos mediante el enlace Buscar de la página principal. La figura muestra los resultados de búsqueda del gen FLT1 y el término GO «angiogénesis». Los resultados muestran la presencia de FLT1 en factores anotados con el término “angiogénesis” entre los cánceres. Haga clic aquí para ver una versión más grande de esta figura. Figura 6: Los mapas de calor se pueden utilizar para evaluar cualitativamente las correlaciones entre genes y muestras según la puntuación del factor. Las relaciones de expresión génica de alta calidad se muestran mediante una gradación suave cuando los pacientes se ordenan por puntuación de factor en los mapas de calor. El mapa de calor más a la izquierda para el factor 18 es un ejemplo. Los patrones también pueden abarcar firmas complejas de expresión arriba y abajo como en el mapa de calor grande medio para el factor 11. Los patrones de menor calidad a veces muestran cambios abruptos en la expresión para un subgrupo de pacientes como en el mapa de calor del factor 9 a la derecha o correlaciones muy ruidosos simples como en el mapa de calor del factor 161 en la parte inferior derecha. Haga clic aquí para ver una versión más grande de esta figura.

Discussion

Hemos presentado el sitio CorExplorer, un servidor web de acceso público para la exploración interactiva de factores de expresión génica correlacionados al máximo aprendidos del ARN-seq tumoral por el algoritmo CorEx. Hemos demostrado cómo el sitio web puede ser utilizado para estratificar a los pacientes de acuerdo con la expresión del gen tumoral, y cómo dicha estratificación corresponde a la función biológica y la supervivencia.

Se han creado otros servidores web para el análisis de ARN-seq. El análisis diferencial y de coexpresión de tumores puede ser examinado e integrado con otros tipos de datos en cbioPortal19,20. Los servidores GenePattern21, Mev22y Morpheus23,incorporan técnicas de agrupación en clústeres establecidas, como el análisis de componentes principales (PCA), kmeans o mapas autoorganizativos (SOM). Los esfuerzos más innovadores incluyen CamurWeb24,basado en un clasificador automatizado generador de reglas, y TACCO25, que implementa clasificadores y lazos forestales aleatorios. El algoritmo CorEx utilizado aquí optimiza la información multivariada para encontrar una jerarquía de factores que expliquen los patrones en los datos. El aprendizaje de factores no lineales y jerárquicos parece producir una mejor interpretabilidad en relación con los factores globales lineales encontrados a través de PCA4. Además, el análisis fino de las señales de muestra de la técnica permite comparaciones precisas de tumores con respecto a los subtipos anchos más utilizados. Esta combinación de análisis de factores jerárquicos y superpuestos distingue el CorExplorer de la mayoría de los otros enfoques y requiere nuevas herramientas para la visualización y el resumen.

Una parte crítica del análisis del factor CorExplorer es la capacidad de explorar no solo varios, sino más de 100 factores con patrones genéticos informativos que se colocan dentro de una jerarquía superpuesta. El CorExplorer facilita la minería de estos innumerables factores para las asociaciones biológicas y clínicas y permite una caracterización excepcionalmente detallada de tumores individuales. El aprendizaje no supervisado de un número tan grande de factores significa que no todos serán relevantes para la biología de la enfermedad. En tal caso, es esencial utilizar anotaciones o genes conocidos para extraer factores de interés o buscar factores asociados con datos clínicos como la supervivencia. Por lo tanto, el CorExplorer permite a los usuarios implementar este paso de filtrado muy importante. La presencia de patrones genéticos de factor en un tumor puede incluso sugerir un enfoque para el tratamiento oncológico personalizado. Además, la multiplicidad de puntuaciones de factores para cada tumor que permite el descubrimiento de combinaciones terapéuticas potencialmente útiles.

A veces es el caso de que no aparecen anotaciones GO significativas para factores altamente correlacionados con la supervivencia. Si bien esto puede ocurrir debido a datos ruidosos o bajo muestras, hay otras causas posibles, como un tamaño de racimo que es demasiado pequeño para registrar puntuaciones de enriquecimiento significativas o el grupo es una “cesta” de genes únicos de diversas vías sin vías biológicas coherentes Asociación. Además, una categoría de anotación diferente del proceso biológico KEGG y GO, por ejemplo, el compartimento celular, puede ser apropiada. Se puede tener acceso a ellos mediante la vinculación a StringDB como se muestra en el protocolo. El análisis de enriquecimiento de Gene Ontology en el sitio CorExplorer actualmente no tiene en cuenta la ponderación del gen en un factor, aunque esto probablemente se remediará en un futuro próximo. Tenga en cuenta que una opción de lista de genes está disponible en “Agregar ventana” que permite descargar la lista completa de genes de factores para su posterior análisis con herramientas externas.

Para los fines del sitio web, CorEx se ejecutó en cada uno de los conjuntos de datos cinco veces y se retuvo la ejecución que dio lugar a la mayor correlación total general. Tener una representación estadística de los resultados de múltiples corridas puede ser más informativo y es un objetivo para el trabajo futuro. Además, el conjunto de tipos de tumores disponibles en el servidor es bastante pequeño, pero esperamos que esto se expanda con el tiempo de acuerdo con el interés del usuario.

Como se describió anteriormente, el CorExplorer visualiza las relaciones entre el factor ARN-seq de CorEx junto con la información clínica y de la base de datos, lo que permite una variedad de diferentes modos de interrogación. Esperamos que esta herramienta conduzca a un mayor trabajo para utilizar el poder del análisis de ARN-seq para el descubrimiento y la aplicación clínica en oncología.

Disclosures

The authors have nothing to disclose.

Acknowledgements

GV fue apoyado por el premio DARPA W911NF-16-0575.

Materials

Public server for CorExplorer website USC http://corex.isi.edu Intel Xeon E5-2690 4-core 2.6 GHz, 8GB RAM. Backend architecture is LAMP: Linux, Apache, MySQL, PHP.
Web browser Google/Apple Chrome/Safari Verified web browsers.

References

  1. Petryszak, R., et al. The RNASeq-er API-a gateway to systematically updated analysis of public RNA-seq data. Bioinformatics. 33, 2218-2220 (2017).
  2. Steeg, G. V., Galstyan, A. Maximally Informative Hierarchical Representations of High-Dimensional Data. Proceedings of the Eighteenth International Conference on Artificial Intelligence and Statistics (AISTATS). , (2015).
  3. Ver Steeg, G., Galstyan, A. Discovering structure in high-dimensional data through correlation explanation. Advances in Neural Information Processing Systems. , (2014).
  4. Pepke, S., Ver Steeg, G. Comprehensive discovery of subsample gene expression components by information explanation: therapeutic implications in cancer. BMC medical Genomics. 10, 12 (2017).
  5. Byron, S. A., Van Keuren-Jensen, K. R., Engelthaler, D. M., Carpten, J. D., Craig, D. W. Translating RNA sequencing into clinical diagnostics: opportunities and challenges. Nature Reviews Genetics. 17, 257 (2016).
  6. Cancer Genome Atlas Research Network. Comprehensive molecular profiling of lung adenocarcinoma. Nature. 511, 543 (2014).
  7. Cancer Genome Atlas Network. Comprehensive molecular characterization of human colon and rectal cancer. Nature. 487, 330 (2012).
  8. Akbani, R., et al. Genomic classification of cutaneous melanoma. Cell. 161, 1681-1696 (2015).
  9. Cancer Genome Atlas Research Network. Integrated genomic analyses of ovarian carcinoma. Nature. 474, 609 (2011).
  10. Grossman, R. L., et al. Toward a shared vision for cancer genomic data. New England Journal of Medicine. 375, 1109-1112 (2016).
  11. Moynahan, M. E., Chiu, J. W., Koller, B. H., Jasin, M. Brca1 controls homology-directed DNA repair. Molecular Cell. 4, 511-518 (1999).
  12. Szklarczyk, D., et al. STRING v11: protein–protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, 607-613 (2018).
  13. Durgeau, A., Virk, Y., Corgnac, S., Mami-Chouaib, F. Recent advances in targeting CD8 T-cell immunity for more effective cancer immunotherapy. Frontiers in Immunology. 9, 14 (2018).
  14. Sato, E., et al. Intraepithelial CD8+ tumor-infiltrating lymphocytes and a high CD8+/regulatory T cell ratio are associated with favorable prognosis in ovarian cancer. Proceedings of the National Academy of Sciences of the United States of America. 102, 18538-18543 (2005).
  15. De Moura, M. B., et al. Mitochondrial respiration-an important therapeutic target in melanoma. PLoS One. 7, 40690 (2012).
  16. Folkman, J., Merler, E., Abernathy, C., Williams, G. Isolation of a tumor factor responsible for angiogenesis. Journal of Experimental Medicine. 133, 275-288 (1971).
  17. Takahashi, S. Vascular endothelial growth factor (VEGF), VEGF receptors and their inhibitors for antiangiogenic tumor therapy. Biological and Pharmaceutical Bulletin. 34, 1785-1788 (2011).
  18. Subramanian, A., et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proceedings of the National Academy of Sciences of the United States of America. 102, 15545-15550 (2005).
  19. Cerami, E., et al. The cBio Cancer Genomics Portal: An Open Platform for Exploring Multidimensional Cancer Genomics Data. Cancer Discovery. 2, 401-404 (2012).
  20. Gao, J., et al. Integrative Analysis of Complex Cancer Genomics and Clinical Profiles Using the cBioPortal. Science Signalling. 6, 1 (2013).
  21. Reich, M., et al. GenePattern 2.0. Nature Genetics. 38, 500 (2006).
  22. Wang, Y. E., Kutnetsov, L., Partensky, A., Farid, J., Quackenbush, J. WebMeV: A Cloud Platform for Analyzing and Visualizing Cancer Genomic Data. Cancer Research. 77, 11-14 (2017).
  23. . Morpheus Available from: https://software.broadinstitute.org/morpheus (2019)
  24. Weitschek, E., Lauro, S. D., Cappelli, E., Bertolazzi, P., Felici, G. CamurWeb: a classification software and a large knowledge base for gene expression data of cancer. BMC Bioinformatics. 19, 354 (2018).
  25. Chou, P. -. H., et al. tACCo, a Database Connecting transcriptome Alterations, pathway Alterations and Clinical outcomes in Cancers. Scientific Reports. 9, 3877 (2019).

Play Video

Cite This Article
Pepke, S., Nelson, W. M., Ver Steeg, G. Analyzing Tumor Gene Expression Factors with the CorExplorer Web Portal. J. Vis. Exp. (152), e60431, doi:10.3791/60431 (2019).

View Video