RESEARCH
Peer reviewed scientific video journal
Video encyclopedia of advanced research methods
Visualizing science through experiment videos
EDUCATION
Video textbooks for undergraduate courses
Visual demonstrations of key scientific experiments
BUSINESS
Video textbooks for business education
OTHERS
Interactive video based quizzes for formative assessments
Products
RESEARCH
JoVE Journal
Peer reviewed scientific video journal
JoVE Encyclopedia of Experiments
Video encyclopedia of advanced research methods
EDUCATION
JoVE Core
Video textbooks for undergraduates
JoVE Science Education
Visual demonstrations of key scientific experiments
JoVE Lab Manual
Videos of experiments for undergraduate lab courses
BUSINESS
JoVE Business
Video textbooks for business education
Solutions
Language
Spanish
Menu
Menu
Menu
Menu
A subscription to JoVE is required to view this content. Sign in or start your free trial.
Research Article
Please note that some of the translations on this page are AI generated. Click here for the English version.
Erratum Notice
Important: There has been an erratum issued for this article. View Erratum Notice
Retraction Notice
The article Assisted Selection of Biomarkers by Linear Discriminant Analysis Effect Size (LEfSe) in Microbiome Data (10.3791/61715) has been retracted by the journal upon the authors' request due to a conflict regarding the data and methodology. View Retraction Notice
El trabajo actual describe un protocolo para ejecutar el algoritmo Pathway2Targets, un script R que predice y prioriza objetivos terapéuticos basados en el perfil de las vías de señalización intracelular generadas al comparar muestras de casos versus muestras de control de un experimento de secuenciación de ARN a granel.
Este protocolo describe una canalización computacional de varios pasos para identificar posibles objetivos terapéuticos a partir de datos de secuenciación de ARN, incluida la instalación de software relevante, la verificación de la configuración y el análisis de expresión diferencial mediante edgeR. Luego mostramos cómo utilizar el algoritmo de análisis de impacto de la vía de señalización (SPIA) para predecir vías estadísticamente significativas. Para garantizar la confianza en los resultados, nos centramos en vías significativas (p < 0,05) para reducir los resultados falsos positivos. A diferencia de los conjuntos de genes tradicionales, estas vías reflejan redes de interacción proteína-proteína, ofreciendo información mecanicista sobre procesos celulares como el ciclo celular, la respuesta inmune y el metabolismo. Estas rutas se analizan utilizando el algoritmo Pathway2Targets, que interactúa con la base de datos OpenTargets.org a través de una interfaz de programación de aplicaciones (API). Este algoritmo incorpora un novedoso enfoque de ponderación que puntúa los objetivos farmacológicos conocidos dentro de las vías identificadas, al tiempo que proporciona progreso en tiempo real. El tiempo de ejecución depende de la complejidad de la ruta y la densidad del objetivo. La salida consta de dos archivos clasificados. El primer archivo contiene una lista de objetivos farmacológicos previstos y sus puntuaciones ponderadas, mientras que el segundo consta de varios detalles para las terapias asociadas. En conjunto, esta línea facilita la priorización de objetivos y tratamientos farmacológicos en el contexto de perfiles de expresión génica específicos de la enfermedad.
La secuenciación masiva de ARN permite comparar los niveles de expresión de miles de genes en una población de células de casos frente a una población de células de control. Los experimentos generalmente están diseñados para incluir al menos muestras triplicadas, idealmente réplicas biológicas, aunque las réplicas técnicas pueden ser suficientes. Este diseño tiene en cuenta la variabilidad biológica y reduce el impacto de las muestras de valores atípicos. El análisis de estos patrones de expresión proporciona una visión detallada del efecto de la enfermedad de interés en los procesos celulares normales y puede permitir potencialmente la predicción de terapias relevantes.
El preprocesamiento de datos de secuenciación de ARN masivos generalmente incluye: control de calidad de lecturas de secuenciación (para repeticiones, adaptadores de secuenciación, GC%, etc.), recorte de lectura y extracción de adaptadores, mapeo / cuantificación de lectura 1,2,3 y análisis de expresión diferencial 4,5,6. Afortunadamente, se han automatizado una variedad de procesos analíticos para reducir el trabajo manual asociado con estos pasos 7,8,9. Una vez completado el preprocesamiento, los análisis posteriores que se realizan comúnmente incluyen análisis de sobrerrepresentación funcional con ontologías genéticas, enriquecimiento de vías de señalización y variación en el empalme. Estos análisis posteriores resumen y facilitan la interpretación de los resultados de expresión diferencial a un nivel de granularidad más alto que las listas de genes por sí solas.
Se han desarrollado varias herramientas con el objetivo de reutilizar las terapias existentes para un tipo o subtipo de enfermedad bien definido. Esto se logra entrenando el algoritmo en tipos de datos ómicos múltiples para la enfermedad prevista. Desafortunadamente, tales esfuerzos para mejorar la especificidad y la sensibilidad en una enfermedad prevista a menudo hacen que el uso de las herramientas en contextos más generales no sea óptimo10,11. Otro conjunto de herramientas es más ampliamente aplicable a los casos en que los perfiles de expresión génica coinciden con las firmas existentes de expresión génica12,13 o con los efectos cuantificados de las terapias actuales14,15. Sin embargo, estas herramientas de aplicación más amplia a menudo logran una especificidad y sensibilidad reducidas en una amplia gama de enfermedades y/o fueron entrenadas con datos obsoletos.
Por el contrario, el algoritmo Pathway2Targets se ha aplicado previamente para predecir posibles objetivos terapéuticos en el linfoma de células B, la periodontitis, el cáncer de mama con estrógenos positivos, el cáncer de mama triple negativo y el virus chikungunya 16,17,18,19,20,21. Los resultados de estos estudios demuestran que esta herramienta es capaz de predecir objetivos robustos y biológicamente relevantes. Impresionantemente, Pathway2Targets predijo 392 posibles objetivos farmacológicos para el cáncer de mama triple negativo, entre los cuales 60 se probaron en ensayos clínicos; así como 828 medicamentos individuales para TBNC, con 37 en pruebas17. En el estudio de linfoma, este algoritmo predijo 915 medicamentos, 461 de los cuales están aprobados por la FDA19.
El objetivo del trabajo actual es describir un protocolo computacional que permitirá a más investigadores, que pueden beneficiarse del acceso a instrucciones más descriptivas sobre la ejecución de programas en la línea de comandos, utilizar de manera efectiva el algoritmo Pathway2Targets recientemente desarrollado (Figura 1). Pathway2Targets predice objetivos para una afección determinada mediante la combinación de datos de expresión diferencial, asociaciones gen-enfermedad, información de ensayos clínicos, datos públicos de objetivos22, información de vías y otras métricas. Es importante destacar que este algoritmo incorpora un esquema de ponderación único y personalizable, que permite a los usuarios determinar las ~20 métricas relacionadas con el objetivo que prefieren enfatizar en su análisis, como el número de asociaciones de enfermedades, el número de vías de señalización, el número de fármacos únicos, el número de terapias en cada fase de los ensayos clínicos, etc.23. Como ejemplo de caso de uso para este protocolo, volveremos a analizar un conjunto de datos de cáncer colorrectal existente24.
Los datos de secuenciación masiva de ARN analizados en este estudio se adquirieron de bases de datos disponibles públicamente (NCBI Gene Expression Omnibus and Sequence Read Archive)25,26. Como tal, los recolectores de datos originales aseguraron la recolección ética y apropiada de estas muestras de sujetos humanos informados y con consentimiento.
1. Descargue e instale el software R
2. Descargue e instale scripts de R para herramientas relevantes
3. Descargue bibliotecas de R para herramientas relevantes
install.packages(c("RCurl", "stringr", "jsonlite", "httr")). BiocManager::install(c("SummarizedExperiment", "EnrichmentBrowser", "biomaRt", "org.Hs.eg.db")).4. Procesamiento de archivos
5. Ejecute el algoritmo de enriquecimiento de la vía SPIA
Rscript --vanilla SPIA_Code.Rmd ~/Downloads/edgeR_dge.rds
Rscript --vanilla SPIA_Code.Rmd edgeR_dge.rds-TreatmentTumor-TreatmentNativeTissue_2025-04-23_
10-56-45.12767_SPIA_Results.csvedgeR_dge.rds-TreatmentTumor-TreatmentNativeTissue_"timestamp"_SPIA_Results.csv.6. Ejecución del algoritmo de priorización de objetivos Pathway2Targets en la salida de SPIA
Rscript --vanilla Pathway2Targets.Rinfile <- "edgeR_dge.rds-TreatmentTumor-TreatmentNativeTissue_2025-04-23_
10-56-45.12767_SPIA_Results.csv""edgeR_dge.rds-TreatmentTumor-TreatmentNativeTissue_2025-04-23_
10-56-45.12767_SPIA_Results.csv-RankedTargets.tsv" en el directorio de descargas. El estilo de nomenclatura de los archivos refleja la entrada, el proceso y la salidaedgeR_dge.rds-TreatmentTumor-TreatmentNativeTissue_2025-04-23
_10-56-45.12767_SPIA_Results.csv7. Abra archivos de resultados para objetivos y terapias priorizados
La configuración descrita en los pasos 1-3 del protocolo es necesaria para permitir la ejecución posterior de SPIA y el algoritmo Pathway2Targets. Al final de cada paso, se generará un mensaje para confirmar la instalación exitosa del software. El paso 4 consiste en descargar un conjunto existente de resultados de expresión diferencial, que podría incluir el archivo de ejemplo proporcionado, un archivo existente diferente o preprocesar un conjunto de datos de secuenciación de ARN personalizado. El requisito principal para el paso 4 es que el flujo de trabajo use edgeR como algoritmo de expresión diferencial, con los resultados almacenados como un objeto SingleCellExperiment dentro de un archivo rds.
En el paso 5 se describe la predicción de vías de señalización intracelular estadísticamente significativas utilizando el algoritmo SPIA (Archivo de codificación suplementario 1 y Archivo de codificación suplementario 2; ~ 130 líneas de código). Una vez en ejecución, este algoritmo muestra su progreso mediante un registro en tiempo real de la ruta que se está calculando (Figura 2). Esto indica que el algoritmo se está ejecutando correctamente. Aunque muchos análisis SPIA terminan en ~ 1 h, el tiempo requerido para su finalización depende del número de DEG, el número de réplicas de arranque y otros factores. La Tabla 1 muestra un subconjunto del contenido del archivo de salida SPIA (Tabla complementaria 1), que enumera las rutas que tenían un valor p asociado < 0,05. También hay una columna que cuantifica el valor p ajustado para cada vía. De forma predeterminada, este código incluye todas las rutas con un valor p no ajustado < 0,05 para expandir los resultados de destino descendentes, aunque esta configuración podría cambiarse si se desea. Cabe señalar que estas vías representan colecciones de interacciones directas proteína-proteína, que difieren de los conjuntos de genes que tradicionalmente solo incluyen productos génicos con funciones anotadas similares. Una forma de facilitar la interpretación de los resultados es revisar el resultado e identificar tendencias o patrones en los datos relacionados con el ciclo celular, la respuesta inmune, el metabolismo y otros procesos intracelulares. Se recomienda tener en cuenta solo las vías con al menos un valor p < 0,05 para minimizar los falsos positivos y mejorar la interpretación precisa. El uso de esta lista de rutas significativas como entrada para el algoritmo Pathway2Targets le permite incorporar información de ruta en el esquema de ponderación personalizable. También proporciona un mecanismo para que ese algoritmo prediga objetivos terapéuticos relevantes que pueden estar al principio de la cascada de señalización y, por lo tanto, pueden facilitar potencialmente la reducción de los signos y síntomas de la enfermedad.
A continuación, el archivo que contiene las rutas significativas (valor p < 0,05) identificadas por SPIA se pasa al algoritmo Pathway2Targets. Este script R (archivo de codificación complementario 3 y archivo de codificación complementario 4; ~ 600 líneas de código) evalúa los miembros de cada ruta significativa con respecto a la base de datos OpenTargets.org a través de una interfaz de programación de aplicaciones (API) para predecir y puntuar objetivos conocidos dentro de las rutas SPIA significativas. El proceso genera texto en tiempo real para proporcionar el estado de la vía que se está examinando (Figura 3), el objetivo potencial del fármaco que se está calificando y si alguna proteína en la vía no son objetivos conocidos. El tiempo que tarda este proceso en terminar de ejecutarse depende del número de vías SPIA significativas, el número de proteínas en cada una de esas vías y el número de proteínas que son dianas. Para el conjunto de datos de cáncer colorrectal humano (CCR) de muestra, este proceso tardó menos de 2 h en completarse.
Este algoritmo genera dos archivos, el primero contiene información sobre los objetivos predichos (Tabla 2; Tabla complementaria 2), mientras que la segunda contiene información sobre las terapias para cada objetivo (Tabla 3; Cuadro complementario 3). El archivo de destinos clasificados contiene una columna para varios atributos de cada destino con una puntuación ponderada como última columna. Del mismo modo, el archivo de tratamientos clasificados incluye métricas para cada posible terapia. El contenido de ambos archivos se ordena en orden descendente en función de la puntuación ponderada calculada para cada fila de cada uno de los archivos.
El examen de los nombres de las vías de señalización sugiere que la señalización de IL-2 e IL-20 puede desempeñar un papel mecanicista en al menos una parte de las subpoblaciones celulares. Las otras vías superficialmente parecen ser menos relevantes para la enfermedad; sin embargo, los miembros de estas vías aún pueden inferir una función mecanicista adicional. Como tal, se sugiere encarecidamente una revisión más profunda de cada vía para identificar los genes expresados diferencialmente en cada una. Aunque los archivos de resultados de objetivos y terapias se clasifican según múltiples criterios, también se recomienda un examen similar de los resultados de Pathway2Targets para garantizar la relevancia biológica. Los resultados de este análisis identificaron EGFR, que es un objetivo aprobado para el cáncer colorrectal. Los 10 principales resultados de esta lista incluyen otros objetivos potenciales que pueden ser relevantes para el cáncer colorrectal pero que no han sido aprobados para el cáncer colorrectal, incluidos TP53 (fase 1 en cáncer colorrectal); AKT1, PIK3, PPARG y CSF2 (fase 2 en cáncer colorrectal); MAPK1 (sin ensayos para el cáncer colorrectal). La lista de objetivos no aprobados que se han evaluado en otras indicaciones relacionadas con el cáncer sugiere fuertemente que el algoritmo Pathway2Targets está funcionando como se esperaba. Específicamente, su capacidad para identificar posibles dianas farmacológicas que podrían usarse para generar hipótesis y priorizar experimentos de laboratorio de validación posteriores, y potencialmente reducir los signos y síntomas para una indicación determinada, puede ser extremadamente valiosa.

Figura 1: Información general sobre la canalización computacional Pathway2Targets. El diagrama de flujo resume los pasos principales desde la instalación del software y el preprocesamiento de RNA-seq hasta el análisis de expresión diferencial, el enriquecimiento de vías y la salida de priorización de objetivos. Haga clic aquí para ver una versión más grande de esta figura.

Figura 2: Panel que muestra el progreso en tiempo real, de cada vía que se está evaluando, en la pantalla que se debe esperar cuando SPIA se ejecuta correctamente. Haga clic aquí para ver una versión más grande de esta figura.

Figura 3: Progreso en tiempo real que muestra el producto génico en cada vía que se evalúa cuando Pathway2Targets se ejecuta correctamente. Haga clic aquí para ver una versión más grande de esta figura.
Tabla 1: Las diez vías de señalización intracelular más significativas (valor p < 0,05) del archivo de entrada de cáncer colorrectal de ejemplo. GEN. SET contiene el identificador y el nombre de cada vía; SIZE representa el número de nodos en cada vía; La ECM es el número de genes expresados diferencialmente en cada vía; T.ACT representa la dirección de la vía afectada; STATUS está activado (valor positivo) o inhibido (valor negativo); PVAL es nivel de significación; SourceDB indica la base de datos de la vía KEGG o Reactome. Haga clic aquí para descargar esta tabla.
Tabla 2: Diez objetivos terapéuticos con la puntuación más alta según los resultados de las vías de señalización. Haga clic aquí para descargar esta tabla.
Tabla 3: Molécula pequeña o terapéutica biológica con la puntuación más alta para cada uno de los 10 objetivos principales. Haga clic aquí para descargar esta tabla.
Cuadro complementario 1: Lista completa de vías de señalización significativas (valor p < 0,05) detectadas por SPIA. Haga clic aquí para descargar esta tabla.
Cuadro complementario 2: Lista completa de objetivos predichos por el algoritmo Pathway2Targets. Haga clic aquí para descargar esta tabla.
Cuadro complementario 3: Lista completa de terapias predichas por el algoritmo Pathway2Targets. Haga clic aquí para descargar esta tabla.
Cuadro complementario 4: Lista de paquetes de R y sus dependencias que deben instalarse mediante el protocolo anterior y antes de ejecutar SPIA y Pathway2Targets. Haga clic aquí para descargar esta tabla.
Archivo de codificación complementario 1: Código R necesario para ejecutar el algoritmo SPIA usando R en la línea de comandos. Haga clic aquí para descargar este archivo.
Archivo de codificación complementario 2: R necesario para ejecutar el algoritmo SPIA mediante RStudio. Haga clic aquí para descargar este archivo.
Archivo de codificación complementario 3: R necesario para ejecutar el algoritmo Pathway2Targets mediante R en la línea de comandos. Haga clic aquí para descargar este archivo.
Archivo de codificación complementario 4: R necesario para ejecutar el algoritmo Pathway2Targets mediante RStudio. Haga clic aquí para descargar este archivo.
BEP tiene acciones en Pythia Biosciences. No se obtuvo financiación externa para el trabajo actual.
El trabajo actual describe un protocolo para ejecutar el algoritmo Pathway2Targets, un script R que predice y prioriza objetivos terapéuticos basados en el perfil de las vías de señalización intracelular generadas al comparar muestras de casos versus muestras de control de un experimento de secuenciación de ARN a granel.
Agradecemos a la Oficina de Computación de Investigación de la Universidad Brigham Young por su experiencia y apoyo al acceder al entorno informático de alto rendimiento del campus.
| Script de R Pathway2Targets | Universidad Brigham Young (Laboratorio Pickett) | Versión 3.1 | https://github.com/bpickett/Pathway2Targets/blob/main/Pathway2Targets.R |
| R Software | Red Integral de Archivos R (CRAN) | Versión: 4.4.3 | https://cran.r-project.org |
| Software de escritorio R Studio | postular | Versión: 2024.12.1+563 | https://posit.co/download/rstudio-desktop/ |
| Script SPIA R | Universidad Brigham Young (Laboratorio Pickett) | Versión: 3.1 | https://github.com/bpickett/Pathway2Targets/blob/main/SPIA_Code.Rmd |