RESEARCH
Peer reviewed scientific video journal
Video encyclopedia of advanced research methods
Visualizing science through experiment videos
EDUCATION
Video textbooks for undergraduate courses
Visual demonstrations of key scientific experiments
BUSINESS
Video textbooks for business education
OTHERS
Interactive video based quizzes for formative assessments
Products
RESEARCH
JoVE Journal
Peer reviewed scientific video journal
JoVE Encyclopedia of Experiments
Video encyclopedia of advanced research methods
EDUCATION
JoVE Core
Video textbooks for undergraduates
JoVE Science Education
Visual demonstrations of key scientific experiments
JoVE Lab Manual
Videos of experiments for undergraduate lab courses
BUSINESS
JoVE Business
Video textbooks for business education
Solutions
Language
Spanish
Menu
Menu
Menu
Menu
A subscription to JoVE is required to view this content. Sign in or start your free trial.
Research Article
André Nicolau Aquime Gonçalves1,2, Vanessa Escolano Maso3, Ícaro Maia Santos de Castro2,3, Amanda Pereira Vasconcelos3, Rodrigo Luiz Tomio Ogava2,3, Helder I Nakaya2,3,4
1Laboratory of Pathology of Infectious Diseases, Department of Pathology, Medical School,University of São Paulo, 2Scientific Platform Pasteur USP, 3Department of Clinical and Toxicological Analyses, School of Pharmaceutical Sciences,University of São Paulo, 4Hospital Israelita Albert Einstein
Please note that some of the translations on this page are AI generated. Click here for the English version.
Erratum Notice
Important: There has been an erratum issued for this article. View Erratum Notice
Retraction Notice
The article Assisted Selection of Biomarkers by Linear Discriminant Analysis Effect Size (LEfSe) in Microbiome Data (10.3791/61715) has been retracted by the journal upon the authors' request due to a conflict regarding the data and methodology. View Retraction Notice
El protocolo presentado aquí describe una tubería completa para analizar los datos del transcriptoma de secuenciación de ARN desde lecturas sin procesar hasta análisis funcionales, incluidos los pasos de control de calidad y preprocesamiento para enfoques analíticos estadísticos avanzados.
Los patógenos pueden causar una amplia variedad de enfermedades infecciosas. Los procesos biológicos inducidos por el huésped en respuesta a la infección determinan la gravedad de la enfermedad. Para estudiar tales procesos, los investigadores pueden utilizar técnicas de secuenciación de alto rendimiento (RNA-seq) que miden los cambios dinámicos del transcriptoma del huésped en diferentes etapas de la infección, los resultados clínicos o la gravedad de la enfermedad. Esta investigación puede conducir a una mejor comprensión de las enfermedades, así como a descubrir posibles objetivos farmacológicos y tratamientos. El protocolo presentado aquí describe una tubería completa para analizar los datos de secuenciación de ARN desde lecturas sin procesar hasta análisis funcionales. La tubería se divide en cinco pasos: (1) control de calidad de los datos; (2) mapeo y anotación de genes; (3) análisis estadístico para identificar genes expresados diferencialmente y genes coexpresados; (4) determinación del grado molecular de la perturbación de las muestras; y (5) análisis funcional. El paso 1 elimina los artefactos técnicos que pueden afectar a la calidad de los análisis posteriores. En el paso 2, los genes se mapean y anotan de acuerdo con los protocolos de biblioteca estándar. El análisis estadístico en el paso 3 identifica genes que se expresan diferencialmente o coexpresan en muestras infectadas, en comparación con las no infectadas. La variabilidad de la muestra y la presencia de posibles valores biológicos atípicos se verifican utilizando el enfoque de grado molecular de perturbación en el paso 4. Finalmente, el análisis funcional en el paso 5 revela las vías asociadas con el fenotipo de la enfermedad. La tubería presentada tiene como objetivo apoyar a los investigadores a través del análisis de datos de ARN-seq de estudios de interacción huésped-patógeno e impulsar futuros experimentos in vitro o in vivo , que son esenciales para comprender el mecanismo molecular de las infecciones.
Los arbovirus, como el dengue, la fiebre amarilla, el chikungunya y el zika, se han asociado ampliamente con varios brotes endémicos y se han convertido en uno de los principales patógenos responsables de infectar a los humanos en las últimas décadas1,2. Las personas infectadas con el virus chikungunya (CHIKV) a menudo tienen fiebre, dolor de cabeza, erupción cutánea, poliartralgia y artritis3,4,5. Los virus pueden subvertir la expresión génica de la célula e influir en varias vías de señalización del huésped. Recientemente, los estudios de transcriptoma sanguíneo utilizaron RNA-seq para identificar los genes expresados diferencialmente (DEG) asociados con la infección aguda por CHIKV en comparación con la convalecencia6 o los controles sanos7. Los niños infectados con CHIKV tenían genes regulados al alza que están involucrados en la inmunidad innata, como los relacionados con los sensores celulares para el ARN viral, la señalización JAK/STAT y las vías de señalización del receptor tipo toll6. Los adultos infectados agudamente con CHIKV también mostraron inducción de genes relacionados con la inmunidad innata, como los relacionados con los monocitos y la activación de las células dendríticas, y con las respuestas antivirales7. Las vías de señalización enriquecidas con genes regulados a la baja incluyeron las relacionadas con la inmunidad adaptativa, como la activación y diferenciación y enriquecimiento de células T en células T y B7.
Se pueden utilizar varios métodos para analizar los datos del transcriptoma de los genes huésped y patógeno. A menudo, la preparación de la biblioteca RNA-seq comienza con el enriquecimiento de transcripciones maduras de poli-A. Este paso elimina la mayor parte del ARN ribosómico (ARNr) y, en algunos de los casos, los ARN virales/bacterianos. Sin embargo, cuando la cuestión biológica involucra la detección de la transcripción del patógeno y el ARN se secuencia independientemente de la selección anterior, se podrían detectar muchas otras transcripciones diferentes mediante secuenciación. Por ejemplo, se ha demostrado que los ARNm subgenómicos son un factor importante para verificar la gravedad de las enfermedades8. Además, para ciertos virus como CHIKV y SARS-CoV-2, incluso las bibliotecas enriquecidas con poli-A generan lecturas virales que se pueden utilizar en análisis posteriores9,10. Cuando se centran en el análisis del transcriptoma del huésped, los investigadores pueden investigar la perturbación biológica a través de las muestras, identificar genes expresados diferencialmente y vías enriquecidas, y generar módulos de coexpresión7,11,12. Este protocolo destaca los análisis de transcriptomas de pacientes infectados por CHIKV e individuos sanos utilizando diferentes enfoques bioinformáticos (Figura 1A). Se utilizaron datos de un estudio publicado previamente7 que consta de 20 individuos sanos y 39 infectados agudamente por CHIKV para generar los resultados representativos.
Las muestras utilizadas en este protocolo fueron aprobadas por los comités de ética tanto del Departamento de Microbiología del Instituto de Ciencias Biomédicas de la Universidad de São Paulo como de la Universidad Federal de Sergipe (Protocolos: 54937216.5.0000.5467 y 54835916.2.0000.5546, respectivamente).
1. Instalación de escritorio de Docker
NOTA: Los pasos para preparar el entorno de Docker son diferentes entre los sistemas operativos (SO). Por lo tanto, los usuarios de Mac deben seguir los pasos enumerados como 1.1, los usuarios de Linux deben seguir los pasos enumerados como 1.2 y los usuarios de Windows deben seguir los pasos enumerados como 1.3.
2. Control de calidad de los datos
NOTA: Evalúe, gráficamente, la probabilidad de errores en las lecturas de secuenciación. Elimine todas las secuencias técnicas, por ejemplo, adaptadores.
3. Cartografía y anotación de muestras
NOTA: Después de obtener las lecturas de buena calidad, estas deben ser mapeadas al genoma de referencia. Para este paso, se utilizó el asignador STAR para asignar los ejemplos de ejemplo. La herramienta STAR mapper requiere 32 GB de memoria RAM para cargar y ejecutar las lecturas y el mapeo del genoma. Para los usuarios que no tienen 32 GB de memoria RAM, se pueden usar lecturas ya asignadas. En tales casos, vaya al paso 3.3 o use el mapeador Bowtie2. Esta sección tiene scripts para STAR (resultados que se muestran en todas las figuras) y Bowtie2 (mapeador de baja memoria requerida).
4. Genes expresados diferencialmente y genes coexpresados
5. Determinación del grado molecular de perturbación de las muestras
6. Análisis de enriquecimiento funcional
El entorno informático para los análisis de transcriptomas se creó y configuró en la plataforma Docker. Este enfoque permite a los usuarios principiantes de Linux utilizar sistemas de terminal Linux sin conocimientos de gestión a priori. La plataforma Docker utiliza los recursos del sistema operativo host para crear un contenedor de servicios que incluye herramientas de usuarios específicos (Figura 1B). Se creó un contenedor basado en la distribución Linux OS Ubuntu 20.04 y se configuró completamente para análisis transcriptómicos, al que se puede acceder a través del terminal de línea de comandos. En este contenedor, hay una estructura de carpetas predefinida para conjuntos de datos y scripts que es necesaria para todos los análisis de canalización (Figura 1C). Para los análisis se utilizó un estudio publicado por nuestro grupo de investigación7 , que comprendió 20 muestras de individuos sanos y 39 muestras de individuos infectados agudamente por CHIKV (Figura 1D).
El proceso de secuenciación total del ARN puede generar errores de lectura, que pueden ser causados por un cúmulo con dos o más transcripciones o el agotamiento de los reactivos. Las plataformas de secuenciación devuelven un conjunto de archivos "FASTQ" que contienen la secuencia (lectura) y la calidad asociada para cada base de nucleótidos (Figura 2A). La escala de calidad phred indica la probabilidad de una lectura incorrecta de cada base (Figura 2B). Las lecturas de baja calidad pueden generar un sesgo o una expresión génica inadecuada, lo que desencadena errores sucesivos en los análisis posteriores. Se desarrollaron herramientas como Trimmomatic para identificar y eliminar lecturas de baja calidad de muestras y para aumentar la probabilidad de lecturas de mapeo (Figura 2C, D).
El módulo de mapeo fue preconfigurado con el alineador STAR y el huésped humano GRCh38 como genoma de referencia. En este paso, las lecturas de alta calidad recuperadas del paso anterior se utilizan como entrada para alinearse con el genoma humano de referencia (Figura 3A). El alineador STAR genera una alineación de lecturas asignadas a un genoma de referencia en el archivo de formato BAM. Sobre la base de esta alineación, la herramienta FeatureCounts realiza la anotación de entidades (genes) de las lecturas alineadas utilizando la anotación de referencia del host humano en formato de archivo GTF (Figura 3B). Finalmente, se genera la matriz de expresión con cada nombre de gen como una fila, y cada muestra como una columna (Figura 3C). También es necesario proporcionar un archivo de metadatos adicional que contenga los nombres de muestra y los respectivos grupos de muestra para un análisis posterior posterior. La matriz de expresión génica representa el número de recuentos asignados a cada gen entre las muestras, que se puede utilizar como entrada EdgeR para identificar DEG. Además, esta matriz de expresión génica se normalizó utilizando TMM y CPM con el fin de eliminar la variabilidad técnica y corregir la medición de ARN-seq considerando la proporción de genes expresados en el tamaño total de la biblioteca entre las muestras. Esta matriz se utilizó además como insumo para los análisis de coexpresión y MDP.
CEMiTool identifica y analiza los módulos de coexpresión12. Los genes que están en el mismo módulo se coexpresan, lo que significa que exhiben patrones similares de expresión en las muestras del conjunto de datos. Esta herramienta también permite la exploración de la importancia biológica de cada módulo identificado. Para ello, proporciona tres análisis opcionales: análisis de enriquecimiento funcional por GSEA, análisis de enriquecimiento funcional por análisis de sobrerrepresentación (ORA) y análisis de red. El análisis de enriquecimiento funcional realizado por GSEA proporciona información sobre la expresión génica de cada módulo en cada fenotipo (Figura 4A). De acuerdo con esto, permite la identificación de los módulos que son reprimidos o inducidos en cada fenotipo. El análisis ORA muestra las 10 principales funciones biológicas significativamente enriquecidas de cada módulo ordenadas por valores p ajustados. Es posible combinar los resultados de GSEA y ORA para identificar procesos biológicos deteriorados y si están siendo reprimidos o inducidos por el fenotipo de interés. Los análisis de red proporcionan un interactoma de cada módulo (Figura 4A). Permite la visualización de cómo interactúan los genes de cada módulo. Además de esto, el análisis de red proporciona información sobre los genes más conectados, los hubs, que se identifican por sus nombres en la red. El tamaño de los nodos representa el grado de conectividad.
Para identificar los DEG, se desarrolló un script interno para ejecutar un análisis diferencial de extremo a extremo en una línea de comandos concisa y unidireccional. El script realiza todos los pasos necesarios para realizar un análisis DEG, comparando diferentes grupos de ejemplo proporcionados por el usuario en un archivo de metadatos. Además, los resultados de DEG se almacenan en listas separadas de genes regulados a la baja y regulados al alza, y luego se compilan en una figura lista para su publicación (Figura 4B) utilizando el paquete EnhancedVolcano R de Bioconductor.
El análisis del grado molecular de perturbación realizado por la herramienta MDP nos permite identificar muestras perturbadas de individuos sanos e infectados11. La puntuación de perturbación se calcula considerando todos los genes expresados para cada muestra infectada con CHIKV y considerando las muestras sanas como el grupo de referencia (Figura 5A). MDP también realiza el análisis utilizando solo el 25% superior de los genes más perturbados de esas muestras (Figura 5B). Las muestras pueden presentar una gran variabilidad dados los antecedentes genéticos, la edad, el sexo u otras enfermedades previas. Estos factores pueden cambiar el perfil del transcriptoma. Sobre la base de esto, MDP sugiere qué muestras son valores atípicos biológicos potenciales para eliminarlas y mejorar los resultados posteriores (Figura 5A, B).
Se puede realizar un análisis de enriquecimiento funcional por ORA utilizando Enrichr para identificar el significado biológico de los DEG. Los resultados proporcionados en base a la lista de genes regulados a la baja indican los procesos biológicos reprimidos en el fenotipo estudiado, mientras que los resultados proporcionados en base a la lista de genes regulados al alza presentan los procesos biológicos que se inducen en el fenotipo de interés. Los procesos biológicos mostrados en el gráfico de barras generado por Enrichr son los 10 mejores conjuntos de genes enriquecidos basados en la clasificación del valor p (Figura 6).

Figura 1: Docker de entorno y estudio de ejemplo. (A) La plataforma Docker utiliza los recursos del host del sistema operativo para crear "contenedores" para el sistema Linux que contienen herramientas para análisis de transcriptomas. (B) El contenedor Docker simula un sistema Linux para ejecutar scripts de canalización. (C) La estructura de carpetas de la canalización del transcriptoma se creó y organizó para almacenar conjuntos de datos y scripts para su análisis. (D) El estudio de nuestro grupo se utilizó como ejemplo de análisis de transcriptomas. Haga clic aquí para ver una versión más grande de esta figura.

Figura 2: Control de calidad de la secuenciación. (A) El archivo de formato FASTQ se utiliza para representar la calidad de la secuencia y la base de nucleótidos. (B) Ecuación de puntuación de Phred, donde cada 10 aumenta una base de probabilidad de lectura errónea de registro. (C) y (D) El Boxplot representa una distribución de calidad de cada base de nucleótidos antes y después de la ejecución trimmomática, respectivamente. Haga clic aquí para ver una versión más grande de esta figura.

Figura 3: Proceso de mapeo y anotación desde la secuencia hasta la expresión del recuento de genes. (A) El mapeo consiste en alinear la secuencia de la transcripción y la secuencia del genoma para identificar la localización genómica. (B) Las lecturas mapeadas al genoma de referencia se anotan en función de su localización genómica de superposición. (C) Sobre la base de las herramientas de archivo de mapeo como featureCounts, se resume la expresión génica. Haga clic aquí para ver una versión más grande de esta figura.

Figura 4: Red de genes coexpresados y análisis estadístico de DEGs. (A) Módulos de coexpresión basados en la expresión génica y la red de interacciones proteína-proteína a partir de genes módulo. (B) Análisis estadístico de individuos sanos e infectados agudamente por CHIKV, y expresión génica diferencial en rojo (criterios p-value y log2FC), púrpura (solo p-value), verde (solo log2FC) y gris (sin significación). Haga clic aquí para ver una versión más grande de esta figura.

Figura 5: Grado molecular de perturbación (MDP) de individuos sanos e infectados agudamente por CHIKV. (A) Puntuación de MDP para cada muestra utilizando todos los genes expresados del transcriptoma. (B) Puntuación MDP para cada muestra utilizando solo el 25% superior de los genes más perturbados. Haga clic aquí para ver una versión más grande de esta figura.

Figura 6: Análisis funcional para DEG. (A) Los genes regulados hacia arriba y (B) regulados hacia abajo se enviaron a la herramienta del sitio web de Enrichr para evaluar las vías biológicas o los conjuntos de genes representativos. Se calcularon los valores de P para cada vía y solo se mostraron diferencias significativas en el gráfico. Haga clic aquí para ver una versión más grande de esta figura.
Los autores no tienen nada que revelar.
El protocolo presentado aquí describe una tubería completa para analizar los datos del transcriptoma de secuenciación de ARN desde lecturas sin procesar hasta análisis funcionales, incluidos los pasos de control de calidad y preprocesamiento para enfoques analíticos estadísticos avanzados.
HN es financiado por la FAPESP (números de subvención: #2017/50137-3, 2012/19278-6, 2018/14933-2, 2018/21934-5 y 2013/08216-2) y CNPq (313662/2017-7).
Estamos particularmente agradecidos a las siguientes becas para becarios: ANAG (Proceso FAPESP 2019/13880-5), VEM (Proceso FAPESP 2019/16418-0), IMSC (Proceso FAPESP 2020/05284-0), APV (Proceso FAPESP 2019/27146-1) y, RLTO (Proceso CNPq 134204/2019-0).
| Laboratorio de Biología de Sistemas Computacional | CEMiTool | 1.12.2 | Descubrimiento y análisis de módulos de genes de coexpresión de forma totalmente automática, al tiempo que proporciona un informe HTML fácil de usar con gráficos de alta calidad. |
| EdgeR Bioconductor (Mantenedor: Yunshun Chen [yuchen en wehi.edu.au]) | 3.30.3 | Análisis de expresión diferencial de perfiles de expresión de RNA-seq con replicación biológica | |
| EnhancedVolcano | Bioconductor (Mantenedor: Kevin Blighe [kevin en clinicalbioinformatics.co.uk]) | 1.6.0 | Gráficos de volcanes listos para publicación con coloración y etiquetado mejorados |
| FastQC | Babraham Bioinformatics | 0.11.9 | Tiene como objetivo proporcionar una forma sencilla de realizar algunas comprobaciones de control de calidad en los datos de secuencia sin procesar procedentes de la secuenciación de alto rendimiento |
| FeatureCounts | , Instituto de Investigación Médica Walter y Eliza Hall | 2.0.0 | Asignar lecturas de secuenciación mapeadas a características genómicas especificadas |
| MDP | Laboratorio de Biología de Sistemas Computacionales | 1.8.0 | El grado molecular de perturbación calcula las puntuaciones de las muestras de datos del transcriptoma en función de su perturbación de los controles |
| R | R Core Group | 4.0.3 | Lenguaje de programación y entorno de software libre para computación estadística y gráficos |
| División | de Bioinformática STAR, Instituto de Investigación Médica Walter y Eliza Hall | 2.7.6a | Alineador diseñado para abordar específicamente muchos de los desafíos del mapeo de datos de RNA-seq utilizando una estrategia para tener en cuenta las alineaciones empalmadas |
| Bowtie2 | Universidad Johns Hopkins | 2.4.2 | Herramienta ultrarrápida y eficiente en memoria para alinear lecturas de secuenciación con secuencias de referencia largas |
| Trimmomatic | THE USADEL LAB | 0.39 | Tareas de secuencia de adaptador de recorte para datos de extremo emparejado y de extremo único de Illumina |
| Obtener Docker | Docker | 20.10.2 | Creación de un entorno bioinformático reproducible y predecible (https://docs.docker.com/get-docker/) |
| WSL2-Kernel | Windows | NA | https://docs.microsoft.com/en-us/windows/wsl/wsl2-kernel |
| Get Docker Linux | Docker | NA | https://docs.docker.com/engine/install/ubuntu/ |
| Docker Linux Repository | Docker | NA | https://docs.docker.com/engine/install/ubuntu/#install-using-the-repository |
| MDP Sitio web | Laboratorio de Biología de Sistemas Computacional | NA | https://mdp.sysbio.tools |
| Enrichr Sitio web | de MaayanLab | NA | https://maayanlab.cloud/Enrichr/ |
| webCEMiTool | Laboratorio de Biología de Sistemas Computacionales | NA | https://cemitool.sysbio.tools/ |
| gProfiler | Grupo de Bioinformática, Algorítmica y Minería de Datos | NA | |
| https://biit.cs.ut.ee/gprofiler/gost goseq | Bioconductor (Mantenedor: Matthew Young [my4 en sanger.ac.uk]) | NA | http://bioconductor.org/packages/release/bioc/html/goseq.html |
| SRA Estudio | NCBI NCBI | NA https://www.ncbi.nlm.nih.gov/bioproject/PRJNA507472/ |