Waiting
Elaborazione accesso...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Immunology and Infection

Analisi del trascrittoma ad alto rendimento per indagare le interazioni ospite-patogeno

Published: March 5, 2022 doi: 10.3791/62324

Summary

Il protocollo qui presentato descrive una pipeline completa per analizzare i dati del trascrittoma di sequenziamento dell'RNA dalle letture grezze all'analisi funzionale, compresi i passaggi di controllo della qualità e pre-elaborazione per approcci analitici statistici avanzati.

Abstract

Gli agenti patogeni possono causare un'ampia varietà di malattie infettive. I processi biologici indotti dall'ospite in risposta all'infezione determinano la gravità della malattia. Per studiare tali processi, i ricercatori possono utilizzare tecniche di sequenziamento ad alto rendimento (RNA-seq) che misurano i cambiamenti dinamici del trascrittoma dell'ospite in diverse fasi dell'infezione, esiti clinici o gravità della malattia. Questa indagine può portare a una migliore comprensione delle malattie, oltre a scoprire potenziali bersagli e trattamenti farmacologici. Il protocollo qui presentato descrive una pipeline completa per analizzare i dati di sequenziamento dell'RNA dalle letture grezze all'analisi funzionale. La pipeline è suddivisa in cinque fasi: (1) controllo di qualità dei dati; (2) mappatura e annotazione dei geni; (3) analisi statistica per identificare geni differenzialmente espressi e geni co-espressi; (4) determinazione del grado molecolare della perturbazione dei campioni; e (5) analisi funzionale. Il passaggio 1 rimuove gli elementi tecnici che potrebbero influire sulla qualità delle analisi a valle. Nel passaggio 2, i geni vengono mappati e annotati secondo i protocolli standard della libreria. L'analisi statistica nella fase 3 identifica i geni che sono differenzialmente espressi o co-espressi in campioni infetti, rispetto a quelli non infetti. La variabilità del campione e la presenza di potenziali valori anomali biologici sono verificate utilizzando l'approccio del grado molecolare di perturbazione nella fase 4. Infine, l'analisi funzionale nella fase 5 rivela i percorsi associati al fenotipo della malattia. La pipeline presentata mira a supportare i ricercatori attraverso l'analisi dei dati RNA-seq da studi di interazione ospite-patogeno e guidare futuri esperimenti in vitro o in vivo , che sono essenziali per comprendere il meccanismo molecolare delle infezioni.

Introduction

Gli arbovirus, come la dengue, la febbre gialla, la chikungunya e la zika, sono stati ampiamente associati a diversi focolai endemici e sono emersi come uno dei principali agenti patogeni responsabili dell'infezione umana negli ultimi decenni1,2. Gli individui infettati dal virus chikungunya (CHIKV) hanno spesso febbre, mal di testa, eruzione cutanea, poliartralgia e artrite3,4,5. I virus possono sovvertire l'espressione genica della cellula e influenzare varie vie di segnalazione dell'ospite. Recentemente, gli studi sul trascrittoma del sangue hanno utilizzato RNA-seq per identificare i geni differenzialmente espressi (DEG) associati all'infezione acuta da CHIKV rispetto alla convalescenza6 o ai controlli sani7. I bambini infetti da CHIKV avevano geni up-regolati che sono coinvolti nell'immunità innata, come quelli relativi ai sensori cellulari per l'RNA virale, la segnalazione JAK / STAT e le vie di segnalazione del recettore toll-like6. Gli adulti acutamente infettati da CHIKV hanno anche mostrato l'induzione di geni correlati all'immunità innata, come quelli correlati ai monociti e all'attivazione delle cellule dendritiche, e alle risposte antivirali7. Le vie di segnalazione arricchite con geni down-regolati includevano quelle relative all'immunità adattativa, come l'attivazione e la differenziazione e l'arricchimento delle cellule T nelle cellule T e B7.

Diversi metodi possono essere utilizzati per analizzare i dati del trascrittoma dei geni dell'ospite e del patogeno. Spesso, la preparazione della libreria RNA-seq inizia con l'arricchimento di trascritti poli-A maturi. Questo passaggio rimuove la maggior parte dell'RNA ribosomiale (rRNA) e in alcuni casi gli RNA virali / batterici. Tuttavia, quando la questione biologica coinvolge il rilevamento del trascritto patogeno e l'RNA viene sequenziato indipendentemente dalla selezione precedente, molti altri trascritti diversi potrebbero essere rilevati mediante sequenziamento. Ad esempio, gli mRNA subgenomici hanno dimostrato di essere un fattore importante per verificare la gravità delle malattie8. Inoltre, per alcuni virus come CHIKV e SARS-CoV-2, anche le librerie arricchite di poly-A generano letture virali che possono essere utilizzate nelle analisi a valle9,10. Quando si concentrano sull'analisi del trascrittoma dell'ospite, i ricercatori possono studiare la perturbazione biologica tra i campioni, identificare geni differenzialmente espressi e percorsi arricchiti e generare moduli di co-espressione7,11,12. Questo protocollo evidenzia le analisi del trascrittoma di pazienti con infezione da CHIKV e individui sani utilizzando diversi approcci bioinformatici (Figura 1A). I dati di uno studio precedentemente pubblicato7 composto da 20 individui sani e 39 CHIKV acutamente infetti sono stati utilizzati per generare i risultati rappresentativi.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

I campioni utilizzati in questo protocollo sono stati approvati dai comitati etici sia del Dipartimento di Microbiologia dell'Istituto di Scienze Biomediche dell'Università di San Paolo che dell'Università Federale di Sergipe (Protocolli: 54937216.5.0000.5467 e 54835916.2.0000.5546, rispettivamente).

1. Installazione desktop Docker

NOTA: i passaggi per preparare l'ambiente Docker sono diversi tra i sistemi operativi (OS). Pertanto, gli utenti Mac devono seguire i passaggi elencati come 1.1, gli utenti Linux devono seguire i passaggi elencati come 1.2 e gli utenti Windows devono seguire i passaggi elencati come 1.3.

  1. Installa su MacOS.
    1. Accedere al sito Web Get Docker (Table of Materials), fare clic su Docker Desktop per Mac e quindi fare clic sul collegamento Scarica da Docker Hub .
    2. Scaricare il file di installazione facendo clic sul pulsante Ottieni Docker .
    3. Eseguire il file Docker.dmg per aprire il programma di installazione, quindi trascinare l'icona nella cartella Applicazioni . Localizzare ed eseguire il Docker.app nella cartella Applicazioni per avviare il programma.
      NOTA: il menu specifico del software nella barra di stato superiore indica che il software è in esecuzione e che è accessibile da un terminale.
  2. Installare il programma contenitore sul sistema operativo Linux.
    1. Accedere al sito Web Get Docker Linux (Table of Materials) e seguire le istruzioni per l'installazione utilizzando la sezione repository disponibile sul collegamento Docker Linux Repository .
    2. Aggiorna tutti i pacchetti Linux usando la riga di comando:
      sudo apt-get aggiornamento
    3. Installare i pacchetti richiesti in Docker:
      sudo apt-get install apt-transport-https ca-certificates curl gnupg lsb-release
    4. Creare un file portachiavi di archivio software:
      curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /usr/share/portachiavi/docker-archive-keyring.gpg
    5. Aggiungi informazioni deb Docker nel file source.list:
      echo "deb [arch=amd64 signed-by=/usr/share/keyrings/docker-archive-keyring.gpg] https://download.docker.com/linux/ubuntu $(lsb_release -cs) stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
    6. Aggiorna di nuovo tutti i pacchetti, inclusi quelli aggiunti di recente:
      sudo apt-get aggiornamento
    7. Installare la versione desktop:
      sudo apt-get install docker-ce docker-ce-cli containerd.io
    8. Selezionare l'area geografica e il fuso orario per completare il processo di installazione.
  3. Installare il programma contenitore sul sistema operativo Windows.
    1. Accedi al sito Web Get Docker (Table of Materials) e fai clic su Inizia. Trova il programma di installazione per Docker Desktop per Windows. Scaricare i file e installarli localmente sul computer.
    2. Dopo il download, avviare il file di installazione (.exe) e mantenere i parametri predefiniti. Assicurarsi che le due opzioni Installa componenti di Windows necessari per WSL 2 e Aggiungi collegamento al desktop siano contrassegnate .
      NOTA: in alcuni casi, quando questo software tenta di avviare il servizio, viene visualizzato un errore: l'installazione di WSL è incompleta. Per capire questo errore, accedere al sito Web WSL2-Kernel (Table of Materials).
    3. Scaricare e installare l'ultimo kernel WSL2 Linux.
    4. Accedere al terminale PowerShell come amministratore ed eseguire il comando:
      dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestart
    5. Assicurarsi che il software Docker Desktop sia installato correttamente.
  4. Scaricare l'immagine dal repository CSBL sull'hub Docker (Table of Materials).
    1. Apri Docker Desktop e verifica che lo stato sia "in esecuzione" in basso a sinistra della barra degli strumenti.
    2. Passare alla riga di comando del terminale di Windows PowerShell. Scaricare l'immagine Linux Container per questo protocollo dal repository CSBL nell'hub Docker. Eseguire il seguente comando per scaricare l'immagine:
      docker pull csblusp/transcriptome
      NOTA: dopo aver scaricato l'immagine, il file può essere visualizzato nel desktop Docker. Per creare il contenitore, gli utenti Windows devono seguire il passaggio 1.5, mentre gli utenti Linux devono seguire il passaggio 1.6.
  5. Inizializzare il contenitore del server sul sistema operativo Windows.
    1. Visualizza il file immagine Docker in Gestione app desktop dalla barra degli strumenti e accedi alla pagina Immagini.
      NOTA: se l'immagine della pipeline è stata scaricata correttamente, sarà disponibile un'immagine csblusp/transcriptome.
    2. Avviare il contenitore dall'immagine csblusp/transcriptome facendo clic sul pulsante Esegui . Espandere Impostazioni facoltative per configurare il contenitore.
    3. Definire il nome del contenitore (ad esempio, server).
    4. Associare una cartella nel computer locale alla cartella all'interno della finestra mobile. A tale scopo, determinare il percorso host. Impostare una cartella nel computer locale per memorizzare i dati elaborati che verranno scaricati alla fine. Impostare il percorso del contenitore. Definire e collegare la cartella del contenitore csblusp/transcriptome al percorso del computer locale (utilizzare il nome "/opt/transferdata" per il percorso del contenitore).
    5. Successivamente, fare clic su Esegui per creare il contenitore csblusp / transcriptome.
    6. Per accedere al terminale Linux dal contenitore csblusp/transcriptome, fare clic sul pulsante CLI.
    7. Digita il terminale bash per avere un'esperienza migliore. Per questo, esegui il comando:
      Bash
    8. Dopo aver eseguito il comando bash, assicurarsi che il terminale mostri (root@:/#):
      root@ac12c583b731:/ #
  6. Inizializzare il contenitore server per il sistema operativo Linux.
    1. Eseguire questo comando per creare il contenitore Docker in base all'immagine:
      docker run -d -it --rm --name server -v :/opt/transferdata csblusp/transcriptome
      NOTA: : definire un percorso del computer delle cartelle locali.
    2. Eseguire questo comando per accedere al terminale di comando del contenitore Docker:
      docker exec -it server bash
    3. Garantire la disponibilità di un terminale Linux per eseguire qualsiasi programma / script utilizzando la riga di comando.
    4. Dopo aver eseguito il comando bash, assicurarsi che il terminale mostri (root@:/#):
      root@ac12c583b731:/ #
      NOTA: la password di root è "transcriptome" per impostazione predefinita. Se lo si desidera, la password di root può essere modificata eseguendo il comando:
      passwd
    5. Innanzitutto, esegui il comando di origine per addpath.sh per assicurarti che tutti gli strumenti siano disponibili. Eseguire il comando:
      source /opt/addpath.sh
  7. Controllare la struttura della cartella di sequenziamento dell'RNA.
    1. Accedi alla cartella degli script della pipeline del trascrittoma e assicurati che tutti i dati del sequenziamento dell'RNA siano memorizzati all'interno della cartella: /home/transcriptome-pipeline/data.
    2. Assicurarsi che tutti i risultati ottenuti dall'analisi siano memorizzati all'interno della cartella del percorso /home/transcriptome-pipeline/results.
    3. Assicurarsi che i file di riferimento del genoma e dell'annotazione siano memorizzati all'interno della cartella del percorso /home/transcriptome-pipeline/datasets. Questi file aiuteranno a supportare tutte le analisi.
    4. Assicurarsi che tutti gli script siano memorizzati nella cartella del percorso /home/transcriptome-pipeline/scripts e separati da ogni passaggio come descritto di seguito.
  8. Scarica l'annotazione e il genoma umano.
    1. Accedere alla cartella degli script:
      cd /home/transcriptome-pipeline/scripts
    2. Eseguire questo comando per scaricare il genoma umano di riferimento:
      bash downloadGenome.sh
    3. Per scaricare l'annotazione, eseguire il comando:
      bash downloadAnnotation.sh
  9. Modificare l'annotazione o la versione del genoma di riferimento.
    1. Apri downloadAnnotation.sh e downloadGenome.sh per modificare l'URL di ogni file.
    2. Copia i file downloadAnnotation.sh e downloadGenome.sh nell'area di trasferimento e modificali nel sistema operativo locale.
      cd /home/transcriptome-pipeline/scripts
      cp downloadAnnotation.sh downloadGenome.sh /opt/transferdata
    3. Aprire la cartella Percorso host , selezionata per il collegamento tra host e contenitore Docker nel passaggio 1.5.4.
    4. Modifica i file utilizzando il software di editor preferito e salva. Infine, inserisci i file modificati nella cartella dello script. Eseguire il comando:
      cd /opt/transferdata
      cp downloadAnnotation.sh downloadGenome.sh /home/transcriptome-pipeline/scripts

      NOTA: Questi file possono essere modificati direttamente utilizzando vim o nano Linux editor.
  10. Quindi, configura lo strumento fastq-dump con la riga di comando:
    vdb-config --interattivo
    NOTA: consente di scaricare i file di sequenziazione dai dati di esempio.
    1. Spostarsi nella pagina Strumenti utilizzando il tasto TAB e selezionare l'opzione cartella corrente. Passare all'opzione Salva e fare clic su OK. Quindi, esci dallo strumento fastq-dump.
  11. Avviare il download delle letture dall'articolo pubblicato in precedenza7. È richiesto il numero di adesione SRA di ciascun campione. Ottenere i numeri SRA dal sito Web SRA NCBI (Table of Materials).
    NOTA: per analizzare i dati RNA-Seq disponibili nei database pubblici, seguire il passaggio 1.12. Per analizzare i dati privati di RNA-seq, seguire il passaggio 1.13.
  12. Analizza dati pubblici specifici.
    1. Accedi al sito web del National Center for Biotechnology Information (NCBI) e cerca parole chiave per un argomento specifico.
    2. Clicca sul link Risultato per BioProject nella sezione Genomi .
    3. Scegli e fai clic su uno studio specifico. Fare clic su Esperimenti SRA. Si apre una nuova pagina, che mostra tutti i campioni disponibili per questo studio.
    4. Fare clic sul numero di adesione "Invia a:" sopra. Nell'opzione "Scegli destinazione" selezionare l'opzione File e formato , selezionare RunInfo. Fare clic su "Crea file" per esportare tutte le informazioni della libreria.
    5. Salvare il file SraRunInfo.csv nel percorso Host definito nel passaggio 1.5.4 ed eseguire lo script di download:
      cp /opt/transferdata/SraRunInfo.csv /home/transcriptome-pipeline/data
      cd /home/transcriptome-pipeline/scripts
      bash downloadAllLibraries.sh
  13. Analizza dati di sequenziamento privati e non pubblicati.
    1. Organizzare i dati di sequenziazione in una cartella denominata Reads.
      NOTA: all'interno della cartella Letture , creare una cartella per ogni esempio. Queste cartelle devono avere lo stesso nome per ogni esempio. Aggiungere i dati di ogni campione all'interno della relativa directory. Nel caso in cui si tratti di un RNA-Seq accoppiato, ogni directory di esempio deve contenere due file FASTQ, che devono presentare nomi che terminano secondo i modelli {sample}_1.fastq.gz e {sample}_2.fastq.gz, sequenze avanti e indietro, rispettivamente. Ad esempio, un esempio denominato "Healthy_control" deve avere una directory con lo stesso nome e file FASTQ denominati Healthy_control_1.fastq.gz e Healthy_control_2.fastq.gz. Tuttavia, se la sequenziazione della libreria è una strategia single-end, è necessario salvare un solo file di lettura per l'analisi a valle. Ad esempio, lo stesso esempio, "Controllo integro", deve avere un file FASTQ univoco denominato Healthy_control.fastq.gz.
    2. Creare un file fenotipico contenente tutti i nomi di esempio: denominare la prima colonna come 'Campione' e la seconda colonna come 'Classe'. Riempire la colonna Campione con i nomi dei campioni, che devono avere lo stesso nome per le directory dei campioni e riempire la colonna Classe con il gruppo fenotipico di ciascun campione (ad esempio, controllo o infetto). Infine, salva un file con il nome "metadata.tsv" e invialo alla directory /home/transcriptome-pipeline/data/. Controllare il metadata.tsv esistente per comprendere il formato del file fenotipico.
      cp /opt/transferdata/metadata.tsv
      /home/transcriptome-pipeline/data/metadata.tsv
    3. Accedere alla directory Percorso host definita nel passaggio 1.5.4 e copiare i nuovi esempi di directory strutturate. Infine, spostate gli esempi da /opt/transferdata alla directory dei dati della pipeline.
      cp -rf /opt/transferdata/reads/*
      /home/transcriptome-pipeline/data/reads/
  14. Osservare che tutte le letture sono memorizzate nella cartella /home/transcriptome-pipeline/data/reads.

2. Controllo di qualità dei dati

NOTA: valutare, graficamente, la probabilità di errori nelle letture di sequenziamento. Rimuovere tutte le sequenze tecniche, ad esempio gli adattatori.

  1. Accedi alla qualità di sequenziamento delle librerie con lo strumento FastQC.
    1. Per generare i grafici di qualità, eseguire il programma fastqc. Eseguire il comando:
      bash FastQC.sh
      NOTA: i risultati verranno salvati nella cartella /home/transcriptome-pipeline/results/FastQC. Poiché gli adattatori di sequenza vengono utilizzati per la preparazione e il sequenziamento della libreria, in alcuni casi i frammenti della sequenza degli adattatori possono interferire con il processo di mappatura.
  2. Rimuovere la sequenza dell'adattatore e le letture di bassa qualità. Accedere alla cartella Scripts ed eseguire il comando per lo strumento Trimmomatic:
    cd /home/transcriptome-pipeline/scripts
    bash trimmomatic.sh

    NOTA: I parametri utilizzati per il filtro di sequenziamento sono: Rimuovi le basi iniziali di bassa qualità o 3 (al di sotto della qualità 3) (LEADING:3); Rimuovere le basi di bassa qualità o 3 (al di sotto della qualità 3) (TRAILING:3); Scansiona la lettura con una finestra scorrevole larga 4 basi, tagliando quando la qualità media per base scende al di sotto di 20 (SLIDINGWINDOW:4:20); e Drop legge sotto le 36 basi lunghe (MINLEN:36). Questi parametri possono essere modificati modificando il file di script Trimmomatic.
    1. Assicurarsi che i risultati vengano salvati nella seguente cartella: /home/transcriptome-pipeline/results/trimreads. Eseguire il comando:
      ls /home/transcriptome-pipeline/results/trimreads

3. Mappatura e annotazione dei campioni

NOTA: Dopo aver ottenuto le letture di buona qualità, queste devono essere mappate al genoma di riferimento. Per questo passaggio, il mappatore STAR è stato utilizzato per mappare i campioni di esempio. Lo strumento di mappatura STAR richiede 32 GB di memoria RAM per caricare ed eseguire le letture e la mappatura del genoma. Per gli utenti che non dispongono di 32 GB di memoria RAM, è possibile utilizzare letture già mappate. In questi casi saltare al passaggio 3.3 o utilizzare il mappatore Bowtie2. Questa sezione contiene script per STAR (risultati mostrati in tutte le figure) e Bowtie2 (mappatore richiesto a bassa memoria).

  1. Per prima cosa indicizza il genoma di riferimento per il processo di mappatura:
    1. Accedere alla cartella Scripts utilizzando la riga di comando:
      cd /home/transcriptome-pipeline/scripts
    2. Per IL mappatore STAR, eseguire:
      bash indexGenome.sh
    3. Per Bowtie mapper, eseguire:
      bash indexGenomeBowtie2.sh
  2. Eseguire il seguente comando per mappare le letture filtrate (ottenute dal passaggio 2) al genoma di riferimento (versione GRCh38). Entrambi i mappatori STAR e Bowtie2 vengono eseguiti utilizzando parametri predefiniti.
    1. Per IL mappatore STAR, eseguire:
      bash mapSTAR.sh
    2. Per il mappatore Bowtie2, eseguire:
      bash mapBowtie2.sh
      NOTA: i risultati finali sono file BAM (Binary Alignment Map) per ogni campione archiviato in /home/transcriptome-pipeline/results/mapreads.
  3. Annotare le letture mappate utilizzando lo strumento FeatureCounts per ottenere conteggi grezzi per ciascun gene. Eseguire gli script che annotano le letture.
    NOTA: lo strumento FeatureCounts è responsabile dell'assegnazione di letture di sequenziamento mappate alle feature genomiche. Gli aspetti più importanti dell'annotazione del genoma che possono essere modificati in seguito alla questione biologica includono, rilevamento di isoforme, letture multiple mappate e giunzioni esone-esone, corrispondenti ai parametri, GTF.attrType="gene_name" per gene o non specificare i parametri per il livello di meta-feature, allowMultiOverlap=TRUE e juncCounts=TRUE, rispettivamente.
    1. Accedere alla cartella degli script utilizzando la riga di comando:
      cd /home/transcriptome-pipeline/scripts
    2. Per annotare le letture mappate per ottenere conteggi grezzi per gene, eseguire la riga di comando:
      Annotazione Rscript. R
      NOTA: I parametri utilizzati per il processo di annotazione erano: return gene short name (GTF.attrType="gene_name"); consentire sovrapposizioni multiple (allowMultiOverlap = TRUE); e indicare che la libreria è paired-end (isPairedEnd=TRUE). Per la strategia single-end, utilizzare il parametro isPairedEnd=FALSE. I risultati verranno salvati nella cartella /home/transcriptome-pipeline/countreads.
  4. Normalizzare l'espressione genica.
    NOTA: La normalizzazione dell'espressione genica è essenziale per confrontare i risultati tra i risultati (ad esempio, campioni sani e infetti). La normalizzazione è necessaria anche per eseguire la co-espressione e il grado molecolare delle analisi di perturbazione.
    1. Accedere alla cartella Scripts utilizzando la riga di comando:
      cd /home/transcriptome-pipeline/scripts
    2. Normalizzare l'espressione genica. Per questo, esegui la riga di comando:
      Rscript normalizza i campioni. R
      NOTA: l'espressione dei conteggi non elaborati, in questo esperimento, è stata normalizzata utilizzando i metodi TMM (Trimmed Mean of M-values) e Count Per Million (CPM). Questo passaggio mira a rimuovere le differenze nell'espressione genica dovute all'influenza tecnica, eseguendo la normalizzazione delle dimensioni della libreria. I risultati verranno salvati nella cartella /home/transcriptome-pipeline/countreads.

4. Geni differenzialmente espressi e geni co-espressi

  1. Identificare i geni differenzialmente espressi utilizzando il pacchetto EdgeR open source. Ciò comporta la ricerca di geni la cui espressione è superiore o inferiore rispetto al controllo.
    1. Accedere alla cartella Scripts utilizzando la riga di comando:
      cd /home/transcriptome-pipeline/scripts
    2. Per identificare il gene differenzialmente espresso, eseguire lo script DEG_edgeR R utilizzando la riga di comando:
      Rscript DEG_edgeR.R
      NOTA: I risultati contenenti i geni differenzialmente espressi verranno salvati nella cartella /home/transcriptome-pipeline/results/degs. I dati possono essere trasferiti su un personal computer.
  2. Scaricare i dati dal contenitore csblusp/transcriptome.
    1. Trasferire i dati elaborati dalla pipeline /home/transcriptome alla cartella /opt/transferdata (computer locale).
    2. Copiare tutti i file nel computer locale eseguendo la riga di comando:
      cp -rf /home/transcriptome-pipeline/risultati /opt/transferdata/pipeline
      cp -rf /home/transcriptome-pipeline/data /opt/transferdata/pipeline

      NOTA: ora passare al computer locale per assicurarsi che tutti i risultati, i set di dati e i dati siano disponibili per il download nel percorso host.
  3. Identificare i moduli di co-espressione.
    1. Accedere al sito Web Co-Expression Modules Identification Tool (CEMiTool) (Tabella di
      Materiali
      ). Questo strumento identifica i moduli di coespressione dai set di dati di espressione forniti dagli utenti. Nella pagina principale, fai clic su Esegui in alto a destra. Si aprirà una nuova pagina per caricare il file di espressione.
    2. Fai clic su Scegli file sotto la sezione File di espressione e carica la matrice di espressione genica normalizzata "tmm_expression.tsv" dal percorso host.
      NOTA: Passaggio 4.4. non è obbligatorio.
  4. Esplora il significato biologico dei moduli di co-espressione.
    1. Fare clic su Scegli file nella sezione Fenotipi di esempio e caricare il file con fenotipi di esempio metadata_cemitool.tsv dal passaggio Scarica dati 4.2.2. eseguire un'analisi di arricchimento del set genico (GSEA).
    2. Premere Scegli file nella sezione Interazioni geniche per caricare un file con interazioni geniche (cemitool-interactions.tsv). È possibile utilizzare il file delle interazioni geniche fornito come esempio da webCEMiTool. Le interazioni possono essere interazioni proteina-proteina, fattori di trascrizione e i loro geni trascritti o vie metaboliche. Questo passaggio produce una rete di interazione per ogni modulo di co-espressione.
    3. Fare clic su Scegli file nella sezione Set genetici per caricare un elenco di geni funzionalmente correlati in un file in formato GMT (Gene Matrix Transposed). Il file Gene Set consente allo strumento di eseguire l'analisi di arricchimento per ciascun modulo di co-espressione, ovvero un'analisi di sovrarappresentazione (ORA).
      NOTA: questo elenco di geni può comprendere percorsi, termini GO o geni bersaglio di miRNA. Il ricercatore può utilizzare i moduli di trascrizione del sangue (BTM) come set genetici per questa analisi. Il file BTM (BTM_for_GSEA.gmt).
  5. Impostare i parametri per l'esecuzione di analisi di co-espressione e ottenere i relativi risultati.
    1. Quindi espandere la sezione Parametro , facendo clic sul segno più per visualizzare i parametri predefiniti. Se necessario, modificarli. Seleziona la casella Applica VST .
    2. Scrivi l'e-mail nella sezione Email per ricevere i risultati come email. Questo passaggio è facoltativo.
    3. Premere il pulsante Esegui CEMiTool .
    4. Scarica il report di analisi completo facendo clic su Scarica report completo in alto a destra. Scaricherà un file compresso cemitool_results.zip.
    5. Estrarre il contenuto del cemitool_results.zip con WinRAR.
      NOTA: la cartella con il contenuto estratto comprende diversi file con tutti i risultati dell'analisi e i relativi parametri stabiliti.

5. Determinazione del grado molecolare di perturbazione dei campioni

  1. Molecular Degree of Perturbation (MDP) versione web.
    1. Per eseguire MDP, accedere al sito Web MDP (Table of Materials). MDP calcola la distanza molecolare di ciascun campione dal riferimento. Fare clic sul pulsante Esegui .
    2. Nel collegamento Scegli file caricare il file di espressione tmm_expression.tsv. Quindi, caricare il file di dati fenotipico metadata.tsv dal passaggio Scarica dati 4.2.2. È anche possibile inviare un file di annotazione del percorso in formato GMT per calcolare il punteggio di perturbazione dei percorsi associati alla malattia.
    3. Una volta caricati i dati, definire la colonna Classe che contiene le informazioni fenotipiche utilizzate dall'MDP. Definire quindi la classe di controllo selezionando l'etichetta corrispondente alla classe di controllo.
      NOTA: esistono alcuni parametri facoltativi che influiscono sul modo in cui vengono calcolati i punteggi del campione. Se necessario, l'utente è in grado di modificare il metodo medio delle statistiche, la deviazione standard e la percentuale massima dei geni perturbati.
    4. Successivamente, premi il pulsante Esegui MDP e verranno visualizzati i risultati MDP. L'utente può scaricare le figure facendo clic sul diagramma di download in ogni grafico, nonché sul punteggio MDP sul pulsante Scarica file di punteggio MDP .
      NOTA: in caso di domande su come inviare i file o su come funziona MDP, basta consultare le pagine Web Tutorial e Informazioni.

6. Analisi dell'arricchimento funzionale

  1. Creare un elenco di DEG down-regulated e un altro di DEG up-regulated. I nomi dei geni devono essere secondo i simboli del gene Entrez. Ogni gene della lista deve essere posizionato su una riga.
  2. Salva gli elenchi dei geni nel formato txt o tsv.
  3. Accedi al sito Web di Enrichr (Table of Materials) per eseguire l'analisi funzionale.
  4. Seleziona l'elenco dei geni facendo clic su Scegli file. Selezionare uno degli elenchi DEI GRUPPI di investimento e premere il pulsante Invia .
  5. Fare clic su Pathways nella parte superiore della pagina Web per eseguire l'analisi dell'arricchimento funzionale con l'approccio ORA.
  6. Scegliere un database di percorsi. Il database dei percorsi "Reactome 2016" è ampiamente utilizzato per ottenere il significato biologico dei dati umani.
  7. Fare nuovamente clic sul nome del database dei percorsi. Seleziona Grafico a barre e controlla se è ordinato in base alla classificazione del valore p. In caso contrario, fare clic sul grafico a barre fino a quando non viene ordinato per valore p. Questo grafico a barre include i primi 10 percorsi in base ai valori p.
  8. Premere il pulsante Configurazione e selezionare il colore rosso per l'analisi dei geni up-regulated o il colore blu per l'analisi dei geni down-regulated. Salva il grafico a barre in diversi formati facendo clic su svg, png e jpg.
  9. Selezionare Tabella e fare clic su Esporta voci nella tabella in basso a sinistra del grafico a barre per ottenere i risultati dell'analisi di arricchimento funzionale in un file txt.
    NOTA: Questo file di risultati di arricchimento funzionale comprende in ogni riga il nome di un percorso, il numero di geni sovrapposti tra l'elenco DEG presentato e il percorso, il valore p, il valore p aggiustato, l'odds ratio, il punteggio combinato e il simbolo genetico dei geni presenti nell'elenco DEG che partecipano al percorso.
  10. Ripetere gli stessi passaggi con gli altri elenchi DIDG.
    NOTA: L'analisi con DEG down-regulated fornisce percorsi arricchiti per geni down-regolati e l'analisi con geni up-regolati fornisce percorsi arricchiti per geni up-regolati.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

L'ambiente di calcolo per le analisi del trascrittoma è stato creato e configurato sulla piattaforma Docker. Questo approccio consente agli utenti Linux principianti di utilizzare sistemi terminali Linux senza conoscenze di gestione a priori. La piattaforma Docker utilizza le risorse del sistema operativo host per creare un contenitore di servizi che include strumenti specifici per gli utenti (Figura 1B). È stato creato un contenitore basato sulla distribuzione Ubuntu 20.04 del sistema operativo Linux ed è stato completamente configurato per le analisi trascrittomiche, accessibile tramite terminale a riga di comando. In questo contenitore è presente una struttura di cartelle predefinita per set di dati e script necessaria per tutte le analisi della pipeline (Figura 1C). Uno studio pubblicato dal nostro gruppo di ricerca7 è stato utilizzato per le analisi e comprendeva 20 campioni di individui sani e 39 campioni di individui con infezione acuta da CHIKV (Figura 1D).

Il processo di sequenziamento dell'RNA totale può generare errori di lettura, che possono essere causati da un cluster con due o più trascrizioni o dall'esaurimento dei reagenti. Le piattaforme di sequenziamento restituiscono un insieme di file "FASTQ" contenenti la sequenza (lettura) e la qualità associata per ciascuna base nucleotidica (Figura 2A). La scala di qualità Phred indica la probabilità di una lettura errata di ciascuna base (Figura 2B). Le letture di bassa qualità possono generare un bias o un'espressione genica impropria, innescando errori successivi alle analisi a valle. Strumenti come Trimmomatic sono stati sviluppati per identificare e rimuovere letture di bassa qualità dai campioni e per aumentare la probabilità di letture di mappatura (Figura 2C, D).

Il modulo di mappatura è stato preconfigurato con l'allineatore STAR e l'ospite umano GRCh38 come genoma di riferimento. In questa fase, le letture di alta qualità recuperate dal passaggio precedente vengono utilizzate come input per allinearsi rispetto al genoma umano di riferimento (Figura 3A). L'allineatore STAR emette un allineamento di letture mappate su un genoma di riferimento nel file di formato BAM. Sulla base di questo allineamento, lo strumento FeatureCounts esegue l'annotazione delle feature (geni) di quelle letture allineate utilizzando l'annotazione di riferimento dell'ospite umano in formato file GTF (Figura 3B). Infine, viene generata la matrice di espressione con ogni nome di gene come una riga e ogni campione come una colonna (Figura 3C). È inoltre necessario fornire un file di metadati aggiuntivo contenente i nomi dei campioni e i rispettivi gruppi di campioni per un'ulteriore analisi a valle. La matrice di espressione genica rappresenta il numero di conteggi mappati a ciascun gene tra i campioni, che possono essere utilizzati come input EdgeR per identificare i DEG. Inoltre, questa matrice di espressione genica è stata normalizzata utilizzando TMM e CPM al fine di rimuovere la variabilità tecnica e correggere la misurazione RNA-seq considerando la proporzione di geni espressi nella dimensione totale della libreria tra i campioni. Questa matrice è stata ulteriormente utilizzata come input per la co-espressione e le analisi MDP.

CEMiTool identifica e analizza i moduli di co-espressione12. I geni che si trovano nello stesso modulo sono co-espressi, il che significa che mostrano modelli di espressione simili tra i campioni del set di dati. Questo strumento consente anche l'esplorazione del significato biologico di ciascun modulo identificato. Per questo, fornisce tre analisi opzionali: analisi di arricchimento funzionale da parte di GSEA, analisi di arricchimento funzionale di Over Representation Analysis (ORA) e analisi di rete. L'analisi dell'arricchimento funzionale da parte del GSEA fornisce informazioni sull'espressione genica di ciascun modulo in ciascun fenotipo (Figura 4A). In base a ciò, consente l'identificazione dei moduli che vengono repressi o indotti in corrispondenza di ciascun fenotipo. L'analisi ORA mostra le prime 10 funzioni biologiche significativamente arricchite di ciascun modulo ordinate in base ai valori p regolati. È possibile combinare i risultati GSEA e ORA per identificare processi biologici compromessi e se vengono repressi o indotti dal fenotipo di interesse. Le analisi di rete forniscono un interattoma di ciascun modulo (Figura 4A). Consente la visualizzazione di come interagiscono i geni di ciascun modulo. Oltre a questo, l'analisi della rete fornisce informazioni sui geni più connessi, gli hub, che sono identificati dai loro nomi nella rete. La dimensione dei nodi rappresenta il grado di connettività.

Per identificare i DEG, è stato sviluppato uno script interno per eseguire un'analisi differenziale end-to-end in una riga di comando unidirezionale e concisa. Lo script esegue tutti i passaggi necessari per condurre un'analisi DEG, confrontando diversi gruppi di esempio forniti dall'utente in un file di metadati. Inoltre, i risultati DEG sono memorizzati in elenchi separati di geni down-regulated e up-regolati, e quindi compilati in una figura pronta per la pubblicazione (Figura 4B) utilizzando il pacchetto EnhancedVolcano R di Bioconductor.

L'analisi del grado molecolare di perturbazione eseguita dallo strumento MDP consente di identificare campioni perturbati di individui sani e infetti11. Il punteggio di perturbazione viene calcolato considerando tutti i geni espressi per ciascun campione infetto da CHIKV e considerando i campioni sani come gruppo di riferimento (Figura 5A). MDP esegue anche l'analisi utilizzando solo il 25% dei geni più perturbati da quei campioni (Figura 5B). I campioni possono presentare una grande variabilità dato il background genetico, l'età, il sesso o altre malattie precedenti. Questi fattori possono modificare il profilo del trascrittoma. Sulla base di questo, MDP suggerisce quali campioni sono potenziali valori anomali biologici per rimuoverli e migliorare i risultati a valle (Figura 5A, B).

Un'analisi di arricchimento funzionale da parte di ORA può essere eseguita utilizzando Enrichr al fine di identificare il significato biologico dei DEG. I risultati forniti sulla base dell'elenco dei geni down-regolati indicano i processi biologici repressi nel fenotipo studiato, mentre i risultati forniti sulla base dell'elenco dei geni up-regolati presentano i processi biologici che vengono indotti nel fenotipo di interesse. I processi biologici mostrati nel grafico a barre generato da Enrichr sono i primi 10 set di geni arricchiti in base alla classifica del valore p (Figura 6).

Figure 1
Figura 1: Ambiente Docker ed esempio di studio. (A) La piattaforma Docker utilizza le risorse host del sistema operativo per creare "Contenitori" per il sistema Linux contenenti strumenti per l'analisi del trascrittoma. (B) Il contenitore Docker simula un sistema Linux per eseguire script di pipeline. (C) La struttura delle cartelle della pipeline del trascrittoma è stata creata e organizzata per archiviare set di dati e script per l'analisi. (D) Lo studio del nostro gruppo è stato utilizzato come esempio di analisi del trascrittoma. Fare clic qui per visualizzare una versione più grande di questa figura.

Figure 2
Figura 2: Controllo di qualità del sequenziamento. (A) Il file di formato FASTQ viene utilizzato per rappresentare la sequenza e la qualità della base nucleotidica. (B) Equazione del punteggio Phred, in cui ogni 10 aumenta una base di probabilità di log errata lettura. (C) e (D) Il Boxplot rappresenta una distribuzione di qualità di ciascuna base nucleotidica prima e dopo l'esecuzione trimmomatica, rispettivamente. Fare clic qui per visualizzare una versione più grande di questa figura.

Figure 3
Figura 3: Mappatura e processo di annotazione dalla sequenza all'espressione del conteggio genico. (A) La mappatura consiste nell'allineare la sequenza dalla trascrizione e la sequenza dal genoma per identificare la localizzazione genomica. (B) Le letture mappate al genoma di riferimento sono annotate in base alla loro localizzazione genomica di sovrapposizione. (C) Sulla base degli strumenti del file di mappatura come featureCounts, l'espressione genica è riassunta. Fare clic qui per visualizzare una versione più grande di questa figura.

Figure 4
Figura 4: Rete di geni co-espressi e analisi statistica dei DEG. (A) Moduli di co-espressione basati sull'espressione genica e sulla rete di interazioni proteina-proteina dai geni del modulo. (B) Analisi statistica di individui sani e infetti da CHIKV acutamente ed espressione genica differenziale in rosso (criteri p-value e log2FC), viola (solo valore p), verde (solo log2FC) e grigio (nessun significato). Fare clic qui per visualizzare una versione più grande di questa figura.

Figure 5
Figura 5: Grado molecolare di perturbazione (MDP) di individui sani e con infezione acuta da CHIKV. (A) Punteggio MDP per ciascun campione utilizzando tutti i geni espressi dal trascrittoma. (B) Punteggio MDP per ciascun campione utilizzando solo il 25% superiore dei geni più perturbati. Fare clic qui per visualizzare una versione più grande di questa figura.

Figure 6
Figura 6: Analisi funzionale per i DEG. (A) I geni up-regolati e (B) down-regolati sono stati presentati allo strumento del sito web Enrichr per valutare i percorsi biologici o i set di geni rappresentativi. I valori P sono stati calcolati per ciascun percorso e solo le differenze significative sono state mostrate nel grafico. Fare clic qui per visualizzare una versione più grande di questa figura.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

La preparazione delle librerie di sequenziamento è un passo cruciale per rispondere alle domande biologiche nel miglior modo possibile. Il tipo di trascrizioni di interesse dello studio guiderà quale tipo di libreria di sequenziamento sarà scelta e guiderà le analisi bioinformatiche. Ad esempio, dal sequenziamento di un agente patogeno e dell'interazione ospite, in base al tipo di sequenziamento, è possibile identificare sequenze da entrambi o solo dai trascritti dell'ospite.

Le apparecchiature di sequenziamento di nuova generazione, ad esempio la piattaforma Illumina, misurano i punteggi di qualità del sequenziamento, che rappresenta la probabilità che una base venga chiamata in modo errato. Le analisi a valle sono molto sensibili alle sequenze di bassa qualità e portano a un'espressione genica poco letta o fraintesa. Un altro ostacolo nell'esecuzione di analisi e interpretazioni corrette sono le sequenze di adattatori. Le sequenze di adattatori aiutano nella preparazione e nel sequenziamento della libreria e, nella maggior parte dei casi, anche gli adattatori sono sequenziati. Studi recenti hanno rilevato che l'impatto dello strumento di mappatura sui risultati finali è minimo13. Tuttavia, negli studi patogeno-ospite, il processo di mappatura può generare risultati leggermente migliori quando si testano soglie diverse per ridurre al minimo il problema delle sequenze di locus multi mappate.

I risultati dell'espressione genica differenziale devono essere interpretati con una certa cautela, specialmente quando il numero di campioni per gruppo è molto piccolo e i campioni provengono da saggi diversi e interferiscono con gli effetti batch che i DEG risultano. Questi risultati sono sensibili a diversi fattori: (i) il filtraggio dei dati applicato, come la rimozione di geni a bassa espressione e il numero di campioni da mantenere; (ii) disegno dello studio, per confrontare solo tra gruppi campione o ciascun paziente infetto rispetto a tutti i pazienti di controllo, come illustrato nello studio CHIKV7; e iii) metodo statistico utilizzato per identificare i DEG. Qui, illustriamo un esempio di base con EdgeR per identificare i DEG assumendo un valore p di soglia di 0,05. È anche noto in letteratura che, rispetto ad altri metodi di benchmark, EdgeR può avere una vasta gamma di variabilità nell'identificazione dei DEG14. Si potrebbe considerare il compromesso tra tali metodi diversi e tenere conto del numero di repliche disponibili e della complessità del progetto sperimentale14.

CEMiTool esegue analisi del modulo di co-espressione12. Questo strumento è disponibile attraverso il pacchetto R sul repository Bioconductor ed è disponibile anche in una versione user-friendly tramite webCEMiTool; quest'ultima è la versione utilizzata in questo protocollo corrente. Si tratta di un software alternativo in relazione a WGCNA15 che presenta diversi vantaggi rispetto a quest'ultimo16, tra cui il fatto che è più user-friendly17. Inoltre, questo strumento ha un metodo automatico per filtrare i geni, mentre in WGCNA l'utente deve filtrare i geni prima dell'uso di WGCNA. Inoltre, questo strumento ha stabilito i parametri predefiniti, mentre in WGCNA l'utente deve selezionare manualmente le analisi dei parametri. La selezione manuale dei parametri compromette la riproducibilità; pertanto, la selezione automatica dei parametri garantisce una migliore riproducibilità.

In alcuni casi, CEMiTool non è in grado di trovare una soglia soft appropriata, chiamata anche valore β. In questo caso, l'utente dovrebbe verificare se i dati RNA-seq presentano una forte dipendenza dalla varianza media. Se la media presenta una forte relazione lineare con la varianza (considerando tutti i geni), l'utente deve rieseguire le analisi controllando il parametro "Applica VST" per rimuovere la dipendenza dalla varianza media dei dati trascrittomici. È sempre fondamentale verificare se esiste una forte dipendenza dalla varianza media nei dati e rimuoverla quando è presente.

CEMiTool è stato ampiamente utilizzato per identificare ed esplorare il significato biologico dei moduli di co-espressione. Uno studio sull'infezione acuta da CHIKV ha mostrato un modulo con maggiore attività nei pazienti dopo 2-4 giorni dall'insorgenza dei sintomi7. L'arricchimento funzionale di questo modulo da parte di ORA ha mostrato un aumento dei monociti e dei neutrofili7. Uno studio di vaccinazione antinfluenzale che utilizza il trascrittoma del sangue dal basale al giorno 7 post-vaccinazione ha presentato moduli di co-espressione funzionalmente arricchiti per processi biologici correlati a cellule T, B e natural killer, monociti, neutrofili, risposte all'interferone e attivazione piastrinica18.

Considerando la variabilità dei set di dati trascrittomici, identificare e quantificare l'eterogeneità dei dati può essere una sfida poiché molte variabili possono influenzare il profilo di espressione genica7,11. MDP fornisce un modo per identificare e quantificare campioni perturbati da soggetti sani e infetti seguendo questi passaggi: (i) calcolare un metodo di centralità (mediana o media) e deviazione standard dei campioni di controllo; (ii) utilizzare i valori ottenuti per calcolare lo z-score di tutti i geni; iii) fissare una soglia z-score assoluta superiore a 2, indicando deviazioni rappresentative dai campioni di controllo; e (iv) calcolare la media dei valori genici utilizzando i punteggi filtrati per ciascun campione. Pur avendo alcune limitazioni per l'analisi scRNA-seq, questo strumento era funzionale nel determinare il punteggio di perturbazione dai dati di microarray e RNA-seq11. Inoltre, uno studio precedente ha utilizzato questo strumento per dimostrare il grado molecolare di perturbazione elevato sul trascrittoma del sangue nei pazienti affetti da tubercolosi e diabete mellito19. In questo lavoro, è stata dimostrata la perturbazione del controllo e dei campioni di infezione acuta CHIKV utilizzando individui sani come gruppo di riferimento.

L'analisi di arricchimento funzionale eseguita da Enrichr è ORA20,21. ORA è un tipo di analisi di arricchimento funzionale in cui l'utente deve fornire l'elenco dei DEG allo strumento. L'elenco dei DEG è solitamente separato in un elenco DEG down-regulated e in un elenco DEG up-regulated. Ci sono altri strumenti per eseguire ORA, tra cui il gProfiler, che è disponibile in una versione web user-friendly22 e il goseq23 che è disponibile come pacchetto R su Bioconductor. Un altro tipo di analisi di arricchimento funzionale è GSEA. Per eseguire GSEA, l'utente deve fornire tutti i geni in un elenco classificato. Questo elenco è solitamente classificato in base all'espressione genica nel cambiamento di piega.

Enrichr fornisce sempre i primi 10 set di geni arricchiti in base ai loro valori p nel risultato del grafico a barre. Pertanto, l'utente deve essere attento quando interpreta i risultati, se ci sono meno di 10 set di geni arricchiti, il grafico a barre mostrerà anche processi biologici non arricchiti. Per evitare questo errore, l'utente deve stabilire un cutoff per il valore p e osservare i valori p dei percorsi prima di assumere che tutti i set di geni del grafico a barre siano arricchiti. Inoltre, l'utente deve essere consapevole che l'ordine dei 10 set di geni visualizzati nel grafico a barre è in base ai valori p, non ai valori p regolati. Nel caso in cui l'utente desideri mostrare tutti i percorsi arricchiti in un grafico a barre o addirittura riordinare in base ai valori p regolati, si consiglia all'utente di creare il proprio grafico a barre utilizzando la tabella scaricata. L'utente può creare un nuovo grafico a barre utilizzando Excel o anche il software R.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Gli autori non hanno nulla da rivelare.

Acknowledgments

HN è finanziato da FAPESP (numeri di sovvenzione: #2017/50137-3, 2012/19278-6, 2018/14933-2, 2018/21934-5 e 2013/08216-2) e CNPq (313662/2017-7).

Siamo particolarmente grati alle seguenti sovvenzioni per i borsisti: ANAG (FAPESP Process 2019/13880-5), VEM (FAPESP Process 2019/16418-0), IMSC (FAPESP Process 2020/05284-0), APV (FAPESP Process 2019/27146-1) e, RLTO (CNPq Process 134204/2019-0).

Materials

Name Company Catalog Number Comments
CEMiTool Computational Systems Biology Laboratory 1.12.2 Discovery and the analysis of co-expression gene modules in a fully automatic manner, while providing a user-friendly HTML report with high-quality graphs.
EdgeR Bioconductor (Maintainer: Yunshun Chen [yuchen at wehi.edu.au]) 3.30.3 Differential expression analysis of RNA-seq expression profiles with biological replication
EnhancedVolcano Bioconductor (Maintainer: Kevin Blighe [kevin at clinicalbioinformatics.co.uk]) 1.6.0 Publication-ready volcano plots with enhanced colouring and labeling
FastQC Babraham Bioinformatics 0.11.9 Aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing
FeatureCounts Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research 2.0.0 Assign mapped sequencing reads to specified genomic features
MDP Computational Systems Biology Laboratory 1.8.0 Molecular Degree of Perturbation calculates scores for transcriptome data samples based on their perturbation from controls
R R Core Group 4.0.3 Programming language and free software environment for statistical computing and graphics
STAR Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research 2.7.6a Aligner designed to specifically address many of the challenges of RNA-seq data mapping using a strategy to account for spliced alignments
Bowtie2 Johns Hopkins University 2.4.2 Ultrafast and memory-efficient tool for aligning sequencing reads to long reference sequences
Trimmomatic THE USADEL LAB 0.39 Trimming adapter sequence tasks for Illumina paired-end and single-ended data
Get Docker Docker 20.10.2 Create a bioinformatic environment reproducible and predictable (https://docs.docker.com/get-docker/)
WSL2-Kernel Windows NA https://docs.microsoft.com/en-us/windows/wsl/wsl2-kernel
Get Docker Linux Docker NA https://docs.docker.com/engine/install/ubuntu/
Docker Linux Repository Docker NA https://docs.docker.com/engine/install/ubuntu/#install-using-the-repository
MDP Website Computational Systems Biology Laboratory NA https://mdp.sysbio.tools
Enrichr Website MaayanLab NA https://maayanlab.cloud/Enrichr/
webCEMiTool Computational Systems Biology Laboratory NA https://cemitool.sysbio.tools/
gProfiler Bioinformatics, Algorithmics and Data Mining Group NA https://biit.cs.ut.ee/gprofiler/gost
goseq Bioconductor (Maintainer: Matthew Young [my4 at sanger.ac.uk]) NA http://bioconductor.org/packages/release/bioc/html/goseq.html
SRA NCBI study NCBI NA https://www.ncbi.nlm.nih.gov/bioproject/PRJNA507472/

DOWNLOAD MATERIALS LIST

References

  1. Weaver, S. C., Charlier, C., Vasilakis, N., Lecuit, M. Zika, Chikungunya, and Other Emerging Vector-Borne Viral Diseases. Annual Review of Medicine. 69, 395-408 (2018).
  2. Burt, F. J., et al. Chikungunya virus: an update on the biology and pathogenesis of this emerging pathogen. The Lancet. Infectious Diseases. 17 (4), 107-117 (2017).
  3. Hua, C., Combe, B. Chikungunya virus-associated disease. Current Rheumatology Reports. 19 (11), 69 (2017).
  4. Suhrbier, A., Jaffar-Bandjee, M. -C., Gasque, P. Arthritogenic alphaviruses-an overview. Nature Reviews Rheumatology. 8 (7), 420-429 (2012).
  5. Nakaya, H. I., et al. Gene profiling of chikungunya virus arthritis in a mouse model reveals significant overlap with rheumatoid arthritis. Arthritis and Rheumatism. 64 (11), 3553-3563 (2012).
  6. Michlmayr, D., et al. Comprehensive innate immune profiling of chikungunya virus infection in pediatric cases. Molecular Systems Biology. 14 (8), 7862 (2018).
  7. Soares-Schanoski, A., et al. Systems analysis of subjects acutely infected with the Chikungunya virus. PLOS Pathogens. 15 (6), 1007880 (2019).
  8. Alexandersen, S., Chamings, A., Bhatta, T. R. SARS-CoV-2 genomic and subgenomic RNAs in diagnostic samples are not an indicator of active replication. Nature Communications. 11 (1), 6059 (2020).
  9. Wang, D., et al. The SARS-CoV-2 subgenome landscape and its novel regulatory features. Molecular Cell. 81 (10), 2135-2147 (2021).
  10. Wilson, J. A. C., et al. RNA-Seq analysis of chikungunya virus infection and identification of granzyme A as a major promoter of arthritic inflammation. PLOS Pathogens. 13 (2), 1006155 (2017).
  11. Gonçalves, A. N. A., et al. Assessing the impact of sample heterogeneity on transcriptome analysis of human diseases using MDP webtool. Frontiers in Genetics. 10, 971 (2019).
  12. Russo, P. S. T., et al. CEMiTool: a Bioconductor package for performing comprehensive modular co-expression analyses. BMC Bioinformatics. 19 (1), 56 (2018).
  13. Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12 (12), 0190152 (2017).
  14. Seyednasrollah, F., Laiho, A., Elo, L. L. Comparison of software packages for detecting differential expression in RNA-seq studies. Briefings in Bioinformatics. 16 (1), 59-70 (2015).
  15. Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, Article17 (2005).
  16. Cheng, C. W., Beech, D. J., Wheatcroft, S. B. Advantages of CEMiTool for gene co-expression analysis of RNA-seq data. Computers in Biology and Medicine. 125, 103975 (2020).
  17. Cardozo, L. E., et al. webCEMiTool: Co-expression modular analysis made easy. Frontiers in Genetics. 10, 146 (2019).
  18. de Lima, D. S., et al. Long noncoding RNAs are involved in multiple immunological pathways in response to vaccination. Proceedings of the National Academy of Sciences of the United States of America. 116 (34), 17121-17126 (2019).
  19. Prada-Medina, C. A., et al. Systems immunology of diabetes-tuberculosis comorbidity reveals signatures of disease complications. Scientific Reports. 7 (1), 1999 (2017).
  20. Chen, E. Y., et al. Enrichr: interactive and collaborative HTML5 gene list enrichment analysis tool. BMC Bioinformatics. 14, 128 (2013).
  21. Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
  22. Raudvere, U., et al. g:Profiler: a web server for functional enrichment analysis and conversions of gene lists (2019 update). Nucleic Acids Research. 47, 191-198 (2019).
  23. Young, M. D., Wakefield, M. J., Smyth, G. K., Oshlack, A. Gene ontology analysis for RNA-seq: accounting for selection bias. Genome Biology. 11 (2), 14 (2010).

Tags

Immunologia e infezione Numero 181 sequenziamento ad alto rendimento RNA-seq interazione ospite-patogeno geni differenzialmente espressi geni co-espressi analisi funzionale grado molecolare di perturbazione dei campioni
Analisi del trascrittoma ad alto rendimento per indagare le interazioni ospite-patogeno
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Aquime Gonçalves, A. N.,More

Aquime Gonçalves, A. N., Escolano Maso, V., Maia Santos de Castro, Í., Pereira Vasconcelos, A., Tomio Ogava, R. L., I Nakaya, H. High-Throughput Transcriptome Analysis for Investigating Host-Pathogen Interactions. J. Vis. Exp. (181), e62324, doi:10.3791/62324 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter