Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Immunology and Infection

Transkriptomanalys med hög genomströmning för att undersöka värdpatogeninteraktioner

Published: March 5, 2022 doi: 10.3791/62324

Summary

Protokollet som presenteras här beskriver en komplett pipeline för att analysera RNA-sekvensering transkriptomdata från råa läsningar till funktionell analys, inklusive kvalitetskontroll och förbearbetning steg till avancerade statistiska analytiska metoder.

Abstract

Patogener kan orsaka en mängd olika infektionssjukdomar. De biologiska processer som induceras av värden som svar på infektion bestämmer sjukdomens svårighetsgrad. För att studera sådana processer kan forskare använda RNA-seq (high-throughput sekvensering techniques) som mäter de dynamiska förändringarna av värdens transkriptom vid olika stadier av infektion, kliniska resultat eller sjukdomens svårighetsgrad. Denna undersökning kan leda till en bättre förståelse för sjukdomarna, samt avslöja potentiella läkemedelsmål och behandlingar. Protokollet som presenteras här beskriver en komplett pipeline för att analysera RNA-sekvenseringsdata från råa läsningar till funktionell analys. Rörledningen är indelad i fem steg: (1) kvalitetskontroll av data; 2. Kartläggning och anteckning av gener. (3) Statistisk analys för att identifiera differentiellt uttryckta gener och sam uttryckta gener. 4. Bestämning av den molekylära graden av störtheten av prover. och (5) funktionell analys. Steg 1 tar bort tekniska artefakter som kan påverka kvaliteten på nedströms analyser. I steg 2 kartläggs och kommenteras gener enligt standardbiblioteksprotokoll. Den statistiska analysen i steg 3 identifierar gener som uttrycks eller uttrycks med i infekterade prover, i jämförelse med icke-infekterade. Provvariation och förekomsten av potentiella biologiska avvikare verifieras med hjälp av den molekylära graden av störthetsmetod i steg 4. Slutligen visar den funktionella analysen i steg 5 de vägar som är associerade med sjukdomen fenotyp. Den presenterade pipelinen syftar till att stödja forskare genom RNA-seq dataanalys från värdpatogena interaktionsstudier och driva framtida in vitro- eller in vivo-experiment , som är viktiga för att förstå den molekylära mekanismen för infektioner.

Introduction

Arbovirus, såsom denguefeber, gula febern, chikungunya och zika, har varit allmänt förknippade med flera endemiska utbrott och har dykt upp som en av de viktigaste patogenerna som är ansvariga för att infektera människor under de senaste decennierna1,2. Individer infekterade med chikungunyaviruset (CHIKV) har ofta feber, huvudvärk, utslag, polyarthralgi och artrit3,4,5. Virus kan undergräva cellens genuttryck och påverka olika värdsignaleringsvägar. Nyligen använde blod transkriptom studier RNA-seq för att identifiera differentiellt uttryckta gener (DEGs) associerade med akut CHIKV infektion i jämförelse med konvalescens6 eller friska kontroller7. CHIKV-infekterade barn hade uppreglerade gener som är involverade i medfödd immunitet, såsom de relaterade till cellulära sensorer för viralt RNA, JAK/STAT-signalering och avgiftsliknande receptorsignaleringsvägar6. Vuxna som var akut infekterade med CHIKV visade också induktion av gener relaterade till medfödd immunitet, såsom de relaterade till monocyter och dendritisk cellaktivering, och antivirala svar7. Signalvägarna berikade med nedreglerade gener inkluderade de relaterade till adaptiv immunitet, såsom T-cellsaktivering och differentiering och anrikning i T- och B-celler7.

Flera metoder kan användas för att analysera transkriptomdata för värd- och patogengener. Ofta börjar RNA-seq biblioteksförberedelser med berikning av mogna poly-A-transkriptioner. Detta steg tar bort det mesta av ribosomal RNA (rRNA) och i vissa fall virala/bakteriella RNAs. Men när den biologiska frågan involverar patogen transkript upptäckt och RNA är sekvenserade oberoende av föregående val, många andra olika transkript kan upptäckas genom sekvensering. Till exempel har subgenomiska mRNAs visat sig vara en viktig faktor för att verifiera svårighetsgraden av sjukdomarna8. Dessutom, för vissa virus som CHIKV och SARS-CoV-2, även poly-A berikade bibliotek genererar virala läsningar som kan användas i nedströms analyser9,10. När forskarna fokuserar på analysen av värdutskriftstomen kan de undersöka den biologiska störtheten mellan prover, identifiera differentiellt uttryckta gener och berikade vägar och generera meduttrycksmoduler7,11,12. Detta protokoll belyser transkriptomanalyser av CHIKV-infekterade patienter och friska individer med olika bioinformatiska metoder (figur 1A). Data från en tidigare publicerad studie7 bestående av 20 friska och 39 CHIKV akut infekterade individer användes för att generera de representativa resultaten.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

De prover som användes i detta protokoll godkändes av de etiska kommittéerna från både institutionen för mikrobiologi vid Institutet för biomedicinska vetenskaper vid universitetet i São Paulo och Federal University of Sergipe (protokoll: 54937216.5.0000.5467 respektive 54835916.2.0000.5546).

1. Installation av Docker-skrivbordet

OBS: Steg för att förbereda Docker-miljön skiljer sig åt mellan operativsystemen (OPERATIVSYSTEM). Därför måste Mac-användare följa stegen som anges som 1.1, Linux-användare måste följa stegen som anges som 1.2 och Windows-användare måste följa stegen som anges som 1.3.

  1. Installera på MacOS.
    1. Gå till Webbplatsen Get Docker (Table of Materials), klicka på Docker Desktop för Mac och klicka sedan på länken Hämta från Docker Hub .
    2. Ladda ner installationsfilen genom att klicka på knappen Hämta docker .
    3. Kör Filen Docker.dmg för att öppna installationsprogrammet och dra sedan ikonen till mappen Program . Lokalisera och kör Docker.app i mappen Program för att starta programmet.
      Den programvaruspecifika menyn i det övre statusfältet anger att programvaran körs och att den är tillgänglig från en terminal.
  2. Installera behållarprogrammet på Linux-operativsystemet.
    1. Gå till Webbplatsen Get Docker Linux (Table of Materials) och följ anvisningarna för installation med hjälp av databasavsnittet som finns tillgängligt på länken Docker Linux Repository .
    2. Uppdatera alla Linux-paket med kommandoraden:
      sudo apt-get update
    3. Installera nödvändiga paket i Docker:
      sudo apt-get install apt-transport-https ca-certificates curl gnupg lsb-release
    4. Skapa en nyckelringsfil för programarkiv:
      curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /usr/share/keyrings/docker-archive-keyring.gpg
    5. Lägg till Docker deb-information i source.list-filen:
      echo "deb [arch=amd64 signed-by=/usr/share/keyrings/docker-archive-keyring.gpg] https://download.docker.com/linux/ubuntu $(lsb_release -cs) stabil" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
    6. Uppdatera alla paket igen, inklusive de som nyligen lagts till:
      sudo apt-get update
    7. Installera skrivbordsversionen:
      sudo apt-get install docker-ce docker-ce-cli containerd.io
    8. Välj geografiskt område och tidszon för att slutföra installationsprocessen.
  3. Installera behållarprogrammet på Windows OS.
    1. Gå till webbplatsen Get Docker (Table of Materials) och klicka på Kom igång. Leta reda på installationsprogrammet för Docker Desktop för Windows. Hämta filerna och installera dem lokalt på datorn.
    2. Efter hämtningen startar du installationsfilen (.exe) och behåller standardparametrarna. Kontrollera att de två alternativen Installera nödvändiga Windows-komponenter för WSL 2 och Lägg till genväg på skrivbordet är markerade.
      I vissa fall, när den här programvaran försöker starta tjänsten, visar den ett fel: WSL-installationen är ofullständig. För att ta reda på det här felet, gå till webbplatsen WSL2-Kernel (Table of Materials).
    3. Ladda ner och installera den senaste WSL2 Linux-kärnan.
    4. Öppna PowerShell-terminalen som administratör och kör kommandot:
      dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestart
    5. Kontrollera att programvaran Docker Desktop är installerad.
  4. Hämta bilden från CSBL-lagringsplatsen på Docker-hubben (Table of Materials).
    1. Öppna Docker Desktop och kontrollera att statusen "körs" längst ned till vänster i verktygsfältet.
    2. Gå till kommandoraden För Windows PowerShell-terminalen. Hämta Linux Container-avbildningen för det här protokollet från CSBL-lagringsplatsen på Docker-hubben. Kör följande kommando för att hämta bilden:
      docker pull csblusp/transcriptome
      När du har laddat ned bilden kan filen visas i Docker Desktop. För att skapa behållaren måste Windows-användare följa steg 1.5, medan Linux-användare måste följa steg 1.6.
  5. Initiera serverbehållaren på Windows OS.
    1. Visa Docker-bildfilen i Skrivbordsapphanteraren från verktygsfältet och gå till sidan Bilder.
      OM pipeline-avbildningen har hämtats kommer det att finnas en csblusp/transcriptome-bild tillgänglig.
    2. Initiera behållaren från bilden csblusp/transcriptome genom att klicka på knappen Kör . Expandera de valfria inställningarna för att konfigurera behållaren.
    3. Definiera behållarnamnet (t.ex. server).
    4. Associera en mapp i den lokala datorn med mappen i dockaren. Det gör du genom att bestämma värdsökvägen. Ange en mapp i den lokala datorn för att lagra bearbetade data som ska hämtas i slutet. Ange behållarsökvägen. Definiera och länka behållarmappen csblusp/transcriptome till den lokala datorsökvägen (använd namnet "/opt/transferdata" för behållarsökvägen).
    5. Därefter klickar du på Kör för att skapa csblusp/transcriptome-behållaren.
    6. För att komma åt Linux-terminalen från csblusp/transcriptome-behållaren klickar du på CLI-knappen.
    7. Skriv in bash-terminalen för att få en bättre upplevelse. För detta kör du kommandot:
      våldsamt slag
    8. När du har utfört kommandot bash, se till att terminalen visar (root@:/#):
      root@ac12c583b731:/ #
  6. Initiera serverbehållaren för Linux OS.
    1. Kör det här kommandot för att skapa Docker-behållaren baserat på avbildningen:
      docker run -d -it --rm --name server -v :/opt/transferdata csblusp/transcriptome
      OBS: : definiera en sökväg till den lokala mappdatorn.
    2. Kör det här kommandot för att komma åt kommandoterminalen för Docker-behållaren:
      docker exec -it server bash
    3. Se till att det finns en Linux-terminal för att köra program/skript med kommandoraden.
    4. När du har utfört kommandot bash, se till att terminalen visar (root@:/#):
      root@ac12c583b731:/ #
      Rotlösenordet är "transkriptom" som standard. Om så önskas kan rotlösenordet ändras genom att kommandot körs:
      passwd
    5. Kör först källkommandot för att addpath.sh för att se till att alla verktyg är tillgängliga. Kör kommandot:
      källa /opt/addpath.sh
  7. Kontrollera strukturen på RNA-sekvenseringsmappen.
    1. Få åtkomst till mappen transcriptome pipeline scripts och se till att alla data från RNA-sekvensering lagras i mappen: /home/transcriptome-pipeline/data.
    2. Se till att alla resultat som erhålls från analysen lagras i mappen för sökvägen /home/transcriptome-pipeline/results.
    3. Se till att referensfiler för genom och anteckning lagras i mappen för sökvägen /home/transcriptome-pipeline/datasets. Dessa filer hjälper till att stödja all analys.
    4. Se till att alla skript lagras i mappen på sökvägen /home/transcriptome-pipeline/scripts och separeras av varje steg enligt beskrivningen nedan.
  8. Ladda ner anteckningen och det mänskliga genomet.
    1. Komma åt skriptmappen:
      cd /home/transcriptome-pipeline/scripts
    2. Kör det här kommandot för att ladda ned det refererande mänskliga genomet:
      bash downloadGenome.sh
    3. Så här hämtar du anteckningen:
      bash downloadAnnotation.sh
  9. Ändra anteckningen eller versionen av referensgenomet.
    1. Öppna downloadAnnotation.sh och downloadGenome.sh för att ändra URL:en för varje fil.
    2. Kopiera downloadAnnotation.sh- och downloadGenome.sh filer till överföringsområdet och redigera i det lokala operativsystemet.
      cd /home/transcriptome-pipeline/scripts
      cp downloadAnnotation.sh downloadGenome.sh /opt/transferdata
    3. Öppna mappen Värdsökväg , som är markerad för att länka mellan värd- och Docker-behållaren i steg 1.5.4.
    4. Redigera filerna med hjälp av önskad redigeringsprogramvara och spara. Slutligen lägger du de ändrade filerna i skriptmappen. Kör kommandot:
      cd /opt/transferdata
      cp downloadAnnotation.sh downloadGenome.sh /home/transcriptome-pipeline/scripts

      OBS: Dessa filer kan redigeras direkt med vim eller nano Linux editor.
  10. Konfigurera sedan snabbdumpningsverktyget med kommandoraden:
    vdb-config --interactive
    Obs: Detta gör det möjligt att ladda ner sekvenseringsfiler från exempeldata.
    1. Navigera på sidan Verktyg med tabbtangenten och välj det aktuella mappalternativet. Navigera till alternativet Spara och klicka på OK. Avsluta sedan snabbdumpningsverktyget.
  11. Initiera nedladdningen av läsningarna från den tidigare publicerade uppsatsen7. SRA:s anslutningsnummer för varje prov krävs. Få SRA-numren från SRA NCBI:s webbplats (Materialförteckning).
    OBS: För att analysera RNA-Seq-data som finns tillgängliga i offentliga databaser, följ steg 1.12. För att analysera privata RNA-seq data, följ steg 1.13.
  12. Analysera specifika offentliga data.
    1. Gå in på National Center for Biotechnology Information (NCBI) webbplats och sök nyckelord för ett specifikt ämne.
    2. Klicka på länken Resultat för BioProject i avsnittet Genom .
    3. Välj och klicka på en specifik studie. Klicka på SRA-experimenten. En ny sida öppnas som visar alla tillgängliga prover för den här studien.
    4. Klicka på "Skicka till:" ovanför anslutningsnummer. Välj KörInfo i alternativet "Välj mål". Klicka på "Skapa fil" för att exportera all biblioteksinformation.
    5. Spara filen SraRunInfo.csv i värdsökvägen som definieras i steget 1.5.4 och kör hämtningsskriptet:
      cp /opt/transferdata/SraRunInfo.csv /home/transcriptome-pipeline/data
      cd /home/transcriptome-pipeline/scripts
      bash downloadAllLibraries.sh
  13. Analysera privata och opublicerade sekvenseringsdata.
    1. Ordna sekvenseringsdata i en mapp med namnet Reads.
      I mappen Läser skapar du en mapp för varje exempel. Dessa mappar måste ha samma namn för varje exempel. Lägg till data för varje exempel i sin katalog. Om det är en parad RNA-Seq bör varje exempelkatalog innehålla två FASTQ-filer, som måste presentera namn som slutar enligt mönstren {sample}_1.fastq.gz och {sample}_2.fastq.gz, framåt respektive omvända sekvenser. Ett exempel med namnet "Healthy_control" måste till exempel ha en katalog med samma namn och FASTQ-filer med namnet Healthy_control_1.fastq.gz och Healthy_control_2.fastq.gz. Men om bibliotekssekvenseringen är en enkel strategi bör endast en läsfil sparas för nedströms analys. Till exempel måste samma exempel, "Felfri kontroll", ha en unik FASTQ-fil som heter Healthy_control.fastq.gz.
    2. Skapa en fenotypisk fil som innehåller alla exempelnamn: Namnge den första kolumnen som "Exempel" och den andra kolumnen som "Klass". Fyll i kolumnen Exempel med exempelnamn, som måste vara samma namn för provkatalogerna och fyll kolumnen Klass med den fenotypiska gruppen för varje prov (t.ex. kontroll eller infekterad). Slutligen sparar du en fil med namnet "metadata.tsv" och skickar den till katalogen /home/transcriptome-pipeline/data/. Kolla in den befintliga metadata.tsv för att förstå formatet på den fenotypiska filen.
      cp /opt/transferdata/metadata.tsv
      /home/transcriptome-pipeline/data/metadata.tsv
    3. Gå till katalogen Värdsökväg som definieras i steg 1.5.4 och kopiera de nya exemplen på strukturerade kataloger. Slutligen flyttar du exemplen från /opt/transferdata till pipeline-datakatalogen.
      cp -rf /opt/transferdata/reads/*
      /home/transcriptome-pipeline/data/reads/
  14. Observera att alla läsningar lagras i mappen /home/transcriptome-pipeline/data/reads.

2. Kvalitetskontroll av uppgifterna

OBS: Utvärdera, grafiskt, sannolikheten för fel i sekvenseringen läser. Ta bort alla tekniska sekvenser, t.ex. adaptrar.

  1. Få tillgång till bibliotekens sekvenseringskvalitet med FastQC-verktyget.
    1. Om du vill generera kvalitetsgraferna kör du fastqc-programmet. Kör kommandot:
      bash FastQC.sh
      Resultaten sparas i mappen /home/transcriptome-pipeline/results/FastQC. Eftersom sekvensadaptrar används för biblioteksförberedelser och sekvensering kan fragmenten av adaptrars sekvens i vissa fall störa mappningsprocessen.
  2. Ta bort adaptersekvensen och avläsningarna av låg kvalitet. Öppna mappen Skript och kör kommandot för trimmomatic-verktyget:
    cd /home/transcriptome-pipeline/scripts
    bash trimmomatic.sh

    OBS: Parametrarna som används för sekvenseringsfilter är: Ta bort ledande lågkvalitativa eller 3 baser (under kvalitet 3) (LEADING:3); Ta bort efterföljande låg kvalitet eller 3 baser (under kvalitet 3) (TRAILING:3); Skanna avläsningen med ett 4-bas brett skjutfönster, skär när den genomsnittliga kvaliteten per bas sjunker under 20 (SLIDINGWINDOW:4:20); och Drop läser under de 36 baserna långa (MINLEN:36). Dessa parametrar kan ändras genom att redigera trimmomatic-skriptfilen.
    1. Se till att resultaten sparas i följande mapp: /home/transcriptome-pipeline/results/trimreads. Kör kommandot:
      ls /home/transcriptome-pipeline/results/trimreads

3. Kartläggning och anteckning av prover

OBS: Efter att ha fått avläsningar av god kvalitet måste dessa mappas till referensgenomet. I det här steget användes STAR-mapparen för att mappa exempelproverna. Star-mapperverktyget kräver 32 GB RAM-minne för att läsa och köra läs- och genommappningen. För användare som inte har 32 GB RAM-minne kan redan mappade läsningar användas. Hoppa i sådana fall till steg 3.3 eller använd Bowtie2-mapparen. Det här avsnittet innehåller skript för STAR (resultat som visas i alla siffror) och Bowtie2 (mapper med lågt minne som krävs).

  1. Indexera först referensgenomet för kartläggningsprocessen:
    1. Komma åt mappen Skript med kommandoraden:
      cd /home/transcriptome-pipeline/scripts
    2. Kör:
      bash indexGenome.sh
    3. För Bowtie mapper, kör:
      bash indexGenomeBowtie2.sh
  2. Kör följande kommando för att mappa filtrerade läsningar (hämtas från steg 2) till referensgenomet (GRCh38-versionen). Både STAR- och Bowtie2-mappare utförs med standardparametrar.
    1. Kör:
      bash mapSTAR.sh
    2. För Bowtie2 mapper kör du:
      bash mapBowtie2.sh
      DE slutliga resultaten är BAM-filer (Binary Alignment Map) till varje exempel som lagras i /home/transcriptome-pipeline/results/mapreads.
  3. Kommentera mappade läsningar med verktyget FeatureCounts för att erhålla råa antal för varje gen. Kör skripten som kommenterar läsningarna.
    Verktyget FeatureCounts ansvarar för att tilldela mappade sekvenseringsläsningar till genomiska funktioner. De viktigaste aspekterna av genomanteckning som kan ändras efter den biologiska frågan inkluderar detektion av isoformer, flera mappade läsningar och exon-exon-korsningar, motsvarande parametrarna, GTF.attrType="gene_name" för gen eller inte ange parametrarna för metafunktionsnivå, allowMultiOverlap=TRUE respektive juncCounts=TRUE.
    1. Komma åt skriptmappen med kommandorad:
      cd /home/transcriptome-pipeline/scripts
    2. Om du vill kommentera de mappade läsningarna för att erhålla antal obehandlade per gen kör du kommandoraden:
      Rscript-anteckning. R
      OBS: Parametrarna som användes för anteckningsprocessen var: return gene short name (GTF.attrType="gene_name"); tillåta flera överlappningar (allowMultiOverlap = TRUE); och ange att biblioteket är ihopparat (isPairedEnd=TRUE). För en enda strategi använder du parametern isPairedEnd=FALSE. Resultaten sparas i mappen /home/transcriptome-pipeline/countreads.
  4. Normalisera genuttryck.
    OBS: Normalisering av genuttryck är viktigt för att jämföra resultat mellan utfall (t.ex. friska och infekterade prover). Normalisering krävs också för att utföra meduttryck och molekylär grad av störingsanalyser.
    1. Komma åt mappen Skript med kommandoraden:
      cd /home/transcriptome-pipeline/scripts
    2. Normalisera genuttrycket. Så här kör du kommandoraden:
      Rscript normaliseraramplar. R
      OBS: Uttrycket för rå räknar i det här experimentet normaliserades med metoderna Trimmat medelvärde för M-värden (TMM) och Antal per miljon (CPM). Detta steg syftar till att ta bort skillnader i genuttryck på grund av den tekniska påverkan, genom att göra biblioteksstorleksnormalisering. Resultaten sparas i mappen /home/transcriptome-pipeline/countreads.

4. Differentiellt uttryckta gener och sam uttryckta gener

  1. Identifiera differentiellt uttryckta gener med hjälp av EdgeR-paketet med öppen källkod. Detta innebär att hitta gener vars uttryck är högre eller lägre jämfört med kontrollen.
    1. Komma åt mappen Skript med kommandoraden:
      cd /home/transcriptome-pipeline/scripts
    2. Om du vill identifiera den differentiellt uttryckta genen kör du DEG_edgeR R-skriptet med kommandoraden:
      Rscript DEG_edgeR.R
      OBS: Resultaten som innehåller de differentiellt uttryckta generna sparas i mappen /home/transcriptome-pipeline/results/degs. Data kan överföras till en persondator.
  2. Hämta data från csblusp/transcriptome-behållaren.
    1. Överför bearbetade data från pipelinen /home/transcriptome-till mappen /opt/transferdata (lokal dator).
    2. Kopiera alla filer till den lokala datorn genom att köra kommandoraden:
      cp -rf /home/transcriptome-pipeline/results /opt/transferdata/pipeline
      cp -rf /home/transcriptome-pipeline/data /opt/transferdata/pipeline

      Gå nu till den lokala datorn för att se till att alla resultat, datamängder och data är tillgängliga att hämta i värdsökvägen.
  3. Identifiera meduttrycksmoduler.
    1. Gå till cemitool-webbplatsen (Co-Expression Modules Identification Tool) (Tabell över
      Material
      ). Det här verktyget identifierar meduttrycksmoduler från uttrycks data uppsättningar som tillhandahålls av användarna. Klicka på Kör längst upp till höger på startsidan. Detta öppnar en ny sida för att ladda upp uttrycksfilen.
    2. Klicka på Välj fil under avsnittet Uttrycksfil och ladda upp den normaliserade genuttrycksmatrisen "tmm_expression.tsv" från värdsökvägen.
      OBS: Steg 4.4. är icke-obligatoriskt.
  4. Utforska den biologiska betydelsen av meduttrycksmoduler.
    1. Klicka på Välj fil i avsnittet Exempel fenotyper och ladda upp filen med exempel fenotyper metadata_cemitool.tsv från nedladdningsdata steg 4.2.2. för att utföra en analys av genuppsättningsberikning (GSEA).
    2. Tryck på Välj fil i avsnittet Geninteraktioner för att ladda upp en fil med geninteraktioner (cemitool-interactions.tsv). Det är möjligt att använda filen med geninteraktioner som tillhandahålls som ett exempel av webCEMiTool. Interaktionerna kan vara protein-proteininteraktioner, transkriptionsfaktorer och deras transkriberade gener, eller metaboliska vägar. Det här steget skapar ett interaktionsnätverk för varje meduttrycksmodul.
    3. Klicka på avsnittet Välj fil i avsnittet Genuppsättningar för att ladda upp en lista över gener som är funktionellt relaterade i en GMT-formatfil (Gene Matrix Transposed). Gene Set-filen gör det möjligt för verktyget att utföra anrikningsanalys för varje meduttrycksmodul, dvs. en överrepresentationsanalys (ORA).
      OBS: Denna lista över gener kan omfatta vägar, GO-termer eller miRNA-målgener. Forskaren kan använda Blood Transcription Modules (BTM) som genuppsättningar för denna analys. BTM-filen (BTM_for_GSEA.gmt).
  5. Ange parametrar för att utföra meduttrycksanalyser och få dess resultat.
    1. Expandera sedan avsnittet Parameter genom att klicka på plustecknet för att visa standardparametrarna. Om det behövs, ändra dem. Markera rutan Använd VST .
    2. Skriv e-postmeddelandet i avsnittet E-post för att få resultat som ett e-postmeddelande. Det här steget är valfritt.
    3. Tryck på knappen Kör CEMiTool .
    4. Ladda ner hela analysrapporten genom att klicka på Ladda ner fullständig rapport längst upp till höger. Den kommer att ladda ner en komprimerad fil cemitool_results.zip.
    5. Extrahera innehållet i cemitool_results.zip med WinRAR.
      OBS: Mappen med det extraherade innehållet omfattar flera filer med alla resultat av analysen och deras etablerade parametrar.

5. Bestämning av den molekylära graden av störthet av prover

  1. Molekyl grad av perturbation (MDP) webbversion.
    1. Om du vill köra MDP öppnar du MDP-webbplatsen (Materialförteckning). MDP beräknar molekylavståndet för varje prov från referensen. Klicka på knappen Kör .
    2. Ladda upp uttrycksfilen tmm_expression.tsv på länken Välj fil. Ladda sedan upp den fenotypiska datafilen metadata.tsv från download data steg 4.2.2. Det är också möjligt att skicka in en utbildnings anteckningsfil i GMT-format för att beräkna störtloppet för de vägar som är associerade med sjukdomen.
    3. När data har laddats upp definierar du kolumnen Klass som innehåller den fenotypiska information som används av MDP. Definiera sedan kontrollklassen genom att välja den etikett som motsvarar kontrollklassen.
      Det finns några valfria parametrar som påverkar hur exempel poängen beräknas. Vid behov kan användaren ändra statistikgenomsnittsmetoden, standardavvikelsen och den högsta procentandelen av de störda generna.
    4. Därefter trycker du på Run MDP-knappen så visas MDP-resultaten. Användaren kan ladda ner siffrorna genom att klicka på nedladdningsdiagrammet i varje tomt, liksom MDP-poängen på knappen Ladda ner MDP-poängfil .
      OBS: Vid frågor om hur du skickar in filerna eller hur MDP fungerar, gå bara igenom handledningen och om webbsidor.

6. Funktionell anrikningsanalys

  1. Skapa en lista över nedreglerade degg och en annan av uppreglerade degg. Gennamn måste vara enligt Entrez gensymboler. Varje gen i listan måste placeras på en rad.
  2. Spara genlistorna i txt- eller tsv-format.
  3. Gå till Enrichrs webbplats (Materialförteckning) för att utföra den funktionella analysen.
  4. Välj listan över gener genom att klicka på Välj fil. Välj en av DEGs-listan och tryck på knappen Skicka .
  5. Klicka på Vägar högst upp på webbsidan för att utföra funktionell anrikningsanalys med ORA-metoden.
  6. Välj en utbildningsdatabas. "Reactome 2016" pathway database används i stor utsträckning för att få den biologiska betydelsen av mänskliga data.
  7. Klicka på namnet på utbildningsdatabasen igen. Välj Stapeldiagram och kontrollera om det är sorterat efter p-värderankning. Om inte, klicka på stapeldiagrammet tills det sorteras efter p-värde. Det här stapeldiagrammet innehåller de 10 bästa vägarna enligt p-värden.
  8. Tryck på konfigurationsknappen och välj den röda färgen för den uppreglerade genanalysen eller blå färg för den nedreglerade genanalysen. Spara stapeldiagrammet i flera format genom att klicka på svg, png och jpg.
  9. Välj Tabell och klicka på Exportera poster till tabellen längst ned till vänster i stapeldiagrammet för att hämta den funktionella anrikningsanalysen resulterar i en txt-fil.
    OBS: Denna funktionella anrikningsresultatfil omfattar i varje rad namnet på en väg, antalet överlappade gener mellan den inlämnade DEG-listan och vägen, p-värdet, justerat p-värde, oddsförhållande, kombinerad poäng och gensymbolen för gener som finns i DEG-listan som deltar i vägen.
  10. Upprepa samma steg med listan över de andra degg:erna.
    OBS: Analysen med nedreglerade DEGs ger vägar berikade för nedreglerade gener och analysen med uppreglerade gener ger vägar berikade för uppreglerade gener.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Datormiljön för transkriptomanalyser skapades och konfigurerades på Docker-plattformen. Den här metoden gör det möjligt för nybörjare Linux-användare att använda Linux-terminalsystem utan a priori-hanteringskunskap. Docker-plattformen använder resurserna i värd operativ systemet för att skapa en tjänst behållare som innehåller specifika användares verktyg (bild 1B). En behållare baserad på Linux OS Ubuntu 20.04-distribution skapades och den var helt konfigurerad för transkriptomiska analyser, som är tillgänglig via kommandoradsterminalen. I den här behållaren finns det en fördefinierad mappstruktur för data uppsättningar och skript som är nödvändig för alla pipelineanalyser (bild 1C). En studie publicerad av vår forskargrupp7 användes för analyser, och den omfattade 20 prover från friska individer och 39 prover från CHIKV akutinfekterade individer (figur 1D).

Processen med total RNA-sekvensering kan generera läsfel, som kan orsakas av ett kluster med två eller flera transkriptioner eller utarmning av reagenser. Sekvenseringsplattformarna returnerar en uppsättning "FASTQ"-filer som innehåller sekvensen (läs) och den tillhörande kvaliteten för varje nukleotidbas (figur 2A). Phreds kvalitetsskala anger sannolikheten för en felaktig avläsning av varje bas (figur 2B). Läsningar av låg kvalitet kan generera en partiskhet eller felaktigt genuttryck, vilket utlöser successiva fel i nedströmsanalyser. Verktyg som Trimmomatic har utvecklats för att identifiera och ta bort avläsningar av låg kvalitet från prover och för att öka sannolikheten för kartläggning av avläsningar (figur 2C,D).

Mappningsmodulen förkonfigurerades med STAR-alignern och DEN mänskliga GRCh38-värden som referensgenom. I det här steget används de högkvalitativa avläsningar som återvunnits från föregående steg som indata för att anpassa sig mot det mänskliga referensgenomet (figur 3A). STAR aligner matar ut en justering av mappade läsningar till ett referensgenom i BAM-formatfilen. Baserat på den här justeringen utför Verktyget FeatureCounts anteckningen av funktioner (gener) för de justerade läsningarna med hjälp av referenskommentationen för den mänskliga värden i GTF-filformat (bild 3B). Slutligen genereras uttrycksmatrisen med varje gennamn som en rad och varje exempel som en kolumn (bild 3C). En ytterligare metadatafil som innehåller exempelnamnen och respektive exempelgrupper måste också tillhandahållas för ytterligare nedströms analys. Genuttrycksmatrisen representerar antalet antal som mappas till varje gen bland prover, som kan användas som EdgeR-indata för att identifiera DEGs. Dessutom normaliserades denna genuttrycksmatris med hjälp av TMM och CPM för att ta bort den tekniska variabiliteten och korrigera RNA-seq-mätningen genom att överväga andelen uttryckta gener i den totala biblioteksstorleken bland proverna. Denna matris användes vidare som input för co-expression och MDP analyser.

CEMiTool identifierar och analyserar meduttrycksmodulerna12. Gener som finns i samma modul uttrycks gemensamt, vilket innebär att de uppvisar liknande uttrycksmönster i exemplen på datauppsättningen. Detta verktyg gör det också möjligt att utforska den biologiska betydelsen av varje identifierad modul. För detta ger det tre valfria analyser - funktionell anrikningsanalys av GSEA, funktionell anrikningsanalys av Over Representation Analysis (ORA) och nätverksanalys. Funktionell anrikningsanalys av GSEA ger information om genuttrycket för varje modul vid varje fenotyp (figur 4A). Enligt detta möjliggör det identifiering av moduler som undertrycks eller induceras vid varje fenotyp. ORA-analysen visar de 10 bästa signifikant berikade biologiska funktionerna för varje modul sorterad efter justerade p-värden. Det är möjligt att kombinera GSEA- och ORA-resultaten för att identifiera nedsatta biologiska processer och om de undertrycks eller induceras av den fenotyp av intresse. Nätverksanalyser ger en samverkanstom av varje modul (figur 4A). Det möjliggör visualisering av hur gener i varje modul interagerar. Dessutom ger nätverksanalys information om de mest anslutna generna, naven, som identifieras av deras namn i nätverket. Nodernas storlek representerar graden av anslutning.

För att identifiera DEGs utvecklades ett internt skript för att köra en end-to-end differentiell analys på en enkelriktad och koncis kommandorad. Skriptet utför alla steg som krävs för att utföra en DEG-analys och jämför olika exempelgrupper som tillhandahålls av användaren i en metadatafil. Dessutom lagras DEG-resultaten i separata listor över nedreglerade och uppreglerade gener och sammanställs sedan i en publikationsklar figur (figur 4B) med EnhancedVolcano R-paket från Bioconductor.

Analysen av den molekylära graden av störthet som utförs av MDP-verktyget gör det möjligt för oss att identifiera störda prover från friska och infekterade individer11. Störningspoängen beräknas med hänsyn till alla uttryckta gener för varje CHIKV-infekterat prov och med tanke på de friska proverna som referensgrupp (figur 5A). MDP utför också analysen med endast de 25% bästa av de mest störda generna från dessa prover (figur 5B). Prover kan presentera en stor variation med tanke på genetisk bakgrund, ålder, kön eller andra tidigare sjukdomar. Dessa faktorer kan ändra transkriptomprofilen. På grundval av detta föreslår MDP vilka prover som är potentiella biologiska avvikande värden för att avlägsna dem och förbättra resultaten nedströms (figur 5A, B).

En funktionell anrikningsanalys av ORA kan utföras med hjälp av Enrichr för att identifiera den biologiska betydelsen av DEGs. Resultaten som tillhandahålls baserat på listan över nedreglerade gener indikerar de förträngda biologiska processerna i den studerade fenotypen, medan resultaten som tillhandahålls baserat på listan över uppreglerade gener presenterar de biologiska processer som induceras i fenotypen av intresse. De biologiska processer som visas i stapeldiagrammet som genereras av Enrichr är de 10 bästa berikade genuppsättningarna baserat på p-värderankningen (figur 6).

Figure 1
Bild 1: Miljödocker och exempelstudie. (A) Docker-plattformen använder OS Host-resurserna för att skapa "Containers" för Linux-systemet som innehåller verktyg för transkriptomanalyser. (B) Docker Container simulerar ett Linux-system för att köra pipeline-skript. (C) Strukturen för transkriptompipelinemappen skapades och organiserades för att lagra datamängder och skript för analys. (D) Studien från vår grupp användes som ett exempel på transkriptomanalyser. Klicka här för att se en större version av den här figuren.

Figure 2
Bild 2: Kvalitetskontroll av sekvensering. (A) FASTQ-formatfilen används för att representera sekvens- och nukleotidbaskvalitet. (B) Phred poängekvation, där var 10: e ökar en feltolkad bas för loggsannolikhet. (C) och D) Boxplot representerar en kvalitetsfördelning av varje nukleotidbas före respektive efter trimmomatic-utförandet. Klicka här för att se en större version av den här figuren.

Figure 3
Bild 3: Kartläggning och anteckningsprocess från sekvens till genräkningsuttryck. (A) Kartläggning består av att justera sekvensen från transkriptionen och sekvensen från genomet för att identifiera den genomiska lokaliseringen. (B) Mappade avläsningar till referensgenomet kommenteras baserat på deras genomiska lokalisering av överlappning. (C) Baserat på mappningsverktygen, till exempel featureCounts, sammanfattas genuttrycket. Klicka här för att se en större version av den här figuren.

Figure 4
Figur 4: Samuttryckt gener nätverk och statistisk analys av DEGs. (A) Moduler av samuttryck baserade på genuttryck och nätverket av protein-proteininteraktioner från modulgener. (B) Statistisk analys av CHIKV akut infekterade och friska individer och differentiellt genuttryck i rött (p-värde och log2FC-kriterier), lila (endast p-värde), grön (endast log2FC) och grå (ingen betydelse). Klicka här för att se en större version av den här figuren.

Figure 5
Figur 5: Molekylär grad av perturbation (MDP) av CHIKV akut infekterade och friska individer. (A) MDP-poäng för varje prov med hjälp av alla uttryckta gener från transkriptomet. (B) MDP-poäng för varje prov med endast de översta 25% av de mest störda generna. Klicka här för att se en större version av den här figuren.

Figure 6
Figur 6: Funktionell analys för degs. (A) Up-regulated och (B) Down-regulated gener skickades till Enrichrs webbplatsverktyg för att bedöma biologiska vägar eller representativa genuppsättningar. P-värden beräknades för varje väg och endast signifikanta skillnader visades i bilden. Klicka här för att se en större version av den här figuren.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Förberedelsen av sekvenseringsbiblioteken är ett avgörande steg mot att besvara biologiska frågor på bästa möjliga sätt. Typen av betyg av intresse för studien kommer att vägleda vilken typ av sekvenseringsbibliotek som kommer att väljas och driva bioinformatiska analyser. Till exempel, från sekvenseringen av en patogen och värdinteraktion, enligt typen av sekvensering, är det möjligt att identifiera sekvenser från båda eller bara från värdutskrifterna.

Nästa generations sekvenseringsutrustning, t.ex. Illumina-plattformen, mäter sekvenseringskvalitetspoängen, vilket står för sannolikheten att en bas anropas felaktigt. Nedströmsanalyserna är mycket känsliga för lågkvalitativa sekvenser och leder till underläst eller feltolkat genuttryck. Ett annat hinder för att utföra korrekta analyser och tolkningar är adaptersekvenser. Adaptersekvenser hjälper till med biblioteksförberedelser och sekvensering, och i de flesta fall är adaptrar också sekvenserade. Nyligen genomförda studier har identifierat att kartverktygets inverkan på de slutliga resultaten är minimal13. Men i patogen-värdstudier kan kartläggningsprocessen generera något bättre resultat när man testar olika tröskelvärden för att minimera problem med flera mappade locus-sekvenser.

Differentiella genuttrycksresultat bör tolkas med viss försiktighet, särskilt när antalet prover per grupp är mycket litet och proverna kom från olika analyser och störde de grupptesterna resultatet. Dessa resultat är känsliga för flera faktorer: i) den datafiltrering som tillämpas, såsom avlägsnande av låguttryckta gener och antalet prover som ska underhållas; ii) Studiedesign, för att jämföra endast mellan provgrupper eller varje infekterad patient jämfört med alla kontrollpatienter, vilket illustreras i CHIKV-studien7. iii) Statistisk metod som används för att identifiera degg. Här illustrerar vi ett grundläggande exempel med EdgeR för att identifiera DEGs som antar ett tröskelvärde p-värde på 0,05. Det är också känt i litteraturen att EdgeR, jämfört med andra benchmarkmetoder, kan ha ett stort antal variationer när det gäller att identifiera DEG14. Man skulle kunna överväga avvägningen mellan sådana olika metoder och ta hänsyn till antalet tillgängliga replikat och komplexiteten i den experimentella designen14.

CEMiTool utför meduttrycksmodulanalyser12. Detta verktyg är tillgängligt via R-paketet på Bioconductor-lagringsplatsen och det är också tillgängligt i en användarvänlig version via webCEMiTool; Den senare är den version som används i det aktuella protokollet. Detta är en alternativ programvara i förhållande till WGCNA15 som presenterar flera fördelar jämfört med den senare16, inklusive det faktum att det är mer användarvänligt17. Dessutom har detta verktyg en automatisk metod för att filtrera gener, medan användaren i WGCNA måste filtrera generna före WGCNA-användning. Dessutom har det här verktyget standardparametrar etablerade, medan användaren i WGCNA måste välja parametrarna manuellt. Manuell parameterval försämrar reproducerbarheten. Därför garanterar valet av automatiska parametrar förbättrad reproducerbarhet.

I vissa fall kan CEMiTool inte hitta en lämplig mjuktröskel, även kallad β värde. I detta fall bör användaren kontrollera om RNA-seq-data uppvisar ett starkt beroende av medelvarians. Om medelvärdet uppvisar ett starkt linjärt förhållande till variansen (med tanke på alla gener) måste användaren köra analyserna igen och kontrollera parametern "Apply VST" för att ta bort medelvariansberoendet hos transkriptomiska data. Det är alltid viktigt att kontrollera om det finns ett starkt beroende av medelvarians i data och ta bort dem när de finns.

CEMiTool har i stor utsträckning använts för att identifiera och utforska den biologiska betydelsen av meduttrycksmoduler. En CHIKV akut infektionsstudie visade en modul med högre aktivitet hos patienter efter 2 till 4 dagar efter uppkomsten av symtom7. Funktionella berikning av denna modul av ORA uppvisade en ökning av monocyter och neutrophils7. En influensavaccinationsstudie med bloddeskriptom från baslinjen till dag 7 efter vaccination presenterade co-expression moduler funktionellt berikade för biologiska processer relaterade till T, B och naturliga mördarceller, monocyter, neutrofiler, interferonsvar och trombocytaktivering18.

Med tanke på variabiliteten från transkriptomiska datamängder kan identifiera och kvantifiera data heterogeniteten vara en utmaning eftersom många variabler kan påverka genuttrycksprofilen7,11. MDP ger ett sätt att identifiera och kvantifiera störda prover från friska och infekterade försökspersoner genom att följa dessa steg: i) beräkna en centralitetsmetod (median eller medelvärde) och standardavvikelse för kontrollprover, i) beräkna en centralitetsmetod (median eller medelvärde) och standardavvikelse för kontrollprover, i) beräkna en centralitetsmetod (median eller medelvärde) och standardavvikelse för kontrollprover, i) beräkna en centralitetsmetod (median eller medelvärde) och standardavvikelse för kontrollprover, i) beräkna en centralitetsmetod (median eller medelvärde) och standardavvikelse för kontrollprover, i) beräkna en centralitetsmetod ( ii) använda de erhållna värdena för att beräkna z-poängen för alla gener, iii) fastställa ett tröskelvärde z-poäng som är absolut större än 2, med angivande av representativa avvikelser från kontrollprover, och iv) beräkna medelvärdet av genvärden med hjälp av de poäng som filtrerats för varje prov. Trots att det har vissa begränsningar för scRNA-seq analys, detta verktyg var funktionella för att bestämma störtjänhet poäng från microarray och RNA-seq data11. Dessutom har en tidigare studie använt detta verktyg för att visa den molekylära graden av perturbation förhöjd på blod transkriptom i tuberkulos och diabetes mellitus patienter19. I detta arbete har stördningen av kontroll och CHIKV akut infekterade prover med friska individer som referensgruppen visats.

Den funktionella anrikningsanalysen som utförs av Enrichr är ORA20,21. ORA är en typ av funktionell anrikningsanalys där användaren måste tillhandahålla listan över DEGs till verktyget. Förteckningen över degg-grupper är vanligtvis uppdelad i en nedreglerad deg-lista och i en uppreglerad deg-lista. Det finns andra verktyg för att utföra ORA, bland annat gProfiler, som finns i en användarvänlig webbversion22 och goseq23 som finns som ett R-paket på Bioconductor. En annan typ av funktionell anrikningsanalys är GSEA. För att utföra GSEA måste användaren ange alla gener i en rangordnad lista. Denna lista rangordnas vanligt enligt genuttrycket i vikändring.

Enrichr ger alltid de 10 bästa genuppsättningarna berikade baserat på deras p-värden i stapeldiagramresultatet. Därför måste användaren vara uppmärksam när man tolkar resultaten, om det finns mindre än 10 berikade genuppsättningar kommer stapeldiagrammet också att visa icke-berikade biologiska processer. För att undvika detta fel måste användaren upprätta en bryt för p-värdet och observera p-värdena för vägarna innan han antar att alla genuppsättningar i stapeldiagrammet är berikade. Dessutom måste användaren vara medveten om att ordningen på de 10 genuppsättningar som visas i stapeldiagrammet är enligt p-värdena, inte de justerade p-värdena. Om användaren vill visa alla berikade vägar i ett stapeldiagram eller till och med ändra ordning enligt de justerade p-värdena, rekommenderas att användaren skapar sitt eget stapeldiagram med hjälp av tabellen som laddas ner. Användaren kan skapa ett nytt stapeldiagram med Excel eller till och med R-programvara.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Författarna har inget att avslöja.

Acknowledgments

HN finansieras av FAPESP (bidragsnummer: #2017/50137-3, 2012/19278-6, 2018/14933-2, 2018/21934-5 och 2013/08216-2) och CNPq (313662/2017).

Vi är särskilt tacksamma för följande bidrag till stipendiater: ANAG (FAPESP Process 2019/13880-5), VEM (FAPESP Process 2019/16418-0), IMSC (FAPESP Process 2020/05284-0), APV (FAPESP Process 2019/27146-1) och RLTO (CNPq- Process 134204).

Materials

Name Company Catalog Number Comments
CEMiTool Computational Systems Biology Laboratory 1.12.2 Discovery and the analysis of co-expression gene modules in a fully automatic manner, while providing a user-friendly HTML report with high-quality graphs.
EdgeR Bioconductor (Maintainer: Yunshun Chen [yuchen at wehi.edu.au]) 3.30.3 Differential expression analysis of RNA-seq expression profiles with biological replication
EnhancedVolcano Bioconductor (Maintainer: Kevin Blighe [kevin at clinicalbioinformatics.co.uk]) 1.6.0 Publication-ready volcano plots with enhanced colouring and labeling
FastQC Babraham Bioinformatics 0.11.9 Aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing
FeatureCounts Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research 2.0.0 Assign mapped sequencing reads to specified genomic features
MDP Computational Systems Biology Laboratory 1.8.0 Molecular Degree of Perturbation calculates scores for transcriptome data samples based on their perturbation from controls
R R Core Group 4.0.3 Programming language and free software environment for statistical computing and graphics
STAR Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research 2.7.6a Aligner designed to specifically address many of the challenges of RNA-seq data mapping using a strategy to account for spliced alignments
Bowtie2 Johns Hopkins University 2.4.2 Ultrafast and memory-efficient tool for aligning sequencing reads to long reference sequences
Trimmomatic THE USADEL LAB 0.39 Trimming adapter sequence tasks for Illumina paired-end and single-ended data
Get Docker Docker 20.10.2 Create a bioinformatic environment reproducible and predictable (https://docs.docker.com/get-docker/)
WSL2-Kernel Windows NA https://docs.microsoft.com/en-us/windows/wsl/wsl2-kernel
Get Docker Linux Docker NA https://docs.docker.com/engine/install/ubuntu/
Docker Linux Repository Docker NA https://docs.docker.com/engine/install/ubuntu/#install-using-the-repository
MDP Website Computational Systems Biology Laboratory NA https://mdp.sysbio.tools
Enrichr Website MaayanLab NA https://maayanlab.cloud/Enrichr/
webCEMiTool Computational Systems Biology Laboratory NA https://cemitool.sysbio.tools/
gProfiler Bioinformatics, Algorithmics and Data Mining Group NA https://biit.cs.ut.ee/gprofiler/gost
goseq Bioconductor (Maintainer: Matthew Young [my4 at sanger.ac.uk]) NA http://bioconductor.org/packages/release/bioc/html/goseq.html
SRA NCBI study NCBI NA https://www.ncbi.nlm.nih.gov/bioproject/PRJNA507472/

DOWNLOAD MATERIALS LIST

References

  1. Weaver, S. C., Charlier, C., Vasilakis, N., Lecuit, M. Zika, Chikungunya, and Other Emerging Vector-Borne Viral Diseases. Annual Review of Medicine. 69, 395-408 (2018).
  2. Burt, F. J., et al. Chikungunya virus: an update on the biology and pathogenesis of this emerging pathogen. The Lancet. Infectious Diseases. 17 (4), 107-117 (2017).
  3. Hua, C., Combe, B. Chikungunya virus-associated disease. Current Rheumatology Reports. 19 (11), 69 (2017).
  4. Suhrbier, A., Jaffar-Bandjee, M. -C., Gasque, P. Arthritogenic alphaviruses-an overview. Nature Reviews Rheumatology. 8 (7), 420-429 (2012).
  5. Nakaya, H. I., et al. Gene profiling of chikungunya virus arthritis in a mouse model reveals significant overlap with rheumatoid arthritis. Arthritis and Rheumatism. 64 (11), 3553-3563 (2012).
  6. Michlmayr, D., et al. Comprehensive innate immune profiling of chikungunya virus infection in pediatric cases. Molecular Systems Biology. 14 (8), 7862 (2018).
  7. Soares-Schanoski, A., et al. Systems analysis of subjects acutely infected with the Chikungunya virus. PLOS Pathogens. 15 (6), 1007880 (2019).
  8. Alexandersen, S., Chamings, A., Bhatta, T. R. SARS-CoV-2 genomic and subgenomic RNAs in diagnostic samples are not an indicator of active replication. Nature Communications. 11 (1), 6059 (2020).
  9. Wang, D., et al. The SARS-CoV-2 subgenome landscape and its novel regulatory features. Molecular Cell. 81 (10), 2135-2147 (2021).
  10. Wilson, J. A. C., et al. RNA-Seq analysis of chikungunya virus infection and identification of granzyme A as a major promoter of arthritic inflammation. PLOS Pathogens. 13 (2), 1006155 (2017).
  11. Gonçalves, A. N. A., et al. Assessing the impact of sample heterogeneity on transcriptome analysis of human diseases using MDP webtool. Frontiers in Genetics. 10, 971 (2019).
  12. Russo, P. S. T., et al. CEMiTool: a Bioconductor package for performing comprehensive modular co-expression analyses. BMC Bioinformatics. 19 (1), 56 (2018).
  13. Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12 (12), 0190152 (2017).
  14. Seyednasrollah, F., Laiho, A., Elo, L. L. Comparison of software packages for detecting differential expression in RNA-seq studies. Briefings in Bioinformatics. 16 (1), 59-70 (2015).
  15. Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, Article17 (2005).
  16. Cheng, C. W., Beech, D. J., Wheatcroft, S. B. Advantages of CEMiTool for gene co-expression analysis of RNA-seq data. Computers in Biology and Medicine. 125, 103975 (2020).
  17. Cardozo, L. E., et al. webCEMiTool: Co-expression modular analysis made easy. Frontiers in Genetics. 10, 146 (2019).
  18. de Lima, D. S., et al. Long noncoding RNAs are involved in multiple immunological pathways in response to vaccination. Proceedings of the National Academy of Sciences of the United States of America. 116 (34), 17121-17126 (2019).
  19. Prada-Medina, C. A., et al. Systems immunology of diabetes-tuberculosis comorbidity reveals signatures of disease complications. Scientific Reports. 7 (1), 1999 (2017).
  20. Chen, E. Y., et al. Enrichr: interactive and collaborative HTML5 gene list enrichment analysis tool. BMC Bioinformatics. 14, 128 (2013).
  21. Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
  22. Raudvere, U., et al. g:Profiler: a web server for functional enrichment analysis and conversions of gene lists (2019 update). Nucleic Acids Research. 47, 191-198 (2019).
  23. Young, M. D., Wakefield, M. J., Smyth, G. K., Oshlack, A. Gene ontology analysis for RNA-seq: accounting for selection bias. Genome Biology. 11 (2), 14 (2010).

Tags

Immunologi och infektion nummer 181 sekvensering med hög genomströmning RNA-seq värdpatogen interaktion differentiellt uttryckta gener samut uttryckta gener funktionell analys molekylär grad av störning av prover
Transkriptomanalys med hög genomströmning för att undersöka värdpatogeninteraktioner
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Aquime Gonçalves, A. N.,More

Aquime Gonçalves, A. N., Escolano Maso, V., Maia Santos de Castro, Í., Pereira Vasconcelos, A., Tomio Ogava, R. L., I Nakaya, H. High-Throughput Transcriptome Analysis for Investigating Host-Pathogen Interactions. J. Vis. Exp. (181), e62324, doi:10.3791/62324 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter