Immunology and Infection

Transkripsjonsanalyse med høy gjennomstrømning for undersøkelse av vertspatogeninteraksjoner

Published: March 5, 2022 doi: 10.3791/62324

André Nicolau Aquime Gonçalves^1,2, Vanessa Escolano Maso³, Ícaro Maia Santos de Castro^2,3, Amanda Pereira Vasconcelos³, Rodrigo Luiz Tomio Ogava^2,3, Helder I Nakaya^2,3,4

¹Laboratory of Pathology of Infectious Diseases, Department of Pathology, Medical School, University of São Paulo, ²Scientific Platform Pasteur USP, ³Department of Clinical and Toxicological Analyses, School of Pharmaceutical Sciences, University of São Paulo, ⁴Hospital Israelita Albert Einstein

Summary

Protokollen som presenteres her beskriver en komplett rørledning for å analysere RNA-sekvensering transkripsjonsdata fra rålesninger til funksjonell analyse, inkludert kvalitetskontroll og forbehandlingstrinn til avanserte statistiske analytiske tilnærminger.

Abstract

Patogener kan forårsake et bredt spekter av smittsomme sykdommer. De biologiske prosessene som er indusert av verten som svar på infeksjon, bestemmer alvorlighetsgraden av sykdommen. For å studere slike prosesser kan forskere bruke sekvenseringsteknikker med høy gjennomstrømning (RNA-seq) som måler de dynamiske endringene i vertstranskripsjonen på ulike stadier av infeksjon, kliniske resultater eller sykdoms alvorlighetsgrad. Denne undersøkelsen kan føre til en bedre forståelse av sykdommene, samt avdekke potensielle narkotikamål og behandlinger. Protokollen som presenteres her beskriver en komplett rørledning for å analysere RNA-sekvenseringsdata fra rådata til funksjonell analyse. Rørledningen er delt inn i fem trinn: (1) kvalitetskontroll av dataene; (2) kartlegging og merknad av gener; (3) statistisk analyse for å identifisere differensialt uttrykte gener og sam-uttrykte gener; (4) Bestemmelse av den molekylære graden av perturbasjon av prøver; og (5) funksjonell analyse. Trinn 1 fjerner tekniske artefakter som kan påvirke kvaliteten på nedstrømsanalyser. I trinn 2 kartlegges og kommenteres gener i henhold til standard bibliotekprotokoller. Den statistiske analysen i trinn 3 identifiserer gener som er differensialt uttrykt eller sam-uttrykt i infiserte prøver, sammenlignet med ikke-infiserte. Prøvevariabilitet og tilstedeværelse av potensielle biologiske outliers verifiseres ved hjelp av den molekylære graden av perturbasjonstilnærming i trinn 4. Til slutt avslører den funksjonelle analysen i trinn 5 veiene forbundet med sykdommen fenotype. Den presenterte rørledningen tar sikte på å støtte forskere gjennom RNA-seq dataanalyse fra host-patogen interaksjonsstudier og drive fremtidige in vitro - eller in vivo-eksperimenter , som er avgjørende for å forstå den molekylære mekanismen for infeksjoner.

Introduction

Arbovirus, som denguefeber, gul feber, chikungunya og zika, har vært mye forbundet med flere endemiske utbrudd og har dukket opp som et av de viktigste patogenene som er ansvarlige for å infisere mennesker de siste ^tiårene1,2. Personer som er smittet med chikungunya-viruset (CHIKV) har ofte feber, hodepine,, polyarytralgi og leddgikt3,4,5. Virus kan undergrave genuttrykket til cellen og påvirke ulike vertssignaleringsveier. Nylig brukte blodtranskripsjonsstudier RNA-seq for å identifisere differensialt uttrykte gener (DEG) forbundet med akutt CHIKV-infeksjon sammenlignet med rekonvalesens6 eller sunne ^kontroller7. CHIKV-infiserte barn hadde oppregulerte gener som er involvert i medfødt immunitet, som de som er relatert til cellulære sensorer for viral RNA, JAK /STAT-signalering og bompengelignende reseptorsignaleringsveier6. Voksne akutt smittet med CHIKV viste også induksjon av gener relatert til medfødt immunitet, som de som er relatert til monocytter og dendritisk celleaktivering, og til antivirale ^responser7. Signalveiene beriket med nedregulerte gener inkluderte de som var relatert til adaptiv immunitet, for eksempel T-celleaktivering og differensiering og berikelse i T- og B-celler7.

Flere metoder kan brukes til å analysere transkripsjonsdata fra verts- og patogengener. Ofte starter RNA-seq bibliotekforberedelse med berikelse av modne poly-A-transkripsjoner. Dette trinnet fjerner det meste av ribosomal RNA (rRNA) og i noen av tilfellene virale / bakterielle RNAer. Men når det biologiske spørsmålet involverer patogenutskriftsdeteksjon og RNA er sekvensert uavhengig av forrige valg, kan mange andre forskjellige transkripsjoner oppdages ved sekvensering. For eksempel har subgenomiske mRNAer vist seg å være en viktig faktor for å verifisere alvorlighetsgraden av ^sykdommene8. I tillegg, for visse virus som CHIKV og SARS-CoV-2, genererer selv poly-A berikede biblioteker virale lesninger som kan brukes i nedstrømsanalyser9,10. Når forskerne fokuserer på analysen av vertstranskripsjonen, kan de undersøke den biologiske perturbasjonen på tvers av prøver, identifisere differensialt uttrykte gener og berikede veier og generere samuttrykksmoduler7,11,12. Denne protokollen fremhever transkripsjonsanalyser av CHIKV-infiserte pasienter og friske personer ved hjelp av ulike bioinformatiske tilnærminger (figur 1A). Data fra en tidligere publisert ^studie7 bestående av 20 friske og 39 CHIKV akutt infiserte personer ble brukt til å generere de representative resultatene.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

Prøvene som ble brukt i denne protokollen ble godkjent av etikkkomiteene fra både Institutt for mikrobiologi ved Institutt for biomedisinske ved Universitetet i São Paulo og Federal University of Sergipe (Protokoller: 54937216.5.0000.5467 og 54835916.2.0000.5546).

1. Docker stasjonær installasjon

MERK: Trinn for å klargjøre Docker-miljøet er forskjellige mellom operativsystemene (OSer). Derfor må Mac-brukere følge trinnene som er oppført som 1.1, Linux-brukere må følge trinnene som er oppført som 1.2, og Windows-brukere må følge trinnene som er oppført som 1.3.

Installer på MacOS.
1. Få tilgang til Get Docker-nettstedet (Tabell over materialer), klikk på Docker Desktop for Mac og klikk deretter på Last ned fra Docker Hub-koblingen .
2. Last ned installasjonsfilen ved å klikke på Get Docker-knappen .
3. Utfør Docker.dmg-filen for å åpne installasjonsprogrammet, og dra deretter ikonet til Programmer-mappen . Lokaliser og utfør Docker.app i Programmer-mappen for å starte programmet.
  MERK: Den programvarespesifikke menyen på den øverste statuslinjen indikerer at programvaren kjører og at den er tilgjengelig fra en terminal.
Installer containerprogrammet på Linux OS.
1. Få tilgang til Get Docker Linux-nettstedet (Tabell over materialer) og følg instruksjonene for installasjon ved hjelp av repositoriumsdelen som er tilgjengelig på Docker Linux Repository-koblingen .
2. Oppdater alle Linux-pakker ved hjelp av kommandolinjen:
  sudo apt-get-oppdatering
3. Installer de nødvendige pakkene i Docker:
  sudo apt-get installere apt-transport-https ca-sertifikater krølle gnupg lsb-release
4. Opprett en nøkkelfil for et programvarearkiv:
  krøll -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /usr/share/keyrings/docker-archive-keyring.gpg
5. Legg til Docker-deb-informasjon i source.list-filen:
  echo "deb [arch=amd64 signed-by=/usr/share/keyrings/docker-archive-keyring.gpg] https://download.docker.com/linux/ubuntu $(lsb_release -cs) stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
6. Oppdater alle pakkene på nytt, inkludert de som nylig ble lagt til:
  sudo apt-get-oppdatering
7. Installer skrivebordsversjonen:
  sudo apt-get installere docker-ce docker-ce-cli containerd.io
8. Velg det geografiske området og tidssonen for å fullføre installasjonsprosessen.
Installer beholderprogrammet på Windows OS.
1. Gå til Get Docker-nettstedet (Tabell over materialer) og klikk på Kom i gang. Finn installasjonsprogrammet for Docker Desktop for Windows. Last ned filene og installer dem lokalt på datamaskinen.
2. Etter nedlastingen starter du installasjonsfilen (.exe) og beholder standardparametrene. Kontroller at de to alternativene Installer nødvendige Windows-komponenter for WSL 2 og Legg til snarvei på skrivebordet er merket.
  MERK: I noen tilfeller, når denne programvaren prøver å starte tjenesten, viser den en feil: WSL-installasjonen er ufullstendig. For å finne ut denne feilen, få tilgang til nettstedet WSL2-Kernel (Tabell over materialer).
3. Last ned og installer den nyeste WSL2 Linux-kjernen.
4. Få tilgang til PowerShell-terminalen som administrator, og utfør kommandoen:
  dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestart
5. Kontroller at programvaren Docker Desktop er installert.
Last ned bildet fra CSBL-repositoriet på Docker-huben (Tabell over materialer).
1. Åpne Docker-skrivebordet, og kontroller at statusen "kjører" nederst til venstre på verktøylinjen.
2. Gå til kommandolinjen for Windows PowerShell-terminalen. Last ned Linux Container-avbildningen for denne protokollen fra CSBL-repositoriet på Docker-huben. Utfør følgende kommando for å laste ned bildet:
  docker trekke csblusp/transcriptome
  MERK: Etter at du har lastet ned bildet, kan du se filen i Docker Desktop. For å opprette beholderen må Windows-brukere følge trinn 1.5, mens Linux-brukere må følge trinn 1.6.
Initialiser serverbeholderen på Windows OS.
1. Vis Docker-bildefilen i Desktop App Manager fra verktøylinjen, og få tilgang til Bilder-siden.
  MERK: Hvis rørledningsbildet ble lastet ned, vil det være et csblusp / transcriptome-bilde tilgjengelig.
2. Start beholderen fra csblusp/transcriptome-bildet ved å klikke på Kjør-knappen . Utvid Valgfrie innstillinger for å konfigurere beholderen.
3. Definer beholdernavnet (f.eks. server).
4. Knytt en mappe på den lokale datamaskinen til mappen i dockeren. Dette gjør du ved å finne vertsbanen. Angi en mappe på den lokale maskinen for å lagre de behandlede dataene som skal lastes ned på slutten. Angi beholderbanen. Definer og koble beholdermappen csblusp/transcriptome til den lokale maskinbanen (bruk navnet "/opt/transferdata" for beholderbanen).
5. Etter dette klikker du på Kjør for å opprette csblusp / transcriptome-beholderen.
6. For å få tilgang til Linux-terminalen fra csblusp / transcriptome-beholderen, klikk på CLI-knappen.
7. Skriv inn bash-terminalen for å få en bedre opplevelse. For dette, utfør kommandoen:
  Bash
8. Når du har utført bash -kommandoen, må du kontrollere at terminalen viser (root@:/#):
  root@ac12c583b731:/ #
Initialiser serverbeholderen for Linux OS.
1. Utfør denne kommandoen for å opprette Docker-beholderen basert på avbildningen:
  docker kjøre -d -it --rm --name server -v :/opt/transferdata csblusp/transcriptome
  MERK: : Definer en bane til den lokale mappemaskinen.
2. Utfør denne kommandoen for å få tilgang til kommandoterminalen for Docker-beholderen:
  docker exec -it server bash
3. Sørg for at en Linux-terminal er tilgjengelig for å kjøre programmer/skript ved hjelp av kommandolinjen.
4. Når du har utført bash -kommandoen, må du kontrollere at terminalen viser (root@:/#):
  root@ac12c583b731:/ #
  MERK: Rotpassordet er "transcriptome" som standard. Hvis du vil, kan rotpassordet endres ved å utføre kommandoen:
  passwd
5. Først utfører du kildekommandoen for å addpath.sh for å sikre at alle verktøyene er tilgjengelige. Utfør kommandoen:
  kilde /opt/addpath.sh
Kontroller strukturen til RNA-sekvenseringsmappen.
1. Få tilgang til mappen for transkripsjonsforløpskript og sørg for at alle data fra RNA-sekvensering lagres inne i mappen: /home/transcriptome-pipeline/data.
2. Forsikre deg om at alle resultatene fra analysen er lagret inne i mappen til banen / home / transcriptome-pipeline / resultater.
3. Sikre at genom- og merknadsreferansefiler lagres i mappen til banen /home/transcriptome-pipeline/datasett. Disse filene vil bidra til å støtte all analyse.
4. Kontroller at alle skript er lagret i mappen til banen /home/transcriptome-pipeline/scripts og atskilt med hvert trinn som beskrevet nedenfor.
Last ned merknaden og det menneskelige genom.
1. Få tilgang til skriptmappen:
  cd /home/transcriptome-pipeline/scripts
2. Utfør denne kommandoen for å laste ned referansen menneskelig genom:
  bash downloadGenome.sh
3. Hvis du vil laste ned merknaden, utfører du kommandoen:
  bash downloadAnnotation.sh
Endre merknaden eller versjonen av referansegenomet.
1. Åpne downloadAnnotation.sh og downloadGenome.sh for å endre URL-adressen til hver fil.
2. Kopier downloadAnnotation.sh- og downloadGenome.sh filer til overføringsområdet og rediger dem i det lokale operativsystemet.
  cd /home/transcriptome-pipeline/scripts
  cp downloadAnnotation.sh downloadGenome.sh /opt/transferdata
3. Åpne Host Path-mappen , som er valgt for kobling mellom verts- og Docker-beholder i trinn 1.5.4.
4. Rediger filene ved hjelp av den foretrukne redigeringsprogramvaren og lagre. Til slutt legger du de endrede filene i skriptmappen. Utfør kommandoen:
  cd /opt/transferdata
  cp downloadAnnotation.sh downloadGenome.sh /home/transcriptome-pipeline/scripts
  MERK: Disse filene kan redigeres direkte ved hjelp av vim eller nano Linux editor.
Deretter konfigurerer du fastq-dump-verktøyet med kommandolinjen:
vdb-config --interaktiv
MERK: Dette gjør det mulig å laste ned sekvenseringsfiler fra eksempeldataene.
1. Naviger på Verktøy-siden ved hjelp av tabulatortasten, og velg gjeldende mappealternativ. Naviger til Lagre alternativet og klikk på OK. Deretter avslutter du fastq-dump-verktøyet.
Start nedlastingen av lesingene fra det tidligere publiserte ^dokumentet7. SRA-tiltredelsesnummeret for hver prøve er nødvendig. Få SRA-numrene fra SRA NCBI-nettstedet (Materialliste).
MERK: For å analysere RNA-Seq-data som er tilgjengelige på offentlige databaser, følg trinn 1.12. Følg trinn 1.13 for å analysere private RNA-seq-data.
Analyser bestemte offentlige data.
1. Gå inn på nettstedet til National Center for Biotechnology Information (NCBI) og søk nøkkelord for et bestemt emne.
2. Klikk på Resultat-lenken for BioProject i Genomes-delen .
3. Velg og klikk på en bestemt studie. Klikk på SRA-eksperimentene. Det åpnes en ny side som viser alle eksemplene som er tilgjengelige for denne studien.
4. Klikk på "Send til:" over tiltredelsesnummeret. Velg Fil og format i alternativet Velg destinasjon, velg RunInfo. Klikk på "Opprett fil" for å eksportere all bibliotekinformasjon.
5. Lagre filen SraRunInfo.csv i vertsbanen som er definert i 1.5.4-trinnet, og utfør nedlastingsskriptet:
  cp /opt/transferdata/SraRunInfo.csv /home/transcriptome-pipeline/data
  cd /home/transcriptome-pipeline/scripts
  bash downloadAllLibraries.sh
Analyser private og upubliserte sekvenseringsdata.
1. Ordne sekvenseringsdataene i en mappe med navnet Leser.
  MERK: I Lese-mappen oppretter du én mappe for hvert eksempel. Disse mappene må ha samme navn for hvert eksempel. Legg til data for hvert eksempel i katalogen. Hvis det er en koblet RNA-Seq, bør hver eksempelmappe inneholde to FASTQ-filer, som må presentere navn som slutter i henhold til mønstrene {sample}_1.fastq.gz og {sample}_2.fastq.gz henholdsvis fremover og bakover. Et eksempel med navnet "Healthy_control" må for eksempel ha en mappe med samme navn og FASTQ-filer med navnet Healthy_control_1.fastq.gz og Healthy_control_2.fastq.gz. Likevel, hvis biblioteksekvenseringen er en enkelt-end strategi, bør bare en lesefil lagres for nedstrømsanalyse. For eksempel må det samme eksemplet, "Sunn kontroll", ha en unik FASTQ-fil med navnet Healthy_control.fastq.gz.
2. Opprett en fenotypisk fil som inneholder alle eksempelnavn: Gi den første kolonnen navnet "Sample" og den andre kolonnen som "Class". Fyll Eksempel-kolonnen med eksempelnavn, som må være samme navn for eksempelmappene, og fyll Klassen-kolonnen med fenotypisk gruppe for hvert utvalg (f.eks. kontroll eller infisert). Til slutt lagrer du en fil med navnet "metadata.tsv" og sender den til /home/transcriptome-pipeline/data/directory. Sjekk ut den eksisterende metadata.tsv for å forstå formatet på fenotypisk fil.
  cp /opt/transferdata/metadata.tsv
  /home/transcriptome-pipeline/data/metadata.tsv
3. Få tilgang til Host Path-katalogen som er definert i trinn 1.5.4, og kopier de nye eksemplene på strukturerte mapper. Til slutt flytter du eksemplene fra /opt/transferdata til datakatalogen for pipeline.
  cp -rf /opt/transferdata/reads/*
  /hjem/transcriptome-pipeline/data/reads/
Vær oppmerksom på at alle lesinger lagres i mappen /home/transcriptome-pipeline/data/reads.

2. Kvalitetskontroll av dataene

MERK: Evaluer, grafisk, sannsynligheten for feil i sekvenseringen lyder. Fjern alle tekniske sekvenser, for eksempel adaptere.

Få tilgang til sekvenseringskvaliteten for biblioteker med FastQC-verktøyet.
1. Hvis du vil generere kvalitetsgrafene, kjører du fastqc-programmet. Utfør kommandoen:
  bash FastQC.sh
  MERK: Resultatene lagres i mappen /home/transcriptome-pipeline/results/FastQC. Siden sekvenskort brukes til klargjøring og sekvensering av biblioteker, kan fragmentene av kortsekvensen i noen tilfeller forstyrre tilordningsprosessen.
Fjern kortsekvensen og leseoperasjoner av lav kvalitet. Få tilgang til Skript-mappen og utfør kommandoen for Trimmomatic-verktøyet:
cd /home/transcriptome-pipeline/scripts
bash trimmomatic.sh
MERK: Parametrene som brukes til sekvenseringsfilter er: Fjern ledende lav kvalitet eller 3 baser (under kvalitet 3) (LEADING:3); Fjern etterfølgende lav kvalitet eller 3 baser (under kvalitet 3) (ETTERFØLGENDE:3); Skann lesingen med et 4-base bredt skyvevindu, kutt når gjennomsnittskvaliteten per base faller under 20 (SLIDINGWINDOW:4:20); og Drop leser under de 36 basene som er lange (MINLEN:36). Disse parameterne kan endres ved å redigere trimmomatisk skriptfil.
1. Kontroller at resultatene lagres i følgende mappe: /home/transcriptome-pipeline/results/trimreads. Utfør kommandoen:
  ls /home/transcriptome-pipeline/results/trimreads

3. Kartlegging og merknad av prøver

MERK: Etter å ha oppnådd god kvalitet leser, disse må kartlegges til referansegenomet. I dette trinnet ble STAR-tilordningen brukt til å tilordne eksempeleksemplene. STAR-tilordningsverktøyet krever 32 GB RAM-minne for å laste inn og utføre lese- og genomkartleggingen. For brukere som ikke har 32 GB RAM-minne, kan allerede tilordnede lesinger brukes. I slike tilfeller hoppe til trinn 3.3 eller bruke Bowtie2 mapper. Denne delen har skript for STAR (resultater vist i alle figurer) og Bowtie2 (nødvendig tilordning med lite minne).

Indekser først referansegenomet for kartleggingsprosessen:
1. Få tilgang til Skript-mappen ved hjelp av kommandolinjen:
  cd /home/transcriptome-pipeline/scripts
2. For STAR-tilordning, utfør:
  bash indexGenome.sh
3. For Bowtie-tilordning, utfør:
  bash indexGenomeBowtie2.sh
Utfør følgende kommando for å tilordne filtrerte lesninger (hentet fra trinn 2) til referansegenomet (GRCh38-versjon). Både STAR- og Bowtie2-tilordninger utføres ved hjelp av standardparametere.
1. For STAR-tilordning, utfør:
  bash mapSTAR.sh
2. For Bowtie2-tilordning, utfør:
  bash mapBowtie2.sh
  MERK: De endelige resultatene er BAM-filer (Binary Alignment Map) til hvert utvalg som er lagret i /home/transcriptome-pipeline/results/mapreads.
Kommenterte kartlagte leser ved hjelp av FeatureCounts-verktøyet for å oppnå rå tellinger for hvert gen. Kjør skriptene som kommenterer lesingene.
MERK: FeatureCounts-verktøyet er ansvarlig for å tilordne kartlagte sekvenseringslesninger til de genomiske funksjonene. De viktigste aspektene ved genommerknader som kan endres etter det biologiske spørsmålet inkluderer deteksjon av isoformer, flere kartlagte lese- og exon-exon-koblinger, som tilsvarer parametrene GTF.attrType="gene_name" for gen eller ikke spesifiserer parametrene for metafunksjonsnivå, henholdsvis allowMultiOverlap=TRUE og juncCounts=TRUE.
1. Få tilgang til skriptmappen ved hjelp av kommandolinjen:
  cd /home/transcriptome-pipeline/scripts
2. Hvis du vil kommentere de tilordnede lesningene for å oppnå råtall per gen, utfører du kommandolinjen:
  Rscript-merknad. R
  MERK: Parameterne som ble brukt for merknadsprosessen var: return gene short name (GTF.attrType="gene_name"); tillat flere overlappinger (allowMultiOverlap = TRUE); og angi at biblioteket er paret (isPairedEnd=TRUE). For enkeltstrategi bruker du parameteren isPairedEnd=FALSE. Resultatene lagres i mappen /home/transcriptome-pipeline/countreads.
Normaliser genuttrykk.
MERK: Normalisering av genuttrykk er avgjørende for å sammenligne resultater mellom utfall (f.eks. sunne og infiserte prøver). Normalisering er også nødvendig for å utføre samuttrykk og molekylær grad av perturbasjonsanalyser.
1. Få tilgang til Skript-mappen ved hjelp av kommandolinjen:
  cd /home/transcriptome-pipeline/scripts
2. Normaliser genuttrykket. For dette, utfør kommandolinjen:
  Rscript normaliserersampler. R
  MERK: Raw Counts-uttrykket ble i dette eksperimentet normalisert ved hjelp av trimmet gjennomsnitt av M-verdier (TMM) og Tell per million (CPM) metoder. Dette trinnet tar sikte på å fjerne forskjeller i genuttrykk på grunn av den tekniske innflytelsen, ved å gjøre normalisering av bibliotekstørrelse. Resultatene lagres i mappen /home/transcriptome-pipeline/countreads.

4. Differensialt uttrykte gener og sam-uttrykte gener

Identifiser differensialt uttrykte gener ved hjelp av EdgeR-pakken med åpen kildekode. Dette innebærer å finne gener hvis uttrykk er høyere eller lavere sammenlignet med kontrollen.
1. Få tilgang til Skript-mappen ved hjelp av kommandolinjen:
  cd /home/transcriptome-pipeline/scripts
2. For å identifisere det differensialt uttrykte genet, utfør DEG_edgeR R-skriptet ved hjelp av kommandolinjen:
  Rscript DEG_edgeR.R
  MERK: Resultatene som inneholder de differensialt uttrykte genene vil bli lagret i mappen /home/transcriptome-pipeline/results/degs. Data kan overføres til en personlig datamaskin.
Last ned data fra csblusp/transcriptome-beholderen.
1. Overfør behandlede data fra /home/transcriptome-pipeline til /opt/transferdata-mappen (lokal datamaskin).
2. Kopier alle filer til den lokale datamaskinen ved å utføre kommandolinjen:
  cp -rf /home/transcriptome-pipeline/results /opt/transferdata/pipeline
  cp -rf /home/transcriptome-pipeline/data /opt/transferdata/pipeline
  MERK: Gå nå til den lokale datamaskinen for å sikre at alle resultatene, datasettene og dataene er tilgjengelige for nedlasting i vertsbanen.
Identifiser kouttrykksmoduler.
1. Få tilgang til nettstedet for CO-Expression Modules Identification Tool (CEMiTool) (Tabell over
  materialer). Dette verktøyet identifiserer samuttrykksmoduler fra uttrykksdatasett fra brukerne. På hovedsiden klikker du på Kjør øverst til høyre. Dette åpner en ny side for å laste opp uttrykksfilen.
2. Klikk på Velg fil under Uttrykksfil-delen og last opp den normaliserte genuttrykksmatrisen 'tmm_expression.tsv' fra vertsbanen.
  MERK: Trinn 4.4. er ikke obligatorisk.
Utforsk den biologiske betydningen av samuttrykksmoduler.
1. Klikk på Velg fil i eksempel phenotyper delen og last opp filen med eksempel fenotyper metadata_cemitool.tsv fra Last ned data trinn 4.2.2. for å utføre en gensettberikelsesanalyse (GSEA).
2. Trykk på Velg fil i Gene Interactions-delen for å laste opp en fil med geninteraksjoner (cemitool-interactions.tsv). Det er mulig å bruke filen med geninteraksjoner gitt som et eksempel av webCEMiTool. Interaksjonene kan være proteinproteininteraksjoner, transkripsjonsfaktorer og deres transkriberte gener, eller metabolske veier. Dette trinnet gir et samhandlingsnettverk for hver samuttrykksmodul.
3. Klikk på Velg fil i Gene Sets-delen for å laste opp en liste over gener som er funksjonelt relatert i en GENE Matrix Transposed (GMT) formatfil. Gene Set-filen gjør det mulig for verktøyet å utføre berikelsesanalyser for hver co-expression-modul, det vil si en overrepresentasjonsanalyse (ORA).
  MERK: Denne listen over gener kan omfatte veier, GO-termer eller miRNA-målgener. Forskeren kan bruke blodtranskripsjonsmodulene (BTM) som gensett for denne analysen. BTM-filen (BTM_for_GSEA.gmt).
Angi parametere for å utføre samuttrykksanalyser og oppnå resultatene.
1. Utvid deretter Parameter-delen ved å klikke på plusstegnet for å vise standardparametrene. Endre dem om nødvendig. Merk av for Bruk VST .
2. Skriv e-posten i E-post-delen for å motta resultater som en e-post. Dette trinnet er valgfritt.
3. Trykk på Kjør CEMiTool-knappen .
4. Last ned hele analyserapporten ved å klikke på Last ned full rapport øverst til høyre. Den vil laste ned en komprimert fil cemitool_results.zip.
5. Pakk ut innholdet i cemitool_results.zip med WinRAR.
  MERK: Mappen med det utpakkede innholdet omfatter flere filer med alle resultatene av analysen og deres etablerte parametere.

5. Bestemmelse av molekylær grad av perturbasjon av prøver

Molekylær grad av perturbasjon (MDP) webversjon.
1. For å kjøre MDP, få tilgang til MDP-nettstedet (Tabell over materialer). MDP beregner molekylær avstand for hver prøve fra referansen. Klikk på Kjør-knappen .
2. Last opp uttrykksfilen tmm_expression.tsv på Velg fil-koblingen . Last deretter opp den fenotypiske datafilen metadata.tsv fra Last ned data trinn 4.2.2. Det er også mulig å sende inn en banemerknadsfil i GMT-format for å beregne perturbasjonspoengene til veiene forbundet med sykdommen.
3. Når dataene er lastet opp, definerer du Klasse-kolonnen som inneholder fenotypisk informasjon som brukes av MDP. Deretter definerer du kontrollklassen ved å velge etiketten som tilsvarer kontrollklassen.
  MERK: Det er noen valgfrie parametere som påvirker hvordan utvalgspoengene beregnes. Om nødvendig kan brukeren endre statistikkens gjennomsnittsmetode, standardavvik og toppprosent av de perturberte genene.
4. Deretter trykker du på Kjør MDP-knappen , og MDP-resultatene vises. Brukeren kan laste ned tallene ved å klikke på Last ned plott i hvert plott, samt MDP-poengsummen på Last ned MDP Score File-knappen .
  MERK: I tilfelle spørsmål om hvordan du sender inn filene eller hvordan MDP fungerer, bare gå gjennom Tutorial og Om nettsider.

6. Funksjonell berikelsesanalyse

Opprett én liste over nedregulerte DEG-er og en annen av oppregulerte DEG-er. Gennavn må være i henhold til Entrez gensymboler. Hvert gen på listen må plasseres på en linje.
Lagre genlistene i txt- eller tsv-format.
Få tilgang til Enrichrs nettsted (Materialfortegnelse) for å utføre den funksjonelle analysen.
Velg listen over gener ved å klikke på Velg fil. Velg en av DEGs-listen, og trykk Send-knappen .
Klikk på Pathways øverst på nettsiden for å utføre funksjonell berikelsesanalyse med ORA-tilnærmingen.
Velg en banedatabase. "Reactome 2016" pathway database er bredt brukt til å få den biologiske betydningen av menneskelige data.
Klikk på navnet på banedatabasen igjen. Velg Stolpediagram , og kontroller om det er sortert etter p-verdirangering. Hvis ikke, klikker du på stolpediagrammet til det er sortert etter p-verdi. Denne stolpediagrammet inneholder de 10 øverste banene i henhold til p-verdier.
Trykk på Konfigurasjon-knappen og velg den røde fargen for den oppregulerte genanalysen eller blå fargen for nedregulert genanalyse. Lagre stolpediagrammet i flere formater ved å klikke på svg, png og jpg.
Velg Tabell , og klikk Eksporter oppføringer til tabellen nederst til venstre i stolpediagrammet for å få de funksjonelle berikelsesanalyseresultatene i en txt-fil.
MERK: Denne funksjonelle berikelsesresultatfilen omfatter i hver linje navnet på en bane, antall overlappende gener mellom den innsendte DEG-listen og banen, p-verdien, justert p-verdi, oddsforhold, kombinert poengsum og gensymbolet for gener som er tilstede i DEG-listen som deltar i banen.
Gjenta de samme trinnene med den andre DEG-listen.
MERK: Analysen med nedregulerte DEG-er gir veier beriket for nedregulerte gener, og analysen med oppregulerte gener gir veier beriket for oppregulerte gener.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Datamiljøet for transkripsjonsanalyser ble opprettet og konfigurert på Docker-plattformen. Denne tilnærmingen gjør det mulig for nybegynnere Linux-brukere å bruke Linux-terminalsystemer uten kjennskap til prioriteringsadministrasjon. Docker-plattformen bruker ressursene til vertsoperativsystemet til å opprette en tjenestebeholder som inneholder bestemte brukeres verktøy (figur 1B). En beholder basert på Linux OS Ubuntu 20.04-distribusjonen ble opprettet, og den ble fullstendig konfigurert for transkripsjonsanalyser, som er tilgjengelig via kommandolinjeterminalen. I denne beholderen er det en forhåndsdefinert mappestruktur for datasett og skript som er nødvendig for alle rørledningsanalyser (figur 1C). En studie publisert av vår ^{forskningsgruppe7} ble brukt til analyser, og den besto av 20 prøver fra friske individer og 39 prøver fra CHIKV akutt infiserte individer (figur 1D).

Prosessen med total RNA-sekvensering kan generere lesefeil, som kan være forårsaket av en klynge med to eller flere transkripsjoner eller uttømming av reagenser. Sekvenseringsplattformene returnerer et sett med "FASTQ"-filer som inneholder sekvensen (lest) og tilhørende kvalitet for hver nukleotidbase (figur 2A). Phred-kvalitetsskalaen indikerer sannsynligheten for feil avlesning av hvert grunnlag (figur 2B). Lesing av lav kvalitet kan generere en skjevhet eller feil genuttrykk, noe som utløser påfølgende feil i nedstrømsanalyser. Verktøy som Trimmomatic ble utviklet for å identifisere og fjerne leseoperasjoner av lav kvalitet fra prøver og for å øke sannsynligheten for å kartlegge lesninger (figur 2C, D).

Kartleggingsmodulen ble forhåndskonfigurert med STAR-justeringen og GRCh38 human host som referansegenom. I dette trinnet brukes leseoperasjoner av høy kvalitet som ble gjenopprettet fra forrige trinn, som inndata for å tilpasse seg det menneskelige referansegenomet (figur 3A). STAR aligner sender en justering av tilordnede lesninger til et referansegenom i BAM-formatfilen. Basert på denne justeringen utfører FeatureCounts-verktøyet merknaden av funksjoner (gener) til de justerte lesningene ved hjelp av referansemerknaden til den menneskelige verten i GTF-filformat (figur 3B). Til slutt genereres uttrykksmatrisen med hvert gennavn som én rad, og hvert utvalg som én kolonne genereres (figur 3C). En ekstra metadatafil som inneholder eksempelnavnene og respektive eksempelgrupper, må også gis for videre nedstrømsanalyse. Genuttrykksmatrisen representerer antall tellinger som er kartlagt for hvert gen blant prøver, som kan brukes som EdgeR-inndata for å identifisere DEG-er. I tillegg ble denne genuttrykksmatrisen normalisert ved hjelp av TMM og CPM for å fjerne den tekniske variasjonen og korrigere RNA-seq-målingen ved å vurdere andelen uttrykte gener i den totale bibliotekstørrelsen blant prøver. Denne matrisen ble videre brukt som innspill til samuttrykk og MDP-analyser.

CEMiTool identifiserer og analyserer samuttrykksmodulene12. Gener som er i samme modul uttrykkes samtidig, noe som betyr at de viser lignende uttrykksmønstre på tvers av utvalgene av datasettet. Dette verktøyet tillater også utforskning av den biologiske betydningen av hver identifisert modul. For dette gir den tre valgfrie analyser - funksjonell berikelsesanalyse av GSEA, funksjonell berikelsesanalyse av Over Representation Analysis (ORA) og nettverksanalyse. Funksjonell berikelsesanalyse fra GSEA gir informasjon om genuttrykket til hver modul ved hver fenotype (figur 4A). I følge dette muliggjør det identifisering av modulene som er undertrykt eller indusert ved hver fenotype. ORA-analysen viser de 10 mest berikede biologiske funksjonene i hver modul sortert etter justerte p-verdier. Det er mulig å kombinere GSEA- og ORA-resultatene for å identifisere svekkede biologiske prosesser og hvis de blir undertrykt eller indusert av fenotypen av interesse. Nettverksanalyser gir et interaktivitet av hver modul (figur 4A). Det muliggjør visualisering av hvordan gener i hver modul samhandler. I tillegg til dette gir nettverksanalyse informasjon om de mest tilkoblede genene, hubene, som identifiseres av navnene deres i nettverket. Størrelsen på nodene representerer tilkoblingsgraden.

For å identifisere DEG-er ble det utviklet et internt skript for å kjøre en ende-til-ende differensialanalyse i en enveis og kortfattet kommandolinje. Skriptet utfører alle trinnene som kreves for å utføre en DEG-analyse, og sammenligner forskjellige eksempelgrupper fra brukeren i en metadatafil. I tillegg lagres DEG-resultatene i separate lister over nedregulerte og oppregulerte gener, og deretter kompileres i en publikasjonsklar figur (figur 4B) ved hjelp av EnhancedVolcano R-pakken fra Bioconductor.

Analysen av den molekylære graden av perturbasjon utført av MDP-verktøyet gjør det mulig for oss å identifisere perturbede prøver fra friske og infiserte ^individer11. Perturbasjonspoengsummen beregnes med tanke på alle uttrykte gener for hver CHIKV-infiserte prøve og vurderer de sunne prøvene som referansegruppen (figur 5A). MDP utfører også analysen bare ved hjelp av de øverste 25% av de mest perturberte genene fra disse prøvene (figur 5B). Prøver kan gi stor variasjon gitt genetisk bakgrunn, alder, kjønn eller andre tidligere sykdommer. Disse faktorene kan endre transkripsjonsprofilen. Basert på dette foreslår MDP hvilke prøver som er potensielle biologiske outliers for å fjerne dem og forbedre nedstrømsresultater (figur 5A, B).

En funksjonell berikelsesanalyse av ORA kan utføres ved hjelp av Enrichr for å identifisere den biologiske betydningen av DEG-er. Resultatene som gis basert på listen over nedregulerte gener indikerer de undertrykte biologiske prosessene i fenotypen som studeres, mens resultatene som gis basert på listen over oppregulerte gener presenterer de biologiske prosessene som er indusert i fenotypen av interesse. De biologiske prosessene som vises i bargrafen generert av Enrichr er de 10 beste berikede gensettene basert på p-verdirangeringen (figur 6).

Figur 1: Miljø docker og eksempelstudie. (A) Docker-plattformen bruker OS Host-ressursene til å lage "Containers" for Linux-systemet som inneholder verktøy for transkripsjonsanalyser. (B) Docker Container simulerer et Linux-system for å utføre rørledningsskript. (C) Mappestrukturen for transkripsjonspipeline ble opprettet og organisert for lagring av datasett og skript for analyse. (D) Studien fra vår gruppe ble brukt som eksempel på transkripsjonsanalyser. Klikk her for å se en større versjon av denne figuren.

Figur 2: Kvalitetskontroll av sekvensering. (A) FASTQ-formatfilen brukes til å representere sekvens- og nukleotidbasekvalitet. (B) Phred score ligning, hvor hver 10 øker en logg sannsynlighet feillesing base. (C) og (D) Boxplot representerer en kvalitetsfordeling av hver nukleotidbase før og etter Trimmomatisk utførelse. Klikk her for å se en større versjon av denne figuren.

Figur 3: Kartleggings- og merknadsprosess fra sekvens til gentellingsuttrykk. (A) Kartleggingen består i å justere sekvensen fra transkripsjonen og sekvensen fra genomet for å identifisere den genomiske lokaliseringen. (B) Kartlagte lesninger til referansegenomet er kommentert basert på deres genomiske lokalisering av overlapping. (C) Basert på kartfilverktøyene som featureCounts, oppsummeres genuttrykket. Klikk her for å se en større versjon av denne figuren.

Figur 4: Sam-uttrykt gennettverk og statistisk analyse av DEGs. (A) Moduler av samuttrykk basert på genuttrykk og proteinproteininteraksjonsnettverket fra modulgener. (B) Statistisk analyse av CHIKV akutt infiserte og friske individer, og differensialgenuttrykk i rødt (p-verdi og log2FC-kriterier), lilla (bare p-verdi), grønn (bare log2FC) og grå (ingen betydning). Klikk her for å se en større versjon av denne figuren.

Figur 5: Molekylær grad av perturbasjon (MDP) av CHIKV akutt infiserte og friske individer. (A) MDP-skår for hver prøve ved hjelp av alle uttrykte gener fra transkripsjonen. (B) MDP-skår for hver prøve ved hjelp av bare de øverste 25% av de mest perturberte genene. Klikk her for å se en større versjon av denne figuren.

Figur 6: Funksjonell analyse for DEGs. (A) Oppregulerte og (B) Nedregulerte gener ble sendt til Enrichrs nettstedsverktøy for å vurdere biologiske veier eller representative gensett. P-verdier ble beregnet for hver bane, og bare signifikante forskjeller ble vist i grafikken. Klikk her for å se en større versjon av denne figuren.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Utarbeidelsen av sekvenseringsbibliotekene er et avgjørende skritt mot å svare på biologiske spørsmål på best mulig måte. Type transkripsjoner av interesse for studien vil veilede hvilken type sekvenseringsbibliotek som skal velges og drive bioinformatiske analyser. For eksempel, fra sekvensering av et patogen og vertsinteraksjon, i henhold til sekvenseringstypen, er det mulig å identifisere sekvenser fra begge eller bare fra vertsutskriftene.

Neste generasjons sekvenseringsutstyr, for eksempel Illumina-plattformen, måler sekvenseringskvalitetsresultatene, noe som står for sannsynligheten for at en base kalles feil. Nedstrømsanalysene er svært følsomme for sekvenser av lav kvalitet og fører til underlesing eller feillesing av genuttrykk. Et annet hinder for å utføre korrekte analyser og tolkning er kortsekvenser. Kortsekvenser hjelper til med klargjøring og sekvensering av biblioteker, og i de fleste tilfeller er kort også sekvensert. Nyere studier har identifisert at effekten av kartleggingsverktøyet på de endelige resultatene er ^minimal13. I patogenvertsstudier kan imidlertid kartleggingsprosessen gi litt bedre resultater når du tester forskjellige terskler for å minimere problemer med flertilordnede locussekvenser.

Differensialgenuttrykksresultater bør tolkes med en viss forsiktighet, spesielt når antall prøver per gruppe er svært lite og prøver kom fra forskjellige analyser og forstyrret av batcheffekter deS resultat. Disse resultatene er følsomme for flere faktorer: (i) datafiltrering som brukes, for eksempel fjerning av lav-uttrykte gener og antall prøver som skal vedlikeholdes; (ii) studiedesign, for å sammenligne bare blant utvalgsgrupper eller hver infisert pasient vs alle kontrollpasienter, som illustrert i CHIKV-studie7; og (iii) statistisk metode som brukes til å identifisere DEG-er. Her illustrerer vi et grunnleggende eksempel med EdgeR for å identifisere DEGs forutsatt en terskel p-verdi på 0,05. Det er også kjent i litteraturen at EdgeR, sammenlignet med andre benchmark-metoder, kan ha et stort utvalg av variasjoner i å identifisere ^DEGs14. Man kan vurdere avveiningen mellom slike forskjellige metoder og ta hensyn til antall repliker som er tilgjengelige og kompleksiteten i det eksperimentelle ^designet14.

CEMiTool utfører samuttrykksmodulanalyser12. Dette verktøyet er tilgjengelig gjennom R-pakken på Bioconductor-repositoriet, og det er også tilgjengelig i en brukervennlig versjon gjennom webCEMiTool; sistnevnte er versjonen som brukes i denne gjeldende protokollen. Dette er en alternativ programvare i forhold til ^WGCNA15 som presenterer flere fordeler sammenlignet med ^sistnevnte16, inkludert det faktum at det er mer ^{brukervennlig17}. Videre har dette verktøyet en automatisk metode for å filtrere gener, mens i WGCNA må brukeren filtrere genene før WGCNA-bruk. I tillegg har dette verktøyet standardparametere etablert, mens i WGCNA må brukeren manuelt velge parameteranalysene. Valg av manuell parameter svekker reproduserbarheten. Derfor garanterer automatisk valg av parametere forbedret reproduserbarhet.

I visse tilfeller er CEMiTool ikke i stand til å finne en passende myk terskel, også kalt β verdi. I dette tilfellet bør brukeren kontrollere om RNA-seq-dataene presenterer sterk avhengighet av gjennomsnittlig varians. Hvis gjennomsnittet viser et sterkt lineært forhold til variansen (med tanke på alle gener), må brukeren kjøre analysene på nytt ved å sjekke parameteren "Apply VST" for å fjerne middelverdiavhengigheten til de transomiske dataene. Det er alltid viktig å kontrollere om det er en sterk avhengighet av gjennomsnittlig varians i dataene, og fjerne den når den finnes.

CEMiTool har blitt mye brukt til å identifisere og utforske den biologiske betydningen av samuttrykksmoduler. En CHIKV akutt infeksjonsstudie viste en modul med høyere aktivitet hos pasienter etter 2 til 4 dager med ^{symptomstart7}. Den funksjonelle berikelsen av denne modulen av ORA viste en økning i monocytter og nøytrofiler7. En influensavaksinasjonsstudie ved hjelp av blodtranskripsjon fra baseline til dag 7 post-vaksinasjon presenterte co-uttrykksmoduler funksjonelt beriket for biologiske prosesser relatert til T, B og naturlige morderceller, monocytter, nøytrofiler, interferonresponser og ^{blodplateaktivering18}.

Med tanke på variasjonen fra transkripsjonsdatasett, kan identifisering og kvantifiser data heterogenitet være en utfordring siden mange variabler kan påvirke genuttrykksprofilen7,11. MDP gir en måte å identifisere og kvantifisere perturbede prøver fra friske og infiserte personer ved å følge disse trinnene: (i) beregne en sentralitetsmetode (median eller middelverdi) og standardavvik for kontrollprøver; (ii) bruke de oppnådde verdiene beregne z-skår av alle gener; (iii) sette en terskel z-score absolutt større enn 2, noe som indikerer representative avvik fra kontrollprøver; og (iv) beregne gjennomsnittet av genverdier ved hjelp av poengsummene filtrert for hver prøve. Til tross for å ha noen begrensninger for scRNA-seq-analyse, var dette verktøyet funksjonelt for å bestemme perturbasjonspoengene fra mikroarray og RNA-seq ^data11. I tillegg har en tidligere studie brukt dette verktøyet for å demonstrere den molekylære graden av perturbasjon forhøyet på blodtranskripsjonom i tuberkulose og diabetes mellituspasienter19. I dette arbeidet er perturbasjonen av kontroll og CHIKV akutt infiserte prøver ved hjelp av friske individer som referansegruppen blitt vist.

Den funksjonelle berikelsesanalysen utført av Enrichr er ^ORA20,21. ORA er en type funksjonell berikelsesanalyse der brukeren må oppgi listen over DEG-er til verktøyet. Listen over DEG-er er vanligvis atskilt i en nedregulert DEG-liste og i en oppregulert DEG-liste. Det finnes andre verktøy for å utføre ORA, blant dem gProfiler, som er tilgjengelig i en brukervennlig ^webversjon22 og goseq23 som er tilgjengelig som en R-pakke på Bioconductor. En annen type funksjonell berikelsesanalyse er GSEA. For å utføre GSEA må brukeren oppgi alle gener i en rangert liste. Denne listen er vanligvis rangert i henhold til genuttrykket i foldeendring.

Enrichr gir alltid de 10 beste gensettene beriket basert på p-verdiene i bargrafresultatet. Derfor må brukeren være våken når han tolker resultatene, hvis det er mindre enn 10 berikede gensett, vil bargrafen også vise ikke-berikede biologiske prosesser. For å unngå denne feilen må brukeren etablere en avskjæring for p-verdien og observere p-verdiene til banene før han antar at alle gensettene i stolpegrafen er beriket. Videre må brukeren være klar over at rekkefølgen på de 10 gensettene som vises i stolpegrafen er i henhold til p-verdiene, ikke de justerte p-verdiene. I tilfelle brukeren ønsker å vise alle berikede veier i en stolpegraf eller til og med omorganisere i henhold til de justerte p-verdiene, anbefales det at brukeren oppretter sin egen stolpediagram ved hjelp av tabellen lastet ned. Brukeren kan lage en ny stolpegraf ved hjelp av Excel eller til og med R-programvare.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatterne har ingenting å avsløre.

Acknowledgments

HN er finansiert av FAPESP (tilskuddsnumre: #2017/50137-3, 2012/19278-6, 2018/14933-2, 2018/21934-5 og 2013/08216-2) og CNPq (313662/2017-7).

Vi er spesielt takknemlige for følgende tilskudd til stipendiater: ANAG (FAPESP Process 2019/13880-5), VEM (FAPESP Process 2019/16418-0), IMSC (FAPESP Process 2020/05284-0), APV (FAPESP Process 2019/27146-1) og RLTO (CNPq Prosess 134204/2019-0).

Materials

Name	Company	Catalog Number	Comments
CEMiTool	Computational Systems Biology Laboratory	1.12.2	Discovery and the analysis of co-expression gene modules in a fully automatic manner, while providing a user-friendly HTML report with high-quality graphs.
EdgeR	Bioconductor (Maintainer: Yunshun Chen [yuchen at wehi.edu.au])	3.30.3	Differential expression analysis of RNA-seq expression profiles with biological replication
EnhancedVolcano	Bioconductor (Maintainer: Kevin Blighe [kevin at clinicalbioinformatics.co.uk])	1.6.0	Publication-ready volcano plots with enhanced colouring and labeling
FastQC	Babraham Bioinformatics	0.11.9	Aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing
FeatureCounts	Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research	2.0.0	Assign mapped sequencing reads to specified genomic features
MDP	Computational Systems Biology Laboratory	1.8.0	Molecular Degree of Perturbation calculates scores for transcriptome data samples based on their perturbation from controls
R	R Core Group	4.0.3	Programming language and free software environment for statistical computing and graphics
STAR	Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research	2.7.6a	Aligner designed to specifically address many of the challenges of RNA-seq data mapping using a strategy to account for spliced alignments
Bowtie2	Johns Hopkins University	2.4.2	Ultrafast and memory-efficient tool for aligning sequencing reads to long reference sequences
Trimmomatic	THE USADEL LAB	0.39	Trimming adapter sequence tasks for Illumina paired-end and single-ended data
Get Docker	Docker	20.10.2	Create a bioinformatic environment reproducible and predictable (https://docs.docker.com/get-docker/)
WSL2-Kernel	Windows	NA	https://docs.microsoft.com/en-us/windows/wsl/wsl2-kernel
Get Docker Linux	Docker	NA	https://docs.docker.com/engine/install/ubuntu/
Docker Linux Repository	Docker	NA	https://docs.docker.com/engine/install/ubuntu/#install-using-the-repository
MDP Website	Computational Systems Biology Laboratory	NA	https://mdp.sysbio.tools
Enrichr Website	MaayanLab	NA	https://maayanlab.cloud/Enrichr/
webCEMiTool	Computational Systems Biology Laboratory	NA	https://cemitool.sysbio.tools/
gProfiler	Bioinformatics, Algorithmics and Data Mining Group	NA	https://biit.cs.ut.ee/gprofiler/gost
goseq	Bioconductor (Maintainer: Matthew Young [my4 at sanger.ac.uk])	NA	http://bioconductor.org/packages/release/bioc/html/goseq.html
SRA NCBI study	NCBI	NA	https://www.ncbi.nlm.nih.gov/bioproject/PRJNA507472/

DOWNLOAD MATERIALS LIST

References

Weaver, S. C., Charlier, C., Vasilakis, N., Lecuit, M. Zika, Chikungunya, and Other Emerging Vector-Borne Viral Diseases. Annual Review of Medicine. 69, 395-408 (2018).
Burt, F. J., et al. Chikungunya virus: an update on the biology and pathogenesis of this emerging pathogen. The Lancet. Infectious Diseases. 17 (4), 107-117 (2017).
Hua, C., Combe, B. Chikungunya virus-associated disease. Current Rheumatology Reports. 19 (11), 69 (2017).
Suhrbier, A., Jaffar-Bandjee, M. -C., Gasque, P. Arthritogenic alphaviruses-an overview. Nature Reviews Rheumatology. 8 (7), 420-429 (2012).
Nakaya, H. I., et al. Gene profiling of chikungunya virus arthritis in a mouse model reveals significant overlap with rheumatoid arthritis. Arthritis and Rheumatism. 64 (11), 3553-3563 (2012).
Michlmayr, D., et al. Comprehensive innate immune profiling of chikungunya virus infection in pediatric cases. Molecular Systems Biology. 14 (8), 7862 (2018).
Soares-Schanoski, A., et al. Systems analysis of subjects acutely infected with the Chikungunya virus. PLOS Pathogens. 15 (6), 1007880 (2019).
Alexandersen, S., Chamings, A., Bhatta, T. R. SARS-CoV-2 genomic and subgenomic RNAs in diagnostic samples are not an indicator of active replication. Nature Communications. 11 (1), 6059 (2020).
Wang, D., et al. The SARS-CoV-2 subgenome landscape and its novel regulatory features. Molecular Cell. 81 (10), 2135-2147 (2021).
Wilson, J. A. C., et al. RNA-Seq analysis of chikungunya virus infection and identification of granzyme A as a major promoter of arthritic inflammation. PLOS Pathogens. 13 (2), 1006155 (2017).
Gonçalves, A. N. A., et al. Assessing the impact of sample heterogeneity on transcriptome analysis of human diseases using MDP webtool. Frontiers in Genetics. 10, 971 (2019).
Russo, P. S. T., et al. CEMiTool: a Bioconductor package for performing comprehensive modular co-expression analyses. BMC Bioinformatics. 19 (1), 56 (2018).
Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12 (12), 0190152 (2017).
Seyednasrollah, F., Laiho, A., Elo, L. L. Comparison of software packages for detecting differential expression in RNA-seq studies. Briefings in Bioinformatics. 16 (1), 59-70 (2015).
Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, Article17 (2005).
Cheng, C. W., Beech, D. J., Wheatcroft, S. B. Advantages of CEMiTool for gene co-expression analysis of RNA-seq data. Computers in Biology and Medicine. 125, 103975 (2020).
Cardozo, L. E., et al. webCEMiTool: Co-expression modular analysis made easy. Frontiers in Genetics. 10, 146 (2019).
de Lima, D. S., et al. Long noncoding RNAs are involved in multiple immunological pathways in response to vaccination. Proceedings of the National Academy of Sciences of the United States of America. 116 (34), 17121-17126 (2019).
Prada-Medina, C. A., et al. Systems immunology of diabetes-tuberculosis comorbidity reveals signatures of disease complications. Scientific Reports. 7 (1), 1999 (2017).
Chen, E. Y., et al. Enrichr: interactive and collaborative HTML5 gene list enrichment analysis tool. BMC Bioinformatics. 14, 128 (2013).
Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
Raudvere, U., et al. g:Profiler: a web server for functional enrichment analysis and conversions of gene lists (2019 update). Nucleic Acids Research. 47, 191-198 (2019).
Young, M. D., Wakefield, M. J., Smyth, G. K., Oshlack, A. Gene ontology analysis for RNA-seq: accounting for selection bias. Genome Biology. 11 (2), 14 (2010).

Immunology and Infection

Transkripsjonsanalyse med høy gjennomstrømning for undersøkelse av vertspatogeninteraksjoner

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.