Immunology and Infection

High-Throughput Transcriptome Analyse til undersøgelse af Host-Patogen Interaktioner

Published: March 5, 2022 doi: 10.3791/62324

André Nicolau Aquime Gonçalves^1,2, Vanessa Escolano Maso³, Ícaro Maia Santos de Castro^2,3, Amanda Pereira Vasconcelos³, Rodrigo Luiz Tomio Ogava^2,3, Helder I Nakaya^2,3,4

¹Laboratory of Pathology of Infectious Diseases, Department of Pathology, Medical School, University of São Paulo, ²Scientific Platform Pasteur USP, ³Department of Clinical and Toxicological Analyses, School of Pharmaceutical Sciences, University of São Paulo, ⁴Hospital Israelita Albert Einstein

Summary

Den protokol, der præsenteres her, beskriver en komplet pipeline til at analysere RNA-sekventering af transskriptionomdata fra rå læser til funktionel analyse, herunder kvalitetskontrol og forbehandlingstrin til avancerede statistiske analytiske tilgange.

Abstract

Patogener kan forårsage en bred vifte af smitsomme sygdomme. De biologiske processer induceret af værten som reaktion på infektion bestemme sværhedsgraden af sygdommen. For at studere sådanne processer, forskere kan bruge high-throughput sekventering teknikker (RNA-seq), der måler de dynamiske ændringer af værten transcriptome på forskellige stadier af infektion, kliniske resultater, eller sygdom sværhedsgrad. Denne undersøgelse kan føre til en bedre forståelse af sygdommene, samt afdække potentielle lægemiddelmål og behandlinger. Protokollen, der præsenteres her, beskriver en komplet pipeline til at analysere RNA-sekventeringsdata fra rå læser til funktionel analyse. Rørledningen er opdelt i fem trin: 1) kvalitetskontrol af dataene; 2) kortlægning og anmærkning af gener 3) statistisk analyse med det formål at identificere forskelligt udtrykte gener og samtil udtrykte gener 4) bestemmelse af den molekylære grad af forstyrrelse af prøver og (5) funktionel analyse. Trin 1 fjerner tekniske artefakter, der kan påvirke kvaliteten af downstream-analyser. I trin 2 kortlægges og kommenteres gener i henhold til standardbiblioteksprotokoller. Den statistiske analyse i trin 3 identificerer gener, der er differentieret udtrykt eller co-udtrykt i inficerede prøver, i forhold til ikke-inficerede. Prøvevariation og tilstedeværelsen af potentielle biologiske outliers verificeres ved hjælp af den molekylære grad af forstyrrelsesmetode i trin 4. Endelig afslører den funktionelle analyse i trin 5 de veje, der er forbundet med sygdommens fænotype. Den præsenterede pipeline har til formål at støtte forskere gennem RNA-seq dataanalyse fra værtspatogeninteraktionsundersøgelser og drive fremtidige in vitro - eller in vivo-eksperimenter , der er afgørende for at forstå den molekylære mekanisme af infektioner.

Introduction

Arbovirus, såsom denguefeber, gul feber, chikungunya og zika, har været meget forbundet med flere endemiske udbrud og har vist sig som et af de vigtigste patogener, der er ansvarlige for at inficere mennesker i de sidste ^årtier1,2. Personer inficeret med chikungunya virus (CHIKV) har ofte feber, hovedpine, udslæt, polyarthralgi, og ^{arthritis3,4,5}. Vira kan undergrave cellens genekspression og påvirke forskellige værtssignaleringsveje. For nylig, blod transcriptome undersøgelser udnyttet RNA-seq at identificere de differentieret udtrykte gener (DEGs) forbundet med akut CHIKV infektion i forhold til rekonvalescens6 eller sunde ^kontroller7. CHIKV-inficerede børn havde up-regulerede gener, der er involveret i medfødt immunitet, såsom dem, der er relateret til cellulære sensorer til viral RNA, JAK / STAT signalering, og toll-lignende receptor signalering ^veje6. Voksne akut inficeret med CHIKV viste også induktion af gener relateret til medfødt immunitet, såsom dem, der er relateret til monocytter og dendritisk celleaktivering, og til antivirale ^reaktioner7. Signalvejene beriget med nedregulerede gener omfattede dem, der var relateret til adaptiv immunitet, såsom T-celleaktivering og differentiering og berigelse i T- og B-celler7.

Flere metoder kan bruges til at analysere transcriptome data af vært og patogen gener. Ofte starter RNA-seq biblioteksforberedelse med berigelse af modne poly-A udskrifter. Dette trin fjerner de fleste af de ribosomale RNA (rRNA) og i nogle af tilfældene virale / bakterielle RNA'er. Men når det biologiske spørgsmål involverer patogenudskriftsdetektering, og RNA er sekventeret uafhængigt af den tidligere udvælgelse, kan mange andre forskellige udskrifter påvises ved sekventering. For eksempel har subgenomic mRNAs vist sig at være en vigtig faktor for at kontrollere sværhedsgraden af ^sygdommene8. Hertil kommer, for visse vira såsom CHIKV og SARS-CoV-2, selv poly-A beriget biblioteker generere virale læser, der kan udnyttes i downstream ^analyser9,10. Når forskerne fokuserer på analysen af værtstransskriptionen, kan de undersøge den biologiske forstyrrelse på tværs af prøver, identificere differentierede gener og berigede veje og generere co-expression moduler7,11,12. Denne protokol fremhæver transcriptomanalyser af CHIKV-inficerede patienter og raske personer, der anvender forskellige bioinformatiske tilgange (figur 1A). Data fra en tidligere offentliggjort ^{undersøgelse7} bestående af 20 raske og 39 CHIKV akut inficerede personer blev brugt til at generere de repræsentative resultater.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

Prøverne i denne protokol blev godkendt af de etiske komitéer fra både Institut for Mikrobiologi ved Institut for Biomedicinsk Videnskab ved universitetet i São Paulo og Federal University of Sergipe (Protokoller: 54937216.5.0000.5467 og 54835916.2.0000.5546).

1. Docker-installation på computeren

BEMÆRK: Trin til forberedelse af Docker-miljøet er forskellige blandt operativsystemer (OS'er). Derfor skal Mac-brugere følge trin, der er angivet som 1.1, Linux-brugere skal følge trin, der er angivet som 1.2, og Windows-brugere skal følge trin, der er angivet som 1.3.

Installer på MacOS.
1. Få adgang til Get Docker-webstedet (Tabel over materialer), klik på Docker Desktop til Mac , og klik derefter på linket Download fra Docker Hub .
2. Hent installationsfilen ved at klikke på knappen Hent Docker .
3. Udfør docker.dmg-filen for at åbne installationsprogrammet, og træk derefter ikonet til mappen Programmer . Lokalisere og udføre Docker.app i mappen Programmer for at starte programmet.
  BEMÆRK: Den softwarespecifikke menu på den øverste statuslinje angiver, at softwaren kører, og at den er tilgængelig fra en terminal.
Installer containerprogrammet på Linux OS.
1. Få adgang til Get Docker Linux-webstedet (Materialetabel), og følg vejledningen til installation ved hjælp af det lagerafsnit, der er tilgængeligt på linket Docker Linux Repository .
2. Opdater alle Linux-pakker ved hjælp af kommandolinjen:
  sudo apt-get opdatering
3. Installer de nødvendige pakker i Docker:
  sudo apt-get installere apt-transport-https ca-certifikater krølle gnupg lsb-release
4. Opret en nøglefil til softwarearkiv:
  curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /usr/share/keyrings/docker-archive-keyring.gpg
5. Tilføj Docker-deb-oplysninger i filen source.list:
  echo "deb [arch=amd64 signed-by=/usr/share/keyrings/docker-archive-keyring.gpg] https://download.docker.com/linux/ubuntu $(lsb_release -cs) stabil" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
6. Opdater alle pakkerne igen, herunder dem, der for nylig er tilføjet:
  sudo apt-get opdatering
7. Installer skrivebordsversionen:
  sudo apt-get installere docker-ce docker-ce-cli containerd.io
8. Vælg det geografiske område og den geografiske tidszone for at afslutte installationsprocessen.
Installer containerprogrammet på Windows OS.
1. Få adgang til Get Docker-webstedet (Materialetabel), og klik på Introduktion. Find installationsprogrammet til Docker Desktop til Windows. Hent filerne, og installer dem lokalt på computeren.
2. Når du er hentet, skal du starte installationsfilen (.exe) og bevare standardparametrene. Kontroller, at de to indstillinger Installer nødvendige Windows-komponenter til WSL 2 og Føj genvej til skrivebordet er markeret.
  BEMÆRK: I nogle tilfælde, når denne software forsøger at starte tjenesten, viser den en fejl: WSL-installationen er ufuldstændig. Hvis du vil finde ud af denne fejl, skal du åbne webstedet WSL2-Kernel (Tabel over materialer).
3. Download og installer den nyeste WSL2 Linux-kerne.
4. Få adgang til PowerShell-terminalen som administrator, og udfør kommandoen:
  dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestart
5. Kontroller, at softwaren Docker Desktop er installeret korrekt.
Hent billedet fra CSBL-lageret på Docker-hubben (Materialetabel).
1. Åbn Docker-skrivebordet, og kontroller, at status "kører" nederst til venstre på værktøjslinjen.
2. Gå til kommandolinjen i Windows PowerShell-terminalen. Download Linux Container-afbildningen til denne protokol fra CSBL-lageret i Docker-hubben. Udfør følgende kommando for at hente afbildningen:
  docker pull csblusp/transcriptome
  BEMÆRK: Når du har downloadet billedet, kan filen ses på Docker Desktop. Hvis du vil oprette objektbeholderen, skal Windows-brugere følge trin 1.5, mens Linux-brugere skal følge trin 1.6.
Initialiser serverbeholderen på Windows OS.
1. Få vist Docker-billedfilen i Desktop App Manager fra værktøjslinjen, og få adgang til siden Billeder.
  BEMÆRK: Hvis pipelinebilledet blev downloadet korrekt, vil der være et csblusp / transcriptome billede til rådighed.
2. Start beholderen fra csblusp/transcriptome-billedet ved at klikke på knappen Kør . Udvid de valgfrie indstillinger for at konfigurere beholderen.
3. Definer containernavnet (f.eks. serveren).
4. Knyt en mappe på den lokale computer til mappen i dockeren. Det kan du gøre ved at bestemme værtsstien. Angiv en mappe på den lokale computer for at gemme de behandlede data, der skal hentes i slutningen. Angiv containerstien. Definer og sammenkæd mappen csblusp/transcriptome container med den lokale computersti (brug navnet "/opt/transferdata" for containerstien).
5. Derefter skal du klikke på Kør for at oprette csblusp/transcriptome-beholderen.
6. Hvis du vil have adgang til Linux-terminalen fra csblusp/transcriptome-beholderen, skal du klikke på CLI-knappen.
7. Indtast bash terminalen for at få en bedre oplevelse. Udfør kommandoen:
  Bash
8. Når du har udført bash-kommandoen, skal du sikre dig, at terminalen vises (root@:/#):
  root@ac12c583b731:/ #
Initialiser serverbeholderen til Linux OS.
1. Udfør denne kommando for at oprette Docker-objektbeholderen baseret på billedet:
  docker run -d -it --rm --name server -v :/opt/transferdata csblusp/transcriptome
  BEMÆRK: : definer en sti til den lokale mappe maskine.
2. Udfør denne kommando for at få adgang til kommandoterminalen i Docker-objektbeholderen:
  docker exec -it server bash
3. Sørg for, at der er en Linux-terminal til at udføre programmer/scripts ved hjælp af kommandolinjen.
4. Når du har udført bash-kommandoen, skal du sikre dig, at terminalen vises (root@:/#):
  root@ac12c583b731:/ #
  BEMÆRK: Rodadgangskoden er som standard "transcriptome". Hvis det ønskes, kan rodadgangskoden ændres ved at udføre kommandoen:
  passwd
5. Udfør først kildekommandoen for at addpath.sh for at sikre, at alle værktøjer er tilgængelige. Udfør kommandoen:
  source /opt/addpath.sh
Kontroller strukturen i RNA-sekventeringsmappen.
1. Få adgang til mappen transcriptome pipeline scripts, og sørg for, at alle data fra RNA-sekventering gemmes i mappen: /home/transcriptome-pipeline/data.
2. Sørg for, at alle de resultater, der opnås fra analysen, gemmes i mappen på stien /home/transcriptome-pipeline/results.
3. Kontroller, at genom- og anmærkningsreferencefiler gemmes i mappen i stien /home/transcriptome-pipeline/datasets. Disse filer vil bidrage til at understøtte al analyse.
4. Sørg for, at alle scripts er gemt i mappen i stien /home/transcriptome-pipeline/scripts og adskilt af hvert trin som beskrevet nedenfor.
Download anmærkningen og det menneskelige genom.
1. Få adgang til mappen scripts:
  cd /home/transcriptome-pipeline/scripts
2. Udfør denne kommando for at hente referencemenneskets genom:
  bash downloadGenome.sh
3. Udfør kommandoen for at hente anmærkningen:
  bash downloadAnnotation.sh
Rediger anmærkningen eller versionen af referencegenomet.
1. Åbn downloadAnnotation.sh og downloadGenome.sh for at ændre URL-adressen til hver fil.
2. Kopier downloadAnnotation.sh- og downloadGenome.sh-filerne til overførselsområdet, og rediger i det lokale operativsystem.
  cd /home/transcriptome-pipeline/scripts
  cp downloadAnnotation.sh downloadGenome.sh /opt/transferdata
3. Åbn mappen Værtssti , som er valgt for at oprette forbindelse mellem værts- og Docker-objektbeholderen i trin 1.5.4.
4. Rediger filerne ved hjælp af den foretrukne editorsoftware, og gem. Endelig skal du placere de ændrede filer i scriptmappen. Udfør kommandoen:
  cd /opt/transferdata
  cp downloadAnnotation.sh downloadGenome.sh /home/transcriptome-pipeline/scripts
  BEMÆRK: Disse filer kan redigeres direkte ved hjælp af vim eller nano Linux editor.
Konfigurer derefter værktøjet fastq-dump med kommandolinjen:
vdb-config --interactive
BEMÆRK: Dette gør det muligt at downloade sekventeringsfiler fra eksempeldataene.
1. Naviger på siden Funktioner ved hjælp af tabulatortasten, og vælg den aktuelle mappeindstilling. Gå til indstillingen Gem , og klik på OK. Afslut derefter fastq-dump-værktøjet.
Start download af læserne fra den tidligere offentliggjorte ^papir7. SRA-tiltrædelsesnummeret på hver stikprøve er påkrævet. Få SRA-numrene fra SRA NCBI's websted (Materialetabel).
BEMÆRK: Hvis du vil analysere RNA-Seq-data, der er tilgængelige i offentlige databaser, skal du følge trin 1.12. Følg trin 1.13 for at analysere private RNA-seq-data.
Analyser specifikke offentlige data.
1. Få adgang til National Center for Biotechnology Information (NCBI) hjemmeside og søge søgeord for et bestemt emne.
2. Klik på linket Resultat for BioProject i afsnittet Genomer .
3. Vælg og klik på en bestemt undersøgelse. Klik på SRA Eksperimenter. En ny side åbnes, som viser alle de prøver, der er tilgængelige for denne undersøgelse.
4. Klik på "Send til:" over tiltrædelsesnummer. Vælg KørInfo i indstillingen "Vælg destination". Klik på "Opret fil" for at eksportere alle biblioteksoplysninger.
5. Gem filen SraRunInfo.csv i den værtssti, der er defineret i 1.5.4-trinnet, og udfør overførselsscriptet:
  cp /opt/transferdata/SraRunInfo.csv /home/transcriptome-pipeline/data
  cd /home/transcriptome-pipeline/scripts
  bash downloadAllLibraries.sh
Analyser private og ikke-offentliggjorte sekventeringsdata.
1. Organisere sekventeringsdata i en mappe med navnet Læser.
  BEMÆRK: Opret én mappe til hvert eksempel i mappen Læser . Disse mapper skal have samme navn for hvert eksempel. Tilføj data for hvert eksempel i mappen. Hvis det er en parret ende RNA-Seq, skal hver eksempelmappe indeholde to FASTQ-filer, som skal præsentere navne, der slutter i henhold til mønstrene {sample}_1.fastq.gz og {sample}_2.fastq.gz, henholdsvis fremad og omvendte sekvenser. Et eksempel med navnet "Healthy_control" skal f.eks. have en mappe med samme navn og FASTQ-filer med navnet Healthy_control_1.fastq.gz og Healthy_control_2.fastq.gz. Ikke desto mindre, hvis biblioteket sekventering er en single-end strategi, kun én læser fil bør gemmes til downstream analyse. For eksempel skal det samme eksempel, "Sund kontrol", have en unik FASTQ-fil med navnet Healthy_control.fastq.gz.
2. Opret en fænotypisk fil, der indeholder alle eksempelnavne: Navngiv den første kolonne som 'Eksempel' og den anden kolonne som 'Klasse'. Udfyld kolonnen Eksempel med eksempelnavne, som skal være det samme navn for eksempelmapperne, og fyld kolonnen Klasse med den fænotypiske gruppe af hver prøve (f.eks. kontrol eller inficeret). Endelig skal du gemme en fil under navnet "metadata.tsv" og sende den til mappen /home/transcriptome-pipeline/data/. Tjek de eksisterende metadata.tsv at forstå formatet af den fænotypiske fil.
  cp /opt/transferdata/metadata.tsv
  /home/transcriptome-pipeline/data/metadata.tsv
3. Få adgang til den værtsstimappe , der blev defineret i trin 1.5.4, og kopier de nye strukturerede mapper. Endelig skal du flytte eksemplerne fra /opt/transferdata til pipelinedatamappen.
  cp -rf /opt/transferdata/reads/*
  /home/transcriptome-pipeline/data/reads/
Bemærk, at alle læsninger er gemt i mappen /home/transcriptome-pipeline/data/reads.

2. Kvalitetskontrol af dataene

BEMÆRK: Evaluer grafisk sandsynligheden for fejl i rækkefølgen læser. Fjern alle de tekniske sekvenser, f.eks. adaptere.

Få adgang til bibliotekernes sekventeringskvalitet med værktøjet FastQC.
1. Hvis du vil generere kvalitetsgraferne, skal du køre fastqc-programmet. Udfør kommandoen:
  bash FastQC.sh
  BEMÆRK: Resultaterne gemmes i mappen /home/transcriptome-pipeline/results/FastQC. Da sekvensadaptere bruges til biblioteksforberedelse og -rækkefølge, kan adaptersekvensfragmenterne i nogle tilfælde forstyrre tilknytningsprocessen.
Fjern adaptersekvensen, og læs af lav kvalitet. Få adgang til mappen Scripts , og udfør kommandoen for værktøjet Trimmomatic:
cd /home/transcriptome-pipeline/scripts
bash trimmomatic.sh
BEMÆRK: De parametre, der anvendes til sekventeringsfilter, er: Fjern førende lav kvalitet eller 3 baser (under kvalitet 3) (LEADING:3); Fjern efterfølgende lav kvalitet eller 3 baser (under kvalitet 3) (TRAILING:3); Scan aflæsningen med et 4-bund bredt skydevindue, skære, når den gennemsnitlige kvalitet pr. base falder til under 20 (SLIDINGWINDOW:4:20); og Drop læser under de 36 baser lange (MINLEN:36). Disse parametre kan ændres ved at redigere Trimmomatic-scriptfilen.
1. Sørg for, at resultaterne gemmes i følgende mappe: /home/transcriptome-pipeline/results/trimreads. Udfør kommandoen:
  ls /home/transcriptome-pipeline/results/trimreads

3. Kortlægning og anmærkning af eksempler

BEMÆRK: Efter at have opnået den gode kvalitet læser, skal disse knyttes til referencegenomet. Til dette trin blev STAR-mapperen brugt til at kortlægge eksempeleksemplerne. STAR-mapperværktøjet kræver 32 GB RAM-hukommelse for at indlæse og udføre tilknytningen af læsninger og genom. For brugere, der ikke har 32 GB RAM-hukommelse, kan allerede tilknyttede læsninger bruges. I sådanne tilfælde hoppe til trin 3,3 eller bruge Bowtie2 mapper. Dette afsnit indeholder scripts til STAR (resultater vist i alle tal) og Bowtie2 (lav hukommelse kræves mapper).

Indekser først referencegenomet for tilknytningsprocessen:
1. Få adgang til mappen Scripts ved hjælp af kommandolinjen:
  cd /home/transcriptome-pipeline/scripts
2. Udfør for STAR-mapper:
  bash indexGenome.sh
3. For Bowtie mapper, udføre:
  bash indexGenomeBowtie2.sh
Udfør følgende kommando for at knytte filtrerede læser (hentet fra trin 2) til referencegenomet (GRCh38-versionen). Både STAR- og Bowtie2-mapper udføres ved hjælp af standardparametre.
1. Udfør for STAR-mapper:
  bash mapSTAR.sh
2. For Bowtie2 mapper, udføre:
  bash mapBowtie2.sh
  BEMÆRK: De endelige resultater er BAM-filer (Binary Alignment Map) til hvert eksempel, der er gemt i /home/transcriptome-pipeline/results/mapreads.
Anmærke tilknyttede læser ved hjælp af værktøjet FeatureCounts til at opnå råtællinger for hvert gen. Kør de scripts, der anmærkning af læserne.
BEMÆRK: Værktøjet FeatureCounts er ansvarligt for at tildele tilknyttede sekventeringslæsninger til de genomiske funktioner. De vigtigste aspekter af genomanmærkningen, der kan ændres efter det biologiske spørgsmål, omfatter påvisning af isoformer, flere tilknyttede læser og exon-exon-kryds, svarende til parametrene GTF.attrType="gene_name" for gen eller ikke angive parametrene for metafunktionsniveau, tillad henholdsvisMultiOverlap=TRUE og juncCounts=TRUE.
1. Få adgang til mappen scripts ved hjælp af kommandolinjen:
  cd /home/transcriptome-pipeline/scripts
2. Hvis du vil anmærke de tilknyttede læsninger for at opnå råtællinger pr. gen, skal du udføre kommandolinjen:
  Rscript anmærkning. R
  BEMÆRK: De parametre, der blev brugt til anmærkningsprocessen, var: return gene short name (GTF.attrType="gene_name"); tillade flere overlapninger (tilladMultiOverlap = TRUE); og angive, at biblioteket er parret (isPairedEnd=TRUE). I forbindelse med single-end-strategien skal du bruge parameteren isPairedEnd=FALSE. Resultaterne gemmes i mappen /home/transcriptome-pipeline/countreads.
Normaliser genekspression.
BEMÆRK: Normalisering af genekspression er afgørende for at sammenligne resultater mellem resultater (f.eks. raske og inficerede prøver). Normalisering er også nødvendig for at udføre co-expression og molekylær grad af forstyrrelser analyser.
1. Få adgang til mappen Scripts ved hjælp af kommandolinjen:
  cd /home/transcriptome-pipeline/scripts
2. Normaliser genekspressionen. Udfør kommandolinjen:
  Rscript normalisererampler. R
  BEMÆRK: De rå tæller udtryk, i dette eksperiment, blev normaliseret ved hjælp af Trimmet Mean of M-værdier (TMM) og Count Per Million (CPM) metoder. Dette trin har til formål at fjerne forskelle i genekspression på grund af den tekniske indflydelse ved at gøre bibliotek størrelse normalisering. Resultaterne gemmes i mappen /home/transcriptome-pipeline/countreads.

4. Differentieret udtrykte gener og samtil udtrykte gener

Identificer forskelligt udtrykte gener ved hjælp af open source EdgeR-pakken. Dette indebærer at finde gener, hvis udtryk er højere eller lavere i forhold til kontrollen.
1. Få adgang til mappen Scripts ved hjælp af kommandolinjen:
  cd /home/transcriptome-pipeline/scripts
2. Hvis du vil identificere det forskelligt udtrykte gen, skal du udføre DEG_edgeR R-scriptet ved hjælp af kommandolinjen:
  Rscript DEG_edgeR.R
  BEMÆRK: De resultater, der indeholder de forskelligt udtrykte gener, gemmes i mappen /home/transcriptome-pipeline/results/degs. Data kan overføres til en pc.
Download data fra csblusp/transcriptome containeren.
1. Overfør behandlede data fra /home/transcriptome-pipelinen til mappen /opt/transferdata (lokal computer).
2. Kopier alle filer til den lokale computer ved at udføre kommandolinjen:
  cp -rf /home/transcriptome-pipeline/results /opt/transferdata/pipeline
  cp -rf /home/transcriptome-pipeline/data /opt/transferdata/pipeline
  BEMÆRK: Gå nu til den lokale computer for at sikre, at alle resultater, datasæt og data kan hentes i værtsstien.
Identificer samudtryksmoduler.
1. Få adgang til CEMiTools websted (Co-Expression Modules Identification Tool) (Tabel over
  materialer). Dette værktøj identificerer samudtryksmoduler fra udtryksdatasæt fra brugerne. Klik på Kør øverst til højre på hovedsiden. Dette åbner en ny side for at overføre udtryksfilen.
2. Klik på Vælg fil under afsnittet Udtryksfil , og upload den normaliserede genekspressionsmatrix 'tmm_expression.tsv' fra værtsstien.
  BEMÆRK: Trin 4.4. er ikke-obligatorisk.
Udforsk den biologiske betydning af co-expression moduler.
1. Klik på Vælg fil i afsnittet Eksempelfænotyper , og overfør filen med eksempelfænotyper metadata_cemitool.tsv fra downloaddatatrin 4.2.2. for at udføre en analyse af berigelse af gensæt (GSEA).
2. Tryk på Vælg fil i afsnittet Geninteraktioner for at overføre en fil med geninteraktioner (cemitool-interactions.tsv). Det er muligt at bruge filen af geninteraktioner, der leveres som et eksempel af webCEMiTool. Interaktionerne kan være protein-protein interaktioner, transskription faktorer og deres transskriberede gener, eller metaboliske veje. Dette trin opretter et interaktionsnetværk for hvert samudtryksmodul.
3. Klik på vælg fil i gensæt sektionen for at uploade en liste over gener funktionelt relateret i en Gene Matrix Transponeret (GMT) format fil. Gensæt-filen gør det muligt for værktøjet at udføre berigelsesanalyse for hvert samudtryksmodul, dvs.
  BEMÆRK: Denne liste over gener kan omfatte veje, GO-termer eller miRNA-målgener. Forskeren kan bruge Blood Transcription Modules (BTM) som gensæt til denne analyse. BTM-filen (BTM_for_GSEA.gmt).
Angiv parametre for udførelse af analyser af co-expression og få resultaterne.
1. Udvid derefter sektionen Parameter ved at klikke på plustegnet for at vise standardparametrene. Hvis det er nødvendigt, ændre dem. Markér afkrydsningsfeltet Anvend VST .
2. Skriv e-mailen i afsnittet Mail for at modtage resultater som en mail. Dette trin er valgfrit.
3. Tryk på knappen Kør CEMiTool .
4. Download den fulde analyserapport ved at klikke på Download fuld rapport øverst til højre. Det vil downloade en komprimeret fil cemitool_results.zip.
5. Uddrag indholdet af cemitool_results.zip med WinRAR.
  BEMÆRK: Mappen med det udpakkede indhold omfatter flere filer med alle resultater af analysen og deres etablerede parametre.

5. Bestemmelse af den molekylære grad af forstyrrelse af prøver

Molekylær grad af perturbation (MDP) webversion.
1. Hvis du vil køre MDP, skal du få adgang til MDP-webstedet (Materialetabel). MDP beregner molekylær afstand af hver prøve ud fra referencen. Klik på knappen Kør .
2. Overfør udtryksfilen tmm_expression.tsv på linket Vælg fil. Overfør derefter den fænotypiske datafil metadata.tsv fra trin 4.2.2. Det er også muligt at indsende en pathway annotation fil i GMT format til at beregne forstyrrende score af de veje, der er forbundet med sygdommen.
3. Når dataene er overført, skal du definere den klassekolonne, der indeholder de fænotypiske oplysninger, der bruges af MDP. Definer derefter kontrolelementklassen ved at vælge den etiket, der svarer til kontrolklassen.
  BEMÆRK: Der er nogle valgfrie parametre, der vil påvirke, hvordan eksempelscorerne beregnes. Hvis det er nødvendigt, brugeren er i stand til at ændre statistikken gennemsnitlige metode, standardafvigelse, og øverste procentdel af de forstyrrede gener.
4. Derefter skal du trykke på knappen Kør MDP , hvorefter MDP-resultaterne vises. Brugeren kan downloade tallene ved at klikke på Download Plot i hvert plot, samt MDP score på Download MDP Score File knappen.
  BEMÆRK: I tilfælde af spørgsmål om, hvordan du indsender filerne, eller hvordan MDP fungerer, skal du bare gå gennem selvstudiet og om websider.

6. Funktionel berigelsesanalyse

Opret en liste over nedregulerede deg'er og en anden af opregulerede deg'er. Gennavne skal være i henhold til Entrez gensymboler. Hvert gen på listen skal placeres på én linje.
Gem genlisterne i txt- eller tsv-formatet.
Få adgang til Enrichr-webstedet (Materialetabel) for at udføre den funktionelle analyse.
Vælg listen over gener ved at klikke på Vælg fil. Vælg en af listen over deg'er, og tryk på knappen Send .
Klik på Veje øverst på websiden for at udføre funktionel berigelsesanalyse med ORA-tilgangen.
Vælg en stidatabase. "Reactome 2016" pathway database bruges bredt til at få den biologiske betydning af menneskelige data.
Klik på navnet på stien database igen. Vælg Søjlediagram, og kontroller, om den er sorteret efter p-værdi-rangering. Hvis ikke, skal du klikke på søjlediagrammet, indtil det er sorteret efter p-værdi. Denne søjlediagram indeholder de 10 bedste veje i henhold til p-værdier.
Tryk på knappen Konfiguration , og vælg den røde farve til den opregulerede genanalyse eller blå farve til den nedregulerede genanalyse. Gem søjlediagrammet i flere formater ved at klikke på svg, png og jpg.
Vælg Tabel , og klik på Eksporter poster til tabellen nederst til venstre i søjlediagrammet for at opnå resultaterne af den funktionelle berigelsesanalyse i en txt-fil.
BEMÆRK: Denne funktionelle berigelsesresultatersfil omfatter i hver linje navnet på en vej, antallet af overlappede gener mellem den indsendte DEG-liste og stien, p-værdien, justeret p-værdi, oddsforhold, kombineret score og gensymbolet for gener, der findes i DEG-listen, der deltager i stien.
Gentag de samme trin med listen over andre deg'er.
BEMÆRK: Analysen med nedregulerede DEG'er giver veje beriget til nedregulerede gener, og analysen med opregulerede gener giver veje beriget til opregulerede gener.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Computermiljøet for transcriptome-analyser blev oprettet og konfigureret på Docker-platformen. Denne tilgang giver nybegynder Linux-brugere mulighed for at bruge Linux terminalsystemer uden en priori management viden. Docker-platformen bruger værtsoperativsystemets ressourcer til at oprette en servicebeholder, der indeholder specifikke brugerværktøjer (Figur 1B). En container baseret på Linux OS Ubuntu 20.04 distribution blev oprettet, og det var fuldt konfigureret til transskriptomiske analyser, som er tilgængelig via kommandolinjeterminal. I denne beholder er der en foruddefineret mappestruktur for datasæt og scripts, der er nødvendige for alle pipelineanalyser (Figur 1C). En undersøgelse offentliggjort af vores ^{forskningsgruppe7} blev brugt til analyser, og den omfattede 20 prøver fra raske personer og 39 prøver fra CHIKV akut inficerede personer (Figur 1D).

Processen med total RNA sekventering kan generere læsefejl, som kan være forårsaget af en klynge med to eller flere udskrifter eller udtømning af reagenser. Rækkefølgen platforme returnere et sæt af "FASTQ" filer, der indeholder sekvensen (læse) og den tilhørende kvalitet for hver nukleotid base (Figur 2A). Phred-kvalitetsskalaen angiver sandsynligheden for en forkert aflæsning af hver base (figur 2B). Af lav kvalitet kan generere en bias eller forkert genekspression, hvilket udløser successive fejl til downstream-analyser. Værktøjer som Trimmomatic blev udviklet til at identificere og fjerne aflæsninger af lav kvalitet fra prøver og for at øge sandsynligheden for kortlægningslæsninger (Figur 2C, D).

Tilknytningsmodulet blev forudkonfigureret med STAR-aligneren og GRCh38-den menneskelige vært som referencegenom. I dette trin bruges de højkvalitetslæsninger, der er genvundet fra det foregående trin, som input til at tilpasse sig det menneskelige referencegenom (figur 3A). STAR-aligner udsender en justering af tilknyttede læser til et referencegenom i BAM-formatfilen. Baseret på denne justering udfører værktøjet FeatureCounts anmærkningen af funktioner (gener) for de justerede læsninger ved hjælp af referenceanmærkningen fra den menneskelige vært i GTF-filformat (Figur 3B). Endelig genereres udtryksmatrixen med hvert gennavn som én række, og hver prøve som én kolonne (Figur 3C). Der skal også fremlægges en yderligere metadatafil, der indeholder eksempelnavnene og de respektive stikprøvegrupper, til yderligere downstream-analyse. Genekspressionsmatrixen repræsenterer antallet af optællinger, der er knyttet til hvert gen blandt prøver, og som kan bruges som EdgeR-input til at identificere DEG'er. Derudover blev denne genekspressionsmatrix normaliseret ved hjælp af TMM og CPM for at fjerne den tekniske variation og korrigere RNA-seq-målingen ved at overveje andelen af udtrykte gener i den samlede biblioteksstørrelse blandt prøverne. Denne matrix blev yderligere brugt som input til samudfoldelses- og MDP-analyser.

CEMiTool identificerer og analyserer samudtryksmodulerne12. Gener, der er i samme modul, udtrykkes sammen, hvilket betyder, at de udviser lignende udtryksmønstre på tværs af prøverne af datasættet. Dette værktøj giver også mulighed for udforskning af den biologiske betydning af hvert identificeret modul. Til dette giver det tre valgfrie analyser - funktionel berigelsesanalyse af GSEA, funktionel berigelsesanalyse af Over Representation Analysis (ORA) og netværksanalyse. Funktionel berigelsesanalyse af GSEA giver oplysninger om genekspressionen for hvert modul ved hver fænotype (Figur 4A). Ifølge dette gør det det muligt at identificere de moduler, der undertrykkes eller induceres ved hver fænotype. ORA-analysen viser de 10 bedste signifikant berigede biologiske funktioner i hvert modul sorteret efter justerede p-værdier. Det er muligt at kombinere GSEA- og ORA-resultaterne for at identificere svækkede biologiske processer, og hvis de undertrykkes eller induceres af interessefænotypen. Netværksanalyser giver et interactome af hvert modul (Figur 4A). Det gør det muligt at visualisere, hvordan gener i hvert modul interagerer. Derudover giver netværksanalyse oplysninger om de mest forbundne gener, hubs, som identificeres ved deres navne i netværket. Størrelsen af noderne repræsenterer graden af tilslutningsmuligheder.

For at identificere DEG'er blev der udviklet et internt script til at køre en end-to-end differentialanalyse på en enkelt måde og kortfattet kommandolinje. Scriptet udfører alle de trin, der kræves for at udføre en DEG-analyse, og sammenligner forskellige eksempelgrupper, der leveres af brugeren i en metadatafil. Derudover gemmes DEG-resultaterne på separate lister over nedregulerede og opregulerede gener og samles derefter i et publikationsklart tal (Figur 4B) ved hjælp af EnhancedVolcano R-pakke fra Bioconductor.

Analysen af den molekylære grad af forstyrrelser udført af MDP-værktøjet giver os mulighed for at identificere forstyrrede prøver fra raske og inficerede ^individer11. Forstyrrelsesscoren beregnes under hensyntagen til alle udtrykte gener for hver CHIKV-inficeret prøve og betragter de sunde prøver som referencegruppen (figur 5A). MDP udfører også analysen ved hjælp af kun de øverste 25% af de mest forstyrrede gener fra disse prøver (Figur 5B). Prøver kan præsentere en stor variation i betragtning af den genetiske baggrund, alder, køn eller andre tidligere sygdomme. Disse faktorer kan ændre transcriptomprofilen. På grundlag heraf foreslår MDP, hvilke prøver der er potentielle biologiske afvigende faktorer til at fjerne dem og forbedre downstream-resultaterne (figur 5A, B).

En funktionel berigelsesanalyse af ORA kan udføres ved hjælp af Enrichr for at identificere den biologiske betydning af DEG'er. Resultaterne baseret på listen over nedregulerede gener angiver de undertrykte biologiske processer i den undersøgte fænotype, mens de resultater, der er baseret på listen over opregulerede gener, præsenterer de biologiske processer, der induceres i interessefænotypen. De biologiske processer, der vises i søjlediagrammet genereret af Enrichr, er de 10 bedste berigede gensæt baseret på p-værdirangeringen (figur 6).

Figur 1: Environment Docker og eksempelstudie. (A) Docker-platformen bruger OS Host-ressourcerne til at oprette "Containere" til Linux-systemet, der indeholder værktøjer til transcriptomanalyse. (B) Docker Container simulerer et Linux-system til at udføre pipeline scripts. (C) Transskriptome pipeline mappe struktur blev oprettet og organiseret til at gemme datasæt og scripts til analyse. (D) Undersøgelsen fra vores gruppe blev brugt som eksempel på transskriptionomanalyser. Klik her for at se en større version af dette tal.

Figur 2: Kvalitetskontrol af sekventering. (A) FASTQ-formatfilen bruges til at repræsentere sekvens- og nukleotidbasekvalitet. (B) Phred score ligning, hvor hver 10 øger en log sandsynlighed fejllæst base. (C) og (D) Boxplot repræsenterer en kvalitetsfordeling af hver nukleotidbase før og efter henholdsvis Trimmomatic-udførelsen. Klik her for at se en større version af dette tal.

Figur 3: Kortlægnings- og anmærkningsproces fra sekvens til gentællingsekspression. (A) Kortlægning består i at justere sekvensen fra udskriften og sekvensen fra genomet for at identificere den genomiske lokalisering. B) Kortlagte læser til referencegenomet kommenteres på grundlag af deres genomiske lokalisering af overlapning. (C) Baseret på kortlægningsfilværktøjerne, f.eks. Klik her for at se en større version af dette tal.

Figur 4: Co-udtrykt gener netværk og statistisk analyse af DEGs. (A) Moduler af co-expression baseret på genekspression og protein-protein interaktioner netværk fra modul gener. (B) Statistisk analyse af CHIKV akut inficerede og raske individer og differentieret genekspression i rødt (p-værdi og log2FC-kriterier), lilla (kun p-værdi), grøn (kun log2FC) og grå (ingen betydning). Klik her for at se en større version af dette tal.

Figur 5: Molekylær grad af perturbation (MDP) af CHIKV akut inficerede og raske individer. (A) MDP score for hver prøve ved hjælp af alle udtrykte gener fra transskriptionomet. (B) MDP score for hver prøve, der kun anvender de øverste 25 % af de mest forstyrrede gener. Klik her for at se en større version af dette tal.

Figur 6: Funktionel analyse for DEG'er. (A) Up-regulerede og (B) Nedregulerede gener blev forelagt Enrichr-webstedsværktøjet til vurdering af biologiske veje eller repræsentative gensæt. P-værdier blev beregnet for hver vej, og kun signifikante forskelle blev vist i grafikken. Klik her for at se en større version af dette tal.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Forberedelsen af sekventeringsbibliotekerne er et afgørende skridt i retning af at besvare biologiske spørgsmål på den bedst mulige måde. Typen af udskrifter af interesse for undersøgelsen vil guide, hvilken type sekventering bibliotek vil blive valgt og drive bioinformatiske analyser. For eksempel fra sekventering af et patogen og værtsinteraktion, afhængigt af typen af sekventering, er det muligt at identificere sekvenser fra begge eller bare fra værtsudskrifterne.

Næste generations sekventeringsudstyr, f.eks. Illumina-platformen, måler rækkefølgen af kvalitetsresultaterne, som står for sandsynligheden for, at en base kaldes forkert. Downstream-analyserne er meget følsomme over for sekvenser af lav kvalitet og fører til underaflæste eller fejllæste genekspression. En anden forhindring i udførelsen af korrekte analyser og fortolkning er adaptersekvenser. Adaptersekvenser hjælper med biblioteksforberedelse og -rækkefølge, og i de fleste tilfælde er adaptere også sekventeret. Nylige undersøgelser har vist, at kortlægningsværktøjets indvirkning på de endelige resultater er ^minimal13. Men i patogen-vært undersøgelser, kortlægningen processen kan generere lidt bedre resultater, når du tester forskellige tærskler for at minimere multi kortlagt græshoppe sekvenser problem.

Differentierede genekspressionsresultater skal fortolkes med en vis forsigtighed, især når antallet af prøver pr. gruppe er meget lille, og prøverne kom fra forskellige analyser og forstyrrede deg'ernes batcheffekter. Disse resultater er følsomme over for flere faktorer: i) den anvendte datafiltrering, såsom fjernelse af lav udtrykte gener og antallet af prøver, der skal vedligeholdes; ii) undersøgelsesdesign, der kun skal sammenlignes mellem stikprøvegrupper eller hver inficeret patient vs. alle kontrolpatienter, som illustreret i CHIKV-undersøgelsen7 og iii) statistisk metode, der anvendes til at identificere deg'er. Her illustrerer vi et grundlæggende eksempel med EdgeR for at identificere DEG'er, der antager en tærskel p-værdi på 0,05. Det er også kendt i litteraturen, at EdgeR sammenlignet med andre benchmarkmetoder kan have en lang række variation i identifikationen af ^DEG'er14. Man kunne overveje afvejningen mellem sådanne forskellige metoder og tage hensyn til antallet af tilgængelige gentagelser og kompleksiteten af det eksperimentelle ^design14.

CEMiTool udfører co-expression module ^analyses12. Dette værktøj er tilgængeligt via R-pakken på Bioconductor-lageret, og det fås også i en brugervenlig version via webCEMiTool; sidstnævnte er den version, der bruges i denne aktuelle protokol. Dette er en alternativ software i forhold til ^WGCNA15 præsentere flere fordele i forhold til ^{sidstnævnte16}, herunder det faktum, at det er mere ^{brugervenlig17}. Desuden har dette værktøj en automatisk metode til at filtrere gener, mens brugeren i WGCNA skal filtrere generne før WGCNA-brug. Derudover har dette værktøj standardparametre etableret, mens brugeren i WGCNA manuelt skal vælge parameteranalyserne. Manuel parametervalg forringer reproducerbarheden. Derfor garanterer udvælgelsen af automatiske parametre forbedret reproducerbarhed.

I visse tilfælde er CEMiTool ikke i stand til at finde en passende soft-threshold, også kaldet β værdi. I dette tilfælde bør brugeren kontrollere, om RNA-seq-dataene præsenterer en stærk afhængighed af middelafvigelser. Hvis middelværdien udviser et stærkt lineært forhold til variansen (i betragtning af alle gener), skal brugeren køre analyserne igen og kontrollere parameteren "Anvend VST" for at fjerne de transskriptomiske datas middelafvigelsesafhængighed. Det er altid vigtigt at kontrollere, om der er en stærk middelafvigelse afhængighed i dataene og fjerne det, når det er til stede.

CEMiTool er blevet bredt brugt til at identificere og udforske den biologiske betydning af co-expression moduler. En chikv akut infektion undersøgelse viste et modul med højere aktivitet hos patienter efter 2 til 4 dage efter ^{symptomdebut7}. Den funktionelle berigelse af dette modul af ORA udstillet en stigning i monocytter og neutrofiler7. En influenzavaccination undersøgelse ved hjælp af blod transcriptome fra baseline til dag 7 post-vaccination præsenteret co-expression moduler funktionelt beriget til biologiske processer relateret til T, B, og naturlige dræberceller, monocytter, neutrofiler, interferon svar, og blodplade ^aktivering18.

I betragtning af variationen fra transcriptomiske datasæt kan det være en udfordring at identificere og kvantificere data heterogeniteten, da mange variabler kan påvirke genekspressionsprofilen7,11. MDP giver mulighed for at identificere og kvantificere forstyrrede prøver fra raske og inficerede forsøgspersoner ved at følge disse trin: i) beregne en centralitetsmetode (median eller middelværdi) og standardafvigelse af kontrolprøver; ii) anvende de opnåede værdier beregner z-scoren for alle gener iii) fastsætte en tærskel z-score absolut større end 2 med angivelse af repræsentative afvigelser fra kontrolprøver og iv) beregne gennemsnittet af genværdier ved hjælp af de scorer, der er filtreret for hver prøve. På trods af at have nogle begrænsninger for scRNA-seq analyse, dette værktøj var funktionel til bestemmelse af forstyrrende score fra microarray og RNA-seq ^data11. Derudover har en tidligere undersøgelse brugt dette værktøj til at demonstrere den molekylære grad af forstyrrelser forhøjet på blodtransskription i tuberkulose- og diabetes mellituspatienter19. I dette arbejde er forstyrrelse af kontrol og CHIKV akut inficerede prøver ved hjælp af raske personer, som referencegruppen er blevet vist.

Den funktionelle berigelsesanalyse udført af Enrichr er ^ORA20,21. ORA er en type funktionel berigelsesanalyse, hvor brugeren skal levere listen over DEG'er til værktøjet. Listen over deg'er er normalt adskilt i en nedreguleret DEG-liste og i en opreguleret DEG-liste. Der er andre værktøjer til at udføre ORA, blandt dem, gProfiler, som er tilgængelig i en brugervenlig ^webversion22 og goseq23, der er tilgængelig som en R-pakke på Bioconductor. En anden form for funktionel berigelsesanalyse er GSEA. For at udføre GSEA skal brugeren angive alle gener på en rangeret liste. Denne liste er normalt rangeret i henhold til genekspression i fold forandring.

Enrichr giver altid de 10 bedste gensæt beriget baseret på deres p-værdier i søjlediagramresultatet. Derfor skal brugeren være opmærksom, når man fortolker resultaterne, hvis der er mindre end 10 berigede gensæt, vil søjlediagrammet også vise ikke-berigede biologiske processer. For at undgå denne fejl skal brugeren etablere en cutoff for p-værdien og observere p-værdierne af stierne, før det antages, at alle gensæt i søjlediagrammet er beriget. Desuden skal brugeren være opmærksom på, at rækkefølgen af de 10 gensæt, der vises i søjlediagrammet, er i overensstemmelse med p-værdierne, ikke de justerede p-værdier. Hvis brugeren ønsker at vise alle berigede veje i en søjlegraf eller endda omarrangere i henhold til de justerede p-værdier, anbefales det, at brugeren opretter sin egen søjlegraf ved hjælp af den downloadede tabel. Brugeren kan lave en ny søjlediagram ved hjælp af Excel eller endda R-software.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatterne har intet at afsløre.

Acknowledgments

HN er finansieret af FAPESP (tilskudsnumre: #2017/50137-3, 2012/19278-6, 2018/14933-2, 2018/21934-5 og 2013/08216-2) og CNPq (313662/2017-7).

Vi er særligt taknemmelige for følgende tilskud til stipendiater: ANAG (FAPESP Process 2019/13880-5), VEM (FAPESP Process 2019/16418-0), IMSC (FAPESP Process 2020/05284-0), APV (FAPESP Process 2019/27146-1) og RLTO (CNPq Process 134204/2019-0).

Materials

Name	Company	Catalog Number	Comments
CEMiTool	Computational Systems Biology Laboratory	1.12.2	Discovery and the analysis of co-expression gene modules in a fully automatic manner, while providing a user-friendly HTML report with high-quality graphs.
EdgeR	Bioconductor (Maintainer: Yunshun Chen [yuchen at wehi.edu.au])	3.30.3	Differential expression analysis of RNA-seq expression profiles with biological replication
EnhancedVolcano	Bioconductor (Maintainer: Kevin Blighe [kevin at clinicalbioinformatics.co.uk])	1.6.0	Publication-ready volcano plots with enhanced colouring and labeling
FastQC	Babraham Bioinformatics	0.11.9	Aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing
FeatureCounts	Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research	2.0.0	Assign mapped sequencing reads to specified genomic features
MDP	Computational Systems Biology Laboratory	1.8.0	Molecular Degree of Perturbation calculates scores for transcriptome data samples based on their perturbation from controls
R	R Core Group	4.0.3	Programming language and free software environment for statistical computing and graphics
STAR	Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research	2.7.6a	Aligner designed to specifically address many of the challenges of RNA-seq data mapping using a strategy to account for spliced alignments
Bowtie2	Johns Hopkins University	2.4.2	Ultrafast and memory-efficient tool for aligning sequencing reads to long reference sequences
Trimmomatic	THE USADEL LAB	0.39	Trimming adapter sequence tasks for Illumina paired-end and single-ended data
Get Docker	Docker	20.10.2	Create a bioinformatic environment reproducible and predictable (https://docs.docker.com/get-docker/)
WSL2-Kernel	Windows	NA	https://docs.microsoft.com/en-us/windows/wsl/wsl2-kernel
Get Docker Linux	Docker	NA	https://docs.docker.com/engine/install/ubuntu/
Docker Linux Repository	Docker	NA	https://docs.docker.com/engine/install/ubuntu/#install-using-the-repository
MDP Website	Computational Systems Biology Laboratory	NA	https://mdp.sysbio.tools
Enrichr Website	MaayanLab	NA	https://maayanlab.cloud/Enrichr/
webCEMiTool	Computational Systems Biology Laboratory	NA	https://cemitool.sysbio.tools/
gProfiler	Bioinformatics, Algorithmics and Data Mining Group	NA	https://biit.cs.ut.ee/gprofiler/gost
goseq	Bioconductor (Maintainer: Matthew Young [my4 at sanger.ac.uk])	NA	http://bioconductor.org/packages/release/bioc/html/goseq.html
SRA NCBI study	NCBI	NA	https://www.ncbi.nlm.nih.gov/bioproject/PRJNA507472/

DOWNLOAD MATERIALS LIST

References

Weaver, S. C., Charlier, C., Vasilakis, N., Lecuit, M. Zika, Chikungunya, and Other Emerging Vector-Borne Viral Diseases. Annual Review of Medicine. 69, 395-408 (2018).
Burt, F. J., et al. Chikungunya virus: an update on the biology and pathogenesis of this emerging pathogen. The Lancet. Infectious Diseases. 17 (4), 107-117 (2017).
Hua, C., Combe, B. Chikungunya virus-associated disease. Current Rheumatology Reports. 19 (11), 69 (2017).
Suhrbier, A., Jaffar-Bandjee, M. -C., Gasque, P. Arthritogenic alphaviruses-an overview. Nature Reviews Rheumatology. 8 (7), 420-429 (2012).
Nakaya, H. I., et al. Gene profiling of chikungunya virus arthritis in a mouse model reveals significant overlap with rheumatoid arthritis. Arthritis and Rheumatism. 64 (11), 3553-3563 (2012).
Michlmayr, D., et al. Comprehensive innate immune profiling of chikungunya virus infection in pediatric cases. Molecular Systems Biology. 14 (8), 7862 (2018).
Soares-Schanoski, A., et al. Systems analysis of subjects acutely infected with the Chikungunya virus. PLOS Pathogens. 15 (6), 1007880 (2019).
Alexandersen, S., Chamings, A., Bhatta, T. R. SARS-CoV-2 genomic and subgenomic RNAs in diagnostic samples are not an indicator of active replication. Nature Communications. 11 (1), 6059 (2020).
Wang, D., et al. The SARS-CoV-2 subgenome landscape and its novel regulatory features. Molecular Cell. 81 (10), 2135-2147 (2021).
Wilson, J. A. C., et al. RNA-Seq analysis of chikungunya virus infection and identification of granzyme A as a major promoter of arthritic inflammation. PLOS Pathogens. 13 (2), 1006155 (2017).
Gonçalves, A. N. A., et al. Assessing the impact of sample heterogeneity on transcriptome analysis of human diseases using MDP webtool. Frontiers in Genetics. 10, 971 (2019).
Russo, P. S. T., et al. CEMiTool: a Bioconductor package for performing comprehensive modular co-expression analyses. BMC Bioinformatics. 19 (1), 56 (2018).
Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12 (12), 0190152 (2017).
Seyednasrollah, F., Laiho, A., Elo, L. L. Comparison of software packages for detecting differential expression in RNA-seq studies. Briefings in Bioinformatics. 16 (1), 59-70 (2015).
Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, Article17 (2005).
Cheng, C. W., Beech, D. J., Wheatcroft, S. B. Advantages of CEMiTool for gene co-expression analysis of RNA-seq data. Computers in Biology and Medicine. 125, 103975 (2020).
Cardozo, L. E., et al. webCEMiTool: Co-expression modular analysis made easy. Frontiers in Genetics. 10, 146 (2019).
de Lima, D. S., et al. Long noncoding RNAs are involved in multiple immunological pathways in response to vaccination. Proceedings of the National Academy of Sciences of the United States of America. 116 (34), 17121-17126 (2019).
Prada-Medina, C. A., et al. Systems immunology of diabetes-tuberculosis comorbidity reveals signatures of disease complications. Scientific Reports. 7 (1), 1999 (2017).
Chen, E. Y., et al. Enrichr: interactive and collaborative HTML5 gene list enrichment analysis tool. BMC Bioinformatics. 14, 128 (2013).
Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
Raudvere, U., et al. g:Profiler: a web server for functional enrichment analysis and conversions of gene lists (2019 update). Nucleic Acids Research. 47, 191-198 (2019).
Young, M. D., Wakefield, M. J., Smyth, G. K., Oshlack, A. Gene ontology analysis for RNA-seq: accounting for selection bias. Genome Biology. 11 (2), 14 (2010).

Immunology and Infection

High-Throughput Transcriptome Analyse til undersøgelse af Host-Patogen Interaktioner

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.