Immunology and Infection

Konak-Patojen Etkileşimlerini Araştırmak için Yüksek Verimli Transkriptom Analizi

Published: March 5, 2022 doi: 10.3791/62324

André Nicolau Aquime Gonçalves^1,2, Vanessa Escolano Maso³, Ícaro Maia Santos de Castro^2,3, Amanda Pereira Vasconcelos³, Rodrigo Luiz Tomio Ogava^2,3, Helder I Nakaya^2,3,4

¹Laboratory of Pathology of Infectious Diseases, Department of Pathology, Medical School, University of São Paulo, ²Scientific Platform Pasteur USP, ³Department of Clinical and Toxicological Analyses, School of Pharmaceutical Sciences, University of São Paulo, ⁴Hospital Israelita Albert Einstein

Summary

Burada sunulan protokol, RNA dizilimi transkriptom verilerini ham okumalardan fonksiyonel analize analiz etmek için kalite kontrolü ve gelişmiş istatistiksel analitik yaklaşımlara yönelik ön işleme adımları da dahil olmak üzere eksiksiz bir işlem hattını açıklar.

Abstract

Patojenler çok çeşitli bulaşıcı hastalıklara neden olabilir. Konağın enfeksiyona yanıt olarak indüklediği biyolojik süreçler hastalığın şiddetini belirler. Bu tür süreçleri incelemek için araştırmacılar, konak transkriptomunun enfeksiyon, klinik sonuçlar veya hastalık şiddetinin farklı aşamalarında dinamik değişikliklerini ölçen yüksek verimli sıralama tekniklerini (RNA-seq) kullanabilirler. Bu araştırma, hastalıkların daha iyi anlaşılmasının yanı sıra potansiyel ilaç hedeflerini ve tedavilerini ortaya çıkarmaya yol açabilir. Burada sunulan protokol, RNA sıralama verilerini ham okumalardan işlevsel analize analiz etmek için tam bir işlem hattını açıklar. İşlem hattı beş adıma ayrılmıştır: (1) verilerin kalite kontrolü; (2) genlerin haritalanması ve ek açıklaması; (3) farklı ifade edilen genleri ve birlikte ifade edilen genleri tanımlamak için istatistiksel analiz; (4) numunelerin pertürbasyonunun moleküler derecesinin belirlenmesi; ve (5) fonksiyonel analiz. Adım 1, aşağı akış analizlerinin kalitesini etkileyebilecek teknik yapıtları kaldırır. 2. adımda genler standart kütüphane protokollerine göre eşlenir ve açıklama eklenir. 3. adımdaki istatistiksel analiz, enfekte olmayanlara kıyasla, enfekte örneklerde farklı olarak ifade edilen veya birlikte ifade edilen genleri tanımlar. Örnek değişkenliği ve potansiyel biyolojik aykırılıkların varlığı, 4. Son olarak, 5. Sunulan boru hattı, araştırmacıları konak-patojen etkileşim çalışmalarından elde edilen RNA-seq veri analizi yoluyla desteklemeyi ve enfeksiyonların moleküler mekanizmasını anlamak için gerekli olan gelecekteki in vitro veya in vivo deneyleri yönlendirmeyi amaçlamaktadır.

Introduction

Dang humması, sarıhumma, chikungunya ve zika gibi arbovirüsler, çeşitli endemik salgınlarla yaygın olarak ilişkilendirilmiştir ve son on yıllarda insanlara bulaştırmaktan sorumlu ana patojenlerden biri olarak ortaya ^{çıkmıştır1,2}. Chikungunya virüsü (CHIKV) ile enfekte olan bireylerde sıklıkla ateş, baş ağrısı, döküntü, poliartralji ve ^artrit3,4,5 vardır. Virüsler hücrenin gen ekspresyonunu alt edebilir ve çeşitli konak sinyal yollarını etkileyebilir. Son zamanlarda, kan transkriptom çalışmaları, ^iyileşme6 veya sağlıklı kontrollerle karşılaştırıldığında akut CHIKV enfeksiyonu ile ilişkili farklı olarak ifade edilen genleri (DEG' ler) tanımlamak için RNA-seq'i ^{kullanmıştır7}. CHIKV ile enfekte olmuş çocuklarda, viral RNA için hücresel sensörler, JAK/STAT sinyali ve toll benzeri reseptör sinyal yolları6 gibi doğuştan gelen bağışıklıkta yer alan yukarı düzenlenmiş genler ^vardı6. CHIKV ile akut olarak enfekte olan yetişkinler de monositler ve dendritik hücre aktivasyonu ile ilgili olanlar ve antiviral yanıtlar gibi doğuştan gelen bağışıklıkla ilgili genlerin indüksiyonunu ^gösterdi7. Aşağı düzenlenmiş genlerle zenginleştirilmiş sinyal yolları, T hücre aktivasyonu ve T ve B hücrelerinde farklılaşma ve zenginleştirme gibi uyarlanabilir bağışıklıkla ilgili olanları ^içeriyordu7.

Konak ve patojen genlerinin transkriptom verilerini analiz etmek için çeşitli yöntemler kullanılabilir. Genellikle, RNA-seq kütüphane hazırlığı olgun poli-A transkriptlerinin zenginleştirilmesi ile başlar. Bu adım ribozomal RNA'nın (rRNA) çoğunu ve bazı durumlarda viral/bakteriyel RNA'ları giderir. Bununla birlikte, biyolojik soru patojen transkript tespitini içerdiğinde ve RNA önceki seçimden bağımsız olarak sıralandığında, sıralama ile diğer birçok farklı transkript tespit edilebilir. Örneğin, subgenomik mRNA'ların hastalıkların şiddetini doğrulamak için önemli bir faktör olduğu ^{gösterilmiştir8}. Ek olarak, CHIKV ve SARS-CoV-2 gibi bazı virüsler için, poli-A zenginleştirilmiş kütüphaneler bile aşağı akış analizlerinde kullanılabilecek viral okumalar ^{oluşturur9,10}. Konak transkriptom analizine odaklandıklarında, araştırmacılar örnekler arasındaki biyolojik pertürbasyonu araştırabilir, farklı olarak ifade edilen genleri ve zenginleştirilmiş yolları tanımlayabilir ve ortak ifade modülleri oluşturabilir7,11,12. Bu protokol, CHIKV ile enfekte olmuş hastaların ve sağlıklı bireylerin farklı biyoinformatik yaklaşımlar kullanılarak yapılan transkriptom analizlerini vurgulamaktadır (Şekil 1A). Daha önce yayınlanan bir çalışmadan elde edilen ^veriler7, temsili sonuçları oluşturmak için 20 sağlıklı ve 39 CHIKV akut enfekte bireyden oluşan bir çalışmadan kullanıldı.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

Bu protokolde kullanılan örnekler, hem São Paulo Üniversitesi Biyomedikal Bilimler Enstitüsü Mikrobiyoloji Bölümü hem de Sergipe Federal Üniversitesi etik kurulları tarafından onaylanmıştır (Protokoller: 54937216.5.0000.5467 ve 54835916.2.0000.5546).

1. Docker masaüstü kurulumu

NOT: Docker ortamını hazırlama adımları işletim sistemleri (işletim sistemleri) arasında farklıdır. Bu nedenle, Mac kullanıcıları 1.1 olarak listelenen adımları izlemeli, Linux kullanıcıları 1.2 olarak listelenen adımları izlemeli ve Windows kullanıcıları 1.3 olarak listelenen adımları izlemelidir.

MacOS'a yükleyin.
1. Docker web sitesine (Malzeme Tablosu) erişin, Mac için Docker Desktop'a tıklayın ve ardından Docker Hub'dan İndir bağlantısına tıklayın.
2. Docker Al düğmesine tıklayarak yükleme dosyasını indirin.
3. Yükleyiciyi açmak için Docker.dmg dosyasını yürütün ve simgeyi Uygulamalar klasörüne sürükleyin. Programı başlatmak için Uygulamalar klasöründeki Docker.app yerelleştirin ve yürütün.
  NOT: Üst durum çubuğundaki yazılıma özgü menü, yazılımın çalıştığını ve bir terminalden erişilebildiğini gösterir.
Kapsayıcı programını Linux işletim sistemine yükleyin.
1. Docker Linux web sitesine (Malzeme Tablosu) erişin ve Docker Linux Deposu bağlantısında bulunan depo bölümünü kullanarak yükleme talimatlarını izleyin.
2. Komut satırını kullanarak tüm Linux paketlerini güncelleştirin:
  sudo apt-get güncelleştirmesi
3. Gerekli paketleri Docker'a yükleyin:
  sudo apt-get install apt-transport-https ca-certificates curl gnupg lsb-release
4. Yazılım arşivi anahtarlık dosyası oluşturma:
  kıvrılma -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /usr/share/keyrings/docker-archive-keyring.gpg
5. Kaynak.list dosyasına Docker deb bilgilerini ekleyin:
  echo "deb [arch=amd64 signed-by=/usr/share/keyrings/docker-archive-keyring.gpg] https://download.docker.com/linux/ubuntu $(lsb_release -cs) stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
6. Son eklenenler de dahil olmak üzere tüm paketleri yeniden güncelleştirin:
  sudo apt-get güncelleştirmesi
7. Masaüstü sürümünü yükleyin:
  sudo apt-get docker-ce docker-ce-cli containerd.io
8. Yükleme işlemini tamamlamak için coğrafi bölgeyi ve saat dilimini seçin.
Kapsayıcı programını Windows işletim sistemine yükleyin.
1. Docker web sitesine (Malzeme Tablosu) erişin ve Başlarken'e tıklayın. Windows için Docker Desktop yükleyicisini bulun. Dosyaları indirin ve bilgisayara yerel olarak yükleyin.
2. karşıdan yüklemeden sonra yükleme dosyasını başlatın (.exe) ve varsayılan parametreleri saklayın. WSL 2 için Gerekli Windows Bileşenlerini Yükle ve Masaüstüne Kısayol Ekle seçeneklerinin işaretli olduğundan emin olun.
  NOT: Bazı durumlarda, bu yazılım hizmeti başlatmaya çalıştığında bir hata gösterir: WSL yüklemesi tamamlanmadı. Bu hatayı çözmek için WSL2-Kernel (Malzeme Tablosu) web sitesine erişin.
3. En son WSL2 Linux çekirdeğini indirip yükleyin.
4. PowerShell terminaline Yönetici olarak erişin ve komutu yürütün:
  dism.exe /online /enable-feature /featurename:Microsoft-Windows-Alt Sistem-Linux /all /norestart
5. Docker Desktop yazılımının başarıyla yüklendiğinden emin olun.
Görüntüyü Docker hub'ındaki (Malzeme Tablosu) CSBL deposundan indirin.
1. Docker Masaüstü'nü açın ve durumun araç çubuğunun sol alt kısmında "çalıştığını" doğrulayın.
2. Windows PowerShell terminal komut satırına gidin. Bu protokol için Linux Container görüntüsünü Docker hub'ındaki CSBL deposundan indirin. Yansımayı karşıdan yüklemek için aşağıdaki komutu yürütün:
  docker çekme csblusp/transcriptome
  NOT: Görüntüyü indirdikten sonra, dosya Docker Masaüstü'nde görülebilir. Kapsayıcıyı oluşturmak için Windows kullanıcılarının 1.5 adımını, Linux kullanıcılarının ise 1.6 adımını izlemesi gerekir.
Windows işletim sistemi üzerinde sunucu kapsayıcısını başlatın.
1. Masaüstü Uygulama yöneticisindeki Docker görüntü dosyasını Araç Çubuğu'ndan görüntüleyin ve Görüntüler sayfasına erişin.
  NOT: ardışık düzen görüntüsü başarıyla indirildiyse, kullanılabilir bir csblusp/transcriptome görüntüsü olacaktır.
2. Çalıştır düğmesine tıklayarak kapsayıcıyı csblusp/transcriptome görüntüsünden başlatın. Kapsayıcıyı yapılandırmak için İsteğe Bağlı Ayarlar'ı genişletin.
3. Kapsayıcı Adını tanımlayın (örneğin, sunucu).
4. Yerel bilgisayardaki bir klasörü docker içindeki klasörle ilişkilendirin. Bunu yapmak için Ana Bilgisayar Yolu'nu belirleyin. Sonunda karşıdan yüklenecek işlenmiş verileri depolamak için yerel makinede bir klasör ayarlayın. Kapsayıcı Yolunu ayarlayın. Csblusp/transcriptome kapsayıcı klasörünü tanımlayın ve yerel makine yoluna bağlayın (Kapsayıcı Yolu için "/opt/transferdata" adını kullanın).
5. Bundan sonra, csblusp/transcriptome kapsayıcısını oluşturmak için Çalıştır'ı tıklatın.
6. Linux terminaline csblusp/transcriptome kapsayıcısından erişmek için CLI düğmesine tıklayın.
7. Daha iyi bir deneyim yaşamak için bash terminaline yazın. Bunun için komutu yürütün:
  bash
8. Bash komutunu yürüttükten sonra, terminalin gösterdiğinden emin olun (root@:/#):
  root@ac12c583b731:/ #
Linux işletim sistemi için sunucu kapsayıcısını başlatın.
1. Görüntüyü temel alan Docker kapsayıcısını oluşturmak için bu komutu yürütün:
  docker run -d -it --rm --name server -v :/opt/transferdata csblusp/transcriptome
  NOT: : yerel klasör makinesinin bir yolunu tanımlayın.
2. Docker kapsayıcısının komut terminaline erişmek için bu komutu yürütün:
  docker exec -it sunucu bash
3. Komut satırını kullanarak herhangi bir program/komut dosyası yürütmek için bir Linux terminalinin kullanılabilirliğini sağlayın.
4. Bash komutunu yürüttükten sonra, terminalin gösterdiğinden emin olun (root@:/#):
  root@ac12c583b731:/ #
  NOT: Kök parola varsayılan olarak "transkriptome" dir. İsterseniz, kök parola komut çalıştırılarak değiştirilebilir:
  passwd
5. İlk olarak, tüm araçların kullanılabilir olduğundan emin olmak için addpath.sh kaynak komutunu çalıştırın. Komutu yürütün:
  kaynak /opt/addpath.sh
RNA sıralama klasörünün yapısını denetleyin.
1. Transcriptome ardışık düzen komut dosyaları klasörüne erişin ve RNA diziliminden gelen tüm verilerin klasörün içinde depolandığından emin olun: /home/transcriptome-pipeline/data.
2. Analizden elde edilen tüm sonuçların /home/transcriptome-pipeline/results yolunun klasöründe depolandığından emin olun.
3. Genom ve ek açıklama başvuru dosyalarının /home/transcriptome-pipeline/datasets yolunun klasöründe depolandığından emin olun. Bu dosyalar tüm analizleri desteklemeye yardımcı olacaktır.
4. Tüm komut dosyalarının /home/transcriptome-pipeline/scripts yolunun klasöründe depolandığından ve aşağıda açıklandığı gibi her adımla ayrıldığından emin olun.
Ek açıklamayı ve insan genomunu indirin.
1. Komut dosyaları klasörüne erişin:
  cd /home/transcriptome-pipeline/scripts
2. Referans insan genomunu indirmek için bu komutu yürütün:
  bash downloadGenome.sh
3. Ek açıklamayı karşıdan yüklemek için komutu yürütün:
  bash downloadAnnotation.sh
Başvuru genomunun ek açıklamalarını veya sürümünü değiştirin.
1. Her dosyanın URL'sini değiştirmek için downloadAnnotation.sh ve downloadGenome.sh açın.
2. downloadAnnotation.sh ve downloadGenome.sh dosyalarını aktarım alanına kopyalayın ve yerel işletim sistemi içinde düzenleyin.
  cd /home/transcriptome-pipeline/scripts
  cp downloadAnnotation.sh downloadGenome.sh /opt/transferdata
3. 1.5.4. adımda ana bilgisayar ve Docker kapsayıcısı arasında bağlantı sağlamak için seçilen Ana Bilgisayar Yolu klasörünü açın.
4. Tercih edilen düzenleyici yazılımını kullanarak dosyaları düzenleyin ve kaydedin. Son olarak, değiştirilen dosyaları komut dosyası klasörüne koyun. Komutu yürütün:
  cd /opt/transferdata
  cp downloadAnnotation.sh downloadGenome.sh /home/transcriptome-pipeline/scripts
  NOT: Bu dosyalar doğrudan vim veya nano Linux editörü kullanılarak düzenlenebilir.
Ardından, fastq-dump aracını komut satırıyla yapılandırın:
vdb-config --etkileşimli
NOT: Bu, örnek verilerden sıralama dosyalarının indirilmesine izin verir.
1. Sekme tuşunu kullanarak Araçlar sayfasında gezinin ve geçerli klasör seçeneğini belirleyin. Kaydet seçeneğine gidin ve Tamam'ı tıklatın. Ardından, fastq-dump aracından çıkın .
Okumaların indirilmesini daha önce ^{yayımlanmıştır7}. Her örneğin SRA katılım numarası gereklidir. SRA numaralarını SRA NCBI web sitesinden (Malzeme Tablosu) alın.
NOT: Ortak veritabanlarında bulunan RNA-Seq verilerini çözümlemek için 1.12 adımını izleyin. Özel RNA-seq verilerini çözümlemek için 1.13 adımını izleyin.
Belirli genel verileri analiz edin.
1. Ulusal Biyoteknoloji Bilgileri Merkezi (NCBI) web sitesine erişin ve belirli bir konu için anahtar kelimeler arayın.
2. Genomlar bölümünde bioproject için sonuç bağlantısına tıklayın.
3. Belirli bir çalışmayı seçin ve tıklayın. SRA Deneyleri'ne tıklayın. Bu çalışma için mevcut tüm örnekleri gösteren yeni bir sayfa açılır.
4. Katılım numarasının üstündeki "Gönder:" üzerine tıklayın. "Hedef Seç" seçeneğinde Dosya ve Biçim seçeneğini belirleyin, RunInfo'yı seçin. Tüm kitaplık bilgilerini vermek için "Dosya Oluştur" u tıklayın.
5. SraRunInfo.csv dosyasını 1.5.4 adımında tanımlanan Ana Bilgisayar yoluna kaydedin ve indirme komut dosyasını yürütün:
  cp /opt/transferdata/SraRunInfo.csv /home/transcriptome-pipeline/data
  cd /home/transcriptome-pipeline/scripts
  bash downloadAllLibraries.sh
Özel ve yayımlanmamış sıralama verilerini çözümleme.
1. Sıralama verilerini Reads adlı bir klasörde düzenleyin.
  NOT: Okur klasörünün içinde, her örnek için bir klasör oluşturun. Bu klasörler her örnek için aynı ada sahip olmalıdır. Her örneğin verilerini dizinine ekleyin. Eşleştirilmiş uç RNA-Seq olması durumunda, her örnek dizin sırasıyla {sample}_1.fastq.gz ve {sample}_2.fastq.gz, forward ve reverse sequences desenlerine göre biten adları sunması gereken iki FASTQ dosyası içermelidir. Örneğin, "Healthy_control" adlı bir örneğin aynı ada sahip bir dizini ve Healthy_control_1.fastq.gz ve Healthy_control_2.fastq.gz adlı FASTQ dosyaları olmalıdır. Bununla birlikte, kitaplık sıralaması tek uçlu bir stratejiyse, aşağı akış analizi için yalnızca bir okuma dosyası kaydedilmelidir. Örneğin, aynı örnek olan "Sağlıklı denetim", Healthy_control.fastq.gz adlı benzersiz bir FASTQ dosyasına sahip olmalıdır.
2. Tüm örnek adları içeren bir fenotipik dosya oluşturun: İlk sütunu 'Örnek', ikinci sütunu 'Sınıf' olarak adlandırın. Örnek sütunu, örnek dizinler için aynı ad olması gereken örnek adlarla doldurun ve Sınıf sütununu her örneğin fenotipik grubuyla (örneğin, kontrol veya virüslü) doldurun. Son olarak, "metadata.tsv" adlı bir dosyayı kaydedin ve /home/transcriptome-pipeline/data/ dizinine gönderin. Fenotipik dosyanın biçimini anlamak için varolan meta veri.tsv dosyasına göz atın.
  cp /opt/transferdata/metadata.tsv
  /home/transcriptome-pipeline/data/metadata.tsv
3. 1.5.4. adımda tanımlanan Ana Bilgisayar Yolu dizinine erişin ve yeni yapılandırılmış dizin örneklerini kopyalayın. Son olarak, örnekleri /opt/transferdata'dan işlem hattı veri dizinine taşıyın.
  cp -rf /opt/transferdata/reads/*
  /home/transcriptome-pipeline/data/reads/
Tüm okumaların /home/transcriptome-pipeline/data/reads klasöründe depolandığını gözlemleyin.

2. Verilerin kalite kontrolü

NOT: Sıralama okumalarındaki hata olasılığını grafiksel olarak değerlendirin. Adaptörler gibi tüm teknik dizileri kaldırın.

FastQC aracıyla kitaplıkların sıralama kalitesine erişin.
1. Kalite grafiklerini oluşturmak için fastqc programını çalıştırın. Komutu yürütün:
  bash FastQC.sh
  NOT: Sonuçlar /home/transcriptome-pipeline/results/FastQC klasörüne kaydedilecektir. Sıra bağdaştırıcıları kitaplık hazırlama ve sıralama için kullanıldığından, bazı durumlarda bağdaştırıcılar dizisinin parçaları eşleme işlemini engelleyebilir.
Bağdaştırıcı sırasını ve düşük kaliteli okumaları kaldırın. Komut Dosyaları klasörüne erişin ve Trimmomatic aracının komutunu çalıştırın:
cd /home/transcriptome-pipeline/scripts
bash trimmomatic.sh
NOT: Filtreyi sıralamak için kullanılan parametreler şunlardır: Önde gelen düşük kaliteyi veya 3 tabanı (kalitenin altında 3) çıkarın (LEADING:3); Takip eden düşük kaliteyi veya 3 tabanı (kalitenin altında 3) çıkarın (TRAILING:3); Taban başına ortalama kalite 20'nin altına düştüğünde keserek 4 tabanlı geniş sürçme penceresiyle okumayı tarayın (SLIDINGWINDOW:4:20); ve Drop 36 taban uzunluğundaki (MINLEN:36) altında okur. Bu parametreler Trimmomatic komut dosyası düzenlenerek değiştirilebilir.
1. Sonuçların aşağıdaki klasöre kaydedildiğine emin olun: /home/transcriptome-pipeline/results/trimreads. Komutu yürütün:
  ls /home/transcriptome-pipeline/results/trimreads

3. Örneklerin haritalanması ve ek açıklaması

NOT: Kaliteli okumalar elde edildikten sonra, bunların referans genomla eşlenilmesi gerekir. Bu adım için, ÖRNEK örnekleri eşlemek için STAR eşleyicisi kullanıldı. STAR eşleyici aracı, okuma ve genom eşlemesini yüklemek ve yürütmek için 32 GB RAM bellek gerektirir. 32 GB RAM belleği olmayan kullanıcılar için önceden eşlenmiş okumalar kullanılabilir. Bu gibi durumlarda adım 3.3'e atlayın veya Bowtie2 eşleyiciyi kullanın. Bu bölümde STAR (tüm rakamlarla gösterilen sonuçlar) ve Bowtie2 (düşük bellekli gerekli eşleyici) için komut dosyaları vardır.

İlk olarak haritalama işlemi için referans genomun dizinini İndeksleyin:
1. Komut satırını kullanarak Komut Dosyaları klasörüne erişin:
  cd /home/transcriptome-pipeline/scripts
2. STAR eşleyici için yürütün:
  bash indexGenome.sh
3. Bowtie eşleyici için yürütün:
  bash indexGenomeBowtie2.sh
Filtre uygulanmış okumaları (adım 2'den elde edilen) başvuru genomuna (GRCh38 sürümü) eşlemek için aşağıdaki komutu yürütün. Hem STAR hem de Bowtie2 eşleyiciler varsayılan parametreler kullanılarak gerçekleştirilir.
1. STAR eşleyici için yürütün:
  bash mapSTAR.sh
2. Bowtie2 eşleyici için yürütün:
  bash mapBowtie2.sh
  NOT: Nihai sonuçlar, /home/transcriptome-pipeline/results/mapreads içinde depolanan her örnek için İkili Hizalama Eşlemesi (BAM) dosyalarıdır.
Her gen için ham sayımlar elde etmek için FeatureCounts aracını kullanarak eşlenen okumalara açıklama ekleme. Okumalara açıklama getiren komut dosyalarını çalıştırın.
NOT: FeatureCounts aracı, genomik özelliklere eşlenmiş sıralama okumaları atamaktan sorumludur. Biyolojik sorunun ardından değiştirilebilen genom ek açıklamalarının en önemli yönleri arasında, izoformların tespiti, birden fazla eşlenmiş okuma ve ekson-ekson kavşakları, parametrelere karşılık gelen GTF.attrType="gene_name" gen için veya meta özellik düzeyi için parametreleri belirtmeyin, allowMultiOverlap=TRUE ve juncCounts=TRUE, sırasıyla.
1. Komut satırını kullanarak komut dosyaları klasörüne erişin:
  cd /home/transcriptome-pipeline/scripts
2. Gen başına ham sayım elde etmek üzere eşlenen okumalara açıklama eklemek için komut satırını yürütün:
  Rscript ek açıklaması. R
  NOT: Ek açıklama işlemi için kullanılan parametreler: dönüş geni kısa adı (GTF.attrType="gene_name"); birden çok çakışmaya izin verin (allowMultiOverlap = DOĞRU); ve kitaplığın eşleştirilmiş uçlu olduğunu belirtin (isPairedEnd=TRUE). Tek uç stratejisi için isPairedEnd=FALSE parametresini kullanın. Sonuçlar /home/transcriptome-pipeline/countreads klasörüne kaydedilir.
Gen ekspresyonlarını normalleştirin.
NOT: Gen ekspresyonun normalleştirilmesi, sonuçları sonuçlar arasında karşılaştırmak için gereklidir (örneğin, sağlıklı ve enfekte örnekler). Pertürbasyon analizlerinin birlikte ifade ve moleküler derecesini gerçekleştirmek için de normalleşme gereklidir.
1. Komut satırını kullanarak Komut Dosyaları klasörüne erişin:
  cd /home/transcriptome-pipeline/scripts
2. Gen ekspresyonini normalleştirin. Bunun için komut satırını yürütün:
  Rscript normalleştirme örneklemeleri. R
  NOT: Ham sayım ifadesi, bu denemede, M değerlerinin Kırpılmış Ortalaması (TMM) ve Milyon Başına Sayı (BGBM) yöntemleri kullanılarak normalleştirildi. Bu adım, kütüphane boyutu normalleşmesi yaparak, teknik etkiye bağlı gen ifadesindeki farklılıkları ortadan kaldırmayı amaçlamaktadır. Sonuçlar /home/transcriptome-pipeline/countreads klasörüne kaydedilir.

4. Farklı ifade edilen genler ve birlikte ifade edilen genler

Açık kaynaklı EdgeR paketini kullanarak farklı şekilde ifade edilen genleri tanımlayın. Bu, ifade kontrolüne kıyasla daha yüksek veya daha düşük olan genleri bulmayı içerir.
1. Komut satırını kullanarak Komut Dosyaları klasörüne erişin:
  cd /home/transcriptome-pipeline/scripts
2. Farklı şekilde ifade edilen geni tanımlamak için, komut satırını kullanarak DEG_edgeR R komut dosyasını yürütün:
  Rscript DEG_edgeR.R
  NOT: Farklı olarak ifade edilen genleri içeren sonuçlar /home/transcriptome-pipeline/results/degs klasörüne kaydedilecektir. Veriler kişisel bir bilgisayara aktarılabilir.
Csblusp/transcriptome kapsayıcısından veri indirin.
1. İşlenen verileri /home/transcriptome-pipeline dosyasından /opt/transferdata klasörüne (yerel bilgisayar) aktarın.
2. Komut satırını çalıştırarak tüm dosyaları yerel bilgisayara kopyalayın:
  cp -rf /home/transcriptome-pipeline/results /opt/transferdata/pipeline
  cp -rf /home/transcriptome-pipeline/data /opt/transferdata/pipeline
  NOT: Şimdi, tüm sonuçların, veri kümelerinin ve verilerin Ana Bilgisayar Yolu'ndan indirilebildiğine emin olmak için yerel bilgisayara gidin.
Ortak ifade modüllerini tanımlayın.
1. Ortak İfade Modülleri Tanımlama Aracı (CEMiTool) web sitesine erişin (Tablo
  Malzemeler). Bu araç, kullanıcılar tarafından sağlanan ifade veri kümelerinden ortak ifade modüllerini tanımlar. Ana sayfada, sağ üstteki Çalıştır'a tıklayın. Bu, ifade dosyasını karşıya yüklemek için yeni bir sayfa açacaktır.
2. İfade Dosyası bölümünün altındaki Dosya Seç'e tıklayın ve normalleştirilmiş gen ifade matrisi 'tmm_expression.tsv'yi Ana Bilgisayar Yolu'ndan yükleyin.
  NOT: Adım 4.4. zorunlu değildir.
Birlikte ifade modüllerinin biyolojik anlamını keşfedin.
1. Örnek Fenotipler bölümünde Dosya Seç'e tıklayın ve indirme veri adımı 4.2.2'den metadata_cemitool.tsv örnek fenotipleri olan dosyayı yükleyin. gen kümesi zenginleştirme analizi (GSEA) yapmak için.
2. Gen etkileşimleri olan bir dosya yüklemek için Gen Etkileşimleri bölümündeki Dosya Seç'e basın (cemitool-interactions.tsv). WebCEMiTool tarafından örnek olarak sağlanan gen etkileşimleri dosyasını kullanmak mümkündür. Etkileşimler protein-protein etkileşimleri, transkripsiyon faktörleri ve bunların transkripsiyonlu genleri veya metabolik yollar olabilir. Bu adım, her birlikte ifade modülü için bir etkileşim ağı oluşturur.
3. Gene Matrix Transposed (GMT) formatında bir dosyada işlevsel olarak ilişkili genlerin listesini yüklemek için Gen Kümeleri bölümündeki Dosya Seç bölümüne tıklayın. Gene Set dosyası, aracın her bir ortak ifade modülü için zenginleştirme analizi, yani aşırı temsil analizi (ORA) gerçekleştirmesini sağlar.
  NOT: Bu gen listesi yolları, GO terimlerini veya miRNA hedef genlerini kapsayabilir. Araştırmacı bu analiz için gen seti olarak Kan Transkripsiyon Modüllerini (BTM) kullanabilir. BTM dosyası (BTM_for_GSEA.gmt).
Birlikte ifade analizleri yapmak için parametreleri ayarlayın ve sonuçlarını alın.
1. Ardından, varsayılan parametreleri sergilemek için artı işaretine tıklayarak Parametre bölümünü genişletin. Gerekirse, değiştirin. VST Uygula kutusunu işaretleyin.
2. Sonuçları e-posta olarak almak için e-postayı E-posta bölümüne yazın. Bu adım isteğe bağlıdır.
3. CEMiTool Çalıştır düğmesine basın.
4. Sağ üstteki Tam Raporu İndir'e tıklayarak analiz raporunun tamamını indirin. Sıkıştırılmış bir dosyayı cemitool_results.zip.
5. WinRAR ile cemitool_results.zip içeriğini ayıklayın.
  NOT: Ayıklanan içeriğe sahip klasör, analizin tüm sonuçlarını ve belirlenen parametrelerini içeren birkaç dosyayı kapsar.

5. Numunelerin moleküler pertürbasyon derecesinin belirlenmesi

Moleküler Pertürbasyon Derecesi (MDP) web sürümü.
1. MDP'yi çalıştırmak için MDP web sitesine (Malzeme Tablosu) erişin. MDP, her numunenin referanstan moleküler mesafesini hesaplar. Çalıştır düğmesine tıklayın.
2. Dosya Seç bağlantısında, tmm_expression.tsv ifade dosyasını karşıya yükleyin. Ardından, verileri indirme adımı 4.2.2'den fenotipik veri dosyası meta datata.tsv dosyasını yükleyin. Hastalıkla ilişkili yolların pertürbasyon puanını hesaplamak için GMT formatında bir yol ek açıklama dosyası göndermek de mümkündür.
3. Veriler yüklendikten sonra, MDP tarafından kullanılan fenotipik bilgileri içeren Sınıf sütununu tanımlayın. Ardından, denetim sınıfına karşılık gelen etiketi seçerek denetim sınıfını tanımlayın.
  NOT: Örnek puanların nasıl hesaplanacağını etkileyecek bazı isteğe bağlı parametreler vardır. Gerekirse, kullanıcı istatistik ortalama yöntemini, standart sapmasını ve pertürbed genlerin üst yüzdesini değiştirebilir.
4. Bundan sonra, MDP Çalıştır düğmesine basın ve MDP sonuçları gösterilecektir. Kullanıcı, her çizimdeki Çizimi İndir'e ve MDP Puan Dosyasını İndir düğmesindeki MDP puanına tıklayarak rakamları indirebilir.
  NOT: Dosyaların nasıl gönderılacağı veya MDP'nin nasıl çalıştığı hakkında sorularınız olması durumunda, Öğretici ve Web sayfaları hakkında'dan geçmeniz yeterlidir.

6. Fonksiyonel zenginleştirme analizi

Bir alt düzenlenmiş DEG listesi ve başka bir yukarı düzenlenmiş DEG listesi oluşturun. Gen isimleri Entrez gen sembollerine göre olmalıdır. Listenin her geni tek bir satıra yerleştirilmelidir.
Gen listelerini txt veya tsv biçiminde kaydedin.
İşlevsel analizi gerçekleştirmek için Enrichr web sitesine (Malzeme Tablosu) erişin.
Dosya Seç'e tıklayarak gen listesini seçin. DEG listesinden birini seçin ve Gönder düğmesine basın.
ORA yaklaşımıyla işlevsel zenginleştirme analizi yapmak için web sayfasının üst kısmındaki Yollar'a tıklayın.
Bir yol veritabanı seçin. "Reactome 2016" yol veritabanı, insan verilerinin biyolojik anlamını elde etmek için yaygın olarak kullanılmaktadır.
Yol veritabanının adına yeniden tıklayın. Çubuk Grafik'i seçin ve p-değer sıralamasına göre sıralanıp sıralanmadığını denetleyin. Değilse, p değerine göre sıralanana kadar çubuk grafiği tıklatın. Bu çubuk grafik, p değerlerine göre en iyi 10 yolu içerir.
Konfigürasyon düğmesine basın ve yukarı düzenlenmiş gen analizi için kırmızı rengi veya aşağı düzenlenmiş gen analizi için mavi rengi seçin. svg, png ve jpg'ye tıklayarak çubuk grafiği çeşitli biçimlerde kaydedin.
Tablo'yu seçin ve txt dosyasındaki işlevsel zenginleştirme çözümleme sonuçlarını elde etmek için çubuk grafiğin sol alt kısmındaki Tabloya Girişleri Dışa Aktar'ı tıklatın.
NOT: Bu fonksiyonel zenginleştirme sonuçları dosyası, her satırda bir yolun adını, gönderilen DEG listesi ile yol arasındaki çakışmış genlerin sayısını, p değerini, ayarlanmış p değerini, oran oranını, birleşik puanı ve DEG listesinde bulunan ve yola katılan genlerin gen sembolünü kapsar.
Diğer DEG'ler listesiyle aynı adımları yineleyin.
NOT: Aşağı düzenlenmiş DEG'lerle yapılan analiz, aşağı düzenlenmiş genler için zenginleştirilmiş yollar sağlar ve yukarı düzenlenmiş genlerle yapılan analizler, yukarı düzenlenmiş genler için zenginleştirilmiş yollar sağlar.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Transkriptom analizleri için bilgi işlem ortamı Docker platformunda oluşturulmuş ve yapılandırılmıştır. Bu yaklaşım, yeni başlayan Linux kullanıcılarının linux terminal sistemlerini priori yönetim bilgisi olmadan kullanmalarını sağlar. Docker platformu, belirli kullanıcıların araçlarını içeren bir hizmet kapsayıcısı oluşturmak için ana işletim sistemi kaynaklarını kullanır (Şekil 1B). Linux OS Ubuntu 20.04 dağıtımına dayalı bir konteyner oluşturuldu ve komut satırı terminali üzerinden erişilebilen transkriptomik analizler için tamamen yapılandırıldı. Bu kapsayıcıda, tüm ardışık düzen çözümlemleri için gerekli olan veri kümeleri ve komut dosyaları için önceden tanımlanmış bir klasör yapısı vardır (Şekil 1C). Araştırma grubumuz7 tarafından yayınlanan bir çalışma analizler için kullanıldı ve sağlıklı bireylerden 20, CHIKV akut enfekte bireylerden 39 örnekten oluşuyordu (Şekil 1D).

Toplam RNA sıralama işlemi, iki veya daha fazla transkript içeren bir kümenin veya reaktiflerin tükenmesinin neden olabileceği okuma hataları oluşturabilir. Sıralama platformları, her nükleotid tabanı için sırayı (okuma) ve ilişkili kaliteyi içeren bir dizi "FASTQ" dosyası döndürür (Şekil 2A). Phred kalite ölçeği, her tabanın yanlış okunma olasılığını gösterir (Şekil 2B). Düşük kaliteli okumalar önyargı veya yanlış gen ifadesi üreterek aşağı akış analizlerinde art arda hataları tetikleyebilir. Trimmomatic gibi araçlar, numunelerden düşük kaliteli okumaları tanımlamak ve kaldırmak ve okumaları eşleme olasılığını artırmak için geliştirilmiştir (Şekil 2C,D).

Haritalama modülü, referans genom olarak STAR hizalayıcısı ve GRCh38 insan konağı ile önceden yapılandırılmıştır. Bu adımda, önceki adımdan kurtarılan yüksek kaliteli okumalar, insan referans genomuna hizalamak için giriş olarak kullanılır (Şekil 3A). STAR hizalayıcı, BAM biçim dosyasındaki bir referans genomuna eşlenen okumaların hizalamasını çıkar. Bu hizalamaya dayanarak, FeatureCounts aracı, GTF dosya biçiminde (Şekil 3B) insan ana bilgisayarın referans ek açıklamalarını kullanarak hizalanmış okumaların özelliklerinin (genlerinin) ek açıklamalarını gerçekleştirir. Son olarak, her gen adını bir satır ve her örneği bir sütun olarak içeren ifade matrisi oluşturulur (Şekil 3C). Daha fazla aşağı akış analizi için örnek adları ve ilgili örnek grupları içeren ek bir meta veri dosyası da sağlanmalıdır. Gen ekspresyon matrisi, DEG'leri tanımlamak için EdgeR girişi olarak kullanılabilen örnekler arasında her genle eşlenen sayım sayısını temsil eder. Ayrıca bu gen ekspresyon matrisi, teknik değişkenliği gidermek ve numuneler arasında ifade edilen genlerin toplam kütüphane boyutundaki oranı dikkate alınarak RNA-seq ölçümünü düzeltmek amacıyla TMM ve CPM kullanılarak normalleştirilmiştir. Bu matris ayrıca birlikte ifade ve MDP analizleri için girdi olarak kullanılmıştır.

CEMiTool, ortak ifade modüllerini tanımlar ve analiz ^eder12. Aynı modülde bulunan genler birlikte ifade edilir, bu da veri kümesinin örnekleri arasında benzer ifade kalıpları sergiledikleri anlamına gelir. Bu araç ayrıca tanımlanan her modülün biyolojik öneminin araştırılmasına izin verir. Bunun için üç isteğe bağlı analiz sağlar - GSEA tarafından fonksiyonel zenginleştirme analizi, Over Representation Analysis (ORA) tarafından fonksiyonel zenginleştirme analizi ve ağ analizi. GSEA tarafından yapılan fonksiyonel zenginleştirme analizi, her fenotipte her modülün gen ekspresyoyu hakkında bilgi sağlar (Şekil 4A). Buna göre, her fenotipte bastırılan veya indüklenen modüllerin tanımlanmasını sağlar. ORA analizi, her modülün en önemli şekilde zenginleştirilmiş ilk 10 biyolojik fonksiyonunun ayarlanmış p değerlerine göre sıralanmasını gösterir. Bozulmuş biyolojik süreçleri ve ilgi fenotipi tarafından bastırılıp bastırılmadıklarını veya indüklendiklerini belirlemek için GSEA ve ORA sonuçlarını birleştirmek mümkündür. Ağ analizleri her modülün bir interactome sağlar (Şekil 4A). Her modülün genlerinin nasıl etkileşime girdiğinin görselleştirilmesini sağlar. Bunun yanı sıra, ağ analizi, ağdaki adlarıyla tanımlanan en bağlı genler, hub'lar hakkında bilgi sağlar. Düğümlerin boyutu bağlantı derecesini temsil eder.

DEG'leri tanımlamak için, tek yönlü ve özlü bir komut satırında uç-uca bir fark analizi çalıştırmak için şirket içi bir komut dosyası geliştirilmiştir. Komut dosyası, kullanıcı tarafından bir meta veri dosyasında sağlanan farklı örnek grupları karşılaştırarak bir DEG analizi yapmak için gereken tüm adımları gerçekleştirir. Buna ek olarak, DEG sonuçları aşağı düzenlenmiş ve yukarı düzenlenmiş genlerin ayrı listelerinde saklanır ve daha sonra Bioconductor'dan EnhancedVolcano R paketi kullanılarak yayına hazır bir şekilde (Şekil 4B) derlenir.

MDP aracı tarafından gerçekleştirilen moleküler pertürbasyon derecesinin analizi, sağlıklı ve enfekte bireylerden gelen pertürbed örnekleri tanımlamamızı ^sağlar11. Pertürbasyon skoru, CHIKV ile enfekte olan her örnek için ifade edilen tüm genler ve sağlıklı örnekler referans grubu olarak göz önünde bulundurularak hesaplanır (Şekil 5A). MDP ayrıca analizi bu örneklerden en çok rahatsız edilen genlerin sadece ilk %25'ini kullanarak gerçekleştirir (Şekil 5B). Örnekler genetik arka plan, yaş, cinsiyet veya diğer önceki hastalıklar göz önüne alındığında büyük bir değişkenlik sunabilir. Bu faktörler transkriptom profilini değiştirebilir. Buna dayanarak, MDP hangi örneklerin bunları çıkarmak ve aşağı akış sonuçlarını iyileştirmek için potansiyel biyolojik aykırılıklar olduğunu önermektedir (Şekil 5A,B).

DEG'lerin biyolojik anlamını belirlemek için Ora tarafından fonksiyonel bir zenginleştirme analizi Enrichr kullanılarak yapılabilir. Aşağı düzenlenmiş genler listesine dayanarak sağlanan sonuçlar, çalışılan fenotipteki bastırılmış biyolojik süreçleri gösterirken, yukarı düzenlenmiş genler listesine dayanarak sağlanan sonuçlar, ilgi fenotipinde indüklenen biyolojik süreçleri sunar. Enrichr tarafından oluşturulan çubuk grafikte gösterilen biyolojik süreçler, p-değer sıralamasına göre en zenginleştirilmiş 10 gen kümesidir (Şekil 6).

Şekil 1: Çevre Docker ve örnek çalışma. (A) Docker platformu, linux sistemi için transkriptom analizleri için araçlar içeren "Kapsayıcılar" oluşturmak için işletim sistemi ana bilgisayar kaynaklarını kullanır. (B) Docker Container, işlem hattı komut dosyalarını yürütmek için bir Linux sistemini simüle eder. (C) Transcriptome ardışık düzen klasör yapısı, analiz için veri kümelerini ve komut dosyalarını depolamak üzere oluşturulmuş ve düzenlenmiştir. (D) Grubumuzdan yapılan çalışma transkriptom analizlerine örnek olarak kullanılmıştır. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Şekil 2: Sıralamanın kalite kontrolü. (A) FASTQ formatlı dosya, sıra ve nükleotid temel kalitesini temsil etmek için kullanılır. (B) Phred skor denklemi, burada her 10 bir günlük olasılık yanlış okuma tabanını artırır. (C) ve (D) Boxplot, Trimmomatic yürütmeden önce ve sonra sırasıyla her nükleotid tabanının kalite dağılımını temsil eder. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Şekil 3: Diziden gen sayısı ifadesine kadar haritalama ve ek açıklama süreci. (A) Haritalama, genomik lokalizasyonu tanımlamak için transkriptten diziyi ve genomdan diziyi hizalamaktan oluşur. (B) Referans genoma eşlenen okumalar, çakışan genomik lokalizasyonlarına göre açıklamalır. (C) featureCounts gibi haritalama dosyası araçlarına dayanarak gen ifadesi özetlenmiştir. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Şekil 4: Birlikte ifade edilen genler ağı ve DEG'lerin istatistiksel analizi. (A) Gen ekspresyona dayalı birlikte ifade modülleri ve modül genlerinden protein-protein etkileşimleri ağı. (B) CHIKV akut enfekte ve sağlıklı bireylerin istatistiksel analizi ve kırmızı (p-değeri ve log2FC kriterleri), mor (sadece p-değeri), yeşil (sadece log2FC) ve gri (önemi yoktur) diferansiyel gen ekspresyotiği. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Şekil 5: CHIKV akut enfekte ve sağlıklı bireylerin Moleküler Pertürbasyon Derecesi (MDP). (A) transkriptomdan ifade edilen tüm genleri kullanarak her örnek için MDP skoru. (B) En çok zarar gören genlerin sadece ilk %25'ini kullanarak her örnek için MDP puanı. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Şekil 6: DEG'ler için fonksiyonel analiz. (A) Biyolojik yolları veya temsili gen setlerini değerlendirmek için Enrichr web sitesi aracına yukarı ve (B) Aşağı düzenlenmiş genler sunulmuştur. Her yol için P değerleri hesaplandı ve grafikte sadece önemli farklılıklar gösterildi. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Sıralama kütüphanelerinin hazırlanması, biyolojik soruları mümkün olan en iyi şekilde yanıtlamak için çok önemli bir adımdır. Çalışmanın ilgi çekici transkriptlerinin türü, hangi sıralama kütüphanesinin seçileceğine rehberlik edecek ve biyoinformatik analizleri yönlendirecektir. Örneğin, bir patojen ve konak etkileşiminin dizileninden, sıralama türüne göre, her ikisinden de veya yalnızca ana bilgisayar transkriptlerinden dizileri tanımlamak mümkündür.

Yeni nesil sıralama ekipmanı, örneğin Illumina Platformu, sıralama kalitesi puanlarını ölçer, bu da bir tabanın yanlış çağrılma olasılığını temsil eder. Aşağı akış analizleri düşük kaliteli dizilere karşı çok hassastır ve az okunan veya yanlış okunan gen ekspresyonlarına yol açar. Doğru analizlerin ve yorumlamanın yapılmasındaki bir diğer engel de adaptör dizileridir. Bağdaştırıcı dizileri kitaplık hazırlama ve sıralamada yardımcıdır ve çoğu durumda bağdaştırıcılar da sıralanır. Son çalışmalar, haritalama aracının nihai sonuçlar üzerindeki etkisinin ^minimum13 olduğunu tespit etti. Bununla birlikte, patojen konak çalışmalarında, haritalama işlemi, çok eşlenmiş lokus dizileri sorununu en aza indirmek için farklı eşikleri test ederken biraz daha iyi sonuçlar üretebilir.

Diferansiyel gen ekspresyon sonuçları, özellikle grup başına örnek sayısı çok az olduğunda ve numuneler farklı tahlillerden geldiğinde ve DEG'lerin sonucuna toplu etkilerle müdahale ettiğinde, belirli bir dikkatle yorumlanmalıdır. Bu sonuçlar çeşitli faktörlere karşı hassastır: (i) düşük eksprese edilmiş genlerin çıkarılması ve bakımı gereken örnek sayısı gibi uygulanan veri filtrelemesi; (ii) CHIKV çalışmasında gösterildiği gibi, sadece örnek gruplar veya enfekte olmuş her hasta ile tüm kontrol hastaları arasında karşılaştırmak için çalışma ^tasarımı7; ve (iii) DEG'leri tanımlamak için kullanılan istatistiksel yöntem. Burada, 0,05 eşik p değerini varsayarak DEG'leri tanımlamak için EdgeR ile temel bir örnek gösteriyoruz. Literatürde, diğer kıyaslama yöntemlerine kıyasla EdgeR'ın DEG'leri tanımlamada çok çeşitli değişkenliğe sahip olabileceği ^{bilinmektedir14}. Bu tür farklı yöntemler arasındaki takası göz önünde bulundurabilir ve mevcut çoğaltma sayısını ve deneysel tasarımın karmaşıklığını dikkate ^alabilir14.

CEMiTool, ortak ifade modülü analizleri ^{gerçekleştirir12}. Bu araç, Biyokondüktör deposundaki R paketi aracılığıyla kullanılabilir ve webCEMiTool aracılığıyla kullanıcı dostu bir sürümde de mevcuttur; ikincisi, bu geçerli protokolde kullanılan sürümdür. Bu, ^WGCNA15 ile ilgili olarak, daha kullanıcı dostu olması da dahil olmak üzere ^ikinci16'ya kıyasla çeşitli faydalar sunan alternatif bir yazılımdır17. Ayrıca, bu araç genleri filtrelemek için otomatik bir yönteme sahiptir, WGCNA'da ise kullanıcı WGCNA kullanımından önce genleri filtrelemelidir. Buna ek olarak, bu aracın varsayılan parametreleri belirlenmiştir, WGCNA'da ise kullanıcının parametre analizlerini el ile seçmesi gerekir. Manuel parametre seçimi tekrarlanabilirliği bozar; bu nedenle, otomatik parametre seçimi geliştirilmiş tekrarlanabilirliği garanti eder.

Bazı durumlarda, CEMiTool β değeri olarak da adlandırılan uygun bir yumuşak eşik bulamaz. Bu durumda, kullanıcı RNA-seq verilerinin güçlü ortalama varyans bağımlılığı sunup sunmadığını denetlemelidir. Ortalama varyansla güçlü bir doğrusal ilişki sergiliyorsa (tüm genleri göz önünde bulundurarak), kullanıcı transkriptomik verilerin ortalama varyans bağımlılığını kaldırmak için "APPLY VST" parametresini kontrol eden analizleri yeniden çalıştırmalıdır. Verilerde güçlü bir ortalama varyans bağımlılığı olup olmadığını kontrol etmek ve mevcut olduğunda kaldırmak her zaman önemlidir.

CEMiTool, ortak ifade modüllerinin biyolojik anlamını tanımlamak ve keşfetmek için yaygın olarak kullanılmıştır. Bir CHIKV akut enfeksiyon çalışması, semptomların başlamasından 2 ila 4 gün sonra hastalarda daha yüksek aktiviteye sahip bir modül ^{göstermiştir7}. Bu modülün ORA tarafından fonksiyonel olarak zenginleştirilmesi monositlerde ve nötrofillerde artış ^gösterdi7. Aşılama sonrası 7. güne kadar kan transkriptom kullanılarak yapılan bir influenza aşılama çalışmasında, T, B ve doğal öldürücü hücreler, monositler, nötrofiller, interferon yanıtları ve trombosit aktivasyonu ile ilgili biyolojik süreçler için işlevsel olarak zenginleştirilmiş ortak ifade modülleri ^{sunulmuştur18}.

Transkriptomik veri kümelerinden elde edilen değişkenlik göz önüne alındığında, birçok değişken gen ekspresyon profilini etkileyebileceğinden, veri heterojenliğini tanımlamak ve ölçmek zor ^olabilir7,11. MDP, aşağıdaki adımları izleyerek sağlıklı ve enfekte deneklerden gelen pertürbed örnekleri tanımlamanın ve ölçmenin bir yolunu sağlar: (i) kontrol örneklerinin merkezilik yöntemini (ortanca veya ortalama) ve standart sapmasını hesaplamak; (ii) elde edilen değerleri kullanarak tüm genlerin z-skorunu hesaplamak; (iii) kontrol örneklerinden temsili sapmaları gösteren 2'den büyük bir eşik z-puanı mutlak ayarlayın; ve (iv) her örnek için filtrelenen puanları kullanarak gen değerlerinin ortalamasını hesaplamak. ScRNA-seq analizi için bazı sınırlamalara sahip olmasına rağmen, bu araç mikroarray ve RNA-seq verilerinden pertürbasyon puanını belirlemede ^{işlevseldi11}. Ek olarak, daha önceki bir çalışma, tüberküloz ve diabetes mellitus hastalarında kan transkriptomunda yükselen pertürbasyonun moleküler derecesini göstermek için bu aracı ^{kullanmıştır19}. Bu çalışmada, referans grubu olarak sağlıklı bireyler kullanılarak kontrol ve CHIKV akut enfekte örneklerin pertürbasyonu gösterilmiştir.

Enrichr tarafından gerçekleştirilen fonksiyonel zenginleştirme analizi ^ORA20,21'dir. ORA, kullanıcının araca DEG listesini sağlaması gereken bir tür işlevsel zenginleştirme analizidir. DEG'lerin listesi genellikle aşağı düzenlenmiş bir DEG listesinde ve yukarı düzenlenmiş bir DEG listesinde ayrılır. ORA'yı gerçekleştirmek için başka araçlar da var, bunlar arasında kullanıcı dostu bir web ^{sürümü22'de} bulunan gProfiler ve Bioconductor'da R paketi olarak bulunan goseq23. Bir diğer fonksiyonel zenginleştirme analizi türü GSEA'dir. GSEA gerçekleştirmek için, kullanıcının tüm genleri dereceli bir listede sağlaması gerekir. Bu liste genellikle kat değişiminde gen ekspresyona göre sıralanır.

Enrichr her zaman çubuk grafik sonucundaki p değerlerine göre zenginleştirilmiş en iyi 10 gen setini sağlar. Bu nedenle, kullanıcı sonuçları yorumlarken uyanık olmalıdır, 10'dan az zenginleştirilmiş gen kümesi varsa, çubuk grafik de zenginleştirilmiş olmayan biyolojik süreçleri gösterecektir. Bu hatayı önlemek için, kullanıcının çubuk grafiğin tüm gen kümelerinin zenginleştiğini varsaymadan önce p değeri için bir kesme oluşturması ve yolların p değerlerini gözlemlemesi gerekir. Ayrıca, kullanıcı çubuk grafikte görüntülenen 10 gen kümesinin sırasının ayarlanan p değerlerine göre değil, p değerlerine göre olduğunun farkında olmalıdır. Kullanıcının tüm zenginleştirilmiş yolları bir çubuk grafikte göstermek veya hatta ayarlanan p değerlerine göre yeniden sıralamak istemesi durumunda, kullanıcının indirilen tabloyu kullanarak kendi çubuk grafiğini oluşturması önerilir. Kullanıcı Excel veya hatta R yazılımını kullanarak yeni bir çubuk grafik oluşturabilir.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Yazarların açıklayacak bir şeyi yok.

Acknowledgments

HN, FAPESP tarafından finanse edilmektedir (hibe numaraları: #2017/50137-3, 2012/19278-6, 2018/14933-2, 2018/21934-5 ve 2013/08216-2) ve CNPq (313662/2017-7).

Özellikle bursiyerler için aşağıdaki hibelere minnettarız: ANAG (FAPESP Süreci 2019/13880-5), VEM (FAPESP Süreci 2019/16418 -0), IMSC (FAPESP Süreci 2020/05284-0), APV (FAPESP Süreci 2019/27146-1) ve, RLTO (CNPq Süreci 134204/2019-0).

Materials

Name	Company	Catalog Number	Comments
CEMiTool	Computational Systems Biology Laboratory	1.12.2	Discovery and the analysis of co-expression gene modules in a fully automatic manner, while providing a user-friendly HTML report with high-quality graphs.
EdgeR	Bioconductor (Maintainer: Yunshun Chen [yuchen at wehi.edu.au])	3.30.3	Differential expression analysis of RNA-seq expression profiles with biological replication
EnhancedVolcano	Bioconductor (Maintainer: Kevin Blighe [kevin at clinicalbioinformatics.co.uk])	1.6.0	Publication-ready volcano plots with enhanced colouring and labeling
FastQC	Babraham Bioinformatics	0.11.9	Aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing
FeatureCounts	Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research	2.0.0	Assign mapped sequencing reads to specified genomic features
MDP	Computational Systems Biology Laboratory	1.8.0	Molecular Degree of Perturbation calculates scores for transcriptome data samples based on their perturbation from controls
R	R Core Group	4.0.3	Programming language and free software environment for statistical computing and graphics
STAR	Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research	2.7.6a	Aligner designed to specifically address many of the challenges of RNA-seq data mapping using a strategy to account for spliced alignments
Bowtie2	Johns Hopkins University	2.4.2	Ultrafast and memory-efficient tool for aligning sequencing reads to long reference sequences
Trimmomatic	THE USADEL LAB	0.39	Trimming adapter sequence tasks for Illumina paired-end and single-ended data
Get Docker	Docker	20.10.2	Create a bioinformatic environment reproducible and predictable (https://docs.docker.com/get-docker/)
WSL2-Kernel	Windows	NA	https://docs.microsoft.com/en-us/windows/wsl/wsl2-kernel
Get Docker Linux	Docker	NA	https://docs.docker.com/engine/install/ubuntu/
Docker Linux Repository	Docker	NA	https://docs.docker.com/engine/install/ubuntu/#install-using-the-repository
MDP Website	Computational Systems Biology Laboratory	NA	https://mdp.sysbio.tools
Enrichr Website	MaayanLab	NA	https://maayanlab.cloud/Enrichr/
webCEMiTool	Computational Systems Biology Laboratory	NA	https://cemitool.sysbio.tools/
gProfiler	Bioinformatics, Algorithmics and Data Mining Group	NA	https://biit.cs.ut.ee/gprofiler/gost
goseq	Bioconductor (Maintainer: Matthew Young [my4 at sanger.ac.uk])	NA	http://bioconductor.org/packages/release/bioc/html/goseq.html
SRA NCBI study	NCBI	NA	https://www.ncbi.nlm.nih.gov/bioproject/PRJNA507472/

DOWNLOAD MATERIALS LIST

References

Weaver, S. C., Charlier, C., Vasilakis, N., Lecuit, M. Zika, Chikungunya, and Other Emerging Vector-Borne Viral Diseases. Annual Review of Medicine. 69, 395-408 (2018).
Burt, F. J., et al. Chikungunya virus: an update on the biology and pathogenesis of this emerging pathogen. The Lancet. Infectious Diseases. 17 (4), 107-117 (2017).
Hua, C., Combe, B. Chikungunya virus-associated disease. Current Rheumatology Reports. 19 (11), 69 (2017).
Suhrbier, A., Jaffar-Bandjee, M. -C., Gasque, P. Arthritogenic alphaviruses-an overview. Nature Reviews Rheumatology. 8 (7), 420-429 (2012).
Nakaya, H. I., et al. Gene profiling of chikungunya virus arthritis in a mouse model reveals significant overlap with rheumatoid arthritis. Arthritis and Rheumatism. 64 (11), 3553-3563 (2012).
Michlmayr, D., et al. Comprehensive innate immune profiling of chikungunya virus infection in pediatric cases. Molecular Systems Biology. 14 (8), 7862 (2018).
Soares-Schanoski, A., et al. Systems analysis of subjects acutely infected with the Chikungunya virus. PLOS Pathogens. 15 (6), 1007880 (2019).
Alexandersen, S., Chamings, A., Bhatta, T. R. SARS-CoV-2 genomic and subgenomic RNAs in diagnostic samples are not an indicator of active replication. Nature Communications. 11 (1), 6059 (2020).
Wang, D., et al. The SARS-CoV-2 subgenome landscape and its novel regulatory features. Molecular Cell. 81 (10), 2135-2147 (2021).
Wilson, J. A. C., et al. RNA-Seq analysis of chikungunya virus infection and identification of granzyme A as a major promoter of arthritic inflammation. PLOS Pathogens. 13 (2), 1006155 (2017).
Gonçalves, A. N. A., et al. Assessing the impact of sample heterogeneity on transcriptome analysis of human diseases using MDP webtool. Frontiers in Genetics. 10, 971 (2019).
Russo, P. S. T., et al. CEMiTool: a Bioconductor package for performing comprehensive modular co-expression analyses. BMC Bioinformatics. 19 (1), 56 (2018).
Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12 (12), 0190152 (2017).
Seyednasrollah, F., Laiho, A., Elo, L. L. Comparison of software packages for detecting differential expression in RNA-seq studies. Briefings in Bioinformatics. 16 (1), 59-70 (2015).
Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, Article17 (2005).
Cheng, C. W., Beech, D. J., Wheatcroft, S. B. Advantages of CEMiTool for gene co-expression analysis of RNA-seq data. Computers in Biology and Medicine. 125, 103975 (2020).
Cardozo, L. E., et al. webCEMiTool: Co-expression modular analysis made easy. Frontiers in Genetics. 10, 146 (2019).
de Lima, D. S., et al. Long noncoding RNAs are involved in multiple immunological pathways in response to vaccination. Proceedings of the National Academy of Sciences of the United States of America. 116 (34), 17121-17126 (2019).
Prada-Medina, C. A., et al. Systems immunology of diabetes-tuberculosis comorbidity reveals signatures of disease complications. Scientific Reports. 7 (1), 1999 (2017).
Chen, E. Y., et al. Enrichr: interactive and collaborative HTML5 gene list enrichment analysis tool. BMC Bioinformatics. 14, 128 (2013).
Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
Raudvere, U., et al. g:Profiler: a web server for functional enrichment analysis and conversions of gene lists (2019 update). Nucleic Acids Research. 47, 191-198 (2019).
Young, M. D., Wakefield, M. J., Smyth, G. K., Oshlack, A. Gene ontology analysis for RNA-seq: accounting for selection bias. Genome Biology. 11 (2), 14 (2010).

Immunology and Infection

Konak-Patojen Etkileşimlerini Araştırmak için Yüksek Verimli Transkriptom Analizi

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.