Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Engineering

DiCoExpress ile Multifaktöriyel RNA-Seq Deneylerinin Analizi

Published: July 29, 2022 doi: 10.3791/62566

Summary

DiCoExpress, kalite kontrolünden ko-ekspresyona kadar bir RNA-Seq analizi gerçekleştirmek için R'de uygulanan komut dosyası tabanlı bir araçtır. DiCoExpress, 2 biyolojik faktöre kadar eksiksiz ve dengesiz tasarımı gerçekleştirir. Bu video eğitimi, kullanıcıyı DiCoExpress'in farklı özellikleri boyunca yönlendirir.

Abstract

NGS veri analizinde istatistiksel modellemenin doğru kullanımı, ileri düzeyde uzmanlık gerektirir. Son zamanlarda, RNA-Seq verilerinin diferansiyel analizi için genelleştirilmiş doğrusal modellerin kullanılması ve karışım modellerinin birlikte ekspresyon analizi yapmak için avantajı konusunda artan bir fikir birliği olmuştur. Bu modelleme yaklaşımlarını kullanmak üzere yönetilen bir ortam sunmak için, RNA-Seq analizi gerçekleştirmek üzere standartlaştırılmış bir R boru hattı sağlayan DiCoExpress'i geliştirdik. İstatistik veya R programlamada özel bir bilgi olmadan, yeni başlayanlar, genelleştirilmiş bir doğrusal model içindeki kontrastlara dayanan diferansiyel analiz yoluyla kalite kontrollerinden birlikte ifadeye kadar eksiksiz bir RNA-Seq analizi gerçekleştirebilirler. Hem diferansiyel olarak eksprese edilen genlerin listelerinde hem de birlikte eksprese edilen gen kümelerinde bir zenginleştirme analizi önerilmektedir. Bu video eğitimi, kullanıcıların DiCoExpress'ten ve bir RNA-Seq deneyinin biyolojik yorumunu güçlendirme potansiyelinden tam olarak yararlanmalarına yardımcı olacak adım adım bir protokol olarak tasarlanmıştır.

Introduction

Yeni nesil RNA dizileme (RNA-Seq) teknolojisi artık transkriptom analizinin altın standardıdır1. Teknolojinin ilk günlerinden bu yana, biyoinformatikçilerin ve biyoistatistikçilerin birleşik çabaları, haritalamadan transkript niceliğine kadar transkriptomik analizlerin tüm temel adımlarını ele alan çok sayıda yöntemin geliştirilmesine neden olmuştur2. Günümüzde biyologlar için mevcut olan araçların çoğu, istatistiksel hesaplama ve grafikler3 için R yazılım ortamında geliştirilmiştir ve biyolojik veri analizi için birçok paket Bioconductor deposu4'te mevcuttur. Bu paketler, analizin tam kontrolünü ve özelleştirilmesini sağlar, ancak bir komut satırı arayüzünün kapsamlı kullanımı pahasına gelirler. Birçok biyolog "işaretle ve tıkla" yaklaşımı5 ile daha rahat olduğu için, RNA-Seq analizlerinin demokratikleşmesi daha kullanıcı dostu arayüzlerin veya protokollerin geliştirilmesini gerektirir6. Örneğin, Shiny7 kullanarak R paketlerinin web arayüzlerini oluşturmak mümkündür ve R-studio8 arayüzü ile komut satırı veri analizi daha sezgisel hale getirilir. Özel, adım adım öğreticilerin geliştirilmesi de yeni kullanıcıya yardımcı olabilir. Özellikle, bir video eğitimi klasik bir metni tamamlar ve tüm prosedür adımlarının daha iyi anlaşılmasını sağlar.

Yakın zamanda, nötr karşılaştırma çalışmalarına dayanan en iyi yöntemler olarak kabul edilen yöntemleri kullanarak R'deki çok faktörlü RNA-Seq deneylerini analiz etmek için bir araç olan DiCoExpress9'u geliştirdik10,11,12. Bir sayım tablosundan başlayarak, DiCoExpress bir veri kalitesi kontrol adımı ve ardından genelleştirilmiş bir doğrusal model (GLM) kullanarak bir diferansiyel gen ekspresyon analizi (edgeR paketi13) ve Gauss karışım modellerini (coseq paketi12) kullanarak birlikte ekspresyon kümelerinin oluşturulmasını önermektedir. DiCoExpress, 2 biyolojik faktöre (yani genotip ve tedavi) ve bir teknik faktöre (yani çoğaltma) kadar eksiksiz ve dengesiz tasarımı ele alır. DiCoExpress'in özgünlüğü, verileri, komut dosyalarını ve sonuçları depolayan ve düzenleyen dizin mimarisinde ve kullanıcının aynı istatistiksel model içinde çok sayıda soruyu araştırmasına izin veren kontrastların yazılmasının otomasyonunda yatmaktadır. İstatistiksel sonuçları gösteren grafiksel çıktılar sağlamak için de çaba sarf edildi.

DiCoExpress çalışma alanı https://forgemia.inra.fr/GNet/dicoexpress kullanılabilir. Dört dizin, iki pdf ve iki metin dosyası içerir. Data/ dizini giriş veri kümelerini içerir; Bu protokol için "öğretici" veri kümesini kullanacağız. Sources/dizini, analizi gerçekleştirmek için gerekli yedi R fonksiyonunu içerir ve kullanıcı tarafından değiştirilmemelidir. Analiz, Template_scripts/ dizininde depolanan komut dosyaları kullanılarak çalıştırılır. Bu protokolde kullanılana DiCoExpress_Tutorial_JoVE.R denir ve herhangi bir transkriptomik projeye kolayca uyarlanabilir. Tüm sonuçlar Results/ dizinine yazılır ve projeye göre adlandırılan bir alt dizinde saklanır. README.md dosyası yararlı kurulum bilgileri içerir ve yöntem ve kullanımıyla ilgili tüm özel ayrıntılar DiCoExpress_Reference_Manual.pdf dosyasında bulunabilir.

Bu video eğitimi, komut satırı tabanlı araçlar kullanarak biyologlar tarafından hissedilen isteksizliğin üstesinden gelmek amacıyla kullanıcıyı DiCoExpress'in farklı özellikleri boyunca yönlendirir. Burada, tedavi olsun veya olmasın, dört genotipin üç biyolojik replikasındaki gen ekspresyonunu tanımlayan yapay bir RNA-Seq veri kümesinin analizini sunuyoruz. Şimdi Şekil 1'de gösterilen DiCoExpress iş akışının farklı adımlarından geçeceğiz. Protokol bölümünde açıklanan komut dosyası ve giriş dosyaları sitede mevcuttur: https://forgemia.inra.fr/GNet/dicoexpress

Veri dosyalarını hazırlama
Data/ dizininde depolanan dört csv dosyası proje adına göre adlandırılmalıdır. Örneğimizde, bu nedenle, tüm adlar "Öğretici" ile başlar ve protokolün 4. Adımında Project_Name = "Öğretici" olarak ayarlayacağız. CSV dosyalarında kullanılan ayırıcı, Adım 4'teki Sep değişkeninde belirtilmelidir. "Öğretici" veri kümemizde, ayırıcı bir tablodur. İleri düzey kullanıcılar için tam veri kümesi, Filtre değişkeni aracılığıyla bir yönerge listesi ve yeni bir Project_Name sağlanarak bir alt kümeye indirgenebilir. Bu seçenek, giriş dosyalarının gereksiz kopyalarını önler ve FAIR ilkeleri14'ü doğrular.

Dört csv dosyası arasında yalnızca COUNTS ve TARGET dosyaları zorunludur. Her gen için ham sayıları (burada Tutorial_COUNTS.csv) ve deneysel tasarım tanımını (burada Tutorial_TARGET.csv) içerirler. TARGET.csv dosyası, her biyolojik veya teknik faktör (sütunlarda) için bir yöntemle her örneği (satır başına bir örnek) tanımlar. Modaliteler için seçilen isimlerin bir sayı ile değil, bir harfle başlamasını şiddetle tavsiye ederiz. Son sütunun adı ("Çoğalt") değiştirilemez. Son olarak, örnek adlar (ilk sütun) COUNTS.csv dosyasının başlıklarındaki adlarla eşleşmelidir (örneğimizde Genotype1_control_rep1). Her satırın bir .csv ve bir ek açıklama terimi içerdiği Zenginleştirme Gene_ID dosyası, yalnızca kullanıcı zenginleştirme analizini çalıştırmayı planlıyorsa gereklidir. Bir genin birkaç ek açıklaması varsa, farklı satırlara yazılmaları gerekecektir. Ek Açıklama.csv dosyası isteğe bağlıdır ve çıktı dosyalarındaki her genin kısa bir açıklamasını eklemek için kullanılır. Ek açıklama dosyası almanın en iyi yolu, bilgileri özel veritabanlarından almaktır (örneğin, Thalemine: Arabidopsis için https://bar.utoronto.ca/thalemine/begin.do).

DiCoExpress Kurulumu
DiCoExpress belirli R paketleri gerektirir. Komut satırı kaynağını kullanın(".. /Sources/Install_Packages.R") gerekli paket yükleme durumunu denetlemek için R konsolunda. Linux kullanıcıları için başka bir çözüm, DiCoExpress'e adanmış ve https://forgemia.inra.fr/GNet/dicoexpress/container_registry bulunan konteyneri kurmaktır. Tanım olarak, bu kapsayıcı kitaplıklar ve diğer bağımlılıklar gibi ihtiyaç duyulan tüm parçalarla birlikte DiCoExpress'i içerir.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. DiCoExpress

  1. Bir R studio oturumu açın ve dizini Template_scripts olarak ayarlayın.
  2. DiCoExpress_Tutorial.R komut dosyasını R stüdyosunda açın.
  3. DiCoExpress işlevlerini R oturumunda aşağıdaki komutlarla yükleyin:
    > kaynak(".. /Kaynaklar/Load_Functions.R")
    > Load_Functions()
    > Data_Directory = ".. /Veri"
    > Results_Directory = ".. /Sonuçlar/"
  4. Veri dosyalarını R oturumuna aşağıdaki komutlarla yükleyin:
    > Project_Name = "Öğretici"
    > Filtresi = NULL
    > Sep="\t"
    > Data_Files = Load_Data_Files(Data_Directory, Project_Name, Filtre, Eylül)
  5. Kolayca işlemek için nesne Data_Files birkaç nesneye bölün:
    > Project_Name = Data_Files$Project_Name
    > Hedef = Data_Files$Hedef
    > Raw_Counts = Data_Files Raw_Counts $
    > Ek Açıklama = Data_Files$Ek Açıklama
    > Reference_Enrichment = Data_Files Reference_Enrichment $
  6. "NbConditions", "NbReplicates" veya "filterByExpr" arasından bir strateji ve düşük eksprese edilen genleri filtrelemek için bir eşik seçin. Burada seçiyoruz
    > Filter_Strategy = "NbReplicates"
    > CPM_Cutoff = 1
  7. Grup renklerini komutla belirtin
    > Color_Group = NULL
    NOT: NULL olarak ayarlandığında, R otomatik olarak renkleri biyolojik koşullara bağlar. Aksi takdirde, biyolojik grup başına bir rengi gösteren bir vektör girin.
  8. edgeR'nin calcNormFactors fonksiyonu tarafından kabul edilenler arasından bir normalleştirme yöntemi seçin. Örneğin;
    > Normalization_Method = "TMM"
  9. Aşağıdaki işlevi yürüterek kalite kontrolünü gerçekleştirin
    > Quality_Control(Data_Directory, Results_Directory, Project_Name, Hedef, Raw_Counts, Filter_Strategy, Color_Group, CPM_Cutoff, Normalization_Method)
  10. Durum Çoğaltma = Veriler çoğaltma faktörüne göre eşleştirilirse TRUE (DOĞRU), aksi takdirde YANLIŞ.
  11. Etkileşim Ata = TRUE İki biyolojik faktör arasındaki etkileşimi göz önünde bulundurmak için, aksi takdirde YANLIŞ.
  12. İstatistiksel modeli aşağıdaki komutlarla belirtin
    > Modeli = GLM_Contrasts(Results_Directory, Project_Name, Hedef, Çoğalt, Etkileşim)
    > GLM_Model = Model$GLM_Model
    > Kontrastlar = Model$Kontrastlar
  13. Yanlış Keşif Oranı eşiğini tanımlayın, burada 0,05
    > Alpha_DiffAnalysis = 0,05
  14. Diferansiyel analizi aşağıdaki komutlarla gerçekleştirin
    > Index_Contrast=1:nrow(Kontrastlar)
    > NbGenes_Profiles = 20
    > NbGenes_Clustering = 50
    > DiffAnalysis.edgeR (Data_Directory, Results_Directory, Project_Name, Hedef, Raw_Counts, GLM_Model, Index_Contrast, Kontrastlar, Filter_Strategy, Alpha_DiffAnalysis, NbGenes_Profiles, NbGenes_Clustering, CPM_Cutoff, Normalization_Method)
  15. Zenginleştirme analizi için bir eşik düzeltin, burada 0,01
    > Alpha_Enrichment = 0,01
  16. Diferansiyel olarak eksprese edilen genler (DEG) listelerinin zenginleştirme analizini gerçekleştirin
    > Başlık = NULL
    > Zenginleştirme(Results_Directory, Project_Name, Başlık, Reference_Enrichment, Alpha_Enrichment)
  17. Karşılaştırılacak DEG listelerini seçin. Örneğin,
    > Gruplar = Kontrastlar$Kontrastlar[24:28]
  18. Liste karşılaştırması için bir ad girin. Bu ad, çıktı dosyalarının kaydedileceği dizin için kullanılır
    > Başlık = "Interaction_with_Genotypes_1_and_2"
  19. Operation parametresini birleşim veya kesişim olarak ayarlayarak DEG listelerinde yapılacak eylemi belirtin. Biz seçiyoruz
    > Operasyonu = "Birlik"
  20. DEG listelerini karşılaştırma
    > Venn_IntersectUnion(Data_Directory, Results_Directory, Project_Name, Başlık, Gruplar, Operasyon)
  21. İşlevle birlikte ifade analizi gerçekleştirme
    > Coexpression_coseq(Data_Directory, Results_Directory, Project_Name, Başlık, Hedef, Raw_Counts, Color_Group)
  22. Birlikte ifade kümelerinin zenginleştirme analizini gerçekleştirme
    > Zenginleştirme(Results_Directory, Project_Name, Başlık, Reference_Enrichment, Alpha_Enrichment)
  23. Analizi yeniden oluşturmak için gerekli tüm bilgileri içeren iki günlük dosyası oluşturun
    > Save_Parameters( )
    NOT: Bu protokolde kullanılan komut satırları Şekil 2'de gösterilmiştir. Başka bir veri kümesini çözümlemek için değiştirilmesi gereken satırlar vurgulanır.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Tüm DiCoExpress çıktıları Tutorial/ dizinine kaydedilir ve kendisi Results/ dizinine yerleştirilir. Burada, analizin genel kalitesini değerlendirmek için bazı rehberlik sağlıyoruz.

Kalite Kontrol
Quality_Control/ dizininde bulunan kalite kontrol çıktısı, RNA-Seq analiz sonuçlarının güvenilir olduğunu doğrulamak için gereklidir. Data_Quality_Control.pdf dosyası, ham ve normalleştirilmiş verilerle elde edilen ve verilerle ilgili olası sorunları tanımlamak için kullanılabilecek birkaç çizim içerir. Numune başına toplam normalleştirilmiş sayımlar, hem iç hem de inter-koşulları karşılaştırırken benzer olmalıdır. Ayrıca, normalleştirilmiş gen ekspresyon sayımlarının hem iç hem de inter-koşullarda benzer medyan ve varyans göstermesi beklenmektedir (Şekil 3A). Aksi takdirde, bu, model uyumu için sorunlu olabilecek bir sorun olan koşullar arasındaki benzer olmayan varyansın işareti olabilir.

Son olarak, DiCoExpress'te üretilen normalleştirilmiş sayımlar üzerindeki PCA grafikleri, potansiyel altta yatan veri yapılarını tanımlamaya yardımcı olur (Şekil 3B). Örneğimizde, çoğaltmalara göre kümeleme yoktur, yani bu faktör ayrımcı değildir. Aynı zamanda, tedaviler arasında net bir ayrım tespit edilebilir. Bu sonuçlar, biyolojik etkinin her zaman çoğaltılmış olandan daha güçlü olması beklendiğinden, kaliteli bir veri kümesine işaret etmektedir. Sonuç olarak, burada gözlemlenen genel kalite, tüm veri kümesinin daha sonra analiz edilmesini engellemez.

İstatistiksel modelleme
DiCoExpress, iki değişken Çoğaltma ve Etkileşim'den ortalama ifadenin logaritmasının istatistiksel modellemesinin yazılmasını kolaylaştırır . Tüm biyolojik koşulların örnekleri aynı anda toplanırsa ve bu deneyin biyolojik değişkenliği ölçmek için farklı günlerde çoğaltılması durumunda bir çoğaltma etkisi düşünülebilir. Örneğin, tipik bir bitki bilimi deneyinde, incelenen biyolojik durumdan bağımsız olarak örnekler aynı büyüme odasında yetiştirilir ve biyolojik kopyalar, farklı günlerde başlatılan deneylere karşılık gelir. Bu durumda, aynı çoğaltmanın örnekleri eşleştirilir ve Çoğalt'ı TRUE olarak ayarlamanız gerekir. Aksi takdirde, Çoğalt öğesi FALSE olarak ayarlanmalıdır. Bu çoğaltma efekti, toplu iş efekti olarak da bilinir.

Deneysel tasarım, etkileşime girmesi beklenen iki biyolojik faktör tarafından tanımlanırsa, etkileşimi dikkate almak için Etkileşim değişkenini TRUE olarak ayarlayın. Yalnızca bir biyolojik faktör içeren bir proje için, Etkileşim değişkeninin otomatik olarak YANLIŞ olarak ayarlandığını unutmayın.

Diferansiyel Analiz
Test edilen tüm kontrastlar için tanımlanan DEG, DiffAnalysis/ dizinindeki ilgili alt dizinlerinde bulunan metin dosyalarında mevcuttur. Varsayılan olarak, tüm kontrastlar test edilir. Deneysel tasarıma bağlı olarak, bazı kontrastlar sınırlı biyolojik ilgiye sahip olabilir (örneğin, birkaç genotipte ortalama). Yanlış pozitif kontrolün kontrast başına gerçekleştirildiğini ve potansiyel olarak alakasız kontrastların analizi etkilememesini sağladığını unutmayın. Bununla birlikte, yalnızca Index_Contrast değişkeni üzerinde hareket ederek çıkarların karşıtlığını içeren arsalar üretmek mümkündür. Ayrıntılar çevrimiçi referans kılavuzunda mevcuttur.

DiffAnalysis/'in son zamanlarda modelleme11'in kalitesini değerlendirmenin en iyi yolu olduğu gösterilen ham p-değeri histogramlarını da içerdiğini fark etmek önemlidir. Ham p-değerlerinin beklenen dağılımının, muhtemelen dağılımın sol ucunda bir tepe noktası olacak şekilde, tekdüze olması beklenir. 1 ham p değeri için yüksek bir tepe noktası, model uydurma sorunlarının göstergesidir. Bu durumda, sorun genellikle ayarlanan CPM_Cutoff değerini, örneğin 1'den 5'e yükselterek çözülebilir. Ham histogram örnekleri Şekil 4A'da ve https://forgemia.inra.fr/GNet/dicoexpress/-/blob/master/DiCoExpress_Tutorial.pdf'da mevcuttur. Test edilen her karşıtlık için, tanımlanan en üstteki DEG'nin (varsayılan olarak ilk 20) ifade profilleri, karşıtlık dizininde bulunan dosya Top20_Profile.pdf çizilir. Bir kontrastta diferansiyel olarak ifade edilen bir gen için bir örnek Şekil 4B'de gösterilmiştir. Yukarı ve aşağı DEG sayısı, test edilen her kontrast için çizilir ve dosya Down_Up_DEG.pdf bulunur (örnek Şekil 4C'de).

Eş İfade Analizi
Örneğimizde, birlikte ifade analizi, Genotip 1 veya 2 arasındaki tedavi yanıtı varyasyonunu diğerlerine karşı arayan kontrastla tanımlanan 5 DEG listesinin birleşimi üzerinde gerçekleştirilir. DEG'nin Venn diyagramı Şekil 5A'da gösterilmiştir. Tanımlanan her küme için birlikte ifade edilen genler, tek tek metin dosyalarında (küme başına bir dosya) yazdırılır. Farklı kümelerin ifade profilleri birlikte Boxplot_profiles_Coseq.pdf dosyasında kullanılabilir ( Şekil 5B'deki örneğe bakın). Özelleştirme seçenekleri mevcut olsa da, yalnızca ileri düzey kullanıcılar tarafından kullanılmalıdır. Farklı parametrelerin tam bir açıklaması için lütfen referans kılavuzuna bakın.

Zenginleştirme Analizi
Kontrast ve küme zenginleştirme analizlerine karşılık gelen listeler ilgili dizinlerinde yer alır. Bu analizde önemli bulunan bir ek açıklama terimi, Gene_ID listesinde aşırı veya az temsil edilebilir. Bu bilgiler çıktı dosyasına eklenir.

Test kararının ham p değerlerinden alındığını unutmayın. Kullanıcı ham p değerlerini a posteriori olarak ayarlamak isterse, bunlar All_Enrichment_Results.txt sonekine sahip dosyalarda bulunur.

DiCoExpress'in Geçerliliği
DiCoExpress, çok faktörlü RNA-Seq deney analizlerini kolaylaştırmak için geliştirilmiş olmasına rağmen, sonuçlarının geçerliliği büyük ölçüde veri kümesinin özelliklerine bağlıdır. Sonuçların geçerli bir şekilde yorumlanmasından önce birkaç çıktı dikkatlice kontrol edilmelidir. İlk olarak, kalite kontrol adımında, normalleştirilmiş kütüphane boyutu benzer olmalı ve normalleştirilmiş gen ekspresyon sayısı hem iç hem de inter-koşullarda benzer medyan ve varyans göstermelidir. Daha sonra, ham p değeri histogramlarının şekline özellikle dikkat edilmelidir. Son olarak, bir ortak ifade analizi yaparken, ICL için açıkça tanımlanmış bir minimum değer, iyi bir kalitenin göstergesidir. Bu koşullar yerine getirilmemiştir, sonuçların herhangi bir yorumunun hatalı olması muhtemeldir.

Figure 1
Şekil 1. DiCoExpress Analizi işlem hattı.  DiCoExpress kullanılarak yapılan eksiksiz bir RNA-Seq analizinin yedi adımı, istatistiksel yöntemlerin gerçekleştirildiği adımları temsil eden mavi kutular olarak gösterilir. Adım 7 (Zenginleştirme), Adım 4'ten (Diferansiyel Analiz ve Şekil 2'de 7.1 olarak adlandırılmıştır) ve / veya Adım 6'dan (Eş-ekspresyon analizi ve Şekil 2'de 7.2 olarak adlandırılmıştır) sonra yapılabilir. Kırmızı sayılar protokoldeki adım numaralarına karşılık gelir. Bu şeklin daha büyük bir versiyonunu görüntülemek için lütfen buraya tıklayın.

Figure 2
Şekil 2. DiCoExpress komut satırlarının ekran görüntüleri.  Öğretici veri kümesini çözümlemek için kullanılan komut satırları belirtilir. Siyah dairelerdeki sayı Şekil 1'deki ile aynıdır. Kırmızı dikdörtgenler, kullanıcı tarafından özelleştirilebilen çizgileri vurgular. Bu şeklin daha büyük bir versiyonunu görüntülemek için lütfen buraya tıklayın.

Figure 3
Şekil 3: Kalite kontrol adımının temsili sonuçları.  "Öğretici" veri kümesi ile elde edilen şekil sayımları normalleştirdi. A) Normalleştirilmiş sayımların kutu grafiği. B) Normalleştirilmiş sayımlarda PCA. Bu şeklin daha büyük bir versiyonunu görüntülemek için lütfen buraya tıklayın.

Figure 4
Şekil 4: Diferansiyel ifade analizinin temsili sonuçları "Öğretici" veri kümesiyle elde edilen şekil. A) [control_Genotype2 - control_Genotype3] kontrastının ham p değeri histogramı. B) Her genotip ve durumda C1G62301.1 gen ekspresyon profili, [control_Genotype2 - control_Genotype3] kontrastındaki Top20 Diferansiyel İfade Geninden biri. C) Test edilen her kontrastta yukarı ve aşağı Diferansiyel İfade Edilen Genlerin Sayısı. Bu şeklin daha büyük bir versiyonunu görüntülemek için lütfen buraya tıklayın.

Figure 5
Şekil 5: Koekspresyon Analizinin temsili sonuçları.  "Öğretici" veri kümesiyle elde edilen şekil. A) 5 "Genotip 1 ve 2 ile etkileşim" kontrastından DEG'nin Venn diyagramı. Genotip 1 ve 2, 1 ve 3, 1 ve 4, 2 ve 3, 2 ve 4 arasındaki tedaviye yanıt varyasyonundan kaynaklanan DEG sırasıyla A, B, C, D, E dairelerindedir. Sağ altta ("14877") yazılı sayı, herhangi bir listede DE olmayan genlerin sayısıdır. B) Koekspresyon Kümesinden gelen genlerin ekspresyon profili 3. Şekil Tutorial_Interaction_with_Genotypes_1_and_2_Boxplot_profiles_Coseq.pdf'dan alınmıştır. Bu şeklin daha büyük bir versiyonunu görüntülemek için lütfen buraya tıklayın.

Ek Dosya. Bu Dosyayı indirmek için lütfen tıklayınız.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

RNA-Seq, biyolojik çalışmalarda her yerde bulunan bir yöntem haline geldiğinden, çok yönlü ve kullanıcı dostu analitik araçlar geliştirmeye sürekli ihtiyaç vardır. Analitik iş akışlarının çoğunda kritik bir adım, biyolojik koşullar ve / veya tedaviler arasında farklı şekilde ifade edilen genleri güvenle tanımlamaktır15. Güvenilir sonuçların üretilmesi, DiCoExpress'in geliştirilmesinde motivasyon kaynağı olan uygun istatistiksel modellemeyi gerektirir.

DiCoExpress, biyologların DEG'yi ararken tarafsız karşılaştırma çalışmalarının olanaklarından tam olarak yararlanmalarına yardımcı olmayı amaçlayan R'de uygulanan komut dosyası tabanlı bir araçtır. DiCoExpress, veri yapısını ve kalitesini değerlendirme fırsatı sunan standartlaştırılmış bir boru hattı sunar, bu nedenle en iyi modelleme yaklaşımının seçilmesini sağlar. İstatistik veya R programlamada belirli bir bilgi olmadan, yeni başlayanların genelleştirilmiş doğrusal modellerdeki kontrastlara dayanan diferansiyel analiz yoluyla kalite kontrollerinden birlikte ifadeye kadar eksiksiz bir RNA-Seq analizi yapmalarını sağlar. DiCoExpress'in bir RNA-Seq analizinin istatistiksel kısmına odaklandığını ve girdi olarak bir sayım tablosu gerektirdiğini belirtmek önemlidir. RNA-Seq okuma hizalamalarına ve sayım tablolarının oluşturulmasına adanmış çoklu biyoinformatik yöntemler aracın kapsamı dışındadır. Bununla birlikte, son analizin kalitesi üzerinde doğrudan bir etkiye sahiptirler ve dikkatlice seçilmelidirler.

DiCoExpress bir "işaretle ve tıkla" aracı olmasa da, dizin mimarisi ve R-Studio arayüzünde sağlanan ve kullanılan şablon komut dosyası, R hakkında en az bilgiye sahip biyologlar için erişilebilir olmasını sağlar. DiCoExpress kurulduktan sonra, kullanıcılar R'de bir işlevi nasıl kullanacaklarını bilmeli ve gerekli ve isteğe bağlı bağımsız değişkenleri tanımlamalıdır. İlk kritik adım, her gen için ham sayıları (COUNTS dosyası) ve deneysel tasarım açıklamasını (TARGET dosyası) içeren iki zorunlu dosyayı doğru bir şekilde sağlamaktır. Kullanılan separatör her dosya için aynı olmalı ve numunelerin tanımı biyolojik faktörlerin modalitelerine göre uygun şekilde yapılmalıdır. İki dosya DiCoExpress'e yüklendikten sonra, analiz ikinci kritik adıma, yani ortak ifade analizine kadar neredeyse otomatiktir. Bu analiz gerçekten zaman alıcı olabilir ve büyük veri kümelerinde çalıştırmak için güçlü bir hesaplama sunucusu gerekebilir.

Kontrast yazının otomasyonu ikiden fazla biyolojik faktör için zorlayıcı hale geldiğinden, DiCoExpress'i 2 biyolojik faktöre kadar eksiksiz ve dengesiz tasarımla sınırlandırdık. Bir proje 2'den fazla biyolojik faktör içeriyorsa, pratik bir çözüm, yeni bir tane oluşturmak için başlangıç faktörlerinden ikisini çökertmektir. Bununla birlikte, biyolojik faktör sayısı arttıkça anlamlı bir biyolojik yorum yapmanın zorluğunun arttığı akılda tutulmalıdır.

DiCoExpress gelişen bir araç olarak tasarlanmıştır ve kullanıcıları posta listesine abone olmaya şiddetle teşvik ediyoruz (https://groupes.renater.fr/sympa/subscribe/dicoexpress). Araçta yapılacak herhangi bir değişiklik veya iyileştirme listede duyurulacaktır ve soru veya önerileri memnuniyetle karşılıyoruz. Ayrıca, DiCoExpress'in büyük bir topluluk tarafından benimsenmesinin, belirli bir analiz bağlamında ortaya çıkabilecek hataların izlenmesine ve düzeltilmesine izin vereceğini umuyoruz. Tüm güncellemeler ve düzeltmeler git dizinine https://forgemia.inra.fr/GNet/dicoexpress.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Yazarların açıklayacak hiçbir şeyi yoktur

Acknowledgments

Bu çalışma esas olarak ANR PSYCHE (ANR-16-CE20-0009) tarafından desteklenmiştir. Yazarlar, DiCoExpress konteynerinin yapımı için F. Desprez'e teşekkür ediyor. KB çalışmaları Investment for the Future ANR-10-BTBR-01-01 Amaizing programı tarafından desteklenmektedir. GQE ve IPS2 laboratuvarları Saclay Plant Sciences-SPS (ANR-17-EUR-0007) desteğinden yararlanmaktadır.

Materials

Name Company Catalog Number Comments

DOWNLOAD MATERIALS LIST

References

  1. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature reviews. Genetics. 10 (1), 57-63 (2009).
  2. Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics & Informatics. 13 (4), 119-125 (2015).
  3. R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , Vienna, Austria. https://www.R-project.org/ (2020).
  4. Huber, W., et al. Orchestrating high-throughput genomic analysis with Bioconductor. Nature Methods. 12 (2), 115-121 (2015).
  5. Smith, D. R. The battle for user-friendly bioinformatics. Frontiers in Genetics. 4, 187 (2013).
  6. Pavelin, K., Cham, J. A., de Matos, P., Brooksbank, C., Cameron, G., Steinbeck, C. Bioinformatics Meets User-Centred Design: A Perspective. PLoS Computational Biology. 8 (7), 1002554 (2012).
  7. Shiny: web application framework. , Available from: https://rdrr.io/cran/shiny/ (2021).
  8. RStudio Team. RStudio: Integrated Development for R. RStudio, PBC. , Boston, MA. at (n.d (2020).
  9. Lambert, I., Roux, C. P. -L., Colella, S., Martin-Magniette, M. -L. DiCoExpress: a tool to process multifactorial RNAseq experiments from quality controls to co-expression analysis through differential analysis based on contrasts inside GLM models. Plant methods. 16 (1), 68 (2020).
  10. Dillies, M. -A., et al. A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis. Briefings in bioinformatics. 14 (6), 671-683 (2012).
  11. Rigaill, G. Synthetic data sets for the identification of key ingredients for RNA-seq differential analysis. Briefings in Bioinformatics. 19 (1), (2016).
  12. Rau, A., Maugis-Rabusseau, C. Transformation and model choice for RNA-seq co-expression analysis. Briefings in Bioinformatics. 19 (3), (2017).
  13. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2009).
  14. Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3 (1), 160018 (2016).
  15. Stark, R., Grzelak, M., Hadfield, J. RNA sequencing: the teenage years. Nature Reviews Genetics. 20 (11), 631-656 (2019).

Tags

Mühendislik Sayı 185
DiCoExpress ile Multifaktöriyel RNA-Seq Deneylerinin Analizi
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Baudry, K., Paysant-Le Roux, C.,More

Baudry, K., Paysant-Le Roux, C., Colella, S., Castandet, B., Martin, M. L. Analyzing Multifactorial RNA-Seq Experiments with DiCoExpress. J. Vis. Exp. (185), e62566, doi:10.3791/62566 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter