arasında Transkriptomik Analizi

Genetics

Your institution must subscribe to JoVE's Genetics section to access this content.

Fill out the form below to receive a free trial or learn more about access:

 

Summary

Galaxy ve DAVID biyoinformatik eğitim olmadan araştırmacılar analiz etmek ve RNA-Seq verileri yorumlamak için izin popüler araçlar olarak ortaya çıkmıştır. C. elegans araştırmacılar RNA-Seq deneyler, erişimi gerçekleştirmek ve Galaxy kullanarak veri kümesi işlemek ve DAVID kullanarak gen listelerinden anlamlı biyolojik bilgi elde etmek için biz bir protokol açıklar.

Cite this Article

Copy Citation | Download Citations

Amrit, F. R., Ghazi, A. Transcriptomic Analysis of C. elegans RNA Sequencing Data Through the Tuxedo Suite on the Galaxy Project. J. Vis. Exp. (122), e55473, doi:10.3791/55473 (2017).

Please note that all translations are automatically generated.

Click here for the english version. For other languages click here.

Abstract

Yeni nesil dizileme (NGS) teknolojileri biyolojik soruşturmanın doğası devrim yaratmıştır. Bunlardan, RNA sıralaması (RNA-Seq) gen ekspresyon analizi ve transkriptom eşleme için güçlü bir araç olarak ortaya çıkmıştır. Ancak, RNA-Seq veri setlerini ele sofistike hesaplama uzmanlık gerektirir ve biyoloji araştırmacılar için doğal zorluklar doğurur. Bu darboğaz, bir Gen Ontoloji (GO) vadeli analiz paketi yardımcı olduğunu biyoinformatik becerileri olmayan kullanıcıların RNA-Seq verileri analiz etmeyi sağlar açık erişim Galaxy projesi ve Açıklama, Görselleştirme ve Tümleşik Discovery (DAVID) için Veritabanı yoluyla yumuşatılmıştır büyük veri kümelerinden biyolojik anlam türetmek. Ancak, ilk kez kullananlara ve biyoinformatik amatör, bu platformların ile kendi kendine öğrenme ve alışkanlık kazanma zaman alıcı ve zor olabilir. Biz C. elegans araştırmacılar solucan RNA izole etmek için yardımcı olacak basit bir iş akışını açıklar, bir RNA-Seq deney yapmakve Galaxy ve DAVID platformları kullanarak verileri analiz edin. Bu protokol, zenginleştirilmesi için taranabilir bir gen listesini oluşturmak için her aşamada parametreleri ile kullanıcı, ham NGS verileri, kalite kontrol denetimleri, hizalama ve farklı bir gen ifadesi analizi erişmek yönlendirmek için çeşitli Galaxy modüllerini kullanarak için adım adım yönergeler gen sınıfları veya David kullanmayı biyolojik prosesler. Genel olarak, C. örneklerinin az sayıda çalışan ilk kez RNA-Seq deneyler yanı sıra sık kullanıcı üstlenen araştırmacıları elegans bu makale bilgi verecektir tahmin ediyoruz.

Introduction

İnsan genom dizilimi gerçekleştirilen ilk, Fred Sanger en dideoksinükleotid-sıralama yöntemi ile gerçekleştirilen 10 yıl sürdü ve tahminen 3 milyar $ 1, 2 mal oldu. Ancak, kurulduğu günden bu yana on az fazla bir süre, Yeni Nesil Sekanslama (NGS) teknolojisi sayesinde iki hafta içinde bütün insan genom diziliminin ve 1.000 $ ABD için kıldı. genom dizileme projeleri hızla olağan hale gelmiştir olarak maliyetinde keskin azalmalar ile birlikte inanılmaz verimlilik ile sıralama-veri toplama hızları artan izin Yeni NGS aletleri, düşünülemez yollarla Modern biyoloji devrim. Buna ek olarak, bu gelişmeler, örneğin RNA-zincirlenmesi (RNA-Seq), genom epigenetik değişiklikler çalışmanın, DNA-protein etkileşimleri yoluyla gen ekspresyon analizi gibi diğer birçok alanda ilerleme harekete geçirdi ve insan ana mikrobik çeşitliliğin taranması için kullanılabilmektedir. RNA Se NGS tabanlıÖzellikle q mümkün kapsamlı doğruluk ve hassasiyetle haritası transcriptomes belirlemek ve kıldı ve ifade profilleme için seçim yöntemi olarak mikro dizi teknolojisi yerini aldı. mikro-dizi teknolojisi kapsamlı kullanılmış olsa da, bu tür çapraz melezleme ve güvenilir bir şekilde ölçülebilen sentezleme değişiklikleri sınırlı aralığı olarak önceden varolan bilinen genomik bilgi dizileri ve diğer sakıncaları dayanmasýna ile sınırlıdır. RNA seq, diğer taraftan, nedeniyle açık DNA eşleme doğaya düşük arka plan gürültüsünü üretirken bilinen ve bilinmeyen transkriptlerini algılamak için kullanılabilir. RNA-Seq, maya gibi model organizmalar tarafından sunulan sayısız genetik araçları, sinekler birlikte, solucan, balık ve fareler, birçok önemli son biyomedikal keşifler temeli olarak hizmet etmiştir. Ancak, depolama sınırlamaları, işleme ve hepsinden önemlisi, m dahil daha geniş bir bilimsel topluluk erişilemez NGS yapmak önemli zorluklar ortadadır, sekanslama verilerine büyük hacimlerde eaningful biyoinformatik analizi.

sekans teknolojilerini ve üstel veri birikimi hızlı ilerlemeler araştırmacıları, erişmek analiz etmek ve bu bilgileri anlamak sağlayacak hesaplama platformları için büyük bir ihtiyaç yaratmıştır. Erken sistemleri bilgisayar programlama bilgisine üzerine ağır bağımlı idi, oysa sigara programcılar erişebilir ve sofistike analizler izin vermedi verileri görselleştirmek için izin Böyle NCBI'da olarak genom tarayıcılar. Web tabanlı, açık erişim platformu, Galaxy ( https://galaxyproject.org/ ), bu boşluğu doldurdu ve NGS verileri işleyebilir ve bir spektrum gerçekleştirmek için araştırmacılar sağlar değerli boru hattı olduğu kanıtlanmıştır basit-to-kompleksi biyoinformatik analiz eder. Galaxy Anton Nekrutenko (Penn State Üniversitesi) ve James Taylor laboratuarları tarafından, başlangıçta kuruldu ve korunur (Johns Hopkins Üniversitesi)f "> 3. Galaxy. Bunu bir RNA-Seq çalışmaya dahil tüm adımları içeren sayısız biyoinformatik ihtiyaçları için bir 'tek adres' yapma hesaplamalı görevleri geniş bir yelpazede sunmaktadır sunucularında veya her iki veri işleme gerçekleştirmek için eriştikleri Itallows yerel olarak kendi makinelerinde. Veriler ve iş akışları çoğaltılabilir ve paylaşılabilir. Çevrimiçi öğreticiler, yardım bölümü ve bir wiki sayfalık ( https://wiki.galaxyproject.org/Support Galaxy Projesi adanmış) tutarlı destek sağlar. Ancak, ilk kez kullananlar için, özellikle hiçbir biyoinformatik eğitimi olanlar, boru hattı zor görünebilir ve kendi kendine öğrenme ve alışma süreci zaman alıcı olabilir. Buna ek olarak, biyolojik sistem inceledi ve deney ve metotların özelliklerini, etkilerini kullanılan bir kaç aşamada analitik kararlar ve bu talimat olmadan gezinmek için zor olabilir.

Genel RN A-Seq Galaxy iş akışı, veri yükleme ve RNA-Seq veri analizi 10 farklı aşamaları için gerekli olan çeşitli araçların bir oluşum Tuxedo Suite 4, 5, 6, 7, 8, 9, kullanılarak analiz sureti ile, ardından kalite kontrol oluşmaktadır 11, 12, 13, 14. Tipik bir RNA Sekans deney, deney bölümünde (örnek hazırlama, mRNA izolasyonu ve cDNA kütüphane hazırlanması) oluşur, NGS ve biyoenformatik veri analizi. Bu bölümlerin ve Galaxy boru hattında yer alan adımların bir bakış, Şekil 1'de gösterilmiştir.

3fig1.jpg"/>
Şekil 1: bir RNA-Seq Workflow'un bakış. Her iki sonsuz suşları (sırasıyla A ve B, turuncu, yeşil hatları ve oklar) gen ekspresyon profillerini karşılaştırmak için bir RNA Sekans deneyde yer alan deney ve bilgisayar adımların Çizim. Galaxy kullanılan farklı modüller kırmızı belirtilen protokolde gelen adımla kutularda gösterilmiştir. Çeşitli işlemlerin çıkışları mavi gösterilen dosya biçimleri ile gri olarak yazılır. Bu rakamın büyük halini görmek için buraya tıklayın.

Smokin Suite ilk aracı 'Tophat' olarak adlandırılan bir hizalama programıdır. Bu NGS giriş küçük parçalara okur ve daha sonra bir referans genom onları eşler ayırır. Bu iki aşamalı işlem olup hizalaması aksi da farklı olabilir intronik bölgeleri kapsayan okur sağlarsrupted veya hesaba ve eşlenir cevapsız. Bu kapsama artırır ve yeni ekleme kavşakları belirlenmesini kolaylaştırır. Tophat çıktı iki dosyadan (genomik konumu içerir ekleme bağlantıları hakkında bilgiler içeren) bir YATAKLI dosyası ve (her okunmuş haritalama detayları ile) bir BAM dosyası olarak bildirilir. Daha sonra, BAM dosyası 'Kol Düğmeleri' denilen Smokin Suite müteakip aracını kullanarak her bir numune içindeki tek tek dökümlerinin bolluğunu tahmin etmek için bir referans genom karşı hizalanır. Tam uzunlukta transkript parçalarını veya her gen için veri girişi mümkün olan tüm bağlantı varyantları yayılan 'transfrags' rapor etmek hizalama tarayarak Kol Düğmeleri işlevlerini. Buna göre, bu dizilenmiş olan, her numune için (her gen için gen başına üretilen tüm transkriptlerin düzeneğini) bir 'transkriptom' oluşturur. Bu kol düğmesi düzenekleri sonra çökmüş veya yeniden ile birlikte bir araya getirilirfark olmamas genom sonraki aracı, 'Cuffmerge' kullanan alt diferansiyel analiz için tek bir açıklama dosyası üretmek için. Son olarak, son Cuffmerge çıktı dosyası (Şekil 1) için numunelerin her birinin TopHat çıkışları karşılaştırarak örnekler arasında 'Cuffdiff' aracı ölçer farklı bir gen ifadesi. Kol Düğmeleri FPKM / RPKM kullanan transkript bolluklarını rapor değerleri (Fragments / eşlenen Milyon başına transkript Başına kilobaz okur okur). ve gen uzunluğu (sayımlar düzeylerini karşılaştırmak için bir genin uzunluğu için normalize edilmesi gerekir, böylece genlerin, farklı uzunluklara sahip (bir referans genom hizalamak numuneden okur ortalama sayısı) Bu değerler derinliği için ham NGS veri normalleþtirilmesi ), genler arasındaki. , FPKM kullanılır ise FPKM ve RPKM, esas olarak her bir okuma tek fragmana karşı gelen tek uçlu RNA SEK için kullanılan RPKM ile aynıdırEşleştirilmiş uç RNA Sekans, iki aynı fragmana karşı gelen okuyan olmaları gerçeğine dayanır olarak. Sonuç olarak, bu analizlerin sonuçları farklı olarak, test edilen koşullar ve / veya suşları arasında eksprese edilen genlerin bir listesidir.

Başarılı Galaxy çalışma tamamlandıktan ve bir 'gen listesi' oluşturulduktan sonra, bir sonraki mantıklı adım veri setlerinden anlamlı bilgiyi anlamak için analizler daha biyoinformatik gerektirir. Birçok yazılım paketleri böyle DAVID 15 (Ek Açıklama, Görselleştirme ve Entegre keşif için Veritabanı) olarak genel kullanıma açık web tabanlı hesaplama paketleri de dahil olmak üzere, bu ihtiyacı karşılamak için ortaya çıkmıştır. DAVID Entegre biyolojik bilgi tabanı yüklenen gen listesini karşılaştırarak ve gen listesiyle ilişkili biyolojik açıklamaları ortaya koyarak yüksek verimli çalışmalar elde büyük gen listelerine biyolojik anlam atama kolaylaştırır. Bu örneğin Zenginleştirme Analizi, ardından bir ide testlerherhangi bir biyolojik işlem ya da gen sınıfı istatistiksel olarak anlamlı bir şekilde gen liste (ler) de daha fazla temsil ise ntify. Çünkü geniş, entegre bilgi-tabanı ve içinde zenginleştirilmiş biyolojik temaları tespit etmek için araştırmacılar sağlayan güçlü analitik algoritmaların birleşiminden popüler bir seçim haline gelmiştir genomik kaynaklı 'gen listeler' 10, 16. Ek avantajlar herhangi sıralama platformu ve son derece kullanıcı dostu bir arayüz üzerinde oluşturulan gen listelerini işlemek için yeteneğini içerir.

Nematod Caenorhabditis elegans da, küçük boyutu, saydam gövdesinin basit, vücut planı, kültür kolaylığı ve genetik ve moleküler diseksiyon büyük amenability gibi birçok avantajlar bilinen genetik bir model sistem vardır. Solucanlar bilinen insan homologları 17,% 40 korunmuş genlerin kadar içeren bir küçük, basit ve iyi açıklamalı genomu. Gerçekten de, C. elegansilk olarak, genom tamamen 18 dizilenmiştir metazoan, ve RNA-Dizi, bir organizmanın transkriptom 19, 20 eşleştirmek üzere kullanılmıştır ilk türün biriydi. Erken solucan çalışmaları teknolojisi 21, 22 gelişmesine katkıda yüksek verimli RNA yakalama, kütüphane hazırlanması ve dizileme yanı sıra biyoinformatik boru hatları için farklı yöntemlerle deney içeriyordu. Son yıllarda, solucanlar RNA-Seq tabanlı deney olağan hale gelmiştir. Ama, geleneksel solucan biyologlar için RNA-Seq verilere ait hesaplama analizinde getirdiği zorluklar tekniğin daha ve daha iyi kullanımı için önemli bir engel teşkil etmektedirler.

Bu makalede, C. elegans üretilen yüksek verimli RNA Seq verileri analiz etmek için Galaxy platformu kullanmak için bir protokol açıklar. Birçok birinci zamanlı ve küçük SCA içinle kullanıcıları, bir RNA-Seq deney üstlenmek en maliyet etkin ve basit yolu laboratuarda RNA izole etmek ve sıralama cDNA kütüphanelerinin hazırlanması ve NGS kendisi için ticari (veya in-house) NGS tesis yararlanmaktır. Dolayısıyla, ilk izole yer adımlar açıklanmaktadır, C. ölçümü ve kalite değerlendirmesi, RNA-Sek için RNA örnekleri elegans. Daha sonra, hizalama, montaj ve gen ekspresyonu ayırıcı miktar belirlemesi yapılmıştır sonrası dizileme kalite kontrolü için kontrol eder testleri ile başlayarak, NGS veri analizi Galaxy arayüzü kullanmak için adım adım talimatlar sağlar. Ayrıca, DAVID kullanılarak biyolojik zenginleştirme çalışmaları için Galaxy kaynaklanan gen listelerini incelemeye yön dahil ettik. Iş akışında bir son adım olarak, böyle NCBI Dizi Oku Arşivi (SRA) (kamu sunucularına üzerinde RNA-Seq verileri yüklemek için talimatlara sağlamak http: // www.ncbi.nlm.nih.gov/sra) bilimsel topluluğun serbestçe erişilebilir hale getirmek için. Genel olarak, bu makale örneklerinin az sayıda çalışan ilk kez RNA-Seq deneyler yanı sıra sık kullanıcı üstlenen solucan biyologlar için kapsamlı ve yeterli bilgi verecektir tahmin ediyoruz.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. RNA İzolasyon

  1. İhtiyati önlemler
    1. Mevcut herhangi bir RNaz'larına ortadan kaldırmak için bir ticari olarak temin edilebilen RNaz spreyi kullanarak, tüm çalışma yüzeyi, aletleri ve pipetler silin.
    2. Düzenli protokol farklı adımlar sırasında taze olanlar ile bunların değiştirilmesi, her zaman eldiven giyin.
    3. yalnızca filtre ipuçlarını kullanın ve RNA bozulmasını önlemek için mümkün olduğunca buz üzerinde bütün örnekleri tutmak.
      NOT: NGS platformlarından iyi verilerini elde etmek amacıyla, yüksek kaliteli RNA ile başlayacak kritik öneme sahiptir. RNA izolasyonu ve hazırlama yöntemleri örnek kökenli, sıralama ve araştırmacı tercih yöntemine bağlı olarak değişir. Çeşitli ticari olarak temin edilebilir kitler bu amaç için kullanılabilir veya RNA, RNA ekstraksiyonu standart bir fenol-kloroform yöntemi kullanılarak izole edilebilir. Her iki yöntem ile, yukarıda sıralanan önlemler kirlenmeyi ve obt aza indirmek için süreç boyunca takip edilmelidirain bozulmamış RNA numuneleri.
  2. Hasat Solucanlar
    1. Suş başına 1000-1500 yaşa göre eşleştirilmiş C. elegans erişkin solucanlar elde etmek üzere, hipoklorit ağartma işlemiyle 23 Sonsuz nüfus senkronize.
    2. 30 s boyunca masa üstü bir santrifüj ile 325 x g'de M9 tampon çözeltisi ve spin plakalar kullanılarak solucanlar yıkayın. solucanlar bir pelet geride bırakarak M9 tampon üzerinden aspire. Bakteriyel taşınmasında en az üç kere bu adımı yineleyin.
    3. Sonsuz pelet için, ~ 500 liziz tamponu uL (eğer ticari bir kit kullanılarak) ya da Trizol ekleyin (fenol ve guanidin izotiyosiyanat bir mono-fazlı çözelti fenol edin: 1.3.3 tarif kloroform ekstraksiyonu yapılmaktadır) solucan dokuları bozmaya , RNaz'larına devre dışı bırakmak ve nükleik asitleri stabilize eder.
      Not: Protokol -80 ° C'de depolamanın ardından sıvı azot içinde örnekleri dondurma flaş burada durdurulmuş olabilir.
  3. RNA izolasyonu
  4. 20 s döngü 45% genlikte sonikasyon solucan örnekleri. 'AÇIK' ve 40 s. 'KAPALI' (suş başına 8-12 kez) yıkanmıştır. her zaman buz örnekleri tutun.
    NOT: sonikatör probu tampon içerisine sokulduğu ve boyunca sabit seviyede tutulur emin olun. Numunenin köpürtme kaçının ve örnekler arasındaki in-iyice probu temizleyin. Sonikasyon döngüleri kullanılmıştır sonikatör tipine bağlı olarak değişebilir. Sonication koşulları ilk bir deney başlamadan önce bir test numunesi üzerinde optimize edildiği önerilir.
  5. Bir ticari olarak temin edilebilen bir kit kullanılarak Eğer öngörülen protokol uyarınca RNA İzolasyonu devam edin. bir fenol-kloroform yöntemi kullanılarak RNA izolasyonu için aşağıdaki adımları.
  6. Santrifüj 10 dakika boyunca 16,000 x g'de örnekleri sonike edilir. 4 ° C 'de
  7. 1.5 ml RNazsız mikrofüj tüpüne süpernatant aktarın ve (RNA / DNA izolasyon reaktif hacmi inci 1/5), kloroform, 100 uL ilave edin.
    Dikkat: Kloroform toksiktir. bu maddeyi kullanırken maruz kalmasını en aza indirmek ve inhalasyon önlemek için, kimyasal bir kaput çalışır.
  8. 60 sn - 30 iyice örnekleri karıştırın. ve numuneler 3 dakika boyunca oda sıcaklığında bekletin.
  9. 15 dakika boyunca 11.750 x g'de santrifüjleyin. 4 ° C'de ilave edildi. DNA içeren beyaz bir arayüz aspire için yeni bir RNase içermeyen mikrofüj tüpü dikkat ederek, sadece üst sulu tabaka aktarın. Tekrarlayın 1.3.6 ile 1.3.4 adımları tekrarlayın.
  10. 250 uL 2-propanol (sulu faz ya da 1/2 RNA / DNA izolasyon reaktif hacmi% 70) ilave edilir ve karıştırmak için tüp ters. Tüpler 10 dakika süre ile oda sıcaklığında beklemeye veya -80 ° C de bir gece boyunca bırakın.
  11. Santrifüj numuneler 10 dakika süre ile 11.750 x g'de. 4 ° C'de ilave edildi. pelet rahatsız edilmediği, böylece tüpün alt kısmında birkaç mcL geride bırakarak çok dikkatli süpernatant süzün.
  12. (RNaz içermeyen su kullanılarak yapılan)% 75 etanol 500 uL ile pelet yıkanır ve 5 dakika için 16,000 x g'de aşağı doğru döndürün. birt, 4 ° C.
  13. pelet bozmadan mümkün olduğunca süpernatantı. Hava birkaç dakika için bir başlık pelet kurutun.
  14. RNaz içermeyen su, 30 uL ilave edin ve 10 dakika boyunca ısıtılarak RNA pelet çözülür yardımcı olur. 60 ° C'de ilave edildi.
  15. Bir Bioanalyzer kullanarak RNA kalitesini ve miktarını kontrol edin.
    Not: Bioanalyzer RNA kalitesini bir ölçüsü olarak bir R NA I ntegrity N koyu kahverengi (RIN) oluşturur. en az 8 bir RIN RNA Seq numuneler için tavsiye edilen eşik (daha yüksek daha iyi) 'dir. RNA miktarı ve kalitesi de spektrofotometrik olarak kontrol edilebilir, ancak, aynı zamanda, RNA bütünlüğü, görsel değerlendirme ile takip edilmelidir. Bunu yapmak için, 28s ve 18s ribozomal RNA bantları arasında uygun bir ayrılma elde etmek için yeterince uzun bir% 1.2 agaroz jeli üzerinde örneklerini yürüt. Iki farklı bandın (18s rRNA'nın 1.75 kb ve C. elegans halinde 28S rRNA için 3.5 kb) mevcudiyeti RNA kalitesinin kabul edilebilir bir ölçüsüdür.
  16. Kullanım ~ 100 ng / shi uL RNAsıralama kütüphanelerinin hazırlanması için satıcı / NGS tesisine s.
    NOT: RNA örnekleri sıralama hizmet sağlayıcısına kuru buz üzerinde sevk edilmelidir. En sağlayıcıları kütüphane hazırlık öncesinde bağımsız RNA kalite kontrol testi yapması gerekmektedir.

2. RNA Dizi Veri Analizi

  1. Ham Sıralama Verilerinin İndir
    1. Bir "dosya transfer protokolü" (ftp) kullanılarak NGS sağlayıcısından fastq.gz formatında kodlanmış sıkıştırılmış ham fastq sıralama verileri indirin.

şekil 2
Şekil 2: Galaxy Kullanıcı Arayüzü Paneli ve Tuş RNA-Seq Fonksiyonlar düzeni. Sayfanın temel özellikleri genişletilmiş ve vurgulanır. (A) erişmek için kullanılan web sayfası başlığındaki veri analizine 'fonksiyonunu öne (B) işlemi ile kullanılan Galaxy sunucusunda yer belirten 'İlerleme çubuğu' dir. (C) Galaxy arayüzünde çalıştırılabilir tüm araçları listeler 'Araçlar Bölüm' dir. (D) 'NGS: RNA Analiz' gösteren aracı bölümü RNA Sekans analizi için kullanılmıştır. (E) Galaxy kullanılarak oluşturulan tüm dosyaları listeler 'Geçmiş' paneli göstermektedir. (F) Geçmişi bölümünde herhangi bir dosya tıklandığında açılan diyalog kutusunun bir örneğini göstermektedir. (F) içinde, mavi kutu görüntülemek için kullanılabilir simgeler, editthe özelliklerini vurgular veya mor kutu veri kümesi etiketleri veya ek açıklama 'düzenlemek' için kullanılabilir simgeler vurgular ve veri kümesi silmek kırmızı kutu simgeleri gösterir verilerini indirmek için, görevin ayrıntıları görüntüle gerçekleştirilen veya işlemi yeniden çalıştırın. Bu rakamın büyük halini görmek için buraya tıklayın.

  1. Galaxy Başlarken
    NOT: Galaxy bulut erişimi ve ücretsiz sınırlı depolama sağlayan web tabanlı bir platformu kullanarak ücretsiz halk sunucuda çalıştırılabilir. Aynı zamanda indirilebilir ve kullanıcının makinesine veya kurumlara ancak yerel işleme evsahipliğinde hesaplamalı kümelerinde yerel çalışabilir, veri depolama limitleri ve kullanıcı makinelerinin işlem gücü sınırlamaları nedeniyle mümkün olmayabilir. Indirme ve yükleme ile ilgili bilgileri erişilebilir https://wiki.galaxyproject.org/Admin/GetGalaxy . Bu protokolde, Galaxy boru hattının web tabanlı kullanımını tarif eder.
    1. En kullanıcının makinesine, erişim Galaxy üzerinde NGS veri yükleme ve depolama sonralaxy.org/" target = "_blank"> https://usegalaxy.org/.
    2. Sayfa, giriş başlığında 'Kullanıcı' tıklayarak bir kullanıcı hesabı Kayıt ve kullanıcı arayüzü paneli ile tanışması başlar.
      NOT: İlk kez kullananlar ana sayfasında sağlanır 'buradan başlayın' öğretici Galaxy temel kurulumdan alışmak için kullanmak önerilir ( https://github.com/nekrut/galaxy/wiki/Galaxy101-1 ) .
    3. Ayrıca Galaxy başlangıç ekranı olan 'Analiz Ana Görünüm' erişmek için başlık panelinde 'Analiz Veriler' (Şekil 2A) tıklayın.
      NOT: başlığı, ayrıntılarını üzerlerine fare işaretçisi gelerek görülebilir diğer bağlantıları ev sahipliği yapmaktadır. Başlığın üst sağ köşede görevler (Şekil 2B) için kullanılan denetim altında bir ilerleme çubuğu vardır.
    4. Cyalamak 'NGS: RNA Analiz' sol panel (Şekil 2C) 'Araçlar Menü' görev RNA seq veri analizi için gerekli tüm araçları erişmek için.
      NOT: 'Araçlar Menüsü' tüm operasyonları Galaxy teklifler katalog. Bu menü görevleri ve bu görevi başarmak için gereken tüm araçların listesini açılacaktır herhangi birine tıklayarak dayalı ayrılmıştır.
    5. Sağa (Şekil 2E) hakkında 'Geçmiş' panelinin üst kısmındaki dişli simgesini tıklayarak yeni analiz geçmişini oluşturun. Seç açılır menüden 'New'in Oluştur'. Bu 'Tarihçe' analizini belirlemek için uygun bir ad verin.
      NOT: 'Geçmiş' paneli Galaxy görevleri çalıştırarak oluşturulan tüm çıkış dosyaların yanı sıra analiz için yüklenen tüm dosyaları gösterir. Bu panelde bir dosya adı tıklandığında gerçekleştirilen görevi hakkında ayrıntılı bilgi içeren bir diyalog kutusu açılırve veri kümesi (Şekil 2F), bir parçacık. Bu kutuya Simgeler veri kümesi (Şekil 2F, mavi vurgulanmış) 'özelliklerini düzenlemek' veya 'silmek', 'bakış' kullanıcı etkinleştirmek. Ayrıca, kullanıcı bundan veri kümesini bile ayrıca 'düzenle' veri kümesi etiketleri veya ek açıklama (Şekil 2F morla), görevin 'indirme' veri 'görünümü ayrıntıları', 'yeniden çalıştırın' görev veya 'görselleştirmek' olabilir diyalog kutusu (Şekil 2F, kırmızı vurgulanmış).
    6. Ham fastq dosya yüklemek 'Tools menüsünde' in 'Veri Al' altındaki 'Dosya Yükle' fonksiyonunu tıklayın.
      NOT: Bu veya başka bir araç tıklanması orta 'Analiz Arayüzü' panelinde operasyonun kısa bir açıklama ve testi kendisi açılır. Bu panel, birbirine ayakkabı bağlarıSol panelde ve sağ 'Geçmiş' panelinden 'Girdi Dosyalar' (Şekil 2E) dan 'Araçlar'ı. Burada, 'History' dan giriş dosyalar seçilir ve diğer parametreler belirli bir görevi çalıştırmak için tanımlanmıştır. Her testten elde edilen çıkış veri kümesi 'History' geri kaydedilir. Aracın oluşturduğu tüm çıkış dosyalarının ayrıntılı listesi ile birlikte verilen bir aracı çalıştıran için kullanılabilir olan tüm parametreler için açıklamalar 'Analiz Arayüzü "panelinde testi ile dahildir.
    7. Görev 'Analiz Arayüzü' açılır sonra 'Yerel Dosya Seç' tıklayabilir veya, (daha hızlı yükleme) 'FTP Dosya Seç' dizilim dosyalarını içeren klasöre gidin ve yüklenmesine uygun veri kümesini seçin.
    8. Yüklenen dosya türü (varsayılan ayar) 'otomatik olarak belirle' için Galaxy izin verin. Seç 'C elgenomun için aşağı çekme menüsü Egans '.
    9. Veri yükleme başlatmak için 'Başlat' tıklayın. Dosya yüklendikten sonra, bu 'Geçmiş' panelinde kaydedilecek ve oradan erişilebilir.
    10. Birden dizilim veri dosyaları tek örnek için üretilmiş ise, 'Concatenate' aracını kullanarak bunları birleştirir. Bunu yapmak için, 'Araçlar Menüsü' in 'Metin Manipülasyonu' seçeneğini açın.
    11. 'Analiz arayüzünün' ortasında açılan kutudan birleştirilir ve 'Yürütme' tıklayın gereken dosyaları seçin 'Concatenate' aracını tıklayın.
      NOT: Bu görevi kullanılarak üretilen Çıktı dosyaları fastq formatında oluşturulur. Haritalama programı fastq dosya ve bu sınıra ulaşıldığında, yeni fastq dosyası geri kalan dizileri için oluşturulur başına 16.000.000 dizilerinin bir sınırı vardır. '; Concatenate' aracı veri setlerini birleştirmek gibi durumlarda gereklidir.
    12. Altında bulunan 'fastq damat' aracıyla Galaxy RNA-Seq analiz için gerekli fastqsanger biçimine yüklenen fastq biçimi dosyalarını dönüştürme 'NGS: QC ve manipülasyon' bölümünü (tamamlayıcı dosyasını bakınız).
    13. Seçeneğine 'Damat için Dosya' altında uygun fastq veri kümesini seçin ve varsayılan parametreleri kullanarak aracı çalıştırmak.
      NOT: Bu görevi kullanılarak üretilen Çıktı dosyaları fastqsanger formatında oluşturulur.
  2. fastqsanger Veri Kalite Kontrol Testleri
    1. Altında yer alan 'FastQC' aracını kullanarak okur yüklenen fastqsanger kalitesini kontrol edin: 'Araçlar' menüsünde 'NGS QC ve manipülasyon'.
    2. Shor 'için açılır menüden bakımlı fastqsanger veri dosyasını seçin't akım kütüphaneden veri okumak ve varsayılan parametreleri kullanarak aracı çalıştırmak.
      NOT: Herhangi bir adaptör dizilerinin okur kalitesi ve varlığı özellikle dikkat edin. Adaptör genellikle NGS sağlayıcıları tarafından yazılan, RNA-Seq veri işleme parçası olarak çıkarılır, ancak bazı durumlarda, geride kalmış olabilir. Kalite standartlarının açıklama için gidin http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ .
    3. NGS sağlayıcı ile kontrol edin ve adaptörler varsa, onları gelen 'Klip' aracını kullanarak Döşeme 'NGS: QC ve manipülasyon' görev menüsünü.
      NOT: Bu görevi kullanılarak üretilen Çıktı dosyaları ham txt formatında yanı sıra herhangi bir web tarayıcısında açılabilir html oluşturulur.
  3. Smokin Suite ile Veri Analizi
    1. TopHat
      1. en son sürümünü indirin Fasta ve 2.2.6 de yukarıda açıklandığı gibi GTF (Gen Transferi Biçimi) yükle dosyasından dosyaları'.
      2. ': RNA Analizi NGS' bölümünü ve sıralama indirilen referans genomuna okur eşleştirmek için 'TopHat' aracını tıklamak açın.
      3. Sorusuna açılır menüden uygun cevap seçin 'bu tek uçlu veya eşleştirilmiş uç veri var mı?'
      4. Uygun fastq dosyasını seçin.
      5. Seç yanındaki açılır menüde 'geçmişinden bir genom kullan' ve adım 2.4.1.1 indirilmiş referans genomu seçin.
      6. Diğer parametreler için 'Varsayılan seçin ve 'Yürütme' tıklayın.
        NOT: Bu görevi kullanılarak üretilen çıktı dosyaları arasında, 'Kabul Hits' dosya sonraki adımlarda kullanılır.
    2. Kol Düğmeleri ve Cuffmerge
      1. 'Cuff SeçNGS bağlantılar aracı ': transkript birleştirmek için RNA Analizi' bölümünde, diferansiyel ekspresyon için kendi bolluk ve testi tahmin ediyoruz.
      2. İlk Açılır menüde, TopHat analizinden elde edilen eşleştirilmiş 'Kabul hit (BAM biçimi)' dosyasını seçin.
      3. İkinci Açılır menüde, adım 2.4.1.1 indirilen GTF dosyasına referans ek açıklama ayarlayın.
      4. 'Önyargı düzeltme gerçekleştir' seçeneği için 'Evet'i seçin ve diğer tüm parametreler için varsayılan ayarları kullanarak görevi çalıştırın.
        NOT: Bu görevi kullanılarak üretilen çıktı dosyaları arasında, 'Kabul transkriptleri' dosya sonraki adımlarda kullanılır.
      5. 'Cuffmerge' aracı 'NGS: RNA Analizi 'Monte Transkript' üretilen için tüm RNA-Seq örnekleri birleştirmek.
        NOT: alet kendini doldurur ve listelerde ilk kutu tüm Kol Düğmesi tarafından üretilen m> GTF dosyaları.
      6. Aynı türe / durumun biyolojik çoğaltır (biyolojik çoğaltır için tartışmaya bakınız) dahil test edilen tüm suşların / koşullar için 'Montajlı transkriptleri' dosyasını seçin.
      7. 'Use Referans Annotation' için 'Evet'i seçin ve adım 2.4.1.1 indirilen GTF dosyayı seçin.
      8. Aşağıdaki kutusunda, yine 'Use Sequence Data' seçeneği için 'Evet' seçeneğini ve adım 2.4.1.1 indirilen tüm genom Fasta dosyası seçin.
      9. Varsayılan olarak diğer parametreleri tutulması, 'Yürütme' tıklayın.
        NOT: Cuffmerge tek GTF çıktı dosyası oluşturur.
    3. Cuffdiff
      1. Içerisinde 'Cuffdiff' aracına gidin 'NGS: RNA Analizi' bölümüne. 'Transkriptleri' menüsünde Cuffmerge gelen birleştirilmiş çıktı dosyasını seçin.
      2. Etiketiki suş / durumu adlarıyla koşulları 1 ve 2.
        NOT: Cuffdiff ikiden fazla suşları veya koşullarının yanı sıra Zaman deneylerinde arasında karşılaştırmalar yapabilirsiniz. Basitçe gerektiği gibi, her yeni suşları / koşul eklemek için 'Add yeni koşullar' seçeneğini kullanın.
      3. 'Çoğaltır' seçeneğini bireyin o soy / durumun farklı biyolojik çoğaltır karşılık tophat gelen 'Kabul Hits' çıktı dosyaları altında her soy / koşul için. Birden çok dosya seçmek için, bir PC kullanarak eğer, 'ctrl' tuşuna Macintosh bilgisayar kullanarak ve eğer 'cmd' tuşunu basılı tutun.
      4. Varsayılan parametre olarak diğer bütün seçenekleri bırakın. Görevi çalıştırmak için 'Yürütme' tıklayın.
        NOT: Cuffdiff RNA-Seq analizin son okuma olarak bir tablo biçiminde sayısız çıktı dosyaları oluşturur. Bu kombine transkript, genler için FPKM takibi ile dosyaları (dahilbir gen kimliğini paylaşan transkript), primer transkript ve kodlama dizilerinin FPKM değerleri. üretilen tüm veri dosyaları p değeri ve q değerleri de dahil olmak suşları / koşulları arasındaki karşılaştırmalar, ilgili (log2 ölçeğinde) bir değişiklik olarak istatistiksel veri kat, bir tablo bir uygulama üzerinde izlenmektedir ve bu gen adı, lokusu benzer özellikleri içerir edilebilir. Bu dosyalardaki veri farklılıkların istatistiksel anlamlılık göre ya da (düzenlenmiş genin yukarı olarak, büyüklük ve değişim yönü ya da aşağı-) gen ifadesinde katlı değişim kriteri ve kullanıcının ihtiyaçlarına göre manipüle edilebilir. Farklı gen belirleyicileri arasındaki dönüşüm gerekli olan (örneğin, Wormbase kozmid sayısına karşı gen İD), Biomart (mevcut araçlar http://www.biomart.org/ ) kullanılabilir.

3. Gen Varlıkbilim (GO) Dönem Analiz David kullanmayı

  1. Web sitesi h Erişim DAVIDttps: //david.ncifcrf.gov/. Web sayfasının başlığında 'Başlat Analizi' tıklayın. 'Aşama 1' de, giriş genleri için tanımlayıcı olarak 'Adım 2' seçeneğini 'Wormbase Gen ID' de kutu içine A. Galaxy elde edilen genlerin listesini kopyalama ve yapıştırma.
    NOT: DAVID en kamuya açık açıklama kategorileri tanır, böylece (örneğin Entrez gen kimliği veya gen sembolü olarak) diğer gen tanımlayıcılar da kullanılabilir.
  2. 'Adım 3' olarak, (genler analiz edilecek) 'Liste Türü' altında 'Gen Listesini' seçebilir ve sonra 'Liste Gönder' simgesine tıklayın.
    NOT: 'Analiz Sihirbazı', yüklenen gen listesinde çalıştırılabilir tüm köprü DAVID araçları (Şekil 3) listelemek için açılacaktır. Kullanıcının ihtiyacına göre ilgili karşılık gelen modüllerini erişmek için bu bağlantıları tıklayın. Hangi DAVID araçları kullanmak 'tıklayın belirli bir görev için uygun araçları tanımlamak için mi? 'Üzerindeki bağlantı' ; Analiz Wizard' sayfası. Analizi sırasında herhangi bir noktada 'Analiz Wizard' ana sayfasına geri dönmek için, başlıktaki 'Başlat Analiz' bağlantısını tıklayın.

Şekil 3,
Şekil 3: David Analiz Sihirbazı bir Web ve Çalışma Çıkışlar Örneklerinin Düzen. 'Analiz Wizard web kullanıcı arayüzü, çeşitli parametrelere dayalı zenginleştirme için yüklenen gen listesini analiz etmek için kullanılır araçları listelenmiştir. Bu araçlarla tıklandığında yeni bir web sayfası analiz verileri rapor eder. 'Gen fonksiyonel sınıflandırma', 'fonksiyonel ek açıklama Şema' ve 'fonksiyonel ek açıklama Kümelenme' den üretilen tablo rapor örnekleri ilaveler (oklar) olarak gösterilir.> Bu rakamın büyük halini görmek için lütfen buraya tıklayın.

  1. Fonksiyonel Ek Açıklama Aracı 1: Fonksiyonel Ek Açıklama Kümeleme
    1. Özet sayfasına gitmek için 'Fonksiyonel Ek Açıklama Kümelenme' modülünde tıklayın. Varsayılan açıklama kategorilerini tutun ve zenginleştirme skoru göre sıralanmış benzer açıklama terimlerin kümeleri oluşturmak için 'Fonksiyonel Ek Açıklama Kümelenme' tıklayın.
    2. Bunun ve 'RT' (ilgili terimler) kategori ile ilgili diğer benzer terimleri listelemek için ilgili ayrıntıları okumak için her dönem köprü adını tıklayın.
    3. hapis ve bir küme içindeki tüm terimler ile ilgili tüm genleri listelemek için kırmızı 'G' ile ilişkili genleri listelemek için mor çubuğunu tıklayın.
    4. Bir kümedeki tüm genlerin ve terimlerin iki boyutlu olarak görmek için yeşil simgesini tıklayın.
      NOT: Son üç sütun her biri için analitik ve istatistiksel sonuçlar listelemekterim. Bunun sonuçları ve diğer tüm analitik 'Dosyayı İndir' bağlantısını tıklayarak bir .txt formatında indirilebilir.
  2. Fonksiyonel Ek Açıklama Aracı 2: Fonksiyonel Ek Açıklama Grafik
    1. Özet sayfasına dönün ve gen listesiyle ilişkili belirgin aşırı temsil biyolojik terimleri (örneğin transkripsiyon faktörü faaliyet veya kinaz aktivitesi) tanımlamak için 'Fonksiyonel Ek Açıklama Grafik' tıklayın.
    2. Daha detaylı bilgi ve 'RT' (ilgili terimler) diğer ilgili terimleri listelemek için almak vadeli adına tıklayın.
    3. Bireysel kategorisini gelen tüm ilişkili genleri listelemek için mor çubuğunu tıklayın.
      NOT: son iki sütun her bir kategori için istatistiksel-testler yapılarak analiz sonuçları sıralar.
  3. Fonksiyonel Ek Açıklama Aracı 3: Fonksiyonel Ek Açıklama Masa
    1. Özet sayfasına dönün ve fo n 'tıklayınnihai Açıklaması Tablo 'istatistiksel hesaplamalar olmayan bir listede genleri ile ilişkili tüm ek açıklamalar listesini görmek için.
      NOT: Bu araç, bir listenin gen-gen analizi için yararlı olabilir veya belirli, son derece ilginç genlerin bakmak için.
  4. Gen Fonksiyonel Sınıflandırma Aracı
    1. 'Analiz Sihirbazı' geri dönün ve onların 'Zenginleştirme Puanı', listedeki gen grubunun genel zenginleşme bir ölçüsü gereğince sıralanmış genlerin işlevsel ilişkili gruplar halinde giriş gen listesini ayırmak için 'Gen Fonksiyonel Sınıflandırma' modülünde tıklayın.
    2. Terim adını tıklayın gen grubunun işlevsel olarak ilişkili genleri ortaya çıkarmak için daha detaylı bilgi ve 'RG' almak için
    3. ilişkili biyoloji ve tüm genlerin ve terimlerin iki boyutlu olarak görmek için yeşil simge listelemek için kırmızı 'T' (terim raporları) tıklayın.
  5. Gen-nameToplu Görüntüleyici
    1. 'Analiz Sihirbazı' geri dönün ve bunlara karşılık gelen gen adları içine 'Wormbase Gen kimlikleri' çevirmek için 'Gen-name Toplu Görüntüleyici' tıklayın. (WBGene00022855 = TCER-1).
    2. daha gen spesifik bilgi elde etmek gen adını tıklayın.
    3. Genleri ortaya çıkarmak için her genin yanındaki 'RG' tıklayın (ilgili genler) bağlantı ilgilenilen gene işlevsel olarak ilişkili olduğu tahmin.

NCBI Sırası Oku Arşivi üzerine 4. Yükleme RAW Verileri (SRA)

  1. NCBI' bağlantısının içinde Oturum SRA web sayfasını erişin veya yeni bir hesap.
  2. 'Bioprojet' tıklayın.
  3. Soldaki 'kullanma Bioprojet' başlığı altında 'Gönderme' tıklayın.
  4. Seçeneği 'Yeni Gönderme' öğesini seçin. sunanın Güncelleştirme ayrıntıları. kalan yedi sekmeler arasında devam, Deney ve verilerin ayrıntıları doldurmadan yükleniyor. Tamamlandığında tıklayın 'Gönder'.
    NOT: Beşinci 'biyolojik numunede' sekmesinde, 'biyolojik numunede' boş yuvayı bırakın.
  5. 'Gönderimlerimi' bağlantısını tıklayarak çıkan sayfayı yenileyin. gönderilen veri atanmış bir gönderme numarası, kısa bir açıklama ve yükleme durumu ile listelenir.
  6. 'Yeni bir gönderme başlatmak' kutusunda, bu sayfanın üstündeki 'biyolojik numunede' tıklayın ve 'yeni gönderme' oluşturun. Her numune için ayrı gönderimleri gönderin.
  7. 4.4'de 'Bioprojet' ile olduğu gibi, başvuruda bulunan ayrıntılarını güncellemek ve her sekmede ayrıntıları doldurarak sekmelerin geri kalanında devam edin. Bir kez incelemesi tamamlandı ve 'Gönder'i tıklayın.
  8. Gidin http: //www.ncbi.nlm.nih.gov / sra nihai 'Sıra Okuma Arşivi (SRA)' teslim oluşturun.
  9. 'Başlangıç' başlığı altında 'SRA için Girişi' tıklayın.
  10. Sonraki sayfada 'NCBI PDA' bağlantısını tıklayın. Bir 'Güncelleme Tercihleri' bağlantısını açılacaktır. Formu doldurun ve 'Tercihleri Kaydet' i tıklayın.
  11. Ortaya çıkan sayfada 'Create New Gönderme' bağlantısını tıklayın. 'Alias'ın' başlığı altında, uygun bir isim girin ve 'Kaydet'i tıklayın. gönderme kimliği ve diğer detayları ile bir tablo oluşturulur.
  12. 'Yeni Experiment' tıklayın ve her 'biyolojik numunede' için en az bir benzersiz sıralama kitaplığı kaydedilemedi.
  13. Belirleyin ve önceden oluşturulan 'Bioprojet' ve 'biyolojik numunede' gönderme kimliklerini bağlar. A 'Yeni Deneme' oluşturulacak.
  14. Sayfanın alt kısmındaki 'Yeni Run' tıklayınsonra SRA Deney yaptı ve kendisine bağlı gereken veri dosyaları tanımlamak olmuştur.
  15. her bir veri dosyasında MD5 toplamını hesaplamak. Bir Macintosh terminalde Bunu yapmak için, Applications / Utilities / Terminal gidin. terminalde, (tırnaklar hariç) 'MD5' türü ve ardından bir boşluk. Sürükle ve bulucu gelen terminale yüklenen ve 'Enter' tıklayın gereken dosyaları bırakın.
  16. Terminal alfasayısal MD5 toplamı dönecektir. Dosya yükleme için gönderim sürecinin bir parçası olarak bu giriniz. FTP kullanarak dosya yüklemek için sistem tarafından sağlanan kullanıcı adını ve şifreyi kullanın.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

C. elegans olarak germline kök hücreleri (GSC'ler) ömrünü uzatır, ortadan kaldırılması gerilme direncini arttırır ve vücut yağ 24, 28 yükseltir. GSC 'lerin kaybı, lazer ablasyonu ile ya da GLP-1 gibi mutasyonlar ile ortaya ya transkripsiyon bir ağ 29 faktörleri aktivasyonu yoluyla ömrü uzatma neden olur. Böyle bir faktör, TCER-1, insan transkripsiyon uzama ve birleştirme faktörü, TCERG1 30 helezon homologunu kodlayan. Aşağıdaki temsil edici sonuçları, RNA-Dizi ekspresyonu Yakın zamanda yayımlanan bir çalışmada 31 tohum çizgisi kaybı aşağıdaki TCER-1 / TCERG1 modüle edilir genleri tanımlamak için nasıl kullanıldığını göstermektedir. Arasında transcriptomes gün GLP-1 ve TCER-1 2 yetişkin yaş-uyumlu, GLP-1 mutantları karşılaştırıldı. Her soy için mRNA'nın iki biyolojik yineleme izole edilmiştirbölüm 1. RNA numuneleri de tanımlanan protokol kullanılarak tes (dört numune tamamen) dört numune cDNA kütüphaneleri hazırlanır ve 50 bp tek uçlu sekanslama gerçekleştirilen ticari bir servis sağlayıcısına sevk edildi. Bölüm 2.1 de tarif edildiği gibi ham NGS veri indirildi.

Mesaj dizilim veri değerlendirme

Tablo 1 çiğ sıralama okur kalitesini değerlendirmek için test sonuçlarının bir derlemesidir. 'Fastq kalite kontrol analizi ile 'kalitesiz' okumak dizilerinin sayısı 48-49% GC içeriği ve 51 bp'lik bir sürekli dizi okuma uzunluğu ile birlikte okuma vurgulamaktadır. Bu adım ayrıca, Kmer içeriği gibi diğer birçok özellikler için dizilim verileri kontrol eder ve toplu olarak, toplam 11 test oluşur. C. elegans genomu ~ 100 Mbp olup. sekanslama sayısına göre genom eşlenen her bir örnek, g okurenome kapsamı (son sütun) Cı kapsama temsil etmektedir, Lander / Waterman denklemi 'C = LN / G' ile tahmin edilmiştir, G, haploid genomun uzunluğu L okuma uzunluğu ve N okur sayısıdır. Biz tüm adımlar için varsayılan parametreleri kullanılır ve 48 elde - tüm örneklerde% 49 GC içeriğine. Görüldüğü üzere, genom kapsama örneklerinde 11x için 9x arasındaydı.

TCER-1 tanımlanması / Galaxy farklı gen ekspresyonunu analiz ile Genes TCERG-1-regüle

2.2 ila 2.4 bölümlerde ayrıntılı adımlar ile, Galaxy boru hattı 3 diferansiyel GLP-1 ve TCER-1 arasında eksprese edilen genlerin bir listesini elde etmek için kullanıldı; GLP-1 mutantları. Galaxy her bir suş için iki kez tekrarlanmış olan NGS verilerini birleştirmek etmemizi sağladı ve genom çapında ifadesini pr vurgulayarak sekmeli dosyaları oluşturmak için diferansiyel analiz gerçekleştirdiOFile. Büyüklüğü ve en az 0.05 p değerinin en az bir kat değişim bir eşik kullanılarak, farklı olarak iki suş arasında ifade edildi 835 genlerin bir listesi 31 oluşturulmuştur. Liste genlerin ekspresyonu TCER-1 aşağı regüle edilmiş olup temel ayrılır; GLP-1 mutantları, (transkripsiyonunu muhtemelen arttırılır 359 UP genler TCER-1 / TCERG1) ya da yukarı regüle olan transkripsiyon (476 aşağı genleri GLP-1 (Şekil 4) ile karşılaştırıldığında büyük olasılıkla) TCER-1 / TCERG1 ile bastırılır.

Şekil 4,
Şekil 4: Galaxy (A) ve David (B) 'nin sonuçları analiz: Germline-az C. TCER-1 / TCERG1 regüle Genlerin Tanımlanması RNA Sekans kullanılarak elegans mutantları. (A) karşılaştırma RNA Seq veri diferansiyel gen ekspresyonu analiziGLP-1 ve TCER-1 transcriptomes GLP-1 359 TCER-1 / TCERG1 (UP) ile up-regüle olarak tespit edilmiştir, ve 476 olarak TCER-1 tarafından aşağı doğru düzenlenen olan 835 genin toplam vermiştir / TCERG1 (aşağı). David kullanmayı TCER-1 / TCERG1 hedefler olarak tanımlanan genlerin 'fonksiyonel ek açıklama Kümelenme analizi (B) sonuçları. TCER-1 / TCERG1 hedeflerinin Yukarı düzenlenmiş (UP) ve Aşağı düzenlemeli (AŞAĞI) Sınıflar her ikisi için Biyolojik Süreçler yüzdesi zenginleştirme. Burada gösterilen grafik David analiz çıktısı olarak elde edilen zenginleştirilmiş gen grupları (X-ekseni) ve ilgili yüzde zenginleştirme (Y-ekseni) çizilmesi ile elde edilir. Amrit diğerleri değiştirilmiş Şekil. 31 ve izni ile çoğaltılabilir. Bu rakamın büyük halini görmek için buraya tıklayın.

TCER-1 / TCERG1 hedefleri açısından zenginleştirilmiş gen sınıfları genel bir bakış elde etmek için, DAVID kullanılarak gen ontoloji (GO) terimi, bir analiz gerçekleştirilmiştir. TCER-1 / UP TCERG1 regüle ve aşağı gen listeleri DAVID üzerine bağımsız olarak yüklenebilir ve 3. küçük TCER-1 / TCERG1 önce 30 tarafından hedef genlerin ve hücresel süreçleri hakkında bilinen bölümde tarif edildiği gibi analiz edilmiştir, bu yüzden David bulundu analiz özellikle açıklayıcı ve yardımcı olmak için. YUKARI genlerinin fonksiyonel ek açıklama analizi> 1.3 olan bir zenginleşme Puanı lipit modifikasyonları gösterilen genlerin ardından Sitokrom P450 enzim kodlayan genler ve ksenobiyotik yanıt genleri de dahil olmak üzere en fazla beş ek açıklama gruplar ortaya çıkardı. Bu gruplar içindeki molécula ile ilişkilendirilen tespit Gen fonksiyonel sınıflandırma analizi sonuçları ile takviye edildiönemli zenginleştirme puanları ile r faaliyetleri. -Tabloyu kullanarak, tanımlanan grupların kendi zenginleştirme puanları (Şekil 4) karşı grafik halinde gösterilmiştir. Bizim önceki veri TCER-1 / TCERG1 GSC-az yetişkinlerin 30 uzun ömürlü olmasını sağlamak için, korunmuş uzun ömürlü transkripsiyon faktörü, DAF-16 / FOXO3A ile işlev gördüğünü ileri sürdü. DAF-16 / FOXO3A, sırayla, son çalışmalarda 27, 32, 33 lipid metabolizmasını modüle dahil olmuştur. Bu kanıt ve DAVID potansiyel TCER-1 / TCERG1 hedefler olarak lipit-metabolik genlerin ve yolların belirlenmesi dayanarak ayrıntılı mekanik çalışmalar için RNA-Seq çalışmada belirlenen yağ metabolizması genler üzerinde duruldu, analiz eder. Ve daha sonra moleküler genetik, biyokimyasal ve fonksiyonel deney yoluyla bu öne takiben, TCER-1 DAF-16 / FOXO3A ile birlikte / TCERG1 koordineli olarak enhan gösterdigerm hattı kaybı 31 cevaben lipit katabolik ve anabolik süreçler hem ced. Benzer bir şekilde, YUKARI fonksiyonel ek açıklama Kümelenme TCER-1 / TCERG1 sitoskeletal işlevleri, büyüme, üreme ve yaşlanma pozitif düzenlenmesi için zenginleştirilmiş Açıklaması Kümeleri tespit hedefler (Şekil 4). Bu gözlemler, ve destek deneysel kanıtlar, tohum çizgisi kaybı üzerine, TCER-1 / TCERG1 da büyüme ve üreme fizyolojisi somatik hücrelerde hem de bir anti-ömür genlerinin 31 ekspresyonunu bastırdığını ortaya koymaktadır.

Numune Toplam Diziler uzunluk GC% Toplam okur (Galaxy) Okur Haritalı (Galaxy) Genom Kapsamı
GLP-1 4000000 51 49 20700539 ~ 16.000.000 11x
GLP-1; TCER-1 4000000 51 49 18055444 ~ 13000000 9x
GLP-1 4000000 51 48 18947463 ~ 14.000.000 10x
GLP-1; TCER-1 4000000 51 48 13829643 ~ 10.000.000 7x

Tablo 1: RNA-Seq Numune Detayları. Ham veri niteliklerin Derleme sıralama vadede başarısını teyit etmek sonrası sıralamasını değerlendirdi. Temsilci bir deneyden gelir Dizileme verileri, iki biyolojik koşullardan bir kontrol suşu oluşur (GLP-1 (TCER-1; her biri için dizilenmiştir iki biyolojik tekrarlamalı olarak GLP-1). % 49 GC içeriğine ve 51bp sabit bir dizi okuma uzunluğu - 'FastQC kalite kontrol analizi ile "düşük kaliteli" okur 48 ile okundu dizilerin sayısı vurgulamaktadır. Modifiye ve Amrit ve arkadaşlarının izniyle basılmıştır. 31.

Ek Dosya: kısaca Komuta zinciri araçları RNA-Seq veri analizi için Galaxy boru hattında çalışacak için. Bu dosyayı indirmek için buraya tıklayın.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Modern Biyolojide Galaxy Sıralama Platformu Önemi

Galaxy Projesi işlemek ve hızlı ve verimli bir şekilde yüksek verim sıralama verilerini analiz etmek için biyoinformatik eğitim olmadan biyologları yardımcı etkili olmuştur. Bir kez bu halka mevcut bir platform yalın, güvenli ve kolay bir süreç NGS verilerini analiz etmek için karmaşık biyoinformatik algoritmaları çalıştıran yaptı, bir Herkül görev olarak kabul. Apart biyoinformatik araçları geniş bir yelpazede ev sahipliği etmekten, Galaxy başarının anahtarı da sezgisel ve kesintisiz bir şekilde karmaşık dizi analizi çeşitli yönlerini bir araya bağcıkları kendi kullanıcı arayüzünün basitliği. Bu özelliklerden dolayı, Galaxy boru hattı C. elegans araştırmacılar da dahil olmak üzere biyologlar arasında geniş kullanım kazanmıştır. RNA Sekans Analizi boru hattı ile kullanıcı tanımaya ek olarak, Galaxy zamanda temel biyologlar kavramak için temel teşkil yardımcıveri analizi kavramı ve ilgili araçlar sahiptir. Bu bilgi, belki de, bundan başka, 'R' ve 'Python' gibi daha karmaşık biyoinformatik platformları sürdürmeye kullanıcı hazırlar. Galaxy yanı sıra, başka araçlar ve paketleri ticari ve RNA-Seq analizi için kullanılabilecek açık kaynak çözeltiler, olarak mevcuttur. ticari seçenekleri tek başına çoğu zaman kullanıcı dostudur ama çoğu NGS kullanmayan münferit araştırmacılar için pahalı olabilir yazılım paketlerini. Alternatif olarak, açık kaynak böyle BioWadrobe 34 olarak platformları ve ArrayExpressHTS 35 sivil bioinformaticians için önemli zorluklar teşkil komut satırı ve çalışan komut, çalışma bilgisini gerektirmektedir. Dolayısıyla, Galaxy popüler ve vazgeçilmez bir kaynak olmaya devam etmektedir.

protokol dahilinde Kritik adımlar

rağmen Galaxy ve DAVID zahmetsiz avantajları, yine başarılı bir RNA-Seq deneyiDikkatli tasarım ve deneysel aşamada yürütülmesi üzerinde temelden dayanır. Örneğin, RNA-Seq ile iki soy karşılaştırarak önce genetik homojenlik sağlamak ve gelişimsel oranlarındaki farklılıklar olup olmadığını belirlemek için çok önemlidir. yaşa göre eşleştirilmiş suşlarından RNA izole da önemlidir. Benzer şekilde, aynı suş içinde gen ekspresyonunun arasındaki farklılıkları hesaba için, her bir suşun, iki ya da daha fazla biyolojik çoğaltır 'çalıştırmak için önemlidir. Bu aslında büyüyen ve üç biyolojik örnek önerilir standart olmasına rağmen soylarından hasat solucanlar, en azından twoindependent deneylerinde sıralandı ediliyor demektir. Suşları arasında rapor edilen gen ekspresyon farklılıklar sadece 'içi örnek' değişkenlik bir sonucu değildir, böylece Galaxy birden fazla biyolojik çoğaltır verileri birleştirir.

Kritik bir tasarım kararı tek-uçlu karşı eşleştirilmiş uç dizileme kullanımı ile ilgilidir. İletek-uçlu dizi analizi, her bir parçası bu nedenle işlem, hızlı tek yönlü sekanslanır ucuz ve transkripsiyon profili için uygundur. bir fragmanı, diğer bir ucundan dizilenmiştir sonra eşleştirilmiş uç dizilendirmede, sekanslama bir ikinci tur ters yönde devam edilir. Bu yüzden de novo genom tertibatı, yeni bir SNP tespiti için ve epigenetik değişiklikler, eksiltmeler, araya girmeler, ve çevrimleri tanımlamak için daha uygundur, daha derinlemesine veri ve genomun ek konumlandırma bilgi sağlar. Benzer şekilde, toplam sayısı okur ve yeterli diferansiyel ekspresyon çalışmaları için gerekli genom kapsamının büyüklüğü duruma bağlıdır. bakteriler ve mantarlar gibi küçük genomlarının, için ~ 5 milyon okur solucanlar, oysa yeterlidir ve • uçan 10 milyon yeterli kapsama okur. Böyle fareler ve insanlar gibi büyük genomları ile organizmalar için 15-25.000.000 gerekli aralığıdır okur. Buna ek olarak, okuma sayısı ve kapsamı, aynı zamanda important NGS çoğu okur referans genom align. % 70 okur <hızalanması zayıf NGS veya kirletici varlığının göstergesidir. Genel olarak, C. RNA-Seq çalışmalar elegans, üç biyolojik suret 50 bp tek yönlü sekanslama 10-15 milyon okur ~ sonuçlanan ve • her bir örnek için 5-10X genom kapsamı ideal amacı ile dizilenmiştir.

Galaxy kullanarak kolaylığı rağmen, sorunsuz ve sorunsuzdu veri analizi deneyimi sağlamak amacıyla unutulmaması gereken birkaç nokta vardır. Kullanıcı kullanılan çeşitli araçların amacı ve işleyişi ile ilgili temel bilgileri sahip olması gereklidir. Her Galaxy aracı parametrelerinin seçimini gerektirir ve aracı anlama kullanıcı deney ihtiyacı dayalı ayarları optimize etmenize yardımcı olacaktır. Galaxy yardım sayfaları her parametreyi açıklamak ve kullanıcı test değişkenleri karar bu detayları incelemek önerilir.

Gen listesi Elde edilen pDavid kullanılarak biyolojik ilgili veriler için çıkarılan kadar ost RNA Sekans analizi, genin bir listesi oluşurdu. Bu biyolojik süreç bazlı sonuçlarına bireysel gen tabanlı verileri dönüştüren çok önemli bir egzersizdir. David sağladığı çeşitli analiz kullanılarak RNA Sekans gen listesini keşfetmek dolayısıyla protokolü önemli ve ayrılmaz bir parçasıdır.

Değişiklikler, sorun giderme ve sınırlamalar

NGS veri analizi ile ortak bir aksaklık özellikle kalite kontrol aşamalarında, başarısız görevler veya testidir. Başarısız olarak FastQC bir numune üzerinde çalışan testlerin birkaç gelebilir. Ancak, bu kaçınılmaz fastq kalite standartlarını karşılamayan numuneyi anlamına gelmez. başarısızlık dikkatlice araştırılmalıdır alternatif bir açıklama olabilir.

'Baz dizisi içeriği başına' testi başarısız olursa, örneğin, (arasında% 10'dan daha fazla bir fark olduğunu ortaya koymaktadırherhangi bir pozisyonda bazları), oligodT kütüphane hazırlanması için bir yöntemi edin. Önceki çalışma Illumina NGS kütüphaneleri testi başarısız numunenin neden belirli bazlar için bir önyargı için dizilenmiştir edilen 13. tabanı için bir eğilime sahip olabileceğini göstermiştir. Benzer şekilde, "Kmer content testinin bir arıza nedeniyle bazen rastgele primerler eksik bir örnekleme rastgele prime türetilen kütüphanelerin hemen hemen her zaman başlangıcında Kmer önyargı gösterir gerçeğine atfedilebilir. Nedenle, deney kaderini belirleyen önce analiz boru hattı bu ve diğer engelleri dikkate almak önemlidir.

RNA Sekans veri analizi etkileyebilecek diğer bir önemli özelliği, NGS yöntem ve analitik yazılım olarak oluşan, hızlı ve üstel gelişmeler olduğunu. İdeal olarak, benzer bir gen listesi iki boru hattı ya da aynı borunun iki sürümlerinde örnek NGS verileri analiz sonucu beklerhat. sürekli gelişen algoritmaları RNA Sekans analizi sapmaları düşürülmesi ve daha doğru gen listeleri üreten Bununla birlikte, bu, genellikle farklılıklara yol açar. Örneğin, önemli ölçüde farklı gen listeleri oluşturabilir aynı araç seti eski bir genel yeni bir sürümü kullanılarak örnek NGS verileri analiz. Bir mütevazı varyasyon beklenen ancak kullanıcılar büyük farklılıklar deney tasarımı veya performansındaki zayıflıkların yansıtıcı olabileceğini farkında olması gerekir edilir.

Toplu olarak, Galaxy Projesi ve DAVID analitik araçlar NGS veri biyolojik ilgili bilgileri ayıklamak olmak üzere kullanılabilecek şekilde değiştirdi. Bu C. elegans araştırmacılar da dahil olmak üzere bilimsel topluluk bağımsızlık ve soruşturmanın tamamen yeni seviyeleri açtı. Örneğin, daha iyi ve daha hızlı sıralama teknolojisi ile birleştiğinde dizileme sürekli azaltarak maliyeti tek solucanların düzeyinde transkriptomik arasında dönemine öncü olan,Bireysel solucan dokular ve hatta birkaç seçme solucan hücreleri. Bu çabalar NGS veri çarpıcı artışlar oluşturulur içerir. Bu iş akışında analitik ucu ile tutmak zor olabilir, ancak çok yönlülüğü nedeniyle Galaxy C. elegans içinde tek hücre düzeyinde RNA SEK bütün organizma transkriptomik geçiş güçlendirici etkili olması muhtemeldir olacaktır. bilginin sonuçlanan gelişmeler temel biyoloji içine olağanüstü anlayış sağlamak olasıdır.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Yazarlar ifşa hiçbir şey yok.

Acknowledgments

Yazarlar Galaxy ve DAVID geliştirilen ve dolayısıyla bilimsel topluluk için NGS yaygın erişilebilir yaptık laboratuarlar, grup ve bireylere minnettarlıklarını ifade etmek istiyorum. Bizim biyoinformatik eğitim sırasında Pittsburgh Üniversitesi'nde meslektaşları tarafından sağlanan yardım ve öneri kabul edilmektedir. Bu çalışma ödülü (AG-NS-0879-12) ve Ulusal Sağlık Enstitüleri AG'ye (R01AG051659) hibe Yaşlanma bir Ellison Tıp Vakfı Yeni Scholar tarafından desteklendi.

Materials

Name Company Catalog Number Comments
RNase spray  Fisher Scientific 21-402-178
Trizol  Ambion 15596026
Sonicator Sonics Vibra Cell  VCX130
Centrifuge  Eppendorf 5415C
chloroform  Sigma Aldrich 288306
2-propanol  Fisher Scientific A416P-4
Ethanol Decon Labs 2705HC
RNase-free water  Fisher Scientific BP561-1
Bioanalyzer  Agilent G2940CA
Mac/PC

DOWNLOAD MATERIALS LIST

References

  1. Venter, J. C., et al. The sequence of the human genome. Science. 291, (5507), 1304-1351 (2001).
  2. Lander, E. S., et al. Initial sequencing and analysis of the human genome. Nature. 409, (6822), 860-921 (2001).
  3. Afgan, E., et al. The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2016 update. Nucleic Acids Res. 44, (W1), W3-W10 (2016).
  4. Trapnell, C., Pachter, L., Salzberg, S. L. TopHat: discovering splice junctions with RNA-Seq. Bioinformatics. 25, (9), 1105-1111 (2009).
  5. Trapnell, C., et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat Biotechnol. 28, (5), 511-515 (2010).
  6. Roberts, A., Trapnell, C., Donaghey, J., Rinn, J. L., Pachter, L. Improving RNA-Seq expression estimates by correcting for fragment bias. Genome Biol. 12, (3), R22 (2011).
  7. Roberts, A., Pimentel, H., Trapnell, C., Pachter, L. Identification of novel transcripts in annotated genomes using RNA-Seq. Bioinformatics. 27, (17), 2325-2329 (2011).
  8. Trapnell, C., et al. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nat Protoc. 7, (3), 562-578 (2012).
  9. Trapnell, C., et al. Differential analysis of gene regulation at transcript resolution with RNA-seq. Nat Biotechnol. 31, (1), 46-53 (2013).
  10. Huang da, W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nat Protoc. 4, (1), 44-57 (2009).
  11. Giardine, B., et al. Galaxy: a platform for interactive large-scale genome analysis. Genome Res. 15, (10), 1451-1455 (2005).
  12. Han, Y., Gao, S., Muegge, K., Zhang, W., Zhou, B. Advanced Applications of RNA Sequencing and Challenges. Bioinform Biol Insights. 9, (1), 29-46 (2015).
  13. Mardis, E. R. Next-generation sequencing platforms. Annu Rev Anal Chem (Palo Alto Calif). 6, 287-303 (2013).
  14. Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics Inform. 13, (4), 119-125 (2015).
  15. Khatri, P., Draghici, S. Ontological analysis of gene expression data: current tools, limitations, and open problems. Bioinformatics. 21, (18), 3587-3595 (2005).
  16. Huang da, W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Res. 37, (1), 1-13 (2009).
  17. Shaye, D. D., Greenwald, I. OrthoList: a compendium of C. elegans genes with human orthologs. PLoS One. 6, (5), e20085 (2011).
  18. Consortium, C. eS. Genome sequence of the nematode C. elegans: a platform for investigating biology. Science. 282, (5396), 2012-2018 (1998).
  19. Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC Genomics. 11, 383 (2010).
  20. Mortazavi, A., et al. Scaffolding a Caenorhabditis nematode genome with RNA-seq. Genome Res. 20, (12), 1740-1747 (2010).
  21. Bohnert, R., Ratsch, G. rQuant.web: a tool for RNA-Seq-based transcript quantitation. Nucleic Acids Res. 38, Web Server issue W348-W351 (2010).
  22. Lamm, A. T., Stadler, M. R., Zhang, H., Gent, J. I., Fire, A. Z. Multimodal RNA-seq using single-strand, double-strand, and CircLigase-based capture yields a refined and extended description of the C. elegans transcriptome. Genome Res. 21, (2), 265-275 (2011).
  23. Amrit, F. R., Ratnappan, R., Keith, S. A., Ghazi, A. The C. elegans lifespan assay toolkit. Methods. 68, (3), 465-475 (2014).
  24. Hsin, H., Kenyon, C. Signals from the reproductive system regulate the lifespan of C. elegans. Nature. 399, (6734), 362-366 (1999).
  25. Alper, S., et al. The Caenorhabditis elegans germ line regulates distinct signaling pathways to control lifespan and innate immunity. J Biol Chem. 285, (3), 1822-1828 (2010).
  26. Steinbaugh, M. J., et al. Lipid-mediated regulation of SKN-1/Nrf in response to germ cell absence. Elife. 4, (2015).
  27. Lapierre, L. R., Gelino, S., Melendez, A., Hansen, M. Autophagy and lipid metabolism coordinately modulate life span in germline-less. C. elegans. Curr Biol. 21, (18), 1507-1514 (2011).
  28. Rourke, E. J., Soukas, A. A., Carr, C. E., Ruvkun, G. C. elegans major fats are stored in vesicles distinct from lysosome-related organelles. Cell Metab. 10, (5), 430-435 (2009).
  29. Ghazi, A. Transcriptional networks that mediate signals from reproductive tissues to influence lifespan. Genesis. 51, (1), 1-15 (2013).
  30. Ghazi, A., Henis-Korenblit, S., Kenyon, C. A transcription elongation factor that links signals from the reproductive system to lifespan extension in Caenorhabditis elegans. PLoS Genet. 5, (9), e1000639 (2009).
  31. Amrit, F. R., et al. DAF-16 and TCER-1 Facilitate Adaptation to Germline Loss by Restoring Lipid Homeostasis and Repressing Reproductive Physiology in C. elegans. PLoS Genet. 12, (2), e1005788 (2016).
  32. Wang, M. C., O'Rourke, E. J., Ruvkun, G. Fat metabolism links germline stem cells and longevity in C. elegans. Science. 322, (5903), 957-960 (2008).
  33. McCormick, M., Chen, K., Ramaswamy, P., Kenyon, C. New genes that extend Caenorhabditis elegans' lifespan in response to reproductive signals. Aging Cell. 11, (2), 192-202 (2012).
  34. Kartashov, A. V., Barski, A. BioWardrobe: an integrated platform for analysis of epigenomics and transcriptomics data. Genome Biol. 16, 158 (2015).
  35. Goncalves, A., Tikhonov, A., Brazma, A., Kapushesky, M. A pipeline for RNA-seq data processing and quality assessment. Bioinformatics. 27, (6), 867-869 (2011).

Comments

0 Comments


    Post a Question / Comment / Request

    You must be signed in to post a comment. Please or create an account.

    Usage Statistics