Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Bitkilerdeki MikroRNA Transkripsiyonlarını Doğru ve Verimli Bir Şekilde Analiz Eden Bir Biyoinformatik Boru Hattı

Published: January 21, 2020 doi: 10.3791/59864
* These authors contributed equally

Summary

Bir biyoinformatik boru hattı, yani miRDeep-P2 (kısaca miRDP2), güncellenmiş bitki miRNA kriterleri ve elden algoritması ile, doğru ve verimli bitkilerde mikroRNA transkripsiyon analiz edebilir, özellikle karmaşık ve büyük genomları olan türler için.

Abstract

MikroRNA'lar (miRNA'lar) 20-24 nükleotit (nt) endojen küçük RNA'lar (sRNA'lar) gen ekspresyonunun transkripsiyon sonrası düzeyde düzenlenmesinde güçlü rol oynayan bitki ve hayvanlarda yaygın olarak mevcuttur. Son on yılda miRNA transkripsiyonlarını tanımlamak ve analiz etmek için sRNA kitaplıklarının Yeni Nesil Sıralama (NGS) yöntemlerine göre sıralanması yaygın olarak kullanılmıştır ve bu da miRNA keşfinde hızlı bir artışa yol açmıştır. Bununla birlikte, sıralı sRNA kütüphanelerinin derinliğinin artmasının yanı sıra bitki genomlarının büyüklüğü ve karmaşıklığı nedeniyle bitki miRNA ek açıklamalarında iki büyük zorluk ortaya çıkar. İlk olarak, sRNA'ların diğer birçok türü, özellikle, sRNA kütüphanelerinden kısa müdahale rna'lar (siRNA'lar) hatalı bir şekilde birçok hesaplama aracı tarafından miRNA olarak eklenmiştir. İkinci olarak, büyük ve karmaşık genomlara sahip bitki türlerinde miRNA transkripsiyonlarının analizi için son derece zaman alan bir süreç haline gelir. Bu zorluklarıaşmak için miRDeep-P'yi (miRNA transkriptom analizleri için popüler bir araç) miRDeep-P2'ye (kısaca miRDP2) yeni bir filtreleme stratejisi uygulayarak, puanlama algoritmasını elden geçirerek ve yeni güncellenen bitki miRNA'sını birleştirerek yükselttik. ek açıklama kriterleri. MiRDP2'yi Arabidopsis, pirinç, domates, mısır ve buğday dahil olmak üzere genomik karmaşıklığı artan beş temsili bitkide sıralı sRNA popülasyonlarına karşı test ettik. Sonuçlar, miRDP2'nin bu görevleri çok yüksek verimlilikle işledi. Buna ek olarak, miRDP2 duyarlılık ve doğruluk ile ilgili diğer tahmin araçları geride. Birlikte ele alındığında, sonuçlarımız miRDP2 bitki miRNA transkriptomları analiz etmek için hızlı ve doğru bir araç olarak göstermek, bu nedenle toplumun daha iyi bitkilerde miRNA'lar açıklama yardımcı yararlı bir araçtır.

Introduction

Biyolojide son yirmi yılda yapılan en heyecan verici keşiflerden biri, sRNA türlerinin genom1'inçeşitli işlevlerini düzenlemedeki çoğalan rolüdür. Özellikle miRNA'lar ökaryotlarda 20 ila 24-nt sRNA'ların önemli bir sınıfını oluşturur ve esas olarak transkripsiyon sonrası düzeyde yaşam döngüsü gelişim aşamalarında belirgin gen düzenleyicileri olarak işlev görürler, ayrıca uyarıcı ve stres yanıtlarında2,3. Bitkilerde miRNA'lar pri-miRNA adı verilen birincil transkriptlerden kaynaklanmaktadır, bunlar genellikle RNA polimeraz II tarafından bireysel transkripsiyon üniteleri4,5olarak yazılır. Evrimsel olarak korunmuş hücresel makineler (hayvanlarda Drosha RNase III, bitkilerde DICER benzeri) tarafından işlenen pri-miRNA'lar, moleküler kök-döngü yapılarını oluşturan dizileri içeren miRNA öncüleri, pre-miRNA'lariçineboşaltılır. Pre-miRNA'lar daha sonra çift iplikli ara lara, yani miRNA dublekslere, fonksiyonel iplikçik, olgun miRNA ve daha az sık fonksiyonel ortak olan miRNA*2,8'denoluşan olarak işlenir. RNA kaynaklı susturma kompleksine (RISC) yüklendikten sonra, olgun miRNA'lar dizi tamamlayıcılığına dayalı olarak mRNA hedeflerini tanıyabilir ve bu da olumsuz bir düzenleyici fonksiyon2,8ile sonuçlanır. miRNA'lar ya hedef transkriptlerini bozabilir ya da hedef çevirisini engelleyebilir ler ama eski şekilde bitkilerde hakimdir8,9.

Nematod Caenorhabditis elegans10ilk miRNA tesadüfi keşfinden bu yana,11, çok araştırma miRNA tanımlama ve fonksiyonel analizi, özellikle NGS yönteminin kullanılabilirliğinden sonra taahhüt edilmiştir. NGS yönteminin geniş uygulaması, miRNA'ların benzersiz özelliğini yakalamak için tasarlanmış hesaplama araçlarının kullanımını büyük ölçüde teşvik etmiştir, örneğin öncüllerin kök-döngü yapısı ve olgun miRNA ve miRNA*'da okunan sıraların tercihli birikimi gibi. Sonuç olarak, araştırmacılar çeşitli türlerde miRNA'ları belirlemede kayda değer bir başarı elde etmişler. Daha önce açıklanan olasılık modeli12dayanarak , biz miRDeep-P13geliştirdi , HANGI NGS verilerinden bitki miRNA'ları keşfetmek için ilk hesaplama aracı oldu. miRDeep-P özellikle daha değişken öncüuzunluğu ve büyük paralogous aileler13,14,15içeren bitki miRNA'ları çözme zorlukları fethetmek amaçlandı . Yayımlanmasından sonra, bu program binlerce kez indirildi ve 40'tan fazla bitki türleri16miRNA transkriptomes açıklama için kullanılır. miRDeep-P gibi NGS tabanlı araçlar tarafından tahrik, kamu miRNA depo miRBase17kayıtlı miRNA sayısında dramatik bir artış olmuştur , 38.000 miRNA öğeleri şu anda barındırılan nerede (sürüm 22.1) sadece ~ 500 miRNA öğeleri (sürüm 2.0) ile karşılaştırıldığında 200818.

Ancak, bitki miRNA ek açıklama iki yeni sorunlar ortaya çıkmıştır. İlk olarak, yanlış pozitif lerin yüksek oranları aşağıdaki nedenlerle bitki miRNA ek açıklamaları16,19 kalitesini büyük ölçüde etkilemıştır: 1) NGS sRNA kütüphanelerinden endojen kısa müdahale RNA'ların (siRNA'lar) bir tufanı, katı bir miRNA açıklama kriterinin olmaması nedeniyle hatalı bir şekilde miRNA olarak anons edildi; 2) priori miRNA bilgisi olmayan türler için NGS verilerine dayalı olarak öngörülen yanlış pozitifleri ortadan kaldırmak zordur. Örnek olarak miRBase'i kullanan Taylor ve ark.20, 21numaralı kamu deposundaki bitki miRNA girişlerinin üçte birinin ikna edici destekleyici kanıtlardan yoksun olduğunu ve hatta bitki miRNA ailelerinin dörtte üçünün bile şüpheli olduğunu buldular. İkinci olarak, büyük ve karmaşık genomları16ile bitki miRNA'ları tahmin etmek için son derece zaman alıcı bir süreç haline gelir. Bu zorluklarıaşmak için miRDeep-P'yi yeni bir filtreleme stratejisi ekleyerek, puanlama algoritmasını elden geçirerek ve tesis miRNA ek açıklamaiçin yeni kriterleri entegre ederek güncelledik ve yeni miRDP2 sürümünü yayınladık. Buna ek olarak, miRDP2'yi NGS sRNA veri setlerini kullanarak test ettik ve giderek artan genom boyutları na sahipolduk: Arabidopsis, pirinç, domates, mısır ve buğday. Diğer beş yaygın olarak kullanılan araçlar ve eski sürümü ile karşılaştırıldığında, miRDP2 bu sRNA verileri ayrıştırılmış ve geliştirilmiş doğruluk ve hassasiyet ile daha hızlı miRNA transkripsiyonu analiz.

miRDP2 paketinin içeriği
MiRDP2 paketi, hazırlanan bash komut dosyası tarafından sırayla çalıştırılması gereken altı belgelenmiş Perl komut dosyasından oluşur. Altı komut dosyasından üçü(convert_bowtie_to_blast.pl, filter_alignments.pl, ve excise_candidate.pl) miRDeep-P'den miras kalır. Diğer komut dosyaları orijinal sürümden değiştirilir. Altı komut dosyasının işlevleri aşağıdaki şekilde açıklanmıştır:

preprocess_reads.pl filtreler giriş çok uzun veya çok kısa (<19 nt veya >25 nt) okumaları da dahil olmak üzere okur ve Rfam ncRNA dizileri ile ilişkili okur, yanı sıra RPM ile okur (Milyon Başına Okur) az 5. Komut dosyası daha sonra bilinen miRNA olgun dizileri ile ilişkili okur alır. Giriş dosyaları FASTA/FASTQ biçiminde orijinal okumalar ve miRNA ve ncRNA dizilerine eşleme okumanın bowtie2 çıktısI.

RPM hesaplama formülü aşağıdaki gibidir:

Equation 1

convert_bowtie_to_blast.pl bowtie biçimini BLAST-ayrıştı biçimine dönüştürür. BLAST-parsed biçimi standart NCBI BLASToutput biçiminden türetilen özel bir tabular ayrılmış biçimidir.

filter_alignments.pl derin sıralama okumalarının hizalamalarını bir genoma filtreler. Kısmi hizalamaları ve çok hizalı okumaları (kullanıcı tarafından belirtilen frekans kesme) filtreler. Temel giriş BLAST-parsed biçiminde bir dosyadır.

excise_candidate.pl, hizalanmış okumaları yönergeler olarak kullanarak bir başvuru dizisinden potansiyel öncül dizilerini keser. Temel giriş BLAST-parsed biçiminde bir dosya ve FASTA dosyasıdır. Çıktı FASTA formatında tüm potansiyel öncü dizileridir.

mod-miRDP.pl iki giriş dosyası, imza dosyası ve çekirdek miRDeep-P algoritmasından bitki özel parametreleri ile puanlama sistemi değiştirerek değiştirilir yapı dosyası gerekir. Giriş dosyaları nokta-köşeli öncül yapı dosyasıdır ve dağıtım imza dosyasını okur.

mod-rm_redundant_meet_plant.pl üç giriş dosyaları gerekir: chromosome_length, öncüleri ve original_prediction mod-miRDP.pl tarafından oluşturulan. Yeni güncellenen tesis miRNA ölçütlerine göre filtrelenmiş, gereksiz tahmin edilen ve öngörülen dosya olmak üzere iki çıktı dosyası oluşturur. Çıktı dosyasının biçimiyle ilgili ayrıntılar bölüm 1.4'te açıklanmıştır.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Kurulum ve test

  1. İndir gerekli bağımlılıkları: Bowtie222 ve RNAfold23. Derlenmiş paketler önerilir.
    1. Download Bowtie2, bir okuma haritalama aracı, kendi ev sitesinden(http://bowtie-bio.sourceforge.net/bowtie2/index.shtml).
    2. RNAfold, Viyana paketinin bir araç rnaikincil yapısı tahmin etmek için kullanılan bir araç, http://www.tbi.univie.ac.at/~ivo/RNA/ .
    3. MiRDP2'yi yüklemeden önce, bu iki bağımlılığın doğru şekilde yüklendiğinden emin olun ve bu iki bağımlılık için doğru bir YOL ayarlamak için bash ortamı dosyasını (örn. .bashrc) özelleştirin.
      NOT: Bowtie24 gibi diğer haritalama araçları da miRDP2 için uygundur; bowtie veya Bowtie2 sürüm 1.1.3'ten sonra kullanılabilir.
  2. MiRDP2 paketini indirmek için https://sourceforge.net/projects/mirdp2/files/latest_version/ gidin ve tarball dosyalarını getirin.
  3. miRDP2'yi yüklemeden önce Perl'in PATH'de olduğundan emin olun. miRDP2'yi yüklemek için, indirilen tarball dosyasının tüm içeriğini tek bir klasöre ayıklayın (komut satırları 1.4.2'deki gibi) ve ardından klasör yolunu PATH'e ayarlayın.
    NOT: MiRDP2 çalıştırmak için en az 8 GB RAM ve 100 GB depolama alanına sahip bir bilgisayar veya bilgisayar düğümü önerilir.
  4. MiRDP2 boru hattını test edin.
    1. miRDP2'nin doğru yüklenip yüklenmediğini test etmek için test verilerini ve https://sourceforge.net/projects/mirdp2/files/TestData/bulunan beklenen çıktıyı kullanın. Test verileri bir biçimlendirilmiş GSM sıralama dosyası ve bir Arabidopsis thaliana genom dosyası içerir.
    2. İndirilen tüm dosyaları geçerli çalışma dizinine taşıyın:
      mv miRDP2-v*.tar.gz TestData.tar.gz ncRNA_rfam.tar.gz
      cd
    3. Sıkıştırılmış tarball dosyalarını ayıklayın:
      katran –xvzf miRDP2-v*.tar.gz
      katran –xvzf TestData.tar.gz
      katran –xvzf ncRNA_rfam.tar.gz
    4. Arabidopsis genom referans indeksi oluşturun:
      bowtie2-build -f ./TestData/TAIR10_genome.fa ./TestData/TAIR10_genome
    5. NCRNA başvuru dizini oluşturun:
      bowtie2-build -f ./ncRNA_rfam.fa ./1.1.3/script/index/rfam_index
    6. MiRDP2 ardışık hattını çalıştırın:
      bash ./1.1.3/miRDP2-v1.1.3_pipeline.bash –g ./TestData/TAIR10_genome.fa -i ./ TestData/TAIR 10_genome –f ./TestData/GSM2094927.fa –o .
      NOT: Kullanılan Linux komutları kalın ve italik yazı tiplerinde, italik komut satırı seçenekleri yle birliktekullanılır. *miRDP2 sürümünü gösterir (geçerli sürüm 1.1.3'tür). Bowtie2-build komutu yaklaşık 10 dakika sürer ve miRDP2 boru hattı birkaç dakika içinde bitirmelidir
  5. Test çıktılarını kontrol edin.
    1. 'GSM2094927-15-0-10' adlı bir klasörün otomatik olarak içinde , tüm ara dosyaları ve sonuçları içeren oluşturulduğunu unutmayın.
    2. Sekme-delimited çıkış dosyası GSM2094927-15-0-10_filter_P_prediction, öngörülen miRNA'ların son çıktısı, kromozom id, iplikyönü, temsilci id okur, öncül id, olgun miRNA konumu, öncül gösteren sütunlar içerir konumu, olgun sırası ve öncül sırası. Daha fazla analiz kolaylaştırmak için bu dosyadan türetilen ek yatak dosyasına dikkat edin.
    3. Tamamlanan adımlar hakkında bilgi sağlayan "progress_log" dosyasını ve program çıktısı ve uyarıları içeren "script_log" ve "script_err" dosyalarını denetleyin.
      NOT: Şu anda, bir küme sunucusunda CentOS sürümü 6.5 ve PC Windows sisteminde Cygwin 2.6.0 dahil olmak üzere iki Linux platformunda miRDP2 test ettik ve miRDP2 Perl destekleyen benzer sistemler üzerinde çalışması gerekir.

2. Roman miRNA'ları tanımlama

  1. Ardışık işlemi çalıştırmadan önce, giriş okumalarının uygun biçimde önceden işlendiğinden emin olun.
    NOT: MiRDP2'nin yeni sürümü 1.1.3 orijinal FASTQ formatında dosyaları giriş olarak kabul edebilir, ancak okuma biçimlendirme işlemi önceki sürümlerde olduğu gibi gerçekleştirilir.
    1. İlk olarak, derin sıralama okumalarının 5' ve 3' ucundaki bağdaştırıcıları çıkarın (varsa).
    2. İkinci olarak, derin sıralama fasta biçimine okur ayrıştın.
    3. Üçüncü olarak, aynı sırayla okur gibi artıklık kaldırmak tek ve benzersiz FASTA girişi ile temsil edilir.
    4. Son olarak, tüm FASTA tanımlayıcılarının benzersiz olduğundan emin olun. Her dizi tanımlayıcısı, derin sıralama veri kümelerinde alınan tam sıranın kopya numarasını gösteren bir '_x' ve bir tamsayı ile bitmelidir. Benzersiz FASTA tanımlayıcısını sağlamanın bir yolu, çalışan bir numarayı kimliknumarasına eklemektir. Başvuru için, test verilerinde(https://sourceforge.net/projects/mirdp2/files/TestData/)GSM2094927.fa dosyasına bakın.
    5. Doğru biçimlendirilmiş okuma örnekleri için aşağıdakileri görün:

      >read0_x29909
      TTTGGATTGAAGGGAGCTCTA
      >read1_x36974
      TTCCACAGCTTTTTTGAACTG
      >read2_x32635
      TTCCACAGCTTTTTTGAACTT
  2. Başvuru endeksleri oluşturun.
    1. Genom referansı için, zaman kazanmak için, ilgi türlerinin genom dizileri indekslenmişse, iGenomes web sitesinden Bowtie2 indeks dosyalarını indirin(https://support.illumina.com/sequencing/sequencing_software/igenome.html). Aksi takdirde, kullanıcılar başvuru dizilerini diziye diziler ve genom dizisinin yeniden dizilişi gerekebileceğinden proje bitene kadar dizin dosyasını bir süre saklar. Bir genom referansInin nasıl indekslendirilene ilişkin ayrıntılar bowtie2 kılavuzunda(http://bowtie-bio.sourceforge.net/bowtie2/manual.shtml)yer almaktadır.
    2. Diğer kodlamayan RNA parçalarından gürültülü dizileri filtrelemek için miRNA olmayan başka bir ncRNA dizin ihtir. Dosya rRNA, tRNA, snRNA ve snoRNA dahil olmak üzere Rfam ana ncRNA dizileri, bir koleksiyondur. Bu dizini oluşturmak için, dizin doğru yerleştirilmeli ve adlandırılması gerektiği için lütfen bölüm 1.4'e bakın, yani /script/index/rfam_index.
  3. MiRDP2 çalıştırın.
    1. Derin sıralama verilerinden yeni miRNA'ları algılamak için miRDP2'yi kullanmak için, çözümleme ardışık hattını başlatmak için paketteki bash komut dosyasını çalıştırın (Bir örnek adım 1.4'te bulunabilir):
      >path_to_miRDP2_folder>/miRDP2-v*.*_pipeline.bash –g -i -f -o
      nerede * boru hattı bash komut dosyasının sürümünü gösterir. Değiştirilebilir üç parametre vardır: 1) bir okuma farklı konumların sayısı eşlenebilir, 2) bowtie2 çalıştırmak için uyumsuzluk numarası, ve 3) RPM eşiği (Milyon Başına Okur). Bunları sırasıyla -L, -M ve –R seçeneklerini kullanarak değiştirin. Ayrıntılı bir açıklama bölüm 3.1 bulunmaktadır.
  4. MiRDP2 çıktılarını kontrol edin.
    1. Çıktı klasörünotomatik olarak , altında oluşturulacağını ve '-15-0-10' adlı; son 3 sayı, sırasıyla 1, 2 ve 3 parametreleri için değerleri (bu durumda varsayılan) gösterir. _filter_P_prediction dosyası, yeni güncellenen tesis miRNA ek açıklama kriterlerini karşılayan son öngörülen miRNA'ların bilgilerini içerir. Çıktı dosyasının biçimiyle ilgili ayrıntılar bölüm 1.4'te açıklanmıştır.

3. MiRDP2 kullanarak değişiklikler ve dikkat

  1. Değiştirilebilen parametreler
    1. Bir okumanın eşlenebileceği konum sınırını ayarlamak için '-L' seçeneğini kullanın (parametre 1). Okuma eşleme çok fazla site büyük olasılıkla yineleme dizileri ile ilişkilidir ve miRNA'lar olası değildir. Varsayılan ayar 15'tir. Belirli türler için, çok sayıda üyesi olan miRNA aileleri varsa, ilk parametre genom ortamına uyum sağlamak için el ile artırılabilir.
    2. Papyon için izin verilen uyuşmazlıkları ayarlamak için '-M' seçeneğini kullanın (parametre 2). Varsayılan ayar 0'dır.
    3. Olgun miRNA'lara (parametre 3) karşılık gelen okumaların eşiğini ayarlamak için '-R' seçeneğini kullanın. Zaman tüketimini ve yanlış pozitifleri azaltmak için RPM tarafından filtre okunur. Yalnızca belirli bir RPM eşiğini aşan okumalar arka plan gürültüsü yerine olgun miRNA dizilerini temsil edebilir ve daha fazla analiz için saklanır. Varsayılan ayar 10 RPM'dir.
    4. Bu parametreleri değiştirmenin performans ve zaman tüketimini etkileyebileceğini unutmayın. Genel olarak, parametre 1 ve 2'nin artması ve parametre 3'ün azalması daha az sıkı bir sonuç ve daha uzun çalışma süresi ve tam tersi oluşturur.
  2. Artıklık ve miRNA*
    1. MiRDP2'den çıkan çıkış miRNA'ların bilinen miRNA'lardan farklı olabileceğini unutmayın. Bunun başlıca iki nedenden biri olduğunu bulduk: olgun miRNA'ların heterojenliği veya miRNA ve miRNA*'nın göreceli bolluğu. Bunun öncüllerin optimal uzunluk seçimini ve bilinen miRNA genlerinin profilini etkilemediğini bulduk.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

MiRNA ek açıklama boru hattı, miRDP2, burada açıklanan Arabidopsis thaliana, Oryza sativa (pirinç), Solanum lycopersicum (domates), Zea mays (mısır) ve Triticum aestivum (buğday)(Şekil 1A)dahil olmak üzere, giderek artan genom uzunluğu ile 5 bitki türünden 10 kamu sRNA-seq kütüphaneleri uygulanır. Genel olarak, her tür için, farklı dokulardan 2 temsilci sRNA kütüphaneleri (benzersiz okumalar halinde çökmüş, protokol bölümündeki ayrıntılar) ve bunların indekslenmiş genom dizileri iki giriş olarak işlenir(Tablo 1). Karşılaştırma yapmak için beş miRNA hesaplamalı tahmin aracı (miRDeep-P13, miRPlant25, miR-PREFeR26, miRA27, miReNA28)seçilmiştir.

Çalışma süresi testi
MiRDP2 ve diğer beş aletin çalışma zamanını ve performansını karşılaştırmak için, Cent OS sürüm 6.5 sistemine sahip bir küme sunucusuna beş araç (miRDP2, miRDeep-P, miR-PREFeR, miRA ve miReNA) yükledik. Bu programlar aynı giriş dosyaları, donanım ve kaynak (Ek Dosya 1ayrıntıları) ile çalıştırıldı. Özellikle, miRPlant Java yazılmış bir GUI kontrol edilir ve sunucuda çalıştırmak mümkün değildi. Bunun yerine, biz de bu PC 'de miRDP2 ve miRDeep-P test ederken Biz Windows 10 ile bir PC'de miRPlant test (Ek Dosya 1ayrıntıları).

Arabidopsis thalianagibi küçük genom türleri için , Oryza sativa, ve Solanum lycopersium, tüm programlar düzgün koştu. Ancak, Zea mays ve Triticum aestivum gibi büyük genom türleri için (miRA için Solanum lycopersium dahil), bazı programlar tüm bilgisayar kaynaklarını tükenmiş ve yarı yarıya bozuldu. Örneğin, miReNA, miRA ve miR-PREFeR büyük sam dosyaları veya ara dosyaları ile uğraşırken muhtemelen bellek eksikliği nedeniyle, sonuç üretmek için başarısız oldu. Özellikle, miRPlant geçici dosyaları çok fazla yer tüketilen ve sonuç büyük genom türleri ile uğraşırken PC'de çalıştırmak mümkün değildi. miRDP2 bu tahmin süreçlerini çok kısa sürede, dakikadan saate tamamlar (Şekil 1B). Böylece, eski sürümü ve diğer araçlarla karşılaştırıldığında, miRDP2'nin çalışma süresi belirgin bir şekilde kısaltılmış oldu.

Hassasiyet ve doğruluk testi
Arabidopsis'teki miRNA'lar yoğun olarak incelenmiştir, miRBase21'de (sürüm 22.1)'de Arabidopsis'te bilinen miRNA'lardan yararlanarak miRDP2'yi değerlendirdik ve diğer araçlarla karşılaştırma yaptık. Daha önce bildirilen19,26, duyarlılık ve doğruluğu hesaplamak için aşağıdaki formüller kullanılır:

Equation 2

Equation 3

Bilinen miRNA'lar miRBase'de açıklamalı olanlardır. Olgun dizilerin 5'ten fazla RPM'si varsa ve ≥%75'i olgun ve yıldız miRNA dizileri eşlenen öncül de okursa, bir miRNA ifade olarak ifade edilir. Testi yapmak için Arabidopsis'ten(Tablo 1)iki sıralı sRNA kütüphanesi kullanıldı. miRDP2 (Şekil 1C,D)diğer araçlara göre hem duyarlılık hem de doğruluk açısından daha iyi performans gösterdi.

Birlikte ele alındığında, bu sonuçlar miRDP2 bitkilerde miRNA transkripsiyon analiz etmek için hızlı ve doğru bir araç olduğunu göstermektedir.

Figure 1
Şekil 1: miRDP2 performansı. (A) Genom boyutu (Gb) Arabidopsis thaliana (Ath), Oryza sativa (Osa), Solanum lycopersicum (Sly), Zea mays (Zma), Triticum aestivum (Tae). (B-D) MiRDP2 ve diğer beş aletin çalışma süresi, hassasiyeti ve doğruluğunun karşılaştırılması. Her araca karşılık gelen iki nokta, her araç tarafından iki test yapıldığını gösterir. Bu rakam Kuang ve ark.16'danuyarlanmıştır. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Türler (abb.) Genom versiyonu sRNA kütüphaneleri
Kütüphane Kimliği Dosya boyutu Toplam okuma Benzersiz okumalar Doku
Arabidopsis thaliana (Ath) sürüm 10 GSM2094927 24,9 Mb 40.5 M 9.7 M Yetişkin yaprağı
GSM2412287 29,5 Mb 45.1 M 11.1 M Yaprak
Oryza sativa (Osa) sürüm 7 GSM2883136 44.2 Mb 54.9 M 16.3 M Fide
GSM3030848 34.7 Mb 49.1 M 13.0M Bayrak Yaprağı
Solanum lycopersicum (Sly) sürüm 3 GSM1213985 205,4 Mb 161.5 M 58.0M Yaprak
GSM1976413 118,5 Mb 139.3 M 46.2M Kök
Zea mays (Zma) sürüm 4 GSM1277437 158,4 Mb 266.1 M 60.5 M Fide
GSM1428531 144.1 Mb 172.5 M 56.3M Tohum
Triticum aestivum (Tae) iwgsc 1 GSM1294660 76.1 Mb 59.2M 29.6 M Ateş
GSM1294661 113,6 Mb 84.0M 44.0M Yaprak

Tablo 1: MiRDP2 ve diğer araçları test etmek için kullanılan genomlar ve sRNA kitaplıkları. Bu tablo Kuang ve ark.16uyarlanmıştır.

Ek Dosya 1: MiRDP2 ve diğer beş aracın çalışma zamanı, hassasiyeti ve doğruluğunun karşılaştırılması. Bu dosyayı indirmek için lütfen buraya tıklayınız.

Ek Dosya 2: Döngüler halinde bifurcate yapılı otantik miRNA örnekleri. Bu dosyayı indirmek için lütfen buraya tıklayınız.

Ek Dosya 3: Bitki miRNA ek açıklama için güncelleştirilmiş kriterler ve 23-nt ve 24-nt miRNA'lar için kriterler. Bu dosyayı indirmek için lütfen buraya tıklayınız.

Ek Dosya 4: miRDP2 iş akışının diyagramı. Bu dosyayı indirmek için lütfen buraya tıklayınız.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

NGS gelişiyle, miRNA loci çok sayıda çeşitli türler de sRNA sıralama veri giderek artan miktarda tespit edilmiştir29,30. Merkezi topluluk veritabanı miRBase21,yatırılan miRNA öğeleri son on yılda neredeyse 100 kat artmıştır. Ancak, hayvanlarda miRNA'lara kıyasla, bitki miRNA'ları tanımlama/ek açıklamayı daha karmaşık hale getiren birçok benzersiz özelliğe sahiptir13,14.

İlk olarak, bitki miRNA'larının öncüleri uzunluk ve yapı olarak daha değişkendir (Ek Dosya 2)16. 70-90 nt etrafında hayvan miRNA öncüleri nispeten düzgün uzunluğu gibi değil, bitki öncüleri uzunluğu birkaç kıvrımları değişir ve birkaç yüz nts13ulaşabilir,31. Bu fark, öncül uzunluğunun kesilmesi genellikle 300 nt19'u geçmemek gibi rasgele ayarlanmış olsa da (bu parametre miRDP2'ye katıştırılmış ve miRDP2'nin deneyimli kullanıcıları bunu kendileri ayarlayabilir) miRNA öncülerinin ikincil yapısını tahmin ederken çok fazla belirsizlik ortaya çıkarmaktadır. Buna ek olarak, korunmuş bitki miRNA aileleri daha fazla üye ye sahip olma eğilimindedir, ve bu üyelerin uzunluk varyasyonu da genellikle önemli13. Bu nedenle miRDP2 parametre -L, üye boyutu potansiyel en büyük miRNA aileleri gösterir nedeni budur. Birlikte, bitki miRNA öncülerinin heterojenliği doğru ek açıklama için birçok zorluk yükseltir.

İkinci olarak, siRNA'lar tarafından tanıtılan gürültü yü veya yanlış pozitifleri ortadan kaldırmak zordur. MIRNA'ların yanı sırayla sRNA kütüphanelerinde DERNA'lar üretmektedir. SiRNA'lar biyogenez ve fonksiyonları32,33ile miRNA'lardan ayrılabilse de, veri ve madencilik araçlarını sıralamaya dayalı olarak ayırt etmek son derece zordur. MiRBase gibi kamu veritabanları, birçok araştırmacı tarafından savunulan, hatalı miRNA20,31olarak açıklamalı yanlış pozitif siRNA, çok sayıda keskin bir şekilde bozulmuştur. Böylece, yeni güncellenen kriterler25 (Ek Dosya 3)gibi tesis miRNA açıklama için yeni ve sıkı kriterler kümesi ile rafine araçlar son derece miRNA açıklama boru hattı / işlem istenir.

Son olarak, sRNA kütüphanelerini ayrıştırma için hesaplama süresi, aynı yöntem küçük boyutlu bir genom türünden büyük boyutlu bir türe nakledildiğinde katlanarak artmıştır. miRDeep-P13 ve miR-PREFeR26gibi hesaplama araçları, miRNA öncüleri boyunca sRNA okur imza dağılımını yakalayarak ve ölçerek, iki popüler yöntem haline gelmiş ve miRNA'lara açıklama ekolarak yaygın olarak kullanılmaktadır. Haritalama stratejisi, öncül adayları çıkarma süreci ve sonraki ikincil yapı tahmini önemli bilgi işlem süresi16. Bu araçlar Arabidopsis gibi küçük boyutlu genomlardan mısır gibi büyük olanlara verileri ayrıştırmak için kullanıldıklarında, veri işleme süresi saatler ile günler arasında hatta haftalarca artırılır (Şekil 1B),sürecin sık sık çökmesine neden olarak. Bu nedenle, bu nedenle, bu nedenle, önteki sınırlamalar üzerinde bir yenilik acilen ihtiyaç duyarak ihtiyaç duyamaz.

MiRDeep-P13'tengüncellenen yeni miRDP216 programımız, yukarıda belirtilen zorluklarıaşmak için tasarlanmıştır (Ek Dosya 4). Bu programda, yeni bir filtreleme stratejisi, puanlama algoritması optimize ve yeni güncellenen bitki miRNA ek açıklama kriterleri dahil. Bu yeni özelliklerin bir sonucu olarak, genom boyutu artan beş bitki türünden on sRNA kütüphaneleri kullanılarak test edildiğinde çalışma süresi belirgin bir şekilde kıslanmıştır. Ayrıca, diğer araçlarla karşılaştırıldığında, miRDP2 hem duyarlılık hem de doğrulukta üstün performans göstermiştir(Şekil 1). Birlikte ele alındığında, bu sonuçlar miRDP2 bitkilerde miRNA transkripsiyon analiz etmek için hızlı ve doğru bir araç olduğunu göstermektedir.

MiRNA özellikleri yle ilgili mevcut anlayışın herhangi bir hesaplama aracının performansını sınırlandırabileceği konusunda dikkatli olunmalıdır. Yeni güncellenen miRNA ek açıklama kriterleri bile sınırlı sayıda iyi çalışılmış örne dayanmaktadır. Çıkarılan bilgiler bu nedenle sadece ampiriktir. Aslında, miRNA'ların benzersiz özelliklerinin farklı bitki türlerinde veya soylarda var olduğu gösterilmiştir3. Buna ek olarak, miRNA/miRNA* dubleks yukarı ve aşağı bölgelerin yapıları gibi özellikler de mevcut ek açıklama araçlarında dikkate alınmayan miRNA biyogenez34,35'tekritik rol oynar. Daha fazla bitki türünde iyi çalışılmış örneklerin birikimi ile, daha ince ayrımlar yakalamak ve mevcut yöntemlere göre doğruluk daha yüksek bir derece ile miRNA'lar sınıflandırmak gelecekte daha gelişmiş ek açıklama araçları geliştirilmiş olması muhtemeldir. Umut verici yeni bir miRNA ek açıklama yönü, eğitim veri kümelerinin kalitesi ve ek açıklama kriterleri sürekli olarak geliştikçe makine öğrenimi yaklaşımları36'yı birleştirmektir.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Yazarların açıklayacak bir şeyi yok.

Acknowledgments

Bu çalışma Pekin Tarım ve Orman Bilimleri Akademisi (KJCX201917, KJCX20180425 ve KJCX20180204) tarafından XY ve Çin Ulusal Doğa Bilimleri Vakfı (31621001) ll'ye destek verilmiştir.

Materials

Name Company Catalog Number Comments
Computer/computing node N/A N/A Perl is required; at least 8 GB RAM and 100 GB storage are recommended

DOWNLOAD MATERIALS LIST

References

  1. Ghildiyal, M., Zamore, P. D. Small silencing RNAs: an expanding universe. Nature Reviews Genetics. 10 (2), 94-108 (2009).
  2. Bartel, D. P. MicroRNAs: target recognition and regulatory functions. Cell. 136 (2), 215-233 (2009).
  3. Moran, Y., Agron, M., Praher, D., Technau, U. The evolutionary origin of plant and animal microRNAs. Nature Ecology Evolution. 1 (3), 27 (2017).
  4. Xie, Z., et al. Expression of Arabidopsis MIRNA genes. Plant Physiology. 138 (4), 2145-2154 (2005).
  5. Zhao, X., Zhang, H., Li, L. Identification and analysis of the proximal promoters of microRNA genes in Arabidopsis. Genomics. 101 (3), 187-194 (2013).
  6. Bologna, N. G., Mateos, J. L., Bresso, E. G., Palatnik, J. F. A loop-to-base processing mechanism underlies the biogenesis of plant microRNAs miR319 and miR159. EMBO JOURNAL. 28 (23), 3646-3656 (2009).
  7. Rogers, K., Chen, X. Biogenesis, turnover, and mode of action of plant microRNAs. Plant Cell. 25 (7), 2383-2399 (2013).
  8. Voinnet, O. Origin, biogenesis, and activity of plant microRNAs. Cell. 136 (4), 669-687 (2009).
  9. Iwakawa, H. O., Tomari, Y. The Functions of MicroRNAs: mRNA Decay and Translational Repression. Trends in Cell Biology. 25 (11), 651-665 (2015).
  10. Lee, R. C., Feinbaum, R. L., Ambros, V. The C. elegans heterochronic gene lin-4 encodes small RNAs with antisense complementarity to lin-14. Cell. 75 (5), 843-854 (1993).
  11. Wightman, B., Ha, I., Ruvkun, G. Posttranscriptional regulation of the heterochronic gene lin-14 by lin-4 mediates temporal pattern formation in C. elegans. Cell. 75 (5), 855-862 (1993).
  12. Friedlander, M. R., et al. Discovering microRNAs from deep sequencing data using miRDeep. Nature Biotechnology. 26 (4), 407-415 (2008).
  13. Yang, X., Li, L. miRDeep-P: a computational tool for analyzing the microRNA transcriptome in plants. Bioinformatics. 27 (18), 2614-2615 (2011).
  14. Meyers, B. C., et al. Criteria for annotation of plant MicroRNAs. Plant Cell. 20 (12), 3186-3190 (2008).
  15. Yang, X., Zhang, H., Li, L. Global analysis of gene-level microRNA expression in Arabidopsis using deep sequencing data. Genomics. 98 (1), 40-46 (2011).
  16. Kuang, Z., Wang, Y., Li, L., Yang, X. miRDeep-P2: accurate and fast analysis of the microRNA transcriptome in plants. Bioinformatics. , (2018).
  17. Kozomara, A., Birgaoanu, M., Griffiths-Jones, S. miRBase: from microRNA sequences to function. Nucleic Acids Research. 47 (1), 155-162 (2019).
  18. Griffiths-Jones, S., Saini, H. K., van Dongen, S., Enright, A. J. miRBase: tools for microRNA genomics. Nucleic Acids Research. 36, Database issue 154-158 (2008).
  19. Axtell, M. J., Meyers, B. C. Revisiting Criteria for Plant MicroRNA Annotation in the Era of Big Data. Plant Cell. 30 (2), 272-284 (2018).
  20. Taylor, R. S., Tarver, J. E., Hiscock, S. J., Donoghue, P. C. Evolutionary history of plant microRNAs. Trends in Plant Science. 19 (3), 175-182 (2014).
  21. Kozomara, A., Griffiths-Jones, S. miRBase: annotating high confidence microRNAs using deep sequencing data. Nucleic Acids Research. 42, Database issue 68-73 (2014).
  22. Langmead, B., Salzberg, S. L. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9 (4), 357-359 (2012).
  23. Lorenz, R., et al. ViennaRNA Package 2.0. Algorithms for Molecular Biology. 6, 26 (2011).
  24. Langmead, B., Trapnell, C., Pop, M., Salzberg, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology. 10 (3), 25 (2009).
  25. An, J., Lai, J., Sajjanhar, A., Lehman, M. L., Nelson, C. C. miRPlant: an integrated tool for identification of plant miRNA from RNA sequencing data. BMC Bioinformatics. 15, 275 (2014).
  26. Lei, J., Sun, Y. miR-PREFeR: an accurate, fast and easy-to-use plant miRNA prediction tool using small RNA-Seq data. Bioinformatics. 30 (19), 2837-2839 (2014).
  27. Evers, M., Huttner, M., Dueck, A., Meister, G., Engelmann, J. C. miRA: adaptable novel miRNA identification in plants using small RNA sequencing data. BMC Bioinformatics. 16, 370 (2015).
  28. Mathelier, A., Carbone, A. MIReNA: finding microRNAs with high accuracy and no learning at genome scale and from deep sequencing data. Bioinformatics. 26 (18), 2226-2234 (2010).
  29. Zhu, Q. H., et al. A diverse set of microRNAs and microRNA-like small RNAs in developing rice grains. Genome Research. 18 (9), 1456-1465 (2008).
  30. Fahlgren, N., et al. MicroRNA gene evolution in Arabidopsis lyrata and Arabidopsis thaliana. Plant Cell. 22 (4), 1074-1089 (2010).
  31. Fromm, B., et al. A Uniform System for the Annotation of Vertebrate microRNA Genes and the Evolution of the Human microRNAome. Annual Review of Genetics. 49, 213-242 (2015).
  32. Blevins, T., et al. Identification of Pol IV and RDR2-dependent precursors of 24 nt siRNAs guiding de novo DNA methylation in Arabidopsis. Elife. 4, 09591 (2015).
  33. Zhai, J., et al. A One Precursor One siRNA Model for Pol IV-Dependent siRNA Biogenesis. Cell. 163 (2), 445-455 (2015).
  34. Werner, S., Wollmann, H., Schneeberger, K., Weigel, D. Structure determinants for accurate processing of miR172a in Arabidopsis thaliana. Current Biology. 20 (1), 42-48 (2010).
  35. Mateos, J. L., Bologna, N. G., Chorostecki, U., Palatnik, J. F. Identification of microRNA processing determinants by random mutagenesis of Arabidopsis MIR172a precursor. Current Biology. 20 (1), 49-54 (2010).
  36. Vitsios, D. M., et al. Mirnovo: genome-free prediction of microRNAs from small RNA sequencing data and single-cells using decision forests. Nucleic Acids Research. 45 (21), 177 (2017).

Tags

Genetik Sayı 155 mikroRNA (miRNA) bitki sRNA-seq miRDeep-P2 (miRDP2) Yeni nesil sıralama bitki miRNA kriterleri miRDeep-P (miRDP)
Bitkilerdeki MikroRNA Transkripsiyonlarını Doğru ve Verimli Bir Şekilde Analiz Eden Bir Biyoinformatik Boru Hattı
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Wang, Y., Kuang, Z., Li, L., Yang,More

Wang, Y., Kuang, Z., Li, L., Yang, X. A Bioinformatics Pipeline to Accurately and Efficiently Analyze the MicroRNA Transcriptomes in Plants. J. Vis. Exp. (155), e59864, doi:10.3791/59864 (2020).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter