Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Биоинформатика трубопровод точно и эффективно анализировать microRNA транскриптомы в растениях

Published: January 21, 2020 doi: 10.3791/59864
* These authors contributed equally

Summary

Конвейер биоинформатики, а именно miRDeep-P2 (miRDP2 для краткости), с обновленными критериями miRNA растений и пересмотренным алгоритмом, может точно и эффективно анализировать транскриптомы микроРНК в растениях, особенно для видов со сложными и крупными геномами.

Abstract

МикроРНК (миРНК) составляют от 20 до 24 нуклеотидов (нт) эндогенных малых РНК (РНК), широко существующих у растений и животных, которые играют мощную роль в регулировании экспрессии генов на посттранскрипционном уровне. Секвенирование библиотек sRNA методами секвенирования следующего поколения (NGS) широко использовалось для выявления и анализа транскриптомов miRNA в последнее десятилетие, что привело к быстрому увеличению числа обнаружений miRNA. Тем не менее, две основные проблемы возникают в аннотации miRNA растений из-за увеличения глубины секвенированных библиотек sRNA, а также размер и сложность геномов растений. Во-первых, многие другие типы СРНК, в частности, короткие интерферинговые РНК (siRNAs) из библиотек сРНК, ошибочно аннотируются как миРНК многими вычислительными инструментами. Во-вторых, он становится чрезвычайно трудоемким процессом для анализа транскриптомов miRNA у видов растений с большими и сложными геномами. Чтобы преодолеть эти проблемы, мы недавно модернизировали miRDeep-P (популярный инструмент для анализа транскриптома miRNA) до miRDeep-P2 (miRDP2 для краткости) с использованием новой стратегии фильтрации, пересмотра алгоритма скоринга и включения недавно обновленного завода miRNA критерии аннотации. Мы протестировали miRDP2 против секвенированных популяций сРНК на пяти репрезентативных растениях с возрастающей геномной сложностью, включая арабидопсис, рис, помидоры, кукурузу и пшеницу. Результаты показывают, что miRDP2 обрабатывают эти задачи с очень высокой эффективностью. Кроме того, miRDP2 превзошел другие инструменты прогнозирования в отношении чувствительности и точности. Взятые вместе, наши результаты демонстрируют miRDP2 как быстрый и точный инструмент для анализа транскриптомы miRNA растений, поэтому полезный инструмент, помогающий сообществу лучше аннотировать миРНК в растениях.

Introduction

Одним из самых захватывающих открытий за последние два десятилетия в биологии является распространяющаяся роль видов sRNA в регулировании различных функций генома1. В частности, miRNAs представляют собой важный класс от 20 до 24-nt sRNAs в эукариоты, и в основном функции на посттранскрипционном уровне в качестве видных регуляторов генов на протяжении всей стадии развития жизненного цикла, а также в стимулировочных и стрессовых реакций2,3. В растениях, miRNAs возникают из первичных стенограмм ы называется pri-miRNAs, которые, как правило, транскрибируется РНК полимеразы II как отдельные блоки транскрипции4,5. Обработанные эволюционно сохраненным клеточным оборудованием (Drosha RNase III у животных, DICER-как в растениях), при-миРНК иссечены в непосредственные прекурсоры miRNA, предварительно миРНК, которые содержат последовательности, образующие внутримолекулярные структуры стволовой петли6,7. Pre-miRNAs затем обрабатываются в двухцепочечные промежуточные, а именно miRNA дуплексы, состоящие из функциональной нити, зрелые miRNA, и реже функциональный партнер, miRNA2,8. После загрузки в РНК-индуцированной глушитель комплекса (RISC), зрелые miRNAs может распознавать их мРНК цели на основе последовательности взаимодополняемости, в результате чего негативная регулятивная функция2,8. miRNAs может либо дестабилизировать свои целевые стенограммы или предотвратить целевой перевод, но в первом случае доминируют в растениях8,9.

С случайного открытия первого miRNA в nematode Caenorhabditis elegans10,11, много исследований было совершено для идентификации miRNA и его функциональный анализ, особенно после наличия метода NGS. Широкое применение метода NGS значительно способствовало использованию вычислительных инструментов, которые были разработаны для захвата уникальной особенностью miRNAs, таких как структура стволовых петли прекурсоров и их преференциальное накопление последовательности читает на зрелых miRNA и miRNA. В результате исследователи добились значительных успехов в выявлении miRNAs у различных видов. Основываясь на ранее описанной вероятностной модели12, мы разработали miRDeep-P13, который был первым вычислительным инструментом для обнаружения растительных миРНК из данных NGS. miRDeep-P был специально направлен на завоевание проблем декодирования завода miRNAs с более переменной длиной прекурсоров и большими парализующими семьями13,14,15. После его выпуска, эта программа была загружена тысячи раз и используется для аннотации miRNA транскриптомы в более чем 40 видов растений16. Propelled NGS-основанных инструментов, таких как miRDeep-P, наблюдается резкое увеличение числа зарегистрированных miRNAs в общественном репозитории miRNA miRBase17, где более 38000 miRNA пунктов в настоящее время размещается (выпуск 22.1) по сравнению только с 500 miRNA пунктов (выпуск 2.0) в 200818.

Тем не менее, две новые проблемы возникли из аннотации miRNA завода. Во-первых, высокие коэффициенты ложных срабатываний оказали значительное влияние на качество аннотации миннакирастений 16,19 по следующим причинам: 1) поток эндогенных короткой интерферинговых РНК (siRNAs) из библиотек NGS sRNA были ошибочно аннотированы как миРНК из-за отсутствия строгих критериев аннотации миРНК; 2) для видов без информации miRNA, ложные срабатывания предсказанные на основе данных NGS трудно устранить. Используя miRBase в качестве примера, Taylor et al.20 обнаружили, что одна треть записей растительной miRNA в общественном хранилище21 (выпуск 21) не имеет убедительных подтверждающих доказательств, и даже три четверти семейсемей сярей miRNA были сомнительными. Во-вторых, он становится чрезвычайно трудоемким процессом для прогнозирования растительных миРНК с большими и сложными геномами16. Чтобы преодолеть эти проблемы, мы обновили miRDeep-P, добавив новую стратегию фильтрации, перепланировку алгоритма скоринга и интеграцию новых критериев для аннотации miRNA завода, и выпустили новую версию miRDP2. Кроме того, мы протестировали miRDP2 с использованием наборов данных NGS sRNA с постепенным увеличением размеров генома: арабидопсис, рис, помидоры, кукуруза и пшеница. По сравнению с другими пятью широко используемыми инструментами и его старой версией, miRDP2 разогнал эти данные sRNA и проанализировал транскриптомы miRNA быстрее с улучшенной точностью и чувствительностью.

Содержимое пакета miRDP2
Пакет miRDP2 состоит из шести задокументированных скриптов Perl, которые должны быть запущены последовательно подготовленным скриптом Bash. Из шести скриптов три(convert_bowtie_to_blast.pl, filter_alignments.pl,и excise_candidate.pl)унаследованы от miRDeep-P. Другие скрипты изменены из исходной версии. Функции шести скриптов описаны следующим образом:

preprocess_reads.pl фильтры ввода читает, в том числе читает, которые являются слишком длинными или слишком короткими (Злт;19 nt или йgt;25 nt), и читает коррелирует с Rfam ncRNA последовательностей, а также читает с RPM (читает на миллион) менее 5. Затем скрипт извлекает считываемые, коррелированные с известными зрелыми последовательностями miRNA. Файлы ввода являются оригинальными считываемыми в формате FASTA/FASTи и выходом bowtie2 считываний на miRNA и ncRNA последовательностей.

Формула расчета RPM:

Equation 1

convert_bowtie_to_blast.pl изменяет формат bowtie в BLAST-разбора формата. BLAST-parsed формат представляет собой пользовательский табулярный разделенный формат, полученный от стандартного формата NCBI BLASToutput.

filter_alignments.pl фильтрует выравнивания глубокого секвенирования считывает на геном. Он фильтрует частичные выравнивания, а также многовыровные считывавшие ся (определенное пользователем частотное отсечение). Основным входом является файл в формате BLAST-parsed.

excise_candidate.pl вырезает потенциальные последовательности прекурсоров из референтной последовательности, используя выровненные чтения в качестве руководящих принципов. Основным входом является файл в формате BLAST-parsed и файл FASTA. Выход — это все потенциальные последовательности прекурсоров в формате FASTA.

mod-miRDP.pl требуется два файла ввода, файл подписи и файл структуры, который изменяется из основного алгоритма miRDeep-P путем изменения системы скоринга с конкретными параметрами завода. Файлы ввода представляют сяртово-кронштейнный файл структуры прекурсоров и считывают файл подписи распределения.

mod-rm_redundant_meet_plant.pl нуждается в трех файлах ввода: chromosome_length, прекурсорах и original_prediction, генерируемых mod-miRDP.pl. Он генерирует два выходных файла, неизлишний прогнозируемый файл и прогнозируемый файл, отфильтрованный по недавно обновленным критериям miRNA завода. Подробная информация о формате вывода файла описана в разделе 1.4.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Установка и тестирование

  1. Скачать необходимые зависимости: Bowtie222 и RNAfold23. Рекомендуется составленные пакеты.
    1. Скачать Bowtie2, читать отображение инструмент, с своего домашнего сайта(http://bowtie-bio.sourceforge.net/bowtie2/index.shtml).
    2. Скачать RNAfold, инструмент Венского пакета, используемого для прогнозирования вторички РНК, от http://www.tbi.univie.ac.at/~ivo/RNA/.
    3. Перед установкой miRDP2 убедитесь, что эти две зависимости правильно установлены, и настроить файл среды bash (например, .bashrc), чтобы установить правильный PATH для этих двух зависимостей.
      ПРИМЕЧАНИЕ: Другие инструменты отображения, такие как Bowtie24, также подходят для miRDP2; либо Bowtie или Bowtie2 могут быть использованы после версии 1.1.3.
  2. Чтобы загрузить пакет miRDP2, перейдите на https://sourceforge.net/projects/mirdp2/files/latest_version/ и получить tarball файлов.
  3. Перед установкой miRDP2 убедитесь, что Perl находится в PATH. Чтобы установить miRDP2, извлеките все содержимое загруженного файла tarball в одну папку (командные строки, как в 1.4.2), а затем установите путь папки в PATH.
    ПРИМЕЧАНИЕ: Компьютер или вычислительный узла с не менее 8 ГБ оперативной памяти и 100 ГБ памяти рекомендуется для запуска miRDP2.
  4. Проверьте конвейер MiRDP2.
    1. Чтобы проверить, был ли правильно установлен miRDP2, используйте тестовые данные и ожидаемый выход, найденный в https://sourceforge.net/projects/mirdp2/files/TestData/. Тестовые данные содержат один отформатированный файл секвенирования GSM и один файл генома Arabidopsis thaliana.
    2. Переместите все загруженные файлы в текущий рабочий каталог:
      mv miRDP2-v'.tar.gz TestData.tar.gz ncRNA_rfam.tar.g user_selected_folderz
      cd злт; user_selected_folder
    3. Извлеките сжатые файлы tarball:
      смола -xvzf miRDP2-v'.tar.gz
      смола -xvzf TestData.tar.gz
      смола -xvzf ncRNA_rfam.tar.gz
    4. Создайте справочный индекс генома Arabidopsis:
      bowtie2-build -f ./TestData/TAIR10_genome.fa ./TestData/TAIR10_genome
    5. Создайте справочный индекс ncRNA:
      bowtie2-build -f ./ncRNA_rfam.fa ./1.1.3/script/index/rfam_index
    6. Запустите конвейер miRDP2:
      bash ./1.3/miRDP2-v1.1.3_pipeline.bash -g ./TestData/TAIR10_genome.fa -i ./ TestData/TAIR 10_genome -f ./TestData/GSMM2094927.fa -o .
      ПРИМЕЧАНИЕ: Используемые команды Linux являются жирными и курсивными шрифтами с опциями командной строки курсивом. «указывает версию miRDP2 (текущая версия 1.1.3). Команда bowtie2-build должна занять примерно 10 минут, а конвейер miRDP2 должен закончиться в течение нескольких минут
  5. Проверьте результаты тестирования.
    1. Обратите внимание, что папка под названием 'GSM2094927-15-0-10' автоматически генерируется в qlt;user_selected_folder,содержащий все промежуточные файлы и результаты.
    2. Убедитесь, что табло-разграниченный выходный файл GSMM2094927-15-0-10_filter_P_prediction, окончательный выход прогнозируемых miRNAs, содержит столбцы, которые указывают на хромосому id, направление нити, представитель читает идентификатор, идентификатор прекурсора, зрелое расположение miRNA, предшественник расположение, зрелая последовательность и последовательность прекурсоров. Обратите внимание на дополнительный файл кровати, полученный из этого файла, чтобы облегчить дальнейший анализ.
    3. Проверьте файл "progress_log", в котором содержится информация о готовых шагах, а также файлы "script_log" и "script_err", содержащие выход программы и предупреждения.
      ПРИМЕЧАНИЕ: В настоящее время мы протестировали miRDP2 на двух платформах Linux, включая выпуск CentOS 6.5 на кластерном сервере и Cygwin 2.6.0 на системе ПК Windows, и miRDP2 должны работать на аналогичных системах, поддерживающих Perl.

2. Определение новых miRNAs

  1. Перед запуском конвейера убедитесь, что входные считываемые данные предварительно обработаны в надлежащем формате.
    ПРИМЕЧАНИЕ: Новая версия 1.1.3 miRDP2 может принимать оригинальные файлы формата FAST в качестве входных данных, хотя процесс форматирования читает осуществляется, как и в предыдущих версиях.
    1. Во-первых, удалите адаптеры с 5' и 3' концов глубокого секвенирования читает (если присутствует).
    2. Во-вторых, разобрать глубокое секвенирование читает в формате FASTA.
    3. В-третьих, удалите избыточность, так оговоревую с одинаковой последовательностью, представленную с одной и уникальной записью FASTA.
    4. Наконец, убедитесь, что все идентификаторы FASTA уникальны. Каждый идентификатор последовательности должен заканчиваться "_x" и целым числом, указывающим номер копии точной последовательности, которая была извлечена в наборах данных глубокого секвенирования. Одним из способов обеспечения уникального идентификатора FASTA является включение бегущего номера в идентификатор. Для справки смотрите файл GSM2094927.fa в тестовых данных(https://sourceforge.net/projects/mirdp2/files/TestData/).
    5. Смотрите следующие примеры правильно отформатированных читает:

      read0_x29909
      ТТТГГАТТГААГГТАККТТА
      read1_x36974
      TTCCACAGCTTCTTGAACTG
      read2_x32635
      TTCCACAGCTTCTTGAACTT
  2. Создание эталонных индексов.
    1. Для ссылки на геном, чтобы сэкономить время, скачать файлы индекса Bowtie2 с веб-сайта iGenomes(https://support.illumina.com/sequencing/sequencing_software/igenome.html),если геномные последовательности видов, представляющих интерес, были проиндексированы. В противном случае пользователи индексируют последовательности ссылок и сохраняют файл индекса некоторое время, пока проект не будет завершен, так как последовательность генома может потребоваться повторно проиндексировать. Подробная информация о том, как индексировать ссылку на геном включены в руководство bowtie2(http://bowtie-bio.sourceforge.net/bowtie2/manual.shtml).
    2. Другой не-miRNA ncRNA индекс также необходим для фильтрации шумных последовательностей из других не кодирующих фрагментов РНК. Файл представляет собой набор основных последовательностей ncRNA от Rfam, включая rRNA, tRNA, snRNA и snoRNA. Для создания этого индекса, пожалуйста, обратитесь к части 1.4, так как индекс должен быть размещен и назван правильно, т.е. йlt;miRDP2_version.gt;/script/index/rfam_index.
  3. Выполнить miRDP2.
    1. Чтобы использовать miRDP2 для обнаружения новых miRNA из данных глубокого секвенирования, запустите скрипт bash в пакете, чтобы запустить конвейер анализа (пример можно найти в шаге 1.4):
      «lt;path_to_miRDP2_folder»gt; /miRDP2-v. _pipeline.bash -g lt; genome_file»gt; -i lt;path_to_index/output_folder seq_file index_prefix
      где q указывает версию скрипта трубопровода bash. Есть три параметра, которые могут быть изменены: 1) количество различных мест чтения могут быть отображены, 2) несоответствие номер для запуска bowtie2, и 3) порог RPM (Читает на миллион). Изменять их, используя варианты -L, -M и -R соответственно. Подробное объяснение в разделе 3.1.
  4. Проверьте выходы miRDP2.
    1. Обратите внимание, что папка вывода будет автоматически сгенерирована в соответствии с йlt;output_folder,gt; и названа ''lt;seq_file_name'gt;-15-0-10'; последние 3 числа указывают значения (по умолчанию в данном случае) для параметров 1, 2 и 3 соответственно. Файл slt;seq_file_name,gt;_filter_P_prediction содержит информацию об окончательных прогнозируемых miRNAs удовлетворяющих недавно обновленные критерии аннотации завода miRNA. Подробная информация о формате вывода файла описана в части 1.4.

3. Модификации и осторожность с использованием miRDP2

  1. Параметры, которые могут быть изменены
    1. Используйте опцию '-L', чтобы установить лимит количества мест, в которые можно отобразить чтение (параметр 1). Читать отображение слишком много сайтов, возможно, связаны с повторяющиеся последовательности, и не могут быть miRNAs. Настройка по умолчанию составляет 15. Для конкретных видов, если есть miRNA семейства с большим количеством членов, первый параметр может быть увеличен вручную, чтобы адаптироваться к геному ландшафта.
    2. Используйте опцию '-M', чтобы установить допустимые несоответствия для bowtie (параметр 2). Настройка по умолчанию 0.
    3. Используйте опцию '-R', чтобы установить порог считывательных считывательных считываемых, потенциально соответствующих зрелым миРНК (параметр 3). Чтобы сократить потребление времени и ложные срабатывания, фильтр читает RPM. Только считывательские данные, превышающие определенный порог RPM, могут представлять зрелые последовательности miRNA, а не фоновый шум, и будут храниться для дальнейшего анализа. Настройка по умолчанию составляет 10 об/мин.
    4. Обратите внимание, что изменение этих параметров потенциально может повлиять на производительность и потребление времени. В целом, увеличение параметра 1 и 2 и уменьшение параметра 3 приведет к менее строгому результату и более длительному времени работы и наоборот.
  2. Избыточность и миРНКА
    1. Обратите внимание, что выход miRNAs от miRDP2 может отличаться от известных miRNAs. Мы обнаружили, что это в основном связано с одной из двух причин: неоднородность зрелых miRNAs или относительное изобилие miRNA и miRNA. Мы обнаружили, что это не влияет на оптимальный выбор длины прекурсоров и профилирование известных генов miRNA.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Конвейер аннотации miRNA, miRDP2, описанный здесь, применяется к 10 публичным библиотекам sRNA-seq от 5 видов растений с постепенно увеличенной длиной генома, включая Arabidopsis thaliana, Oryza sativa (рис), Solanum lycopersicum (помидор), цеа майс (maize) и Triticum aestivum (пшеница). В целом, для каждого вида, 2 репрезентативных библиотек и сРНК из разных тканей (рухнул в уникальные чтения, детали в разделе протокола) и их индексированные последовательности генома обрабатываются как два входных данных (Таблица 1). Для сравнения были отобраны пять вычислительных инструментов miRNA (miRDeep-P13,miRPlant25,miR-PREFeR26, miRA27,miReNA28).

Тест времени выполнения
Для сравнения времени выполнения и производительности miRDP2 и других пяти инструментов мы установили пять инструментов (miRDP2, miRDeep-P, miR-PREFeR, miRA и miReNA) в кластерном сервере с системой Cent OS 6.5. Эти программы были запущены с теми же файлами ввода, аппаратным обеспечением и ресурсом (подробности в дополнительном файле 1). В частности, miRPlant контролируется из графического интерфейса, написанного на Java, и не может работать на сервере. Вместо этого, мы протестировали miRPlant на ПК с Windows 10, в то время как мы также протестировали miRDP2 и miRDeep-P на этом ПК (подробности в дополнительном файле 1).

Для малых видов генома, как Arabidopsis thaliana, Oryza sativa, и Solanum lycopersium, все программы побежали должным образом. Однако, для крупных видов геномов, таких как Зея майи и Triticum aestivum (в том числе Solanum lycopersium для miRA), некоторые из программ истощили все вычислительные ресурсы и сломался на полпути. Например, miReNA, miRA и miR-PREFeR не смогли получить результаты, вероятно, из-за недостатка памяти при работе с большими файлами sam или промежуточными файлами. В частности, временные файлы miRPlant потребляли слишком много места, и результат не мог работать на ПК при работе с крупными видами генома. miRDP2 закончил эти процессы прогнозирования в очень короткое время, от минут до часов(рисунок 1B). Таким образом, по сравнению со старой версией и другими инструментами, время работы miRDP2 было заметно сокращено.

Тест на чувствительность и точность
Так как miRNAs в Арабидопсис интенсивно изучаются, мы использовали известные miRNAs в Арабидопсис в miRBase21 (выпуск 22.1) для оценки miRDP2, и сделал сравнение с другими инструментами. Как сообщалось ранее19,26, следующие формулы используются для расчета чувствительности и точности:

Equation 2

Equation 3

Известные miRNAs являются те аннотированные в miRBase. MiRNA обозначена как выраженная, если зрелые последовательности имеют более 5 об/мин, а 75% считывается на прекурсоре, отображаемом для зрелых и звездных последовательностей miRNA. Для проведения теста были использованы две секвенированные библиотеки sRNA от Arabidopsis(таблица 1). miRDP2(Рисунок 1C,D) лучше по сравнению с другими инструментами.

Взятые вместе, эти результаты показывают, что miRDP2 является быстрым и точным инструментом для анализа транскриптома miRNA в растениях.

Figure 1
Рисунок 1: Производительность miRDP2. (A) Размер генома (в Гб) Арабидопсис талиана (Ath), Oryza sativa (Оса), Solanum lycopersicum (Sly), Зея может (Зма), Triticum aestivum (Tae). (B-D) Сравнение времени выполнения, чувствительности и точности miRDP2 и других пяти инструментов. Две точки, соответствующие каждому инструменту, указывают на то, что каждый инструмент провел два теста. Эта цифра была адаптирована из Kuang и др.16. Пожалуйста, нажмите здесь, чтобы просмотреть большую версию этой цифры.

Виды (абб.) Версия генома библиотеки sRNA
Идентификатор библиотеки Размер файла Всего считывает Уникальные чтения Ткани
Арабидопсис талиана (Ат) версия 10 GSM2094927 24.9 Mb 40.5M 9.7M Взрослый лист
GSM2412287 29,5 Мб 45.1M 11.1M Лист
Ороша Сатива (Оса) версия 7 GSM2883136 44,2 Мб 54.9M 16.3M Рассады
GSM3030848 34,7 Мб 49.1M 13.0M Флаглиф
Solanum lycopersicum (Sly) версия 3 GSM1113985 205.4 Мб 161.5M 58.0M Лист
GSM1976413 118,5 Мб 139.3M 46.2M Корневой
Зея мэйс (Зма) версия 4 GSM1277437 158.4 Мб 266.1M 60.5M Рассады
GSM1428531 144,1 Мб 172.5M 56.3M Семян
Тритикум эстивум (Tae) iwgsc 1 GSM1294660 76.1 Мб 59.2M 29.6M Стрелять
GSM1294661 113,6 Мб 84.0M 44.0M Лист

Таблица 1: Геномы и библиотеки sRNA, используемые для тестирования miRDP2 и других инструментов. Эта таблица была адаптирована из Kuang и др.16.

Дополнительный файл 1: Сравнение времени выполнения, чувствительности и точности miRDP2 и других пяти инструментов. Пожалуйста, нажмите здесь, чтобы загрузить этот файл.

Дополнительный файл 2: Примеры подлинных miRNAs с бифуркатной структурой в петлях. Пожалуйста, нажмите здесь, чтобы загрузить этот файл.

Дополнительный файл 3: Обновленные критерии для аннотации miRNA растений и критерии для 23-nt и 24-nt miRNAs. Пожалуйста, нажмите здесь, чтобы загрузить этот файл.

Дополнительный файл 4: Диаграмма рабочего процесса miRDP2. Пожалуйста, нажмите здесь, чтобы загрузить этот файл.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

С появлением NGS, большое количество loci miRNA были определены из постоянно растущего количества данных секвенирования sRNA в различных видах29,30. В централизованной базе данных сообщества miRBase21, депонированные элементы miRNA увеличились почти в 100 раз за последнее десятилетие. Однако, по сравнению с miRNAs у животных, завод miRNAs имеют много уникальных особенностей, которые делают идентификацию / аннотацию более сложным13,14.

Во-первых, предшественники растительных миРНК более изменчивы по длине и структуре(Дополнительный файл 2)16. Не как относительно равномерной длины животных miRNA предшественников около 70-90 nt, длина прекурсоров растений варьироваться в несколько складок и может достигать нескольких сотен nts13,31. Эта разница вводит много неопределенности при прогнозировании вторичной структуры прекурсоров miRNA, даже если отсечение длины прекурсоров, как правило, устанавливается произвольно, такие как не более 300 nt19 (этот параметр был встроен в miRDP2, и опытные пользователи miRDP2 могли бы настроить это сами по себе). Кроме того, сохраненные семьи miRNA растений, как правило, имеют больше членов, и разница в длине этих членов также часто значительные13. Это причина, почему miRDP2 имеет параметр -L, который указывает на потенциальные крупнейшие семейства miRNA в размере члена. Вместе, неоднородность прекурсоров миРНК растений вызывает много трудностей для их точной аннотации.

Во-вторых, шум или ложные срабатывания, введенные siRNAs трудно устранить. Наряду с miRNAs, методы NGS также производят поток siRNAs в секвенированных библиотеках sRNA. Несмотря на то, что siRNAs могут быть отделены от miRNAs их биогенеза и функции32,33, это чрезвычайно трудно отличить их на основе последовательности данных и горнодобывающих инструментов. Публичные базы данных, такие как miRBase, утверждают многие исследователи, резко ухудшились из-за большого числа ложноположительных siRNAs, которые ошибочно аннотированы как miRNAs20,31. Таким образом, усовершенствованные инструменты с новым и строгим набором критериев для аннотации miRNA завода как заново обновленные критерии25 (Дополнительный архив 3)высоки пожеланы в трубопроводе/процессе аннотации miRNA.

И последнее, но не менее важное, вычислительное время для разбора библиотек sRNA увеличилось в геометрической прогрессии, когда тот же метод пересаживается с небольшого размера вида генома в большой размер. Вычислительные инструменты, такие как miRDeep-P13 и miR-PREFeR26,путем захвата и количественной оценки распределения подписи sRNA читает вдоль прекурсоров miRNA, стали двумя популярными методами и широко используются для аннотации miRNAs. Стратегия картирования, процесс выделения кандидатов-предшественников и последующее прогнозирование вторичной структуры требуют значительного вычислительного времени16. Когда эти инструменты используются для анализа данных из небольших геномов размеров, как Arabidopsis для крупных, как кукуруза, время обработки данных увеличивается от часов до нескольких дней, даже недель(рисунок 1B), в результате частый коллапс процесса. Таким образом, в срочном порядке требуется нововведение, в новшествающее по предшествующим ограничениям.

Наша новая программа miRDP216, обновленная от miRDeep-P13,предназначена для преодоления проблем, упомянутых выше(Дополнительный файл 4). В этой программе мы использовали новую стратегию фильтрации, оптимизировали алгоритм подсчета очков и включили обновленные критерии аннотации завода miRNA. В результате этих новых функций время работы было заметно сокращено при тестировании с использованием десяти библиотек sRNA из пяти видов растений с увеличением размера генома. Кроме того, по сравнению с другими инструментами, miRDP2 показал превосходную производительность как по чувствительности, так и по точности(рисунок 1). Взятые вместе, эти результаты показывают, что miRDP2 является быстрым и точным инструментом для анализа транскриптомов miRNA в растениях.

Следует предупредить, что нынешнее понимание характеристик miRNA может ограничить производительность любых вычислительных инструментов. Даже недавно обновленные критерии аннотации miRNA основаны на ограниченном наборе хорошо изученных примеров. Выведенная информация, таким образом, только эмпирическая. В самом деле, уникальные особенности miRNAs было показано, существуют в различных видов растений или линий3. Кроме того, такие характеристики, как структуры восходящих и нистовых областей дуплекса miRNA/miRNA' также играют решающую роль в биогене земного биогенеза miRNA34,35, которые не учитываются в текущих инструментах аннотации. С накоплением хорошо изученных примеров в более видах растений, вполне вероятно, что в будущем будут разработаны еще более совершенные инструменты аннотации, которые могут фиксировать более тонкие различия и классифицировать миРНК с большей степенью точности, чем нынешние методы. Многообещающее новое направление аннотации miRNA заключается в том, чтобы включить подходы к машинного обучения36 по мере постоянного развития качества учебных наборов данных и критериев аннотации.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Авторам нечего раскрывать.

Acknowledgments

Эта работа была поддержана Пекинской академией сельскохозяйственных и лесных наук (KJCX201917, KJCX20180425 и KJCX20180204) в XY и Национальный фонд естественных наук Китая (31621001) в LL.

Materials

Name Company Catalog Number Comments
Computer/computing node N/A N/A Perl is required; at least 8 GB RAM and 100 GB storage are recommended

DOWNLOAD MATERIALS LIST

References

  1. Ghildiyal, M., Zamore, P. D. Small silencing RNAs: an expanding universe. Nature Reviews Genetics. 10 (2), 94-108 (2009).
  2. Bartel, D. P. MicroRNAs: target recognition and regulatory functions. Cell. 136 (2), 215-233 (2009).
  3. Moran, Y., Agron, M., Praher, D., Technau, U. The evolutionary origin of plant and animal microRNAs. Nature Ecology Evolution. 1 (3), 27 (2017).
  4. Xie, Z., et al. Expression of Arabidopsis MIRNA genes. Plant Physiology. 138 (4), 2145-2154 (2005).
  5. Zhao, X., Zhang, H., Li, L. Identification and analysis of the proximal promoters of microRNA genes in Arabidopsis. Genomics. 101 (3), 187-194 (2013).
  6. Bologna, N. G., Mateos, J. L., Bresso, E. G., Palatnik, J. F. A loop-to-base processing mechanism underlies the biogenesis of plant microRNAs miR319 and miR159. EMBO JOURNAL. 28 (23), 3646-3656 (2009).
  7. Rogers, K., Chen, X. Biogenesis, turnover, and mode of action of plant microRNAs. Plant Cell. 25 (7), 2383-2399 (2013).
  8. Voinnet, O. Origin, biogenesis, and activity of plant microRNAs. Cell. 136 (4), 669-687 (2009).
  9. Iwakawa, H. O., Tomari, Y. The Functions of MicroRNAs: mRNA Decay and Translational Repression. Trends in Cell Biology. 25 (11), 651-665 (2015).
  10. Lee, R. C., Feinbaum, R. L., Ambros, V. The C. elegans heterochronic gene lin-4 encodes small RNAs with antisense complementarity to lin-14. Cell. 75 (5), 843-854 (1993).
  11. Wightman, B., Ha, I., Ruvkun, G. Posttranscriptional regulation of the heterochronic gene lin-14 by lin-4 mediates temporal pattern formation in C. elegans. Cell. 75 (5), 855-862 (1993).
  12. Friedlander, M. R., et al. Discovering microRNAs from deep sequencing data using miRDeep. Nature Biotechnology. 26 (4), 407-415 (2008).
  13. Yang, X., Li, L. miRDeep-P: a computational tool for analyzing the microRNA transcriptome in plants. Bioinformatics. 27 (18), 2614-2615 (2011).
  14. Meyers, B. C., et al. Criteria for annotation of plant MicroRNAs. Plant Cell. 20 (12), 3186-3190 (2008).
  15. Yang, X., Zhang, H., Li, L. Global analysis of gene-level microRNA expression in Arabidopsis using deep sequencing data. Genomics. 98 (1), 40-46 (2011).
  16. Kuang, Z., Wang, Y., Li, L., Yang, X. miRDeep-P2: accurate and fast analysis of the microRNA transcriptome in plants. Bioinformatics. , (2018).
  17. Kozomara, A., Birgaoanu, M., Griffiths-Jones, S. miRBase: from microRNA sequences to function. Nucleic Acids Research. 47 (1), 155-162 (2019).
  18. Griffiths-Jones, S., Saini, H. K., van Dongen, S., Enright, A. J. miRBase: tools for microRNA genomics. Nucleic Acids Research. 36, Database issue 154-158 (2008).
  19. Axtell, M. J., Meyers, B. C. Revisiting Criteria for Plant MicroRNA Annotation in the Era of Big Data. Plant Cell. 30 (2), 272-284 (2018).
  20. Taylor, R. S., Tarver, J. E., Hiscock, S. J., Donoghue, P. C. Evolutionary history of plant microRNAs. Trends in Plant Science. 19 (3), 175-182 (2014).
  21. Kozomara, A., Griffiths-Jones, S. miRBase: annotating high confidence microRNAs using deep sequencing data. Nucleic Acids Research. 42, Database issue 68-73 (2014).
  22. Langmead, B., Salzberg, S. L. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9 (4), 357-359 (2012).
  23. Lorenz, R., et al. ViennaRNA Package 2.0. Algorithms for Molecular Biology. 6, 26 (2011).
  24. Langmead, B., Trapnell, C., Pop, M., Salzberg, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology. 10 (3), 25 (2009).
  25. An, J., Lai, J., Sajjanhar, A., Lehman, M. L., Nelson, C. C. miRPlant: an integrated tool for identification of plant miRNA from RNA sequencing data. BMC Bioinformatics. 15, 275 (2014).
  26. Lei, J., Sun, Y. miR-PREFeR: an accurate, fast and easy-to-use plant miRNA prediction tool using small RNA-Seq data. Bioinformatics. 30 (19), 2837-2839 (2014).
  27. Evers, M., Huttner, M., Dueck, A., Meister, G., Engelmann, J. C. miRA: adaptable novel miRNA identification in plants using small RNA sequencing data. BMC Bioinformatics. 16, 370 (2015).
  28. Mathelier, A., Carbone, A. MIReNA: finding microRNAs with high accuracy and no learning at genome scale and from deep sequencing data. Bioinformatics. 26 (18), 2226-2234 (2010).
  29. Zhu, Q. H., et al. A diverse set of microRNAs and microRNA-like small RNAs in developing rice grains. Genome Research. 18 (9), 1456-1465 (2008).
  30. Fahlgren, N., et al. MicroRNA gene evolution in Arabidopsis lyrata and Arabidopsis thaliana. Plant Cell. 22 (4), 1074-1089 (2010).
  31. Fromm, B., et al. A Uniform System for the Annotation of Vertebrate microRNA Genes and the Evolution of the Human microRNAome. Annual Review of Genetics. 49, 213-242 (2015).
  32. Blevins, T., et al. Identification of Pol IV and RDR2-dependent precursors of 24 nt siRNAs guiding de novo DNA methylation in Arabidopsis. Elife. 4, 09591 (2015).
  33. Zhai, J., et al. A One Precursor One siRNA Model for Pol IV-Dependent siRNA Biogenesis. Cell. 163 (2), 445-455 (2015).
  34. Werner, S., Wollmann, H., Schneeberger, K., Weigel, D. Structure determinants for accurate processing of miR172a in Arabidopsis thaliana. Current Biology. 20 (1), 42-48 (2010).
  35. Mateos, J. L., Bologna, N. G., Chorostecki, U., Palatnik, J. F. Identification of microRNA processing determinants by random mutagenesis of Arabidopsis MIR172a precursor. Current Biology. 20 (1), 49-54 (2010).
  36. Vitsios, D. M., et al. Mirnovo: genome-free prediction of microRNAs from small RNA sequencing data and single-cells using decision forests. Nucleic Acids Research. 45 (21), 177 (2017).

Tags

Генетика Выпуск 155 микроРНК (miRNA) растение sRNA-seq miRDeep-P2 (miRDP2) секвенирование нового поколения критерии миРНК растений miRDeep-P (miRDP)
Биоинформатика трубопровод точно и эффективно анализировать microRNA транскриптомы в растениях
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Wang, Y., Kuang, Z., Li, L., Yang,More

Wang, Y., Kuang, Z., Li, L., Yang, X. A Bioinformatics Pipeline to Accurately and Efficiently Analyze the MicroRNA Transcriptomes in Plants. J. Vis. Exp. (155), e59864, doi:10.3791/59864 (2020).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter