Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Роман последовательности открытия субтрактивный геномика

Published: January 25, 2019 doi: 10.3791/58877

Summary

Целью настоящего Протокола является использование комбинации вычислительной и коллегия исследовательской найти Роман последовательностей, которые нельзя легко отделяться от совместно очищения последовательность, которая может быть лишь частично известна.

Abstract

Субтрактивный геномики может использоваться в любых исследований, где цель заключается в том, чтобы определить последовательность генов, белка, или общего региона, который встроен в более широком контексте геномной. Субтрактивный геномики позволяет исследователю изолировать последовательности целевых объектов, представляющих интерес (T), всеобъемлющей последовательности и вычитая из известных генетических элементов (ссылка, R). Этот метод может использоваться для выявления роман последовательности, например митохондрий, хлоропласты, вирусы, или микрофлорой ограничено хромосом и особенно полезен, когда T не может быть легко изолированы от р., начиная с всеобъемлющей геномных данных (R + T), метод использует основной инструмент поиска местных выравнивание (взрыв) против ссылка последовательности или последовательности, чтобы удалить сопоставления известных последовательностей (R), оставив позади цели (T). Для вычитания работать лучше R должно быть относительно полный проект, который отсутствует т. Начиная с последовательностями, оставшиеся после вычитания проверяются через количественные полимеразной цепной реакции (ПЦР) R не нужно быть полным для работы метода. Здесь мы связываем вычислительных шагов с экспериментальной шаги в цикл, который может быть итерация по мере необходимости, последовательно удаление нескольких ссылка последовательности и уточнения поиска для T. Преимуществом субтрактивный геномики является, что полностью Роман последовательности могут быть определены даже в тех случаях, в которых физической очистки является трудным, невозможно или дорого. Недостатком метода найти подходящую ссылку для вычитания и получение T-положительные и отрицательные образцов для испытаний ПЦР. Мы описываем нашу реализацию метода в определении первый ген от ограничено микрофлорой хромосома зебры Финч. В этом случае вычислительная фильтрации участвуют три ссылки (R), последовательно удалены более трех циклов: неполная геномной Ассамблеи, сырые геномных данных и транскриптомики данных.

Introduction

Этот метод предназначен для выявления роман целевой (T) геномной последовательности, ДНК или РНК, от геномной контекста, или ссылку (R) (рис. 1). Этот метод наиболее полезен, если цель не может быть разделены физически, или это будет дорого делать это. Только в нескольких организмов прекрасно закончили геномов для вычитания, поэтому ключевых инноваций нашего метода является сочетание вычислительных и методы скамейке в цикл позволяет исследователям изолировать последовательности, когда ссылка является несовершенным, или проект геном-модель организма. В конце цикла ПЦР тестирование используется для определения того, требуются ли дополнительные вычитание. Проверенных кандидатов T последовательности покажет статистически более обнаружения в известных T-позитивных образцов, ПЦР.

Воплощений метода были реализованы в открытие новых целей бактериального препарата, которые не имеют хост гомолог1,2,3,4 и идентификации новых вирусов из зараженных узлов 5,6. Помимо идентификации T метод может улучшить R: мы недавно использовали метод для идентификации 936 отсутствует генов генома ссылка зебры Финч и новый ген хромосомы (T) микрофлорой только7. Субтрактивный геномики особенно ценно, когда T-видимому, очень отличается от известных последовательностей, или когда личность T не определен широко, как зебры Финч ограничено микрофлорой хромосома7.

Не требуя позитивное определение T заранее, основным преимуществом субтрактивный геномики, что это беспристрастной. В недавнем исследовании Readhead et al. рассмотрел взаимосвязь между вирусной изобилия в четырех регионах мозга и болезни Альцгеймера. Для вирусный идентификации Readhead et al. создал базу данных 515 вирусов8, серьезно ограничивая вирусных агентов, которые могут определить их исследование. Субтрактивный геномики можно было используется для сравнения здоровых и Альцгеймера геномов для того, чтобы изолировать возможные Роман вирусы, связанные с болезнью, независимо от их сходство с известных инфекционных агентов. Хотя есть 263 известных вирусов, ориентация человека, было подсчитано, что примерно 1,67 млн неоткрытых вирусный видов существуют, с 631,000-827,000 из них имеют потенциал, чтобы заразить людей9.

Изоляция Роман вирусы — это область, в которой субтрактивный геномики является особенно эффективным, но некоторые исследования может не такой строгий метод. Например исследования, выявления роман вирусы использовали беспристрастной высок объём последовательности следуют обратной транскрипции и BLASTx для вирусных последовательности5 или обогащения вирусных нуклеиновых кислот для извлечения и обратить вспять транскрибировать вирусный последовательности 6. Хотя эти исследования использовали секвенирование de novo и Ассамблеи, вычитания не использовалось, потому что последовательности были идентифицированы путем взрыва. Если вирусы были полностью Роман и не связанные с (или отдаленно связанные) для других вирусов, субтрактивный геномики была бы полезной техникой. Преимуществом субтрактивный геномики является, что последовательности, которые являются совершенно новыми могут быть получены. Если известен геном организма, он может быть вычтен из оставить любой вирусный последовательности. Например в нашем опубликованном исследовании мы изолированы Роман вирусный последовательность от зебры Финч посредством субтрактивного геномики, хотя он был не наш оригинальный намерения7.

Субтрактивный геномики также оказался полезным в определении целей бактериальные вакцины, мотивированные резкий рост антибиотикорезистентности1,2,3,4. Чтобы свести к минимуму риск аутоиммунные реакции, исследователи сузили потенциальных целей вакцины, вычитая любые белки, которые имеют гомолог в человека-хозяина. Одно исследование, глядя на Corynebacterium pseudotuberculosis, выполняется вычитание позвоночных хост геномов из нескольких бактериальных геномов обеспечить, что возможно наркотиков цели не будет затрагивать белков в узлы, ведущие к побочные эффекты 1. основной рабочий поток этих исследований является скачать бактериальных протеом, определить жизненно важных белков, удаления избыточных белков, использовать BLASTp для изоляции эфироносных протеинов и BLASTp против принимающей протеома удалить любые белки с принимающей гомолог 1 , 2 , 3 , 4. В этом случае субтрактивный геномики убедиться, что вакцин разработал не будет иметь каких-либо эффектов пробить в узел1,2,3,4.

Мы использовали субтрактивный геномика для идентификации первого белка кодирование гена ограничено микрофлорой хромосоме (GRC) (в данном случае, T), который находится в germlines, но не соматических ткани обоих полов10. До этого исследования только геномной информации, что было известно о GRC был повторяющихся региона11. De novo Ассамблея была исполнена на РНК последовательности из яичника и Тэст тканей (R + T) от взрослых Зебра зябликов. Вычислительных ликвидации последовательностей была выполнена с использованием опубликованных соматические (мышцы) геном последовательности (Р1)12, ее сырье (Сэнгер) чтения данных (R2) и соматические (мозга) транскриптом (R3)13. Последовательное использование трех ссылок был обусловлен ПЦР, тестирование на шаге 5 каждого цикла (рисA), показаны, что требуется дополнительная фильтрация. Обнаружили ген α-SNAP было подтверждено путем ПЦР ДНК и РНК и клонирование и секвенирование. Мы покажем в нашем примере, что этот метод является гибким: это не зависит от соответствия нуклеиновых кислот (ДНК и РНК), и что вычитание могут быть выполнены с ссылками (R), которые состоят из сборки или сырые читает.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. de novo собрать начиная последовательности

Примечание: Любые данные следующего поколения последовательности (НГС) может использоваться, как сборки могут быть изготовлены из этих данных. Подходящие входные данные включают Illumina, PacBio, или Оксфорд Нанопор читает собранные в файл fasta. Для конкретности, этот раздел описывает сборку на основе Illumina транскриптомики для исследования зебры Финч, мы провели7; Однако имейте в виду, что специфика будет зависеть от проекта. Для нашего примера проекта сырые данные были получены из MiSeq и парных читает примерно 10 миллионов были получены от каждого образца.

  1. Использование Trimmomatic 0,3214 для удаления Illumina адаптеров и низкого качества баз. В командной строке введите:
    Java-jar PE trimmomatic-0.32.jar-phred33 forward.fq.gz reverse.fq.gz - baseout quality_and_adaptor_trimmed ILLUMINACLIP:TruSeq3-MINLEN:40 SLIDINGWINDOW:4:20 заднего: 3 Ведущий: 3 PE.fa:2:30:10
  2. Для создания высокого качества слияния читает из trimmomatic вывода паре гласит, используя параметры по умолчанию используйте PEAR15 v. 0.9.6. В командной строке введите:
    Груша -f < quality_and_adaptor_trimmed_1P.fastq > - r < quality_and_adaptor_trimmed_2P.fastq >
  3. Использование рептилий v. 1.116 ошибка-исправить читает производится через PEAR. Следуйте шаг за шагом протокол, описанный в17.
  4. Использование Троицы v. 2.4.018 в режиме по умолчанию, чтобы собрать исправленные последовательности. Для нити конкретные библиотеки, используйте параметр - SS_lib_type. Результат представляет собой fasta файл (your_assembly.fasta). В командной строке введите:
    Fq Троицы--seqType--SS_lib_type FR – max_memory 10G – выход Trinity_output--оставил quality_and_adaptor_trimmed_forward_paired_reads.fq – правый quality_and_adaptor_trimmed_reverse_paired_reads.fq-CPU 10
    Примечание: Выходные данные будут помещены в новый каталог, Trinity_output, и Ассамблея будет называться «Trinity.fasta», который может быть переименован в Your_assembly.fasta, при желании. Троицы веб-сайт для получения более подробной информации: https://github.com/trinityrnaseq/trinityrnaseq/wiki/Running-Trinity.

2. взрыв Ассамблея против ссылка последовательности

Примечание: Используйте этот шаг, если ссылка сборки или длинный читает как Сэнгер; Если она состоит из сырья Illumina читает, см. шаг 3 ниже для сопоставления считывает запрос. Все шаги взрыва были завершены с версии 2.2.29+, хотя команды должен работать на любой версии недавнего взрыва.

  1. Сделать базу данных взрыва Ссылка последовательности (nucleotide_reference.fasta) в командной строке. Введите в командной строке следующее:
    makeblastdb - dbtype атом-в nucleotide_reference.fasta-, nucleotide_reference.db
  2. ДОМЕННАЯ матч запроса Ассамблеи (созданного на шаге 1) справочной базы данных. Для получения выходного файла, используйте [-BLAST_results.txt из] и для создания табличного вывода (требуется для последующей обработки шагов с Python скриптов), используйте [-outfmt 6]. Эти опции могут быть скомбинированы в любом порядке, поэтому пример выполнения команды [blastn-запроса your_assembly.fasta - db nucleotide_reference.db-, BLAST_results.txt - outfmt 6]. Если e значение параметра, используйте параметр - evalue с соответствующим числом, например [1e-evalue-6]. Помните, однако, субтрактивный цикла эффективно инвертирует evalue, установив в, как описано в ходе обсуждения.
  3. Для увеличения жесткости использование белковых последовательностей от Ассамблеи как взрыв запрос с переведенные нуклеотидов взрыва (tBLASTn), который выполняет перевод 6-путь (нуклеотидов) базы данных. Этот метод рекомендуется для большинства систем-модель, избегая проблема неполной белка аннотации.
    1. Убедитесь, правильно генетического кода выбран для организма, учился, используя параметр - db_gencode. Чтобы получить белковых последовательностей для запроса, выполните команду TransDecoder.LongOrfs (из пакета TransDecoder v. 3.0.1) для выявления длинных открытых чтение кадры из сборных запросов последовательностей. Команда является [TransDecoder.LongOrfs -t your_assembly.fasta]; выходные данные будут помещены в директорию с именем «transcripts.transdecoder_dir» и будет содержать файл с именем longest_orfs.pep, содержащий длинная предсказал белковых последовательностей от каждой последовательности в your_assembly.fasta.
    2. Чтобы использовать tBLASTn, запустите команду [tblastn-запроса longest_orfs.pep - db nucleotide_reference.db-, BLAST_results.txt - outfmt 6]. Если ссылка высококачественного белка, используйте протеин протеина, совпадающие с BLASTp вместо tBLASTn.
    3. Сделать взрыв базы данных ссылки на белок [makeblastdb - dbtype prot-в protein_reference.fasta-вне protein_reference.db] и затем [blastp-запроса longest_orfs.pep - db protein_reference.db-, BLAST_results.txt - outfmt 6]. Убедитесь в том сохранить результаты в файл для последующей обработки и использовать табличный (outfmt 6) чтобы убедиться, что Python скриптов можно разобрать их правильно.

3. карта читает на Ассамблее

Примечание: Этот метод можно использоваться, если эталонный набор данных состоит из сырья геномной читает, а не собран последовательности или последовательности Сэнгер, в котором случае использования взрыва (шаг 2.1).

  1. С помощью АДЖ-MEM v. 0.7.1219 или bowtie220, карта загруженные сырой читает (raw_reads.fastq) на запрос Ассамблеи. Вывод будет .sam формат. Команды являются следующие: первый индекс Ассамблея: [АДЖ индекс your_assembly.fasta] и затем сопоставить читает [bwa мем your_assembly.fasta raw_reads.fastq > mapped.sam]. (Примечание ' >' символ здесь не является больше-знак; вместо этого он поручает вывода вдаваться в файле mapped.sam).

4. Используйте сценарий Python для удаления любых соответствующих последовательностей

Примечание: Предусмотрено сценарии работы с Python 2.7.

  1. После шага 2 Используйте субтрактивный сценарий Python, используя команду [./Non-matching_sequences.py your_assembly.fasta BLAST_results.txt]. Перед запуском скрипта, убедитесь, что взрыв выходной файл в формате 6 (табличных). Сценарий будет выходной файл с несовпадающим последовательности в формате fasta именем your_assembly.fasta_non-matching_sequences_BLAST_results.txt.fasta и также соответствие последовательности записей, как your_assembly.fasta_matching_sequences_BLAST_ results.txt.Fasta. несоответствующие файл будет, самое главное, как источник потенциальных T последовательностей для тестирования и далее циклов субтрактивный геномики.
  2. После шага 3, запустить removeUnmapped.py сценарий Python в качестве ввода .sam от шаг 3.1 и определяет имена последовательности запросов без каких-либо сопоставления считывает и сохраняет их в новый текстовый файл. Использовать команду [./removeUnmapped.py mapped.sam], и результат будет mapped.sam_contigs_with_no_reads.txt. (Программа будет генерировать файл sam сократившиеся с все несопоставленные читает удалены; этот файл может быть проигнорировано для целей настоящего Протокола, но может быть полезным для других анализов).
  3. Как предыдущий шаг выводится список имен последовательности в текстовый файл с именем mapped.sam_contigs_with_no_reads.txt, извлечь файл fasta с этих последовательностей: [./getContig.py your_assembly.fasta mapped.sam_contigs_with_no_reads.txt]. Вывод будет файл с названием mapped.sam_contigs_with_no_reads.txt.fasta.

5. дизайн праймеров для последовательности, остается

Примечание: на данный момент существует fasta файл, содержащий кандидат T последовательности. В этом разделе описывается ПЦР экспериментально проверить ли они приходят от T или из ранее неизвестных регионов р. Если операция вычитания в шаге 4 удалены все последовательности, затем либо первоначальной сборки не удалось включить T, или вычитания, возможно, был слишком строгими.

  1. Для определения оптимального грунтовка последовательности вручную используйте Geneious21 .
    1. Выделите последовательность кандидат 21-28 bp для вперед грунтовки. Избегайте работает 4 или более базы. Попытаться целевой регион с довольно равномерное сочетание всех basepairs. Одного G или C в конце 3' является полезным, помогая стать на якорь в грунт.
    2. Щелкните на вкладке Статистика в правой части экрана для просмотра последовательности оценивается температуры плавления (Tm) как регионе кандидат будет выделена. Смотреть получить температуру плавления между 55-60 ° C, избегая повторов и длинные G/C.
    3. Выполните шаги 5.1.1. и 5.1.2 выбрать обратный грунтовка, 150-250 пар 3' вперед праймера. В то время как длины праймера не нужно соответствовать, предсказал Tm должно быть как можно ближе к ТМ вперед грунтовка. Будьте уверены, чтобы отменить дополнения последовательности (если правой кнопкой мыши в Geneious, в то время как последовательность выделена это меню).
  2. Используйте функцию Конструкции праймера , который находится в верхней панели инструментов в окне последовательности.
    1. Нажмите на кнопку Конструкции праймера . Вставка области для того чтобы усилить в Целевом регионе.
    2. На вкладке характеристики Вставьте желаемый размер, температура плавления (Tm) и % GC (см. шаг 5.1.1.).
    3. Нажмите кнопку ОК , чтобы иметь праймеров созданных. Закажите праймеры через службу пользовательских oligo.
  3. Проверка грунты с контролем ДНК (кодирования T и R) для оптимизации времени ТМ и расширение. Использовать регулярные Taq и электрофорез геля, чтобы увидеть размер группы, но оптимизации могут быть выполнены с ПЦР следующие методы в шаге 6.
    1. Сделайте 10 X разведений праймеров вперед и назад, так что праймеры имеют концентрацию 10 мкм.
    2. Используйте смесь ПЦР 0.5 мкл dNTP, 0.5 мкл вперед грунтовки, 0.5 мкл обратный грунтовки, 0.1 мкл полимеразы Taq, 2 мкл шаблона, 0,75 мкл магния, 2.5 мкл буфера и 18.15 мкл воды, так что есть 25 мкл в шаблон с концентрацией 5 нг / МКЛ.
    3. Испытания грунтов на разные температуры плавления в программе ПЦР. Оптимальной производительности обычно наблюдаемых расплава температуру немного ниже прогнозируемого ТМ праймеров, но обычно не выше 60 ° C. Также тест для оптимального расширения раз, используя это руководство: 1 мин на 1000 bp (таким образом, обычно 10-30 секунд в зависимости от длины ампликон).
    4. Выполняйте концевой электрофорез геля для подтверждения, что праймеры усилить ожидаемой последовательности. Запустите 25 мкл продукта ПЦР, смешанного с 5 мкл 6 X глицерин красителя на 2% TAE агарозном геле на 200 V на 20 мин.

6. ПЦР проверки оставшихся последовательности

Примечание: Этот шаг требует грунтовки проверяются и ПЦР условий, установленных в шаге 5.

  1. Запустите каждый шаблон в трех экземплярах с следующей смеси; 12,5 мкл PowerSYBR Green мастер смеси, 0.5 мкл вперед грунт с концентрацией 10 мкм, 0.5 мкл обратный грунт с концентрацией 10 мкм, 10.5 мкл воды и 1 мкл шаблона ДНК (в концентрации 2 нг/мкл) , так что каждый хорошо содержит 25 мкл общего объема.
  2. Запустите программу ПЦР, сообщил проверяемого температуры и времени расширение из шага 4. Разработаны и проверены все грунты совместимы с двух этапов цикла, 95 ° C для первоначального расплава 10 мин, затем 40 циклов 95 ° C за 30 s-60 ° C в течение 1 мин. Однако три этапа (расплава отжиг расширить) программа может быть более оптимальным для грунтовки и при необходимости должны быть адаптированы. Мы рекомендуем, что окончательные кривые денатурируя создаваться по крайней мере в первый раз праймеры используются в ПЦР для проверки амплификации ДНК одного продукта.
  3. Мера ПЦР/SYBR зеленый сигналов относительно актина (или любой другой элемент управления подходящего «R») КТ для всех случаях вычислить среднее и стандартное отклонение 2-(ген Ct - β-актина Ct).
  4. (Необязательно) Выполняйте электрофорез геля концевой подтвердить определение размера продукта ПЦР. Здесь запустить 25 мкл продукта ПЦР, смешанного с 5 мкл 6 x глицерин красителя на 2% TAE агарозном геле на 200 V на 20 мин.

7. повторите с новой ссылкой на СЦВК вниз данные.

Примечание: Если шаг 6 проверку определенных последовательностей от T, конец цикла здесь (рисA). Однако целый ряд соображений может стимулировать продолжение цикла, например если много R последовательностей остаются в файле или если ни один из кандидатов T последовательностей были подтверждены ПЦР в шаге 6.

  1. Получите новую ссылку. Этот шаг включает новую итерацию цикла и может включать в себя сырье геномных данных, необработанных данных РНК seq или других сборных наборов данных. Ценные ресурсы для справочных данных включают базы данных генома в Национальный центр биотехнологической информации (https://www.ncbi.nlm.nih.gov/genome) какие магазины собрал геномов доступны через FTP (ftp://ftp.ncbi.nlm.nih.gov/genomes/), и Омнибус выражение гена (https://www.ncbi.nlm.nih.gov/geo/), где хранятся считывает необработанные следующего поколения последовательности. Геном проекты могут обеспечить их необработанные данные о последовательности через другие проекта связанных веб-сайтов и баз данных.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

После запуска BLAST, выходной файл будет иметь список последовательностей из запроса, которые соответствуют базе данных. После вычитания Python количество несовпадающих последовательностей будет получен и проверены ПЦР. Результаты этого и последующие шаги, обсуждаются ниже.

Отрицательный результат. Существует две возможные отрицательные результаты, которые могут рассматриваться после взрыва Ссылка последовательности. Возможно, результаты не взрыв, означает, что общая последовательность не имеют каких-либо аналогичные последовательности ссылки. Это может быть ошибка в выборе последовательности справа ссылку для виртуализированных образца. Другая возможность заключается в том, что существует без уникальных последовательностей в начальный Ассамблее (все вычитается прочь), поэтому не гены будут найдены последовательность интереса. Проверить ссылку, откуда и убедитесь, что это не же ткани как запроса Ассамблеи.

После фильтрации вычислительных, ПЦР может дать отрицательный результат, примеры см рис 3A, 3B, C в котором там был никакой разницы в обнаружении через птица тканей. Панели A через C являются представительной гены от различных вычитание циклов, мотивированных дополнительные субтрактивный цикла итераций и разработка метода (Рисунок 2, 2B).

Положительный результат. Положительный результат--определение истинной цели последовательности--подтвердил, когда геномной ДНК ПЦР показывает статистически более обнаружения в ткани / образец интерес по отношению к ссылке (рис. 3D). В этом случае субтрактивный проекта начал с последовательности РНК из микрофлорой ткани мужского и женского взрослого зебры Финч, получение 10 миллионов чтения пар от каждого пола. Для краткости мы будем описывать обработки в яичнике последовательности только, в котором 167,929 стенограммы были получены Ассамблеей de novo . Для устранения любой последовательности, которые соответствуют опубликованные геном соматических12, который оставил 5060 стенограммы соответствующий 598 уникальных белков, указав, что многие из стенограммы были некодирующей использовался метод субтрактивный геномики (BLASTn). Сэнгер, сырье читает используется для создания сборки затем использовались для следующего уровня вычитания tBLASTn, уступая 78 белков. Один заключительный вычитание была выполнена с помощью РНК seq сырье считывает из слухового долька13, который оставил восемь белков. Когда эти белки были запустить через NCBI nr взрыва, шесть из белков были вирусных, один был повторяющихся региона в птиц, и последний был α-оснастки, которая ограничена микрофлорой7 (рис. 2B). В ходе этого процесса были выявлены 935 соматических генов, которые не были ранее включены в аннотации весь геном; несколько показали равномерное ПЦР-амплификация различных тканей (рис. 3A, 3B, 3 C). Α-SNAP ген был апробирован быть ограничен с помощью ПЦР, потому что он был исчерпан в соматической ткани по отношению к яички ДНК, где он присутствовал на уровнях эквивалентно актина (Рисунок 3D) микрофлорой.

Что может пойти неправильно. Основная проблема, которую необходимо преодолеть при использовании этого метода является обеспечение надлежащего ведения последовательности используется. Лучшие ссылки последовательность Инкапсулирует, в самом широком смысле, геномных сложности, в которую встроен последовательность интереса (T). Это может означать, что последовательностей в различных формах; транскриптом, сборки, исходные данные или данные нескольких исследований должны использоваться в качестве ссылки (рис. 1). В исследовании зебры Финч мы разработали грунты из РНК последовательности данных; Однако праймеры не всегда работает благодаря наличию интронов между или в пределах сайтов связывания праймера в ДНК. Мы протестировали каждого праймера, установленных ПЦР с геномной ДНК от семенников ДНК, которая кодирует целевой (T) и ссылка (R), что делает его подходящим положительный контроль. Провал грунта на данном этапе требует разработки и тестирования новой грунтовки до тех пор, пока выявленные подходящий набор. Применяются стандартные ловушки методов на основе ПЦР: усиление условия должны быть оптимизированы, усиления специфики подтверждены тестированиями или клонирования и без шаблон элементов управления должны быть включены в всех экспериментов. Более подробную информацию о анализы ПЦР22см.

Figure 1
Рисунок 1 . Субтрактивный подход многократно можно удалить несколько ссылок (R), чтобы восстановить только последовательности целевых объектов, представляющих интерес (T) от всего геномных данных. Ссылка последовательности отдельных проектов не могут перекрываться именно таким образом и может включать в себя наборы данных не указано на рисунке. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.

Figure 2
Рисунок 2Визуальные методы. (A) субтрактивный цикла схема. Цикл может быть итерации как столько раз, сколько необходимо, каждый раз, используя собственный ссылка последовательности, чтобы получить наилучшие результаты. (B) конкретный пример субтрактивный цикла шагов, осуществляемых в Бидерман et al. 7шагов пронумерованы A и количество последовательностей, оставаясь на каждом этапе показано. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.

Figure 3
Рисунок 3 . Пример данных результатов ПЦР, включая положительные и отрицательные результаты. (A) геномная ДНК ПЦР CHD8, отрицательный результат. (B) геномная ДНК ПЦР DNMT1, отрицательный результат. (C) геномной ДНК ПЦР CHD7, отрицательный результат. (D) геномная ДНК ПЦР NAPAG, подтверждающий присутствие специально в яички образцов и истощение из печени и яичников относительно актина, положительный результат. Все панели показывают в среднем + /-стандартное отклонение трех измерений. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Хотя субтрактивный геномики является мощным, это не печенье резец подход, требующий настройки на нескольких ключевых шагов и тщательный отбор ссылка последовательности и испытательных образцов. Если запрос Ассамблея имеет низкое качество, фильтрация шаги только изолировать Ассамблеи артефактов. Таким образом важно тщательно проверить Ассамблея de novo с помощью соответствующей проверки протокола к конкретному проекту. Для РНК seq руководящие принципы приведены на веб-сайте Троицы18 и ДНК, инструмент, как могут быть использованы REAPR23 . Еще один важный шаг при использовании взрыв является выбор соответствующего e значение, которое будет определять, будет ли операция вычитания расслабленной или жесткие. Однако, инверсии возникает в методе: совпадение более строгие ссылки является на самом деле менее строгие вычитание, как несоответствующие последовательности не вычитаются. Таким образом больше (менее строгими) e значение должно использоваться в результате взрыва для более строгие вычитание. Последним важным шагом протокола является выбор ссылки. Для наибольшей эффективности ссылка должна быть полной, насколько это возможно; Однако это не нужно быть совершенным, потому что ПЦР тестирование подтверждает ли оставшиеся последовательности от T или R, и ли больше фильтрация является необходимым. В ходе осуществления протокола новые ссылки могут использоваться для дальнейшего сужения вниз гены для проверки. Мы отмечаем, что иногда может изменить соответствующий метод: за последний субтрактивный шаг мы использовали алгоритм ВСБ для сопоставления необработанные читает на последовательности запроса и использовать пользовательские python скриптов для определения последовательности запросов с совпадающих читает (рис. 2B).

Ограничения этого метода включают наличие ссылка последовательности. Например, Мейер и др. оценены митохондриального генома новой hominin; они использовали человека и Denisovan зонды для захвата митохондриальной ДНК, которая была последовательной и сопоставляется человека ссылка24. В этом случае были не существующего ядерного генома справочных данных, исследователи могут вычтено против получения митохондриального генома, требуя альтернативные стратегии чтения картирование24. Любые широко отличающейся регионы Роман митохондрий относительно человека митохондриальной ссылки будут потеряны сопоставлением чтения. Субтрактивный геномики предлагает менее пристрастный подход, чем чтения картирование но применяется не всегда в зависимости от исследования вопроса, и в этом случае низкий уровень древней ДНК исключает такую последовательность покрытия, необходимые для сборки ( de novo 1 шаг субтрактивный геномики).

Физической очистки обеспечивает еще один альтернативный метод для вычитания геномики. Очистка ДНК или РНК часто используется в последовательности всей хлоропластов и митохондриальных геномов потому, что эти organellar геномов гораздо меньше, чем ядерной геномов25,26,27,28. Человека и других небольших митохондриальных геномов могут быть изолированы для секвенирования через усиление с помощью двух наборов грунт, следуют очистки25. Однако субтрактивный геномики может оказаться полезным для случаев, в которых митохондриальных геномов необычно большой, сайтов связывания праймера расходящиеся или не приведет к полной генома. В качестве примера находится в инфузории, которые имеют большие, разные, линейные митохондриальных геномов29. Картирования генома ссылка не является жизнеспособным вариантом для инфузории из-за высокой расхождение разных видов и отсутствие гомолог даже через родов30. С помощью субтрактивный геномика, ресничастая митохондриального генома может изолированы и проанализированы при сведении к минимуму потенциал отсутствующих сегментов генома. Аналогичным образом в то время как в Ассамблее генома ситхинская ель хлоропласта был использован подход Ассамблеи de novo , разрыв закрытие участвует сравнительно читать сопоставления против белая ель, потенциально представляя уклоном на этих сайтах31.

В зависимости от проекта субтрактивный геномики может предложить время и стоимость преимущества по отношению к очистка или сопоставление подходов, предлагая меньше предвзятости в процессе обнаружения. В некоторых ситуациях, последовательности целевых объектов не может быть легко изолирована, потому что это совершенно неизвестным, является жизненно важным для выживания клетки (митохондрии), или слишком большими, чтобы отделить электрофорезом геля стандартные. Размер основе электрофоретической очистки является медленным и требует значительных исходного материала (который может быть дорогим) при оптимизации условий через несколько попыток. Электрофорез геля пульс поле (PFGE) включает разделение фрагментов ДНК до 107 bp (10 МБ), но занимает 2-3 дней, большое количество материала и иногда специализированного оборудования, которое не является коммерчески доступных32. В Бидерман et al.только последовательность, которая был известен с микрофлорой ограничено хромосомы был некодирующей повторить7. Как эта хромосома является крупнейшим в птицу, свыше 100 Mb в длину10, очистки было бы невозможно; Таким образом субтрактивный геномики смог сделать то, что другие методы не могут. В эпоху геномной часто бывает дешевле и быстрее последовательность сейчас, и фильтровать по компьютер позже. Включение обнаружения полностью Роман последовательностей, субтрактивный геномики использует комбинацию подходов к изоляции Роман последовательности даже без идеальным ссылка последовательности.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Авторы не имеют ничего сообщать.

Acknowledgments

Авторы признают Мишель Бидерман, Alyssa Педерсен и Колин J. Saldanha, за их помощь в проекте геномики зебры Финч на различных этапах. Мы также признаем Евгений Bisk для вычисления Системное администрирование кластера и низ Грант 1K22CA184297 (для J.R.B.) и низ NS 042767 (для C.J.S).

Materials

Name Company Catalog Number Comments
Accustart II Taq DNA Polymerase Quanta Bio 95141
Blasic Local Alignment Search Tool (BLAST) https://github.com/trinityrnaseq/trinityrnaseq/wiki/Transcriptome-Assembly-Quality-Assessment
Bowtie 2 https://www.python.org/download/releases/2.7/
BWA-MEM v. 0.7.12 https://github.com/BenLangmead/bowtie2
Geneious https://blast.ncbi.nlm.nih.gov/Blast.cgi
PEAR v. 0.9.6 http://www.mybiosoftware.com/reptile-1-1-short-read-error-correction.html
Personal Computer Biomatters http://www.geneious.com/
PowerSYBR qPCR mix ThermoFisher 4367659
Python v. 2.7 https://sco.h-its.org/exelixis/web/software/pear/
Reptile v.1.1 https://alurulab.cc.gatech.edu/reptile
Stratagene Mx3005P Agilent Technologies 401456
TransDecoder v. 3.0.1 https://sourceforge.net/projects/bio-bwa/files/
Trinity v. 2.4.0 https://github.com/TransDecoder/TransDecoder/wiki

DOWNLOAD MATERIALS LIST

References

  1. Barh, D., et al. A Novel Comparative Genomics Analysis for Common Drug and Vaccine Targets in Corynebacterium pseudotuberculosis and other CMN Group of Human Pathogens. Chemical Biology & Drug Design. 78 (1), 73-84 (2011).
  2. Sarangi, A. N., Aggarwal, R., Rahman, Q., Trivedi, N. Subtractive Genomics Approach for in Silico Identification and Characterization of Novel Drug Targets in Neisseria Meningitides Serogroup B. Journal of Computer Science & Systems Biology. 2 (5), (2009).
  3. Kaur, N., et al. Identification of Druggable Targets for Acinetobacter baumannii Via Subtractive Genomics and Plausible Inhibitors for MurA and MurB. Applied Biochemistry and Biotechnology. 171 (2), 417-436 (2013).
  4. Rathi, B., Sarangi, A. N., Trivedi, N. Genome subtraction for novel target definition in Salmonella typhi. Bioinformation. 4 (4), 143-150 (2009).
  5. Epstein, J. H., et al. Identification of GBV-D, a Novel GB-like Flavivirus from Old World Frugivorous Bats (Pteropus giganteus) in Bangladesh. PLoS Pathogens. 6 (7), (2010).
  6. Kapoor, A., et al. Identification of Rodent Homologs of Hepatitis C Virus and Pegiviruses. MBio. 4 (2), (2013).
  7. Biederman, M. K., et al. Discovery of the First Germline-Restricted Gene by Subtractive Transcriptomic Analysis in the Zebra Finch, Taeniopygia guttata. Current Biology. 28 (10), 1620-1627 (2018).
  8. Readhead, B., et al. Multiscale Analysis of Independent Alzheimer's Cohorts Finds Disruption of Molecular, Genetic, and Clinical Networks by Human Herpesvirus. Neuron. 99, 1-19 (2018).
  9. Carroll, D., et al. The global virome project. Science. 359 (6378), 872-874 (2016).
  10. Pigozzi, M. I., Solari, A. J. Germ cell restriction and regular transmission of an accessory chromosome that mimics a sex body in the zebra finch. Taeniopygia guttata. Chromosome Research. 6, 105-113 (1998).
  11. Itoh, Y., Kampf, K., Pigozzi, M. I., Arnold, A. P. Molecular cloning and characterization of the germline-restricted chromosome sequence in the zebra finch. Chromosoma. 118, 527-536 (2009).
  12. Warren, W. C., et al. The genome of a songbird. Nature. 464, 757-762 (2010).
  13. Balakrishnan, C. N., Lin, Y. C., London, S. E., Clayton, D. F. RNAseq transcriptome analysis of male and female zebra finch cell lines. Genomics. 100, 363-369 (2012).
  14. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  15. Zhang, J., Kobert, K., Flouri, T., Stamatakis, A. PEAR: a fast and accurate Illumina Paired-End reAd mergeR. Bioinformatics. 30, 614-620 (2014).
  16. Yang, X., Dorman, K. S., Aluru, S. Reptile: representative tiling for short read error correction. Bioinformatics. 26, 2526-2533 (2010).
  17. MacManes, M. D., Eisen, M. B. Improving transcriptome assembly through error correction of high-throughput sequence reads. PeerJ. 1 (113), (2013).
  18. Grabherr, M. G., et al. Full-length transcriptome assembly from RNA-seq data without a reference genome. Nature Biotechnology. 29, 644-652 (2011).
  19. Li, H. Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. arXiv. , (2013).
  20. Langmead, B., Salzberg, S. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9, 357-359 (2012).
  21. Kearse, M., et al. Geneious Basic: an integrated and extendable desktop software platform for the organization and analysis of sequence data. Bioinformatics. 28 (12), 1647-1649 (2012).
  22. Peirson, S. N., Butler, J. N. Quantitative polymerase chain reaction. Methods in Molecular Biology. 362, 349-362 (2007).
  23. Hunt, M., Kikuchi, T., Sanders, M., Newbold, C., Berriman, M., Otto, T. D. REAPR citation: REAPR: a universal tool for genome assembly evaluation. Genome Biology. 14 (5), (2013).
  24. Meyer, M., et al. A mitochondrial genome sequence of a hominin from Sima de los Huesos. Nature. 505 (7483), 403-406 (2013).
  25. Gunnarsdóttir, E. D., Li, M., Bauchet, M., Finstermeier, K., Stoneking, M. High-throughput sequencing of complete human mtDNA genomes from the Philippines. Genome Research. 21 (1), 1-11 (2010).
  26. King, J. L., et al. High-quality and high-throughput massively parallel sequencing of the human mitochondrial genome using the Illumina MiSeq. Forensic Science International: Genetics. 12, 128-135 (2014).
  27. Yao, X., et al. The First Complete Chloroplast Genome Sequences in Actinidiaceae: Genome Structure and Comparative Analysis. Plos One. 10 (6), (2015).
  28. Zhang, Y., et al. The Complete Chloroplast Genome Sequences of Five Epimedium Species: Lights into Phylogenetic and Taxonomic Analyses. Frontiers in Plant Science. 7, (2016).
  29. Swart, E. C., et al. The Oxytricha trifallax Mitochondrial Genome. Genome Biologyogy and Evolution. 4 (2), 136-154 (2011).
  30. Barth, D., Berendonk, T. U. The mitochondrial genome sequence of the ciliate Paramecium caudatum reveals a shift in nucleotide composition and codon usage within the genus Paramecium. BMC Genomics. 12 (1), (2011).
  31. Coombe, L., et al. Assembly of the Complete Sitka Spruce Chloroplast Genome Using 10X Genomics' GemCode Sequencing Data. Plos One. 11 (9), (2016).
  32. Herschleb, J., Ananiev, G., Schwartz, D. C. Pulsed-field gel electrophoresis. Nature Protocols. 2 (3), 677-684 (2007).

Tags

Генетика выпуск 143 геномных вычитание ПЦР взрыва Python чтение карт Ассамблея De novo конструкция праймера
Роман последовательности открытия субтрактивный геномика
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Asalone, K. C., Nelson, M. M.,More

Asalone, K. C., Nelson, M. M., Bracht, J. R. Novel Sequence Discovery by Subtractive Genomics. J. Vis. Exp. (143), e58877, doi:10.3791/58877 (2019).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter