Практическое руководство по Филогенетика для неспециалистов

Biology

Your institution must subscribe to JoVE's Biology section to access this content.

Fill out the form below to receive a free trial or learn more about access:

 

Summary

Здесь мы опишем шаг за шагом трубопровод для генерации надежных филогении из наборов данных последовательности нуклеотидов или аминокислот. Это руководство стремится служить исследователей или студентов новых к филогенетического анализа.

Cite this Article

Copy Citation | Download Citations

O'Halloran, D. A Practical Guide to Phylogenetics for Nonexperts. J. Vis. Exp. (84), e50975, doi:10.3791/50975 (2014).

Please note that all translations are automatically generated.

Click here for the english version. For other languages click here.

Abstract

Многие исследователи, по невероятно разнообразной очагов, подаете заявление филогенетики их исследовательской вопрос (ы). Тем не менее, многие исследователи новичок в этой теме, и поэтому он представляет внутренние проблемы. Здесь мы собираем практическое введение в филогенетики для неспециалистов. Мы выделяем в шаг за шагом образом, трубопровод для генерации надежных филогении из наборов данных последовательностей гена. Начнем с пользовательским руководством для подобия инструменты поиска через интернет-интерфейсов, а также местные исполняемых файлов. Затем мы исследуем программы для создания нескольких выравнивания последовательностей с последующим протоколов на использование программного обеспечения, чтобы определить наиболее подходящее моделей эволюции. Мы тогда наметить протоколы для восстановления филогенетические связи через максимального правдоподобия и байесовских критериев и, наконец, описать инструменты для визуализации филогенетических деревьев. Хотя это ни в коем случае исчерпывающее описание филогенетических подходов, она дает читателю практической начиная информаион по ключевым программных приложений обычно используемых филогенетиков. Видение этой статье будет то, что она может служить в качестве практического учебного пособия для исследователей, приступающих к филогенетических исследований, а также служить в качестве образовательного ресурса, которые могли бы быть включены в классе или учебно-лаборатории.

Introduction

Для того, чтобы понять, как два (или более) вид эволюционировал, в первую очередь необходимо для получения последовательности или морфологические данные из каждого образца; эти данные представляют величины, которые мы можем использовать, чтобы измерить их отношения через эволюционного пространства. Так же, как при измерении линейное расстояние, имея больше данных доступны (например, мили, дюймы, мкм) будет приравнять к более точного измерения. Ergo, точность, с которой исследователь может вывести эволюционный расстояние во многом зависит от объема информационных данных, доступных для измерения отношения. Кроме того, поскольку различные образцы развиваться с разной скоростью и по различным механизмам, метод, который мы используем для измерения отношения между двумя таксонов также напрямую влияет на точность эволюционных измерений. Таким образом, поскольку эволюционные отношения непосредственно не наблюдается, но вместо этого были экстраполированы из последовательности или морфологических данных, проблема выведения эволюционнымотношения становится одним из статистики. Филогенетика является отраслью биологии заинтересованной с применением статистических моделей с особенностями эволюции для того, чтобы оптимально восстановить эволюционную историю между таксонов. Эта реконструкция между таксонов называют филогении таксонов в.

Чтобы помочь преодолеть разрыв в компетенции между молекулярными биологами и эволюционных биологов описанных здесь шаг за шагом трубопровода для выведения филогении из набора последовательностей. Во-первых, мы подробно шаги, участвующие в опросе базы данных, используя Basic Local Alignment Search Tool (BLAST 1) алгоритм через веб-интерфейс, а также за счет использования местных исполняемые, это часто является первым шагом в получении список похожих последовательностей неопознанный запрос, хотя некоторые исследователи также можете быть заинтересованы в сборе данных для одной группы с помощью веб-интерфейсов, таких как Phylota (http://www.phylota.net/). BLAST является алгоритмом сomparing первичной аминокислотной или нуклеотидной последовательности данных к базе данных последовательностей искать "хитов", которые напоминают последовательность запросов. Программа BLAST был разработан Стивеном Altschul соавт. в Национальных Институтов Здоровья (NIH) 1. Сервер BLAST состоит из целого ряда различных программ, и вот список некоторых из наиболее распространенных программ BLAST:

я) нуклеотидов нуклеотидов BLAST (BLASTN): Эта программа требует ввода последовательности ДНК и возвращает наиболее похожие последовательности ДНК из базы данных ДНК, который пользователь указывает (например, для конкретного организма).

II) белок-белковых BLAST (BLASTP): Здесь пользователь вводит последовательность белка и программа возвращается наиболее сходные последовательности белка из базы данных белков, которые пользователь задает.

III) Статус-Удельная Итерационное BLAST (PSI-BLAST) (blastpgp): пользовательский ввод PROTEв последовательности, которая возвращает набор тесно взаимосвязанных белков, и с этого набора данных сохраняется профиль генерируется. Следующая новый запрос генерируется с использованием только эти консервативные "мотивы", который используется для опроса базы данных белка, и это возвращает большую группу белков, из которых новый набор консервативных "мотивов" извлекаются и затем используется для допросить базу данных белка до даже больший набор белков настраивали и другого профиля генерируется и процесс повторяется. В том числе связанные белки в запросе на каждой стадии эта программа позволяет пользователю идентифицировать последовательности, которые являются более расходящимся.

IV) нуклеотидов 6-рамка перевод-белок (BLASTX): Здесь пользователь предоставляет вход нуклеотидной последовательности, которая преобразуется в шесть-каркасных концептуальных продуктов перевода (т.е. обе нити) в базе данных белковых последовательностей..

у) нуклеотидных 6-кадра перевода-нуклеотидПеревод 6-кадр (tblastx): При этом программа занимает вход нуклеотидной последовательности ДНК и переводит вход во все шесть кадров концептуальных продуктов трансляции, которые он сравнивает с переводами шесть рамочных базе данных нуклеотидной последовательности.

VI) Белки-нуклеотид 6-рамка перевод (TBLASTN): Эта программа использует входной последовательности белка для сравнения всех шести рамок считывания базы данных нуклеотидной последовательности.

Затем мы опишем часто используемые программы для создания Multiple Sequence Выравнивание (MSA) от последовательности набора данных, и это сопровождается руководстве пользователя к программам, которые определяют наиболее подходящую моделей эволюции для последовательности данных. Филогенетический реконструкция представляет собой статистический проблема, и из-за этого, филогенетические методы должны включать статистической основы. Это статистические рамки становится эволюционная модель, которая включает изменение последовательности в наборе данных. Этот эволюционный месдель состоит из набора предположений о процессе нуклеотидных или аминокислотных замен, и наиболее подходящую модель для конкретного набора данных могут быть выбраны посредством статистических испытаний. Подгонка данным различных моделей можно сравнить с помощью отношения правдоподобия тестов (LRTs) или информационных критериев для выбора наиболее подходящую модель в наборе возможных. Две общие критерии информации являются информационный критерий Акаике (АИК) 2 и байесовский информационный критерий (BIC) 3. После того, как оптимальное выравнивание генерируется, существует много различных методов для создания филогению из выровненных данных. Есть многочисленные методы выведения эволюционные отношения; широко, их можно разделить на две категории: расстояние на основе методов и методов на основе последовательности. Расстояние Методы, основанные на вычисления попарные расстояния из последовательностей, а затем использовать эти расстояния, чтобы получить дерево. Последовательность методов, основанных на использовании выравнивание последовательности непосредственно, и, как правило поиск по тРЗЭ пространство с помощью критерия оптимальности. Мы выделяем два метода последовательности на основе для реконструкции филогенетических взаимоотношений: это PhyML 4, который реализует максимальную рамки правдоподобия, и MrBayes 5, который использует байесовский цепь Маркова Монте-Карло вывод. Вероятность и байесовских методов обеспечения статистической базы для филогенетического реконструкции. Предоставляя информацию о пользователе на часто используемых инструментов дерево-строительных, введем читателя необходимых данных, необходимых для вывода филогенетические связи.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Основные Часовой Выравнивание Инструмент поиска (BLAST): интерфейс онлайн

  1. Нажмите на эту ссылку, чтобы посетить BLAST 1 веб-сервер в Национальном центре биотехнологической информации (NCBI). - http://blast.ncbi.nlm.nih.gov/Blast.cgi (рис. 1).
  2. Введите FASTA форматированный текст последовательность (см. рисунок 2, например) в строке запроса.
  3. Нажмите соответствующую программу BLAST и соответствующую базу данных или отдельных видов, представляющих интерес для использования в поиске и нажмите кнопку "Blast".
    Примечание: FASTA отформатирован последовательность начинается с описания линии, указанной на знаке ">". Описание должно следовать сразу после значок ">", последовательности (то есть. Нуклеотидов или аминокислот) следуют описание на следующей строке. Выход из поиска BLAST рассматривается как HTML, простой текст, XML, или ударил таBLES (Текст или CSV) с установленным в HTML умолчанию (рис. 3).

2. Основные Часовой Выравнивание Инструмент поиска (BLAST): Местные Исполняемые

  1. Загрузите последние BLAST командной строки BLAST исполняемые по этой ссылке:
    ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ -
  2. EM> Для пользователей ПК: дважды щелкните последний файл взрыв win32.exe и принять условия лицензионного соглашения и нажмите установить.
    Примечание: Каталог установки по умолчанию C: NCBI-доменный 2.2.27 +.
  3. Настройте переменную окружения ПК следующим образом:
    1. Нажмите на ПК "Пуск" кнопку, а затем щелкните правой кнопкой мыши "компьютер",
    2. Нажмите кнопку "Свойства" и в всплывающем окне нажмите на вкладку "Дополнительно"
    3. Нажмите кнопку "Переменные среды" и в новом всплывающем окне нажмите кнопку "новый" под гое "Пользовательские переменные для пользователя" раздела
    4. В всплывающем добавить имя переменной "Path" и значение переменной "C: NCBI-доменный 2.2.27 + бен.
      Примечание: каталог бен содержит исполняемый файл (т.е. BLASTP, и т.д..)..
  4. EM> Для пользователей Mac: Откройте терминальное приложение (для этого просто откройте "Finder" и поиск "Терминал", и это будет отображаться значок "Терминал"). В терминал типа окна:
    > FTP ftp.ncbi.nih.gov
    Примечание: можно также введите адрес используется выше в примере для ПК
  5. Чтобы получить доступ к NCBI тип FTP-сайт "анонимный" для имя и пароль, а затем введите:
    > Кд взрыва / исполняемых файлов / ПОСЛЕДНИЕ
  6. Перечислите исполняемые, набрав:
    > Ls
  7. Получить последнюю версию, введя следующее (или как там последняя версия в настоящее время):
    2; получить NCBI-доменный 2.2.7-macosx.tar.gz
  8. Выйдите на сайт NCBI FTP-сервер, введя «выход».
  9. Распакуйте загруженные файлы с помощью команды:
    > Тар-xzf NCBI-доменный 2.2.7-macosx.tar.gz
  10. Добавить местоположение с программами для доменной исполняемого на вашем пути, чтобы оболочка можете найти через этот каталог при поиске команд, набрав:
    > PATH = $ PATH: new_folder_location
  11. Проверьте это добавило расположение в путь, набрав:
    > Эхо $ PATH
  12. Скачать предформатированый баз данных BLAST (которые обновляются ежедневно), нажав здесь:
    ftp://ftp.ncbi.nlm.nih.gov/blast/db/
  13. Поместите базу данных в папке "DB".
  14. EM> На ПК: Откройте MS-DOS (для этого нажмите кнопку "Пуск" и введите "ЦМД" в строке поиска) и изменить каталог в папку NCBI взрыва, набрав:
    C: Пользователи> CD .. [движетсядо одной папке]
    C: > CD NCBI-доменный 2.2.27 +
    Это изменит каталог для:
    C: NCBI-доменный 2.2.27 +>
  15. Создание базы данных с помощью следующей команды "makedb":
    > Makedb в дБ / briggsae.fasta-DbType прот выезда дБ / briggsae
    Примечание: В приведенном ниже примере (рис. 4) базы данных называется "briggsae" и состоит из одной группы сцепления из организма Caenorhabditis briggsae.
  16. Создайте последовательность белка запрос под названием "тест", вставив FASTA форматированный текст последовательность белка в папку "DB".
  17. Опросить базе данных через поиск BLASTP, введя следующую команду:
    > ДБ BLASTP-запрос / test.txt-дБ дБ / briggsae выезда text.txt
  18. EM> На Mac: скачать базу данных для локального поиска Blast путем доступа к FTP сайта NCBI в соответствии с инструкциями выше (шаг 2.4) иТип н:
    > ЖК .. / базы данных /
  19. Скачать геном или последовательность интерес, набрав:
    > Получить NC_ [Присоединение #]. Фна
    Примечание: ". Фна" относится к FASTA отформатирован нуклеотидной последовательности и "АВС." Относится к FASTA отформатирован аминокислотных последовательностей.
  20. Тип "бросить", чтобы выйти из FTP-сайт.
  21. Сделать базу данных, введя:
    > Makeblastdb в дБ / mouse.faa выезда мыши DbType прот
  22. Вставьте БЫСТРО отформатированный последовательность запросов в папку "бин" и допросить базу данных с помощью следующей команды:
    > BLASTP-запрос "Ваш query.fasta"-дБ "база данных" выезда results.txt

3. Создание множественного выравнивания последовательностей

  1. Нажмите на эти ссылки для доступа к часто используемым Получение последовательности Alignment (MSA) программы:
    ClustalW 6 http://www.clustal.org/
    Калидп 7 http://msa.sbc.su.se/cgi-bin/msa.cgi
    MAFFT 8,9 http://mafft.cbrc.jp/alignment/software/
    MUSCLE 10 http://www.drive5.com/muscle/
    Т-Кофе 11 http://www.tcoffee.org/Projects/tcoffee/
    PROBCONS 12 http://toolkit.tuebingen.mpg.de/probcons
  2. Щелкните по этой ссылке - http://tcoffee.crg.cat/apps/tcoffee/do:regular - и вход FASTA данных отформатированных последовательности в строке запроса
    Примечание: Ниже приводится пример вывода из T-кофе можно увидеть на рисунке 5, аналогичные отходы имеют цветовую маркировку.
  3. Скачать Clustal MSA как версии для командной строки (ClustalW) или графическом Version (ClustalX), нажав на эту ссылку: http://www.clustal.org/clustal2/ - нажмите на соответствующую исполняемый (т.е. победа, Linux, Mac OS X).
  4. Выгрузка данных как FASTA форматированный текст последовательности и выровнять (рис. 6).

4. Определение наиболее подходящей модели эволюции

  1. Нажмите здесь, чтобы скачать программу ProtTest 13:
    http://darwin.uvigo.es/our-software/
  2. После ProtTest загружается, дважды щелкните по файлу ProtTest.jar
  3. После ProtTest запускается, нажмите на кнопку "выберите файл" и загрузите данные последовательности (рис. 7).
  4. Затем нажмите кнопку "Пуск" и программа начнет (рис. 8).
    Примечание: После завершения пробега (рис. 8), программа укажет лучшую модель на основе критериев например "Лучший модель в соответствии с АПК: WAG + I + G"

5. Вывод последовательности на основе филогении по максимуму правдоподобия, или байесовский вывод

  1. Скачано PhyML 4 здесь:
    https://code.google.com/p/phyml/
  2. Запустите исполняемый файл, дважды щелкнув соответствующее приложение (т.е. phyml для Windows, phyml Linux, и т.д..) И окно интерфейс появится (рисунок 9).
  3. Загрузите входную последовательность как PHYLIP отформатированный последовательностью, набрав:
    > "Имя файла". PHY
    Примечание: Для преобразования между форматами секвенции, использовать "Readseq" веб-программы, доступные в - http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi .
  4. Запустите программу, набрав "Y".
  5. Скачать MrBayes 5 здесь:
    rceforge.net / download.php "> http://mrbayes.sourceforge.net/download.php
  6. Чтобы запустить программу, щелкните на исполняемый файл и читать данные последовательности NEXUS отформатирован в программу, набрав:
    > Выполнить "Имя файла". NEX
  7. Установите эволюционную модель.
  8. Выберите число поколений, чтобы запустить, набрав:
    > Mcmcp NGEN = 1000000 [это задает число поколений 1000000]
    > Картер горю = 10000 [это устанавливает Burnin 10000]
  9. Сохранить длины филиал в файле результатов, набрав:
    > Mcmcp savebrlens = да
  10. Запустите анализ, набрав:
    > MCMC
  11. Кратко деревья с помощью команды "SUMT".

6. Визуализация филогений

  1. Просмотр списка программ зрителя деревьев здесь:
    http://www.treedyn.org/overview/editors.html
  2. Скачать TreeView 14 прогрнахожусь здесь:
    http://taxonomy.zoology.gla.ac.uk/rod/treeview.html

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Поиск сходство с запросом позволяет исследователям приписывать потенциальную личность к новым последовательностей, а также вывести отношения между последовательностями. Тип входного файла для BLAST 1 является FASTA отформатирован последовательность текст или GenBank инвентарный номер. FASTA отформатирован последовательность начинается с описания линии, указанной на знаке ">" (рис. 2). Описание должно следовать сразу после значок ">", последовательности (то есть. Нуклеотидов или аминокислот) следуют описание на следующей строке. При сохранении и файлы последовательность редактирования, то лучше использовать текстовый редактор, например "Блокнот" на ПК или TextWrangler ( http://www.barebones.com/products/textwrangler/ ) для Mac. Алгоритм BLAST выполняет "местных" выравнивания, которая ищет для коротких отрезков последовательности сходство. После того, как алгоритм посмотрел все возможные "stretcheс "из последовательности запросов и максимально расширить эти последовательности, он затем собирает выравнивания для каждой пары последовательности запросов. Именно тогда важно понять, насколько хорошо эти матчи, и так BLAST относится статистику, чтобы каждый удар, который содержат ожидать значение (Е) и немного оценка. Значение E дает представление о статистической значимости на матч. Чем ниже E-значение, тем более значительным хитом, например выравнивание последовательности с E-значение 0,05 означает, что вероятность этого матч возникновение, только случайно составляет 5 100. Бит оценка использует определенный очки для ранжирования для обеспечения индикации о том, как хорошо выравнивание. Чем больше разрядов оценка, тем лучше выравнивание. Подобно онлайн-версии BLAST, есть ряд параметров, которые можно настроить с помощью команд через локальный BLAST исполняемый всеобъемлющий ресурс описания этих команд можно найти здесь -. http://www.ncbi.nlm.nih.gov/books/ NBK1762 /. Выход локального поиска представляет собой текстовый файл, как выходе из веб-интерфейса BLAST (рис. 4).

Получение последовательности Выравнивание (MSA) является выравнивание последовательность из трех или более первичных последовательностей, составленных из аминокислот, ДНК, или РНК. ClustalW 6 выпущен в 1994 году, является одним из самых популярных инструментов MSA для биологов. Удобный онлайн интерфейс, который обеспечивает единый доступ к нескольким популярных инструментов MSA можно найти на сервере ЕЛМБ-EBI здесь - http://www.ebi.ac.uk/Tools/msa . Вход для каждой программы может быть FASTA отформатирован данные последовательности (см. рисунок 2), хотя много различных форматов также принимаются, и многочисленные зеркала сайтов для каждого можно найти в Интернете. Многочисленные параметры, такие как разрыв штрафов и выходных форматов могут быть легко выбраны. Ниже приводится пример вывода из MSA T-кофе можно увидеть на рисунке 5, где подобные остатки COлор закодированы. В некоторых случаях, инструмент МСА также могут быть загружены и выполняются локально. Clustal можно скачать как версии для командной строки (ClustalW) или графической версии (ClustalX) с этого сайта - http://www.clustal.org/clustal2/ . Чтобы скачать, просто нажмите на соответствующую исполняемый (т.е.. Победа, Linux, Mac OS X). Для Windows программа исполняемый файл будет скачать и меню всплывающее потребует от пользователя нажать кнопку "Выполнить", а затем начнется установка. Программа интуитивно понятна, последовательности могут быть загружены из текстового файла, содержащего последовательности, отформатированные как NBRF / PIR, FASTA, EMBL / Swiss-Prot, Clustal, GCC / MSF, GCG9 RSF и GDE. Последовательности были выровнены, нажав "делать полное согласование" из меню "выравнивания". Расстановка образец из шести белковых последовательностей, выровненных с помощью ClustalX можно увидеть на рисунке 6. Различные параметры, такие как размер и цвет шрифта может быть легко изменен, и Editiнг последовательностей можно сделать, нажав на меню "Правка". Рафинированные вручную выравнивания часто превосходит полностью автоматизирован методы и из-за этого, развитие инструментов MSA является очень активной областью исследований. Некоторые общие редакторы выравнивания можно найти по следующим ссылкам: SE-AL - http://tree.bio.ed.ac.uk/software/seal/ ; BSEdit - http://www.bsedit.org/ ; JalView - http://www.jalview.org/ ; SeaView - http://pbil.univ-lyon1.fr/software/seaview.html .

Для аминокислотных группировок программа ProtTest 13 используется для определения выбора наилучшего соответствия моделей аминокислотных замен в пределах данных. ProtTest делает этот выбор, найдя модель из списка моделей-кандидатов с наименьшим Akaike информационный критерий (АИК), Байеса InformaТион Критерий (БИК) оценка, или решение Теория Критерий (ТД). В последней версии ProtTest (версия 3.2) включает в себя 15 различных матриц скорости, в результате которых 120 различных моделей. Пользователь должен иметь Java Runtime в их системе для запуска ProtTest. Java Runtime находится в свободном доступе здесь - http://www.java.com/en/download/chrome.jsp . Последовательности вводятся как PHYLIP или формате NEXUS. Для преобразования между форматами секвенции, использовать "Readseq" веб-программы, доступные в - http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi . Нажмите на кнопку "выберите файл" и загрузите данные последовательности. Затем нажмите кнопку "Пуск" и программа начнет. Чтобы изменить количество моделей, выбранных, вы можете нажать кнопку "модели". Как только начинается программа будет отображать прогресс бар в нижней и список моделей, поскольку они в настоящее время анализируются (рис. 8 https://code.google.com/p/prottest3/wiki/Background . Существует также онлайн веб-интерфейс для ProtTest который функционирует так же, как загруженной версии исключением того, что он может обрабатывать только ограниченное количество последовательностей. Этот веб-интерфейс доступен по этой ссылке - http://darwin.uvigo.es/software/prottest2_server.html . Для нуклеотидных наборов данных программа jModelTest 15 используется, чтобы исследовать статистическую выбор наиболее подходящей модели нуклеотидных замен по реализации АПК, BIC, и критерии DT, описанные выше, а также иерархической и динамической теста вероятность рационас (hLRT и dLRT). jModelTest оптимизирован для Mac OS X. За вклад, несколько форматов допускаются. Четкое шаг за шагом руководство доступно разработчиками здесь - http://computing.bio.cam.ac.uk/local/doc/jmodeltest.pdf

PhyML это программа, которая оценивает максимальные филогении правдоподобия от выравнивания нуклеотидных или аминокислотных последовательностей. PhyML будет включать большое количество моделей замещения, соединенных с различными вариантами искать дерево топологии пространства (рис. 10). Программа сохранит результаты в двух текстовых файлов. Первый файл будет содержать дерево ML в формате Newick, которые можно легко просмотреть, используя зрителя Tree (см. протокол 6), а другой файл будет содержать статистику (имя файла, модели, оценки Войти правдоподобия и др.) Анализа . Все параметры очень легко установить, следуя пунктам меню. Более подробное описание каждого меню орТион объясняются в руководстве PhyML имеющейся на PhyML странице загрузки - https://code.google.com/p/phyml/downloads/list . MrBayes 5 это программа, которая использует байесовский MCMC вывод в целом ряде эволюционных моделей реконструировать филогенетические связи. Программа ведет себя одинаково на всех платформах и после загрузки программа установки устанавливает исполняемый файл. Чтобы запустить программу, просто нажмите на исполняемый файл. Есть множество моделей, которые можно установить и подробная информация о каждой модели и их команд можно найти здесь - http://mrbayes.sourceforge.net/wiki/index.php/Tutorial . Другой вариант помощи, это ввести «помочь LSet" - это даст подробную информацию о настройке модели. Например, "Prset aamodelpr = смешанных» позволит комбинированного моделирования или "prset aamodelpr = фиксированный (взмах)" устанавливает модель аминокислот в Вашингтон G модель. Внешней группы можно легко установить, указав Таксон номер "чужой 30"; программа автоматически перечисляет последовательности / таксонов по номеру. Если внешней группы не указан дерево будет некорневых. После того, как программа запущена (рис. 11) прогресс можно просмотреть в определенные промежутки времени, которые можно установить с помощью команды "printfreq = Х". Подробнее о том, когда, чтобы остановить анализ (IE. Сколько поколений баллотироваться) можно найти в руководстве пользователя. Значения клады на кладограмме предоставляются в результатах наряду с phylogram который также представленной в формате Newick, которые можно легко просматривать с помощью просмотра дерева (см. протокол 6).

После того, как филогенетическое дерево генерируется, топология должна быть визуализированы. Есть много интернет-инструменты и загружаемых приложений, используемых для визуализации деревьев топологий. Неполный список популярных программ можно посмотреть здесь -ylogenetic_tree_visualization_software">http://en.wikipedia.org/wiki/List_of_phylogenetic_tree_visualization_software , и более полный список можно найти здесь - http://www.treedyn.org/overview/editors.html . TreeView 14 и TreeDyn 16 два популярных варианта. Оба очень удобным и простым, чтобы ознакомиться с различными вариантами. TreeView работает на Mac и Windows, используя почти одинаковые интерфейсы. Вход может быть одним из нескольких форматов, включая NEXUS, PHYLIP, Hennig86, МЕГА, и ClustalW / X. TreeView (рис. 12) также включает редактор дерева, что позволяет пользователю перемещать ветви, reroot деревья, и переставить внешний вид дерева.

Рисунок 1
Рисунок 1. > NCBI BLAST веб-страницы. Веб-сервер BLAST содержит набор BLAST программ и принимал Национальный центр биотехнологической информации (NCBI). Кликните здесь, чтобы посмотреть увеличенное изображение.

Рисунок 2
Рисунок 2. FASTA отформатирован последовательность. Формат FASTA начинается с описания линии, указанной на ">". Описание должно следовать сразу после значок ">", последовательности (то есть. Нуклеотидов или аминокислот) следуют описание на следующей строке. Нажмите сюда, чтобы посмотреть увеличенное изображение.

нт "FO: держать-together.within-странице =" всегда "> Рисунок 3
Рисунок 3. HTML выход из поиска BLAST. Выход из поиска BLAST иллюстрирует области идентичности в последовательности запроса, а также обеспечивает битовые баллы, ожидать ценности и попарно выравнивания с каждого матча. Кликните здесь, чтобы посмотреть увеличенное изображение.

Рисунок 4
Рисунок 4. Ниже приводится пример вывода из локального поиска BLAST исполняемый. Выход этого поиска представляет собой текстовый файл, как выходе из веб-интерфейса BLAST, что включают ожидать ценность и битный счет, а также описание матч. Кликните здесь, чтобы посмотреть увеличенное изображение.

Рисунок 5
Рисунок 5. Вывод на MSA, используя T-кофе. Выход подчеркивает похожие сайты и вес матча по цвету. Пробелы вставлены как "-" знаки и позиция остаток или нуклеотид сохраняется для каждого таксона. Кликните здесь, чтобы посмотреть увеличенное изображение.

ig6.jpg "/>
Рисунок 6. Расстановка образец с использованием ClustalX. Подобные матчи имеют цветовую маркировку и пробелы вставляются как знак «-». Строка меню виден в верхнем левом. Кликните здесь, чтобы посмотреть увеличенное изображение.

Рисунок 7
Рисунок 7. Интерфейс программы ProtTest. Кликните здесь, чтобы посмотреть увеличенное изображение.

Рисунок 8
FiGure 8. ProtTest консоли. ProtTest консоли во время выполнения анализа. Индикатор выполнения показывает, сколько модели были завершены, и главное окно отображает счет логарифмического правдоподобия для каждой модели. Кликните здесь, чтобы посмотреть увеличенное изображение.

Рисунок 9
Рисунок 9. Интерфейс PhyML. Кликните здесь, чтобы посмотреть увеличенное изображение.

Рисунок 10
Рисунок 10. Меню PhyML интерфейс. После последовательности загружаются в PhyML появляется первое меню, которое можно перемещаться, введя букву или символ в квадратных скобках. Подменю можно добраться, введя знак "+". Кликните здесь, чтобы посмотреть увеличенное изображение.

Рисунок 11
Рисунок 11. MrBayes Интерфейс. Когда MrBayes запускается прогресс можно просмотреть в определенные промежутки времени устанавливается с помощью "= printfreq X" команду. Хотя программа не может быть остановлен во время бега, после того, как заданное число поколений вычисляются пользователю будет предложено, если они хотят работать более поколений.www.jove.com/files/ftp_upload/50975/50975fig11highres.jpg "целевых =" _blank "> Нажмите здесь, чтобы посмотреть увеличенное изображение.

Рисунок 12
Рисунок 12. Интерфейс TreeView. На этом рисунке окно TreeView отображает пример дерева белков из Flybase (http://flybase.org/). Файлы импортируются, нажав на опцию "открытую", и выбрав соответствующий тип файла (например,. Формата Newick). Кликните здесь, чтобы посмотреть увеличенное изображение.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Наша надежда для этой статьи является то, что он будет служить в качестве отправной точки для руководства исследователей или студентов, которые являются новыми для филогенетики. Секвенирования генома проекты стали дешевле, в течение последних нескольких лет, и, как следствие, спроса пользователей на этой технологии растет, и в настоящее время производство больших наборов данных последовательностей является обычным делом в небольших лабораториях. Эти наборы данных часто предоставляют исследователям наборов генов, которые требуют филогенетическое рамки начать понимать их функцию. Кроме того, поскольку филогенетики находит дом в постоянно растущего числа исследовательских лабораторий, мы также намерены в этой статье, чтобы служить в качестве учебного устройства для студентов, заинтересованных в широком смысле в биологических исследованиях. Предоставляя информацию о пользователе на "почему", "как" и "где" для часто используемых инструментов дерево потенциала, мы предоставляем основу для читателя, чтобы начать знакомиться с этими приложениями и как они работают. Нowever, мы советуем читателю поиграть со всеми настройками в пределах каждого инструмента в попытке понять, как различные параметры могут влиять данные их последовательность, а также обеспечить совместимость между платформой и программным обеспечением в каждом конкретном случае. Анализ описанных выше был вычислен с помощью Dell OptiPlex 990 с ​​процессорами Intel Core i7 и ноутбук MacBook с процессором Intel Core 2 Duo процессора, однако, скорость анализа, а также конкретные исполняемые файлы (например,. 32 бит или 64 бит) будет зависеть на платформе пользователя.

Задача при компиляции инструкцию, как этот для филогенетики, является то, что поле филогенетики и биоинформатики в целом, является быстро развивающаяся область исследований, которая постоянно выпускает новое программное обеспечение, направленных на расширение выравнивания, предсказания подобия или филогенетических деревьев . Чтобы смягчить эту проблему, мы попытались сосредоточиться на программах, которые были вокруг в течение многих лет и по-прежнему популярны из-за ое насколько хорошо они работают. Тем не менее, мы хотим отметить, что есть много других инструментов, доступных для решения проблем мы описанные в данной статье, и так поощряют читателю воспользоваться этим и включить несколько приложений в их анализа.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Нам нечего раскрывать.

Acknowledgments

Мы благодарим членов лаборатории О'Халлоран замечания по рукописи. Мы благодарим Отделе Университета Джорджа Вашингтона биологических наук и Колумбийский колледж искусств и наук для финансирования Д. O'Halloran.

Materials

Name Company Catalog Number Comments
BLAST webpage  http://blast.ncbi.nlm.nih.gov/Blast.cgi
BLAST executables  ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
Preformatted BLAST databases ftp://ftp.ncbi.nlm.nih.gov/blast/db/
Clustal http://www.clustal.org/
Kalign http://msa.sbc.su.se/cgi-bin/msa.cgi
MAFFT http://mafft.cbrc.jp/alignment/software/
MUSCLE http://www.drive5.com/muscle/
T-Coffee http://www.tcoffee.org/Projects/tcoffee/
PROBCONS http://toolkit.tuebingen.mpg.de/probcons 
Se-Al  http://tree.bio.ed.ac.uk/software/seal/
BSEdit  http://www.bsedit.org/
JalView http://www.jalview.org/
SeaView http://pbil.univ-lyon1.fr/software/seaview.html
ProtTest  https://code.google.com/p/prottest3/
Java Runtime  http://www.java.com/en/download/chrome.jsp
Readseq http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi
jModelTest https://code.google.com/p/jmodeltest2/
PhyML https://code.google.com/p/phyml/
MrBayes http://mrbayes.sourceforge.net/download.php
TreeView http://taxonomy.zoology.gla.ac.uk/rod/treeview.html
TreeDyn http://www.treedyn.org/

DOWNLOAD MATERIALS LIST

References

  1. Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207, (4), 647-653 (1989).
  2. Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19, (6), 706-723 (1974).
  3. Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6, (2), 461-464 (1978).
  4. Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52, (5), 696-704 (2003).
  5. Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17, (8), 754-755 (2001).
  6. Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22, (22), 4673-4680 (1994).
  7. Lassmann, T., Sonnhammer, E. L. Kalign--an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
  8. Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33, (2), 511-518 (2005).
  9. Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30, (14), 3059-3066 (2002).
  10. Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32, (5), 1792-1797 (2004).
  11. Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302, (1), 205-217 (2000).
  12. Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15, (2), 330-340 (2005).
  13. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27, (8), 1164-1165 (2011).
  14. Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12, (4), 357-358 (1996).
  15. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9, (8), 772 (2012).
  16. Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).

Comments

0 Comments


    Post a Question / Comment / Request

    You must be signed in to post a comment. Please or create an account.

    Usage Statistics