实用指南系统发育的非专家

Biology

Your institution must subscribe to JoVE's Biology section to access this content.

Fill out the form below to receive a free trial or learn more about access:

 

Summary

这里,我们描述了一步一步管道,用于从核苷酸或氨基酸序列数据集可靠的系统发育。本指南的目的是服务于研究人员或学生对新的系统发育分析。

Cite this Article

Copy Citation | Download Citations | Reprints and Permissions

O'Halloran, D. A Practical Guide to Phylogenetics for Nonexperts. J. Vis. Exp. (84), e50975, doi:10.3791/50975 (2014).

Please note that all translations are automatically generated.

Click here for the english version. For other languages click here.

Abstract

许多研究者,跨越令人难以置信的多样化灶,正在申请系统学他们的研究问题(次)。然而,许多研究人员是新的这个话题,所以它呈现固有的问题。在这里,我们编译一个实用介绍系统发育的非专家。我们概述了一步一步的方式,管道用于从基因序列数据集可靠的系统发育。我们从一个用户指南的相似性搜索工具通过在线接口以及本地可执行文件。接下来,我们将探讨产生多序列比对后,使用软件来确定进化的最佳拟合模型协议的程序。然后,我们通过最大似然法和贝叶斯准则概述协议进行重建亲缘关系,最后描述了工具的可视化系统进化树。虽然这是不以任何手段的进化方法的详尽描述,它为读者提供实用的开始了信息离子由phylogeneticists普遍使用的关键软件应用程序。该愿景这篇文章将是它可以作为一个实用的培训工具,研究人员着手进行系统发育研究,也作为可能被纳入到教室或教学实验室的教育资源。

Introduction

为了了解两个(或更多)的物种是如何进化,首先需要从每个样品获得的序列或形态数据,这些数据代表的数量,我们可以通过使用进化空间来衡量他们的关系。只是测量直线距离时,其可用( 例如,英里,英寸,微米)更多的数据将等同于一个更精确的测量喜欢。测功,与研究者可以推断进化距离的精度在很大程度上受到可用来测量关系信息的数据量的影响。此外,因为不同样品演变以不同的速率和通过不同的机制,我们用来测量两个类群之间的关系的方法也直接影响进化测量的精度。因此,由于进化的关系并不直接观察,而是从序列或形态学数据,推断进化的问题外推关系变成统计中的一个。系统发生学是生物学关注的运用统计模型的进化模式,以优化重构类群间的进化史的分支。分类单元之间的这种重建被称为类群的系统发育关系

为了帮助弥合分子生物学家和进化生物学家我们在这里介绍一步步管道从一组序列​​的系统发育推断之间在专业知识的差距。首先,我们详细地使用基本局部比对搜索工具(BLAST 1)的算法,通过基于web的接口,并通过使用本地可执行涉及数据库询问的步骤,这是经常在获得相似序列的列表,以一个身份不明的第一步查询,虽然一些研究人员还可能有兴趣在收集数据的单个组通过网络接口,如Phylota(http://www.phylota.net/)。 BLAST是一个算法Comparing对序列数据库的一级氨基酸或核苷酸序列数据来搜索“命中”,类似的查询序列。 BLAST程序是由斯蒂芬Altschul 设计。在美国国立卫生研究院(NIH)1。爆炸服务器由许多不同的程序,这里是一些最常见的BLAST程序的列表:

I) 核苷酸-核苷酸BLAST(BLASTN):此程序需要的DNA序列输入和从DNA数据库返回最相似的DNA序列,用户指定( 特定的生物)。

ⅱ) 蛋白质-蛋白质BLAST(BLASTP):在这里,用户输入的蛋白序列和程序从用户指定的蛋白质数据库返回最相似的蛋白序列。

三) 特定位置的迭代BLAST(PSI-BLAST)(blastpgp):用户输入是一个保护制服在序列,其返回一组密切相关的蛋白质,并从这个数据集在一个保守的更新生成的。接下来一个新的查询只使用其中用于询问蛋白质数据库中的这些保守的“图案”产生,这会返回一个更大的组蛋白的这一套新的保守的“图案”被提取,然后用询问的蛋白质数据库中,直到一个更大的组蛋白被重新调谐,并产生另一个配置文件并重复该过程。由包括相关蛋白质进入每个步骤中的查询这个程序允许用户确定比较发散序列。

ⅳ) 核苷酸6帧翻译蛋白质(BLASTX):这里的用户提供了转换成六格概念翻译产物( 核苷酸序列输入两条链)与蛋白质序列数据库。

V) 核苷酸6帧翻译核苷酸6帧转换(TBLASTX):这个程序需要一个DNA核苷酸序列的输入和转换输入到它比较反对的核苷酸序列数据库的六框翻译全部六个框架概念翻译产物。

六) 蛋白质-核苷酸6帧转换(TBLASTN):这个程序使用了蛋白质序列输入要与之比较的核苷酸序列数据库的所有六个阅读框。

接下来,我们将介绍常用的方案,以便从序列数据集生成多序列比对(MSA),这之后是一个用户指南,以确定进化的最佳拟合模型序列数据集节目。系统发育重建是一个统计问题,并且因为这一点,系统发育分析方法需要将一个统计框架。这个统计框架成为它采用了数据集中的顺序变化的演化模型。这种进化莫德尔是由一组有关的核苷酸或氨基酸的替换过程的假设的,并为特定的数据集的最佳拟合模型可以通过统计测试来选择。将适合不同型号的数据可以通过似然比检验(LRTS)或信息标准,在一组可能的人选择最合适的模型进行比较。两种常见的信息标准是赤池信息量准则(AIC)2和贝叶斯信息准则(BIC)3。一旦一个最佳比对产生时,有许多不同的方法来创建自对准的数据的系统发育关系。还有推断的进化关系的多种方法;广泛地说,它们可分为两类:基于距离的方法和基于序列的方法。基于距离的计算方法从序列成对距离,然后用这些距离来获得树。基于序列的方法,直接使用序列比对,通常搜索吨采用最优标准REE空间。我们概述2基于序列的方法来重建系统发育关系:这些都是PHYML 4,它实现了最大似然框架,MrBayes 5它采用贝叶斯马尔可夫链蒙特卡罗推论。似然和贝叶斯方法提供了系统发育重建一个统计框架。通过提供对常用树构建工具的用户信息,我们将为读者介绍来推断亲缘关系所需的必要数据。

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1。基本局部比对搜索工具(BLAST):在线界面

  1. 点击该链接访问BLAST 1 web服务器在国家生物技术信息中心(NCBI)。 - http://blast.ncbi.nlm.nih.gov/Blast.cgi图1)。
  2. 输入一个FASTA格式的文本序列( 见图2为例)在查询框。
  3. 单击相应的BLAST程序和相关数据库或感兴趣的个别品种在搜索中使用,然后单击“BLAST”。
    注:FASTA格式的序列开始与一个“>”符号表示的描述一致。描述必须与“>”符号,序列( ,核苷酸或氨基酸)跟随在下一行的描述后,立即跟进。从BLAST搜索的输出被看作是HTML,纯文本,XML或打TA统计局(文本或CSV)的默认设置为HTML( 图3)。

2。基本局部比对搜索工具(BLAST):本地可执行文件

  1. 从这个链接下载最新的BLAST命令行BLAST可执行文件:
    ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ -
  2. EM> 对于PC用户:双击最新疾风win32.exe文件并接受许可协议,然后单击安装。
    注意:默认安装目录为C: NCBI-BLAST-2.2.27 +。
  3. 配置PC环境变量,如下所示:
    1. 点击电脑的“开始”按钮,然后用鼠标右键单击“计算机”,
    2. 点击“属性”,在弹出点击“高级”选项卡
    3. 点击“环境变量按钮”,并在新弹出的点击下个“新”按钮e“的用户变量用户”一节
    4. 在弹出的添加变量名“路径”和变量值为“C: NCBI-BLAST-2.2.27 + bin中。
      注:在bin目录包 ​​含可执行文件( BLASTP )。
  4. EM> 对于Mac用户:打开终端应用程序(要做到这一点只需打开“搜索”,然后搜索“终端”,这将显示“终端”图标)。到终端窗口输入:
    > FTP ftp.ncbi.nih.gov
    注:也可以输入在这个例子中为PC上面使用的URL
  5. 要访问NCBI的ftp站点类型为“无名氏”的名称和密码,然后键入:
    > CD爆炸/可执行文件/最新
  6. 通过键入以下列出的可执行文件:
    > LS
  7. 获取最新版本通过键入以下内容(或任何最新的版本是目前):
    2,获得NCBI-BLAST-2.2.7-macosx.tar.gz
  8. 通过键入“exit”退出NCBI的ftp服务器站点。
  9. 通过键入以下命令解压下载的文件:
    >焦油XZF NCBI-BLAST-2.2.7-macosx.tar.gz
  10. 添加二进制文件的爆炸可执行文件的位置到您的路径,以便shell可以通过输入查找命令时,通过此目录搜索:
    > PATH = $ PATH:new_folder_location
  11. 检查这个附加的位置到您的路径,键入:
    >回声$ PATH
  12. 点击这里下载一个预先格式化的BLAST数据库(这是每日更新):
    ftp://ftp.ncbi.nlm.nih.gov/blast/db/
  13. 将数据库置于“DB”文件夹中。
  14. EM> 在PC上:打开一个MS-DOS提示符(为此,请单击“开始”,在搜索栏输入“cmd”),并通过键入更改目录到NCBI-BLAST的文件夹:
    C:用户> CD .. [移动上一级文件夹]
    C:> CD NCBI-BLAST-2.2.27 +
    这将目录更改为:
    C: NCBI-BLAST-2.2.27 +>
  15. 创建使用下面的“makedb”命令数据库:
    > makedb - 在DB / briggsae.fasta-DBTYPE普罗特出DB / briggsae
    注意:在下面的例子中( 图4)中的数据库被命名为“briggsae”,并从生物体线虫briggsae由一个连接基团的
  16. 创建一个通过插入一个FASTA格式的文本蛋白质序列进“DB”文件夹,名为“测试”查询蛋白质序列。
  17. 通过BLASTP搜索通过键入以下命令审问数据库:
    > BLASTP查询DB / test.txt的-分贝分贝/ briggsae出的text.txt
  18. EM> 在Mac上:通过访问NCBI的ftp网站按照上面的操作步骤(步骤2.4),并下载本地BLAST搜索数据库中的n型:
    > LCD .. /数据库/
  19. 通过键入下载感兴趣的基因或序列:
    >得到NC_ [加入#]。FNA
    注:“FNA”指的是FASTA格式的核苷酸序列和“FAA”指的是FASTA格式的氨基酸序列。
  20. 输入“quit”退出ftp站点。
  21. 使数据库键入:
    > makeblastdb - 在DB / mouse.faa出鼠标DBTYPE普罗特
  22. 插入一张格式化的快速查询序列到“bin”文件夹,并用以下命令审问数据库:
    > BLASTP查询“你query.fasta”-DB“数据库”出results.txt

3。产生多序列比对

  1. 点击这些链接可以访问常用的多序列比对(MSA)计划:
    ClustalW比6 http://www.clustal.org/
    卡利GN 7 http://msa.sbc.su.se/cgi-bin/msa.cgi
    MAFFT 8,9 http://mafft.cbrc.jp/alignment/software/
    肌肉10 http://www.drive5.com/muscle/
    T型咖啡11 http://www.tcoffee.org/Projects/tcoffee/
    PROBCONS 12 http://toolkit.tuebingen.mpg.de/probcons
  2. 点击此链接- http://tcoffee.crg.cat/apps/tcoffee/do:regular -和输入FASTA格式的序列数据,在查询框
    注:从T型咖啡机的输出示例可以在图5中可以看出,类似残渣的颜色编码。
  3. 下载CLUSTAL MSA作为一个命令行版本(ClustalW比)或图形v版为(CLUSTALX)通过点击这个链接: http://www.clustal.org/clustal2/ -然后点击相应的可执行文件( 赢,在Linux,Mac OS X)。
  4. 上传数据为FASTA格式的序列文本和调整( 图6)。

4。确定进化的最佳拟合模型

  1. 点击这里下载ProtTest 13个方案:
    http://darwin.uvigo.es/our-software/
  2. 一旦ProtTest被下载,就ProtTest.jar双击文件
  3. 一旦ProtTest推出后,点击“选择文件”和加载序列数据( 图7)。
  4. 然后点击“开始”,程序将开始( 图8)。
    注:运行( 图8)完成后,程序会显示基于标准的最佳模式,例如 “根据AIC最佳模式:WAG + I + G”

5。通过最大似然或贝叶斯推理推断基于序列的系统发育

  1. 下载PHYML 4在这里:
    https://code.google.com/p/phyml/
  2. 通过双击相应的应用程序( PHYML的Windows,Linux的PHYML ),并在界面窗口就会弹出( 图9)启动的可执行文件。
  3. 通过键入以下命令加载输入序列作为PHYLIP格式的序列:
    >“文件名”。PHY
    注意: 要序列格式之间进行转换,使用可用的“Readseq”网络计划在- http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi
  4. 通过键入“Y”启动该程序。
  5. 下载MrBayes 5的位置:
    rceforge.net / download.php“> http://mrbayes.sourceforge.net/download.php
  6. 要启动该程序,点击可执行文件并读取NEXUS格式的序列数据到程序中键入:
    >执行“文件名”。NEX
  7. 将进化模型。
  8. 选择世代数通过键入运行:
    > mcmcp NGEN = 1000000 [这台世代数1000000]
    >油底壳燃尽= 10000 [此设置燃尽10000]
  9. 保存结果文件的分支长度,键入:
    > mcmcp savebrlens =是
  10. 运行由打字分析:
    > MCMC
  11. 使用“SUMT”命令总结的树木。

6。可视化系统发育

  1. 查看树查看器程序列表在这里:
    http://www.treedyn.org/overview/editors.html
  2. 下载的TreeView 14 PROGR在这里:
    http://taxonomy.zoology.gla.ac.uk/rod/treeview.html

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

寻找相似的查询可以让研究人员归咎于一个潜在的身份,以新的序列,并推断序列之间的关系。高炉1文件输入类型是FASTA格式的文本序列或GenBank登录号。 FASTA格式的序列开始与一个“>”符号( 图2)所示的描述一致。描述必须与“>”符号,序列( ,核苷酸或氨基酸)跟随在下一行的描述后,立即跟进。在保存和编辑序列文件,最好使用文本编辑器如PC或TextWrangler(“记事本” http://www.barebones.com/products/textwrangler/ )的Mac。 BLAST算法执行“局部”的路线,这将搜索序列相似性的短延伸。之后,该算法已抬头所有可能的“stretches“从查询序列和最大限度地延长这些序列,它然后组装线路走向为每个查询序列对。它是那么重要的是要了解这些比赛有多好,因此适用于高炉统计当中包括一个预期值(E)每一击并有点成绩。E值给出一个匹配的统计显着性的指标。的E值越低,越显著的热播,例如序列比对与0.05 E值意味着这个可能性单靠偶然发生匹配的是5 100位得分使用特定的评分矩阵提供的有多好走线,较高的比特得分,更好的对齐方式。类似BLAST的在线版本,有迹象显示一些可以通过使用本地BLAST的可执行命令设置参数的综合资源描述这些命令都可以在这里找到- http://www.ncbi.nlm.nih.gov/books/ NBK1762 /。本地搜索的输出是一个文本文件,就像从在线BLAST接口的输出端( 图4)。

多序列比对(MSA)是氨基酸,DNA或RNA组成的三个或​​更多的一级序列的序列比对。 ClustalW比6发布于1994年,是最流行 ​​的MSA工具的生物学家之一。 -一个用户友好的在线界面,提供一站式访问一些流行的MSA工具可以在EMBL-EBI服务器在这里找到http://www.ebi.ac.uk/Tools/msa 。输入每个程序可以FASTA格式的序列数据( 见图2),虽然许多不同的格式也被接受,并且众多的镜像站点为每个人都可以在网上找到。许多参数,如缺口罚和输出格式可以很容易地选择。从MSA T型咖啡机的输出示例在图5其中类似残渣是共同被视为LOR编码。在一些情况下,MSA工具也可以被下载和本地执行。 CLUSTAL可以下载一个命令行版本(ClustalW比)或图形化版本(CLUSTALX)从这个网站- http://www.clustal.org/clustal2/ 。要下载,只需点击相应的可执行文件( 。胜利,在Linux,Mac OS X)。对于Windows的可执行程序将下载并弹出菜单中会要求用户点击“运行”,然后安装将开始。该方案是非常直观的,序列可从包含格式化为NBRF / PIR,FASTA EMBL / SWISS-PROT,CLUSTAL,海湾合作委员会/无国界医生,GCG9无国界记者组织,以及GDE序列的文本文件被加载。序列通过单击“对齐”菜单中的“不完全一致”对齐。使用CLUSTALX排列6蛋白质序列样本比对可以看出,在图6。各种参数,如字体大小和颜色可以很容易地修改,editi序列的NG是通过单击“编辑”菜单上完成。手工精制的路线往往优于完全自动化的方法也正因为如此,MSA工具的开发是研究的一个非常活跃的领域。一些常见的对齐编辑器可以在以下链接找到: -硒-铝http://tree.bio.ed.ac.uk/software/seal/ ; BSEdit - http://www.bsedit.org/ ; JalView - http://www.jalview.org/ ;海景- http://pbil.univ-lyon1.fr/software/seaview.html

对于氨基酸比对的程序ProtTest 13是用于确定的数据中氨基酸置换的最佳拟合模型的选择。 ProtTest使得本次评选由候选机型具有最小赤池信息准则(AIC),贝叶斯Informa公司列表找到模型化准则(BIC)的分数,或决策理论标准(DT)。 ProtTest(3.2版)的最新版本,包括15个不同的速率矩阵的产生120种不同型号。用户必须具有Java运行时在其系统上运行ProtTest。 Java运行时是可自由查看这里- http://www.java.com/en/download/chrome.jsp 。序列作为输入PHYLIP或NEXUS格式。要序列格式之间进行转换,使用可用的“Readseq”网络课程在- http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi 。点击“选择文件”和加载顺序的数据。然后点击“开始”,程序将开始。要修改选定款式众多,您可以点击“模式”按钮。一旦程序开始它会在底部显示一个进度条,并列出了模型,因为他们正在分析( 图8 https://code.google.com/p/prottest3/wiki/Background 。此外,还有一个在线web界面ProtTest它的功能只是相似,但它只能处理序列的数量有限的下载版本。 -这个web界面可以通过点击这里访问http://darwin.uvigo.es/software/prottest2_server.html 。对于核苷酸数据集的节目jModelTest 15用于通过实现AIC,BIC,并且上面还分层和动力的可能性定量测试概述DT的标准来检查统计选择的核苷酸替换的最佳拟合模型S(hLRT和dLRT)。 jModelTest是适用于Mac OS X。对于输入进行了优化,多种格式是允许的。清晰的一步一步的指导,可通过这里的开发商- http://computing.bio.cam.ac.uk/local/doc/jmodeltest.pdf

PHYML是一种程序,用于估计最大似然系统发育从核苷酸或氨基酸序列的比对。 PHYML将采用大量的耦合到不同的选项来搜索树的拓扑空间( 图10)的替代车型。该程序将结果保存成两个文本文件。第一个文件将包含ML树的Newick格式,它可以很容易地使用树查看器(见协议6)观察,其他文件将包含数据(文件名 ​​,型号,对数似然度评分 )的分析。所有参数都非常容易被下面的菜单项设置。每个菜单运算的详细描述-化都在PHYML手册提供的PHYML下载页面上的说明https://code.google.com/p/phyml/downloads/list 。 MrBayes 5是一个程序,利用贝叶斯MCMC推断在多个演化模型重建亲缘关系。该程序的行为同样在所有平台上,一旦下载了安装程序将安装可执行文件。若要启动该程序,只需点击可执行文件。有许多模型,可以设置每个模型及其命令的详细信息可以在这里找到- http://mrbayes.sourceforge.net/wiki/index.php/Tutorial 。另一种帮助选择是键入“help LSET” - 这将提供模型设​​置的详细信息。例如“PRSET aamodelpr =混合”将允许混合建模或“PRSET aamodelpr =固定(WAG)”将设置氨基酸模式向西澳 G型。外类群可以通过指定类群数“外类群30”轻松设置,该程序会自动按编号列出序列/类群。如果未指定外类群的树将是无根。一旦在程序运行( 图11)的进展,可以在其中可以使用“printfreq = X”命令被设置特定的时间间隔来查看。关于何时停止分析( ,多少代参选)可以在用户手册中找到更多详细信息。所提供的结果的一个进化树分支的值一起,可方便地使用树查看器(见协议6)观察其在的Newick格式还提供了一种系统发生图。

一旦生成系统树,拓扑结构需要被可视化。网上有很多工具和用于可视化树的拓扑结构可下载的应用程序。受欢迎的节目的部分列表可以在这里观看 - ylogenetic_tree_visualization_software">http://en.wikipedia.org/wiki/List_of_phylogenetic_tree_visualization_software ,和更全面的列表可以在这里找到- http://www.treedyn.org/overview/editors.html 。 TreeView的14TreeDyn16顷两个流行的选择。两者都是非常用户友好,易于熟悉各种选项。 TreeView控件运行在Mac和Windows,使用几乎相同的接口。输入可以是几种格式,包括NEXUS,PHYLIP,Hennig86,美佳,和的ClustalW / X 1树视图( 图12)还包括一个树编辑器,允许用户移动树枝,reroot树,并重新排列树的外观。

图1
图1。 > NCBI BLAST网页 。爆炸Web服务器包含了一套BLAST程序,由国家生物技术信息中心(NCBI)主办。 点击这里查看大图。

图2
图2。FASTA格式的序列 。 FASTA格式以一个“>”表示的描述一致。描述必须与“>”符号,序列( ,核苷酸或氨基酸)跟随在下一行的描述后,立即跟进。 点击这里查看大图。

NT“FO:保持together.within页=”总是“> 图3
从BLAST搜索的输出图3。的HTML。从BLAST搜索的输出显示身份的查询序列内的区域,并且还提供了位分数,期待值和两两比对与每场比赛。 点击这里查看大图。

图4
图4。从本地BLAST可执行搜索的输出示例 。此搜索器的输出是一个文本文件,就像从在线BLAST接口的输出,即包括预期值和位的得分,以及匹配的描述。 点击这里查看大图。

图5
图5。输出采用T型咖啡一个海事局 。输出突显类似的网站和权重匹配的颜色。缝隙插入为“ - ”标志,残渣或核苷酸位置保存每个分类单元。 点击这里查看大图。

ig6.jpg“/>
图6。使用CLUSTALX的样本比对 。类似的匹配颜色编码和差距被插入一个“ - ”符号。菜单栏出现在左上角, 点击这里查看大图。

图7
图7,ProtTest程序界面。 点击这里查看大图。

图8
网络连接GURE 8,ProtTest控制台。ProtTest控制台同时运行分析。进度条表示多少模型已经完成,主窗口显示的对数似然得分为每个模型。 点击这里查看大图。

图9
图9,PHYML接口。 点击这里查看大图。

图10
图10,PHYML界面菜单。一旦序列被加载到PHYML第一个菜单出现,可以通过键入方括号内的字母或符号进行导航。子菜单可以通过输入“+”号抵达。 点击这里查看大图。

图11
图11。MrBayes接口。当MrBayes启动的进 ​​程可以在特定的时间间隔进行查看设置使用“printfreq = X”命令。虽然该程序无法在运行过程中被停止,几代人的指定数量的计算后,用户将被他们是否要运行更多代问。www.jove.com/files/ftp_upload/50975/50975fig11highres.jpg“目标=”_blank“>点击这里查看大图。

图12
图12。TreeView的接口。在此图中的树视图窗口显示的蛋白质从Flybase(http://flybase.org/)的样本树。文件点击“打开”选项,并选择相应的文件类型( 。的Newick格式)导入。 点击这里查看大图。

Subscription Required. Please recommend JoVE to your librarian.

Discussion

我们希望这篇文章是它将作为一个出发点,引导研究人员或学生,是新的系统发育。基因组测序计划已经变得不那么昂贵,在过去的几年里,因而这种技术,用户需求在不断增加,现在生产的大型数据集的顺序是司空见惯的小型实验室。这些数据集通常为研究人员提供的基因组需要一个进化的框架开始了解它们的功能。此外,由于系统发育是找到一个家在越来越多的研究实验室,我们还打算对这篇文章作为学生在生物学研究兴趣广泛的教育设备。通过对“为什么”,“怎么做”和“其中”常用树构建工具,我们为读者提供了一个框架,开始与这些应用程序熟习以及它们如何工作,提供用户信息。 ħH但是,我们建议读者玩弄每个工具中的所有设置,试图了解各种参数如何影响它们的序列数据,并确保平台和软件在每种情况下之间的兼容性。使用的Dell OptiPlex 990采用英特尔酷睿i7处理器和MacBook笔记本电脑配备英特尔酷睿2双核处理器上面列出的分析计算,但是,分析的速度,也是特定的二进制文件( 例如 ,32位或64位),将取决于在用户的平台。

编写这样一个用于系统发育用户指南时的一个挑战是,系统学领域,以及生物信息学作为一个整体,是研究一个迅速扩大的领域,不断推出新的软件,旨在提供更好的比对,相似的预测,或系统进化树。为了缓解这个问题,我们试图把重点放在已经存在了数年,但仍流行的户口O方案f如何以及他们的工作。这就是说,我们要指出的是,有可用来解决我们在这篇文章中所阐述,并因此鼓励读者利用这一点,将多个应用程序集成到他们的分析问题的许多其他工具。

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

我们什么都没有透露。

Acknowledgments

我们感谢洛伦实验室的成员,对稿件的意见。我们感谢乔治华盛顿大学系生物科学与艺术和科学的哥伦比亚学院拨款,D.洛伦。

Materials

Name Company Catalog Number Comments
BLAST webpage  http://blast.ncbi.nlm.nih.gov/Blast.cgi
BLAST executables  ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
Preformatted BLAST databases ftp://ftp.ncbi.nlm.nih.gov/blast/db/
Clustal http://www.clustal.org/
Kalign http://msa.sbc.su.se/cgi-bin/msa.cgi
MAFFT http://mafft.cbrc.jp/alignment/software/
MUSCLE http://www.drive5.com/muscle/
T-Coffee http://www.tcoffee.org/Projects/tcoffee/
PROBCONS http://toolkit.tuebingen.mpg.de/probcons 
Se-Al  http://tree.bio.ed.ac.uk/software/seal/
BSEdit  http://www.bsedit.org/
JalView http://www.jalview.org/
SeaView http://pbil.univ-lyon1.fr/software/seaview.html
ProtTest  https://code.google.com/p/prottest3/
Java Runtime  http://www.java.com/en/download/chrome.jsp
Readseq http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi
jModelTest https://code.google.com/p/jmodeltest2/
PhyML https://code.google.com/p/phyml/
MrBayes http://mrbayes.sourceforge.net/download.php
TreeView http://taxonomy.zoology.gla.ac.uk/rod/treeview.html
TreeDyn http://www.treedyn.org/

DOWNLOAD MATERIALS LIST

References

  1. Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207, (4), 647-653 (1989).
  2. Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19, (6), 706-723 (1974).
  3. Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6, (2), 461-464 (1978).
  4. Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52, (5), 696-704 (2003).
  5. Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17, (8), 754-755 (2001).
  6. Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22, (22), 4673-4680 (1994).
  7. Lassmann, T., Sonnhammer, E. L. Kalign--an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
  8. Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33, (2), 511-518 (2005).
  9. Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30, (14), 3059-3066 (2002).
  10. Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32, (5), 1792-1797 (2004).
  11. Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302, (1), 205-217 (2000).
  12. Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15, (2), 330-340 (2005).
  13. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27, (8), 1164-1165 (2011).
  14. Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12, (4), 357-358 (1996).
  15. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9, (8), 772 (2012).
  16. Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).

Comments

0 Comments


    Post a Question / Comment / Request

    You must be signed in to post a comment. Please or create an account.

    Usage Statistics