Summary
本议定书的目标是制定一个基准不同蛋白质缺乏连贯一致的命名和分类标准的组中。此引用有助于分析和小组讨论作为一个整体,可采用除规定名称。
Abstract
研究了在不同的实验室使用不同生物体的相关的蛋白可能缺乏统一的制度的命名和分类,制作困难,讨论组作为一个整体并放置到适当的上下文的新序列。发展优先重要序列特征的引用有关的结构和 (或) 活动可用于除规定名称向不同的蛋白质组中添加一些相干。本文使用的半胱氨酸稳定 α 螺旋 (CS-α β) 超家族作为一个例子显示如何在电子表格软件中生成的引用可以澄清现有蛋白超家族成员之间的关系,以及促进新的加法序列。它还演示如何引用可以帮助完善中常用的软件,系统发育分析的有效性的影响生成的序列比对。引用的使用可能会对于蛋白质组包含高度不同的序列,从广泛的类群,具有各种功能,不充分的分子分析捕捉到最有帮助。
Introduction
蛋白质的名称应该反映是特征及与其他蛋白质的关系。不幸的是,名称通常会发现当时被分配,并且,随着研究的继续,较大范围的理解可能更改。如果蛋白质被独立地识别由多个实验室,变化在命名或被认为是明确分配名称时的特点和充足地不再区分蛋白质的名称,这会导致多个名称从别人。
无脊椎动物防御提供很好的例子,变性的命名和分类。第一次的无脊椎动物防御宗从昆虫,和名称"昆虫防御素",提出了基于感知的同源性为哺乳动物防御素1,2。长期防御素仍然使用,即使它是现在很清楚那无脊椎动物及哺乳动物防御素不共享一个共同的祖先3,4。根据物种,"防御"无脊椎动物可能有六个或八个半胱氨酸 (即形成三个或四个二硫键) 和各种抗菌活性。防止局势进一步复杂化,具有相同特征的蛋白质称为防御素是不总是"防御,"如最近发现的 cremycins 从秀丽 remanei5。此外,无脊椎动物大防御素是更有可能进化有关脊椎动物 β-防御素比到其他无脊椎动物防御6。尽管这样,研究人员有时依赖名称"防御"确定哪些序列应列入分析时。
结构的研究揭示昆虫防御素与蝎子毒素7,之间的相似性和 CS-α β 折叠随后成立作为昆虫防御8的定义结构特征。这折叠结构蛋白质分类 (SCOP) 数据库中9,目前包括五个家庭定义蝎子毒素样 (CS-α β) 超家族: 昆虫防御素、 短链蝎毒素、 长链蝎毒素,MGD 1 (从软体动物) 和植物防御素。这个家族是最近描述的独联体防御4和蛋白酶基因 3D 数据库10,11超 3.30.30.10 家族的代名词。从繁多的无脊椎动物类群、 植物和真菌显示的名称包含这折叠的蛋白质显然无关的半胱氨酸数量的抗菌活性或键合模式、 进化历史12的研究。
缺乏一致性和明确的标准,使它具有挑战性进行命名和分类在这个家族中的新发现序列。比较此超家族蛋白的主要障碍是半胱氨酸的编号对每个单独序列 (每个序列中的第一个半胱氨酸是 C1),没有办法解释的结构的作用。这意味着只有序列与相同数量的半胱氨酸可以进行比较。还有小序列保守性非半胱氨酸形成 CS-α β 折叠,使线路及系统发育分析困难。通过开发划分结构功能优先级编号系统,可以更轻松地比较和对齐家族序列。保守的特点,以及那些定义分组,可以快速,可视化和新序列可以更轻松地放入适当的上下文。
本文使用一个电子表格软件 (如Excel) 来生成参考编号系统的 CS-α β 超家族。它显示如何这澄清序列之间的比较,并将其应用于新的 CS-α β 序列确定从缓步动物。使用 CS-α β 超家族作为一个例子,是写议定书 》 提供指导,当使用序列的兴趣;然而,它不是要具体到这个家族或富含半胱氨酸序列。此方法可能会最有用的蛋白质,有独立研究在不同类群和 (或) 有小的整体序列同源性,与离散性的特征,不可能很容易识别的分子分析软件组。此方法要求一些先验的决定,有关重要的功能,所以它将有限的公共事业,如果没有重要的特点,确定了。主要的目标是展示如何可以实现一个简单的可视化的序列关系。这然后可以用于通知序列比对和分析,但如果对齐方式和分析的主要目标,条形码方法会有更多的容量,为自动化13个合适的选择。当前方法的线性形式,显示每个肽的特点,所以它不会有助于直接可视化的三维结构。
Subscription Required. Please recommend JoVE to your librarian.
Protocol
1.确定定义功能的蛋白质组的
- 咨询以前的出版物,以确定是否有必要考虑组的一部分的功能方面达成共识。注意到的任何不一致之处或意见研究团体之间的分歧,包括可能有助于区分另一个亚组的特点。
- 如果以往文献不能解决最大特色,使用序列作为起点来识别保守的特点被认为集团代表。
2。收集有关序列
- 如果已编写审核,包括分析序列,所代表的集团,包括这些序列中的原始数据集。检索序列使用加入数字文献中引用和保存标准序列编辑程序中 (例如, EditSeq Lasergene 套房或的众多可供一个免费在线)。
- 如果问题组已定义在一个结构的数据库,包括数据库列出作为组的一部分使用加入数字提供了在数据库中检索序列的序列并保存在标准序列编辑程序,如上。
注: 例如,分类在 CS-α β (蝎子毒素样) 超家族 SCOP 数据库中的序列可以在这里找到: http://scop.mrc-lmb.cam.ac.uk/scop/data/scop.b.h.c.h.html. - 执行基本本地对齐方式搜索工具 (BLAST) 14 检索公共、 在线数据库可用通过国家中心为生物技术信息中心 (NCBI) 找到可能不在文献中包含的序列或结构数据库。因为大部分完成结果、 使用这两种蛋白质爆炸 (blastp) 和翻译爆炸与蛋白 (tblastn) 查询程序;这些都可在: https://blast.ncbi.nlm.nih.gov/Blast.cgi.
- 使用序列已知作为查询序列是感兴趣的组的一部分。复制和粘贴在顶部,搜索框中的序列或提供基因加入号码或 gi 标识符,如果可用。
- 从下拉菜单中选择的数据库。选择非冗余蛋白质序列 (nr) 为 blastp 和表达序列标签为 tblastn.
- 搜索结果体内设置键入有机体或分类单元的名称,从打字时出现的列表中选择的特定类群。若要添加其他有机体或类群中排除,请单击 " + " 按钮和另一个字段将出现。排除任何不需要的罗汗松在有机体框中键入的有机体或分类单元的名称,从同时键入,并检查显示的列表中选择 " 排除 " 右侧框。
- 通过单击访问附加参数 " 算法参数 " 附近的页的底部。保留默认值除非有理由要改变一个参数。 单击
- " 高炉 " 按钮以运行分析; 它可能需要一些时间来显示结果。一般情况下,检索命中与预期值 (或 e-值) 的 "-05 " 或更好的与标准序列编辑程序中保存。
- 如果所有点击数高于此阈值,重新运行搜索与日益增多的靶序列 (在算法参数部分) 以获得所有相关序列。
- 如有必要,修剪序列以排除不相关的信息 (例如, CS-α β 折叠仅适用于成熟肽)。识别信号肽和 pro 肽去除使用道具 15 (可用在线),或为更复杂的信号肽预测 16 SignalP (可在线)。
3。在电子表格中基于重要特征,确定了生成引用
- 标识的组的最大特色。例如,使用 CS-α β 折叠明确建立由昆虫防御素 Phormia terraenovae ( 图 1) 8 A 的解决方案结构。
- 这折叠包括一个小的主题,称为半胱氨酸稳定螺旋 (CSH) 17; 确定这一主题的 CXXXC (其中 X 是任何氨基酸) 上游形成两个二硫键 CXC ( 图 1、 固体粉红色线条)。
注: 要完成 CS-α β 母题,第三个二硫键形成从额外半胱氨酸,摆在每个半场 CSH 图案 ( 图 1,点缀粉色线) 面前。
- 这折叠包括一个小的主题,称为半胱氨酸稳定螺旋 (CSH) 17; 确定这一主题的 CXXXC (其中 X 是任何氨基酸) 上游形成两个二硫键 CXC ( 图 1、 固体粉红色线条)。
- 输入这些到电子表格中定义的功能。请参见 图 2。
- 使用列的保守的功能,并表示这些功能之间的空格。保持足够宽,以便容纳数字并确保他们有一个一致的宽度的列。设置宽度使用 " 格式 |列宽度 " 功能 ( 图 2,粉红色的箭头)。
- 序列名称中使用行。
- 当序列具有的特点,填写框中使用的填充函数 ( 图 2,粉红色广场)。功能部件之间的间距,之间的框中输入氨基酸数目并保持空缺。例如,利用昆虫防御素序列给出了包括六个半胱氨酸、 定义间距以及 C5 和 C6 之间 C2 和 C3 的引用。
- 添加代表此前已建立的序列作为基于结构数据库和文学组的成员。
注: 例如,前面的文献和 SCOP 数据库确定列入几个群体: 昆虫防御素、 短链蝎毒素、 长链蝎毒素 MGD 1、 植物防御素、 ABFs 线虫、 果蝇, 从 drosomycins 和macins。文学也标识可能代表 18 本家族的祖先的只有四个半胱氨酸与细菌的序列。添加这些序列增加半胱氨酸在六至十参考但保持重要的结构特征 ( 图 3) 的对齐方式。- 若要添加一项功能,很容易定义序列 (例如,额外的半胱氨酸) 的一个子群,使用 " 插入 " 功能 ( 图 3,粉红色的箭头)。
- 如果有的功能缺失从一个给定的序列,将填充框和结合代表介入氨基酸盒子。如有必要,合并单元格使用合并及居中功能 ( 图 3,粉红色的盒子)。
- 继续将序列添加到的组,以更好地了解每个组的大家族中的变化。总结的群体特征,以便利比较 ( 图 4)。
- 氨基酸之间主要特征数目变化时,使用连字符来指示一个范围,如 6-12 (6 至 12 氨基酸) 和一个斜杠,表明不是 / 或者,如 7/10 (7 或 10 氨基酸)。
- 选择注释的序列可能有关,但不会经常发生,在引用中包括的功能的方式。例如,由于半胱氨酸是重要在这个家族中,标签附加半胱氨酸 ( 图 4,粉红色框)。
- 添加 newly 确定序列到电子表格中使用既定的序列作为指南。例如,从缓步动物 (黄色) 添加序列显示缓步序列分为几个不同的家族 ( 图 5 显示摘要而不是每个层序空间用于行)。
- 通过重新排列行 ( 图 6) 显示分类组内的变异。
4。使用改进的氨基酸排列的引用
注: 有很多的程序,可以用于多序列比对,但这个示范将使用分子进化遗传分析 (MEGA6) 19 因为它是可供免费下载。
- 下载并安装软件。
- 通过选择开始新的对准线在巨型 " 编辑/生成对齐 " 下对齐选项卡选择 " 创建一个新的路线 " 在框中出现,请单击 " OK。 " 然后选择 " 蛋白质。 "
- 选择 " 从文件插入序列 " 在 " 编辑 " 菜单导入序列。
注意: 序列将需要在 FASTA 格式导入到大型。默认情况下,使用反映不同氨基酸类型的背景颜色,但此选项可以关闭下 " 显示 " 菜单。 - 一旦输入所有序列,请单击伸缩臂图标,然后 " 对齐蛋白 " 来对齐序列使用肌肉算法 20。
注: ClustalW 也是可用的。- 如果一个消息,说什么已经选定的持久性有机污染物和要求来选择所有,单击 " OK。 "
- 注: 这将打开一个窗口,允许一个人能改变一些参数,但他们,才应该更改理由这样做。这种分析使用子集序列分析在先前的纸 12.
- 检查对齐方式的基础的重要特征; 请注意,上面的序列的顶部栏将显示的任何列氨基酸在哪里完全保守 (*)。请参阅 图 7。请参阅初始对准显示只有三个四个保守半胱氨酸 ( 图 7,粉红色框);俯视列中,AlCRP 序列是明确未对齐 ( 图 7,粉红色的箭头)。
- 要摆脱我的大差距和保守的 C,突出显示的短划线和新闻 " 删除 " 的关键。不突出任何氨基酸,或他们将同时删除。
- 移动到右边的氨基酸,突出显示,按空间栏
- 注 AlCRP 现在已经对齐结构半胱氨酸和 C 最后的 CXXXC 主题守恒整个对齐 ( 图 8)。调整对齐方式,有必要优先序列的最重要特点。
5。比较组确定使用从系统发育分析结果与参考
- 从初步的路线,确定哪些序列应包含在系统发育分析; 对于少量的序列,这一步可能是不必要的。
- 保留对齐文件包含所有的序列,但系统发育分析,将删除冗余序列 ( 图 9,粉红色框显示对的冗余序列)。
- 如果数据集包含大量的序列,运行初步分析和选择代表从群体总是形成分支。
- 确定最佳的氨基酸替代模式。
- 出口巨型格式 (在数据选项卡) 中的对齐方式。
- 转到模型菜单并选择 " 找到最佳 DNA/蛋白质模型。 " 选择刚刚保存的文件并打开它; 这将打开一个窗口,可以更改某些参数。
- 使用默认参数,除非有理由去改变它们。单击 " 计算 " 开始分析。
- 运行的最大似然 (ML) 分析在巨型。
- 选择 " 构建/测试最大似然树 " 从发展史上菜单。
- 选择确定的模型是最适合的数据从步 5.2 (输出就能替代模型,最好 " 率网站 " 参数)。
- 选择 1,000 引导复制以获得对树的支持措施。 单击
- " 计算 " 运行分析;巨型有 " 树资源管理器 " 可视化树。
- MrBayes 开放源码软件 21 运行贝叶斯分析。
注: MrBayes 手册是也可从本网站。这只提供基本步骤并不是进行贝叶斯系统发育分析的综合指南。- 将巨型对齐在波普 (Nexus) 格式导出到 MrBayes 程序相同的文件夹中。
- 开放 MrBayes 和类型 " exe 文件名 " (例如, " exe Alignment.nex ")。
- 指定的模型和分析参数。选择在步骤 5.2 中指定的任一模型或选择 " 混合 " 设置,会尝试各种型号和报告在树上与最好的后验概率模型的频率 (prset aamodelpr = 混合)。类型 " showmodel " 报告当前的模型设置和 " 帮助 mcmc " 显示当前参数设置,与每个的简要说明。
- 设置的数代使用 " mcmcp ngen = " 命令 (100 万是典型)。
- 型 " mcmc " 开始分析。
- 代数目已完成时,程序会要求要添加更多的后代。如果分裂频率平均标准偏差均小于 0.1,键入 no。如果它是高于 0.1,分析应该再继续下去,或一些参数应改变 (见手册 》)。
- 使用 " sumt " 命令以生成树文件。
- 完成分析并生成共识树之后,可以在忐忑不安中查看树 (可在线)。
- 比较,树木可以看到是否方法生成一致的结果。
注意: 一些序列并不提供大量的信息: 树可能不是很好的解决和分公司,可能有极少的支持 ( 图 10)。 - 把确定使用引用来看看是否系统发育分析支持这些群体的群体树木比作。
Subscription Required. Please recommend JoVE to your librarian.
Representative Results
序列在文献报道的 CS-α β 超家族中的组如图 4所示。半胱氨酸配对的基础,每个序列的编号表明五个基本组 (表 1,中间列)。第一小组有六个半胱氨酸,从三个二硫键债券,包括昆虫、 蛛形纲动物、 软体动物、 线虫、 真菌从序列。组 2、 3 和 4 已形成四个二硫键的 8 半胱氨酸。第二组包括昆虫、 蜘蛛纲动物和植物序列;第 3 组包括蛛形纲动物、 软体动物和线虫的序列;和 4 组包括序列从刺胞动物、 环节动物、 软体动物和真菌。第 5 组包括 10 半胱氨酸 macins。一些序列不太符合这些模式却比其他一般接近一组。
组 1 和 2 似乎分享两个债券: C2 C5 和 C3 C6;然而,开始其第一次的半胱氨酸与每个序列的编号不承认债券结构上下文。C2 C5 在第 1 组序列两个债券在 CSH 母题,而 C2 C5 组 2 序列中形成稳定 CS α β 折叠所需的最终债券的形式。同源的债券 1 C2 C5 组 Group2 C3 C6,这是不明显的编号。它也是不明显,在组 3,C2 C6 债券结构的作用相同。
使用序列从文学生成的总共有十个半胱氨酸的引用。CSH 母题是从债券 C3 C8 和 C4 C9,与 C2 C6 完成 CS-α β 折叠形成的。重编的基础的参考编号的半胱氨酸对澄清目前每个序列 (表 1,右边一列) 中的债券。现在,显而易见的是,所有序列都有 C2 C6、 C3-C8 和 C4 C9,反映结构的折叠定义超家族。引用的使用允许之间有不一致的命名法的序列和含糊不清的分类标准进行比较。它还有助于识别定义序列的一个子群的特点。例如,C1 C7 债券可能区分 macins 从其他家族成员,使其适当分类序列与此债券作为"macins",而不是"防御"(表 1和图 4)。
公共在线数据库搜索透露十六序列从缓步动物无疑有 CS-α β 折叠,八次每个从Hypsibius dujardini和Milnesium tardigradum.四新序列有六个半胱氨酸、 九有八个,其中有九个和两个有十个。这给了很少的信息,但通过对齐到参考序列,它变得清晰,缓步序列与相同数量的半胱氨酸不总是具有结构重要半胱氨酸在同一个地点内的序列 (图 5和图 6)。与引用的对齐方式还允许推理的键合的模式 (表 2,推断键合模式显示在括号中)。一些缓步序列清楚适合模式 1-4。还有最相似的拟议的细菌祖先、 蝎子 Cl-毒素或真菌防御素样肽的家庭。模式 2 可能有两个分组,一个由蝎毒素 Na +、 drosomycin,和植物防御素等代表由蝎氯毒素。需要进一步开展工作,调查缓步动物蛋白质的功能是要确定是否一些应视为毒素,而不是防御。
系统发育分析常用来研究如何进化一组蛋白质,可能是。CS-α β 超家族中的序列是一般很短和高度分化;生成树往往不好解决,并提供小的洞察力。ML 和贝叶斯树为序列的一个子集在这里分析了差圆满解决了,很多分支 (图 10,补充文件 1-4) 低支持。它是常见的做法,以仅显示引导水平超过 70 (或超过 0.7 的后验概率),但图 10保留所有的数据来证明的总体低级别的支持。五个集团都支持以上 70/0.7 中至少一个在两棵树: (a) 6 C 和 8 C 蝎毒素;(b) macins;(c) 刻度和蝎子防御;(d) 植物防御素;和 (e) 6 C 防御从昆虫、 蜘蛛纲的动物和软体动物。在 ML 树中,分支 e 还包括 8 C 毒素和 8 C 缓步动物防御素,但支持率很低 (图 10A)。一般情况下,这些反映使用参考半胱氨酸编号标识的类别,但也显示大分类组内不同半胱氨酸数字序列可能比具有相同的模式,从序列的关系愈来愈密切不同的群体。而只有少量的序列用在这项研究中,较大的 250 序列分析并没有消除缺乏的决议 (补充文件 5-8)12。电子表格引用对齐方式可能与相比,系统进化树的结构或功能的相关性提供更容易可视化的相似之处。
图 1:定义序列和结构特征的 CS-α β 超家族。氨基酸和三维结构的颜色编码: 循环 (蓝色)、 α-螺旋 (绿色)、 β-床单 (黄金) 和二硫键 (粉红色)。请点击这里查看此图的大版本。
图 2:基于昆虫防御素序列初步六-半胱氨酸参考。列指示保守的半胱氨酸 (C1 C6) 和 CSH 母题,数目守恒的氨基之间半胱氨酸酸。填充的框指示该序列具有给定的半胱氨酸和数字之间半胱氨酸的氨基酸。请点击这里查看此图的大版本。
图 3:精制十-半胱氨酸参考基于 CS-α β 超家族团体代表序列。列指示保守的半胱氨酸和它们之间的多种氨基酸。标记为半胱氨酸为 CSH 主题 (C3、 C4、 C8,C9) 和 CS-α β 折叠 (C2 和 C6) 作出贡献。通过分类群使用颜色编码序列: 蛛形纲 (浅橙色)、 细菌 (黑色)、 刺胞动物 (灰色),六足总纲 (橙色)、 软体动物 (蓝色)、 线虫类 (紫色) 和植物界 (绿色)。请点击这里查看此图的大版本。
图 4: 总结 CS-α β 超家族序列对齐与参考的群体特征。列指示保守的半胱氨酸和它们之间的多种氨基酸。标记为半胱氨酸为 CSH 主题 (C3、 C4、 C8,C9) 和 CS-α β 折叠 (C2 和 C6) 作出贡献。通过分类群使用颜色编码序列: 环节动物门 (暗红色)、 蛛形纲 (浅橙色)、 细菌 (黑色)、 刺胞动物 (灰色)、 真菌 (浅绿色),六足总纲 (橙色)、 软体动物 (蓝色)、 线虫类 (紫色) 和植物界 (绿色)。由短划线分隔的数字指示范围的干预氨基酸;用斜线分隔的数字代表要么 / 或。"C"表示额外的半胱氨酸,足够的频率需要添加到引用时不会发生。请点击这里查看此图的大版本。
图 5: 另外缓步动物 CS-α β 序列到家族对齐与参考的群体特征。列指示保守的半胱氨酸和它们之间的多种氨基酸。标记为半胱氨酸为 CSH 主题 (C3、 C4、 C8,C9) 和 CS-α β 折叠 (C2 和 C6) 作出贡献。通过分类群使用颜色编码序列: 环节动物门 (暗红色)、 蛛形纲 (浅橙色)、 细菌 (黑色)、 刺胞动物 (灰色)、 真菌 (浅绿色)、 六足总纲 (橙色)、 软体动物 (蓝色)、 线虫类 (紫色)、 细胞壁 (绿色) 和缓步 (黄色)。由短划线分隔的数字指示范围的干预氨基酸;用斜线分隔的数字代表要么 / 或。"C"表示额外的半胱氨酸,足够的频率需要添加到引用时不会发生。请点击这里查看此图的大版本。
图 6:另外缓步动物 CS-α β 序列与参考通过分类群家族对齐。列指示保守的半胱氨酸和它们之间的多种氨基酸。标记为半胱氨酸为 CSH 主题 (C3、 C4、 C8,C9) 和 CS-α β 折叠 (C2 和 C6) 作出贡献。通过分类群使用颜色编码序列: 环节动物门 (暗红色)、 蛛形纲 (浅橙色)、 细菌 (黑色)、 刺胞动物 (灰色)、 真菌 (浅绿色)、 六足总纲 (橙色)、 软体动物 (蓝色)、 线虫类 (紫色)、 细胞壁 (绿色) 和缓步 (黄色)。由短划线分隔的数字指示范围的干预氨基酸;用斜线分隔的数字代表要么 / 或。"C"表示额外的半胱氨酸,足够的频率需要添加到引用时不会发生。请点击这里查看此图的大版本。
图 7:未对齐序列使用自动对齐。在所有序列保守的氨基酸由 * 之上 (如粉红色框部分所述) 的第一个序列的行中。AlCRP 是未对齐的。差距需要将其删除以正确对齐 C (粉红色箭头)。请点击这里查看此图的大版本。
图 8:手工精制的对齐方式保存的序列结构重要的特征。AlCRP 现在正确对齐 (粉红色箭头),和 CXXXC 主题完全保守序列 (粉红色框)。请点击这里查看此图的大版本。
图 9: 冗余序列对齐。如果有的几乎相同序列 (粉红色框) 对,一个可以删除,因为这些可能会总是在团簇在一起,对整体拓扑树的贡献。请点击这里查看此图的大版本。
图 10: 从系统发育分析生成的树比较。(A) 最大似然分析在大型,1000 引导复制使用 WAG + G + 模型。(B) 使用混合模式设置的 1,000,000 代同堂的贝叶斯分析。支持在 70/0.7 的分支所示粉红色实线;粉红色虚线显示支持在 70/0.7 另一个树中的分支。(a) 6 C 和 8 C 蝎毒素;(b) macins;(c) 刻度和蝎子防御;(d) 植物防御素;和 (e) 6 C 防御从昆虫、 蜘蛛纲的动物和软体动物。请点击这里查看此图的大版本。
表 1: CS-α β 超家族中的群体基于半胱氨酸配对模式。五种基本模式的键的形成显示使用内部号码 (中间列) 或参考号码 (右边一列)。蝎子 Cl-毒素、 ASABF 6Cys-α 和真菌肽组放那 m 型ost 密切匹配。不包括引用中的半胱氨酸由半胱氨酸上标前/后(例如, C3/4是 C3 和 C4 之间)。
表 2: 加法的缓步动物 CS-α β 序列到半胱氨酸配对模式组。缓步动物防御素与 macins (粗体) 投入先前建立的团体在可能的情况。一些缓步动物的序列可能会显示一组特定模式。不包括引用中的半胱氨酸由半胱氨酸上标前/后(例如, C3/4是 C3 和 C4 之间)。"2 C1"符号指示有两个半胱氨酸上游的引用 C1。
补充文件 1 (S1): 此数据集在巨型的对齐方式。请点击这里下载此文件。
补充文件 2 (S2): 此数据集的最大似然树巨型文件。请点击这里下载此文件。
补充文件 3 (S3): 此数据集在 Nexus 格式为 MrBayes 的对齐方式。请点击这里下载此文件。
补充文件 4 (S4): 从这个数据集 MrBayes 分析的共识文件。请点击这里下载此文件。
补充文件 5 (S5): 250 CS-α β 序列在巨型的对齐方式。请点击这里下载此文件。
补充文件 6 (S6): 250 CS-α β 序列的最大似然树。请点击这里下载此文件。
补充文件 7 (S7): 250 对齐 Nexus CS-α β 序列格式,则为 MrBayes.请点击这里下载此文件。
补充文件 8 (S8): 共识文件从 250 CS-α β 序列的 MrBayes 分析。请点击这里下载此文件。
Subscription Required. Please recommend JoVE to your librarian.
Discussion
命名组内的蛋白质标准应该是明确的但事实并非总是如此。在许多实验室使用各种各样的生物,导致在不同系统中的术语,以及不同程度的表征,研究了有 CS-α β 折叠的序列。企图强加一个完全新的命名法是不合理的会导致大量的混乱时以前文献。参考编号系统可以蛋白质名称用于澄清其与家族的特征。
组蛋白的明确标准的命名和分类将不可能受益于生成参考在电子表格中,尽管它可能有助于总结大量的序列和可视化的重要特征。序列比对和标志可用于调查的在每个站点,养护水平但不是积极优先重要的结构或功能的序列特征。CS-α β 示例集中于结构,但具体形成结合位点的氨基酸也可以列为一大特点。随着赋予特定抗菌剂有毒活动的 CS-α β 肽的序列特征的确定,这些无法添加到要澄清基于活动的组的引用。虽然只预测的成熟肽被使用在此示例中,如果存在的信号肽或多肽亲很重要,可以为每个序列添加该信息。具体的插入或删除的事件,以及内含子的位置,也可以包含如果他们被认为是信息。使用 MrBayes 的系统发育分析是不限于分子数据,它的优点可以分析数据编码为其他可能有进化具有重要意义的特征。这些可以编码作为礼物或缺席,提供更多的信息,比单独的序列。
收集有关序列是议定书 》 的关键一步。根据本研究的范围和组成员的分布,这可能跨越广泛的分类组。如果目标是了解蛋白质整个组,考虑可能发现一些序列外他们通常都从报道的物种。如果一个分类单元已经很好的体现和附加序列是不太可能或冗余,从搜索中排除他们也许是适当的。基本规则-的-拇指为检索 BLAST 搜索命中是用于 e 值-05 截止。E 值是预期的机会的点击次数。虽然这是适用于某些情况下,如果有一组序列,是高度分化,但股票的具体特点,它可以是不可靠的它可以检索相似的序列但不是做有想的具体特点,和它可能不会返回的序列具有的关键特性却是大相径庭。有一些潜在的方法解决这一问题。第一是看的序列中搜索确定如下-05 截止,看是否他们符合纳入标准。第二,如果有足够的信息,使用特定于位置的迭代爆炸 (PSI 爆炸)22或模式命中发起爆炸 (皮皮爆炸)23。PSI 高炉使用从初始的搜索结果生成新的模型,为下一轮和有时可以找到不同的序列的初始搜索没有确定。皮皮爆炸需要一种模式,一并报送查询序列。这将限制检索到的序列包含模式的兴趣。此工具是特别有用的如果可以明确标识图案独特到组。
准确的对齐是最关键的系统发育分析;树的解释只是有效的如果它们生成使用好的对齐方式。使用引用来告知对齐方式可以帮助避免当结构或活动都被认为只是明显的错误。冗余序列将需要为项目定义。看上去是多余的两个序列可能不适用于系统发育的目的如果它们是从不同类群或几乎相同的序列,但有不同的结构或功能属性。如果存在多义性哪些序列应列入,多重比对可以生成和单独分析,看看如何对齐方式变化影响系统发育推断。这里提出的方法并不能消除需要手动调整的对齐方式,但它可以帮助澄清如何序列应对齐和可能可以使用更为复杂的条码技术,比已被描述的结合以前13。
借鉴是有用,是重要的是确定不是从单独的序列目前明显的特征。例如,请考虑无法比较键合模式与不同数量的半胱氨酸时每个序列编号有关其本身的序列之间的半胱氨酸。目标是混乱的便于比较和讨论,不能添加另一个层。这可能涉及几个迭代的参考并判断调用中决定要包括的功能。它被希望采用一种常用的讨论组中不同的序列将增加集团作为一个整体的了解。
Subscription Required. Please recommend JoVE to your librarian.
Disclosures
作者没有透露。
Acknowledgments
正在缓步动物抗菌肽的研究得到了校内资金来自美国中西部大学研究办公室和赞助程序 (ORSP)。ORSP 没有任何作用,研究设计、 数据收集、 分析、 解释或手稿的准备。
Materials
Name | Company | Catalog Number | Comments |
BLAST webpage | https://blast.ncbi.nlm.nih.gov/Blast.cgi | ||
EditSeq (Lasergene suite) | DNASTAR | https://www.dnastar.com/t-allproducts.aspx | |
Excel 2013 | Microsoft | ||
FigTree | http://tree.bio.ed.ac.uk/software/figtree/ | ||
MEGA | www.megasoftware.net | ||
MrBayes | http://mrbayes.sourceforge.net/ | ||
SCOP database | http://scop.mrc-lmb.cam.ac.uk/scop/ |
References
- Matsuyama, K., Natori, S. Purification of Three Antibacterial Proteins from the Culture Medium of NIH-Sape-4, an Embryonic Cell Line of Sarcophaga peregrina. J Biol Chem. 263 (32), 17112-17116 (1988).
- Lambert, J., et al. Insect immunity: Isolation from immune blood of the dipteran Phormia terranovae. of two insect antibacterial peptides with sequence homology to rabbit lung macrophage bactericidal peptides. PNAS. 86 (262-266), (1989).
- Dimarcq, J. -L., Bulet, P., Hetru, C., Hoffmann, J. Cysteine-rich antimicrobial peptides in invertebrates. Biopolymers. 47, 465-477 (1998).
- Shafee, T. M. A., Lay, F. T., Hulett, M. D., Anderson, M. A. The Defensins Consist of Two Independent, Convergent Protein Superfamilies. Mol Biol Evol. 33 (9), 2345-2356 (2016).
- Zhu, S., Gao, B. Nematode-derived drosomycin-type antifungal peptdies provide evidence for plant-to-ecdysozoan horizontal transfer of a disease resistance gene. Nat Commun. 5, (2014).
- Zhu, S., Gao, B. Evolutionary origin of b-defensins. Dev. Comp. Immunol. 39, 79-84 (2013).
- Bonmatin, J. -M., et al. Two-dimensional 1H NMR study of recombinant insect defensin A in water: Resonance assignments, secondary structure and global folding. J Biomol NMR. 2 (3), 235-256 (1992).
- Cornet, B., et al. Refined three-dimensional solution structure of insect defensin A. Structure. 3 (5), 435-448 (1995).
- Murzin, A. G., Brenner, S. E., Hubbard, T., Chothia, C. SCOP: a structural classification of proteins database for the investigations of sequences and structures. J Mol Biol. 247, 536-540 (1995).
- Sillitoe, I., et al. CATH: comprehensive structural and functional annotations for genome sequences. Nucleic Acids Res. 43, (Database issue) 376-381 (2015).
- Lam, S. D., et al.
Gene3D: expanding the utility of domain assignments. Nucleic Acids Res. 44, (Database issue) 404-409 (2016). - Tarr, D. E. K. Establishing a reference array for the CS-ab superfamily of defensive peptides. BMC Res Notes. 9, 490 (2016).
- Shafee, T. M. A., Robinson, A. J., van der Weerden, N., Anderson, M. A. Structural homology guided alignment of cysteine rich proteins. SpringerPlus. 5 (27), (2016).
- Altschul, S. F., Gish, W., Miller, W., Myers, E. W., Lipman, D. J. Basic Local Alignment Search Tool. J Mol Biol. 215 (3), 403-410 (1990).
- Duckert, P., Brunak, S., Blom, N. Prediction of proprotein convertase cleavage sites. Protein Eng Des Sel. 17 (1), 107-112 (2004).
- Petersen, T. N., Brunak, S., von Heijne, G., Nielsen, H. SignalP 4.0:discriminating signal peptides from transmembrane regions. Nat Methods. 8, 785-786 (2011).
- Kobayashi, Y., et al. The cysteine-stabilized a-helix: A common structural motif of ion-channel blocking neurotoxic peptides. Biopolymers. 31, 1213-1220 (1991).
- Gao, B., del Carmen Rodriguez, M., Lanz-Mendoza, H., Zhu, S. AdDLP, a bacterial defensin-like peptide, exhibits anti-Plasmodium. activity. Biochem Biophys Res Commun. 387, 393-398 (2009).
- Tamura, K., Stecher, G., Peterson, D., Filipski, A., Kumar, S. MEGA6: Molecular Evolutionary Genetics Analysis. Mol Biol Evol. 30 (12), 2725-2729 (2013).
- Edgar, R. C. MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
- Ronquist, F., Huelsenbeck, J. P. MrBayes 3: Bayesian phylogenetic inference under mixed models. Bioinformatics. 19 (12), 1572-1574 (2003).
- Altschul, S. F., et al. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res. 25 (17), 3389-3402 (1997).
- Zhang, Z., et al. Protein sequence similarity searches using patterns as seeds. Nucleic Acids Res. 26 (17), 3986-3990 (1998).