计算机准则的基础结构和功能的蛋白质使用的I – TASSER管道的特性描述。开始,从查询蛋白质序列生成三维模型使用多个线程的路线和迭代结构装配模拟。此后绘制功能的推论是基于匹配与已知的结构和功能的蛋白质。
基因组测序项目,以加密形式以百万计的蛋白质序列,这就要求它们的结构和功能的知识,提高其生物作用的认识。虽然实验方法提供了这些蛋白质的一小部分的详细信息,计算模型所需要的大多数实验未知的蛋白质分子。我TASSER服务器是一个高分辨率的蛋白质结构与功能的建模上线的工作台。由于蛋白质序列,从我的TASSER服务器上的一个典型输出包括二级结构预测,预测每个残基的溶剂可及,同源模板线程和结构对齐检测蛋白质,最多五个全长高等教育的结构模型,和基于结构酶的分类,功能注释基因本体术语和蛋白质 – 配体结合位点。所有的预测标记的信心分数讲述如何准确的预测是不知道的实验数据。为了方便最终用户的特殊要求,的服务器提供渠道接受用户指定的残留间的距离和联系映射到交互地改变我TASSER建模,而且还允许用户指定的任何蛋白质为模板,或排除任何模板蛋白质在结构装配模拟。结构信息可以收集用户基于实验证据或生物的见解与我TASSER预测的质量改善的目的。服务器被评为蛋白质的结构和功能预测,在最近社会广泛CASP实验的最佳方案。目前有20000注册来自100多个国家的科学家使用的是上线的我,TASSER服务器。
上述协议是一个使用我的TASSER服务器的结构和功能建模的一般准则。虽然,这种自动化程序非常适用于大多数的蛋白质,人类的干预往往有助于显著提高建模精度,尤其是蛋白质缺乏在PDB库的密切模板。用户可以干预在我TASSER建模在以下方面:(一)多结构域蛋白的分裂;(b)提供外部约束,以改善结构组装;及(c)消除在建模的模板。
分裂多结构域蛋白:
许多长期的蛋白质序列通常包含多个域,灵活的连接器的地区,这使得其结构鉴定难以用实验和计算技术拴。然而,作为域是独立折叠实体,并可以执行不同的分子功能;宜分裂长的多结构域蛋白和模型,每个域分开。建模领域单独将不仅加快了预测过程,但也增加了查询模板对齐的质量,更可靠的结构和功能预测。
可以预见,在蛋白质序列域边界,使用免费提供的外部网上课程,如NCBI 的 CDD 24 PFAM 25或26 InterProScan。此外,如果LOMETS线程路线可供查询的蛋白,可域边界位于视觉识别很长一段未对齐的残留在顶部的线程模板(见第5.4步)。这些未对齐的地区,大多对应域连接器区域。如果多域模板已经在模板中的所有查询对齐域的PDB库,然后查询蛋白可以仿照全长。
提供外部约束
<p类=“jove_content”>在我的TASSER结构装配模拟,主要是从线程模板LOMETS收集的空间限制的指导。有良好的线程命中(Norm. Z – score模型> 1)在模板库查询蛋白质,派生的空间限制,大多精度高,我TASSER将这些蛋白质生成高分辨率的结构模型。相反,查询的蛋白质,有弱或没有线程命中(Norm. Z分数 <1),收集了空间的限制,往往含有错误,因为模板对齐的不确定性。对于这些蛋白质的目标,用户指定的空间信息,可以提高预测模型的质量是非常有益的。用户可以提供两种方式我TASSER服务器的外部约束:A.指定联系人/距离限制
实验特点的跨残留的接触/距离,例如从核磁共振交叉连接实验,可以通过上传约束文件指定。一个例子文件是在图8所示,其中第1列指定类型的约束,即“距离”或“联系”。对于距离克制(测距),2和第4列含有残留物的位置(I,J),3和第5列中的残留物和第6列中包含的原子类型指定两个指定的原子之间的距离。对于接触限制(接触),2和第3列包含的残留量应在接触的位置(I,J)。这些联系的残留物对侧链中心之间的距离决定的基础上已知的PDB结构的观察距离。我TASSER将尝试绘制这些原子对指定的距离在结构细化模拟。
B.指定蛋白质的结构模板
LOMETS线程程序使用有代表性的PDB库,寻找可能的查询PROT褶皱EIN。虽然使用有代表性的结构库,有助于减少计算的序列结构路线所需的时间,它是可能错过一个很好的模板蛋白是在图书馆或模板可能没有被LOMETS线程方案确定,即使它是目前在库中。在这种情况下,用户应指定为模板所需的蛋白质的结构。
要指定一个额外的模板的蛋白质结构,用户可以上传PDB格式的结构文件,或指定在PDB库中存放的蛋白质结构的PDB ID。我的TASSER将生成的查询模板对齐, 使用鼓起方案23,将收集指定用户的模板和LOMETS模板,引导结构装配仿真空间的限制。由于LOMETS限制的准确性是针对不同的目标不同,LOMETS限制重量是容易(同源)TArgets比在硬盘(非同源)的目标,这已经在我们的基准培训系统调整。
用户还可以指定自己的查询模板路线。服务器接受对齐两种格式:FASTA格式(图9A)和3D格式(图9b)。 FASTA格式的标准和描述http://zhanglab。 ccmb.med.umich.edu / FASTA / 。 3D格式是类似的标准PDB格式( http://www.wwpdb.org/documentation/format32/sect9.html ),但来自模板的两个附加列被添加到原子记录(见图9B):
列1-30:原子(C -α)和残留查询序列的名称。
列31-54:从模板中的相应原子复制查询的C -α的原子坐标。
列55-59:在相应的模板残留数量的基础上对齐
列60-64:通讯残留在模板名称
排除模板蛋白质
蛋白质是灵活的分子,可以采取多种构象状态,以改变其生物活性。例如,许多蛋白激酶和膜蛋白的结构已经解决了active 和 inactive的构象。约束配体的存在或缺乏可造成大的构造运动。虽然所有的构象状态的模板是线程程序一样,它是可取的模式查询使用模板,只在一个特定的状态。在服务器上的一个新的选项允许用户排除在结构造型的模板蛋白。此功能也允许用户选择的造型模板的同源性水平。用户可以排除模板蛋白FROM我TASSER库:
A.指定序列的身份截止
用户可以使用这个选项排除我TASSER模板库的同源蛋白。同源性级别设置基于序列的身份截止,即除以查询顺序序列的长度之间的查询和模板蛋白相同的残渣的数量。例如,如果用户的类型,在“70%”,在所提供的形式,所有模板蛋白质> 70%,我将我TASSER模板库中排除查询蛋白质序列的身份。
B.排除特定的模板蛋白
上传一个列表,其中包含要排除的结构的PDB的ID,可以排除特定的模板蛋白的I – TASSER模板库。图10显示了一个例子文件。由于相同的蛋白质可以存在多个条目,在PDB库,我TASSER SErver默认情况下,将排除指定的模板(Column1中)以及从库中,有一个身份的所有其他模板> 90%,到指定的模板。用户还可以指定一个不同的身份截止,如70%,所有与身份模板> 70%,到指定的模板蛋白将被排除在外。
The authors have nothing to disclose.
该项目是支持部分由Alfred P. Sloan基金会NSF事业奖(DBI 1027394),和国家普通医学科学研究所(GM083107,GM084222)。