Abstract
蛋白质比对通常用于评估蛋白质残基的相似性,以及用于识别功能单元( 例如,域)衍生的共有序列。传统的共识建筑模型没有考虑到interpositional依赖 - 功能要求,往往整个进化过程和整个系统树同时出现残协方差。这些关系可以揭示蛋白质折叠,热稳定性,和对功能位点,这反过来又可以用来通知合成蛋白的工程所形成的过程中是重要的线索。不幸的是,这种关系基本上形成子图案不能用简单的“少数服从多数”,甚至基于HMM的共识模型进行预测,其结果可能是生物无效的“共识”,这不仅是从来没有见过的性质,但不太可行比任何现存的蛋白质。我们已经开发出一种视觉的alytics工具,StickWRLD,它创建了一个蛋白比对的交互式3D表示,并明确显示共变残。用户必须平移和缩放,以及动态的改变统计协变量门槛的识别潜在的能力。 StickWRLD先前已成功地用于鉴定蛋白质如腺苷酸激酶和DNA序列如内切核酸酶靶标位点功能性要求的共变残基。
Introduction
蛋白质比对长期被用来评估在一个蛋白质家族的残基的相似性。蛋白( 例如,催化或其他结合位点)的频繁的最有趣的特点是蛋白质折叠使线性序列的远侧区接触的结果,并作为一个结果,在对准这些明显无关区域倾向于发展和改变以协调的方式。在其他情况下,蛋白质的功能可以依赖于它的静电签名,以及影响电子偶极突变用于通过改变到遥远带电残基补偿。变构效应也可诱发残渣身份之间的长距离连续和空间依赖性。不论其出身,这些功能要求的残协变性-相互依存关系定位(IPD的) -可能不是很明显与定位( 图1)的目视检查。的IPD的鉴定 - 以及其中这些职位中的特定残基倾向于共变作为一个单元 - 可以揭示蛋白质折叠的过程和功能位点的形成的重要线索。这个信息然后可用于优化的合成(工程化)蛋白的热稳定性和活性方面。人们早已知道,不是所有的点突变朝向共识提供改进的稳定性或活性。最近,蛋白质设计采取在其序列已知的IPD的优点已显示导致比严格从共识1,2-(手稿中制备)所设计的相同的蛋白质,类似稳定的点突变3的想法更大的活性。
不幸的是,传统的共识建筑模型( 如,多数人统治)只捕获的IPD意外。共识和具体位置得分矩阵方法是无知的IPD和唯一的“正确'它们包括在模型中,因残留物时也是最流行的残家庭中的位置。马尔可夫链模型可以捕捉的IPD时,他们依次是近,但他们的典型的实现会忽略一切,除了直接的顺序邻居,甚至在最佳状态,隐马尔可夫模型计算( 见图2)成为棘手的依赖时,由超过分离序列中十几位置4。由于这些本质上的IPD形成“子主题”不能用简单的“少数服从多数”,甚至基于HMM模型的共识预测5,6的结果可能是生物无效的“共识”,这不仅是从来没有见过的,但可以是可行性较小比任何现存的蛋白质。基于马尔可夫随机域,如GREMLIN 7系统,试图克服这些问题。此外,同时如不连续的重组-3,8-复杂生物/生化技术可用于IDEntify必需的蛋白质分子按地区,它们需要大量的时间和替补工作,以实现单碱基对的精度。
StickWRLD 9是一个基于Python的程序,它创建了一个蛋白比对,使IPD的清晰和易于理解的交互式3D表示。在对准各位置被表示为在显示一列,其中每列包括一堆叠的球体,每个的20个氨基酸,可能是存在于对准内的位置的。球体大小取决于发生的氨基酸的,使得用户可以立即搜集的共有残基或氨基酸内的位置,只需看在球体的尺寸相对分布的频率。代表每个位置的列被裹住的圆柱体。这使每一个代表一个可能的氨基酸在对齐每个位置范围,明确“视线”到每一个其他氨基酸可能性每隔一个位置。之前可视化,StickWRLD计算残基来识别的IPD 9的所有可能的组合之间的相关性的强度。来表示的IPD,线残基被协同进化在之间绘制更高,或低于所预期如果存在于该位置上的残基是独立(的IPD)。
这不仅可视显示哪些序列位置相互作用进化上,但作为IPD的边缘线在每列中的氨基酸球体之间绘制,用户能够快速确定哪些特定氨基酸倾向于协同进化在每个位置。用户具有旋转和探索的可视化的IPD结构,以及动态地改变它的统计阈值控制相关的显示,使得StickWRLD一个强大的发现工具的IPD的能力。
应用如GREMLIN 7 simil阿尔利显示残基之间的复杂关系信息 - 但这些关系是通过更传统的马尔可夫模型,这是不旨在确定任何条件式计算。正因为如此,这些都是能够被显示为二维凸起。与此相反,StickWRLD可以计算并显示多节点条件的依赖关系,如果呈现为二维图(这种现象被称为边缘遮挡)可被模糊处理。
StickWRLD的3D视图也有其他几个优点。通过允许用户操纵视觉 - 平移,旋转和缩放 - 可被模糊或直观在二维表示可以更容易地看到StickWRLD的3D汽缸中的功能。 StickWRLD本质上是一种可视化分析工具,利用人类大脑的模式识别能够看到的模式和趋势的力量,并从不同的角度探讨了数据的能力适合于这一点。
Protocol
1.软件下载和安装
- 使用计算机有英特尔酷睿i5或更好的处理器,内存至少为4 GB,且运行Mac OS X或GNU / Linux操作系统( 如 Ubuntu的)操作系统。此外,Python的2.7.6 10和wxPython的2.8 11,SciPy的12和13 PyOpenGL Python库是必需的-下载,并从各自的库安装的每个。
- 下载StickWRLD为包含所有相关的Python脚本的zip压缩包。下载“fasta2stick.sh”脚本转换标准FASTA DNA /蛋白质序列比对,以StickWRLD格式。
- 提取存档,并把产生的StickWRLD文件夹在桌面上。放置在桌面上的“fasta2stick.sh”脚本为好。
2.准备校准
- 创建的蛋白质序列的使用任何斯坦取向准比对软件( 如 CLUSTALX 14)。保存校桌面FASTA格式上。
- 打开Mac或GNU / Linux计算机上的终端应用程序并导航到桌面(以下简称“fasta2stick.sh”shell脚本的位置), 键入cd〜/桌面 ,然后按回车。通过在终端输入./fasta2stick.sh执行“fasta2stick.sh”脚本。如果脚本不执行,确保它是可执行的-在终端敲入chmod + X fasta2stick.sh使脚本可执行。
- 按照提供的脚本来指定输入文件名(在1.2上面创建的文件)和所需的输出名称屏幕上的说明。保存在桌面上的输出文件(这是目前在用于StickWRLD正确格式)。
3.启动StickWRLD
- 导航到StickWRLD可执行文件夹使用的终端应用程通货膨胀在Mac或GNU / Linux的电脑。例如,如果StickWRLD文件夹在桌面上, 键入cd〜/桌面/ StickWRLD / EXEC终端。
- 通过键入蟒蛇-32 stickwrld_demo.py在终端推出StickWRLD。
- 验证StickWRLD数据加载器面板屏幕( 图3)上可见。
4.将数据加载
- 通过按下“装载蛋白质...”按钮加载转换蛋白质序列比对。
- 选择在上面的步骤3,并按下“打开”创建的文件。 StickWRLD将打开几个新的窗口,包括“StickWRLD控制”( 图4)和“StickWRLD - OpenGL的”( 图5)。
- 选择“StickWRLD - OpenGL的”窗口。选择从“OpenGL的”菜单“视图复位”在一个“自上而下显示默认StickWRLD可视化通过气缸“的观点代表了可调整大小的OpenGL窗口的数据..
5.查看选项
- 在“StickWRLD控制”窗格( 图4)选择框“列标签”和“球标签”来显示的值列和球。
- 取消选择“边栏”的复选框中的“StickWRLD控制”窗格中隐藏列边缘线。
- 在“StickWRLD控制”窗格中设置“列厚度”至0.1画一条细线通过列,使得它更容易浏览3D视图。按回车键接受更改。
- 重置在“StickWRLD - OpenGL的”视图窗口上面的步骤5.3,然后按“全屏”按钮最大化的观点。
6.导航
- 通过按住鼠标左键WHI旋转3D StickWRLD显示乐移动鼠标在任何方向。
- 缩放3D显示StickWRLD通过按住鼠标右键,移动鼠标向上或向下。
7.查找Interpositional相关性(IPD的)
- 通过平移和如在第6步协同进化残留超标p和剩余的门槛要求,通过边缘线连接, 如图6所示描述缩放浏览视图,如果有太多或太少边缘残留的连接,改变残差阈值(关于“StickWRLD控制”窗格),以显示更少或更多,边缘。
- 加大对StickWRLD控制面板的剩余门槛,直到没有IPD边缘线显示,慢慢减速,直到出现的关系。继续增加残余直到你有关系的足够数量的检查。
- 确定涉及已知利益( 例如任残留的关系,一个主题内或绑定/乐趣虚构网站)或残基是远端彼此对准内(这表明它们是近端在折叠蛋白)
8.选择并保存结果
- 对任何感兴趣的边缘使用命令+左键点击。所述StickWRLD控制面板将指示列和连接的特定残基,例如 ,“(124 | G)(136 | H)”( 图7)。实线代表正相关;虚线表示负面的联想。
- 按“StickWRLD控制”面板上的“输出边缘”按钮保存纯文本格式的文件(edge_residual.csv)所有可见的边缘,包括加入残余物和实际剩余价值,在/ StickWRLD / EXEC /目录下。
Representative Results
StickWRLD先前已用于检测残基之间interpositional的依赖关系(IPD中)在两个DNA的3和蛋白质15-17比对。这些共进化残基,而从彼此的序列比对通常远端,往往近端彼此在折叠蛋白。 StickWRLD允许残余特定同现的快速发现在这样的地点, 例如,一个丙氨酸在位置“X”是密切相关的,以一个位的苏氨酸“y”的。这样的相关性可以指示可证结构关系的,并且通常是网站,根据需要,共同进化。 StickWRLD能当更多的“传统”的方法利用HMM来描述的图案无法检测到这些关系甚。例如,使用StickWRLD的ADK盖域的PFAM对准的分析揭示了半胱氨酸(C)在位置4和8和协调之间有很强的正相关性对C中的位置35和38,同时,StickWRLD表明组氨酸(H)和丝氨酸(S)之间的类似强烈的正相关关系,在4和8中,与这些以及C四方之间有很强的负关系,在4, 8,35和38,并分别与天冬氨酸(D)和苏氨酸(T),在位置35和38上的强烈的正相关关系。其他的IPD的H,S,D,T图案和T和G之间存在的和位置**** 10月29日在枯草芽孢杆菌****强调这些的IPD的条件性 - 四半胱氨酸的主题不“照顾”关于身份在这两个位置,而亲水的H,S,D,T三联体需要在这些位置几乎绝对特定残基。这两种完全不同的位置相关残留图案可以发挥同样的作用的ADK盖子。如在图6中 ,IPD中的一大簇,包括在位置132,Y(酪氨酸)在位置135,以及P(proli G(甘氨酸)之间的3个节点关联可见ne)为141位,是在前景( 图6A可见)。在图6B中,该视图已经偏斜以定位用户气缸稍高于,在位置136和M(甲硫氨酸)29位,107残远处露出一个IPD的H(组氨酸)之间。相同的域( 图2)的PFAM HMM的衍生基序,同时,不仅不检测这些所具体共发生的历史基序的变体,但也限定在一个生物不受支持方案16的总分组。
B.该图1.“地铁地图”表示枯草腺苷激酶(ADK)盖域结构。箭头表示ADK盖域由StickWRLD的PFAM对准确定的IPD。 StickWRLD能够正确识别集群内ØIPD中˚F残基是在折叠的蛋白质紧密接近。特别感兴趣的是T型和G对在位置9和29,其仅形成IPD时残留在4,7,24,和27的四分体不是C,C,C,C)。显示残留数字代表B.枯草芽孢杆菌的位置,而不是PFAM对准位置。 请点击此处查看该图的放大版本。
图2. Skylign 18隐马尔可夫模型(HMM)的序列为ADK盖子域标识。虽然HMM模型是用于确定概率在每个位置以及每个站点的整体模型的贡献的有力工具,隐藏式马尔克夫模型的位置独立性使得它们不适合检测的IPD。这种模式不建议任何的见于StickWRLD表示( 图6)的依赖关系。 请点击此处查看该图的放大版本。
图3. StickWRLD数据Loader,用户可以从现有的演示数据选择或加载自己的数据中的DNA或蛋白质序列比对的形式。
图4. StickWRLD控制窗口。该控制面板允许用户更改各种视图属性以及调节阈值控制指示残基(IPD的)之间的关系边缘线的显示。用红笔圈出来的是,通常需要T中的默认值 Ø可用于任何数据集的最佳观赏调整。剩余价值的设置(观测预期),这些连接器/协会画线的门槛。对于柱和球标签控件控制是否列位置,残留值( 例如,“A”为精氨酸)显示。开启和关闭的连接柱边缘线显示中的列边缘线控制切换 - 密集的数据集,这是更好地关闭。列厚度控制是否列本身显示-将其设置为一个很小的值( 如 0.1),将通过画在列的球线,因此很容易彼此区分列,请点击这里查看该图的放大版本。
ghres.jpg“宽度=”600“/>
在StickWRLD OpenGL窗口与加载的腺苷酸激酶盖结构域蛋白数据集图5.初始视图。最初的角度看“上下”在包括序列比对的位置的缸。用户可以使用鼠标左键点击拖动旋转的圆柱体,放大/缩小使用鼠标右键单击并拖动。最初的观点是相当密集,因为默认显示即使是很小的协同进化速率。对于许多蛋白质,在此设置,不同的模块可以被检测到,但即使在密集的共同进化蛋白显示屏可快速,交互的简化找到使用StickWRLD界面的最重要的IPD。 请点击此处查看大图这个数字。
ghres.jpg“WIDTH =”700“/>
图6.腺苷酸激酶盖结构域蛋白的StickWRLD可视化视图特写。在这里,我们已经改变了默认的残余0.2。这增加的阈值间的残余边显示,显示较少的边缘。仍然存在的边表示密切相关的IPD。此外,该观点已经被旋转和缩放,以便更容易观看的边缘。 (A)的IPD的一大簇是可见的前景,包括132位G(甘氨酸)之间的3个节点的关联,Y(酪氨酸)在位置135和P(脯氨酸)在位置141(B)该观点被扭曲来定位用户气缸稍高于,136位和M(蛋氨酸)在第29位,107残留远处透出一股IPD的H(组氨酸)之间。 请点击此处查看本一个更大的版本图。
图7. StickWRLD控制窗口右下角的信息视图。CTRL +左键单击对象( 如球体或边缘)在OpenGL窗口上显示的信息在StickWLRD控制窗口的右下角的对象。在这里,我们看到29位的信息蛋氨酸之间的IPD边缘和组氨酸136位。
Discussion
StickWRLD已成功地用于识别rho沸石依赖性终止子9这样的IPD中的腺苷酸激酶盖域16,以及相关的DNA碱基,以及在古菌的tRNA内含子内切酶6靶位点的新型剪接位点特异性。这些IPD中通过直接检查比对检测不到。
StickWRLD显示一个取向为20“球体”,其中每个球体代表20个氨基酸残基且球体的大小中的一个的列的每个位置表示发生该列内的特定残基的频率( 图4)。列被布置成圆筒,与边缘线连接的残基在不同的列(表示IPD)。阈值 - 这些边缘线如果相应的残基共变的频率超过两者的p值(重要性)和残余(观察预期)仅绘制。
使用标准序列比对工具6检测的共同发生相互依赖残基,或IPD中,在DNA或蛋白质序列比对的远侧区是困难的。虽然这种工具产生一种共识,或基序,顺序,这样的共识是,在许多情况下,简单多数规则平均和不传达可形成一个或一个以上子基序共变关系 - 即倾向于共演变残基。即使HMM模型,能够检测相邻的依赖关系,不能准确地模拟基序与远端的IPD 5。其结果是,计算出的共识可能实际上是一个“合成”序列在自然界中不存在 - 和基于这种计算共识未必,事实上,是最佳的工程蛋白。事实上,PFAM HMM为ADK将表明含有一半的四半胱氨酸基序,和一半的H的嵌合蛋白,S,D,T基序,在功能上可以被接受因为任何实际存在的ADK。不是这种情况,因为这样的嵌合体(与这些基序的许多其它的交融)是催化死4,19。
当寻找相关,至关重要的是,残余阈进行调整,以允许相关的相关性,通过设置上述在其中任何边缘被看见,然后逐渐升高的阈值回落水平阈值的发现。这确保了只有最显著边缘最初考虑。
另一种方法是先从残留设定门槛非常低。这将导致所有显著边缘的显示。从这里残留的门槛可以慢慢增加,让边缘辍学,直到模式出现。而寻找包含特定的节点( 例如,应用的领域知识)的当此方法不太有用,它允许意想不到的关系用StickWRLD作为一个可见的发现UAL的分析工具来发现数据可视化的新兴模式。
StickWRLD由在其上运行,以及在显示装置的分辨率的系统的可用存储器,主要的限制。虽然没有理论上的限制,以数据点StickWRLD可以检查号码,序列高达20000的位置已经过测试,在实践中StickWRLD与序列进行最好高达约1000的位置。
StickWRLD的主要优点在于它以鉴定彼此共变残基的能力。这是在统计的共有序列,这是一个简单的统计平均,并没有考虑共同进化考虑的传统方法一个显著优势。而在某些情况下,共变残留可能只是系统发育的神器,即使这些残留物经受住了“的选拔考试”,因此不可能从泛函减损任何蛋白质的lity工程,包括他们。
同时使用StickWRLD以识别一个规范的DNA或蛋白质序列一致/基序之前的工程合成的变体的IPD将减少潜在的错误和支持的功能快速优化,应当注意的是,StickWRLD可用作一个广义相关识别工具和并不仅限于蛋白质的数据。 StickWRLD可以用来可视地发现,在任何适当的编码数据集的共次数任何变量。
Materials
Name | Company | Catalog Number | Comments |
Mac or Ubuntu OS computer | Various | Any Mac or GNU/Linux (e.g., Ubuntu) computer capable of running Python & associated shell scripts | |
Python programming language | python.org | Python version 2.7.6 or greater recommended | |
wxPython library | wxpython.org | Latest version recommended | |
SciPy library | scipy.org | Latest version recommended | |
PyOpenGL library | pyopengl.sourceforge.net | Latest version recommended | |
StickWRLD Python scripts | NCH BCCM | Available from http://www.stickwrld.org | |
fasta2stick.sh file converter | NCH BCCM | Available from http://www.stickwrld.org | |
Protein and/or DNA sequence data | Samples available at http://www.stickwrld.org |
References
- Ray, W. C. Addressing the unmet need for visualizing conditional random fields in biological data. BMC. 15, 202 (2014).
- Sullivan, B. J., Durani, V., Magliery, T. J. Triosephosphate isomerase by consensus design: dramatic differences in physical properties and activity of related variants. Journal of molecular biology. 413, 195-208 (2011).
- Smith, M. A., Bedbrook, C. N., Wu, T., Arnold, F. H. Hypocrea jecorina cellobiohydrolase I stabilizing mutations identified using noncontiguous recombination. ACS synthetic biology. 2, 690-696 (2013).
- Ray, W. C. Understanding the sequence requirements of protein families: insights from the BioVis 2013 contests. BMC proceedings. 8, S1 (2014).
- Eddy, S. R. What is a hidden Markov model? Nature biotechnology. 22, 1315-1316 (2004).
- Ray, W. C., Ozer, H. G., Armbruster, D. W., Daniels, C. J. Beyond identity - when classical homology searching fails, why, and what you can do about it. Proceedings of the 4th Ohio Collaborative Conference on Bioinformatics. , IEEE Press. New York, NY. 51-56 (2009).
- Ovchinnikov, S., Kamisetty, H., Baker, D. Robust and accurate prediction of residue-residue interactions across protein interfaces using evolutionary information. eLife. 3, e02030 (2014).
- Trudeau, D. L., Lee, T. M., Arnold, F. H. Engineered thermostable fungal cellulases exhibit efficient synergistic cellulose hydrolysis at elevated temperatures. Biotechnology and bioengineering. 111, 2390-2397 (2014).
- Ray, W. C. MAVL and StickWRLD: visually exploring relationships in nucleic acid sequence alignments. Nucleic acids research. 32, W59-W63 (2004).
- Python Language Reference v.2.7.6. , Available from: https://www.python.org/download/releases/2.7.6/ (2014).
- Talbot, H. wxPython, a GUI Toolkit. Linux Journal. , Available from: http://www.linuxjournal.com/article/3776 (2000).
- Jones, E., Oliphant, T., Peterson, P., et al. SciPy: Open Source Scientific Tools for Python. , Available from: http://www.scipy.org/ (2001).
- PyOpenGL The Python OpenGL Binding. , Available from: http://pyopengl.sourceforge.net/ (2014).
- Larkin, M. A. Clustal W and Clustal X version 2.0. Bioinformatics. 23, 2947-2948 (2007).
- Ozer, H. G., Ray, W. C. MAVL/StickWRLD: analyzing structural constraints using interpositional dependencies in biomolecular sequence alignments. Nucleic acids research. 34, W133-W136 (2006).
- Ray, W. C. MAVL/StickWRLD for protein: visualizing protein sequence families to detect non-consensus features. Nucleic acids research. 33, W315-W319 (2005).
- Ray, W. C. A Visual Analytics approach to identifying protein structural constraints. IEEE. , Ohio State Univ. Biophys. Program. Columbus, OH. 249-250 (2010).
- Wheeler, T. J., Clements, J., Finn, R. D. Skylign: a tool for creating informative, interactive logos representing sequence alignments and profile hidden Markov models. BMC bioinformatics. 15, 7 (2014).
- Perrier, V., Burlacu-Miron, S., Bourgeois, S., Surewicz, W. K., Gilles, A. M. Genetically engineered zinc-chelating adenylate kinase from Escherichia coli with enhanced thermal stability. The Journal of biological chemistry. 273, 19097-19101 (1998).