Synthetic protein sequences based on consensus motifs typically ignore co-evolving residues, that imply interpositional dependencies (IPDs). IPDs can be essential to activity, and designs that disregard them may result in suboptimal results. This protocol uses StickWRLD to identify IPDs and help inform rational protein design, resulting in more efficient results.
タンパク質アラインメントは、一般に、タンパク質残基の類似性を評価するために使用され、派生のコンセンサス配列は、機能ユニット( 例えば、ドメイン)を同定するために使用されます。進化を通じておよび系統発生ツリーで同時に表示される傾向にある残基の機能的に必要な共変動 – 伝統的な合意形成モデルは、中間物挿入の依存関係を説明するために失敗します。これらの関係は、次に、合成タンパク質のエンジニアリングを通知するために使用することができるタンパク質のフォールディング、熱安定性、および機能部位の形成過程に関する重要な手がかりを明らかにすることができます。残念ながら、これらの関係は、基本的に単純な「多数決」、あるいはHMMベースのコンセンサスモデルによって予測することができず、結果は自然の中で見られないが、あまり実行可能であるんだけでなく、生物学的に無効な「コンセンサス」とすることができるサブモチーフを形成します任意の現存のタンパク質よりも。我々は、視覚的なANを開発しました明らかに、タンパク質アライメントのインタラクティブな3D表現を作成し、alyticsツール、StickWRLDは、残基を共変動表示されます。ユーザがパンおよびズーム、ならびに動的covariantsの同定の基礎となる統計的閾値を変更する能力を有します。 StickWRLDは、以前に成功し、そのようなアデニル酸キナーゼのようなタンパク質に、そのようなエンドヌクレアーゼの標的部位として、DNA配列に機能的に必要な共変動残基を同定するために使用されています。
タンパク質アラインメントは、長いタンパク質ファミリーにおける残基の類似性を評価するために使用されてきました。よくあるタンパク質( 例えば、触媒または他の結合部位)の最も興味深い特徴は、接触線状配列の末端領域をもたらすタンパク質の折りたたみの結果であり、結果として整合的にこれらの明らかに無関係な領域が発展し、中に変更される場合があります協調。他の場合には、タンパク質の機能は、その静電署名に依存することができ、電子双極子に影響を与える変異は遠い荷電残基への変化によって補償されます。アロステリック効果も同一残基の間の長距離シーケンシャルおよび空間依存性を誘発することができます。関係なく、その起源の、残基のこれらの機能的に必要な共変動-インターの位置依存性(のIPD)は-アライメント( 図1)の目視検査では明らかではないかもしれません。のIPDの同定 – などのこれらの位置内の特定の残基がユニットとしてcovaryする傾向がある – タンパク質の折り畳みのプロセスや機能部位の形成に関する重要な手がかりを明らかにすることができます。この情報は、熱安定性および活性の点で合成(操作された)タンパク質を最適化するために使用することができます。それは長いコンセンサスに向かっていないすべての点変異が改善された安定性または活性をもたらすことが知られています。さらに最近では、その配列内の既知のIPDを利用するように設計されたタンパク質は、点変異3を安定化させるという考えに類似厳密コンセンサス1,2(準備中の原稿)から設計同じタンパク質、より高い活性をもたらすことが示されています。
残念ながら、伝統的な合意形成モデルは、( 例えば、多数決では)唯一の偶然のIPDをキャプチャします。コンセンサスと位置特定のスコアリングマトリックス法は、のIPDの無知であり、唯一の「正しく」ときに依存残基、モデルに含めますまた、家族の中でそれらの位置のための最も人気のある残基です。彼らは順番に近接しているとき、マルコフ連鎖モデルは、のIPDをキャプチャすることができますが、その典型的な実装は、即時シーケンシャル隣人以外のすべてを無視し、依存関係は以上にシーケンスで分離されている場合でも、彼らの最高の、隠れマルコフモデルの計算( 図2参照 )に難治性となりますダースかそこら4位。これらのIPDは、本質的に、単純な「多数決」によって予測することができない「サブモチーフ」、あるいはHMMベースのコンセンサスモデル5,6を形成するので、結果だけではない自然の中で見たことがないが、ある生物学的に無効「コンセンサス」することができます任意の現存のタンパク質未満生存可能。このようなグレムリン7、これらの問題を克服する試みとして、マルコフ確率場に基づくシステム、。このような連続していない組み換え3,8のような洗練された生化学的/生物学的な手法は、IDEに使用することができますまた、一方地域別ntify必須タンパク質要素は、それらが単一塩基対の精度が達成されるためにかなりの時間とベンチワークを必要とします。
StickWRLD 9は、のIPDは明瞭で理解し易いことができるタンパク質アライメントのインタラクティブな3D表現を作成するPythonベースのプログラムです。アラインメント中の各位置は、各列が球、整列内のその位置に存在し得る20アミノ酸の各々について1つのスタックで構成されているディスプレイの列として表されます。球のサイズは、ユーザがすぐに簡単に球体の大きさを見ることで、その位置内のコンセンサス残基またはアミノ酸の相対的分布を収集することができるように、アミノ酸の出現頻度に依存します。各位置を表す列は、シリンダの周りにラップされます。これは、明確な「視線」をアライメント中の各位置での可能なアミノ酸を表すすべての球を与えます他のすべての位置で他のすべてのアミノ酸可能に。可視化の前に、StickWRLDは9のIPD を識別するための残基のすべての可能な組み合わせの間の相関の強さを算出します。のIPDを表現するために、行がでcoevolving残基間に描かれている位置に存在する残基は、(のIPD)独立していた場合に予想されるよりも高い、または低いです。
だけでなく、配列位置が進化対話この視覚化のショーをしたが、IPDのエッジラインが各列のアミノ酸球の間に描かれているように、ユーザはすぐに特定のアミノ酸が各位置でcoevolvingする傾向があるかを決定することができます。ユーザが回転し、探求可視化IPDの構造を、同様に動的StickWRLDのIPDのための強力な発見ツール作り、相関関係の表示を制御する統計的しきい値を変更する能力を有しています。
このようなグレムリン7 similなどのアプリケーションArlyの残基との間の複雑な関係情報を表示する – しかし、これらの関係は、任意の条件付き関係を決定するために設計されていない、より伝統的なマルコフモデルを介して計算されます。このように、これらの2次元投影として表示されることが可能です。これとは対照的に、StickWRLDは、2Dグラフ(エッジ閉塞として知られる現象)としてレンダリング場合難読化することができるマルチノードの条件付き依存関係を計算して表示することができます。
StickWRLDの3Dビューはまた、他のいくつかの利点を有します。 、パンニング回転、およびズーム – – ユーザが視覚的に操作できるようにすることで、2D表現に難読化されてもよいか、直感的な機能をより容易StickWRLDの3Dシリンダーに見ることができます。 StickWRLDはパターンや傾向を見るために、人間の脳のパターン認識能力の力を利用、基本的に視覚的な分析ツールであり、さまざまな観点からのデータを探索する能力は、これに適しています。
StickWRLDが正常にアデニル酸キナーゼのふたドメイン16、ならびにロー依存ターミネーター9の関連するDNA塩基、および古細菌のtRNAイントロンエンドヌクレアーゼ6標的部位における新規のスプライス部位特異性のようなのIPDを識別するために使用されています。これらのIPDは、アライメントの直接尋問を経て検出されませんでした。
StickWRLD各球が20個のアミノ酸残基のいずれかを表し、球の大きさは、その列内のその特定の残基( 図4)の出現頻度を示す20「球」の列としてアラインメントの各位置を表示します。カラムは、異なる列(IPDを示す)で残渣を結ぶ稜線と、シリンダ内に配置されています。しきい値 – 対応する残基が、p値(有意)と残留(観察期待される)の両方を上回る頻度で共変動している場合、これらのエッジラインは、描かれています。
共起相互依存残基、またはのIPDの検出は、DNAまたはタンパク質配列アライメントの遠位領域において、標準的な配列アラインメントツール6を用いては困難です。このようなツールは、コンセンサス、またはモチーフ、シーケンスを生成するが、この合意は、多くの場合、単純な多数決平均で、1つ以上のサブモチーフを形成することができる共変動の関係伝えていません – 共進化をする傾向がある残基のグループを。近隣の依存関係を検出することが可能であってもHMMモデルは、正確にモデルのシーケンスは、遠位のIPD 5とモチーフができません。そして、実際には、最適ではない可能性があり、このような計算の合意に基づいて、操作されたタンパク質 – 結果は、計算されたコンセンサスは、実際には天然には見出されない「合成」配列であってもよいということです。実際には、ADK用はPfam HMMは、キメラテトラモチーフの半分を含有するタンパク質、およびH、S、D、Tモチーフの半分は、機能的に同じように受け入れ可能であることを示唆しています任意の実際に存在するADKなど。このようなキメラ(およびこれらのモチーフの他の多くのblendings)は4,19触媒死んでいるように、これは、そうではありません。
相関関係を探しているとき、それは残留閾値は任意のエッジが見られ、その後徐々に戻ってダウンしきい値を傾斜されるレベルより上のしきい値を設定することにより、関連する相関の発見を可能にするように調整することが重要です。これは唯一の最も重要なエッジが最初に考慮されることを保証します。
別のアプローチは、非常に低く設定残留閾値から始めることです。これは、すべての重要なエッジの表示になります。ここから残留しきい値がゆっくりパターンが出現するまで、エッジがドロップアウトすることを可能にする、増加させることができます。特定のノード( 例えば、ドメイン知識の適用)を含めることを探しているときに、このアプローチはあまり有用ではあるが、VIとしてStickWRLDを使用すると、予期しない関係の発見を可能にしますUAL分析ツールは、データの可視化の新興パターンを発見します。
StickWRLDは、表示装置の解像度と同様に実行されているシステムの使用可能なメモリによって主に制限されます。そこStickWRLDを調べることができ、データポイントの数に理論上の制限がなく、20,000の位置までのシーケンスがテストされているが、実際のStickWRLDに約1,000箇所までの配列と最適なパフォーマンスを発揮します。
StickWRLDの主な利点は、互いにcovary残基の群を同定する能力です。これは、単純な統計平均であり、考慮に共進化をとらない統計的コンセンサス配列、従来の方法より重要な利点です。いくつかのケースでは共変動残基は単に系統の人工物であるかもしれないが、でも、これらの残基は、「選択のテスト」を耐え、そのように関数Aを損なう可能性は低いましたそれらを含むように操作される任意のタンパク質のリティ。
合成変異体を設計する前に、標準的なDNAまたはタンパク質配列のコンセンサス/モチーフ中のIPDを識別するStickWRLDを使用して、エラーの可能性を減少させ、機能の迅速な最適化をサポートするが、それはStickWRLDは一般相関同定ツールとして使用することができることに留意すべきであるとタンパク質データのみに限定されるものではありません。 StickWRLDを目視任意の適切に符号化されたデータセット内の変数の同時のoccuranceを発見するために使用することができます。
The authors have nothing to disclose.
StickWRLD was made possible in part through funding provided to Dr. Ray by the Research Institute at Nationwide Children’s Hospital, and by NSF grant DBI-1262457.
Mac or Ubuntu OS computer | Various | NA | Any Mac or linux (e.g. Ubuntu) computer capable of running python & associated shell scripts |
Python programming language | python.org | NA | Python version 2.7.6 or greater recommended |
wxPython library | wxpython.org | NA | Latest version recommended |
SciPy library | scipy.org | NA | Latest version recommended |
PyOpenGL library | pyopengl.sourceforge.net | NA | Latest version recommended |
StickWRLD Python scripts | NCH BCCM | NA | Available from http://www.stickwrld.org |
fasta2stick.sh file converter | NCH BCCM | NA | Available from http://www.stickwrld.org |
Protein and/or DNA sequence data | NA | NA | Samples available at http://www.stickwrld.org |