Chemistry

合成タンパク質の最適化：中間物挿入依存関係の同定構造的インジケートおよび/または機能的に連結された残基

Published: July 14, 2015 doi: 10.3791/52878

¹Battelle Center for Mathematical Medicine, The Research Institute at Nationwide Children's Hospital

Abstract

タンパク質アラインメントは、一般に、タンパク質残基の類似性を評価するために使用され、派生のコンセンサス配列は、機能ユニット（ 例えば、ドメイン）を同定するために使用されます。進化を通じておよび系統発生ツリーで同時に表示される傾向にある残基の機能的に必要な共変動 - 伝統的な合意形成モデルは、中間物挿入の依存関係を説明するために失敗します。これらの関係は、次に、合成タンパク質のエンジニアリングを通知するために使用することができるタンパク質のフォールディング、熱安定性、および機能部位の形成過程に関する重要な手がかりを明らかにすることができます。残念ながら、これらの関係は、基本的に単純な「多数決」、あるいはHMMベースのコンセンサスモデルによって予測することができず、結果は自然の中で見られないが、あまり実行可能であるんだけでなく、生物学的に無効な「コンセンサス」とすることができるサブモチーフを形成します任意の現存のタンパク質よりも。我々は、視覚的なANを開発しました明らかに、タンパク質アライメントのインタラクティブな3D表現を作成し、alyticsツール、StickWRLDは、残基を共変動表示されます。ユーザがパンおよびズーム、ならびに動的covariantsの同定の基礎となる統計的閾値を変更する能力を有します。 StickWRLDは、以前に成功し、そのようなアデニル酸キナーゼのようなタンパク質に、そのようなエンドヌクレアーゼの標的部位として、DNA配列に機能的に必要な共変動残基を同定するために使用されています。

Introduction

タンパク質アラインメントは、長いタンパク質ファミリーにおける残基の類似性を評価するために使用されてきました。よくあるタンパク質（ 例えば、触媒または他の結合部位）の最も興味深い特徴は、接触線状配列の末端領域をもたらすタンパク質の折りたたみの結果であり、結果として整合的にこれらの明らかに無関係な領域が発展し、中に変更される場合があります協調。他の場合には、タンパク質の機能は、その静電署名に依存することができ、電子双極子に影響を与える変異は遠い荷電残基への変化によって補償されます。アロステリック効果も同一残基の間の長距離シーケンシャルおよび空間依存性を誘発することができます。関係なく、その起源の、残基のこれらの機能的に必要な共変動-インターの位置依存性（のIPD）は-アライメント（ 図1）の目視検査では明らかではないかもしれません。のIPDの同定 - などのこれらの位置内の特定の残基がユニットとしてcovaryする傾向がある - タンパク質の折り畳みのプロセスや機能部位の形成に関する重要な手がかりを明らかにすることができます。この情報は、熱安定性および活性の点で合成（操作された）タンパク質を最適化するために使用することができます。それは長いコンセンサスに向かっていないすべての点変異が改善された安定性または活性をもたらすことが知られています。さらに最近では、その配列内の既知のIPDを利用するように設計されたタンパク質は、点変異^3を安定化させるという考えに類似厳密コンセンサス^1,2（準備中の原稿）から設計同じタンパク質、より高い活性をもたらすことが示されています。

残念ながら、伝統的な合意形成モデルは、（ 例えば、多数決では）唯一の偶然のIPDをキャプチャします。コンセンサスと位置特定のスコアリングマトリックス法は、のIPDの無知であり、唯一の「正しく」ときに依存残基、モデルに含めますまた、家族の中でそれらの位置のための最も人気のある残基です。彼らは順番に近接しているとき、マルコフ連鎖モデルは、のIPDをキャプチャすることができますが、その典型的な実装は、即時シーケンシャル隣人以外のすべてを無視し、依存関係は以上にシーケンスで分離されている場合でも、彼らの最高の、隠れマルコフモデルの計算（ 図2参照 ）に難治性となりますダースかそこら⁴位。これらのIPDは、本質的に、単純な「多数決」によって予測することができない「サブモチーフ」、あるいはHMMベースのコンセンサスモデル^5,6を形成するので、結果だけではない自然の中で見たことがないが、ある生物学的に無効「コンセンサス」することができます任意の現存のタンパク質未満生存可能。このようなグレムリン^7、これらの問題を克服する試みとして、マルコフ確率場に基づくシステム、。このような連続していない組み換え^3,8のような洗練された生化学的/生物学的な手法は、IDEに使用することができますまた、一方地域別ntify必須タンパク質要素は、それらが単一塩基対の精度が達成されるためにかなりの時間とベンチワークを必要とします。

StickWRLD ^9は、のIPDは明瞭で理解し易いことができるタンパク質アライメントのインタラクティブな3D表現を作成するPythonベースのプログラムです。アラインメント中の各位置は、各列が球、整列内のその位置に存在し得る20アミノ酸の各々について1つのスタックで構成されているディスプレイの列として表されます。球のサイズは、ユーザがすぐに簡単に球体の大きさを見ることで、その位置内のコンセンサス残基またはアミノ酸の相対的分布を収集することができるように、アミノ酸の出現頻度に依存します。各位置を表す列は、シリンダの周りにラップされます。これは、明確な「視線」をアライメント中の各位置での可能なアミノ酸を表すすべての球を与えます他のすべての位置で他のすべてのアミノ酸可能に。可視化の前に、StickWRLDは⁹のIPD ^を識別するための残基のすべての可能な組み合わせの間の相関の強さを算出します。のIPDを表現するために、行がでcoevolving残基間に描かれている位置に存在する残基は、（のIPD）独立していた場合に予想されるよりも高い、または低いです。

だけでなく、配列位置が進化対話この視覚化のショーをしたが、IPDのエッジラインが各列のアミノ酸球の間に描かれているように、ユーザはすぐに特定のアミノ酸が各位置でcoevolvingする傾向があるかを決定することができます。ユーザが回転し、探求可視化IPDの構造を、同様に動的StickWRLDのIPDのための強力な発見ツール作り、相関関係の表示を制御する統計的しきい値を変更する能力を有しています。

このようなグレムリン⁷ similなどのアプリケーションArlyの残基との間の複雑な関係情報を表示する - しかし、これらの関係は、任意の条件付き関係を決定するために設計されていない、より伝統的なマルコフモデルを介して計算されます。このように、これらの2次元投影として表示されることが可能です。これとは対照的に、StickWRLDは、2Dグラフ（エッジ閉塞として知られる現象）としてレンダリング場合難読化することができるマルチノードの条件付き依存関係を計算して表示することができます。

StickWRLDの3Dビューはまた、他のいくつかの利点を有します。、パンニング回転、およびズーム - - ユーザが視覚的に操作できるようにすることで、2D表現に難読化されてもよいか、直感的な機能をより容易StickWRLDの3Dシリンダーに見ることができます。 StickWRLDはパターンや傾向を見るために、人間の脳のパターン認識能力の力を利用、基本的に視覚的な分析ツールであり、さまざまな観点からのデータを探索する能力は、これに適しています。

Protocol

1.ソフトウェアのダウンロードとインストール

少なくとも4 GBのRAMを搭載したIntel i5またはそれ以上のプロセッサを有しており、Mac OS XまたはGNU / Linuxの（ 例えば、Ubuntuの）OSを実行しているコンピュータを使用してください。また、Pythonの2.7.6 ¹⁰とwxPythonの2.8 ^11は、scipyのダウンロード^12、およびPyOpenGL ¹³ Pythonのライブラリが必要です-それぞれのリポジトリからそれぞれをダウンロードしてインストール。
ダウンロードStickWRLDは、関連するPythonスクリプトのすべてを含むzipアーカイブとして。 StickWRLDフォーマットに標準FASTA、DNA /タンパク質配列のアラインメントを変換するための「fasta2stick.sh "スクリプトをダウンロードします。
アーカイブを展開し、デスクトップ上で得られたStickWRLDフォルダを置きます。同様にデスクトップ上の「fasta2stick.sh "スクリプトを配置します。

2.アライメントの準備

任意スタンを用いてタンパク質配列のアラインメントを作成します準のアラインメントソフトウェア（ 例えば、ClustalX ^14）。 FASTA形式でデスクトップ上のアライメントを保存します。
MacやGNU / Linuxのコンピュータ上のターミナルアプリケーションを開き、CD〜/ Desktopを入力してReturnキーを押すと、デスクトップ（「fasta2stick.sh「シェルスクリプトの場所）に移動します。端末内./fasta2stick.sh入力して「fasta2stick.sh「スクリプトを実行します。スクリプトが実行されない場合は、それが実行可能であることを確認- + xは、スクリプトを実行可能にするためにfasta2stick.sh端末タイプのchmodで。
入力ファイル名（上記1.2で作成したファイル）と、所望の出力名を指定するために、スクリプトによって提供される画面の指示に従ってください。デスクトップ上の（StickWRLDの正しい形式になりました）出力ファイルを保存します。

3. StickWRLDの起動

ターミナルAPPLICを使用してフォルダStickWRLDの実行可能ファイルに移動しますMacやGNU / Linuxコンピュータのエーション。例えば、場合StickWRLDフォルダは、デスクトップ上の端末で入力します。cd〜/デスクトップ/ StickWRLD / execのです。
端末内のpython-32 stickwrld_demo.pyを入力してStickWRLDを起動します。
StickWRLDデータローダパネルは、画面（ 図3）に表示されていることを確認します。

データのロード4

「ロード·プロテイン...」ボタンを押して、変換されたタンパク質配列のアラインメントをロードします。
上記の手順3を押して「開く」で作成したファイルを選択します。（ 図5） - StickWRLDは「StickWRLD制御」（ 図4）と「OpenGLのStickWRLD」を含む、いくつかの新しいウィンドウが開きます。
ウィンドウ - 「OpenGLのStickWRLD」を選択します。「トップダウンでデフォルトStickWRLDの視覚化を表示するには、「OpenGLの "メニューから「表示をリセット」を選択しますサイズ変更可能なOpenGLのウィンドウ内のデータを表す気筒から「ビュー..

5.表示オプション

列とボールの値を表示するには、「StickWRLDコントロール」ペイン（ 図4）で「列ラベル」と「ボールラベル"のボックスを選択します。
列エッジラインを非表示にするには、「StickWRLDコントロール」ペインの「列エッジ "のボックスの選択を解除します。
それが簡単に3Dビューをナビゲートすること、カラムを通す細い線を描画するために、「StickWRLDコントロール」ペインで0.1に「列の厚さ」に設定します。 Enterキーを押して変更を受け入れるように戻ります。
ビューを最大化するために「フルスクリーン」ボタンを押し、上記のステップ5.3のように - 「OpenGLのStickWRLD」ウィンドウにビューをリセットします。

6.ナビゲーション

マウスの左ボタンを押したままにして、3D StickWRLDディスプレイを回転させWHIルは、任意の方向にマウスを移動させます。
マウスを上下に移動させながら、マウスの右ボタンを押したままにして、3D StickWRLDディスプレイをズームします。

7.検索中間物挿入の依存関係（のIPD）

パンニングおよび図6に見られるように、エッジラインを介して接続されている両方のpと残差のしきい値の要件を超えて、ステップ6 Coevolving残基で説明したようにズームして、ビューを参照します。残基を接続が多すぎるか、または少なすぎたエッジがある場合は、残留を変更（「StickWRLDコントロール」ペインの）閾値は、より少ない、またはそれ以上のエッジが表示されます。
何IPDエッジラインが表示されなくなるまでStickWRLDコントロールパネル上の残留しきい値を増やし、関係が表示されるまでゆっくりとランプダウン。あなたが検討する関係の十分な数になるまで残留を増やす続けます。
モチーフまたは結合/楽しい内の既知の目的のいずれかの残基を伴う関係（ 例えば、識別ctionalサイト）または1つのアライメント内の別の遠位にある残基（）は、折り畳まれたタンパク質に近接していることを示唆しています

8.調査結果を選択すると保存

目的の任意のエッジにコマンド+左クリックを使用しました。 StickWRLDコントロールペインには、列を示し、特定の残基を接続し、 例えば、「（124 | G）（136 | H）」になります（ 図7）。実線は正の関連を表します。破線は負の関連を示しています。
プレーンテキスト形式のファイルを保存するために「StickWRLDコントロール」パネルの「出力エッジ」ボタンを押してください（edge_residual.csv）参加残基およびそれらの実際の残存価額を含み、可視エッジのすべての/ StickWRLD / execの中/ディレクトリ。

Representative Results

StickWRLDは両方のDNA ³およびタンパク質^15-17アラインメント中の残基の間の中間物挿入の依存関係（のIPD）を検出するために以前に使用されています。これらの共進化の残基は、配列アラインメントにおいて互いに頻繁に遠位ながら、多くの場合、折り畳まれたタンパク質において互いに近接しています。 StickWRLDは、このような部位の残基固有の共起の迅速な発見を可能にする例えば、位置のアラニンは、「x」は強く「y」の位置にスレオニンと相関しています。このような相関は、証明可能な構造関係を示すことができ、そして典型的には必要により、共進化し、サイトがあります。 StickWRLDはモチーフが失敗記述するためのHMMを用いて、接近した場合であっても、より「伝統的な」は、これらの関係を検出することができます。例えば、StickWRLDを使用してADK蓋ドメインのPFAMアラインメントの分析は、4位のシステイン（C）、図8と協調の間に強い正の相関を明らかに同時に、位置35及び38でのCのペアは、StickWRLDは、4でこれらとCのカルテットとの間には強い負の関係で、4と8でヒスチジン（H）およびセリン（S）との間に同様の強い正の相関を示しました8、35、38、及びそれぞれの位置35および38のアスパラギン酸（D）およびスレオニン（T）と強い正の相関。追加のIPDは、これらのIPDの条件付き性質を強調**** B·ズブチリスに位置**** 10と29でH、S、D、TモチーフとTとGの間に存在する - テトラモチーフは「注意して」いませんこれら2箇所のアイデンティティについて、親水性のH、Sながら、D、Tのトライアドは、ほぼ絶対的に、これらの位置における特定の残基を必要とします。これらの2つの完全に異なる位置依存残基モチーフは、ADKの蓋と同じ役割を果たすことができます。 Y（チロシン）は、位置135、及びP（proliで、図6の132位におけるG（グリシン）との3ノードの関連付けを含むのIPDの大きなクラスタを見ることができるようにNE）141位で、前景（ 図6A）に表示されます。 図6Bに、ビューは136位と29位のM（メチオニン）、107残基遠方でH（ヒスチジン）の間のIPDを明らかに、わずかにシリンダーの上にユーザーを配置するために偏っていました。同じドメイン（ 図2）のPFAM HMM由来のモチーフは、一方、これらのような具体的に共同起きてモチーフ変異体を検出していないだけでなく、生物学的にサポートされていないスキーム¹⁶の全体的なグループを定義します。

B.図1.「地下鉄マップ」表現サブチリスアデノシンキナーゼ（ADK）フタドメイン構造。矢印はStickWRLDによってADK蓋ドメインのPFAMアラインメントで同定さのIPDを示しています。 StickWRLDが正しくクラスタO内のIPDを識別することが可能です折り畳まれたタンパク質に近接しているF残基。特に興味深いのは、ときに4位の残基の四分子のみIPDを形成する、位置9および29でTおよびG対である7、24、および27は、C、C、C、C）ではありません。表示された残基番号は、Bを表し、 枯草菌の位置ではなく、PFAMアラインメント位置。この図の拡大版を表示するには、こちらをクリックしてください。

図2. Skylign ¹⁸隠れマルコフモデル（HMM）ADK蓋ドメインについての配列ロゴ。HMMの各位置も含め全体としてのモデルに、各サイトの寄与で確率を決定するための強力なツールですが、隠れマルコフモデルの位置独立性は、それらになりますのIPDを検出するには不向き。このモデルのいずれかを示唆していませんStickWRLD表現（ 図6）に見られる依存関係。この図の拡大版を表示するには、こちらをクリックしてください。

図3. StickWRLDデータローダ。ユーザーは、既存のデモデータから選択するか、またはDNAまたはタンパク質配列アライメントの形で自分のデータをロードすることができます。

図4. StickWRLDコントロールウィンドウ。コントロールパネルは、ユーザーがさまざまなビューのプロパティを変更するだけでなく、残基（のIPD）との関係を示すエッジ線の表示を制御するしきい値を調節することができます。典型的にはTを必要とするデフォルト値は赤で丸で囲みました O任意のデータセットの最良の視聴のために調整すること。残存価値は、コネクタ/アソシエーション線が描画される（観察予想）のしきい値を設定します。コラムと玉ラベルのコントロールは、列の位置、そして残留値（ 例えば、アルギニンのための「A」）が表示されているかどうかを制御します。列を接続するエッジラインの表示のオンとオフを列エッジライン制御トグル - 密集したデータ·セットの場合、これは良いですオフ。列自体が表示されているか否か列の厚さのコントロール-非常に小さな値（ 例えば、0.1）にこれを設定するには、それが簡単にお互いの列を区別すること、カラム中球を介して線を描画します。こちらをクリックしてくださいこの図の拡大版を表示します。

ghres.jpg "幅=" 600 "/>
図5.ロードアデニル酸キナーゼ蓋ドメインタンパク質のデータセットでStickWRLD OpenGLのウィンドウの最初のビューは、初期視点は配列アラインメント位置からなる筒を通して"ダウン"を検索します。ユーザーがマウスの左クリック＆ドラッグを使用して、シリンダーを回転させて、マウスの右クリック·ドラッグを使用して、ズームイン/アウトすることができます。デフォルトの表示は、共進化の小さな割合を示しているので、最初のビューは、非常に緻密です。多くのタンパク質の場合、この設定では、個別のモジュールを検出することができるが、それでも密共進化するタンパク質での表示を迅速かつインタラクティブにStickWRLDインタフェースを使用して、最も重要なのIPDを見つけるために簡素化することができる。の拡大版を表示するには、こちらをクリックしてくださいこの図。

ghres.jpg "幅=" 700 "/>
アデニル酸キナーゼ蓋ドメインタンパク質のStickWRLDの可視化の図6.クローズアップビュー。ここでは、0.2への残留のデフォルトを変更しました。これは、少数のエッジを示し、残基間のエッジを表示するための閾値を増加させます。残るエッジが強く関連するのIPDを示しています。また、ビューが回転し、エッジの見易さを可能にするために、ズームされています。 （A）のIPDの大きなクラスターは、132位のG（グリシン）との間の3ノードの関連を含め、最前面に表示され、位置141（B）のY位置135で（チロシン）、およびP（プロリン）ビューには、29、107残基離れた位置に位置136及びM（メチオニン）でH（ヒスチジン）の間のIPDを明らかに、わずかにシリンダーの上にユーザーを配置するために偏っていた。これの拡大版を表示するには、こちらをクリックしてください図。

図7. StickWRLDコントロールウィンドウ右下の情報ビュー。OpenGLのウィンドウでオブジェクト（ 例えば、球体またはエッジ）でCtrl +左クリックすると、StickWLRDコントロールウィンドウの右下のオブジェクトの情報が表示されます。ここでは、29位のメチオニン及び136位のヒスチジンの間のIPDエッジの情報を参照してください。

Discussion

StickWRLDが正常にアデニル酸キナーゼのふたドメイン^16、ならびにロー依存ターミネーター⁹の関連するDNA塩基、および古細菌のtRNAイントロンエンドヌクレアーゼ⁶標的部位における新規のスプライス部位特異性のようなのIPDを識別するために使用されています。これらのIPDは、アライメントの直接尋問を経て検出されませんでした。

StickWRLD各球が20個のアミノ酸残基のいずれかを表し、球の大きさは、その列内のその特定の残基（ 図4）の出現頻度を示す20「球」の列としてアラインメントの各位置を表示します。カラムは、異なる列（IPDを示す）で残渣を結ぶ稜線と、シリンダ内に配置されています。しきい値 - 対応する残基が、p値（有意）と残留（観察期待される）の両方を上回る頻度で共変動している場合、これらのエッジラインは、描かれています。

共起相互依存残基、またはのIPDの検出は、DNAまたはタンパク質配列アライメントの遠位領域において、標準的な配列アラインメントツール^6を用いては困難です。このようなツールは、コンセンサス、またはモチーフ、シーケンスを生成するが、この合意は、多くの場合、単純な多数決平均で、1つ以上のサブモチーフを形成することができる共変動の関係伝えていません - 共進化をする傾向がある残基のグループを。近隣の依存関係を検出することが可能であってもHMMモデルは、正確にモデルのシーケンスは、遠位のIPD ⁵とモチーフができません。そして、実際には、最適ではない可能性があり、このような計算の合意に基づいて、操作されたタンパク質 - 結果は、計算されたコンセンサスは、実際には天然には見出されない「合成」配列であってもよいということです。実際には、ADK用はPfam HMMは、キメラテトラモチーフの半分を含有するタンパク質、およびH、S、D、Tモチーフの半分は、機能的に同じように受け入れ可能であることを示唆しています任意の実際に存在するADKなど。このようなキメラ（およびこれらのモチーフの他の多くのblendings）は^4,19触媒死んでいるように、これは、そうではありません。

相関関係を探しているとき、それは残留閾値は任意のエッジが見られ、その後徐々に戻ってダウンしきい値を傾斜されるレベルより上のしきい値を設定することにより、関連する相関の発見を可能にするように調整することが重要です。これは唯一の最も重要なエッジが最初に考慮されることを保証します。

別のアプローチは、非常に低く設定残留閾値から始めることです。これは、すべての重要なエッジの表示になります。ここから残留しきい値がゆっくりパターンが出現するまで、エッジがドロップアウトすることを可能にする、増加させることができます。特定のノード（ 例えば、ドメイン知識の適用）を含めることを探しているときに、このアプローチはあまり有用ではあるが、VIとしてStickWRLDを使用すると、予期しない関係の発見を可能にしますUAL分析ツールは、データの可視化の新興パターンを発見します。

StickWRLDは、表示装置の解像度と同様に実行されているシステムの使用可能なメモリによって主に制限されます。そこStickWRLDを調べることができ、データポイントの数に理論上の制限がなく、20,000の位置までのシーケンスがテストされているが、実際のStickWRLDに約1,000箇所までの配列と最適なパフォーマンスを発揮します。

StickWRLDの主な利点は、互いにcovary残基の群を同定する能力です。これは、単純な統計平均であり、考慮に共進化をとらない統計的コンセンサス配列、従来の方法より重要な利点です。いくつかのケースでは共変動残基は単に系統の人工物であるかもしれないが、でも、これらの残基は、「選択のテスト」を耐え、そのように関数Aを損なう可能性は低いましたそれらを含むように操作される任意のタンパク質のリティ。

合成変異体を設計する前に、標準的なDNAまたはタンパク質配列のコンセンサス/モチーフ中のIPDを識別するStickWRLDを使用して、エラーの可能性を減少させ、機能の迅速な最適化をサポートするが、それはStickWRLDは一般相関同定ツールとして使用することができることに留意すべきであるとタンパク質データのみに限定されるものではありません。 StickWRLDを目視任意の適切に符号化されたデータセット内の変数の同時のoccuranceを発見するために使用することができます。

Materials

Name	Company	Catalog Number	Comments
Mac or Ubuntu OS computer	Various		Any Mac or GNU/Linux (e.g., Ubuntu) computer capable of running Python & associated shell scripts
Python programming language	python.org		Python version 2.7.6 or greater recommended
wxPython library	wxpython.org		Latest version recommended
SciPy library	scipy.org		Latest version recommended
PyOpenGL library	pyopengl.sourceforge.net		Latest version recommended
StickWRLD Python scripts	NCH BCCM		Available from http://www.stickwrld.org
fasta2stick.sh file converter	NCH BCCM		Available from http://www.stickwrld.org
Protein and/or DNA sequence data			Samples available at http://www.stickwrld.org