I - TASSERのパイプラインを使用してタンパク質の構造と機能解析に基づくコンピューターのためのガイドラインが記述されています。クエリタンパク質配列から始まる、3Dモデルは、複数のスレッドアラインメントを使用して生成され、構造組立シミュレーションを反復している。機能的な推論は、その後、既知の構造と機能を持つ蛋白質の一致に基づいて描画されます。
Method Article
I - TASSERのパイプラインを使用してタンパク質の構造と機能解析に基づくコンピューターのためのガイドラインが記述されています。クエリタンパク質配列から始まる、3Dモデルは、複数のスレッドアラインメントを使用して生成され、構造組立シミュレーションを反復している。機能的な推論は、その後、既知の構造と機能を持つ蛋白質の一致に基づいて描画されます。
ゲノムシーケンシングプロジェクトは、その生物学的役割についての理解を向上させるために、それらの構造と機能の知識を必要とするタンパク質の配列の何百万を、暗号化されている。実験方法は、これらの蛋白質のごく一部のために詳細な情報を提供することができますが、計算モデルは実験的に未知されているタンパク質分子の大部分のために必要です。 I - TASSERサーバは、タンパク質の構造と機能の高解像度モデリングのためのオンラインワークベンチです。タンパク質配列を考えると、I - TASSERサーバからの典型的な出力は、二次構造予測が含まれ、各残基の溶媒露出度、スレッドと構造アラインメントによって検出された相同テンプレートのタンパク質、最大5つのフルレングスの三次構造モデル、および構造ベースの予測酵素の分類のための機能のアノテーション、遺伝子オントロジーの用語と蛋白質 - リガンド結合部位。すべての予測は信頼性スコアでタグ付けされている予測は実験データを知らなくてもあるか正確に伝えます。エンドユーザーの特殊な要求を容易にするために、サーバはユーザが指定した残基間の距離を受け入れ、対話的にI - TASSERのモデリングを変更するマップを連絡するチャネルを提供し、それはまた、ユーザーがテンプレートとして任意のタンパク質を指定するには、または任意のテンプレートを除外することができます構造の組み立てシミュレーション中のタンパク質。構造情報は、I - TASSER予測の質を改善する目的で実験的証拠または生物学的洞察に基づいて、ユーザーによって収集することができます。サーバは、最近の社会全体のCASP実験でタンパク質の構造と機能の予測のための最高のプログラムとして評価した。現在ありません>オンラインI - TASSERサーバを使用している100カ国以上から20,000登録の科学者が。
メソッドの概要
シーケンス間の構造から機能のパラダイムに続いて、構造と機能のモデリングのためのI - TASSERの手順1-4の4つの連続したステップが含まれます。LOMETS 5による()テンプレートの識別、再構築によってレプリカ- (b)のフラグメント構造交換モンテカルロシミュレーション6; REMO 7、FG - MD 8を使用して (C)原子レベルの構造精密化、および(d)補9を使用して構造ベースの機能の解釈。
テンプレートの識別は :ユーザーによって送信されるクエリーのシーケンスは、シーケンスは、最初にローカルにインストールさLOMETSのメタスレッドサーバで代表的なPDB構造のライブラリを介してスレッド化されている。スレッディングは、同じような構造を持っているか、クエリのタンパク質と同様の構造モチーフを含む可能性のあるテンプレートのタンパク質を同定するために使用される配列構造のアライメントの手順です。相同templのカバレッジを向上させるために食べた検出、LOMETSは別のスレッドの方法論をカバーする複数の最先端のアルゴリズムを組み合わせたもの。別のスレッドのプログラムが別のスコアリングシステムとアライメントの感度を持っているので、各スレッドプログラムから生成されたスレッドアライメントの品質は、次のように定義されている正規化されたZ -スコアで評価される。 
Z -スコアは、プログラムによって生成されたすべてのアライメントの統計的平均値からの相対標準偏差単位でのスコアです、そして、Z 0は "善を区別するために大規模なスレッドのベンチマークテスト5に基づいて決定プログラム固有のZ -スコアのカットオフです。 'と'悪い'テンプレート。高Z -スコアのテンプレートは、トップのテンプレートは、通常、アライメントが良いモデルに対応していることを意味する他のテンプレートのほとんどよりも有意に高いアラインメントスコアが、持っていることを意味します。トップスレッドテンプレートのほとんどは、ハイテクがある場合GH正規化されたZ -スコアは 、最後のI - TASSERモデルの精度は、通常、高いです。しかし、タンパク質が大きく、スレッディングアライメントの範囲は、クエリタンパク質の小さな領域に限定されている場合、高規格化Z -スコアは、必ずしもフルレングスモデルのための高いモデリングの精度を意味するものではありません。各スレッドプログラムから上位2つのスレッドのアライメントは、構造アセンブリの次のステップのために収集され使用されています。
構造のアセンブリのシミュレーションの反復 :スレッド手順に従って、クエリ配列は整列し、整列領域をスレッドに分割されます。アライメントされていないループ領域はのab initioモデリングによって構築されている間スレッディングアライメントの継続的なフラグメントは、テンプレートから切り出し、構造の組み立てのために直接使用されます。構造の組立手順は6レプリカ交換モンテカルロシミュレーションによって導か格子システム上で実行されます。 I - TASSER力場は、水素- BOが含まれています相互作用10、PDB 11で既知のタンパク質の構造に由来する知識ベースの統計的エネルギー項をnding、SVMSEQ 12、および空間的な制約からシーケンスベースのコンタクト予測がLOMETSから5スレッドテンプレートを収集した。シミュレーション中に低温のレプリカで生成された立体配座のデコイは、低い自由エネルギー状態の構造を識別するためにスピッカー13でクラスター化されます。トップクラスタのクラスタの重心は、クラスタ化されたすべての構造的なデコイの3次元座標を平均することによって得られ、最終的なモデルの生成に使用されます。シミュレーションおよびクラスタリングの手順は、立体の衝突を除去し、さらにグローバルなトポロジーを改良するために二度繰り返されます。
原子レベルのモデルの構築と改良 :スピッカークラスタリング後に得られたクラスタの重心は、タンパク質モデル(そのCのαと質量の側鎖の中心に代表される各残基)とhを削減しているaveの限られた生物学的アプリケーション。縮小モデルからフル原子モデルの構築は2段階で行われます。最初のステップでは、REMO 7は 、H -結合ネットワークを最適化することにより、C -αのトレースからフルアトミックモデルを構築するために使用されます。第二段階では、REMOフルアトミックモデルをさらにバックボーンのねじれ角、結合長、および側鎖の回転異性体の向きを改善FG - MD 14によって洗練され、分子動力学シミュレーションによって、などから検索した構造の断片に導かTM -揃えでPDBの構造。 FG - MD洗練されたモデルは、I - TASSERによる立体構造予測のための最終的なモデルとして使用されています。
生成されたモデルの質はLOMETSスレッドアラインメントのZ -スコアとI - TASSERシミュレーションの収束、数学的に定式化に基づいて定義されている信頼度スコア(C -スコア)、に基づいて推定されている。 
ここで、 13によって識別される構造的なクラスタ内の構造のデコイの多重度であり、M TOTは、クラスタリングに提出したデコイの合計数です。 クラスタの重心にクラスタ化されたデコイの平均RMSDです。Norm.Z -スコアは、(i)iは LOMETS 5のスレッドサーバをi番目から得られた上部スレッディングアライメントの正規化されたZ -スコア(式1)であり、Nは LOMETSで使用されているサーバーの数。
C -スコアは、I - TASSERモデルの質と強い相関を持っています。 C -スコアとタンパク質の長さを組み合わせることで、最初のI - TASSERモデルの精度は、TM -スコアと2ÅRMSDを15 0.08の平均誤差で推定することができる。一般的には、C -スコアとモデル> - 1.5は正しいフォールドを持つことが期待されます。ここでは、RMSDおよびTM -スコアは、両方のモデルとネイティブ構造との間のトポロジー類似性のよく知られている指標です。 TM -スコアVALUにおけるESの範囲[0、1]、より高いスコアはよりよい構造の一致16,17を示す。しかし、低いランクのモデル(すなわち第2 -5 番目のモデル)のために、TM -スコアとRMSDとC -スコアの相関は、(〜0.5)はるかに弱いです、そして絶対的なモデルの品質の信頼性の推定に使用することができます。
最初のモデルは、常にI - TASSERシミュレーションで最適なモデルです?この質問に対する答えは、ターゲットの種類によって異なります。簡単なターゲットの場合、最初のモデルは、通常、最良のモデルであり、そのC -スコアは、通常モデルの他の部分よりもはるかに高いです。しかし、スレッドは、重要なテンプレートのヒットを持っていないハードターゲット、のために、最初のモデルは、必ずしも最良のモデルではなく、I - TASSERは実際に最高のテンプレートとモデルを選択するのは困難です。したがって、ハードターゲット用の全5モデルを分析し、それらを実験的情報と生物学的知見に基づいて選択することを推奨します。
この関数は、predがictions:最後のステップでは、FG - MDから生成された最終的な3D -モデル、すなわち、タンパク質の機能の3つの側面を予測するために使用されています:a)の酵素委員会(EC)番号18および(b)の遺伝子オントロジー(GO)19用語と( c)の小分子リガンドの結合部位。すべての3つの側面については、機能的な解釈は、既知の構造と機能を持つPDBのテンプレートのタンパク質へのグローバルおよびローカルな類似性に基づくタンパク質の機能を予測する新しいアプローチである補因子を、使用して生成されます。最初に、予測モデルのグローバルトポロジーの構造アライメントプログラムTM -揃える20を使用して機能的なテンプレートライブラリと照合されます。次に、ターゲットモデルに最も類似したタンパク質のセットは、彼らのグローバルな構造の類似性に基づいてライブラリーから選択されており、広範囲のローカル検索がアクティブ/結合部位領域付近の構造とシーケンスの類似性を識別するために実行されます。その結果、グローバルとローカルの類似度スコアがランク付けに使用されていますテンプレートは、蛋白質(機能的ホモログ)とトップスコアのヒットに基づいて、注釈(EC番号や遺伝子オントロジー19項)を転送する。同様に、リガンド結合部位の残基とリガンドの結合モードがトップスコア関数テンプレート9の既知のリガンド結合部位の残基を持つクエリのローカルアラインメントに基づいて推測されます。
機能の品質(ECおよびGO用語は)I - TASSERの予測は、クエリとテンプレートの間で、グローバルとローカルの類似性の尺度である機能的相同性スコア(FH -スコア)に基づいて評価され、次のように定義されます。 
C -スコアは式で定義された予測モデルの品質の推定値です。 (2)、TM -スコアは、モデルとテンプレートのタンパク質間のグローバルな構造的類似性を測定します。RMSD アリは、TM -揃える20から構造的に整列地域のモデルとテンプレートの構造とのRMSDです; COVは、構造アラインメント(すなわちクエリの長さで割った構造的に整列残基の比)の範囲を表し、ID アリは、TM -揃えアラインメントにおける配列同一です。 EC番号の予測の推定信頼度のスコアはまたとして計算、定義された局所領域内のクエリとテンプレートの間の活性部位の一致(ACM)を評価するための用語が含まれています。 
N tはローカルエリア内に存在するテンプレートの残基の数を表し、N アリが整列クエリテンプレートの残基ペアの数である、D IIが整列残基のi番目のペアの間にCαの距離であり、D 0 = 3.0 Åである距離のカットオフ、M IIは整列残基のi番目のペア間のBLOSUMのスコアです。一般的には、FH -スコアの範囲は[0、5]であり、ACMのスコアは[0、2の間です。より高いスコアをより確信した機能的な割り当てを示す]、。 ACMのスコアは、局所構造とBS -スコアと呼ばれるリガンド結合部位、近くに配列類似性を評価するために使用されます。
1。タンパク質配列の提出
2。結果の可用性
3。二次構造や溶媒露出度予測
4。三次構造予測
5。 LOMETSのターゲットテンプレートのアラインメント
6。PDBの構造類似体
7。補因子を用いて機能予測
8。酵素委員会番号の予測
9。遺伝子オントロジー(GO)長期予測
10。タンパク質 - リガンド結合部位の予測
11。代表的な結果

図1:()FASTAフォーマットのクエリシーケンスを示すI - TASSER結果ページの抜粋を、(B)二次構造および関連する信頼度を予測、および(C)残基の溶媒露出度を予測した。分析されたコア領域と、クエリ内の潜在的な水和サイトは、それぞれ、シアンと赤の長方形で強調表示されます。

図2。

図3。LOMETS 5スレッドのプログラムでトップテン識別スレッドテンプレートとアラインメントを示すI - TASSER結果ページの例。スレッディングアライメントの品質は、値> 1は自信を持って配置を反映して正規化されたZ -スコア(緑色で強調表示)、に基づいて評価されます。対応するクエリの残基と同一のテンプレート内の整列残基は、保存残基/モチーフの存在を示すために色で強調表示されている間のほとんどの整合性の欠如トップテンプレートは、クエリの蛋白質とアラインされていない残基に複数のドメインの存在は、ドメインリンカー領域に対応することを示します。 図3のフルサイズバージョンを表示するにはここをクリック。

TM -揃え20構造アライメントプログラムで識別されるトップテン構造的な類似と構造的なアラインメントを示す結果ページの4例、 図 。に示すように類似の順位は、構造整列のTM -スコア(青で強調表示)に基づいています。 TM -スコア<0.3つのランダムな構造間の類似性を意味しながらTM -スコア> 0.5は、2つの比較構造が似てトポロジーを持っていることを示しています。 " - "アライメントされていない領域がで示されている間、構造的に整列残基のペアは、それらのアミノ酸のプロパティに基づいて、色で強調表示されます。ove.com/files/ftp_upload/3259/3259fig4large.jpg">図4のフルサイズバージョンを表示するにはここをクリック。

図5。PDBライブラリのクエリタンパク質の同定された酵素のホモログを示すI - TASSER結果ページの例。 EC番号の予測の信頼水準EC -スコア(緑色で強調表示)に基づいて分析され、EC -スコア> 1.1は、クエリおよびテンプレートのタンパク質間の機能的類似性(EC番号の同じ最初の3桁)を示します。

図6。クエリタンパク質のための長期的な予測を行く示したI - TASSER結果ページの例。 Gene Ontologyのテンプレートライブラリ内のクエリタンパク質の機能的なホモログは、彼らのFH -スコア(オレンジ色の長方形で)に基づいてランク付けされます。これらのトップスコアのヒットから共通の機能的特徴は、GENERに導出されていますクエリの蛋白質の最終的なGOの長期予測を食べた。予測されたGO用語の品質は、GO -スコア> 0.5 GO -スコア(緑で表示)に基づいて推定されている信頼性の高い予測を示している。 図6のフルサイズバージョンを表示するにはここをクリック。

図7。補因子9アルゴリズムを使用してトップテンタンパク質のリガンド結合部位の予測を示すI - TASSER結果ページの例。予測結合部位の順位は、クエリ内の共通の結合ポケットを共有する予測リガンドの立体配座の数に基づいています。 BS -スコアは(赤で強調表示)の予測とテンプレートの結合部位の間にローカルの配列と構造類似性の尺度であり、結合部位のポケットの保全を分析するために有用です。
les/ftp_upload/3259/3259fig8.jpg"/>
図8。残残基の接触/距離の制約を指定するために使用される外部拘束ファイルの例。

図9。I - TASSERサーバにテンプレートのタンパク質を指定するために使用される拘束ファイルの例。または(B)3Dフォーマット、ユーザーはどちらか(A)FASTA形式でクエリテンプレートのアラインメントを指定することができます。

図10。I - TASSER構造のモデリング手順の実行中にテンプレートを除くために使用するサンプルファイル。最初の列は除外されるテンプレートのタンパク質のPDB IDが含まれています。 2番目の列は、テンプレートライブラリ内の他の同様のテンプレートに使用される配列同一のカットオフを指定するために使用されます。
上記のプロトコルは、I - TASSERサーバを使用して構造と機能のモデリングのための一般的なガイドラインです。 、この自動化された手順は、タンパク質の大部分を非常にうまく動作しますが、人間の介入は、しばしば特にPDBライブラリに近いテンプレートを欠いているタンパク質のため、大幅にモデリングの精度を向上させるのに役立ちます。 (b)の構造のアセンブリを改善するための外部制約を提供する;マルチドメインタンパク質の(A)の分割及び(c)のモデル化の際にテンプレートを削除:ユーザーは、次の方法でI - TASSERのモデリング中に介入することができます。
分割するマルチドメイン蛋白質:
多くの長いタンパク質配列は、頻繁に実験と計算の両方の技術を使用して、その構造の解明を困難にする柔軟なリンカー領域によってつなが複数のドメインが含まれています。それにもかかわらず、ドメインは独立して折り畳み式の実体であり、明確な分子機能を実行することができますように、それは個別に各ドメインの長いマルチドメインタンパク質とモデルを分割することが望ましい。モデリングのドメインは、個別にのみ予測のプロセスをスピードアップしませんが、またクエリテンプレートのアラインメントの質はより信頼性の高い構造と機能の予測の結果、増加する。
タンパク質配列のドメイン境界は、NCBI CDD 24、PFAM 25またはInterProScanの26として自由に利用できる外部のオンラインプログラムを使用して予測することができます。また、アラインメントのスレッドLOMETS、クエリタンパク質のために使用可能な場合は、ドメインの境界を視覚的に(ステップ5.4を参照)上のスレッドのテンプレートに整列されていない残基の長いストレッチを識別することによって見つけることができます。これらのアライメントされていない領域は、主にドメインリンカー領域に対応しています。すべてのクエリーのドメインが整列してマルチドメインのテンプレートがテンプレートPDBライブラリですでに使用可能な場合は、クエリのタンパク質は、全長としてモデル化することができます。
外部制約を提供する
I - TASSERの構造のアセンブリのシミュレーションは、主にテンプレートをスレッドLOMETSから収集された空間的な制約によって導かれる。テンプレートライブラリに優れたスレッドヒット(Norm. Z -スコア > 1)を持っているクエリタンパク質については、派生空間的制約は、高精度であることが多い。とI - TASSERは、これらのタンパク質の高分解能構造モデルを生成します。逆に、弱い、またはまったくスレッディングヒット(Norm. Z -スコア <1)を持つクエリのタンパク質で、収集された空間的な制約は、しばしばテンプレートとアライメントの不確実性のエラーが含まれている。これらのタンパク質のターゲットでは、ユーザーが指定した空間情報は、予測モデルの品質を向上させるために非常に役立ちます。ユーザーは、2つの方法でI - TASSERサーバーへの外部制約を提供することができます。A.は、接触/距離制約を指定します。
NMRから、例えば実験的に特徴づけられる残基間コンタクト/距離、または架橋実験を、拘束のファイルをアップロードして指定することができます。例のファイルは図8に示すように、カラム1が拘束の種類を指定する場所、"DIST"または"CONTACT"すなわち。距離拘束(DIST)の場合は、列が2と4は、残基位置(i、j)を含む、列3と5は、残基と6列目の原子の種類を含む2つの指定された原子間の距離を指定します。接触拘束(CONTACT)の場合は、列2と3は接触にあるべき残基の位置を(i、j)を含んでいます。これらの連絡残基ペアの側鎖の中心間の距離は、PDBで知られている構造で観測された距離に基づいて決定されます。 I - TASSERは、構造精密化のシミュレーション中に指定された距離に近いこれらの原子のペアを描画しようとします。
B.は、タンパク質の構造のテンプレートを指定します。
LOMETSスレッドプログラムでは、クエリのprotのためのもっともらしい襞を見つけるために代表的なPDBライブラリを使用してくださいアイン。代表的な構造のライブラリを使用すると、配列構造のアラインメントを計算するために必要な時間を減らすために役立ちますが、それは良いテンプレートのタンパク質がライブラリ内に見落とされた場合、またはテンプレートが、それがであっても、LOMETSスレッドプログラムで識別されていない可能性がありますライブラリ内に存在する。これらのケースでは、ユーザーがテンプレートとして所望のタンパク質の構造を指定する必要があります。
追加のテンプレートとしてタンパク質の構造を指定するには、ユーザーがいずれかのPDBフォーマットされた構造のファイルをアップロードするか、PDB、ライブラリ内の堆積タンパク質の構造のPDB IDを指定することができます。 I - TASSERは召集プログラム23を使用してクエリテンプレートのアラインメントを生成し、指定されたユーザーテンプレートと構造の組立シミュレーションを導くためにLOMETSテンプレートの両方から空間的な制約を収集します。 LOMETS拘束具の精度が異なるターゲットが異なるため、LOMETSの拘束の重みは、容易に(相同)TAに強力です。体系的に私たちのベンチマークトレーニングにチューニングされているハード(非相同)ターゲット、のそれよりもrgets。
またユーザが独自のクエリテンプレートのアラインメントを指定することができます。 FASTA形式(図9A)及び3Dフォーマット(図9B):サーバーには2つの形式で位置合わせを受け入れます。 FASTA形式は標準とで説明されていますhttp://zhanglab。 ccmb.med.umich.edu / FASTA / 。 3Dフォーマットは、標準的なPDB形式(に似ていますhttp://www.wwpdb.org/documentation/format32/sect9.html )が、テンプレートから派生した2つの追加列はATOMの記録(図9B参照)に追加されます。
列1-30:アトム(C -αのみ)と残クエリシーケンスの名前。
列31から54:テンプレートの対応する原子からコピーされたクエリのC -α原子の座標。
列55から59:アライメントに基づいて、テンプレート内の対応する残基の数
列60から64:テンプレートの対応する残基名
テンプレートの蛋白質を除外する
タンパク質は、柔軟な分子であり、それらの生物学的活性を変更するには、複数の構造状態を採用することができます。例えば、多くのプロテインキナーゼと細胞膜タンパク質の構造は、 アクティブおよび非アクティブの両方コンフォメーションで解決されている。また、結合したリガンドの有無は、大きな構造的な動きを引き起こす可能性があります。テンプレートのすべての構造状態は、スレッド化プログラムのために似ているが、それは1つだけ特定の状態でテンプレートを使用してクエリをモデル化することが望ましい。サーバ上の新しいオプションは、ユーザが構造のモデリング時にテンプレートの蛋白質を除外することができます。また、この機能は、ユーザーがモデリングに使用するテンプレートの相同性レベルを選択できるようになります。ユーザーがテンプレートタンパク質frを除外することができます。OM I - TASSERライブラリ替え:
A.は、配列同一性のカットオフを指定する
ユーザーは、I - TASSERのテンプレートライブラリから相同蛋白質を除外するには、このオプションを使用することができます。相同性のレベルが配列同一のカットオフに基づいて設定されて、クエリとクエリ配列のシーケンスの長さで割ったテンプレートのタンパク質間の同一の残基の数、すなわち。提供する形で"70%"、配列同一性を持っているすべてのテンプレートのタンパク質> 70%のユーザーがクエリタンパク質にたとえば、私は、予定I - TASSERのテンプレートライブラリから除外される。
B.特定のテンプレートの蛋白質を除外
特定のテンプレートのタンパク質が除外される構造のPDB IDを含むリストをアップロードすることによってI - TASSERのテンプレートライブラリから除外することができます。サンプルファイルは、図10に示します。同じタンパク質としてI - TASSER SE、PDBライブラリに複数のエントリとして存在することができますrverはデフォルトで指定されたテンプレート(列1の)だけでなく、アイデンティティーを持つライブラリから他のすべてのテンプレート>指定したテンプレート〜90%が除外されます。また、ユーザーは、アイデンティティーを持つすべてのテンプレート> 70%、指定されたテンプレートのタンパク質には除外されるなどの70%を、別のアイデンティティのカットオフを指定することができます。
利害の衝突は宣言されません。
プロジェクトは、アルフレッドP.スローン財団、NSFのキャリア賞(DBI 1027394)、および米国立総合医科学研究所(GM083107、GM084222)によって部分的にサポートされています。
Request permission to reuse the text or figures of this JoVE article
Request Permission