November 3rd, 2011
I - TASSERのパイプラインを使用してタンパク質の構造と機能解析に基づくコンピューターのためのガイドラインが記述されています。クエリタンパク質配列から始まる、3Dモデルは、複数のスレッドアラインメントを使用して生成され、構造組立シミュレーションを反復している。機能的な推論は、その後、既知の構造と機能を持つ蛋白質の一致に基づいて描画されます。
この手順の目的は、タンパク質分子のアミノ酸配列から始まるタンパク質分子の3次元構造と生物学的機能を計算的に予測することです。これは、まず機械学習によってタンパク質の二次構造を予測することによって達成されます。次に、配列と予測された二次構造をPDBライブラリの解析済み構造と照合して、最適な構造テンプレートを特定します。
この手順はスレッド化と呼ばれます。スレッド化手順に従って、IT AERプログラムは、シーケンステンプレートのアライメントに基づいてテンプレートをフラグメントに分割し、3番目のステップでフラグメントをフルレングスモデルに再アセンブルします。完全な原子モデルは、水素結合ネットワークを最適化し、スターオーバーラップを除去するために、原子レベルの改良によって構築されます。
手順の最後のステップは、予測構造を機能ライブラリ内の既知の機能のタンパク質と一致させることにより、タンパク質の生物学的機能を特定することです。既存の構造モデリング手法に対するITERの主な利点は、固有の構造フラグメントアセンブリアプローチであり、これにより、スレッドのアライメントを一貫してネイティブ状態に近づけることができます。これらの高品質な構造モデルは、科学界でのITERの使用を促進するための正確な構造ベースの機能アノテーションの基礎も形成しています。
当研究室では、タンパク質の配列をiterに提出できるウェブサイトを公開しています。このウェブサイトは、世界中のユーザーがITERシミュレーションを管理および実行するコンピュータークラスターへのインターフェースを登録できるネクサスとして機能します。ITERシミュレーションジョブは、12を超える小さなサブシミュレーションで構成されています。
これらのシミュレーションを 1 つのプロセッサ コアを持つ 1 台のコンピューターで実行すると、100 時間以上かかる場合があります。Zang ラボのコンピューター クラスターは、これらのサブ シミュレーションを数百台のコンピューターに配布し、2000 を超えるシミュレーションを実行できます。私たちのコンピュータークラスターと同時に、毎日何百ものIテイスターシミュレーションを完了することができます。
この容量があっても、システムを最適化し、オンラインIT AERユーザーの待ち時間を最小限に抑えるためには、多くの作業を行う必要があります。構造と関数のモデリング実験を開始するには、IT AERのWebページにログオンします。ここで説明するすべての関連WebページのURLアドレスは、書面によるプロトコルに記載されています。
アミノ酸配列を提供されたフォームにコピー&ペーストするか、参照ボタンをクリックして配列を直接アップロードします。ジョブのメールアドレスと名前を入力します。ユーザーはオプションで、外部から残留物への接触または距離の拘束を指定できます。
構造モデリングプロセス中に、追加のテンプレートを追加したり、一部のテンプレートタンパク質を除外したりします。シーケンスを送信するには、Run it テーザーボタンをクリックします。送信されたジョブのステータスを確認するには、ITテーザーキューページにアクセスしてください。
検索タブをクリックし、ジョブ ID 番号またはクエリ シーケンスを使用して、送信されたジョブを検索します。構造と関数のモデリングが完了すると、予測された構造の画像とWebリンクが記載された通知メールが、指定されたメールアドレスに送信されます。このリンクをクリックして、結果を表示およびダウンロードします。
構造解析は、H(アルファヘリックス)、S(ベータストランド)、C(コイル)で表示される二次構造予測を調べることから開始します。また、各残差の予測の信頼度スコアも考慮します。規則的な二次構造予測の長い構造を持つ領域を探して、タンパク質のコア領域を推定します。
タンパク質の構造クラスは、二次構造要素の分布に基づいて分析することもできます。予測される溶媒のアクセス可能性を表示して、埋もれた領域と溶媒にさらされた領域を確認します。予測される溶媒アクセシビリティのクエリ値では、埋没残留物のスコア 0 から露出残留物のスコア 9 までの範囲です。
ほとんどが埋もれた残基を含む領域は、タンパク質のコア領域を描写するために使用でき、溶媒にさらされた領域や親水性の残基を持つ領域は、水和または機能的な部位となる可能性があります。クエリタンパク質の予測された三次構造を表示するには、表示されたインタラクティブなJMO Apptの左側まで下にスクロールします。アプレットをクリックして、表示される構造の外観を変更します。
特定の領域にズームインしたり、予測モデルで特定の残差タイプを選択したり、残差距離を計算したりします。構造モデリングの信頼度スコアを解析して、予測された構造の品質を推定します。Csco 値は通常、負の 5 から 2 の範囲にあり、スコアが高いほど、モデルの品質が高いことを反映しています。
最初のモデルの推定 TM スコアと RMSD は、モデル 1 の推定精度として表示されます。「more about csco」リンクをクリックします。すべてのモデルの csco クラスター サイズとクラスター密度を分析するには、低 mets スレッディング プログラムによって識別されたクエリ プロテインの上位 10 個のスレッディング テンプレートを分析します。
結果ページを下にスクロールすると、正規化された Z スコアが表示され、スレッド配置の品質が分析されます。正規化された csco が 1 より大きいアラインメントは、信頼度の高いアラインメントを反映しており、クエリタンパク質と同じフォールドを持つ可能性が最も高いです。スレッディングアライメント領域の配列同一性を調べ、鎖全体の配列の同一性を調べて、クエリとテンプレートタンパク質との間の相同性を評価します。
高い配列同一性は、クエリタンパク質とテンプレートタンパク質との間の進化的関連性の指標です。クエリ内の保存された残基またはモチーフを視覚的に識別するために色で示されたスレッディング整列残基を表示し、テンプレートタンパク質を見ると、全鎖アラインメントと比較してスレッディング整列領域の配列同一性が高いことも、クエリに保存された構造モチーフまたはドメインが存在することを示します。ねじ切りアライメントを検査して、ねじ切りアライメントのカバレッジを評価します。
トップアラインメントのカバレッジが低く、クエリタンパク質の小さな領域のみに限定されている場合、またはクエリシーケンスの長いセグメントに存在しない場合、クエリタンパク質に複数のドメインが含まれていることを示しています。この場合、シーケンスを分割し、ドメインを個別にモデル化することをお勧めします。結果ページの次の表を表示して、構造アライメント プログラム TM align によって特定された最初の予測モデルの上位 10 個の構造類似体を決定します。
TMスコアが0.5より大きい場合は、検出されたアナログとモデルが類似したトポロジーを持ち、クエリタンパク質の構造クラスまたはタンパク質ファミリーを決定するために使用できることを示します。TMスコアが0.3未満のものは、ランダムな構造の類似性を意味します。構造的に整列した領域の配列同一性とRMSDを解析し、モデルと構造アナログの空間モチーフの保存性を評価します。
アライメント内の色付きおよび整列した残留物ペアを視覚的に検査して、これらの構造的に保存された残留物とモチーフを特定します。予測EC数表を見て、クエリタンパク質の上位5つの潜在的な酵素OGを確認します。これらのテンプレートを使用した EC 番号予測の信頼水準は、ベンチマーク分析に基づく EC スコアとして表示されます。
クエリとテンプレートタンパク質の機能的類似性は、1.1 を超える EC スコアを使用して確実に解釈できます。次に、クエリタンパク質と同様のフォールドを持つテンプレート間で機能のコンセンサスを探します。複数のテンプレートに同じ EC 番号があり、EC スコアが 1.1 より大きい場合、予測の信頼度は非常に高くなります。
ただし、ECスコアが高いにもかかわらず、特定されたヒット間でコンセンサスが不足している場合、予測の信頼性は低下するため、ユーザーは遺伝子オントロジーを参照することをお勧めします。用語予測は、予測された遺伝子オントロジー用語テーブルを表示して、遺伝子オントロジー用語で注釈が付けられたPDBライブラリ内のクエリタンパク質の上位10の相同体を特定し、各タンパク質は通常、その分子機能、生物学的プロセス、および細胞位置を説明する複数の遺伝子オントロジー用語に関連付けられています。各用語をクリックしてamigoのWebサイトにアクセスし、その定義と系統を分析します。
機能的相同性スコア列を解析して、クエリとテンプレートタンパク質間の機能的類似性にアクセスします。これらのタンパク質から機能アノテーションを転写する信頼度も推定できます。遺伝子オントロジー用語のコンセンサス予測テーブルを表示して、テンプレート間の機能の一致を分析します。
これらの共通関数は、クエリタンパク質の遺伝子オントロジー項を予測し、地理的項予測の信頼度を評価するために使用されます。最後に、ページの一番下までスクロールして、クエリタンパク質の上位10のリガンド結合部位の予測を表示し、共通の結合ポケットを共有する予測リガンド確認の数に基づいてランク付けされます。最も識別された結合部位は、JM OL アプリケーションに既に表示されています。
ラジオボタンをクリックすると、他の予測が解析され、リガンドが相互作用する残基を視覚化できます。BSスコアは、モデルとテンプレートの結合サイトとの間の局所的な類似性を明らかにします。BSスコアが1.1より大きい場合は、予測された結合部位の近くで高い配列と構造的類似性を示しています。
このモデルでは、テンプレート内の既知のバインディング サイトと比較して、IT はメイン Web ページであり、他の便利な機能のリンクが含まれています。フォーラム機能を使用すると、ユーザーはオンラインアカウントを作成し、構造モデリングに関する他のITERユーザーからの助けを求めたり、結果を解釈したりすることができます。ダウンロード機能を使用すると、ユーザーはiterおよび関連パッケージをダウンロードして、コンピューターにインストールできます。
これにより、モデリング実験の実行に必要な時間を短縮できます。キュー機能を使用すると、送信されたすべてのジョブのステータスを IT a Q ページで確認できます。また、モデリングされた構造物の画像を視覚的に検査し、完成したジョブを確認することもできます。
このページには、最初のモデルのCSCO予想TMスコアと予想RMSD、およびここに示されている提出日にも示されており、より高速にフォーマットされたクエリシーケンス、予測された二次構造、および関連する信頼スコアと残基の予測された溶媒アクセシビリティを示すIT AER結果ページの抜粋です。クエリで分析されたコア領域と潜在的なハイドレーション サイトは、それぞれシアンと赤の四角形で強調表示されます。ここでは、クエリタンパク質の三次構造予測を示します。
予測されたモデルはインタラクティブなJMLアプリアウトレットに表示され、ユーザーは分子の表示を変更できます。モデルは、ダウンロードリンクをクリックしてダウンロードすることもでき、モデルの品質を推定するための信頼度スコアがcscoとして報告されます。Loomis のスレッド プログラムによって特定された上位 10 のスレッド テンプレートと配置を示す itta A 結果ページの例が示されています。
スレッド整列の品質は、正規化された Z スコアに基づいて評価され、1 より大きい値は信頼度の高い整列を反映します。テンプレート内の整列された残基のうち、対応するクエリ残基と同一の残基は、保存された残基またはモチーフの存在を示すために色付きで強調表示されます。逆に、上位のテンプレートのほとんどでアラインメントが欠如している場合は、クエリタンパク質に複数のドメインが存在することを示しており、アラインされていない残基はドメインリンカー領域に対応しています。
この表は、TMアライメント構造アライメントプログラムによって特定された上位10個の構造アナログと構造アライメントを示しています。アナログのランキングは、構造アライメントのTMスコアに基づいています。TM スコアが 0.5 より大きい場合は、比較された 2 つの構造体のトポロジが類似していることを示します。
一方、TMスコアが0.3未満の場合、2つのランダムな構造間の類似性を意味します。構造的に整列した残基ペアは、そのアミノ酸特性に基づいて色で強調表示され、整列していない領域はダッシュで示されます。これは、PDBライブラリ内のクエリタンパク質の同定された酵素相同体を示すITR結果ページの例です。
EC数予測の信頼水準は、ECスコアに基づいて分析され、ECスコアが1.1より大きい場合は、クエリとテンプレートタンパク質の機能的類似性を示します。クエリタンパク質の遺伝子オントロジー用語予測テーブルには、機能的相同性スコアに基づいてランク付けされた遺伝子オントロジーテンプレートライブラリ内のクエリタンパク質の機能ホモログが含まれています。これらのトップスコアヒットから共通の機能的特徴が導き出され、クエリタンパク質の最終的な遺伝子オントロジー用語予測が生成されます。
予測された遺伝子オントロジー用語の品質は、ジオスコアに基づいて推定され、ジオスコアが0.5より大きい場合は、コファクターアルゴリズムを使用した上位10のタンパク質リガンド結合部位の予測を示すIT AZA結果ページの例としてここに示されている信頼性の高い予測を示します。予測された結合部位のランキングは、共通の結合ポケットを共有する予測されたリガンド確認の数に基づいています。クエリでは、BSスコアは、予測された結合部位とテンプレート結合部位との間の局所的な配列と構造の類似性の尺度であり、結合部位ポケットの保存を分析するのに役立ちます。
ISERは、タンパク質の構造と機能予測のための最も効率的なアルゴリズムの1つですが、これは単なるコンピューターアルゴリズムからの予測であることを覚えておくことが重要です。残基接触結合情報などの実験データや関数の洞察は、予測の精度を高めるのに非常に役立ちます。IT AERサーバーには、モデリング手順中にこれらの情報を含めるためのポータルがあり、それに対する関心の高まりに対応します。
Aer、Zang研究室は、非営利研究用にITAERソフトウェアを無料でリリースしました。私たちは、改良されたIT AERと改良されたアイテイスターを積極的に開発しており、その利用可能性がZang研究室の外での大規模な応用につながり、科学界でのさらなる研究に利益をもたらし、促進することを願っています。
この記事では、アミノ酸配列からタンパク質の3D構造と機能を予測するI-TASSERパイプラインの説明を行っています。このプロセスには、スレッディング、断片アセンブリ、既知のタンパク質構造に基づく機能推論が含まれます。