Summary
このプロトコルの目的は、首尾一貫した命名と分類基準に欠けているグループの発散の蛋白質のための参照を開発します。このリファレンスでは、分析と全体としてグループの議論を促進し、設立名に加えて、使用することができます。
Abstract
さまざまな生物を使用して別のラボで研究されている関連タンパク質は全体としてグループを議論して、適切なコンテキストに新しいシーケンスを配置する困難の命名と分類、統一システムに欠けるかもしれない。構造に関連する重要なシーケンス機能を優先する参照の開発および/または蛋白質の多様なグループにいくつかの一貫性を追加する確立された名前に加えてアクティビティを使用できます。本稿は表示方法表計算ソフトで生成された参照することができます既存のタンパク質スーパーファミリーの間の関係を明らかにするだけでなく新しいの追加を容易にするため例としてシステイン安定化 α-ヘリックス (CS αβ) スーパーファミリーを使用します。シーケンス。それはまた参照が系統解析の妥当性に影響を与える一般的に使用されるソフトウェアで生成された配列アラインメントを絞り込むに役立つかを示しています。参照の使用は、分子解析によって適切にキャプチャされない機能を備えた、イチイの広いスペクトルからの高度に分岐のシーケンスを含む蛋白質のグループの最も役に立つでしょう。
Introduction
特性および他の蛋白質との関係は、タンパク質の名前を反映すべき。残念ながら、名が発見の時に一般に割り当てられ、研究し続けており、大きな文脈の理解を変更可能性があります。タンパク質が独立して以上 1 つのラボ、命名やと思われる名前を割り当てるときに決定的な特性変更してもはや十分に蛋白質を区別する名前によって識別された場合、これは複数名につながることができます。他から。
無脊椎動物のディフェンシンは、変性専門語および分類の良い例を提供します。最初の無脊椎動物のディフェンシンは、昆虫から報告された、哺乳類ディフェンシン1,2知覚の相同性に基づいて提案された、名前「昆虫ディフェンシン"。用語のディフェンシンはまだ使用されて、その無脊椎動物、哺乳類のディフェンシンは、共通祖先3,4を共有しないにもかかわらず、明らかになった。種に応じて「ディフェンシン」無脊椎動物は六つまたは 8 つのシステイン (3 つまたは 4 つのジスルフィド結合となる) とさまざまな抗菌活性があります。線虫 remanei5から最近同定された cremycins などの状況、同じ特性を持つ蛋白質を複雑にディフェンシンは常に「ディフェンシン、」呼び出されませんよう。さらに、無脊椎動物の大きいディフェンシンは脊椎動物 β-ディフェンシンより他の無脊椎動物のディフェンシン6に関連する進化する可能性が高い。それにもかかわらず、研究者は時々、名前「ディフェンシン」どのシーケンスは、解析に含めるかを決定するときに依存します。
構造研究は、昆虫のディフェンシンとサソリ毒素7間の類似性を明らかにし、CS αβ 倍その後昆虫ディフェンシン8の構造特性を定義として設立されました。この倍は現在 5 つの家族が含まれています、タンパク質構造分類 (SCOP) データベース9でサソリ毒素のような (CS αβ) スーパーファミリーを定義します: 昆虫ディフェンシン、短鎖サソリ毒素、長鎖サソリ毒素MGD-1 (軟体動物) からと植物のディフェンシン。このスーパーファミリーは、最近は、cis ディフェンシン4とキャス/遺伝子 3 D データベース10、113.30.30.10 スーパーファミリーと同義です。様々 な無脊椎動物の分類、植物および菌類をこの倍を含んでいる蛋白質の名前が明確にはシステイン番号または接合パターン、抗菌活性、進化の歴史12に関連しないことから研究。
一貫性と明確な基準の欠如を名前を付け、このスーパーファミリーで新たに確認されたシーケンスの分類を困難に作る。このスーパーファミリー蛋白質を比較することに大きな障害となってシステインはそれぞれ個々 のシーケンスに対して (各シーケンスで最初のシステインは C1)、構造の役割を考慮する方法がないと番号が付けられます。これはシステインの同じ番号を持つシーケンスだけを比較できることを意味します。アラインメントと系統解析を難しくした CS αβ 折りを形成システイン以外ほとんどシーケンス保全がありません。構造的特徴を優先番号システムを開発することによってスーパーファミリー シーケンスことができますより簡単に比較して、整列します。保存機能だけでなく、これらのサブグループを定義するが、すぐに視覚化できることし、適切なコンテキストに新しいシーケンスをより簡単に配置できます。
本稿は、番号 CS αβ スーパーファミリーのシステム参照を生成する表計算ソフト (たとえばExcel) を使用します。それはこのシーケンスの比較を明確にしクマムシから識別される新しい CS αβ シーケンスに適用されますを示します。興味のシーケンスを使用する場合は、ガイダンスを提供するプロトコルを書かれた CS αβ スーパーファミリーを例として使用して、しかし、それはこのスーパーファミリーまたはシステイン豊富なシーケンスに固有するものではありません。このメソッドは、異なる分類群で独立して研究されているおよび/または分子解析ソフトウェアによって容易に認識されないことが離散特性を持つほとんどの全体的な相同タンパク質のグループに最も役に立つでしょう。されますので、限られたユーティリティの重要な機能は特定されていない場合、このメソッドは、重要な機能に関するいくつかの事前の意思決定を必要とします。主な目的は、順序関係の簡単な可視化を実現する方法を示すことです。これは、解析、配列アラインメントを通知する使用できますが、バーコード メソッドがオートメーション13のより多くの容量を持つ適切な代替になる配置と分析は主目標である場合。現在のメソッドは、3 D 構造の直接的可視化に役立つされませんので線形形式で各ペプチドの機能を表示します。
Subscription Required. Please recommend JoVE to your librarian.
Protocol
1 です。 興味の蛋白質群を定義する機能を決定する
- グループの一部と見なされるために必要な機能に関する合意がある場合を決定する相談以前の出版物。不一致や研究グループ間の意見の違いのメモを取るし、別の 1 つのサブグループを区別するために役立つ可能性がある特徴があります 。
- 以前文献で定義する特性が解決されない場合は、保存機能を識別するための出発点として、グループの代表者と見なされているシーケンスを使用します 。
2。該当するシーケンスを収集
- レビューが書かれている場合、グループを代表しているシーケンスの分析を含む、これらのシーケンスは、生のデータセット。受入番号、文献で参照を使用してシーケンスを取得し、編集プログラム標準の順序で保存 (例えば、 EditSeq Lasergene スイートまたは 1 つの利用できる多くの無料のオンライン).
- は、グループには 1 つの構造のデータベースで定義されている場合のデータベースはデータベースに記載されている加盟番号を使用して取得シーケンス グループの一員として、シーケンスを含めるし、標準シーケンス編集で保存プログラムでは、上記のようにします
。 注: たとえば、SCOP データベースで CS αβ (サソリ毒素のような) スーパーファミリーに分類されるシーケンスはこちら: http://scop.mrc-lmb.cam.ac.uk/scop/data/scop.b.h.c.h.html. - 実行基本的なローカルパブリックなオンライン データベース国立センターの生物工学情報 (NCBI) 文献にない含まれているシーケンスを見つけることが提供または構造の配置検索ツール (ブラスト) 14 検索データベース。最も結果を完了、両方蛋白質ブラスト (blastp) を使用し、タンパク質 (tblastn) のクエリ プログラムと爆発を翻訳これらは、両方で利用できる: https://blast.ncbi.nlm.nih.gov/Blast.cgi。
- 使用シーケンスをクエリ シーケンスとして興味のグループの一部であることが知られています。コピーして、上部にある検索ボックスにシーケンスを貼り付けるかあれば GenBank 加盟番号または gi 識別子を提供します 。
- は、ドロップ ダウン メニューからデータベースを選択します。Blastp の重複を除いた蛋白質シーケンス (nr) を選択し、tblastn のタグを表現します 。
- 有機体の有機体または分類群名を入力し、入力時に表示されるリストから選択する設定で特定の分類で検索します。追加有機体または除外する分類を追加するをクリックして、" + " ボタンと別のフィールドが表示されます。有機体または分類群の名は、入力して、チェック時に表示される一覧から選択するを入力することによって生物ボックスの任意の不要なイチイを除外、" 除外 " 右側のボックスです 。
- をクリックして追加のパラメーターにアクセス " アルゴリズム パラメーター "、ページの下部に。パラメーターを変更するための理論的根拠がない限り、デフォルトのままにします 。
- をクリックして、" 爆発 " 解析を実行するボタン; 結果を表示いくつかの時間がかかることがあります。一般的には、ヒットの期待値 (または e 値) を含むを取得 " -05 " またはより良いし、編集プログラム標準の順序で保存します。
- すべてのヒットがこのしきい値を超えるなら、すべて該当するシーケンスを取得する ([アルゴリズム パラメーター] セクション) ターゲット シーケンス数の増加と検索を再実行します 。
- 必要に応じて、トリム無関係な情報 (例えば、 CS αβ 折りは、成熟したペプチドにのみ適用されます) を除外するシーケンス。信号ペプチドおよび支柱 15 を使用して除去するためプロ ペプチッド識別 (利用できるオンライン)、またはより洗練された信号ペプチド予測 16 SignalP (利用できるオンライン).
3。重要な機能が識別されたに基づくスプレッドシート参照を生成する
- 重要グループの特徴を識別します。たとえば、昆虫 クロキンバエなど ( 図 1) 8 から A をディフェンシンの溶液構造によって決定的に確立された CS αβ 倍を使用します。
- この倍にはシステイン安定ヘリックス (CSH) 17 と呼ばれる小さいモチーフが含まれています; (X は任意のアミノ酸) CXXXC でこのモチーフを識別する 2 つのジスルフィド結合を形成する CXC の上流 ( 図 1 固体、ピンクのライン).
注: CS αβ モチーフを完了する追加システイン CSH モチーフ ( 図 1、ピンクの点線) の各半分の前に配置から形成される 3 番目のジスルフィド結合します 。
- この倍にはシステイン安定ヘリックス (CSH) 17 と呼ばれる小さいモチーフが含まれています; (X は任意のアミノ酸) CXXXC でこのモチーフを識別する 2 つのジスルフィド結合を形成する CXC の上流 ( 図 1 固体、ピンクのライン).
- スプレッドシートに機能を定義するこれらを入力してください。 図 2 を参照してください。
- 保存機能とこれらの機能の間のスペースを表す列の使用。列番号を合わせて、一貫した幅があることを確認十分な幅を維持します。幅を使用して設定、" 形式 |列の幅 " 関数 ( 図 2、ピンクの矢印).
- シーケンス名の行を使用します 。
- シーケンスが機能は、塗りつぶし関数 ( 図 2、ピンクの正方形) を使ってボックスを入力します。機能間の間隔、間のボックスにアミノ酸の数を入力し、品切れにしておきます。たとえば、C2 と C3 と C5 と C6 の間に定義された間隔で六つのシステインを含む参照を与える昆虫ディフェンシン シーケンスを使用します 。
- 構造データベースおよび文献に基づくグループのメンバーとして以前に確立した代表的なシーケンスを追加します
。 注: たとえば、先行文献と SCOP データベースを識別する包含のためのいくつかのグループ: 昆虫ディフェンシン、短鎖サソリ毒素、長鎖サソリ毒素 MGD 1、植物のディフェンシン、ABFs 線虫、ショウジョウバエ から drosomycins とmacins。文献はまたこのスーパーファミリー 18 の祖先を表す場合があります唯一の 4 つのシステインと細菌シーケンスを識別します。これらのシーケンスを追加する 6 から 10 の参照のシステインの数を増加させるが、重要な構造の特徴 ( 図 3) のアライメントを維持します。- シーケンス (たとえば、余分なシステイン) のサブグループを定義する可能性のある機能を追加する、" 挿入 " 関数 ( 図 3、ピンクの矢印). 指定されたシーケンスから欠落している機能未充足のままおよび介在のアミノ酸を表すボックスとそれを組み合わせるある場合は
- 。必要に応じて、差し込み印刷とセンター機能 ( 図 3、ピンク色のボックス) を使用してセルを結合します 。
- 大きなスーパーファミリーの各グループの変化のより良い画像を得るために 続行シーケンスをグループに追加します。( 図 4) の比較を容易にするためにグループの特性を要約します。
- アミノ酸の主な機能の間の数が変化、6-12 (6 に 12 アミノ酸) といずれかを示すスラッシュなど、範囲を示すハイフンを使用して/または、7/10 (7 または 10 アミノ酸) など 。
- は、参照に含めるには、関連が十分に頻繁に発生しないシーケンスの機能に注釈を付ける方法を選択します。たとえば、システインはこのスーパーファミリーで重要なのでラベルを追加システイン ( 図 4、ピンク色のボックス).
- Newl を追加ガイドとして確立されたシーケンスを使用してスプレッドシートに y 識別シーケンス。たとえば、クマムシ (黄色) からシーケンスを追加する tardigrade のシーケンスが ( 図 5 スペース用シーケンスごとに 1 行の代わりに集計が表示されます) スーパーファミリーのいくつかの異なるグループに入ることを示しています 。
- ( 図 6) の行を並べ替えることによって分類群内変動を表示します 。
4。アミノ酸の線形の改良への参照を使用して
注: 多重配列アライメントに使用することができます多くのプログラムがありますが、このデモは分子進化遺伝学解析 (MEGA6) を使用して 19 だから無料でダウンロードして利用できます
。- をダウンロードしてソフトウェアをインストールします 。
- を選択してメガの新しい整列を開始 " 編集/ビルド配置 " 整列タブの選択の下で " 新しい線形を作成 "] をクリックし、表示されるボックスに " OK " を選択 " タンパク質。 " 。
- 選択 " ファイルから挿入のシーケンス " で、" 編集 " シーケンスをインポートするメニュー
。 注: シーケンスは、メガにインポートできる FASTA 形式でする必要があります。既定では、異なるアミノ酸の種類を反映する背景色が使用されますの下でこのオプションをオフにすることができます、" 表示 " メニュー 。
- すべてのシーケンスを入力すると、屈曲アーム アイコンをクリックし、" 整列蛋白質 " 筋アルゴリズム 20 を使用してシーケンスを配置する
。 注: ClustalW も可能です。- 場合は何も選択したポップアップをされており、すべてを選択するように求められますことを示すメッセージをクリックして " OK。 "
- 注: ウィンドウが開き、いずれかのいくつかのパラメーターを変更することができるが、彼らは変更のみ必要がありますそうする理由があります。この分析は、以前紙 12 分析シーケンスのサブセットを使用します 。
- チェックの配置が重要な機能に基づく; シーケンス上のトップ バー アミノ酸が完全にはすべての列が表示されますメモが保存されている (*)。参照してください 図 7。初期配置が 4 つの保存されたシステイン ( 図 7、ピンク色のボックス); の 3 つだけを示していますを参照してください。列を見下ろして AlCRP シーケンスが明らかにずれている ( 図 7、ピンクの矢印). 間の大きいギャップの解消を取得する
- とダッシュ ハイライト表示、保存された C、" 削除 " キー。任意のアミノ酸を強調しないまたは同様削除されます 。 右側にアミノ酸を移動、ハイライトしスペースバーを押して
-
- 注整列構造システインがなりました、AlCRP と CXXXC のモチーフの最後の C が配置 ( 図 8) で保存されています。シーケンスの最も重要な機能の優先順位に応じて位置を調整する 。
5。グループ識別による系統解析から結果を参照比較
- 予備線形から決定どのシーケンスが系統解析; シーケンスの数が少ないために含める必要があります、このステップが必要はありません。
- すべてのシーケンスを含む配置ファイルのまま系統解析の冗長なシーケンスを削除 (重複シーケンスの 図 9、ピンク ボックス ショー ペア).
- データ セットには、配列の多数が含まれている場合、予備分析を実行して、グループから選択の代表者は、常に、クレードを形成します 。
- 最高のアミノ酸置換モデルを決定します。
- ([データ] タブで) メガ形式で配置をエクスポートします 。
- [モデル] メニューに移動し、選択 " を見つける最高 DNA/タンパク質モデル " 変更することができますいくつかのパラメーターを持つウィンドウが開きます; 先ほど保存したファイルを選択し、それを開きます。 。
- は、それらを変更する理由がある場合を除き、既定のパラメーターを使用します。クリックして " 計算 " 分析を開始します 。
- メガで最大尤度 (ML) 解析を実行します。
- 選択 " 構築/テスト最大尤度ツリー " 系統メニューから 。
- モデルは 5.2 からデータに最適であると判断を選択 (置換モデルとして最高出力を与える " レート サイトの中で " パラメーター).
- ツリーのサポートのメジャーを取得する選択 1,000 ブートス トラップをレプリケートします 。
- をクリックして " を計算 " 解析を実行するにはメガは、" ツリー エクスプ ローラー " ツリーを視覚化する 。
- MrBayes オープン ソース ソフトウェア 21 でベイジアン解析を実行します
。 注: MrBayes マニュアルはこのサイトからもできます。これは基本的な手順を提供するものですし、ベイズ法による系統解析を行うための包括的なガイドではありません。- PAUP (ネクサス) 形式でメガ配置を MrBayes プログラムと同じフォルダーにエクスポートします 。
- オープン MrBayes そして種類 " exe ファイル名 " (例えば、 " exe Alignment.nex ").
- は、モデルと解析パラメーターを指定します。5.2 のステップで指定されたいずれかモデルを選択するか、" 混合 " 設定は様々 なモデルを試してみて、最高の事後確率を持つ木のモデルの周波数を報告 (prset aamodelpr = 混合)。タイプ " showmodel " 現在のモデルの設定を報告して " mcmc を助ける " それぞれの簡単な説明、現在のパラメーター設定を表示する 。
- を使用しての世代数を設定、" mcmcp ngen = " コマンド (100 万が一般的です).
- 型 " mcmc " 分析を開始します 。
- 世代の数が完了すると、プログラムは世代以上を追加する求められます。分割周波数の平均標準偏差が 0.1 より小さい場合は、なしを入力します。それは 0.1 の上、解析を続行するべきか (マニュアル参照) いくつかのパラメーターを変更する必要があります 。
- 使用の " sumt " ツリー ファイルを生成するためのコマンドです 。
- フィグツリーでツリーを表示できる分析が完了すると、コンセンサス ツリーが生成される、(利用可能なオンライン).
- メソッドは一貫した結果を生成するかどうかを表示するツリーを比較します
。 注: いくつかのシーケンスは、多くの情報を与えないように: 木をうまく解決できない場合があります、枝が最小限にサポート ( 図 10). - 系統解析がこれらのグループをサポートするかどうかに参照を使用して特定のグループにツリーを比較します 。
Subscription Required. Please recommend JoVE to your librarian.
Representative Results
文献で報告された CS αβ スーパーファミリーのシーケンスのグループは、図 4のとおりです。各シーケンスの番号付けに基づいてシステインの組み合わせは、5 つの基本的なグループ (表 1、中央の列) をお勧めします。グループ 1 は 6 システイン 3 二硫化から債券、昆虫、クモ、軟体動物、線虫、菌類からのシーケンスが含まれています。2、3、および 4 のグループは 4 つのジスルフィド結合を形成する 8 のシステインであります。グループ 2 は、昆虫、クモ、植物シーケンス; 含まれています。グループ 3 は、くも類、軟体動物、および線虫のシーケンス; 含まれています。グループ 4 に刺胞動物、環形動物、軟体動物、および菌類からのシーケンスが含まれています。グループ 5 では、10 のシステイン macins 含まれています。いくつかのシーケンスはかなりこれらのパターンに適合していないが、他のものより 1 つのグループに一般に近づいていた。
グループ 1 と 2 に見える 2 つの債券を共有する: C2 C5、C3 C6。ただし、その最初のシステインと各シーケンスの番号を始めて社債の構造のコンテキストを認めていません。C2-C5 グループ 1 のシーケンス グループ 2 シーケンスで C2 C5 は CS αβ 倍を安定させるために必要な最終的な結合を形成しながら、CSH をモチーフとした、債券の 2 つのフォームを。同種債券グループ 1 C2-C5、C3 C6 Group2 番号から明らかであります。またわかりにくいグループ 3 の C2 ・ C6 の結合は、同じ構造役割を果たしています。
文献からシーケンスを使用して、合計 10 のシステインと参照が生成されます。CSH のモチーフは、債券 C3 C8、C4 C9、C2 ・ C6 CS αβ の倍を完了するとから形成されます。債券の各シーケンス (表 1、右の列) の存在を明らかにする参照番号に基づくシステイン ペアの番号を付け替えます。今、すべてのシーケンスが C2 ・ C6、C3 C8、C4-C9、スーパーファミリーを定義する構造の展開を反映して明らかです。参照の使用する一貫性のない命名のシーケンスとあいまいな分類基準と比較しやすい。それはシーケンスのサブグループを定義するフィーチャーを識別することができます。たとえば、C1 C7 債券は、それに「ディフェンシン」(表 1および図 4) ではなく"macins"としてこのボンドでシーケンスを分類する適切な他のスーパーファミリーのメンバーから macins を区別するかもしれない。
明らかの公共のオンライン データベースの検索 CS αβ を明確に持つクマムシから 16 のシーケンスを折ると、 Hypsibius dujardiniから各 8、 Milnesium tardigradum 。新しいシーケンスの 4 つがある六つのシステイン、9 8、9 があるを有し 2 10。これは非常に小さな情報を与えるが、参照するシーケンスを合わせ、システインの同じ数を用いる tardigrade のシーケンスがないこと常に構造的に重要なシステイン (シーケンス内で同じ場所で明らかになります。図 5と図 6)。(テーブル 2、推論接合パターンかっこ内に表示) のパターンを結合の推定参照して配置も可能です。Tardigrade シーケンスのいくつかは明確にパターン 1-4 を合わせてください。他は提案された細菌の祖先、スコーピオン Cl 毒素、または真菌のディフェンシンのようなペプチドの家族に最も似ています。パターン 2 スコーピオン Cl 毒素でスコーピオン Na + 毒素、drosomycin、および植物のディフェンシンと他で表される 1 つ、2 つのサブグループがあります。かどうかディフェンシンよりもむしろ毒素いくつか考慮する必要がありますを決定する tardigrade 蛋白質の機能を調査して今後の作業です。
系統解析があります蛋白質のグループが進化の研究に使われます。CS αβ スーパーファミリーのシーケンスは、一般的に短いと高度に分化。結果として得られる木不十分な解決が多いし、少し洞察力を提供します。ここで分析したシーケンスのサブセットの ML とベイズの木は多くクレード (図 10、補助ファイル 1 - 4) の低いサポートと、不十分な解決されました。のみブートス トラップ レベル 70 以上 (または事後確率 0.7 以上) を表示するの一般的だが、図 10を保持するすべてのサポートの全体の低レベルを示す数値。5 つのグループが 2 つの木の少なくとも 1 つで 70/0.7 上記サポートされていた: (a) 6 C と 8 C サソリ毒素;(b) macins;(c) ダニやサソリ ディフェンシン;(d) 植物のディフェンシン;昆虫やクモ、貝類から (e) 6 C ディフェンシン。ML ツリーでクレード e も 8 C 毒素と、8 C tardigrade ディフェンシンを含むが、サポートが非常に低い (図 10 a)。一般に、これらは参照システインの番号を使用して識別されるカテゴリを反映、大分類グループ内で異なるシステイン番号とシーケンスがから同じパターンのシーケンスよりもより密接に関連することも紹介別のグループ。シーケンスの小さい数だけは、この研究で使用された中、250 配列の大規模解析を解像度 (補足ファイル 5 - 8)12の欠如排除していません。スプレッドシート参照配置構造的または機能的な関連性の系統樹を比較して類似点の簡単に可視化があります。
図 1:シーケンスと CS αβ スーパーファミリーの構造的特徴を定義します。アミノ酸と 3 D の構造は色分けされています: ループ (青)、α-ヘリックス (緑)、β-シート (ゴールド)、ジスルフィド結合 (ピンク)。この図の拡大版を表示するのにはここをクリックしてください。
図 2:昆虫ディフェンシンのシーケンスに基づいて予備 6 システイン参照します。列に保存されたシステイン (C1 C6) を示すし、CSH モチーフの数保存アミノ酸、システインの間で。塗りつぶされたボックスは、シーケンスは特定のシステイン、アミノ酸、システインの間を数字を示します。この図の拡大版を表示するのにはここをクリックしてください。
図 3:洗練された CS αβ スーパーファミリーのグループから代表的なシーケンスに基づく 10 システイン参照します。保存されたシステインおよびそれらの間のアミノ酸の列を示します。CSH のモチーフ (C3、C4、C8、C9) および CS αβ 倍 (C2 ・ C6) に寄与するシステインのラベルです。シーケンスは分類群により色分けされて: くも (ライト オレンジ) や細菌 (黒)、刺 (グレー)、Hexapoda (オレンジ)、軟体動物 (青)、線虫 (パープル) 足型 (緑)。この図の拡大版を表示するのにはここをクリックしてください。
図 4: グループ特性によって参照に揃えて配置 CS αβ スーパーファミリー シーケンスの概要。保存されたシステインおよびそれらの間のアミノ酸の列を示します。CSH のモチーフ (C3、C4、C8、C9) および CS αβ 倍 (C2 ・ C6) に寄与するシステインのラベルです。シーケンスは分類群により色分けされて: 多毛 (濃い赤)、くも (ライト オレンジ)、細菌 (黒)、刺 (グレー)、菌類 (ライト グリーン)、Hexapoda (オレンジ)、軟体動物 (青)、線虫 (紫)、足型 (緑)。ダッシュで区切られた数字が介入しているアミノ酸の範囲を示すスラッシュで区切られた数字を表すいずれか/または。"C"は、参照の追加を保証する十分な周波数では発生しません他のシステインを示します。この図の拡大版を表示するのにはここをクリックしてください。
図 5: スーパーファミリー連携グループの特性によって参照する Tardigrade CS αβ シーケンスを追加します。保存されたシステインおよびそれらの間のアミノ酸の列を示します。CSH のモチーフ (C3、C4、C8、C9) および CS αβ 倍 (C2 ・ C6) に寄与するシステインのラベルです。シーケンスは分類群により色分けされて: 多毛 (濃い赤)、くも (ライト オレンジ)、細菌 (ブラック)、刺 (グレー)、菌類 (ライト グリーン)、Hexapoda (オレンジ)、軟体動物 (青)、線虫 (紫)、足型 (緑)、クマムシ (黄色)。ダッシュで区切られた数字が介入しているアミノ酸の範囲を示すスラッシュで区切られた数字を表すいずれか/または。"C"は、参照の追加を保証する十分な周波数では発生しません他のシステインを示します。この図の拡大版を表示するのにはここをクリックしてください。
図 6:スーパーファミリーに揃えて分類群によって参照する Tardigrade CS αβ シーケンスを追加します。保存されたシステインおよびそれらの間のアミノ酸の列を示します。CSH のモチーフ (C3、C4、C8、C9) および CS αβ 倍 (C2 ・ C6) に寄与するシステインのラベルです。シーケンスは分類群により色分けされて: 多毛 (濃い赤)、くも (ライト オレンジ)、細菌 (ブラック)、刺 (グレー)、菌類 (ライト グリーン)、Hexapoda (オレンジ)、軟体動物 (青)、線虫 (紫)、足型 (緑)、クマムシ (黄色)。ダッシュで区切られた数字が介入しているアミノ酸の範囲を示すスラッシュで区切られた数字を表すいずれか/または。"C"は、参照の追加を保証する十分な周波数では発生しません他のシステインを示します。この図の拡大版を表示するのにはここをクリックしてください。
図 7:ずれてシーケンスを使用して自動配置します。すべてのシーケンスで保存されたアミノ酸が付きます * (ピンクの箱に記載されている) 最初のシーケンス上の行に。AlCRP はずれです。ギャップは、C (ピンクの矢印) を正しく合わせて削除する必要があります。この図の拡大版を表示するのにはここをクリックしてください。
図 8:線形の手動洗練されたシーケンスの構造的に重要な機能を保持します。AlCRP が正しく揃うようになりました (ピンク矢印)、CXXXC モチーフはシーケンス (ピンクの箱) の完全に保存されているとします。この図の拡大版を表示するのにはここをクリックしてください。
図 9: 線形の冗長配列。ほぼ同一のシーケンス (ピンクの箱) のペアが存在する場合、削除の可能性が、これらは可能性が高いので常に一緒にクラスターし、ツリーの全般的なトポロジにはほとんど寄与します。この図の拡大版を表示するのにはここをクリックしてください。
図 10: 系統学的解析から生成された木の比較。(A) 最大 1,000 ブートス トラップとメガの可能性の分析をレプリケート WAG + G を使用して + のモデルします。(B) 1,000,000 の世代の混合モデルの設定を使用してベイズ分析。70/0.7 サポート クレードはピンクの実線; します。ピンクの破線表示クレード 70/0.7 他のツリーでサポートされています。(a) 6 C と 8 C サソリ毒素;(b) macins;(c) ダニやサソリ ディフェンシン;(d) 植物のディフェンシン;昆虫やクモ、貝類から (e) 6 C ディフェンシン。この図の拡大版を表示するのにはここをクリックしてください。
表 1: CS αβ スーパーファミリー内のグループは、システインの組み合わせパターンに基づきます。内部番号 (中欄) や参照番号 (右の列) を使用して結合形成の 5 つの基本パターンが表示されます。スコーピオン Cl - 毒素、ASABF 6Cys-アルファ、および真菌ペプチドのグループはその m パターンで置かれました。韓国ドラマ ost に密接に一致します。前に、/後の参照に含まれていないシステインは、システインの上付き文字で示される(例えば、 C3/4は C3 と C4 の間)。
表 2: Tardigrade CS αβ の追加シーケンス パターン グループのシステイン ペアリングにします。Tardigrade たんぱく質デフェンシンと macins (太字) は、可能な限り以前に確立されたグループに配置されます。いくつかの tardigrade シーケンスには、グループ固有のパターンが表示されます。前に、/後の参照に含まれていないシステインは、システインの上付き文字で示される(例えば、 C3/4は C3 と C4 の間)。「2 C1」の表記は、C1 の参照の 2 つのシステインを上流があるを示します。
補足ファイル 1 (S1): メガでこのデータセットの配置。このファイルをダウンロードするここをクリックしてください。
2 (S2) の補足ファイル: このデータセットの尤ツリー メガ ファイル。このファイルをダウンロードするここをクリックしてください。
3 (S3) の補足ファイル: MrBayes Nexus 形式でこのデータセットの配置。このファイルをダウンロードするここをクリックしてください。
補足ファイル 4 (S4): このデータセットの MrBayes 解析からコンセンサス ファイル。このファイルをダウンロードするここをクリックしてください。
5 (S5) の補足ファイル: メガで 250 CS αβ 配列のアライメントします。このファイルをダウンロードするここをクリックしてください。
補足ファイル 6 (S6): 250 CS αβ シーケンスの最大尤度ツリー 。このファイルをダウンロードするここをクリックしてください。
補足ファイル 7 (S7): 250 の配置のネクサスに CS αβ シーケンス形式 MrBayes 。このファイルをダウンロードするここをクリックしてください。
補足ファイル 8 (S8): 250 CS αβ シーケンスの MrBayes 解析からコンセンサス ファイル。このファイルをダウンロードするここをクリックしてください。
Subscription Required. Please recommend JoVE to your librarian.
Discussion
グループ内でのタンパク質の命名基準は明確にする必要がありますが、これは常にそうではありません。フォールド CS αβ のシーケンスは、様々 な生物を使用して命名法の異なるシステムの結果し同様、特性のレベルを変化させる多くのラボで研究されている.完全に新しい命名法を課すしようとすると、妥当ではないと以前の文学をコンサルティングするとき大いに混乱になります。スーパーファミリーを基準にしてその特性を明らかにする蛋白質の名に加えて番号システムの参照を使用できます。
名前付けと分類はそうではないため明確な基準が付いている蛋白質のグループの恩恵をスプレッドシート内の参照を生成するシーケンスの多数を要約し、重要な特性の可視化の役に立つことがあります。配列アラインメントとロゴは各サイトで保護のレベルを調査するために役立ちますが、積極的に構造や機能の重要なシーケンス機能を優先しないでください。構造に焦点を当てた CS αβ 例が、結合部位を形成する特定のアミノ酸は、定義する機能として組み込むことができます。CS αβ ペプチドの具体的な抗菌/有毒な活動を協議するシーケンス機能を識別すると、これらの活動に基づいてグループを明確に参照する追加でした。シグナルペプチドのかプロのペプチドの存在が重要な場合、予測の成熟したペプチドだけはこの例で使用されたが、各シーケンスの情報を追加できます。イントロンの場所と同様、特定の挿入または削除イベント含めることもできる場合、彼らは有益であると考えられています。系統解析は分子データ-それまでだ、MrBayes を使用する利点は、進化的重要性を持っている可能性がありますその他の特性の符号化データを分析できます。これらは、存在または不在、シーケンスだけでより多くの情報を提供するコーディングできます。
該当するシーケンスを収集プロトコルの重要なステップです。研究の範囲とそのグループのメンバーの分布に応じて広範な分類グループにまたがることがありますこの。目標は、蛋白質のグループ全体を理解することは、外からは報告されている通常種、いくつかのシーケンスがあることを検討してください。分類群は既によく表されます、追加シーケンスが低いまたは冗長検索から除外は適切かもしれません。BLAST 検索でヒットを取得するため基本的なルール親指に-の e 値を -05 のカットオフを使用します。E 値は、偶然予想ヒット数です。以下の信頼性の高い it のようなシーケンスを取得可能性がありますが、か特定の機能と思っているとは限りませんことこれは共有特定の特性が、高度に分化されるシーケンスのグループがある場合、いくつかの状況に適していますが、主要な特性があるが、高度に分化のシーケンスを返します。この問題に対処するいくつかの潜在的な方法があります。最初は、介在物の条件を満たすかどうかを参照してくださいに -05 遮断下にある検索で識別されるシーケンスを見てすることです。第二に、十分な情報がある場合は、位置固有反復爆発 (PSI-BLAST)22またはパターンのヒット開始ブラスト (ピピ-ブラスト)23を使用します。PSI-BLAST は次のラウンドのための新しいモデルを生成し、時々 最初の検索を特定していない検索発散シーケンスことができます最初の検索からの結果を使用します。ピピ-ブラスト クエリ シーケンスと共に提出するパターンが必要です。これは興味のパターンを含むに取得したシーケンスを制限します。このツールは、グループにユニークなモチーフを明確に識別することができる場合に特に便利です。
系統分析の正確なアライメントは欠かせません木の解釈、良い配置を使用して生成される場合のみ。配置を通知する参照を使用して、構造体または活動と見なされます場合にのみ明らかなエラーを避けるために助けることができます。シーケンスの冗長性は、プロジェクトに対して定義する必要があります。冗長に見える 2 つのシーケンスことが彼らに広く発散イチイからも、ほぼ同じ系統のためできないシーケンス、異なる構造や機能のプロパティがあります。あいまいさに関するシーケンスを含める必要がある場合、多重アライメントを生成され、アライメント変化影響系統発生の推論を確認個別に分析することができます。ここで紹介した方法は、線形を手動で調整の必要性をしないわけが、シーケンスが揃える必要があり、記載されているよりもより高度なバーコード技術と組み合わせて使える可能性がある方法を明らかにすることができます。以前13。
有用であること参照、現在単独でのシーケンスから明白ではない定義の特性を識別するために重要です。たとえば、システイン自体に関して各シーケンス番号が付けられるときの別の数字を持つシーケンス間のパターンをボンディング システインを比較することができないこととします。目標は、比較や議論、混乱の別の層を追加することを容易にすることです。参照のいくつかのイテレーションがあり、判断コールに含める機能を決定します。グループで異なるシーケンスを議論の一般的な方法を採用することがグループ全体の理解を増加することが期待されます。
Subscription Required. Please recommend JoVE to your librarian.
Disclosures
著者は、何を開示します。
Acknowledgments
継続的な tardigrade 抗菌ペプチドの研究は、中西部大学研究事務所主催プログラム (ORSP) から学内資金によってサポートされます。ORSP、研究デザイン、データ収集、分析、解釈、または原稿を準備する役割がなかった。
Materials
Name | Company | Catalog Number | Comments |
BLAST webpage | https://blast.ncbi.nlm.nih.gov/Blast.cgi | ||
EditSeq (Lasergene suite) | DNASTAR | https://www.dnastar.com/t-allproducts.aspx | |
Excel 2013 | Microsoft | ||
FigTree | http://tree.bio.ed.ac.uk/software/figtree/ | ||
MEGA | www.megasoftware.net | ||
MrBayes | http://mrbayes.sourceforge.net/ | ||
SCOP database | http://scop.mrc-lmb.cam.ac.uk/scop/ |
References
- Matsuyama, K., Natori, S. Purification of Three Antibacterial Proteins from the Culture Medium of NIH-Sape-4, an Embryonic Cell Line of Sarcophaga peregrina. J Biol Chem. 263 (32), 17112-17116 (1988).
- Lambert, J., et al. Insect immunity: Isolation from immune blood of the dipteran Phormia terranovae. of two insect antibacterial peptides with sequence homology to rabbit lung macrophage bactericidal peptides. PNAS. 86 (262-266), (1989).
- Dimarcq, J. -L., Bulet, P., Hetru, C., Hoffmann, J. Cysteine-rich antimicrobial peptides in invertebrates. Biopolymers. 47, 465-477 (1998).
- Shafee, T. M. A., Lay, F. T., Hulett, M. D., Anderson, M. A. The Defensins Consist of Two Independent, Convergent Protein Superfamilies. Mol Biol Evol. 33 (9), 2345-2356 (2016).
- Zhu, S., Gao, B. Nematode-derived drosomycin-type antifungal peptdies provide evidence for plant-to-ecdysozoan horizontal transfer of a disease resistance gene. Nat Commun. 5, (2014).
- Zhu, S., Gao, B. Evolutionary origin of b-defensins. Dev. Comp. Immunol. 39, 79-84 (2013).
- Bonmatin, J. -M., et al. Two-dimensional 1H NMR study of recombinant insect defensin A in water: Resonance assignments, secondary structure and global folding. J Biomol NMR. 2 (3), 235-256 (1992).
- Cornet, B., et al. Refined three-dimensional solution structure of insect defensin A. Structure. 3 (5), 435-448 (1995).
- Murzin, A. G., Brenner, S. E., Hubbard, T., Chothia, C. SCOP: a structural classification of proteins database for the investigations of sequences and structures. J Mol Biol. 247, 536-540 (1995).
- Sillitoe, I., et al. CATH: comprehensive structural and functional annotations for genome sequences. Nucleic Acids Res. 43, (Database issue) 376-381 (2015).
- Lam, S. D., et al.
Gene3D: expanding the utility of domain assignments. Nucleic Acids Res. 44, (Database issue) 404-409 (2016). - Tarr, D. E. K. Establishing a reference array for the CS-ab superfamily of defensive peptides. BMC Res Notes. 9, 490 (2016).
- Shafee, T. M. A., Robinson, A. J., van der Weerden, N., Anderson, M. A. Structural homology guided alignment of cysteine rich proteins. SpringerPlus. 5 (27), (2016).
- Altschul, S. F., Gish, W., Miller, W., Myers, E. W., Lipman, D. J. Basic Local Alignment Search Tool. J Mol Biol. 215 (3), 403-410 (1990).
- Duckert, P., Brunak, S., Blom, N. Prediction of proprotein convertase cleavage sites. Protein Eng Des Sel. 17 (1), 107-112 (2004).
- Petersen, T. N., Brunak, S., von Heijne, G., Nielsen, H. SignalP 4.0:discriminating signal peptides from transmembrane regions. Nat Methods. 8, 785-786 (2011).
- Kobayashi, Y., et al. The cysteine-stabilized a-helix: A common structural motif of ion-channel blocking neurotoxic peptides. Biopolymers. 31, 1213-1220 (1991).
- Gao, B., del Carmen Rodriguez, M., Lanz-Mendoza, H., Zhu, S. AdDLP, a bacterial defensin-like peptide, exhibits anti-Plasmodium. activity. Biochem Biophys Res Commun. 387, 393-398 (2009).
- Tamura, K., Stecher, G., Peterson, D., Filipski, A., Kumar, S. MEGA6: Molecular Evolutionary Genetics Analysis. Mol Biol Evol. 30 (12), 2725-2729 (2013).
- Edgar, R. C. MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
- Ronquist, F., Huelsenbeck, J. P. MrBayes 3: Bayesian phylogenetic inference under mixed models. Bioinformatics. 19 (12), 1572-1574 (2003).
- Altschul, S. F., et al. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res. 25 (17), 3389-3402 (1997).
- Zhang, Z., et al. Protein sequence similarity searches using patterns as seeds. Nucleic Acids Res. 26 (17), 3986-3990 (1998).