Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

Nonexpertsための系統学の実用ガイド

Published: February 5, 2014 doi: 10.3791/50975

Summary

ここでは、ヌクレオチドまたはアミノ酸配列データセットから信頼性の高い系統発生を生成するためのステップバイステップのパイプラインを説明します。このガイドでは、研究者や系統解析に新たな学生にサービスを提供することを目指しています。

Abstract

多くの研究者は、信じられないほど多様な病巣を越え、自分の研究の質問(複数可)に系統学を適用している。しかし、多くの研究者は、このトピックに新しく追加されたので、それは固有の問題を提示します。ここでは、nonexpertsための系統学への実践的な導入をコンパイルします。我々は、段階的に遺伝子配列データセットから信頼性の高い系統発生を生成するためのパイプラインの概要を説明します。我々は、オンラインのインターフェースだけでなく、ローカルの実行を経由して、類似検索ツールのユーザガイドで開始する。次に、我々は進化のベストフィットのモデルを決定するためにソフトウェアを使用するためのプロトコルに続いて複数の配列アラインメントを生成するためのプログラムを探る。次に、最尤ベイズ基準を経由して系統関係を再構築するためのプロトコルの概要を説明し、最終的に系統樹を可視化するためのツールについて説明します。これはいかなる手段系統学的手法を徹底的に記述によるものですが、実用的な開始のinformatを読者に提供していますか一般phylogeneticistsによって利用主要ソフトウェア·アプリケーションへのイオン。この記事のビジョンは、系統学的研究に着手する研究者のための実践的なトレーニング·ツールとして機能し、また、教室や教育·研究室に組み込むことができる教育資源として役立つことができるということでしょう。

Introduction

、2つ(またはそれ以上)の種が進化したかを理解するためには、各試料から配列または形態学的データを取得することが必要であり、これらのデータは、我々は進化の空間を介してそれらの関係を測定するために使用できる量を表す。直線距離を測定するときと同じように、( 例えばマイル、インチ、ミクロン)より多くのデータが利用可能なものがより正確な測定を同一視します。エルゴは、研究者が進化距離を推定することができる精度は、高濃度の関係を測定するために利用可能な情報データの量によって影響される。異なるサンプルは異なるレートで、異なるメカニズムによって進化するため、また、我々二つの分類群との間の関係を測定するために使用する方法は、直接進化的測定の精度に影響を与える。そのため、進化的関係は直接観測されていませんが、代わりにシーケンスまたは形態学的データ、進化の推論の問題から推定されているので関係は統計の1になります。系統学は、最適の分類群間の進化の歴史を再構成するために進化のパターンに統計モデルを適用することに関する生物学の一分野である。分類群間のこの再構成は、分類群の系統と呼ばれている。

分子生物学と進化生物学者の間で専門知識のギャップを埋めるために、ここではシーケンスのセットから系統発生を推測する段階パイプラインを追って説明します。第一に、我々は詳細なWebベースのインターフェイスを介して、また、地元の実行可能ファイルを使用して基本的なローカル配列検索ツール(BLAST 1)アルゴリズムを使用して、データベースの尋問に必要な手順、これは多くの場合、未確認のに類似した配列のリストを取得するための最初のステップですクエリ、一部の研究者はまた、Phylota(http://www.phylota.net/)などのWebインタフェースを介して単一のグループのためのデータ収集に興味があるかもしれない。 BLASTは、Cのためのアルゴリズムであるクエリー配列に似ている "ヒット"を検索するための配列のデータベースに対して一次アミノ酸またはヌクレオチド配列データをomparing。 BLASTプログラムは、スティーブン·アルチュールによって設計されました。国立衛生研究所(NIH)で1。 BLASTサーバーは、さまざまなプログラムの数で構成されており、ここでは最も一般的なBLASTプログラムのいくつかのリストです。

i)のヌクレオチド-ヌクレオチドBLAST(blastnを):このプログラムは、DNA配列の入力を必要とし、DNAデータベースから、最も類似したDNA配列を返し、そのユーザが指定する特定の生物( 例えば )。

II) タンパク質-タンパク質BLAST(BLASTP):ここでは、ユーザは、タンパク質配列を入力し、プログラムは、ユーザが指定したタンパク質データベースから最も類似タンパク質配列を返します。

III) 位置特異的反復BLAST(PSI-BLAST)(blastpgp):ユーザー入力proteです密接に関連するタンパク質のセットを返す順序であり、このデータセットから保存されたプロファイルが生成されます。次の新たなクエリは、タンパク質データベースを問い合わせるために使用される場合にのみ、これらの保存された「モチーフ」を用いて生成され、これは、保存された「モチーフ」の新しいセットを抽出し、それまでタンパク質データベースに問い合わせをするために使用されるタンパク質の大きなグループを返すタンパク質のより大きなセットが再調整され、別のプロファイルが生成され、プロセスが繰り返される。各ステップでのクエリに関連するタンパク質を含んでいることによって、このプログラムは、ユーザーがより多くの発散である配列を同定することができます。

iv)のヌクレオチド、6フレーム翻訳タンパク質(BLASTXを):ここでは、ユーザは、タンパク質配列データベースに対して6フレームの概念的翻訳産物( すなわち、両方の鎖)に変換されるヌクレオチド配列の入力を提供する。

V)6 -フレーム翻訳ヌクレオチドをヌクレオチド6フレーム翻訳(TBLASTX):このプログラムは、DNA塩基配列入力を受け取り、それをヌクレオチド配列データベースの6フレーム翻訳に対して比較するすべての6フレームの概念的翻訳産物への入力を変換する。

VI) タンパク質-ヌクレオチドの6フレーム翻訳(TBLASTN):このプログラムは、ヌクレオチド配列データベースの6つのすべてのリーディングフレームと比較するタンパク質配列の入力を使用しています。

次に、シーケンスデータセットから複数の配列アラインメント(MSA)を生成するために一般的に使用されるプログラムを記述し、これは、配列データセットの進化のベストフィットモデルを決定プログラムへのユーザーガイドが続く。系統発生再構築は、統計的な問題であり、このため、系統発生の方法は、統計的なフレームワークを組み込む必要があります。この統計フレームワークは、データセット内の配列変化を組み込んだ進化のモデルになります。この進化のMOデルは、ヌクレオチドまたはアミノ酸置換の方法に関する仮定の集合で構成され、特定のデータセットの最良適合モデルは、統計的検定を介して選択することができる。異なるモデルのデータへの適合が可能なもののセット内のベストフィットモデルを選択する尤度比検定(LRTs)又は情報量規準を介して比較することができる。二つの共通情報基準は、赤池情報量基準(AIC)2とベイズ情報量基準(BIC)3である。最適なアラインメントが生成されると、整列されたデータから系統樹を作成するための多くの異なる方法がある。進化的関係を推測する多くの方法がありますが、広い意味では、彼らは2つのカテゴリに分けることができます:距離ベースの方法と順序ベースの方法。距離ベースの方法は、配列からのペアごとの距離を計算してから、木を得るために、これらの距離を使用しています。配列に基づく方法には、直接配列アラインメントを使用し、通常のTを検索最適性基準を使用してREEスペース。私たちは、系統関係を再構築するための2列ベースの方法の概要を示します。これらは、最尤フレームワークを実装しPhyML 4であり、ベイズマルコフ連鎖モンテカルロの推論を使用していますMrBayes 5。可能性とベイズ法は、系統学的再建のための統計的なフレームワークを提供します。一般的に使用されるツリー構築ツールのユーザ情報を提供することにより、我々は系統関係を推定するために必要な必要なデータを読者に紹介する。

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1。基本的なローカル配列検索ツール(BLAST):オンラインインターフェース

  1. 国立バイオテクノロジー情報センター(NCBI)のBLAST 1のWebサーバにアクセスしてくださいするには、このリンクをクリックしてください。 - http://blast.ncbi.nlm.nih.gov/Blast.cgi図1)。
  2. 検索ボックスに入力FASTA形式のテキスト列(例えば図2を参照)。
  3. 検索に使用するために、適切なBLASTプログラムおよび関連するデータベースや、興味のある個々の種をクリックして、「BLAST」をクリックしてください。
    注意:FASTAフォーマットされたシーケンスは、「>」記号で示さ記述行から始まります。説明は、 ">"記号、配列( すなわち 。ヌクレオチドまたはアミノ酸)の次の行に記述し実行した後、すぐに従わなければなりません。 BLAST検索からの出力はHTML、プレーンテキスト、XML、またはヒットTAと見られているBLES HTMLに設定されているデフォルトで(テキストまたはCSV)( 図3)。

2。基本的なローカル配列検索ツール(BLAST):ローカルの実行

  1. このリンクから最新のBLASTコマンドラインのBLAST実行可能ファイルをダウンロードします。
    ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ -
  2. PCユーザーのためにEM>:最新のブラストwin32.exeをファイルをダブルクリックし、使用許諾契約に同意してインストール]をクリックします。
    注: NCBI-BLAST-2.2.27 +:デフォルトのインストールディレクトリはC。
  3. 次のようにPCの環境変数を設定します。
    1. 「開始」ボタンをクリックし、右側の「コンピュータ」をクリックして、PCをクリックして、
    2. 「プロパティ」をクリックし、ポップアップで「詳細設定」タブをクリックしてください
    3. 「環境変数ボタン」をクリックして、新しいポップアップで目の下の「新規」ボタンをクリックしてくださいセクションE「ユーザーのユーザー環境変数」
    4. NCBI-BLAST-2.2.27 + BIN:ポップアップの「C変数名「パス」と、変数の値を追加します。
      注意:binディレクトリが実行可能ファイル(。 すなわち BLASTP など含まれています。
  4. em>はMacユーザーの場合:ターミナルアプリケーションを開きます(これは単なるオープン"ファインダー"を実行し、検索する「ターミナル」、これは「端末」アイコンが表示されます)。ターミナルウィンドウ型に:
    > FTP ftp.ncbi.nih.gov
    注:また、PC用の例では上記で使用したURLを入力することができます
  5. NCBIのFTPサイトの種類名とパスワードの入力を「匿名」を選択し、型にアクセスするには、次のように
    > CDブラスト/実行ファイル/ LATEST
  6. 次のように入力して実行可能ファイルを一覧表示します。
    > LS
  7. 次のように入力して、最新バージョンを取得(または現在は何でも最新版):
    2、NCBI-BLAST-2.2.7-macosx.tar.gz取得
  8. 「終了」と入力して、NCBIのFTPサーバーサイトを終了します。
  9. 次のように入力してダウンロードしたファイルを解凍。
    >タールXZF NCBI-BLAST-2.2.7-macosx.tar.gz
  10. 次のように入力したコマンドを検索するとき、シェルは、このディレクトリを検索できるように、パスにBLAST実行可能ファイルのバイナリの場所を追加します。
    > PATH = $ PATHに:new_folder_location
  11. これは次のように入力して、あなたのパスに場所を追加したかどうかを確認します。
    >エコー$ PATHに
  12. こちらをクリックして(毎日更新されます)フォーマット済みのBLASTデータベースをダウンロードしてください。
    ftp://ftp.ncbi.nlm.nih.gov/blast/db/
  13. 「DB」フォルダにデータベースを配置します。
  14. PC上でEM>:と入力して、NCBI-BLASTフォルダにディレクトリを変更(この"スタート"と検索バーに「cmd」と入力して実行する)、MS-DOSプロンプトを開きます。
    C:ユーザー> CD .. [移動1フォルダをバックアップ]
    C:> CD NCBI-BLAST-2.2.27 +
    これは、ディレクトリを変更します。
    C: NCBI-BLAST-2.2.27 +>
  15. 以下の「makedb」コマンドを使用してデータベースを作成します。
    > makedbインDB / briggsae.fasta-DbTypeのPROTアウトDB / briggsae
    注:( 図4)以下の例では、データベースを「briggsae」という名前で、生物線虫briggsaeから1連鎖群で構成されている
  16. 「DB」フォルダにFASTAフォーマットされたテキストのタンパク質配列を挿入することによって「テスト」と呼ばれるクエリータンパク質配列を作成する。
  17. 次のコマンドを入力して、BLASTP検索を介してデータベースに問い合わせを。
    > BLASTPクエリーDB / test.txtというdBのDB / briggsaeアウトTEXT.TXT
  18. em>のMacは (ステップ2.4)上記の指示に従って、NCBIのftpサイトにアクセスすることにより、ローカルBlast検索用のデータベースをダウンロードし、Nタイプ:
    > LCD .. /データベース/
  19. 次のように入力して興味のあるゲノムやシーケンスをダウンロードしてください。
    >取得NC_ [受託番号]。FNA
    注:「FNA」FASTAフォーマットされたヌクレオチド配列を意味し、「FAAは、「FASTAフォーマットされたアミノ酸配列を指す。
  20. FTPサイトを終了するには「終了」と入力します。
  21. 次のように入力してデータベースを作成します。
    > DB / mouse.faaアウトマウスのDbTypeのPROT makeblastdbイン
  22. 「ビン」フォルダにFASTフォーマットされたクエリー配列を挿入し、次のコマンドを使用してデータベースに問い合わせを。
    > BLASTPクエリー "あなたのquery.fasta「-DB」、データベース「アウトresults.txtに

3。複数の配列アラインメントを生成する

  1. 一般的に使用される複数の配列アラインメント(MSA)プログラムにアクセスするためにこれらのリンクをクリックしてください。
    ClustalWの6 http://www.clustal.org/
    カーリーGN 7 http://msa.sbc.su.se/cgi-bin/msa.cgi
    MAFFT 8,9 http://mafft.cbrc.jp/alignment/software/
    マッスル10 http://www.drive5.com/muscle/
    Tシャツ·コーヒー11 http://www.tcoffee.org/Projects/tcoffee/
    PROBCONS 12 http://toolkit.tuebingen.mpg.de/probcons
  2. このリンクをクリックしてください- http://tcoffee.crg.cat/apps/tcoffee/do:regular検索ボックスの配列データをフォーマットされ、入力されたFASTA -
    注:T-コーヒーからの出力例を図5に見ることができる、類似の残基は、色分けされている。
  3. クラスタルMSAはコマンドライン版(ClustalWの)またはグラフィカルVとしてダウンロード:このリンクをクリックしてERSION(ClustalX) http://www.clustal.org/clustal2/をし、適切な実行可能ファイル( すなわち勝利やLinux、Mac OS X)をクリックして- 。
  4. FASTAフォーマットされたシーケンス·データをテキストとしてアップロードします( 図6)を合わせます。

4。進化のベストフィットモデルを決定する

  1. ProtTest 13プログラムをダウンロードするには、ここをクリック。
    http://darwin.uvigo.es/our-software/
  2. ProtTestをダウンロードしたら、ProtTest.jarファイルをダブルクリック
  3. ProtTestが起動したら、「ファイルの選択」をクリックします( 図7)のシーケンスデータをロードします。
  4. それから「開始」をクリックし、プログラムは( 図8)を開始します。
    注記:実行します( 図8)が終了した後、プログラムは基準に基づいて最適なモデルを示します例: 「AICに従って最適なモデル:WAG + I + G "

5。最尤やベイズ推定によって配列に基づく系統発生を推測する

  1. ここPhyML 4をダウンロード:
    https://code.google.com/p/phyml/
  2. すなわち phymlは、Windows、Linuxのphyml など )二重適切なアプリケーションをクリックして、実行可能ファイルを起動して、インターフェイスのウィンドウ( 図9)がポップアップ表示されます。
  3. 次のように入力してPHYLIPフォーマットされたシーケンスとして入力シーケンスをロードします。
    > "ファイル名"。PHY
    注意: シーケンスフォーマット間の変換するには、で入手可能な「Readseq「Webプログラムを使用- http://iubio.bio.indiana.edu/cgi-bin/readseq.cgiを
  4. 「Y」と入力してプログラムを起動します。
  5. ここMrBayes 5をダウンロードしてください。
    rceforge.net / download.php」> http://mrbayes.sourceforge.net/download.php
  6. 実行ファイル上でプログラムをクリックして起動し、次のように入力して、プログラムにNEXUSフォーマットされたシーケンスデータを読み取るには:
    > "ファイル名"を実行してください。NEX
  7. 進化モデルを設定します。
  8. 次のように入力して実行するように世代の数を選択します。
    > mcmcp NGEN = 1000000 [これは1000000世代数を設定します]
    >サンプバーニン= 10000 [これは10000にバーニンが設定されます]
  9. 次のように入力して結果ファイルに枝の長さを保存します。
    > mcmcp savebrlens = YES
  10. 次のように入力して解析を実行します。
    > MCMC
  11. 「SUMT」コマンドを使って木をまとめたものである。

6。系統発生を視覚化

  1. ここでツリービューアプログラムのリストを表示します。
    http://www.treedyn.org/overview/editors.html
  2. ツリービュー14プログララマブルをダウンロードここにいます:
    http://taxonomy.zoology.gla.ac.uk/rod/treeview.html

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

クエリに類似点を見つけることが、研究者は新しい配列に対する潜在的なアイデンティティをせいとも配列の間の関係を推測することができます。 BLAST 1のファイル入力タイプは、FASTA形式のテキスト配列またはGenBankアクセッション番号です。 FASTAフォーマットされたシーケンスは、「>」記号( 図2)で示される記述行から始まります。説明は、 ">"記号、配列( すなわち 。ヌクレオチドまたはアミノ酸)の次の行に記述し実行した後、すぐに従わなければなりません。保存および編集シーケンスファイルと、そのPCやTextWranglerの(上の「メモ帳」などのテキストエディタを使用するのが最適ですhttp://www.barebones.com/products/textwrangler/ Mac用)。 BLASTアルゴリズムは、配列類似性の短いストレッチを検索する「ローカル」アラインメントを行う。このアルゴリズムは、すべての可能な「stretcheを見上げた後これらの配列を拡張S「クエリー配列から最大限、それは、各問い合わせ配列ペアのアラインメントをアセンブルします。これは、これらのマッチがどのように良い理解することが、その後が重要であり、したがって、BLAST、期待値(E)を含み、各ヒットに統計を適用ビットスコア。E値が一致するための統計学的有意性の指標を与える。E値が低いほど、より多くの重要なヒットは、例えば0.05のE値との配列アラインメントつまり、この可能性偶然起こるマッチ100 5である。ビットスコアはアライメントがどのように良いの表示を提供するために、特定のスコアリングマトリックスを使用しています。より高いビットスコア、よりよい整列。BLASTのオンライン版と同様に、あるローカルBLAST実行可能ファイルを使用してコマンドを介して設定可能なパラメータの数が、これらのコマンドを記述した包括的なリソースがここにあります- 。 http://www.ncbi.nlm.nih.gov/books/ NBK1762 /。ローカル検索の出力は、単にオンラインのBLASTインターフェースからの出力( 図4)のようなテキストファイルです。

マルチプルアライメント(MSA)は、アミノ酸、DNA、またはRNAからなる3以上の一次配列の配列アラインメントである。 1994年にリリースのClustalW 6は 、生物学者のための最も人気のあるのMSAツールの一つです。 -いくつかの一般的なMSAツールへのワンストップのアクセスを提供するユーザーフレンドリーなオンラインインターフェースはここではEMBL-EBIのサーバーで見つけることができhttp://www.ebi.ac.uk/Tools/msa 。多くの異なるフォーマットにも受け入れられますが、各プログラムの入力は、FASTA( 図2を参照)の配列データをフォーマットすることができ、それぞれに数多くのミラーサイトをオンラインで見つけることができます。ギャップペナルティと出力形式などの多数のパラメータを容易に選択することができる。 MSA T-コーヒーからのサンプル出力は、類似の残基は同時であり、図5に見られるLORは、符号化された。場合によっては、MSAツールもダウンロードしてローカルで実行することができます。 - CLUSTALはこのウェブサイトからのコマンドラインバージョン(ClustalWの)またはグラフィカルバージョン(ClustalX)としてダウンロードすることができますhttp://www.clustal.org/clustal2/ 。ダウンロードするには、単に適切な実行可能( すなわち 。勝利やLinux、Mac OS X)をクリックしてください。 Windowsのためのプログラムの実行可能ファイルをダウンロードし、ポップアップメニューが「ファイル名を指定して実行」をクリックし、ユーザーが必要になりますし、インストールが開始されます。プログラムは非常に直感的であり、配列はNBRF / PIR、FASTA、EMBL /スイスプロット、クラスタル、GCC / MSF、GCG9 RSF、及びGDEとしてフォーマットシーケンスを含むテキストフ​​ァイルからロードすることができます。シーケンスは、「配置」メニューから「完全なアライメントを行う "をクリックして並んでいる。 ClustalXを使用して整列6タンパク質配列のサンプルアライメントを図6に見ることができる。このようなフォントサイズや色などの様々なパラメータを簡単に変更し、editiすることができますシーケンスのngの「編集」メニューをクリックすることによって行われます。手動で洗練されたアライメントは、多くの場合、完全な方法を自動化するために優れていると、このため、MSAツールの開発は、非常に活発な研究分野である。いくつかの一般的なアライメントエディタは、以下のリンクで見ることができます。 -セレン-アルhttp://tree.bio.ed.ac.uk/software/seal/ ; BSEdit - http://www.bsedit.org/ ; JalView - http://www.jalview.org/ ;シービュー- http://pbil.univ-lyon1.fr/software/seaview.html

アミノ酸アラインメントプログラムProtTest 13は、データ内のアミノ酸置換の最良適合モデルの選択を決定するために使用される。 ProtTestは、最小の赤池情報量基準(AIC)、ベイズフォーマ候補モデルのリストからモデルを見つけることによって、この選択を行うたTiON基準(BIC)スコア、または決定理論基準(DT)。 ProtTestの最新版(バージョン3.2)は、120の異なるモデルとなる15種類のレートの行列が含まれています。ユーザーはProtTestを実行するための彼らのシステムにJava Runtimeを持っている必要があります。 Javaランタイムは、ここで自由に利用できる- http://www.java.com/en/download/chrome.jsp 。配列はPHYLIPやNEXUS形式として入力される。 -シーケンス·フォーマット間の変換するには、で入手可能な「Readseq「Webプログラムを使用http://iubio.bio.indiana.edu/cgi-bin/readseq.cgiを 。 「ファイルの選択」をクリックして、シーケンス·データをロードします。次に、 "Start"をクリックして、プログラムが開始されます。選択したモデルの数を変更するには、「モデル」ボタンをクリックすることができます。プログラムが開始されると、それは一番下にプログレスバーが表示され、それらが分析されているようなモデルをリストします( 図8 https://code.google.com/p/prottest3/wiki/Background 。ただそれだけのシーケンスの限られた数を処理できることを除いて、ダウンロードしたバージョンのように機能ProtTestのためのオンラインのWebインターフェイスもあります。 -このWebインターフェイスは、こちらをクリックしてアクセスすることができますhttp://darwin.uvigo.es/software/prottest2_server.html 。ヌクレオチドのためのプログラムjModelTest 15は階層的で動的な尤度比検定の上にも概説され、AIC、BIC、およびDT基準を実装することにより、ヌクレオチド置換のベストフィットのモデルの統計的な選択を検査するために使用されるデータセットS(hLRTとdLRT)。 jModelTestが入力の場合は、Mac OS X用に最適化され、複数のフォーマットが許可されます。明確なステップバイステップのガイドがここに開発者によって提供されています- http://computing.bio.cam.ac.uk/local/doc/jmodeltest.pdf

PhyMLは、ヌクレオチドまたはアミノ酸配列のアラインメントから、最尤系統樹を推定するプログラムである。 PhyMLは、ツリートポロジー空間( 図10)を検索するために様々なオプションに結合された置換多数のモデルが組み込まれる。プログラムは、2つのテキストフ​​ァイルに結果を保存します。最初のファイルは簡単にツリービューア(プロトコル6を参照)を使用して表示することができNewick形式のMLのツリーを含む、その他のファイルには、統計情報が含まれます(ファイル名、モデル、対数尤度スコアなど )の分析。すべてのパラメータは、非常に簡単にメニュー項目を以下で設定されます。各メニューOPのより詳細な説明-のTiONはPhyMLのダウンロードページで公開PhyMLマニュアルで説明されていhttps://code.google.com/p/phyml/downloads/list 。 MrBayes 5は、系統関係を再構築するために進化のモデルの数を越えベイズMCMC推論を利用するプログラムです。プログラムは、すべてのプラットフォームで同じように動作し、一度インストーラは、実行可能ファイルをインストールしますダウンロードした。プログラムを起動するには、ただ実行可能ファイルをクリックしてください。 -設定することができ、各モデルの詳細と、そのコマンドがここで見つけることができる多くのモデルがありますhttp://mrbayes.sourceforge.net/wiki/index.php/Tutorialは 。他のヘルプオプションは、「ヘルプLSET」を入力することです - これは、モデルの設定に関する詳細を提供します。たとえば「PRSET aamodelpr =混合」WAにアミノ酸モデルを設定します」をpRSET aamodelpr = FIXED(WAG)「混合モデリングまたは許可されます Gモデル。外集団は簡単に分類群番号「外集団30 "を指定して設定することができます。プログラムが自動的に番号でシーケンス/分類群を一覧表示します。外集団が指定されていない場合、ツリーは無根となります。プログラムは( 図11)を実行されると、進行状況が「printfreq = X」コマンドを使って設定することができ、特定の間隔で表示することができます。分析を停止する時期の詳細については( すなわち 。何世代に立候補する)は、ユーザーズマニュアルに記載されています。分岐図にクレード値を簡単にツリービューア(プロトコル6を参照)を使用して表示することができ、またNewick形式で提供されている系統樹と並んで、結果に記載されています。

系統樹が生成されると、トポロジーを可視化する必要がある。多くのオンラインツールやツリートポロジーを可視化するために使用ダウン​​ロード可能なアプリケーションがあります。人気番組の部分的なリストはここで見ることができます - ylogenetic_tree_visualization_software">http://en.wikipedia.org/wiki/List_of_phylogenetic_tree_visualization_software , -より包括的なリストはここにありますhttp://www.treedyn.org/overview/editors.html 。ツリービュー14とTreeDyn 16は 2人気のある選択肢です。どちらも、非常にユーザーフレンドリーで、様々なオプションに慣れるのは簡単です。 TreeViewコントロールはほとんど同じインターフェースを使用して、MacとWindows上で実行されます。入力は、NEXUS、PHYLIP、Hennig86、MEGA、およびClustalWの/ Xを含むいくつかのフォーマットのいずれかになります。ツリービュー( 図12)は、ユーザが、枝を移動rerootツリー、ツリーの外観を再配置することができ、ツリーエディタが含まれています。

図1
図1。 > のNCBIのBLAST Webページ 。 BLAST Webサーバーは、BLASTプログラムのスイートが含まれており、国立バイオテクノロジー情報センター(NCBI)によってホストされています。 拡大画像を表示するにはここをクリックしてください。

図2
図2。FASTAフォーマットされた配列である。 FASTA形式は、「>」が示す記述行から始まります。説明は、 ">"記号、配列( すなわち 。ヌクレオチドまたはアミノ酸)の次の行に記述し実行した後、すぐに従わなければなりません。 拡大画像を表示するにはここをクリックしてください。

NT "FO:キープtogether.withinページ="常に "> 図3
BLAST検索から図3。HTML出力。BLAST検索からの出力は、問い合わせ配列内のIDの領域を示しており、また、ビットスコアを提供し、価値観や各一致したペアワイズアライメントを期待しています。 拡大画像を表示するにはここをクリックしてください。

図4
図4。地元のBLAST実行可能検索からの出力例 。この検索の出力は、単にオンラインのBLASTインターフェースからの出力のようなテキストフ​​ァイルであること期待値とビットのスコアだけでなく、一致詳細が含まれています。 拡大画像を表示するにはここをクリックしてください。

図5
図5 T-コーヒーを使用して、MSAの出力 。出力は、カラーで同様のサイトと重みの一致を強調しています。 「 - 」印および残基またはヌクレオチド位置は、各分類群のために保存されているようにギャップが挿入されます。 拡大画像を表示するにはここをクリックしてください。

ig6.jpg "/>
図6。ClustalXを使用してサンプルの位置合わせ 。同じような一致が色分けされ、ギャップは次のように挿入されている「 - 」記号。メニューバーは左上に見られる。 拡大画像を表示するにはここをクリックしてください。

図7
図7。ProtTest·プログラム·インターフェース。 拡大画像を表示するにはここをクリックしてください。

図8
Fiのグレ8。ProtTestコンソール。ProtTestコンソール解析を実行している間。プログレスバーが完了しているか、多くのモデルを示し、メインウィンドウは、各モデルの対数尤度スコアが表示されます。 拡大画像を表示するにはここをクリックしてください。

図9
図9。PhyMLインターフェイス。 拡大画像を表示するにはここをクリックしてください。

図10
図10。PhyMLインターフェースメニュー。シーケンスがPhyMLにロードされると最初のメニューが表示され、角括弧内の文字や記号を入力することでナビゲートすることができる。サブメニューには「+」記号を入力することでアクセスできます。 拡大画像を表示するにはここをクリックしてください。

図11
図11。MrBayesインタフェース。MrBayesが起動されると進歩が特定の間隔で表示することができますが、「printfreq = X」コマンドを使って設定してください。プログラムが実行中に停止することはできませんが、指定した世代数が計算された後、彼らはより多くの世代を実行する場合、ユーザーは求められます。www.jove.com/files/ftp_upload/50975/50975fig11highres.jpg "ターゲット=" _blank ">拡大画像を表示するにはここをクリックしてください。

図12
図12。ツリービューインターフェイスには、この図では、ツリービューウィンドウがFlybase(http://flybase.org/)からのタンパク質のサンプルツリーが表示されます。ファイルは、「オープン」オプションをクリックし、適切なファイルタイプ( 。Newick形式)を選択してインポートされます。 拡大画像を表示するにはここをクリックしてください。

Subscription Required. Please recommend JoVE to your librarian.

Discussion

この記事の私たちの願いは、系統学を初めて使用する研究者や学生を指導するための出発点となることである。ゲノム配列決定プロジェクトは、ここ数年の間に、より安価になっており、結果として、この技術に対するユーザーの需要が増加しており、現在、大規模なシーケンスデータセットの生産は、小さな研究室で一般的である。これらのデータセットは、多くの場合、それらの機能を理解し始めるために系統学的なフレームワークを必要とする遺伝子のセットを持つ研究者を提供しています。系統学の研究室の増え続ける数の家を見つけることですので、また、我々はまた、生物学的研究に広く興味のある学生のための教育のデバイスとして機能するように、この記事のために考えています。 「なぜ」、「どのように」、および一般的に使用されるツリー構築ツール、我々はこれらのアプリケーションに慣れるために開始するために、読者のためのフレームワークを提供する「どこで」とその動作上のユーザ情報を提供することによって。 However、我々は様々なパラメータがそれらの配列データに影響を与えることができるかを理解しようとして、各ツール内のすべての設定をいじって、それぞれの場合におけるプラットフォームとソフトウェア間の互換性を確保するため、読者に助言する。上記で概説した分析は、インテルCore i7プロセッサを搭載したDellのOptiPlex 990とインテルCore 2 Duoプロセッサを搭載したMacBookのラップトップを使用して計算されたが、分析の速度と特定のバイナリ( 例えば 。32ビットまたは64ビット)が異なりますユーザーのプラットフォーム上で。

系統学のためのこのようなユーザーガイドをコンパイルする挑戦は、系統学の分野で、全体としてバイオインフォマティクスは、より良いアライメント、類似度の予測、または系統樹を提供することを目的とし、常に新しいソフトウェアをリリース研究の急速に拡大する分野であるということです。この問題を緩和するために、我々は数年前から出回ってとOアカウントでまだ人気がありましたプログラムに焦点を当ててみました彼らがどのように動作するかよくF。それは、我々はこの資料に記載されているので、このを悪用し、その分析に複数のアプリケーションを組み込むために、読者を奨励している問題に取り組むために利用可能な多くの他のツールがあることを指摘しておきたい、と述べた。

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

我々は、開示することは何もありません。

Acknowledgments

私たちは、原稿にコメントをオハロランラボのメンバーに感謝。私たちは、D·オハロランに資金調達のための生物科学のジョージ·ワシントン大学学科、芸術科学コロンビア大学に感謝します。

Materials

Name Company Catalog Number Comments
BLAST webpage  http://blast.ncbi.nlm.nih.gov/Blast.cgi
BLAST executables  ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
Preformatted BLAST databases ftp://ftp.ncbi.nlm.nih.gov/blast/db/
Clustal http://www.clustal.org/
Kalign http://msa.sbc.su.se/cgi-bin/msa.cgi
MAFFT http://mafft.cbrc.jp/alignment/software/
MUSCLE http://www.drive5.com/muscle/
T-Coffee http://www.tcoffee.org/Projects/tcoffee/
PROBCONS http://toolkit.tuebingen.mpg.de/probcons 
Se-Al  http://tree.bio.ed.ac.uk/software/seal/
BSEdit  http://www.bsedit.org/
JalView http://www.jalview.org/
SeaView http://pbil.univ-lyon1.fr/software/seaview.html
ProtTest  https://code.google.com/p/prottest3/
Java Runtime  http://www.java.com/en/download/chrome.jsp
Readseq http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi
jModelTest https://code.google.com/p/jmodeltest2/
PhyML https://code.google.com/p/phyml/
MrBayes http://mrbayes.sourceforge.net/download.php
TreeView http://taxonomy.zoology.gla.ac.uk/rod/treeview.html
TreeDyn http://www.treedyn.org/

DOWNLOAD MATERIALS LIST

References

  1. Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207 (4), 647-653 (1989).
  2. Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19 (6), 706-723 (1974).
  3. Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6 (2), 461-464 (1978).
  4. Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52 (5), 696-704 (2003).
  5. Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17 (8), 754-755 (2001).
  6. Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22 (22), 4673-4680 (1994).
  7. Lassmann, T., Sonnhammer, E. L. Kalign--an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
  8. Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33 (2), 511-518 (2005).
  9. Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30 (14), 3059-3066 (2002).
  10. Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
  11. Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302 (1), 205-217 (2000).
  12. Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15 (2), 330-340 (2005).
  13. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27 (8), 1164-1165 (2011).
  14. Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12 (4), 357-358 (1996).
  15. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9 (8), 772 (2012).
  16. Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).

Tags

基本プロトコル号84、系統学、複数の配列アラインメント、系統樹、BLAST実行可能ファイル、基本ローカルアラインメント検索ツール、ベイズモデル
Nonexpertsための系統学の実用ガイド
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

O'Halloran, D. A Practical Guide toMore

O'Halloran, D. A Practical Guide to Phylogenetics for Nonexperts. J. Vis. Exp. (84), e50975, doi:10.3791/50975 (2014).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter