Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

バッチ酵母 2 ハイブリッド スクリーンからシーケンス データの情報解析

Published: June 28, 2018 doi: 10.3791/57802

Summary

肯定的な酵母 2 ハイブリッド相互作用の可能性があります選択酵母集団のディープ シーケンスには、パートナーの相互作用の蛋白質についての情報の富が得られます。ここでは、特定のバイオインフォマティクス ツールとこのような画面からシーケンス データを分析するカスタマイズされた更新されたソフトウェアの操作について述べる。

Abstract

我々 は、同時に高スループット短鎖 DNA シーケンスを利用した単一の画面内で一過性と静的な蛋白質の相互作用の多数を明らかにする酵母 2 ハイブリッド試金を適応しています。結果のシーケンスのデータセットだけでなく、肯定的な酵母 2 ハイブリッド相互作用のための選択中に濃縮されている人口はどのような遺伝子を追跡も蛋白質の相互作用のために十分の関連するサブドメインに関する詳細情報を与えます。ここでは、我々 は非専門家すべての生物情報学および処理し、バッチ酵母 2 ハイブリッド試金から DNA シーケンス fastq ファイルを分析する統計手順を実行することができるスタンドアロンのソフトウェア プログラムの完全なスイートをについて説明します。これらのソフトウェアによって覆われている処理手順が含まれます: 酵母 2 ハイブリッド獲物ライブラリ内でエンコードされた各候補タンパク質に対応する 1) マッピングとカウントのシーケンス リード2) 濃縮プロファイルを評価する統計解析プログラム・ 3) 並進フレームと興味の相互作用の蛋白質を符号化する各の豊かなプラスミッドのコーディング領域内の位置を調べるためのツール。

Introduction

蛋白質の相互作用を検出する方法の 1 つは、どの攻撃設計興味の蛋白質の相互作用のパートナー1フラグメントにバインドされたときだけ拡張酵母、酵母 2 ハイブリッド (Y2H) アッセイです。大規模な並列高スループット シーケンスの助けを借りて複数 Y2H 相互作用の検出を行うことが今できます。いくつかのフォーマットがされている個体群が生成するプラスミドを含む酵母の選択条件下でバッチで栽培されたものを開発した 1 つを含む2,3,45の説明、正 Y2H 相互作用6。我々 は、開発 deepn 深さ (評価のタンパク質ネットワークの動的な濃縮) と呼ばれる、1 つの蛋白質 (またはドメイン) のと相互作用するタンパク質を識別するために同じ獲物ライブラリから差分 interactomes を識別するワークフロー。別の蛋白質またはコンホメーションの突然変異体のドメイン。このワークフローの主な手順は、適正処理や DNA シーケンス データの解析があります。RNA シーケンス実験に似ていますファッション Y2H 相互作用の選択の前後に各遺伝子のための読み取りの数をカウントするだけでいくつかの情報を拾うことができます。しかしより多くの詳細な情報は、Y2H 相互作用を作り出すことができるある特定の蛋白質のサブドメイン情報を含むこれらのデータセットから抽出できます。さらに、DEEPN アプローチが重要であるに対し多くのサンプルの複製を分析することができます面倒で高価です。複製の数が限られている6DEEPN データセットのために特別に開発された統計モデルを使用して、この問題を軽減します。生物情報学の知識がなくても捜査官の DNA シーケンスのデータセットの処理および分析信頼できる、完全な堅牢で、アクセスを作る、分析のすべてのステップをカバーするソフトウェア プログラムのスイートを開発しました。

デスクトップ コンピューター上で実行されるスタンドアロンのソフトウェア プログラムのこのスイートには、MAPster、deepn 深さと Stat_Maker が含まれます。MAPster は、生産して下流のアプリケーションで使用する標準 .sam ファイル HISAT2 のプログラム7を使用してゲノムへのマッピングにより、各 fastq ファイル キューに登録グラフィック ユーザー インターフェイスです。Deepn 深さは、いくつかのモジュールです。それは割り当て、特定遺伝子モジュール '遺伝子' カウントを使用して RNA シーケンス型数量化と同様に対応する読み取りをカウントします。また、Gal4 転写ドメインと獲物のシーケンス間の接合に対応するシーケンスを抽出し、比較表やグラフ ('Junction_Make' モジュールを使用) の点検を許可するようにこれらの接合位置の照合順序'Blast_Query' モジュールには、簡単な検査、定量、ジャンクション Gal4 結合配列の比較ができます。Stat_Maker は、可能性が高い Y2H ヒットの優先順位付けの方法として統計的に遺伝子濃縮データあたりの読み取り数を評価します。ここでは、これらのソフトウェア プログラムを使用して完全に DEEPN Y2H からデータ実験 dna 塩基配列を解析する方法について述べる.PC、Mac、および Linux システム上で実行する deepn 深さのバージョンがあります。MAPster マッピング プログラムなどの他のプログラムと deepn 深さ統計モジュール Stat_Maker Unix で実行、Mac および linux システム上でのみ利用可能なサブルーチンに頼る。

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. マッピング Fastq ファイル

注: DEEPN ソフトウェアとして多くの生物情報学プログラムは、参照 DNA の位置を読む各シーケンスがマップされて前記 DNA シーケンス データを使用します。HISTAT2 プログラムを使用して、以降の手順で使用される .sam ファイルを生成ここに MAPster インターフェイスを含んでこれのためさまざまなマッピング プログラムを使用できます。

  1. ゲノムの正しいバージョンにシーケンス データをマップします。マウス由来の Y2H ライブラリ、UCSC mm10 ゲノム; を使用します。これらのヒトの遺伝子を使用して、出芽酵母遺伝子の UCSC hg38 参照ゲノムを使用、UCSC SacCer3 参照ゲノムを使用します。
  2. MAPster をインストールします。
    1. MAPster ソフトウェアをダウンロードしてインストールします。ソフトウェアは、次のように web ブラウザーを使用して見つけることができます: https://github.com/emptyewer/MAPster/releases。HISAT2 は、Apple Macintosh などの Unix ベースのシステムで実行されます。このため、MAPster プログラムは、Apple Macintosh、linux など互換性のあるシステムでのみ実行されます。
      注: Apple Mac のシステム要件は、: 10.10 + OSX > 4 Gb の RAM、> 500 Gb のディスク容量、および参照ゲノムをダウンロードするためインターネット接続。ユーザーは、それを相談する、機関の人、企業管理者の権限およびアクセス許可を制限するセキュリティ プロトコルを持っている場合必要があります。
  3. 必要なファイルと「メイン」タブ (図 1) を使用してパラメーターを入力します。ペアまたは既定のファイル形式として FASTQ と対になっていないとどちらかのファイルを入力する適切な「Pairwise」ボタンを選択します。
    1. Deepn 深さ分析のため単一の読み取り形式で実行する「オフ」に「Pairwise」オプションをオンにします。
    2. MAPster に適切なウィンドウにドラッグ アンド ドロップするだけでファイルを読み込みます。
    3. Y2H 獲物ライブラリ挿入のソースに対応する DNA ・ ゲノム ソースの参照を選択します。いくつかのモデル生物からインデックス付きゲノム「ゲノム」ボックスに表示されます、計算生物学、ジョンズホプキンス大学センターから自動的にダウンロードすることができます。参照ゲノムは、後で使用できるローカルで格納されます。
    4. HISAT2、マルチ スレッド サポートから「スレッド」ボックスの下マッピング プログラムに専念するコンピューターのプロセスの数を示します。MAPster はコンピューターを検索し、既定値として利用可能なプロセッサの最大数を示唆しています。
    5. 出力ファイル名を指定します。このファイル名は、スペースや特殊文字なしの短いまだわかりやすい名前をお勧めしますので DEEPN プロセス全体で使用されます。「出力ディレクトリを開く」ボタンを使用してマップされたファイルを出力するフォルダーを指定します。
    6. 適切なファイルとパラメーターを選択すると、マッピング ジョブは「キューに追加」ボタンを使用してジョブ キューに追加します。メイン ウィンドウでファイル名を削除され、新しいサンプルに対応するファイルに置き換えられますことができます、彼らが対応する出力ファイル名を指定後、キューに追加できます。
    7. すべてのジョブがジョブ キューに入力される「キューの実行」ボタンをクリックしてします。
      注: マッピング ジョブは、キューに配置されている、一度「ジョブ パラメーター」ウィンドウと「ジョブ コマンド」ウィンドウに表示されるすべての引数とコマンド ライン ステートメントに表示されるパラメーター設定を、そのジョブを選択します。出力オプションは合わせて失敗してください読み取りするかどうかを演出など各 read に対して許可主な線形の数を指定します。MAPster から既定の出力ファイルは、サムの形式 (例えば'.sam' ファイル) です。Fastq ファイルを読み書きするシーケンス (マップ) したものを含むサンプル指定し、なかったすべてが含まれます (マップ) 指定されたツタに正常にマップします。

2. バイオ情報処理を用いた DEEPN ソフトウェア

注意: DEEPN ソフトウェアはマウス cDNA 配列、ヒト cDNA シーケンス、または出芽酵母ゲノムの DNA 配列を含む獲物ライブラリとコンパイル用現在。Deepn 深さは標準 .sam ファイル形式を受け取り、マップおよびマップされた読み取りのそれぞれのマップおよびマップされていない読み取りまたは別のファイルを含むサム (.sam) ファイルを受け入れることができます。

  1. DEEPN ソフトウェアをダウンロードしてインストールします。ソフトウェアは、次のように web ブラウザーを使用して見つけることができます: https://github.com/emptyewer/DEEPN/releases。コンピューティングのプラットフォームとダウンロード バージョンに一致するを選択します。インストールするには、ダウンロードしたインストール パッケージを開きます。
    注: deepn 深さのバージョン、PC、Mac、および Linux の改良システムのことがあります。Mac と PC のシステム必要があります > 500 Gb のハード ディスク容量と > 4 Gb の RAM。
  2. DEEPN ソフトウェアを開きます。メイン ウィンドウ (図 2) からトップの選択] ボックスから対応する獲物のライブラリ情報を選択します。処理されたファイルがフォルダー/ディレクトリに「作業フォルダー」ボタンをクリックして移動して行くことができますフォルダーを選択します。必要な場合、1 つは新しいフォルダー/ディレクトリを作成できます。「作業フォルダー」を選択すると、一度 deepn 深さは unmapped_sam_files、mapped_sam_files と sam_files と題して 3 つのサブフォルダーを作成します。
    1. MAPster プログラムの既定の設定で製作しております .sam ファイルなど、マップとマップされていない読み取りを含むを使用して 'sam_files' フォルダーに配置します。それ以外の場合、unmapped_sam_files と mapped_sam_files にそれに応じて .sam ファイルを配置します。
  3. 「遺伝子数 + 接合する」ボタンをクリックして処理を開始します。
    注: 各遺伝子に対応する回数をカウントするマッピング位置を使用する遺伝子数モジュールで処理が始まります。接合には、接合シーケンスを抽出 (シーケンスを直接融合 Gal4 活性化ドメインから下流) 読み取りから Blast アルゴリズムを使用してそれらを識別し、。これは図 3に示すフォルダーの完全なセットが作成されます。処理時間は、サイズとシーケンス データ ファイルの数、および使用するコンピューターの処理速度によって異なります。2 億 5000 万の実験データセットの 12-30 h から典型的な時間範囲を読み取ります。遺伝子数のプロシージャおよび Junction_Make プロシージャは、「遺伝子計算」ボタンまたは「接合する」ボタンをクリックして個別に開始できます。
  4. ダウンロードし、Stat_Maker (https://github.com/emptyewer/DEEPN/releases) をインストールします。これ DEEPN データセット現在 Unix Mac システム上でのみ動作するために設計された統計解析パッケージです。
    1. Stat_Maker を開き、ボタン「インストールの確認」(図 4) をクリックしますします。最初に実行する場合 Stat_Maker が自動的にこれらのリソースをインターネットから引いて、R、ぎざぎざおよび Bioconductor をインストールします。R、ぎざぎざおよび Bioconductor が検出されると、Stat_Maker がアクティブになるし、さらにユーザーの入力を許可します。
    2. DEEPN 処理作業フォルダーに移動する「フォルダーの選択」ボタンをクリックしてします。Stat_Maker は、自動的に検索、ウィンドウの統計分析ファイルを一覧表示します。
    3. ドラッグ アンド ベクトルと餌のデータセットごとに、それぞれの成長条件の下ファイル windows 上のファイル一覧ウィンドウから適切なファイルをドロップ: 非選択 (彼 + メディア)、(彼のメディア) を選択します。重要なは、Stat_Maker には、空の重複データセット ベクトルだけでは、選択されていない集団の 2 つのサンプルとの 2 つのサンプルの選択が必要です。これは実験内の可変性の見積もりを与えます。
    4. 「実行」ボタンををクリックしてします。コンピューターの速度、に応じて 5 〜 15 分間計算になります。
  5. 「Stat_Maker 結果」というラベルの付いたメインの作業フォルダー内の新しいサブフォルダーに配置されている Stat_Maker の出力から結果を確認します。
    注: スプレッドシート プログラム共通の開くことができる CSV (コンマ区切り値) ファイルに結果があります。Stat_Maker には、空の pTEF GBD (図 5) で関心の餌を選択するときに特異的濃縮する可能性のある遺伝子のヒットがランク付けされます。また集計は各データセットの読み取りの比率が遺伝子挿入はで発見した上流、下流、または開いたリーディング ・ フレームと遺伝子はまた正しい並進リーディング ・ フレーム内で見つかったかどうか。多くの場合、deepn 深さは、対応する蛋白質の適切な読書フレームの外、または対応するオープンリーディング フレームの下流は cDNA の部分には指定された cDNA の部分と餌の堅牢な Y2H の相互作用をキャプチャします。これらの無関係なヒットの検出と除去を合理化 Stat_Maker からの結合された出力をスキャンします。
  6. 各潜在的な候補者に関するデータを確認、DEEPN ソフトウェアを開いて、獲物に対応するライブラリ情報をクリックし、「作業フォルダー」を使用して、正しい作業フォルダーを選択します。
    1. 「ブラスト クエリ」ボタンをクリックします。これは、新しいウィンドウ (図 6) を読み込みます。上部のテキスト ボックスに遺伝子名または興味の遺伝子の候補を選択する GenBank NM 番号を入力します。これらの遺伝子の名前は、StatMaker 出力ファイルに記載されている名前に対応します。型を入力または戻るには、興味の遺伝子の検索が開始されます。
    2. 「データセットの選択」メニューを使用して分析のため使用するデータセットを選択。通常、これらはベクターのみを含めるし、非選択的条件下で栽培したサンプルおよび選択条件下で栽培した餌サンプルを餌します。当初は、データセットが読み込みに時間がかかる、しかし、異なる遺伝子を持つ同じデータセットの後続のクエリは急速に。Blast_Query の関心とどのように豊かなそれぞれの融点は順序に沿う融合のポイントが表示されます。これは、両方「結果」タブを使用して表形式または「印刷」タブを使用してグラフィック形式で表示できます。これらの結果は、右上の「保存する .csv」ボタンをクリックしてして .csv ファイルにエクスポートできます。

3. deepn 深さによって識別される候補者の検証

注: deepn 深さと Stat_Maker の目的は、肯定的な Y2H 相互作用を与える候補者の遺伝子を識別するためにです。Y2H のような相互作用を確認することができます関心の餌プラスミドを使用して伝統的なバイナリ Y2H 形式を使用して行わ空 Gal4 活性化ドメイン '餌' プラスミドとペア同様する興味の遺伝子/cDNA 断片を運んで獲物プラスミドとペアになっています。Y2H 選択を受ける人口は酵母から分離した DNA の混合物内の実際のプラスミドを分離することはありません。ただし、計算、遺伝子/cDNA 断片は Y2H 相互作用を生成する、再構築、5' と 3' 端そのフラグメントのためのプライマーを設計し、人口は酵母から分離した DNA のフラグメントを増幅するなど 1 つできます。候補獲物断片の 5' と 3' 端を見つける方法について説明します。

  1. DEEPN ソフトウェアを開き、「選択パラメーター」と作業フォルダー「作業フォルダー選択」プロジェクトに対応するパラメーターを選択します。Blast_Query モジュールを起動するには、「ブラスト クエリ」ボタンをクリックします。
  2. 興味や、GenBank"NM"の遺伝子の名前を入力上のテキスト ボックスの番号。'結果'] タブ下の接合位置のテーブルを取得する興味の餌の選択した酵母の人口に対応するデータセットをプルダウン メニューから選択します。既定では、Blast_Query、データセットは、データベース内で見つかった接合数 ppm で定量化豊富によると別の位置を順序します。
    1. 最も豊富な位置を見つける"Orf」と「フレームで"。位置の値は、上部のテキスト ボックスは、NCBI 参照シーケンス ('NM' 番号) を持つ遺伝子の塩基位置に対応します。このシーケンスは、GenBank (https://www.ncbi.nlm.nih.gov/nuccore/) から取得または Blast_Query ウィンドウ下のテキスト ボックスからコピーできます。
      注:図 6、中央のパネルの例を見つけることが。センター データセットで '結果' は、最も豊富なジャンクションとして表示: '位置': 867;'#Junctions': 20033.821;'クエリの開始'、1;CD: ORF; で'フレーム': フレームで。GenBank NCBI 参照シーケンス NM_019648 のヌクレオチド 867 獲物フラグメントの開始であります。
  3. クエリの開始が 1 の場合、位置番号に対応する塩基配列を含むようにプライマーの 5' 末端を設計し、その位置 (図 7) から 25 ヌクレオチド下流を拡張します。クエリの開始が 1 以上の場合は、Gal4 活性化ドメインと興味の獲物シーケンスの間の余分なヌクレオチドがあることと、プライマーを開始するさらに下流のクエリを開始値によるとを示します。
  4. DEEPN ウィンドウから「データの分析」下の「読みの深さ」ボタンをクリックしてします。読み取り深度ウィンドウが開いたら、上部のテキスト ボックスに NCBI 参照 (NM) のシーケンス番号や遺伝子名を入力します。興味の豊かな遺伝子を含む関連するデータセットを選択するのにプルダウン ・ メニューを使用します。左の表を使用し、グラフィック表示回数が興味 (図 7B) の遺伝子に対応するデータで発見されたを決定する権利。
  5. 読み取り深度によって計算される遺伝子フラグメントのシーケンスをキャプチャ 3' 端プライマーを設計します。ORF を超えた豊富な読み取りの場合終止コドン、終止コドンと終止コドンのすぐ上流の領域を含むようにプライマーを設計します。遺伝子のシーケンスが停止コドン過去に及ばない、結果表を検出することができますし、遠い 3' としてこの位置を使用して、最も遠い 3' 領域を検索する使用してプライマーを配置します。
    注: 読み取り深度プログラムは興味の特定の遺伝子/cDNA に一致するシーケンスを検索する間隔でスキャンします。これは最も豊富な獲物の断片の 5' と 3' 端がサンプルでその遺伝子が予測できます。シーケンスの長さに沿って読み取り深度の変動は、通常、図 7で見ることができます。読み取りの深さが明らかに過去の終止コドンの場合獲物フラグメントが終止コドンを超えたとして、こうして 3' プライマーは単に停止コドン周辺地域を対応できることを示します。
  6. 遺伝子あたり 50 μ L の PCR 反応を行います。各反応を含むライブラリ獲物プラスミドに一致する各前方および逆のプライマーの 25 pmol (材料の表を参照してください)。反応は、忠実度の高い 2 x PCR マスター ミックスの 25 μ L、5 μ g の DNA サンプルと 50 μ L までの水にも含まれています。
    1. 3 72 ° C の熱処理温度 55 ° C、30 分の延長時間 25 サイクルの反応を増幅する s、および 10 98 ° C で変化 s の 98 ° C で 30 s 変性によってサイクリング先頭と次の 72 ° C で 5 分インキュベーション

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Fastq データをマッピングする: 最初の手順
Deepn 深さが初期の出力は、ゲノムに配置してマップする必要があります短い一連の読み取りのファイルを含む事実上すべての NGS アプリケーション、トランスクリプトーム、または他は DNA8を参照します。最近では、HISAT2 の配置プログラムは、最新のインデックス作成アルゴリズムを使用してマッピング速度7,9を劇的に増加するを開発されました。HISAT2 デスクトップ コンピューターで効率よく実行して、通常サイズのマップは数分でファイルを読むことができます。これにより、コマンドライン言語 (図 1) で通常動作するリモートの高性能コンピューター クラスター上の依存を避けることができます fastq ファイルをローカルにマップすることができます MAPster と呼ばれるグラフィック ユーザー インターフェイスに HISAT2 をラップできました。MAPster の重要な機能は RNA シーケンスの事前設定済みパラメーターの存在を含めるし、全ゲノム マッピング実験、複数のジョブをキューや専門家のユーザーに、簡単に調整可能な HISAT2 パラメーターの完全なセットにアクセスする機能のカスタマイズアプリケーション。MAPster の機能を説明するために公に利用可能 eHAP 細胞 RNA シーケンス データ ファイルは DNA のアンサンブル GRChg38 ゲノム プラス トラン スクリプト参照にマップされました。EHAP A11 複製 1 FASTQ ファイル NCBI シーケンス読み取りアーカイブからダウンロードされた、3830 万読み取りを含まれています。MAPster は、対になっていない読み取りファイルの RNA シーケンス パラメーター デフォルトを使用して 3.5 GHz のインテル Core i7 プロセッサとアップルの iMac で実行されました。マッピングは、5 分以内に完了しました。全体の配置率 96.6% であった。同様の結果は、全体の配置率は低い Y2H 獲物プラスミドからベクトル シーケンスの存在が 1500 万読み取り/サンプルの典型的な DEEPN データセットで発見します。

Stat_Maker の助けを借りて候補ヒットを見つけること。
StatMaker プログラムは、候補者の相互作用の蛋白質を識別するために必要な情報のほとんどを要約した excel で表示可能なファイルを生成します。Stat_Maker を使用して unix ベースのサブルーチンのない PC が Mac (OS10.10 +) で実行されます。最初に、各遺伝子のベクトル制御と餌集団両方や生成も ppm で読み取りランキング興味の餌と Y2H の対話を選択した場合、特定の遺伝子の濃縮が本当に超えるかどうかの確率に概要を示します、遺伝子オンにする (図 5) ベクター専用のコントロールと対話するための濃縮。第二に、StatMaker 評価すべての遺伝子の BlastQuery モジュールの計算を実行し、正しい並進フレームと真正な生物学的に関連するために必要となるコーディング シーケンスは、ジャンクションの読み取りの割合を集計interactor。この結合された出力は BlastQuery によって近い検査することができますそれらを識別するためにすぐに並べ替えとフィルター処理候補者に。この出力 1 つは最初興味のそして単独でベクトル プラスミド上の相互作用のために選択時ではなく餌の蛋白質の Y2H 相互作用のための選択中に濃縮されるの最も probabily とそれらの候補者の並べ替えることができます。実際には、我々 は P を見つける > 0.95 うまく。コーディング領域と単純な並べ替え関数を使用して適切なリーディング ・ フレームの両方は、ほとんどジャンクションの読み取りを持っているもののための候補者をランク付けできます。ここでは、候補者 > 正しい並進フレームは、そのフレーム/蛋白質コード領域 (ORF) でを読んでオープン内が見つかったまたはちょうど始まる接合の 85% 開始コドン (上流) の上流。この後者のフィルターは多くの生物学的関連性の詳細な検査管理一覧の作成許容の P 値を持つ候補者の 60-80% がなくなります。

DEEPN ソフトウェア。
コア DEEPN ソフトウェアは、SAM ファイルを使用してすべてのバイオインフォマティクス手順を統合する一緒にいくつかの計算モジュールをバンドルされています。Gene_Count は、seq RNA 定量と同様の計算を行う遺伝子ごとの読み取り数を提供します。この種類の計算を実行する他のプログラムを使用することも可能性があります、ただし、ファイル形式が他 DEEPN モジュールと Stat_Maker プログラムの互換性を変更する必要があります。また、Gene_Count モジュールは、RNAseq 実験の定量化される可能性があります、しかし、他のパッケージの特定の統計プログラムと統合された開発10をされています。遺伝子の割り当てのデータのツリー構造を使用して、DEEPN ソフトウェアの初期以来興味の対応する遺伝子と特定のマップされた読み取りに一致させるプロセスが改善されました。この効果は大幅 1000 万を含む典型的なデータセットの読み取りのマップなど、処理の速度を加速する最小限のシステム要件を持つデスクトップ コンピューターに 5-10 分をかかります。特に Gal4 活性化ドメインにまたがるジャンクション読み取りの解析と興味の相互作用する候補者の他の分析は、自己完結型。彼らが同梱されてローカルに実行されるブラスト分離を行えば、接合部を読み取りますすべてを正しく照合する手順と特定のすべての遺伝子の位置を解析します。DEEPN ソフトウェアの欠点の 1 つはそれなり参照ゲノムでどのエクソンを使用して Cdna またはコード領域、定義を定義する特別な書式設定されたデータベースの使用、書式設定シーケンスおよび並進運動の開始と停止を指定のデータベース各 cDNA/遺伝子の使用。Deepn 深さはいくつかの特定の遺伝子のインデックスと出会ったスプリアス ミスに欠けていた信頼性の高い形式で必要なすべてのデータベース情報を取得することは困難だったことがわかった。したがって、我々 は新しいデータベース品質の我々 が制御され、一貫性のある内部参照に DEEPN ソフトウェアに埋め込まれたそれらを組み立ててください。現在、マウス、人間、および出芽酵母Y2H 獲物ライブラリがデータベースでサポートされる、含まれているされる DNA fastq ファイルが mm10、hg38、または SacCer3 は、UCSC から利用可能なデータベースを参照に割り当てられます。異なった有機体から Y2H ライブラリは、同様のデータベースの構築し、DEEPN ソフトウェアに配置される deepn 深さによって処理できます。全体的にみて、ただし、deepn 深さのすべてのモジュール、データベース、および他のプログラムの自己完結型のパッケージこれらバイオ情報解析にアクセスできるように専門知識のすべてのレベルで調査官。

Figure 1
図 1:、MAPster インターフェイス。MAPster のメイン ウィンドウのスクリーン ショット。必要なファイル形式を入力するためのボックスが表示されます。シングル エンドの読み取りシーケンス ファイルを扱う「Pairwise」(A) オフにします。参照ゲノムが「ゲノム」メニューで選択されている (B) バー。HISAT2 で使用されるプロセッサの数は、「スレッド」メニュー (C) で選択されます。新しいサンプル名は、「出力ファイル名」テキスト ウィンドウ (D) に入力できます。(E) では、出力ファイル用のディレクトリを指定できます。以下はシングル エンドの待ち行列を表示するウィンドウ ファイルを読み取る。サンプルは、キューに追加されている後、は、「キューの実行」ボタン (F) でマッピングを開始できます。この図の拡大版を表示するのにはここをクリックしてください

Figure 2
図 2: DEEPN インターフェイス。DEEPN モジュールを操作するためのグラフィック ユーザー インターフェイスの画像。この図の拡大版を表示するのにはここをクリックしてください

Figure 3
図 3: 処理が完了します。一度 deepn 深さは、データを処理、次のサブフォルダーが作成されます。これらを調べることができますが、下流プロセス必要これらのサブフォルダーが主な作業フォルダー内にあることと、彼らはそれらの内容と名前を保持します。この図の拡大版を表示するのにはここをクリックしてください

Figure 4
図 4: Stat_Maker 解析します。写真 Stat_Maker は、ロードされている適切なファイルを処理可能にするためのグラフィック ユーザー インターフェイスです。上部には、Stat_Maker の初期ビューが表示されます。「インストールの確認」ボタンをクリックし「フォルダー選択」ボタンをクリック後に識別される適切な作業フォルダーをクリックしてサポートの基になるデータの存在を確認したら GUI がアクティブ ファイルの読み込み可能にするがなります。この図の拡大版を表示するのにはここをクリックしてください

Figure 5
図 5: Stat_Maker の出力からの抜粋です。Stat_Maker の部分だけ (空 pTEF-GBD) をベクターに単一の餌の蛋白質の獲物候補の濃縮の比較を出力します。また、対応する獲物候補者に対応するプラスミドに適切なオープンリーディング フレームが含まれているかどうかの分析も示します。評価各遺伝子がいくつかの値: ベース、Vec、餌、Enr。'ベース' は割合の平均読み取り (ppm) 観察された重複する人口に対応する 2 データセット内で遺伝子のためを含むだけで、非選択性の条件の下で成長したベクトルのみ。平均の割合を指します"Vec"読み取り (ppm) 観察された重複する人口に対応する 2 データセット内で遺伝子のためを含むだけで、選択的な条件の下で成長したベクトルのみ (例えば-彼)。餌プラスミッドを含んでいる 2 個体群に対応する 2 データセット内で遺伝子の観察および選択条件下で栽培された読み取り (ppm) の割合は、'餌' (例えば-彼)。「Enr」(富化) は log2 ((Bs/Bn)/(対/Vn)) Bs は淘汰の下で餌を読み取り、Bn は非選択下餌を読み取り対はベクトル選択の下だけ Vn はベクトルの選択だけで。この図の拡大版を表示するのにはここをクリックしてください

Figure 6
図 6: Blast_Query の表示。3 つのビューからの Blast_Query の出力。候補のデータセットが選択される前に、トップは Stat_Maker の最初のビューです。中央のパネルは、2 つの異なるデータセットの特定候補の情報を表示するデータ テーブルのビューの例です。下部には、興味の遺伝子/cDNA に沿って特定の接続点の数をプロット、表形式のデータのグラフィック表示が表示されます。この図の拡大版を表示するのにはここをクリックしてください

Figure 7
図 7: 増幅する 5' と 3' プライマーを見つけるします。(A) Gal4 活性化ドメインと興味の獲物シーケンス ポイント仮定のシーケンスと正しいフレームと融合をキャプチャする 5' オリゴを設計する方法を示しています。例 1 の融点の位置は 1 Q 始まる 10th塩基です。上記のオフセットを使用してテーブル、0 のヌクレオチドが 5' プライマーの位置の開始を見つけるに追加します。再建された獲物プラスミドの融点は、Gal4 活性化ドメインがヌクレオチド 10 で獲物に直接融合されますを示しています。例 2 のクエリの開始は 3、正しい出発点と獲物挿入のフレームをキャプチャするために 1 ヌクレオチドのオフセットが必要です。再建された獲物の模式図は、Gal4 活性化ドメインと考慮する必要があります獲物挿入の既知の位置との間の 2 のヌクレオチドがあることを示しています。(B) は、読み取り深度ウィンドウを示しています。上部に textbox を使用 NCBI 参照シーケンス番号を入力して、'Select .sam ファイル' 下のプルダウン ・ メニューを使用して場合、豊かな相互作用の遺伝子を含むサンプルのデータを選択の利益。読み取り深度を示します (x 軸) の興味のシーケンスの塩基位置に対応するデータにどのように多くのシーケンス (Y 軸) が見つかりました。この図の拡大版を表示するのにはここをクリックしてください

Subscription Required. Please recommend JoVE to your librarian.

Discussion

ここで説明するソフトウェア スイート完全に DEEPN 実験からハイスループット DNA シーケンス データを分析処理しことができます。使用する最初のプログラムは、MAPster、DNA シーケンスの読み取りは、標準 fastq ファイルと参照 DNA 情報学プログラム DEEPN ソフトウェアを含む全体のホストによる下流の処理のために彼らの位置をマップです。出力ファイル、プログラム7制御のさまざまなツールを使用して簡単なマッピングを提供します、基になる HISAT2 の速度と相まって買い物名を MAPster インタ フェースと入力ファイルを結合、複数のジョブをキューにその能力の有用性deepn 深さ以外のアプリケーション。MAPster は、deepn 深さ以外にもデータ分析の他のタイプに適している HISAT2 プログラムのいくつかのパラメーターにアクセスできます。これらの機能のいくつかは RNA シーケンスと全ゲノム マッピング実験の事前設定済みパラメーターが含まれます、簡単に調整可能な HISAT2 パラメーターの専門家のユーザーとカスタマイズされたアプリケーションのための完全なセットへのアクセスを。例えば、RNA seq ボタンは、トラン スクリプト アセンブリを促進するような書式設定を追加します。として逆の補数の繊維に CRISPR ボタンをブロック配置は、ガイド RNA シーケンスから派生した参照 DNA ファイルの適切でしょう。省略可能なパラメーターは、4 つのタブ、「入力、配置、スコアリング、および出力」にあります。入力オプションには、入力ファイルの形式を変更する、基本的な読み取りトリミング オプションを指定する機能があります。配置と得点タブ 1 つだけ鎖 DNA の参照を選択してアライメント スコアのギャップとの不一致の罰則を設定するオプションがあります。便利なそれぞれ異なるパラメーター設定は複雑な NGS アプリケーションを追求して専門家と非専門家のユーザーに関心の MAPster をする必要があります複数のマッピング ジョブをキューに配置する機能。

Deepn 深さと Stat_Maker のソフトウェア プログラムは、バッチ Y2H 画面からデータの特定のバイオインフォマティクス解析に捧げています。これは研究者の広い範囲にアクセスできるは、グラフィック ユーザー インターフェイスを介して実行連続したバイオインフォマティクス ソフトウェア パッケージを構成します。このパッケージがさらに最適化し、その元の説明6から統合されているため、動作速度が速いと候補のヒット曲の分析を合理化します。バイオインフォマティクスのすべての手順は、デスクトップ コンピューターで実行できます。これらのどのように多くを読み取りますを計算する位置マップ メイン DEEPN ソフトウェアは各遺伝子により選択時に特定の遺伝子を濃縮する方法のための基礎を形成に対応します。このソフトウェアはまた 'ジャンク' に獲物プラスミドの転写活性化ドメインに融合し、1 つは特定の ORF のすべてのさまざまな部分を可視化できるように、これらの結果を一覧にまとめます、関心の挿入に対応するシーケンスを見つけますまたは cDNA の相互作用のために十分です。さらに、各挿入の読み枠を確認するための情報も提供します。バイオインフォマティクス ソフトウェアの第三の腕が Stat_Maker deepn 深さによって処理された出力ファイルを使用して、Gal4 DNA 結合ドメインのベクトルだけで (対与えられた餌の蛋白質との相互作用から生じる遺伝子濃縮の統計的関連性を計算するには空 pTEF-GBD)。最近の改善は、Stat_Maker だけでなく各候補者の統計ランキングを提供、また簡単に 1 つのファイルで使用できるように対応する接合シーケンスから抽出された対応する情報を集計捜査官に調査し、結果を確認します。

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

著者がある何も開示するには

Acknowledgments

この仕事は健康の国民の協会によって支えられた: NIH R21 EB021870 01A1、NSF 研究プロジェクト助成: 1517110。

Materials

Name Company Catalog Number Comments
Mapster https://github.com/emptyewer/MAPster/releases
DEEPN software https://github.com/emptyewer/DEEPN/releases
Statmaker https://github.com/emptyewer/DEEPN/releases
Minimum computer system Apple Mac Intel Core i5 or better
- 4 Gb RAM or better
- 500 Gb Disk spce or better
- OS 10.10 or higher
Dell Intel i5-7400 or better
- 4 Gb RAM or better
- 500 Gb Disk spce or better
- Windows 7 or higher

DOWNLOAD MATERIALS LIST

References

  1. Fields, S., Song, O. A novel genetic system to detect protein-protein interactions. Nature. 340 (6230), 245-246 (1989).
  2. Rajagopala, S. V. Mapping the Protein-Protein Interactome Networks Using Yeast Two-Hybrid Screens. Advances in Experimental Medicine and Biology. 883, 187-214 (2015).
  3. Weimann, M., et al. A Y2H-seq approach defines the human protein methyltransferase interactome. Nature Methods. 10 (4), 339-342 (2013).
  4. Yachie, N., et al. Pooled-matrix protein interaction screens using Barcode Fusion Genetics. Molecular Systems Biology. 12 (4), 863 (2016).
  5. Trigg, S. A., et al. CrY2H-seq: a massively multiplexed assay for deep-coverage interactome mapping. Nature Methods. , (2017).
  6. Pashkova, N., et al. DEEPN as an Approach for Batch Processing of Yeast 2-Hybrid Interactions. Cell Reports. 17 (1), 303-315 (2016).
  7. Kim, D., Langmead, B., Salzberg, S. L. HISAT: a fast spliced aligner with low memory requirements. Nature Methods. 12 (4), 357-360 (2015).
  8. Reinert, K., Langmead, B., Weese, D., Evers, D. J. Alignment of Next-Generation Sequencing Reads. Annual Review of Genomics and Human Genetics. 16, 133-151 (2015).
  9. Pertea, M., Kim, D., Pertea, G. M., Leek, J. T., Salzberg, S. L. Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown. Nature Protocols. 11 (9), 1650-1667 (2016).
  10. Conesa, A., et al. A survey of best practices for RNA-seq data analysis. Genome Biology. 17, 13 (2016).

Tags

遺伝学、dna 塩基配列解析、次世代シーケンシング、タンパク質間相互作用問題 136 酵母 2 ハイブリッド
バッチ酵母 2 ハイブリッド スクリーンからシーケンス データの情報解析
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Krishnamani, V., Peterson, T. A.,More

Krishnamani, V., Peterson, T. A., Piper, R. C., Stamnes, M. A. Informatic Analysis of Sequence Data from Batch Yeast 2-Hybrid Screens. J. Vis. Exp. (136), e57802, doi:10.3791/57802 (2018).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter