Summary
このプロトコルの目的は、ベンチの研究と計算の組み合わせを使用して、可能性がありますのみ部分的に知られている共同浄化のシーケンスから容易に分離できない新規シーケンスを検索することです。
Abstract
減法混色のゲノムは、遺伝子、蛋白質、またはゲノムの文脈に埋め込まれている一般的な地域のシーケンスを特定すること任意の研究で使用できます。減法ゲノミクスにより包括的な配列と既知の遺伝的要素 (参照、R) を引き算することによって (T) の興味のターゲット シーケンスを分離する研究者です。メソッドは、ミトコンドリア、葉緑体、ウイルスなど新規シーケンスを識別する使用ことができますまたは生殖細胞、染色体の制限し T は r. で始まるされる包括的なゲノムのデータ (R + T) メソッドから簡単に分離することはできません、特に便利参照シーケンス、シーケンスに対して基本的なローカル配置検索ツール (ブラスト) を使用して、ターゲット (T) を残して対応する知られていたシーケンス (R) を削除します。最高の仕事に減算、R は、隆が欠落している比較的完全なドラフトをする必要があります。減算を量的なポリメラーゼの連鎖反応 (qPCR) をテストした後、残りのシーケンスから R を完了メソッドを使用する必要はありません。順番に複数の参照シーケンスを削除して、T の検索を絞り込む、必要に応じて反復することができますサイクルに実験手順の計算手順のリンクここ減法混色のゲノミクスの利点は、物理的な精製が困難、不可能、または高価な場合でも完全に新しいターゲット シーケンスを識別できることです。メソッドの欠点は減算のための適切な参照を見つけると T 陽性を得る負の qPCR のテスト用のサンプルと。キンカチョウの生殖制限染色体から最初の遺伝子の同定における法の実装について述べる.その場合、3 つの参照 (R)、以上 3 つのサイクルを順番に削除が関与して計算フィルタ リング: 不完全なゲノムのアセンブリ、生データをゲノム、トランスクリプトーム データ。
Introduction
このメソッドの目的は、新規ターゲット (T) ゲノム配列、DNA または RNA のゲノムのコンテキスト、または参照 (R) (図 1) からを識別するためにです。メソッドは、対象を物理的に分けることができない、またはそれはこれを行うに高価になる場合に最適です。いくつかの有機体だけ完全に終えた減算、ゲノム手法の重要な技術革新は計算の組み合わせと参照が完璧ではない場合、ターゲット シーケンスを隔離して研究者を有効にするサイクルまたは下書きにベンチ メソッド非モデル生物のゲノム。サイクルの終わりに、qPCR テストがより減算が必要かどうかを判断する使用されます。検証候補 T シーケンス qPCR で知られている T 陽性検体で統計的に大きい検出が表示されます。
ホスト同族体1,2,3、4を持っていない新規の細菌の創薬ターゲットの発見と感染したホストから新規ウイルスの同定法の化身が実装されています。5,6。T の識別に加えて、メソッドは r: 我々 は最近キンカチョウ参照ゲノムから 936 行方不明の遺伝子と生殖だけ染色体 (T)7からの新しい遺伝子を識別するメソッドを使用を向上できます。減法混色のゲノムは、T は非常に知られていたシーケンスから発散する可能性が高いとき、または T の id はキンカチョウ生殖制限染色体7のように、広義に特に有用です。
あらかじめ T の肯定的な同定を必要としない、減法のゲノム解析の主な利点は、バイアスです。最近の調査でリードヘッドらはアルツハイマー病と 4 つの脳領域でウイルス量との関係を検討しました。ウイルス同定のリードヘッドらは 515 ウイルス8、彼らの研究を識別することができるウイルス エージェントを厳しく制限のデータベースを作成しました。減法のゲノムが既知の病原に類似性にかかわらず、病と関連付けられる可能な新規ウイルスを分離するために健康とアルツハイマー病のゲノムを比較する使用されている可能性があります。263 の知られている人間を対象としたウイルス、約 167 万の未知ウイルス種存在人間9に感染する可能性を有するそれらの 631,000 827,000 と推定されています。
新規ウイルスの分離が減法エリア ゲノミクスは特に効果的で、いくつかの研究がこのような厳格なメソッドは必要ありません。たとえば、新規ウイルスの識別が抽出し、逆にウイルス シーケンス5の逆のトランスクリプションおよび BLASTx 続いて公平な高スループット シーケンスまたはウイルス核酸の充実を使用している研究を書き写すウイルス シーケンス6. 正しくこれらの研究は、 de novoシーケンスとアセンブリを採用、減算はターゲット シーケンスはブラストを積極的に識別されたので使用されませんでした。場合は、ウイルスが完全に小説と関連していない (または遠縁) 他のウイルスに役に立つテクニックの減法ゲノミクスとされています。減法混色のゲノミクスの利点は、完全に新しいシーケンスを得られることです。生物のゲノムが既知の場合任意のウイルスのシーケンスを残してを減算することができます。たとえば、私たちの出版された調査で7私たちの元の意図ではなかったが減法ゲノミクスによるキンカチョウから新規ウイルス シーケンスを分離しました。
減法混色のゲノムも抗生物質耐性1,2,3,4の劇的な上昇によって動機付けられて、細菌ワクチンのターゲットを識別するために便利な証明しています。自己免疫の反作用の危険性を最小限に抑えるために研究者は人間のホストで同族体を持つ蛋白質を差し引くことによって潜在的なワクチンのターゲットを絞り込みます。コリネバクテリウム類結節症、見て 1 つの特定の研究は可能な薬剤ターゲットが副作用につながるホストの蛋白質に影響を与えないことを確認するいくつかの細菌ゲノムから脊椎動物のホストのゲノムの減算を実行1これらの研究の基本的な仕事の流れは、細菌のプロテオームをダウンロード、の重要な蛋白質を確認、削除冗長なタンパク質、必須タンパク質を分離する BLASTp、BLASTp ホスト プロテオームに対してを使用してホストの同族体のタンパク質を削除。1,2,3,4します。 この場合、減法ゲノミクスは、ワクチン開発はホスト1,2,3,4オフのターゲットの任意の効果を持っていないことを確認します。
生殖制限染色体 (GRC) (この場合は T) の germlines にある最初の蛋白質コーディングの遺伝子を識別するために減法のゲノムを使用しましたが、両方のない体細胞組織男女10。この研究の前に、GRC について知られていたゲノムだけの情報は反復領域11だったDe novoアセンブリは、RNA から大人のキンカチョウと卵巣の組織 (R + T) からシーケンスで実行されました。発行体 (筋肉) ゲノム シーケンス (R1)12を使用してシーケンスの計算除去を行った、その raw (サンガー) 読むデータ (R2)、体 (脳) トランスクリプトーム (R3)13。3 つの参照の連続使用は、追加のフィルター処理が必要なことを示す (図 2A)、各サイクルのステップ 5 でテスト qPCR によって駆動されました。検出された α スナップ遺伝子は、DNA と RNA とクローニングおよびシーケンスから qPCR を通じて確認しました。例では、このメソッドは柔軟性を示す: それが核酸 (DNA 対 RNA) を一致するのに依存しないと参照 (R) を構成するアセンブリまたは raw 読み取りとその減算を実行できます。
Subscription Required. Please recommend JoVE to your librarian.
Protocol
1 de novo組み立て開始シーケンス。
注: 次世代シーケンス (NGS) データはすべて使用できます、アセンブリは、それらのデータから製造できる限り。オックスフォード ナノポア読み込み fasta ファイルへの組み込みやイルミナ、PacBio が適切な入力データに含まれています。具体性について、このセクションは、イルミナ基づくトランスクリプトーム アセンブリを説明します7; を行ったキンカチョウ研究に固有ただしプロジェクトによって仕様が異なります注意してください。私たちのプロジェクトの例の生データは、MiSeq から派生した、約 1000 万ペアの読み取りは、各サンプルから得られました。
- イルミナ アダプターと低品質拠点を削除する Trimmomatic 0.3214を使用します。コマンド ・ ラインを入力します。
java の jar trimmomatic 0.32.jar PE-phred33 forward.fq.gz reverse.fq.gz - baseout quality_and_adaptor_trimmed ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 リード: 3 トレーリング: 3 SLIDINGWINDOW:4:20 MINLEN:40 - 0.9.6 v. ナシ15を使用して、trimmomatic 出力ペアの読み取り、既定のパラメーターを使用して高品質のマージされた読み取りを作成します。コマンド ・ ラインを入力します。
梨 -f < quality_and_adaptor_trimmed_1P.fastq > r < quality_and_adaptor_trimmed_2P.fastq > - エラーを修正するため 1.116対使用爬虫類読み取り生産ナシ。17に記載されている手順のプロトコルに従ってください。
- 2.4.0 対トリニティを使用18修正のシーケンスを作成するデフォルトのモードです。ストランド固有のライブラリを使用して、SS_lib_type パラメーター。出力は fasta ファイル (your_assembly.fasta) です。コマンド ・ ラインを入力します。
トリニティ - seqType fq - SS_lib_type FR-max_memory 10 G-Trinity_output - quality_and_adaptor_trimmed_forward_paired_reads.fq を左の出力-quality_and_adaptor_trimmed_reverse_paired_reads.fq-CPU 10 を右
注意: 出力は、Trinity_output、新しいディレクトリに配置されます、名前アセンブリは、必要な場合、Your_assembly.fasta として名前を変更することができます ' Trinity.fasta' になります。詳細については、三位一体のウェブサイトを参照してください: https://github.com/trinityrnaseq/trinityrnaseq/wiki/Running-Trinity。
2. 爆発参照シーケンスに対してアセンブリ
メモ: 使用この手順アセンブリまたは長いが読み取りサンガー; のような生イルミナを読み取りそれが構成されている場合、読み取りをクエリにマップするためのステップ 3 以下を参照してください。ブラストのすべての手順は、コマンドは、任意の最近の爆発のバージョンで動作するはずが、バージョン 2.2.29+ で完了しました。
- コマンドラインで参照シーケンス (nucleotide_reference.fasta) のブラスト データベースを作る。次のコマンド ・ ラインに入力してください。
makeblastdb - dbtype 難-nucleotide_reference.fasta の-nucleotide_reference.db を - ブラスト マッチ、リファレンス ・ データベースにクエリ アセンブリ (手順 1 で生成された)。出力ファイルを取得するを使用 [-BLAST_results.txt を] (Python のスクリプトと後続の処理手順に必要) 表形式の出力を生成する [outfmt - 6] を使用して、。これらのオプションは任意の順序で組み合わせることができます、コマンドがあるので例を完了 [blastn-your_assembly.fasta - db nucleotide_reference.db を照会-BLAST_results.txt outfmt 6 を]。E 値の設定が必要な場合は、たとえば [-「1e-6] と、適切な-「オプションを使用します。しかし、減法サイクル効果的に反転 evalue の議論で説明されているよう設定注意してください。
- 増加の逼迫のため翻訳されたヌクレオチド爆発 (tBLASTn)、(ヌクレオチド) データベースの 6 方法の翻訳を実行するとブラスト クエリとしてアセンブリの蛋白質配列を使用します。ほとんど非モデル システムでは、不完全な蛋白質の注釈の問題を回避するにはこのメソッドをお勧めします。
- 勉強して正しい遺伝コードが生物として選択されているを確認、- db_gencode オプション。クエリのためのタンパク質を得るためには、組み立てられたクエリ シーケンスから最長オープンリーディング フレームの特定 (3.0.1 v. TransDecoder パッケージ) から TransDecoder.LongOrfs コマンドを実行します。コマンドは [TransDecoder.LongOrfs -t your_assembly.fasta];出力は、ディレクトリ 'transcripts.transdecoder_dir' と呼ばれるに配置されます、your_assembly.fasta 内の各シーケンスから最長予測された蛋白質シーケンスを含む longest_orfs.pep という名前のファイルが含まれます。
- TBLASTn を使用するコマンドを実行 [tblastn-longest_orfs.pep - db nucleotide_reference.db を照会-BLAST_results.txt outfmt 6 を]。高品質の蛋白質の参照が利用可能な場合、タンパク質 BLASTp よりもむしろ tBLASTn とのマッチングを使用します。
- タンパク質参照のブラスト データベースを作る [makeblastdb - dbtype prot-protein_reference.fasta の-protein_reference.db を] し [blastp-longest_orfs.pep - db protein_reference.db を照会-BLAST_results.txt outfmt 6 を]。下流処理用ファイルとして結果を保存することを確認し、Python スクリプトが正しく解析できるように表形式 (outfmt 6) を使用します。
3. マップをアセンブリに読み取ります
注: 参照データセットを構成するものは、組み立てシーケンスではなく、生のゲノムの読み取りまたはサンガー順序、爆発 (ステップ 2.1) に使用するケースの場合は、このメソッドを使用することができます。
- BWA を使用して-0.7.12 v. MEM19または bowtie220、クエリ アセンブリ上にダウンロードした raw 読み取り (raw_reads.fastq) マップします。出力は、.sam 形式になります。コマンドは次のとおりです: 最初アセンブリをインデックス: [bwa インデックス your_assembly.fasta] し、マップの読み取り [bwa mem your_assembly.fasta raw_reads.fastq > mapped.sam]。(注、' >' ここでシンボルが大きい-より; 代わりにそれがファイル mapped.sam に出力を指示します)。
4 任意一致するシーケンスを削除する Python スクリプトを使用してください。
注: は、Python 2.7 スクリプト作業を提供しました。
- 次の手順 2、[./Non-matching_sequences.py your_assembly.fasta BLAST_results.txt] コマンドを使用して、減法の Python スクリプトを使用します。スクリプトを実行する前に、ブラスト出力ファイルの形式を確認 6 (表形式)。Fasta 形式で非整合シーケンスとファイルの名前 your_assembly.fasta_non matching_sequences_BLAST_results.txt.fasta とも your_assembly.fasta_matching_sequences_BLAST_ としてレコードのシーケンス一致するスクリプトを出力します。results.txt.fasta 非一致するファイルに、テストのための潜在的な T シーケンスのソースとさらに減法のゲノミクスのサイクルの最も重要ななります。
- 次のステップ 3、としてを Python スクリプト removeUnmapped.py を実行ステップ 3.1 から .sam を入力し読み取りを一致することがなくクエリ シーケンスの名前を識別および新しいテキスト ファイルに保存されます。[./RemoveUnmapped.py mapped.sam] コマンドを使用して、出力は mapped.sam_contigs_with_no_reads.txt になります。(プログラム削除すべてマップされていない読み取りとスリムダウン sam ファイルが生成されます。 このファイルはこのプロトコルのために無視することができますが、その他の解析の役に立つかもしれません)。
- 前の手順の出力は、mapped.sam_contigs_with_no_reads.txt と呼ばれるテキスト ファイルのシーケンス名のリストは、これらの配列を fasta ファイルを抽出: [./getContig.py your_assembly.fasta mapped.sam_contigs_with_no_reads.txt]。出力は、mapped.sam_contigs_with_no_reads.txt.fasta と呼ばれるファイルになります。
5. ままシーケンス用プライマーを設計します。
注: この時点で候補者 T シーケンスを含んでいる fasta ファイルがあります。この節では、qPCR 実験 T や R の未知の地域から来るかどうかをテストするには手順 4 で減算は、すべてのシーケンスを削除されている場合は最初のアセンブリは T が含まれていないまたは、減算は厳しすぎるかもしれない。
- Geneious21を使用して、手動で最適なプライマー シーケンスを決定します。
- 21-28 bp 前方のプライマーのための候補者のシーケンスを強調表示します。任意の底の 4 以上の実行は避けてください。すべてのヒト、かなり均一に組み合わせて地域をターゲットにしようと。1 つの G または 3' 端に C が有益であるプライマーをアンカーに貢献です。
- 候補領域をハイライト表示するシーケンスの推定融解温度 (Tm) であることを表示する画面の右側にある [統計] タブをクリックします。繰り返しや G/C のロングランを避けながらの 55-60 ° C 間の溶融温度を得ることを
- 5.1.1 の手順に従います。5.1.2 逆プライマーを選択するおり 150 250 塩基対前方のプライマーの 3'。プライマーの長さは一致する必要はなく、予測の Tm 前方のプライマーの Tm に可能な限り近い必要があります。補完する順序を逆にしてください (場合はシーケンスが強調表示されている Geneious を右クリックしメニュー オプションです)。
- [シーケンス] ウィンドウ上部のツールバーにあるプライマー設計関数を使います。
- プライマー デザイン] ボタンをクリックします。[ターゲット地域を増幅する領域を挿入します。
- [特性] タブで、目的のサイズ、融解温度 (Tm) と %gc (5.1.1 の手順を参照してください)。 を挿入します。
- プライマーを生成する[ok]をクリックします。カスタム オリゴ サービスを通じてプライマーを注文します。
- Tm と延長時間を最適化するために (T と R の両方をエンコード) コントロール DNA とプライマーを検証します。通常 Taq とゲル電気泳動を使用して、バンドのサイズが、qPCR 手順 6 内のメソッドを次の最適化を実行することも。
- プライマー 10 μ M の濃度にして前方および逆のプライマーの 10 倍希釈をようにします。
- 5 の濃度を持つテンプレートあたり 25 μ L があるように dNTP の 0.5 μ L、前方のプライマーの 0.5 μ L、逆プライマーの 0.5 μ L、Taq のポリメラーゼの 0.1 μ L、テンプレート 2 μ L、マグネシウム 0.75 μ、バッファーの 2.5 μ L、水の 18.15 μ L の PCR ミックスを使用 ng/Μ L。
- PCR プログラムで異なる溶融温度でプライマーをテストします。通常、最適なパフォーマンスは予測 Tm、プライマーが、通常 60 ° C 以上を若干下回る観測湯温です。また、時の間にこのガイドを使用して最適な拡張機能のテスト: 1000 bp あたり 1 分 (したがって、私アンプリコンの長さに応じて通常 10 〜 30 秒)。
- プライマーは、予想されるシーケンスを増幅することを確認するエンドポイント ゲル電気泳動を行います。× 20 分間 200 V で 2% TAE agarose のゲルにグリセロール染料 6 の 5 μ L を混合 qPCR 製品の 25 μ L を実行します。
6 qPCR残りのシーケンスの検証。
メモ: 検証プライマーと PCR 条件ステップ 5 で確立したにこの手順が必要です。
- 次のミックスと 3 通の各テンプレートを実行します。PowerSYBR グリーン マスター ミックス 12.5 μ、10 μ M、10 μ M、水、10.5 μ、1 μ L (2 ng/μ L の濃度) のテンプレート DNA の濃度の逆プライマーの 0.5 μ L の濃度の前方のプライマーの 0.5 μ L、それぞれよく総量の 25 μ L が含まれるようにします。
- 有効温度とステップ 4 から延長時間 qPCR プログラムを実行します。設計・ 2 段サイクル、10 分初期メルト、95 ° C に対応するすべてのプライマーを検証し、95 のサイクルの 40 ° C の 30 秒と 1 分の 60 ° C。ただし、3 段 (溶融アニール-拡張) プログラムはプライマーのより最適な場合があります、必要に応じて適応する必要があります。最終的な変化曲線が少なくともプライマー、DNA の単一製品の増幅を検証する qPCR で採用されて最初の時間で生成することをお勧めします。
- メジャー qPCR/SYBR グリーン シグナル アクチン (または他の適切な 'R' コントロール) を基準にして Ct. の平均と標準偏差 2 のすべてのケースを計算する-(遺伝子 Ct - β-アクチン Ct)。
- (省略可能)QPCR で正しい製品サイズ検知を確認するエンドポイント ゲル電気泳動を行います。ここでは、× 20 分間 200 V で 2% TAE agarose のゲルにグリセロール染料 6 の 5 μ L を混合 qPCR 製品の 25 μ L を実行します。
7 します。 データをパレへの新しい参照を繰り返します。
注: ステップ 6 T から識別されたシーケンスの検証された場合、(図 2A) ここでサイクルを終了します。ただし、考慮の様々 な可能性があります、たとえば多くの R シーケンス ファイル内に保持または qPCR による候補 T 系列はどれも検証された場合にステップ 6 サイクルの継続に動機を与えます。
- 新しい参照を取得します。この手順では、サイクルの新しいイテレーションを有効にし、生ゲノム データ、生の RNA シーケンス データ、または他の組み立てられたデータセットに含めることができます。参照データの貴重な資源にはバイオ テクノロジー情報 (https://www.ncbi.nlm.nih.gov/genome) を格納する組み立て FTP (ftp://ftp.ncbi.nlm.nih.gov/genomes/) を通じてアクセスできるゲノム センターでゲノム データベースが含まれて遺伝子発現オムニバス (https://www.ncbi.nlm.nih.gov/geo/) 生次世代シーケンスを読み込む場所が格納されます。ゲノム プロジェクトは他のプロジェクトに関連付けられた web サイトやデータベースを使用しての塩基配列データにあります。
Subscription Required. Please recommend JoVE to your librarian.
Representative Results
ブラストを実行した後、出力ファイルは、データベースに一致するクエリのシーケンスの一覧が。Python 減算後一致しないシーケンスの数を得、・ qPCR によってテストされます。この結果と次の手順を以下に示します。
負の結果。リファレンス ・ シーケンスに爆発後見ることができる 2 つの可能な否定的な結果があります。爆発の結果、合計シーケンスが参照する任意の類似シーケンスがないことを意味はないかもしれません。これはシーケンス サンプルの右参照シーケンスを選択する際にエラーがあります。別の可能性は (すべては離れて引かれて) 開始のアセンブリには一意のシーケンスがない、従って興味のシーケンスのない遺伝子が見つかった。参照がどこから来たかを確認し、クエリ アセンブリとして同じ組織でないことを確認します。
計算フィルタ リング後 qPCR の否定的な結果をもたらす可能性があります、例を参照してください図 3A、3 b、Cである検出の違い鳥組織間で。C パネル A は、異なる減算サイクル、独創力のある減法サイクル イテレーションと法 (図 2、2 b) の開発から代表的な遺伝子です。
肯定的な結果。肯定的な結果 ― ― 真のターゲット シーケンスの識別が確認できましたらゲノム DNA qPCR 組織で統計的に大きい検出を示しています/(図 3D) 基準金利のサンプル。減法のプロジェクトはこの場合各セックスから 1000 万読み取りペアを取得男性と女性の大人ゼブラ フィンチの生殖組織からの RNA シーケンスを開始しました。簡潔にするため、167,929 の転写産物がde novoアセンブリによって得られた卵巣のシーケンスのみの処理について述べる.減法ゲノミクス メソッド (BLASTn) は、成績証明書の多くは非翻訳だったことを示す、598 のユニークなタンパク質に対応する 5,060 成績証明書を左公開された体細胞ゲノム12に一致するシーケンスを除去するために使用されました。アセンブリの生成に使用される raw 読み取りサンガーそれから使用された減算の次のレベルの tBLASTn、によって 78 蛋白質を降伏します。8 タンパク質を左聴覚小葉13から RNA シーケンスの raw を使用して最終的な減算を行った 1 つを読み取ります。これらのタンパク質は、NCBI nr 爆発を介して実行されたときいたウイルス蛋白質の六つ、一、鳥に反復領域、最後でしたが生殖制限7 (図 2B) α スナップ。この過程で、全ゲノムの注釈に以前含まれていない 935 の体細胞遺伝子を同定しました。いくつかは、(図 3A、3 b、3 C) 組織間で均一 qPCR 増幅を示した。Α-スナップ遺伝子は生殖細胞の精巣 DNA アクチン (図 3D) と同等のレベルで存在していたそれを基準にして体細胞組織のそれが減ったので、qPCR の使用を制限する検証されました。
何が間違って行くことができます。適切なリファレンス ・ シーケンスを使用することを保証する、このメソッドを使用して際に克服しなければならない主な問題。最高のリファレンス ・ シーケンスは、広い意味で、(T) の興味のシーケンスが埋め込まれているゲノムの複雑性をカプセル化します。これは別の形でシーケンスを意味します。トランスクリプトーム、アセンブリ、生データ、または複数の研究からのデータは、(図 1) の参照として使用する必要があります。キンカチョウにおける RNA シーケンス データからプライマーを開発しました。ただし、プライマーにはそれら間または DNA のプライマー結合部位内でイントロンの存在が原因が常に動作しませんでした。ターゲット (T) と参照 (R)、それに適切な肯定的な制御の両方を符号化する DNA の精巣からゲノム DNA を PCR によって各プライマーをテストしました。この段階で失敗をプライマー設計と適切なセットが特定されるまで新しいプライマーの試験が必要です。PCR 法の標準的な落とし穴を適用: 増幅特異性がテストにより確認増幅条件を最適化する必要がありますおよび/またはすべての実験でクローン作成、および no テンプレート コントロールを含める必要があります。QPCR の試金の詳細については、22を参照してください。
図 1.減法混色のアプローチは繰り返し合計ゲノム情報から興味 (T) のターゲット シーケンスのみを回復する (R) の複数の参照を削除できます。個々 のプロジェクトの参照シーケンスは、正確にこの方法では重なって、図に示されていないデータセットを含めることができます。この図の拡大版を表示するのにはここをクリックしてください。
図 2。映像化。(A) 減法サイクルの模式図。サイクルは、最高の結果を得るため、別の参照シーケンスを利用するたびに必要な回数だけ反復することができます。(B) の手順の減法のサイクルの例がビーダーマンらで実施7A のように番号付きの手順と各段階で示されている残りのシーケンスの数。この図の拡大版を表示するのにはここをクリックしてください。
図 3.QPCR を正と負の結果を含む結果のデータの例です。(A) ゲノム DNA qPCR CHD8、否定的な結果の。(B) ゲノム DNA qPCR DNMT1、否定的な結果の。(C) ゲノム DNA qPCR CHD7、否定的な結果の。(D) ゲノム DNA qPCR の NAPAG、精巣のサンプルそして肝臓とアクチン、肯定的な結果を基準にして卵巣から枯渇の具体的存在を確認します。すべてのパネルは、3 つの測定の標準偏差 ± 平均を示しています。この図の拡大版を表示するのにはここをクリックしてください。
Subscription Required. Please recommend JoVE to your librarian.
Discussion
減法ゲノミクスは強力なクッキー カッターのアプローチは、いくつかのキーの手順、および参照シーケンスとテスト サンプルの慎重な選択でカスタマイズすることではありません。クエリ アセンブリは、質の悪いは、フィルター処理の手順は、アセンブリのアイテムを分離する可能性がありますのみ。したがって、特定のプロジェクトを適切な検証プロトコルを使用してde novoアセンブリを徹底的に検証することが重要です。RNA シーケンス ガイドラインは、三位一体のウェブサイト18との DNA、REAPR23を使用できるようなツールを提供しています。もう一つの重要なステップ ブラストを使用する場合は、適切な e 値、リラックス感や厳しい減算されるかどうかを決定するの選択です。ただし、反転は、メソッドで発生します: 参照するより厳しい試合は実際により少なく厳しい減算、非整合シーケンスは引かれない。したがってより厳格な減算の爆発でより大きい (低く) e 値を使用する必要があります。プロトコルの最後の重要なステップは、参照の選択です。最大効率の参照は可能な限り完全なする必要があります。ただし、それが完璧かどうか残りのシーケンスから T または R、および多くのフィルター処理が必要かどうかを確認する qPCR のテストは不要します。プロトコルの実装時に新しい参照の遺伝子をさらに絞り込むに検証するために使用可能性があります。我々 は、時々 一致するメソッドを変更可能性があります注意してください: 最後の減法ステップ アルゴリズム BWA raw 読み取りクエリ シーケンスにマップするために使用し、カスタムの python を使用スクリプトとクエリ シーケンスを識別する一致を読まない (図 2B)。
このメソッドの制限には参照シーケンスの可用性が含まれます。たとえば、マイヤーら新しい人類; のミトコンドリアのゲノムを評価彼らは人間を使用し、Denisovan プローブのミトコンドリア DNA 塩基配列され人間参照24にマップをキャプチャします。この場合、研究者でしたが減算に対してミトコンドリアのゲノムを取得する読み取りマッピングの代替戦略24を施行した既存の核ゲノムの参照データがありませんでした。人間のミトコンドリア基準新規ミトコンドリアの任意の広く分岐された領域は、読み取りマッピングによって失われます。減法ゲノミクスは読み取りマッピングがない、常に研究の質問に応じて該当する古代 DNA の低レベルがde novoアセンブリ (に必要なシーケンス カバレッジの種類を排除するこの場合よりも少ないバイアス アプローチを提供していますステップ減法ゲノムの 1)。
物理浄化は、減法のゲノミクスの別の代替方法を提供します。これらの核ゲノムは核ゲノム25,26,27,28よりはるかに小さいので、シーケンス全体の葉緑体とミトコンドリアのゲノム DNA または RNA の精製がよく使用されます。人間とその他小さいミトコンドリアゲノムは浄化25続く 2 つのプライマー セットを使用して増幅することによるシーケンス処理用分離できます。ただし、減法ゲノミクスはミトコンドリアゲノムが異常に大きい、プライマー結合部位が発散、全ゲノムにはなりません場合に役に立つかもしれません。これの例は線形ミトコンドリアゲノム29繊毛虫は、大規模な分岐があるのです。参照ゲノムへのマッピング オプションではありません実行可能な高発散による繊毛虫の種および同族体の欠如並べ30であっても。減法のゲノムを用いた繊毛虫のミトコンドリアのゲノムを分離およびゲノムの欠落しているセグメントの可能性を最小限に抑えながら分析できます。同様に、 de novoアセンブリ アプローチは、シトカ スプルースの葉緑体ゲノムのアセンブリで使用されていた、ギャップ閉鎖関係比較はこれらのサイトの31で潜在的偏りトウヒの白に対してマッピングを読みます。
プロジェクトによって減法ゲノミクス可能性があります時間を提供し、検出プロセスで以下のバイアスを提供しながら、浄化、またはマッピングのアプローチと比較して利点の費用。いくつかの状況でターゲット シーケンスすることはできません簡単に分離完全に知られているではないため細胞 (ミトコンドリア)、生存に不可欠なまたは標準的なゲル電気泳動による分離には大きすぎます。サイズ ベースの電気泳動の浄化は遅く、複数の試みを条件を最適化しながら重要な開始材料 (高価になることがあります) が必要です。パルス フィールド電気泳動 (PFGE) 107 bp (10 Mb) までの DNA のフラグメントの分離が材料、および市販32ではない時々 専門にされた装置の大容量、2-3 日を取る。ビーダーマンら、生殖制限染色体から知られていた唯一のシーケンスは非翻訳のリピート7.この染色体は最大 100 Mb を超える長さ10鳥の浄化ででしょう。したがって、減法のゲノムは他の方法がないことを行うことができます。ゲノム時代のそれは多くの場合安いと今、シーケンスし、後でコンピューターでフィルター処理が高速です。完全に新規シーケンスの発見を有効にする、減法ゲノムの完全な参照シーケンスがなくて新規シーケンスを分離するアプローチの組み合わせを利用しています。
Subscription Required. Please recommend JoVE to your librarian.
Disclosures
著者が明らかに何もありません。
Acknowledgments
著者は、さまざまな段階でキンカチョウ ゲノミクス プロジェクト援助のミシェル ビーダーマン、アリッサ ペダーセン、コリン J. サルダーニャを認めます。我々 はまたコンピューティング クラスターのシステム管理と NIH グラント 1K22CA184297 (J.R.B.) に、NIH NS 042767 (C.J.S) のエフゲニー ・ Bisk を認めます。
Materials
Name | Company | Catalog Number | Comments |
Accustart II Taq DNA Polymerase | Quanta Bio | 95141 | |
Blasic Local Alignment Search Tool (BLAST) | https://github.com/trinityrnaseq/trinityrnaseq/wiki/Transcriptome-Assembly-Quality-Assessment | ||
Bowtie 2 | https://www.python.org/download/releases/2.7/ | ||
BWA-MEM v. 0.7.12 | https://github.com/BenLangmead/bowtie2 | ||
Geneious | https://blast.ncbi.nlm.nih.gov/Blast.cgi | ||
PEAR v. 0.9.6 | http://www.mybiosoftware.com/reptile-1-1-short-read-error-correction.html | ||
Personal Computer | Biomatters | http://www.geneious.com/ | |
PowerSYBR qPCR mix | ThermoFisher | 4367659 | |
Python v. 2.7 | https://sco.h-its.org/exelixis/web/software/pear/ | ||
Reptile v.1.1 | https://alurulab.cc.gatech.edu/reptile | ||
Stratagene Mx3005P | Agilent Technologies | 401456 | |
TransDecoder v. 3.0.1 | https://sourceforge.net/projects/bio-bwa/files/ | ||
Trinity v. 2.4.0 | https://github.com/TransDecoder/TransDecoder/wiki |
References
- Barh, D., et al. A Novel Comparative Genomics Analysis for Common Drug and Vaccine Targets in Corynebacterium pseudotuberculosis and other CMN Group of Human Pathogens. Chemical Biology & Drug Design. 78 (1), 73-84 (2011).
- Sarangi, A. N., Aggarwal, R., Rahman, Q., Trivedi, N. Subtractive Genomics Approach for in Silico Identification and Characterization of Novel Drug Targets in Neisseria Meningitides Serogroup B. Journal of Computer Science & Systems Biology. 2 (5), (2009).
- Kaur, N., et al. Identification of Druggable Targets for Acinetobacter baumannii Via Subtractive Genomics and Plausible Inhibitors for MurA and MurB. Applied Biochemistry and Biotechnology. 171 (2), 417-436 (2013).
- Rathi, B., Sarangi, A. N., Trivedi, N. Genome subtraction for novel target definition in Salmonella typhi. Bioinformation. 4 (4), 143-150 (2009).
- Epstein, J. H., et al. Identification of GBV-D, a Novel GB-like Flavivirus from Old World Frugivorous Bats (Pteropus giganteus) in Bangladesh. PLoS Pathogens. 6 (7), (2010).
- Kapoor, A., et al. Identification of Rodent Homologs of Hepatitis C Virus and Pegiviruses. MBio. 4 (2), (2013).
- Biederman, M. K., et al. Discovery of the First Germline-Restricted Gene by Subtractive Transcriptomic Analysis in the Zebra Finch, Taeniopygia guttata. Current Biology. 28 (10), 1620-1627 (2018).
- Readhead, B., et al. Multiscale Analysis of Independent Alzheimer's Cohorts Finds Disruption of Molecular, Genetic, and Clinical Networks by Human Herpesvirus. Neuron. 99, 1-19 (2018).
- Carroll, D., et al. The global virome project. Science. 359 (6378), 872-874 (2016).
- Pigozzi, M. I., Solari, A. J. Germ cell restriction and regular transmission of an accessory chromosome that mimics a sex body in the zebra finch. Taeniopygia guttata. Chromosome Research. 6, 105-113 (1998).
- Itoh, Y., Kampf, K., Pigozzi, M. I., Arnold, A. P. Molecular cloning and characterization of the germline-restricted chromosome sequence in the zebra finch. Chromosoma. 118, 527-536 (2009).
- Warren, W. C., et al. The genome of a songbird. Nature. 464, 757-762 (2010).
- Balakrishnan, C. N., Lin, Y. C., London, S. E., Clayton, D. F. RNAseq transcriptome analysis of male and female zebra finch cell lines. Genomics. 100, 363-369 (2012).
- Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
- Zhang, J., Kobert, K., Flouri, T., Stamatakis, A. PEAR: a fast and accurate Illumina Paired-End reAd mergeR. Bioinformatics. 30, 614-620 (2014).
- Yang, X., Dorman, K. S., Aluru, S. Reptile: representative tiling for short read error correction. Bioinformatics. 26, 2526-2533 (2010).
- MacManes, M. D., Eisen, M. B. Improving transcriptome assembly through error correction of high-throughput sequence reads. PeerJ. 1 (113), (2013).
- Grabherr, M. G., et al. Full-length transcriptome assembly from RNA-seq data without a reference genome. Nature Biotechnology. 29, 644-652 (2011).
- Li, H. Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. arXiv. , (2013).
- Langmead, B., Salzberg, S. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9, 357-359 (2012).
- Kearse, M., et al. Geneious Basic: an integrated and extendable desktop software platform for the organization and analysis of sequence data. Bioinformatics. 28 (12), 1647-1649 (2012).
- Peirson, S. N., Butler, J. N. Quantitative polymerase chain reaction. Methods in Molecular Biology. 362, 349-362 (2007).
- Hunt, M., Kikuchi, T., Sanders, M., Newbold, C., Berriman, M., Otto, T. D. REAPR citation: REAPR: a universal tool for genome assembly evaluation. Genome Biology. 14 (5), (2013).
- Meyer, M., et al. A mitochondrial genome sequence of a hominin from Sima de los Huesos. Nature. 505 (7483), 403-406 (2013).
- Gunnarsdóttir, E. D., Li, M., Bauchet, M., Finstermeier, K., Stoneking, M. High-throughput sequencing of complete human mtDNA genomes from the Philippines. Genome Research. 21 (1), 1-11 (2010).
- King, J. L., et al. High-quality and high-throughput massively parallel sequencing of the human mitochondrial genome using the Illumina MiSeq. Forensic Science International: Genetics. 12, 128-135 (2014).
- Yao, X., et al. The First Complete Chloroplast Genome Sequences in Actinidiaceae: Genome Structure and Comparative Analysis. Plos One. 10 (6), (2015).
- Zhang, Y., et al. The Complete Chloroplast Genome Sequences of Five Epimedium Species: Lights into Phylogenetic and Taxonomic Analyses. Frontiers in Plant Science. 7, (2016).
- Swart, E. C., et al. The Oxytricha trifallax Mitochondrial Genome. Genome Biologyogy and Evolution. 4 (2), 136-154 (2011).
- Barth, D., Berendonk, T. U. The mitochondrial genome sequence of the ciliate Paramecium caudatum reveals a shift in nucleotide composition and codon usage within the genus Paramecium. BMC Genomics. 12 (1), (2011).
- Coombe, L., et al. Assembly of the Complete Sitka Spruce Chloroplast Genome Using 10X Genomics' GemCode Sequencing Data. Plos One. 11 (9), (2016).
- Herschleb, J., Ananiev, G., Schwartz, D. C. Pulsed-field gel electrophoresis. Nature Protocols. 2 (3), 677-684 (2007).