Genetics

分解されたFFPE-RNAサンプルのシーケンシングと分析の最適化

Published: June 8, 2020 doi: 10.3791/61060

Yelena Levin*¹, Keyur Talsania*^1,2, Bao Tran¹, Jyoti Shetty¹, Yongmei Zhao^1,2, Monika Mehta¹

¹NCI CCR Sequencing Facility, Frederick National Laboratory for Cancer Research, ²Advanced Biomedical and Computational Sciences, Frederick National Laboratory for Cancer Research

* These authors contributed equally

Summary

本手法はホルマリン固定パラフィン埋め込み(FFPE)RNAサンプルから得ることができる配列データの質と量を改善するステップを説明する。我々は、FFPE-RNAサンプルの品質をより正確に評価し、シーケンシングライブラリを準備し、FFPE-RNAサンプルからのデータを分析するための方法論を説明する。

Abstract

RNAシーケンシング(RNA-seq)による遺伝子発現解析により、臨床サンプルに対する独自の洞察が可能となり、さまざまな疾患の基礎や抵抗性や感受性のメカニズムを機械化的に理解する可能性があります。しかし、臨床検体における組織形態を保存する最も一般的な方法を表すFFPE組織は、遺伝子発現プロファイリング分析の最良の情報源ではありません。このようなサンプルから得られたRNAは、しばしば分解され、断片化され、化学的に修飾され、最適ではないシーケンシングライブラリにつながります。さらに、これらは、遺伝子発現解析や変異発見に信頼性がない可能性のある低品質のシーケンスデータを生成します。FFPEサンプルを最大限に活用し、低品質のサンプルから可能な限り最良のデータを得るためには、実験計画、シーケンスライブラリの準備、データ分析中に、一定の予防措置を講じる必要があります。これには、正確なサンプル品質管理(QC)、シーケンスライブラリ生成中のさまざまなステップに最適な方法の特定、および慎重なライブラリQCのための適切なメトリックの使用が含まれます。さらに、RNA-seqデータのアーチファクトを特定し、汚染や低品質の読み取り、遺伝子被覆の均一性を評価し、生物学的複製物間で遺伝子発現プロファイルの再現性を測定するためには、正しいソフトウェアツールと配列データ解析パラメータを適用することが重要です。これらのステップは非常に異質なRNAサンプルのプロファイリングのための高精度および再現性を保障できる。ここでは、サンプルQC、ライブラリ調製およびQC、シーケンシング、およびFFPE-RNA組織から得られるような低品質RNAから得られる有用なデータの量を増加させるデータ分析のための様々なステップを説明します。

Introduction

次世代シーケンシングアプローチを利用することで、さまざまな種類のサンプルから豊富な情報を収集することができました。ただし、古くて保存が不十分なサンプルは、一般的に使用されるシーケンスデータの生成方法では動作しないため、確立されたプロトコルを変更する必要が生じることが多い。FFPE^,組織は、臨床検体^1、2、3²に広く利用されてきたこのようなサンプル型を表す。¹³FFPE保存は組織形態を維持するが、FFPE組織の核酸は通常、広範囲の損傷および分解を示し、様々な障害の根底にある分子メカニズムに関する重要な洞察につながる可能性のあるゲノム情報を取り出すことを困難にする。

RNAシーケンシングによって生成される遺伝子発現データは、疾患や抵抗のメカニズムの研究に役立ち、DNA変異解析を補完することがよくあります。しかし、RNAは分解の影響を受けやすく、FFPE組織から正確な遺伝子発現データを生成することがより困難になります。さらに、シーケンシングの幅広い可用性と手頃な価格が比較的最近であるため、古い標本はRNAの完全性を維持するために必要な条件で保存されなかったことが多かった。FFPEサンプルの問題のいくつかは、パラフィンに埋め込むことによるRNAの分解、シーケンシングに必要な酵素プロセスに対する断片化または屈折性につながるRNAの化学修飾、およびポリA尾の喪失、逆転写酵素⁴のプライマーとしてのオリゴ-dTの適用性を制限する。もう一つの課題は、最適でない条件下でのFFPEサンプルの取り扱い/保存であり、組織⁵におけるRNAなどの不安定分子のさらなる分解につながる可能性がある。これは、RNAシーケンシングによる遺伝子発現解析がサンプルに対して予想されていなかった時期に収集された可能性のある古いサンプルに特に関連しています。これらのすべては、有用な配列データを生成するために利用可能な抽出されたRNAの品質と量の減少につながります。成功の可能性が低く、シーケンシングのコストが高いと相まって、多くの研究者が潜在的に有用なFFPEサンプルから遺伝子発現データを生成して分析しようとすることを妨げている。近年のいくつかの研究では、遺伝子発現解析^,^,^{2、6、7、8、9}⁶に対²するFFPE組織の使用可能性が実証されていますが、最近のサンプルの数が少ない、および/またはより最近のサンプルの場合はあります。^,⁷⁸⁹

実現可能性調査として、我々は、3つの残留組織リポジトリから得られたFFPE腫瘍組織標本から抽出されたRNAを使用して、監視、疫学、および末期結果(SEER)癌登録をRNAシーケンシングおよび遺伝子発現解析¹⁰に用いた。臨床病理ラボから調達した、高等度卵巣漿液腺癌からのFFPE組織は、RNA抽出前に様々な条件下で7〜32年保存された。ほとんどの場合、これらのブロックは、将来的に敏感な遺伝子解析を期待することなく、何年も異なる場所に保存されていたので、核酸を保存するためにあまり注意が払われていなかった。したがって、サンプルのほとんどは、細菌で汚染されたサンプルの大部分を有する、質の悪いRNAを示した。それにもかかわらず、遺伝子定量を行い、遺伝子被覆の均一性と連続性を測定し、生物学的複製物間でピアソン相関解析を行い、再現性を測定することができました。主要な遺伝子パネルのセットに基づいて、我々は研究のサンプルを癌ゲノムアトラス(TCGA)データと比較し、サンプルの約60%が同等の遺伝子発現プロファイル¹¹を有することを確認した。各種QC結果とサンプルメタデータとの相関関係に基づいて、我々は、使用可能なシーケンスデータ¹¹を生成する可能性が高いサンプルを同定するための良好な予測値を有する主要なQC指標を同定した。

ここでは、FFPE-RNAの品質評価に用いる方法論、抽出されたRNAサンプルから始まるシーケンシングライブラリの生成、シーケンシングデータのバイオインフォマティクス解析について説明します。

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. RNA量と品質評価

事前定義された基準に従ってFFPEサンプルを選択し、適切な方法(例えば、FFPE-核酸抽出キット、材料表)を用いてRNAを抽出する。
注:FFPE-RNA抽出には、非常に少ない組織で動作し、良質のRNA^12、13、14を抽出できる新しいマイクロディスセクション法を含む^、¹³^,¹⁴いくつかの異なる方法があります。
RNAの完全性を全ての段階で維持するために、細心の注意を払う必要があります。これには、RNaseフリー脱イオン水の使用、RNaseフリーのプラスチック製品の使用、およびRNase除染試薬でFFPEブロックに接触するすべての機器の洗浄が含まれます。
RNAは、取り扱い中の分解を最小限に抑えるために特に指定しない限り、常に慎重に取り扱い、氷の中に保管する必要があります。
十分な材料が利用可能な場合は、FFPEブロック内の複数の領域からRNAを抽出し、できるだけ多くのサンプルから生物学的複製を生成します。十分なRNA収率を有するサンプルの中には、抽出したRNAを2つに分割して、技術的な複製として処理します。
可能であれば、少量のサンプルをQC(すなわちQCアリコート)用抽出後に別々に収集し、RNAの分解を招く可能性のあるサンプルの繰り返し処理および凍結融解サイクルを避ける。
メーカーの指示に従ってRNA QCシステム(例えば、RNAナノチップを使用したAgilentバイオアナライザーシステム、材料表)でRNAを実行して、RNAの品質(好ましくはQCアリコートから)を確認してください。
サンプル中のRNA断片の分布を解析し(例えば、バイオアナライザ2100エキスパートソフトウェアを使用して)、DV 200および_DV100値を200nt(DV₂₀₀₎または100nt(DV₁₀₀₎より大きい断片のパーセントとして計算してサイズを計算します。₂₀₀
DV₂₀₀と DV₁₀₀の中で、特定のサンプルセットの値の広がりが大きいメトリックを特定し、そのサンプルをその無傷性の程度に応じてグループ化する場合に選択します。
注: より無傷の RNA 分子を持つサンプルセット(すなわち、DV₂₀₀値が高い、DV₂₀₀ > 40%)の全部または大部分の場合、DV₂₀₀は有用な QC メトリックになる可能性があります。しかし、より劣化したトランスクリプトを持つサンプルセット(すなわち、DV₂₀₀値が低く、DV₂₀₀ <40%)のすべてまたは大部分のサンプルセットの場合、DV₁₀₀は有用である可能性が高い。
QC メトリックに基づいて、DV 100 <_40%を持つサンプルを特定します。この程度の劣化は有用なシーケンシングデータ¹¹を生成しない可能性が高いため、このようなサンプルの処理を避けることをお勧めします。このようなサンプルの代替品が利用可能な場合、DV 100 >_50%のサンプルのみを含むように品質をチェックする必要があります。

2. シーケンシングライブラリの準備

セクション 1 で評価されたサンプルの品質に基づいて、シーケンスライブラリを生成するための適切な方法を特定します。
1. 非常に低い劣化および高いDV₂₀₀値を有するサンプルセットの場合、mRNAシーケンシング(すなわち、ポリアデニル化されたトランスクリプトの捕捉、標的化されたRNAシーケンシング(すなわち、対象となる特定の遺伝子の捕獲プローブの使用)、RNAエキソームシーケンシング(すなわち、コードトランスクリプトームのために濃縮するための捕獲プローブの使用)、または全RNAシーケンシング(すなわち、RNAの逆転写に対するランダムプライマーの使用)しかし、固定プロセスは抽出されたRNAにバイアスを導入する可能性があることに注意することが重要です。したがって、DV₂₀₀の値が高くても、キャプチャアプローチがすべての場合でうまく機能しない場合があります。
2. サンプルセットに高分解サンプル(DV₂₀₀ <30%)が含まれている場合は、分解されたサンプルに特定の領域が欠けている可能性があるため、トランスクリプトの特定の領域のキャプチャに依存しないトータルRNAライブラリ調製方法を使用しないでください。cDNAの生成にランダムプライマーを使用すると、最終的なライブラリで使用できるRNAの表現が高くなり、したがって、FFPE-RNAサンプルに適しています。
3. 分解の高いサンプルセットのリボソームRNA枯渇には、RNaseHベースの方法を使用します。これらは、rRNA特異的DNAプローブがrRNAに結合し、二本鎖分子がRNaseHによって消化され、残ったプローブがDNaseによってクリーンアップされる方法である(例えば、NEBNext rRNA枯渇キット、材料表)。これらのメソッドは、他のいくつかの方法⁸よりも劣化サンプルに適しています。
シーケンスライブラリを生成する場合は、より劣化した RNA (DV₁₀₀ < 60%) を持つサンプルに対して、より高い入力量 (可能であれば) を使用します。合理的に良い品質のRNA(DV₁₀₀ > 60%)を持つサンプルより低い入力量(FFPE RNAを用いたこのプロトコルで最も低いテストされた最小のテストは〜20 ng)でも良好な配列データを得る可能性があり、より分解されたRNA(DV₁₀₀ <60%)については、より高い入力量(例えば、>100 ng)から始める方が良い。
注: 十分なサンプル (例えば、>500 ng) サンプルが利用可能な場合は、必要に応じて、ライブラリの準備を繰り返すためにサンプルの少なくとも半分を保存することをお勧めします。低入力サンプル(例えば、<100 ng)の場合、通常は全量を使用し、十分な多様性のライブラリを生成する方が良いです。
分解の高いサンプルから RNA の全ライブラリを生成するための適切なライブラリ調製キットを選択した後 (例: NEBNext Ultra II RNA ライブラリのイルミナ準備キット、材料表を参照)、ライブラリを生成するメーカーの指示に従います。
注: ライブラリーの準備中は、分解されたサンプルの RNA 断片化ステップをスキップし、最初のストランド cDNA 合成にランダムプライマーを使用することが重要です。
効率と速度を向上させるために、特に低入力サンプルでは、ビードベースの精製およびサイズ選択手順に強力な固定磁石を備えた適切な磁気ラックを使用します(参考資料表を参照)。
アダプター連結DNAのPCR濃縮の場合、ライブラリー分子の不要な重複を避けながら、最大の表現を確保するために、入力DNAの量に基づいて増幅サイクルの数を調整します。低入力のFFPE-RNAサンプル(<100 ng)の場合、16~18回の増幅サイクルを推奨し、高入力サンプル(1,000 ng)は通常12~14ラウンドの増幅で十分なライブラリ量を生成します。
メーカーの指示に従ってPCR増幅とクリーンアップに従い、適切なプラットフォーム上でライブラリ濃度と分子分布を分析してライブラリの品質を評価します(例えば、AgilentバイオアナライザDNAチップ、材料表を参照)。プライマーピーク(約80 bp)またはアダプタダイマーピーク(約128 bp)のサンプルについては、クリーンアップを繰り返してピークを除去します。
各ライブラリの平均ライブラリサイズを計算します(たとえば、Bioanalyzer 2100 Expert ソフトウェアを使用)。

3. シーケンスライブラリ QC

ライブラリに過剰なプライマーとアダプタダイマーが含まれず、その後のシーケンシングに十分な濃度が得られたことが確認されたら、qPCR でさらに定量します。
注: ライブラリの集中に向けたクラスター生成の感度のために、コストのかかるシーケンス処理の実行がパフォーマンスの低下や過負荷を防ぐために、正確な定量化が不可欠です。定量的リアルタイム PCR (qPCR) 法は、過剰クラスタリングを行わずに、イルミナプラットフォーム上のクラスター密度を改善するのに役立ちます。qPCR法は、フローセル上にクラスタを形成する両端の両方のアダプタシーケンスを持つテンプレートを測定するため、すべてのライブラリ分子(例えば、Agilent Bioanalyzer)の定性的および/または定量的分析に基づく方法よりも正確かつ感度が高くなります。ただし、結果を標準曲線と比較できるように、ライブラリのサイズは、すべてのサンプルにサイズ補正を適用する必要があるため、事前に知っておかなければなりません。
注意: qPCR を実行する場合はラボコートと手袋を着用する必要があり、手順は、製造元の指示に従ってバイオセーフティキャビネットで実行する必要があります。
1. 適切なキットを使用して、エラー防止のための各サンプルに3つの複製を持つ96ウェルプレートを設定します(例えば、イルミナライブラリのKAPA SYBR FAST qPCRマスターミックス、ライブラリ定量化キットの一部、材料表を参照)、標準、ポジティブコントロール(例えば、PhiXコントロール、材料表を参照)、テンプレート制御なし(NTC))。NTCはDNAライブラリーなしでqPCRミックスである。陽性対照は、既知の濃度およびフラグメントサイズを有する任意のライブラリーであり得る。
  1. ベンダー・プロトコルに従って、最低 6 つの標準を準備します。
2. すべてのコンポーネント(すなわち、qPCRマスターミックス、ライブラリ、標準)を追加した後、シールフィルムでプレートを覆い、フィルムがプレートとの接触を均等かつ確実に保つためにスキージを使用します。
3. 渦と1,500 rpmでプレートを1分間回転させ、プレートを視覚的に検査して、ウェルの底に気泡がないことを確認します。
4. メーカーの推奨設定を使用して、サーマルサイクラー(例えばCFX96タッチシステム、材料表を参照)にプレートを設定します。
5. データ分析のためにアクセスできる実行フォルダーを保存します。
6. データ解析中、傾斜角が-3.1~-3.6の範囲、効率が90%から110%、R2(標準曲線に²対して得られた相関係数)が0.98以下であることを確認します。
プール: シーケンス処理可能なライブラリの qPCR 濃度が取得されると、各ライブラリのプールの等価量は、サンプルごとに必要なシーケンス読み込みの数と、計測器のシーケンス出力に応じて異なります。
プールの QC: ステップ 3.1 で説明されているのと同じプロトコルに従って、qPCR によってライブラリー・プールを再度定量化します。

4. シーケンシング

実行パラメータに応じて、シーケンス化試薬キットを引き出し、ユーザーガイドに従って解凍します。イルミナの楽器のシーケンシングについては、すべてのユーザーガイドの最新バージョンについては、イルミナのウェブサイトをご確認ください。
試薬が完全に解凍されていることを確認し、4°Cに試薬トレイを置きます。試薬が解凍された後、2時間以上実行を開始する必要があります。これを行わない場合、実行結果の品質に影響を与える可能性があります。
カートリッジ5倍を反転して試薬を混ぜ、ベンチを軽くタップして気泡を減らします。
ラップされていないフローセルパッケージを室温で30分間脇に置きます。
フローセルパッケージをアンラップし、リントフリーのアルコール拭きでフローセルのガラス表面をきれいにします。低糸くずした実験室組織でガラスを乾燥させます。
イルミナ "実験マネージャ" アプリケーションを開きます。「サンプルシートを作成」を選択し、シーケンサーを選択して「次へ」をクリックします。
イルミナシーケンサーの基準(例えば、イルミナ実験マネージャー、ソフトウェアガイド)に基づいてサンプルシートを作成してアップロードします。
プロンプトで、試薬キットのバーコードをスキャンし、実行パラメータ設定を入力します(例えば、インデックス付きPE 75サイクルの実行を1回行う場合は、76-8-76と入力してください)。
シーケンサーのユーザーガイドの推奨事項に基づいてライブラリプールを変性し、希釈します(例えば、イルミナのNextSeq 500システムガイド、資料表を参照)。
制御ライブラリーPhiX(材料表を参照)を適切な濃度(例えばNextSeqの場合は1.8pM)に変性し、希釈する。
サンプルライブラリとPhiXコントロールを混合して、1%のPhiX制御体積比を生み出します。
変性し希釈されたサンプルを、指定された貯蔵所の試薬カートリッジに荷重します。
フローセル、バッファーカートリッジ、試薬カートリッジをロードします。
自動チェックとレビューを実行して、実行パラメーターがシステム・チェックに合格することを確認します。
自動チェックが完了したら、[開始] を選択してシーケンス実行を開始します。

5. データ分析と品質評価

注: 典型的な RNA-seq データ解析ワークフロー (図 1) には、前処理と QC、ゲノムおよび後アライメント QC へのアライメント、遺伝子および転写の定量、サンプル相関分析、異なるサンプル群間の差動分析、処理条件、および遺伝子セット濃縮および経路解析が含まれます。

RNA-seq データには、遺伝子プロファイリングの精度に影響を与え、誤った結論につながる品質の問題が生じる可能性があります。したがって、初期 QC チェックの品質、汚染、シーケンシングカバレッジバイアス、およびその他のアーティファクトソースは非常に重要です。ここで説明するワークフローと同様の RNA-Seq QC パイプラインを適用して、下流分析の前にアーティファクトを検出し、フィルタリングまたは補正を適用することをお勧めします。

前処理
注: これには、デマルチプレクシング、シーケンス読み取り品質の評価、GC コンテンツ、シーケンスアダプタの存在、過剰表現されたk-mers、PCR 重複読み込みなどが含まれます。この情報は、シーケンスエラー、PCR アーティファクト、または汚染を検出するのに役立ちます。
1. サンプルシートで定義された各サンプルの生のFASTQファイルを生成するために、イルミナソフトウェアツールbcl2fastq2を使用してデマルチプレックスイルミナシーケンシングを実行します。バーコードの競合がない場合、サンプルインデックスバーコードの1つの不一致がシーケンスエラーに耐えられます。
2. FASTQC¹⁵ソフトウェアツールを実行して、生の FASTQ ファイルの品質チェックを実行して、シーケンス読み込みの品質や異常を検出します。
3. アダプタと低品質のベーストリミングの場合は、Cutadapt¹⁶またはTrimmomatic¹⁷ソフトウェアツールを使用して、シーケンスアダプタと低品質のベースをトリミングします。ペアエンドのfastqファイルにトリミングされた読み取りを保存します。
4. 汚染スクリーン
  1. 他の種との交差汚染の可能性を検出するために^{FASTQ_screen18}を実行します。
  2. Kraken2¹⁹のミニクラッケンを実行して、汚染種の分類を特定します。
ゲノムおよびポストアライメントQCを参照するアライメント
1. トリミングされた読み取り値は、STARアライナー²⁰を使用して、参照ゲノム配列(GRCh Build hg19またはhg38)に整列させることができます。Gencode アノテーション GTF ファイルを適用して、スプライスされたトランスクリプトの配置をガイドします。STAR 2-passを実行して、新しいスプライス接合部に対する感度を高めることが推奨されます。2番目のパスでは、すべての読み取りは、1回のパスからアノテナ付き遺伝子とトランスクリプトと新しいジャンクションを使用して再マッピングされます。
2. ポストアライメント QC を実行します。
  1. Picard の²¹MarkDuplicatesを実行して、サンプル内の一意または重複しない読み取りの量を決定して、ライブラリの複雑さを評価します。
  2. PicardのCollectRnaSeqMetricsプログラムを実行して、コーディング、イントロニック、インタージェニック、UTR領域、および遺伝子体のカバレッジに関するマッピングパーセンテージを収集します。
  3. RSeQC²²を実行して、読み取りペアの内部距離を決定し、CDSエキソン、5'UTR、3'UTR、イントロン、TSS_up_1kb、TSS_up_5kb、TSS_up_10kb、TES_down_1kb、TES_down_5kb、TES_down_10kb、読み取りGCコンテンツ、ジャンクション飽和、およびライブラリストランド情報の間で読み取り分布を決定します。
  4. マルチ QC²³を実行して、HTML 形式の集計レポートを生成します。
遺伝子定量・補正解析
1. RSEM²⁴を実行して、遺伝子と転写物の生のカウントと正規化された読み取り数を取得します。RPKM(100万読み当たりのエキソンモデルのキロベースあたりの読み取り)、FPKM(マッピングされた読み取り10万回当たりのエキソンモデルのキロベースあたりの断片)、TPM(100万人当たりのトランスクリプト)などの読み取りカウント測定は、最も頻繁に報告されるRNA-seq遺伝子発現値です。ノイズの閾値 (TPM < 1 または生の数 <5 など) より低い値で表現されたジーンは、フィルタリングできます。
2. HTSeq カウントや featureCounts などのプログラムを使用して、各トランスクリプトシーケンスにマップされた読み取りの生のカウントを集計するために、トランスクリプトの定量を実行します。
3. R スクリプトを使用して主成分分析(PCA) を実行し、バッチ効果を決定し、指定されたデータセット²⁵の品質マップを評価します。サンプル相関分析は、異なるメトリック間のピアソン相関を使用して行うことができる。
遺伝子発現解析
1. プログラムedgeR^26、27^および²⁷/またはlimma-Voom²⁸を使用してサンプル条件間の遺伝子差の解析を行い、TPM、TMM、DESeq、またはUpperQuartileを含む正規化方法を使用する。 TMM DESeq
2. 比較のために2つのDEGリストのセットを呼び出し、最終的なDEGを取得して検出感度と精度を向上させるために、少なくとも2つの差分解析ソフトウェアツールを実行することをお勧めします。
遺伝子セットの濃縮と経路解析
1. 遺伝子セット濃縮解析(GSEA)29,30を、差異発現遺伝子(DEGs)リストの測定値に基づく転写物の順位に基づいて行い、DEGが生物学的条件間で統計的に有意で一致する差異を示すかどうかを判断する。²⁹^,³⁰
2. 遺伝子オントロジー^31、 DAVID32 、^,³³などの利用可能なソフトウェアツールなどのリソースを使用して機能解析を実行します。³²

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

上記の方法論は、7~32年間のさまざまな条件下で保存されていた67個のFFPEサンプルに適用されました(サンプル保存時間の中央値は17.5年でした)。ここで示したデータセットと解析結果は、Zhaoら¹¹で既に説明および公開されています。先に説明したサンプル品質(例えば図2のトレース)をチェックする上で、DV₁₀₀は、高分解RNAサンプルに対する小さな断片サイズの割合を正確に測定する方が感度が高いため、DV₂₀₀よりも有用であることが判明した。

与えられたサンプルセットでは、サンプルの10%未満(67の7)は、イルミナ³⁴が推奨する_DV200カット30%を上回った。サンプルの約26%(67の19)はDV₁₀₀ > 60%(すなわち、良好なシーケンスデータを生成する可能性が高い)、40%(67の27)はDV₁₀₀の40%-60%の範囲(すなわち、良好な配列データを生成する可能性は低い)であり、約10%(67の7)は_DV100を有していた(すなわち、非常に低い配列である)67サンプルのうち14サンプルの場合、ソフトウェアはDV値を決定できませんでした。表 1は、異なる DV₁₀₀カテゴリーのサンプルの QC メトリックの要約を示しています。67サンプルの詳細なQC分析とデータ相関については、Zhaoら¹¹を参照してください。

サンプルセットの劣化の度合いが高いことを考えると、「トータルRNA」ライブラリ調製方法が選択され、配列ライブラリは、イルミナのためのNEBNext Ultra II RNAライブラリ準備キット(材料表)を用いて調製した。サンプル分解の度合いが高いにもかかわらず、シーケンシングライブラリの表現を改善するために、可能な限り可能な量のRNA(利用可能な場合は1,000 ng)をライブラリ調製用の入力として使用しました。さらに、FFPE-RNAサンプルの高分解は、分解された転写物がmRNA捕捉のためのポリAテールを有していない可能性が高いため、rRNA枯渇法を必要としていた。RNaseHを用いたハイブリダイズされた転写物の特異的プローブおよび消化へのハイブリダイゼーションによるリボソームRNAの枯渇に続いて、残りの転写物をランダムプライマーを用いてcDNAに変換した。また、低い入力サンプルから作成されたライブラリのサイズ選択も回避されました。最終ライブラリのトレース例を図 3に示します。

高分解能のFFPEサンプルは、腫瘍サンプルにおける遺伝子発現プロファイリングに大きな課題を示しています。したがって、正確なバイオインフォマティクス解析方法とソフトウェアツールを適用することは、遺伝子定量の高精度と再現性を確保するために、データセット内のアーティファクトや異常を検出するために重要です。このスタディで使用するソフトウェアツールは、補足表に記載されています。指定されたサンプルセットでは、シーケンスとライブラリの品質評価を行い、いくつかのメトリックの例を図4に示します。raw fastq ファイルのシーケンス品質とサンプル・アダプターの内容の概要を、それぞれ図 4Aおよび図 4Bに示します。Fastqc スクリーンは、図 4Cに示すように、サンプル内の細菌やマウスの汚染などの汚染を検出するのに役立ちます。指定されたサンプルセットでは、67サンプルのうち41サンプルが5%~48%の細菌汚染を有し、6つのサンプルが4%~11%のマウス汚染を有していた(図4C)。STARアライメント結果(図4D)は、参照ゲノムにマッピングされた読み取りの割合、参照ゲノムに一意にマッピングされた読み取りの割合、および複数の遺伝子座にマッピングまたはマッピングされなかった読み取りの割合を示した。ピカール CollectRNAStatistics は、アライメントファイルに存在する mRNA、イントロニック、および新生間ベースのパーセントを決定するために使用されました (図 4E)。遺伝子と転写物の読み取りカバレッジの均一性を評価するために、Picardソフトウェアツールを使用して、5′UTRから3 UTRにスケールされたすべての遺伝子の各ヌクレオチド位置をカバーする読み取りの割合を測定する遺伝子体のカバレッジプロットを生成しました。図4Fは、一部の劣化したライブラリには3'バイアスがあり、5'の終わりよりも3'の終わりに近い読み取り値がマッピングされていることを示しています。

FFPEサンプルは通常、サンプルの保存、RNA抽出、またはサンプル処理中の可変分解のために生じる可能性のある遺伝子発現プロファイルに大きなばらつきがあります。適切な統計的手法を使用して、基礎となるパターンを明らかにし、サンプル間の変動と相関を測定することが重要です。67個のFFPEサンプルのサブセットから6組の生物学的複製に主成分分析(PCA)を適用した。PCAプロットは、総変動の26%が第1主成分によって捕捉され、第2および第3の成分から19%が結合されたことを示した(図5)。反復の6組のうち、反復ペア間の遺伝子発現値を比較する場合、2組の反復は、最後の4つのサンプル(0.7~0.8の相関値)よりも変動が高く(相関値は0.22未満)でした。複製は同じFFPEブロックから切り取られた2つの異なる組織カールからRNAを抽出することによって生成されたため、組織年齢はここでより高い分散の要因ではなく、細菌汚染の異なる量(1%-55%)によって引き起こされた可能性が高い複製の間の異なったmRNAの内容(2-3の折り目の相違)と同様に。抽出後のmRNA分解のランダム性は、同様の起源のサンプル間のより高い分散にも寄与する可能性がある。

図 1: RNaseq 解析ワークフローフローチャートでは、前処理、品質評価、参照へのマッピング、遺伝子定量、および異なるサンプル群間の差分分析の分析手順について説明します。この図の大きなバージョンを表示するには、ここをクリックしてください。

図2:6種類のFFPE-RNAサンプルのバイオアナクセナトレース例。横軸は分子量(bp)と蛍光単位(FU)を示し、縦軸は異なるサイズの断片の濃度を示す。RNAインテグリティ・ナンバー(RIN)、DV₂₀₀₍すなわち、フラグメントのパーセント>200 bp)、DV₁₀₀₍すなわち、断片のパーセント>100 bp)値が各プロファイルに示されます。各プロファイルの25bpピークは、分子量マーカーを示す。この図の大きなバージョンを表示するには、ここをクリックしてください。

図3:4つの異なるサンプルから作成された最終ライブラリのバイオアナライザートレース例横軸は、縦軸上の分子量(bp)および蛍光単位(FU)を示し、異なるサイズの断片の濃度を示す。下(35 bpまたは50 bp)と上(10,380 bp)マーカーピークは、それぞれ緑色と紫色で標識されています。この図の大きなバージョンを表示するには、ここをクリックしてください。

図4: QC 結果を前処理するためのマルチ QC レポートの例(A) 各サンプルのシーケンス読み取りのすべての Q30 ベースの割合を示す折れ線グラフ。(B) 未処理の fastq ファイル内のシーケンスアダプターの内容。(C)汚染画面は、密接に一致した種をチェックします。(D) ゲノムマッピング統計(E) Gencode遺伝子アノテーションに基づく読み取り分布。(F)遺伝子本体/トランスクリプトカバレッジこの図の大きなバージョンを表示するには、ここをクリックしてください。

図5:サンプルグループのコンコーダンスを示すPCA分析例。生物学的複製のためのPCA分析。最初の 2 つの主成分に対する投影を使用して、サンプルを 2 次元でプロットした PCA プロット。生物学的複製は同じ色で示される。この図の大きなバージョンを表示するには、ここをクリックしてください。

	サンプル数	lib 準備のための中央値入力 (ng)	リンの中央値	中央値 DV₂₀₀	中央値 DV₁₀₀	Lib サイズの中央値 (bp)	中央リブ利回り (ng)	中央リブモルリティ (nM)	標本の貯蔵時間の中央値(年)	汚染の中央値 %	中央値遺伝子数
DV100 <40%	7	237.6	2.5	6	34	445	24.5	7	22	27.4	14,759
DV100 40-60%	27	1000	2.5	12	51	408	19.8	5.9	18	9.9	10,202
DV100 >60%	19	1000	2.3	26	73	355	84.9	24	13	3.2	9,993

表 1: サンプル・セット QC メトリックの要約。表は、サンプルのQCメトリックを、DV₁₀₀の値に従ってグループ化して示しています。各グループのサンプル数が表示され、各メトリックの中央値が表示されます。

補足表: 解析ソフトウェアツール、パラメータ、ソフトウェアリファレンスRNA-seq 解析の各ステップで使用される解析ソフトウェアツールとパラメータを示します。ソフトウェアツールの参照は、表に示されています。こちらの表をダウンロードしてください。

Subscription Required. Please recommend JoVE to your librarian.

Discussion

ここで説明する方法は、FFPE-RNAサンプルから良好な配列データを得るために必要な主なステップを概説する。この方法で考慮すべき主なポイントは、(1)サンプルの取り扱いおよび凍結および解凍のサイクルを最小限に抑えることによって、抽出後にRNAを可能な限り保存することを確認することです。別々のQCアリコートは非常に便利です。(2) 所定のサンプル・セットに最適な QC メトリックを使用します。RIN 値および DV₂₀₀は、劣化サンプルの場合には役に立たないことが多く、DV₁₀₀は所定のサンプルセットの品質を評価するメトリックとなる場合があります。(3) より劣化したサンプルの場合は、高いサンプル入力を使用するのが最適です。入力量が高いほど、最終的なライブラリの多様性が向上し、重複が少なくなり、データ品質が向上します。酵素プロセスに対する高い分解および屈折性のためにFFPE-RNAサンプルのすべてのRNAが使用できるわけではないため、これらの効果は新鮮な凍結RNAと比較してFFPE-RNAでより顕著です。(4) オリゴdTまたは特定の配列をプライマーとして使用するのとは対照的に、逆転写ステップにランダムプライミングを使用する。特定のプローブのセットが関心のあるすべての転写物に対してできるだけ多くのシーケンスをカバーできない限り、ランダムプライマーは、最大数のトランスクリプト(またはその断片)をcDNAに変換することを確実にするための安全な賭けです。したがって、トータルRNAライブラリの準備方法は、ポリAテールの存在に依存するmRNA法よりも分解されたサンプルに対してより有用である。(5) 定量的リアルタイム PCR (qPCR) によるライブラリの正確な定量は、シーケンサーのパフォーマンス低下や過負荷を避けるために重要です。(6) 標準的なポストシーケンシング RNA-Seq QC プロトコルの一部として RNA の潜在的な汚染を評価します。細菌汚染およびゲノムDNA汚染は、貯蔵条件およびサンプル調製手順によるFFPEサンプルに共通する。外来種で汚染されたサンプルは、汚染の程度に応じてシーケンシングカバレッジを無駄にする可能性があります。さらに、不完全な rRNA の枯渇によって内部汚染が発生し、rRNA への読み取りマッピングの割合が高くなります。DNase消化中の非効率的なゲノムDNA除去は、転写産物の偽陽性発現検出または転写物の誤ったデノボ集合体につながる可能性がある。ライブラリの準備中に導入されるアダプターの汚染は、非常に短い RNA フラグメントを持つ高分解 RNA の共通の問題でもあります。汚染は遺伝子と転写物のプロファイリングの精度に影響を与え、誤検出につながる可能性があります。そのため、データ処理工程中に汚染源を正確に特定し、可能であれば、サンプルまたはライブラリの準備工程中に汚染を除去するか、汚染読み取りをフィルタリングすることが重要です。(7) 前処理および後アライメント品質管理は、品質の悪さやmRNA含有量の低いサンプルを検出するために重要です。これらのサンプルは、さらなる分析から排除する必要があります。低い遺伝子数を生成するサンプルからの遺伝子発現データは、貧弱な被覆率を注意して使用する必要があります。(8)データの再現性を確保するために、サンプルの分散と相関を測定するために生物学的複製を含めるのが良い習慣です。

FFPEサンプルは、多数の疾患に対する非常に貴重な資源を表す。このようなサンプルから信頼できる配列情報を得る能力は、様々な障害、抵抗性、感受性の背後にある分子メカニズムを理解することを目的とした多くの研究に役立ちます。このようなサンプルから抽出されるRNAの頻繁に最適でない品質によって課せられる限界は、そのような努力を妨げるが、ここで説明するステップは、これらの制限をある程度緩和し、信頼できる遺伝子発現情報を得るためにFFPE-RNAを最大限に活用するのに役立ちます。

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

この研究は、国立がん研究所(NCI)、国立衛生研究所(NIH)によって資金提供されました。レイドスバイオメディカルリサーチ社は、NIHが全額出資するフレデリック国立がん研究研究所の運営および技術サポート請負業者です。いくつかの著者(YZ、MM、KT、YL、JS、BT)はレイドスバイオメディカルリサーチ社と提携していますが、著者の給与や研究資料を含む国立がん研究所から全額出資されています。Leidosバイオメディカルリサーチ社は、著者(YZ、MM、KT、YL、JS、BT)または研究のための材料に給与を提供しておらず、研究の設計、データ収集、分析、出版の決定、または原稿の準備に何の役割も持っていませんでした。

Acknowledgments

ダニエル・キャリック博士(国立がん研究所がん対策人口科学部門)は、特にこの研究を始め、サンプルを提供し、データ分析中に役立つ提案をしてくれたことに感謝しています。フレデリック国立がん研究研究所のCCRシーケンシング施設のメンバー全員が、サンプル調製とシーケンシング中の支援、特にサンプルQC、オクサナドイツ語の図書館QC、テクサイダーを運営するためのタチアナ・スミルノワの支援に心から感謝します。また、シーケンシング・ファシリティ・バイオインフォマティクス・グループのツァイ・ウェイ・シェンとアシュリー・ウォルトンが、データ分析とRNA-seqパイプラインの実装を支援してくれたことに感謝します。また、RNaseq分析パイプラインおよびベストプラクティス開発に関する支援に対するCCBRおよびNCBRに感謝します。

Materials

Name	Company	Catalog Number	Comments
2100 Bioanalyzer	Agilent	G2939BA
Agilent DNA 7500 Kit	Agilent	5067-1506
Agilent High Sensitivity DNA Kit	Agilent	5067-4626
Agilent RNA 6000 Nano Kit	Agilent	5067-1511
AllPrep DNA/RNA FFPE Kit	Qiagen	80234
CFX96 Touch System	Bio-Rad	1855195
Library Quantification kit v2-Illumina	KapaBiosystems	KK4824
NEBNext Ultra II Directional RNA Library Prep Kit for Illumina	New England Biolabs	E7765S	https://www.neb.com/protocols/2017/02/07/protocol-for-use-with-ffpe-rna-nebnext-rrna-depletion-kit
NEBNext rRNA Depletion Kit (Human/Mouse/Rat)	New England Biolabs	E6310L
NextSeq 500 Sequencing System	Illumina	SY-415-1001	NextSeq 500 System guide: https://support.illumina.com/content/dam/illumina-support/documents/documentation/system_documentation/nextseq/nextseq-500-system-guide-15046563-06.pdf
NextSeq PhiX Control Kit	Illumina	FC-110-3002
NSQ 500/550 Hi Output KT v2.5 (150 CYS)	Illumina	20024907
10X Genomics Magnetic Separator	10X Genomics	120250
Rotator Multimixer	VWR	13916-822
C1000 Touch Thermal Cycler	Bio-Rad	1851197
Sequencing reagent kit	Illumina	20024907
Flow cell package	Illumina	20024907
Buffer cartridge and the reagent cartridge	Illumina	20024907
Sodium hydroxide solution (0.2N)	Millipore Sigma	SX0607D-6
TRIS-HCL Buffer 1.0M, pH 7.0	Fisher Scientific	50-151-871