Abstract
このワークフローにより、初心者の研究者は、クラウドコンピューティングのような高度な計算リソースを活用してペアごとに比較するトランスクリプトミックスを実行できます。また、生物学者が、データ科学者の計算能力を開発するためのプライマーとしても役立ちます。 例えば、 bashコマンドの実行、大きなデータセットの視覚化と管理などです。すべてのコマンドラインコードと各コマンドまたはステップの詳細については、wiki( https://wiki.cyverse.org/wiki/x/dgGtAQ )を参照してください。 Discovery EnvironmentとAtmosphereプラットフォームは、CyVerse Data Storeを介して接続されています。このように、最初の生シーケンシングデータがアップロードされると、大規模なデータファイルをインターネット接続経由で転送する必要がなくなり、解析に必要な時間が最小限に抑えられます。このプロトコルは、2つの実験的な処理または条件のみを分析するように設計されている。示差的遺伝子発現解析を行うペアワイズの比較は難しく、複数の要因をテストするのには適していません。このワークフローは、自動化ではなく手動で行うようにも設計されています。各ステップを実行し、ユーザーが調査し、データと分析結果をよりよく理解し、ユーザーにとってより良い結果をもたらす必要があります。完了すると、このプロトコールは、以前に構築された参照ゲノム(通常、不十分な生物では利用不可能である)にマップする必要なく、不十分な(モデルではない)生物のための新たに組み立てられたトランスクリプトームを生じる。これらの新規トランスクリプトームは、2つの実験条件の間で異なる遺伝子を調査するために対の示差的遺伝子発現分析にさらに使用される。次に、示差的に発現された遺伝子は、生物が実験条件に有する遺伝的応答を理解するために、機能的に注釈を付けられる。全体として、このプロトコルから得られたデータは、不十分な生物の生物学的応答に関する仮説を試験するために使用される。
Introduction
ホモ・サピエンスやショウジョウバエmelanogaster 、 Mus musculus 、 Danio rerioなどのいくつかの重要なモデル動物種は、現在および過去の機能的なゲノミクス研究の大部分を占めています。しかしながら、ハイスループットシークエンシング技術の急速に低下するコストは、非モデル動物( 「無視された」または「不十分」 とも呼ばれる )動物種において機能的ゲノミクスの機会を提供している1 。これは、非モデル生物が経済的に関連性の高い種( 例えば、カキ、エビ、カニ)を頻繁に代表し、モデル種の範囲外の新規表現型および生物学的システムを調査する機会を提供するため、ゲノミクスにおける重要な移行である。
不十分な生物は独特の生物学的システムを調査する魅力的な機会を提供するが、特にバイオインフォマティクス分析の際に研究者に直面するいくつかの課題がある。いくつかの大規模なデータセットを処理するには生得的である一方、参照ゲノム、生物特有のオントロジーなどの不十分な生物で働く研究者が利用できる遺伝資源の不足に起因する課題があります。データ分析と比較して、バイオインフォマティクス分析は、一般に、プロジェクトのシーケンシングの最も過小評価されるコストであることが判明している2 。例えば、基本的な次世代シークエンシング・バイオインフォマティクス分析は、品質のフィルタリングと生シーケンシング・リードのトリミング、より長い連続断片への短い読み取りの組み立て、および/または生物学的理解を得るための注釈および/または他のシステムとの比較からなる。一見シンプルですが、このワークフローの例では、ラボベンチのコンピュータの範囲を超えた専門知識と計算リソースが必要です。モデル生物。
先進的な課題は、インフラストラクチャまたは知識ベースになる可能性があります。古典的なインフラストラクチャの課題は、適切な計算リソースへのアクセスです。たとえば、アセンブリや注釈は、大量のRAM(256 GB-1 TB)と複数のプロセッサ/コアを実行する強力なコンピュータまたはコンピュータクラスタを必要とする計算集約型アルゴリズムに依存しています。残念なことに、多くの研究者は、そのようなコンピューティングリソースへのアクセス権を持たないか、これらのシステムと対話するために必要な知識を持っていません。他の研究者は、大学や機関を通じてハイパフォーマンスコンピューティングクラスターにアクセスできるかもしれませんが、これらのリソースへのアクセスには限界があり、時には計算時間当たりの料金が発生します。 つまり 、CPUプロセッサーの数にリアルタイム "クロックそれらのプロセッサが稼動している時間数を示します。米国国立科学財団が資金を提供するサイバーインフラシステムの活用米国および世界各地の研究者のコンピューティングリソースに自由にアクセスできるCyVerse 3として、ここに示すように、インフラストラクチャの課題を緩和するのに役立ちます。
典型的な知識ベースの課題の例は、完全な分析に必要なソフトウェアを理解することです。シークエンシングベースのプロジェクトを効果的に実施するためには、研究者はバイオインフォマティクス分析のために開発された無数のソフトウェアツールに精通している必要があります。各パッケージを学習すること自体は難しいですが、パッケージが常にアップグレードされ、再リリースされ、新しいワークフローに組み込まれ、新しいライセンスでの使用が制限されるという事実によって悪化します。さらに、これらのツールの入力と出力をリンクするには、ワークフローに別のツールを追加してデータ型を互換性を持たせるために変換する必要があることがあります。最後に、どのソフトウェアパッケージが '分析のための最良のものであり、特定の実験条件のための最良のソフトウェアを頻繁に特定することは微妙な違いの問題である。場合によっては、ソフトウェアの有用なレビューが利用可能ですが、新しいアップデートやソフトウェアオプションの継続的なリリースにより、これらは急速に古くなっています。
不十分な生物を調査している研究者のために、これらの先天的な課題は、新しい生物のデータを分析することに伴う課題に加えて起こります。これらの不十分な生物特有の課題は、遺伝子アノテーション中に最もよく説明されています。例えば、不十分な生物は、遺伝子のオルソロジーおよび機能( 例えば、海洋無脊椎動物およびショウジョウバエ )を同定するために合理的に使用され得る密接に関連したモデル生物をしばしば有さない。多くのバイオインフォマティクスツールはまた、遺伝子機能を同定するために使用することができる構造モチーフを同定するための「訓練」を必要とする。ただし、トレーニングデータは通常、mod(HMM)の訓練は、生物学者、さらには多くの生物情報学者の範囲外である。最後に、たとえモデル生物からのデータを用いて注釈を実行することができたとしても、モデル生物に関連するいくつかの遺伝子オントロジーは、生物学や不十分な生物の自然史を考慮すると意味をなさない( 例えば ショウジョウバエからエビに情報を移す )。
これらの課題に照らして、研究者が特に不安定な生物についてデノボ分析を行うことで、バイオインフォマティクスのリソースを開発する必要があります。今後数年の機能的なゲノミクス配列決定プロジェクトは、モデルと不十分な生物( https://genome10k.soe.ucsc.edu/ )の間のギャップを埋めるのに役立ちますが、課題に対処するために開発する必要がある多くのツールがあります上記で考慮される。 CyVerseは私の生態系の創造に専念していますデータ管理、バイオインフォマティクス分析ツール、およびデータ視覚化をライフサイエンスに提供するために、既存のサイバーインフラストラクチャとサードパーティのアプリケーションを結びつけることによって、ネタオペレーション性を実現します。相互運用性は、スケーラブルなコンピューティングリソースを提供し、ファイル形式の変換とプラットフォーム間で転送されるデータの量を制限することで、バイオインフォマティクスアプリケーションとプラットフォーム間の移行を円滑にします。 CyVerseはDiscovery Environment(DE 4 、Atmosphere 5 、Data Store 3)を含むいくつかのプラットフォームを提供しています.DEはWebベースで、多くの一般的なバイオインフォマティクス分析ツールが使いやすいポイントアンドクリック形式")は、大規模なデータセット(生シーケンシングの読み込み、組み立てられたゲノム)が保存され、管理されるデータストアのグラフィカルユーザーインターフェイス(GUI)です。広範囲のバイオインフォマティクスツールがあらかじめインストールされている仮想マシンの計算リソースを使用します。これらのプラットフォームはどちらもデータストアにリンクされており、ここで説明するワークフローを作成するために一緒に使用できます。このレポートでは、 新規トランスクリプトームアセンブリおよび微分遺伝子発現解析ワークフローに焦点を当て、さらにバイオインフォマティクス解析の開発および実施に関連するいくつかのベストプラクティスに取り組んでいます。 CyVerse( http://www.cyverse.org/about )の幅広い使命と詳細なプラットフォームの説明( http://www.cyverse.org/learning-center )の説明は一般に公開されています。本明細書に記載される全ての分析は、発見環境4 (DE)および雰囲気5を使用し、すべての計算レベルの研究者がそれらを利用できるように提示される。 DEのワークフローとAtmosphere画像は、URLを使用して直接参照することができ、長期的な出所、再利用性、再現性を保証します。
Protocol
注記:手順1.2( 図1および図2 )で作成および命名されるフォルダに従って、全体のプロトコルに番号が付けられています。このプロトコルは、標準的な比較トランスコード解析の比較を表しており、ここで詳述されているすべてのステップは、すべての研究者にとって必要というわけではありません。このワークフローは、コンパニオンチュートリアルのwikiで完全に文書化されています。さらに、すべての追加ファイルと、各分析パッケージの第三者開発者のドキュメントへのリンクも含まれています( 表1 )。この資料へのリンクは、この情報に簡単にアクセスできるように、このプロトコル全体に含まれます。ベストプラクティスとは、タスクを達成するための最良の方法やユーザーが検討するための提案としてユーザーに提供されるメモであり、プロトコルのメモを介して伝達されます。例示的なデータ入力および分析出力のフォルダは、ユーザが公に利用可能であり、プロトコル( de novo
1. FastQCを使用して、プロジェクトの設定、未加工シーケンシングリードのアップロード、アセスメントリードのアップロード
- AtmosphereとDiscovery Environmentへのアクセスを取得します。
- 登録ページ( 例: person@institution.edu)に移動して、無料のCyVerseアカウントをリクエストしてください。
- 必要な情報を入力して提出してください。
- メインのWebページ(http://www.cyverse.org/)に移動し、上部のツールバーで[サインイン]を選択します。 [Cyverseログイン]を選択し、CyberSightの資格情報を使用してサインインします。
- [Apps&サービス]タブに移動し、大気圏へのアクセスをリクエストします。ディスカバリー環境へのアクセスは自動的に許可されます。
- プロジェクトを設定し、データをデータストアに移動します。
- 発見環境(https://de.iplantcollaborative.org/de)にログインします。 [データ]タブを選択すると、データストア内のすべてのフォルダを含むメニューが表示されます。 >
- プロジェクトに関連するすべてのデータを格納するメインのプロジェクトフォルダを作成します。データウィンドウの上部にあるツールバーを見つけ、ファイル|新しいフォルダ。 "!@#()[] {}:; $%^&*"などのフォルダ名や入出力ファイル名には、スペースや特殊文字を使用しないでください。代わりに、必要に応じてアンダースコアまたはダッシュ(_または - )を使用します。
- メインプロジェクトフォルダ内に5つのフォルダを作成して分析を整理します( 図1 )。フォルダには、「1_Raw_Sequence」、「2_High_Quality_Sequence」、「3_Assembly」、「4_Differential_Expression」、「5_Annotated_Assembly」のようにカンマまたは引用符を付けずにフォルダ名を付けます。サブフォルダは、これらのメインプロジェクトフォルダに配置されます( 図2 )。
図1:プロジェクトフォルダ構成とDe Novo Transcriptomeアセンブリおよび分析ワークフローの概要。ユーザーは生のシーケンシングの読み込みをデータストアのメインプロジェクトフォルダにアップロードし、各ステップの結果を別々のフォルダに配置します。 この図の拡大版を見るには、ここをクリックしてください。
図2 CyVerse Cyberinfrastructureで発生するDe Novo Transcriptomeアセンブリおよび分析ワークフローの詳細。全体のアセンブリと分析のワークフローは、それぞれ独自のフォルダ(太字の番号付きフォルダアイコン)を取得する5つの手順で完了します。番号が付けられた5つのワークフローステップフォルダのそれぞれには、バイオインフォマティクス分析の出力データを含むサブフォルダがあります(フォルダアイコン)。解析用の入力は1つのサブフォルダから来て、分析プログラム(四角形ボックス)の出力を介して別のフォルダに移動します。最初の3つのステップからの最終データを比較し、出版の準備をします。結局のところ、このスキームは、共同作業者および/または原稿の査読者がワークフローを迅速に理解し、必要に応じて各ファイルを使用してそれを繰り返すことができるように、段階的に分析するメインプロジェクトフォルダを生成する。 この図の拡大版を見るには、ここをクリックしてください。
- 次の3つの方法のいずれかを使用して、 "A_Raw_Reads"という名前のサブフォルダに "1_Raw_Sequence"フォルダに生FASTQシーケンスファイルをアップロードします。
- データストアのシンプルアップロード機能を使用して、メインのDEデスクトップのデータボタンをクリックして[データ]ウィンドウのツールバーに移動し、[アップロード|アップロード]を選択します。デスクトップからの簡単なアップロード。 [参照]ボタンを選択します。ローカルコンピュータ上の生のFASTQシーケンシングファイルにナビゲートします。この方法は、2GB未満のファイルにのみ適しています。
- アップロードを送信するには、画面の下部にある[アップロード]ボタンを選択します。通知はアップロードが提出されたベルアイコンのDEの右上に登録されます。アップロードが完了すると、別の通知が登録されます。
- あるいは、Cyberduckを使って大きなファイル(https://wiki.cyverse.org/wiki/x/pYcVAQ)を転送してください。 Cyberduckをインストールし、ローカルコンピュータのデスクトップでプログラムとして実行します。
- 最後に、iCommandをダウンロードし、指示に従ってローカルコンピュータにインストールします(https://wiki.cyverse.org/wiki/display/DS/Using+iCommands)。
- DEのFastQCアプリを使用して、アップロードされた生のシーケンシングの読み込みを評価します。
- メインのDEデスクトップの「Apps」ボタンを選択すると、DEで利用可能なすべての分析アプリを含むウィンドウが開きます。
- 検索して勝利を開くウィンドウの上部にある検索ツールバーのFastQCツールのダウ複数のFASTQファイルがある場合は、マルチファイルバージョンを開きます。ファイル|新しいフォルダ "B_FastQC_Raw_Reads"という名前のフォルダを作成し、このフォルダを出力フォルダとして選択します。
- FASTQの読み込みファイルを「Select input data」というツールウィンドウにロードし、「Launch Analysis」を選択します。
- 分析が完了したら、.htmlまたは.pdfファイルを開いて結果を表示します。 FastQCは、読み込みファイルのさまざまな側面をテストするいくつかの分析を実行します( 図3 )。
2.高品質シーケンスを生成するためのトリミングと品質フィルタリングRawリード
注意:TrimmomaticアプリまたはSickleアプリを使用してください。
- DEでプログラム可能なTrimmomaticアプリを検索し、以前と同じように開きます。
- 生のFASTQ読み込みファイルのフォルダを「設定」セクションにアップロードします。
- 選択するかどうかquenceファイルはシングルエンドまたはペアエンドです。
- Browseボタンを選択し、/ iplant / home / shared / Trinity_transdecoder_trinotate_databasesを "Viewing:"ボックスに貼り付けることで提供される標準コントロールファイルを使用します。 Trimmomaticv0.33_control_fileという名前のファイルを選択し、分析を開始します。このファイルをダウンロードして設定を編集し、2番目のプロジェクトフォルダにアップロードしてカスタムトリミングスクリプトを作成することができます。
- オプション:FastQC解析でアダプター配列が特定された場合は、イルミナクリップ設定を使用してイルミナアダプターをトリミングします。上記のように、/ iplant / home / shared / Trinity_transdecoder_trinotate_databasesフォルダ内の適切なアダプタファイルを選択します。
- Sickleを使用して品質トリミングシーケンスを読み取ります。
- DEのSickleアプリを検索して開きます。トリミングされたFASTQの読み込みを入力読み込みとして選択し、出力ファイルの名前を変更します。オプションに品質設定を含めます。典型的な設定は、品質フォーマットです:illumina、sanger、solexa;品質t閾値:20;最小長さ:50
- すべての出力をトリムされフィルタリングされたフォルダに移動します(2_High_Quality_Sequence)。
- FastQCを使用して最終読み取りを評価し、以前のFastQCレポートと比較します。 .htmlファイルを選択すると、すべての結果のWebページが表示されます。表示できない場合は、出力で提供されているイメージファイル(.png)のフォルダを選択します。
De Novoトランスクリプトームアセンブリ大気中でトリニティを使用する
- wikiページ(https://wiki.cyverse.org/wiki/x/dgGtAQ)に移動して、Atmosphereインスタンスの最新バージョンを開きます。トリニティとトリノテート画像の最新バージョンのリンクを選択します。あるいは、Atmosphere画像検索ツール(https://atmo.iplantcollaborative.org/application/images)の「Trinotate」を検索して、TrinityおよびTrinotate画像のすべてのバージョンを表示することもできます。
- 「ログインする」ボタンを選択して、大気i状態。
- 「medium3」(CPU:4、Mem:32GB)または「large3」(CPU:8、Mem:64GB)のインスタンスサイズを選択します。インスタンスを起動し、インスタンスが構築されるのを待ちます。まれに、CyVerseはプラットフォームを更新するためにメンテナンスを受けます。既存のインスタンスはこれらの更新中に使用できますが、新しいインスタンスを作成することはできません。 CyVerse Statusページにアクセスして、どのプラットフォーム(http://status.cyverse.org/)の現在の状態を確認します。
- 準備が整ったらインスタンスを開くには、名前をクリックし、右側のメニューの下部にある「リモートデスクトップ」を選択します。メッセージが表示されたら、JavaとVNC Viewerを許可します。 VNCビューアウィンドウで「接続」ボタンを選択し、「続行」を選択します。
- ログインして、新しいクラウドコンピューティングのインスタンスとなる別のウィンドウを開きます。
- 手順1.3.1〜1.3.4で説明されている3つの方法のいずれかを使用して、トリミングまたはフィルタ処理されたFASTQ読み取りファイルをインスタンスに移動します。米国eインターネットブラウザがDEにアクセスし、以前と同じようにローカルコンピュータ上のファイルをダウンロードします。または、大きなデータセットを素早く転送するために、これらのイメージにインストールされたiCommandsを使用してください。
- 高品質の読み込みを組み立てるためにTrinityを実行する。
- Atmosphereインスタンスに分析フォルダを設定します。 DE(/ iplant / home / shared / Trinity_transdecoder_trinotate_databases)のスクリプトを使用するか、wikiページ(https://wiki.cyverse.org/wiki/x/dgGtAQ)のコマンドをコピー&ペーストしてください。すべてのコマンドの説明はwikiページにあります。
- 解析フォルダとTrinotateデータベースが確立したら、上記のコマンドを使用してTrinityアセンブラを実行します。いくつかの出力ファイルがありますが、最も重要なものは「Trinity.fasta」というタイトルの最終アセンブリファイルです。データストア(フォルダ3_Assembly)に移動する前に、このFASTAファイルの名前を生物に特有の名前に変更し、混乱の可能性を最小限に抑えます。
注:アウトプットは、フォルダー(4_Differential_Expression)への異なる遺伝子発現解析のための数をカウントします。
- rnaQUASTを使用してアセンブリを評価します( 図4 )。
- トリニティ出力ファイルをDE内の "3_Assembly"フォルダに移動し、 "A_Trinity_de_novo_assembly"フォルダにラベルを付けます。 "A_Trinity_de_novo_assembly"フォルダ内のサブフォルダにアセンブルされた各トランスクリプトームには、トランスクリプトームに関連する生物や治療法の学名などの固有の名前を付けます。 "3_Assembly"フォルダに "B_rnaQUAST_Output"という別のサブフォルダを作成します。
- 「rnaQUAST 1.2.0(denovo based)」という名前のアプリを開き、分析に名前を付けて、出力フォルダとして「B_rnaQUAST_Output」を選択します。
- デノボアセンブリFASTAファイルを「データ入力」セクションに追加します。 [データ出力]セクションに、 de novoの一意の名前を入力します
- 「GenemarkS-T Gene Prediction」、「BUSCO」、および「Parameters」セクションで追加のオプションを選択します。
- 生物が真核生物でない場合は、「GenemarkS-T Gene Prediction」セクションの原核生物を選択してください。
- BUSCOを実行してブラウズボタンを選択し、iplant / home / shared / iplantcollaborative / example_data / BUSCO.sample.dataのパスを "Viewing:"ボックスにコピーし、enterを押します。その生物に利用可能な最も特定のBUSCOフォルダを選択します。
注:BUSCOは、系統特異的コア遺伝子についてアセンブリを評価し、コア遺伝子の何%が見出されるかを出力する。真核生物のような一般的なフォルダと、節足動物などのより具体的な系統があります。
- "Transcript decoder"を検索し、 de novで Transdecoderを実行するトリニティ・アセンブリは、ディスカバリー環境のFASTAファイルを出力します。
- ステップ5 Annotationで使用するために、出力.pepファイルをde novo assembly(3_Assembly)フォルダに移動します。
DEにおけるDESeq2を用いた対の微分方程式
- 前述のようにDE内のDESeq2アプリを開きます。分析に名前を付け、出力フォルダーを4_Differential_Expressionとして選択します。
- [入力]セクションで、トリニティアセンブリの実行からのカウントテーブルファイルと、そのカウントテーブルでコンティグ名が見つかる列を選択します。
- カウントデータテーブルファイルから列ヘッダーを入力して、比較する列を決定します。各条件の間にコンマを入れてください。コンティグ名を含む最初の列ヘッダーを含めないでください。
- 複製の場合、同じ名前を繰り返します( 例えば 、Treatment1rep1、Treatment1rep2、Treatment1rep3はTreatment1、Treatment1、Treatment1になります)。第一に2番目の行には、比較する2つの条件の名前を指定します( 例: Treatment1、Treatment2)。最初の行に指定されている列ヘッダー名と一致します。
注:これらの列ヘッダーは英数字で、特殊文字は使用できません。
5.トリノテートを用いたアノテーション
- AtmosphereクラウドコンピューティングのインスタンスでTrinotateの各部分を実行します。注意:bashコマンドは、txtファイルで提供され、DE(/iplant/home/shared/Trinity_transdecoder_trinotate_databases)またはwikiページ(https://wiki.cyverse.org/)で実行する前にコピー、貼り付け、変更することができます。 wiki / x / dgGtAQ)。複数のアセンブリに注釈を付ける場合は、各アセンブリに一度に注釈を付け、完成した注釈ファイルをアセンブリ名に対応する固有のフォルダを持つフォルダ「5_Annotation」に戻します。
- Trinity転写物を検索するためのbashコマンドを実行します。 CPUの数に合わせてスレッド数を変更するすなわち、媒体には4つのCPUがあり、大には8つのCPUがあります。詳細はステップ3.1.2を参照してください。アセンブリFASTAファイル名と一致するようにTrinity.fastaコマンドを変更します。
注:BLAST +の検索には最も時間がかかります。完了するまでに数日かかることがあります。クラウドコンピュータのアクティビティは、VNCビューアを起動しなくても大気中で確認できます。 - トランスコードを予測するタンパク質を検索するためのbashコマンドを実行します。これまでのように、スレッド番号とファイル名を5.2.1の条件に合わせて変更します。
- HMMERのbashコマンドを実行し、上記のようにスレッド数を変更します。
- 必要に応じて、signalPおよびtmHMMのbashコマンドを実行します。 SignalPはシグナルペプチドを予測し、tmHMMは膜貫通タンパク質モチーフを予測する。
- Trinity転写物を検索するためのbashコマンドを実行します。 CPUの数に合わせてスレッド数を変更するすなわち、媒体には4つのCPUがあり、大には8つのCPUがあります。詳細はステップ3.1.2を参照してください。アセンブリFASTAファイル名と一致するようにTrinity.fastaコマンドを変更します。
- 結果をSQLiteデータベースにロードする
- 上記のすべての分析が完了したら、bashコマンドを実行して出力ファイルを最終的なSQLiteアノテーションデータベースにロードします。コマンドを削除する実行されなかった分析のために。
- 一般的なテーブルビューアで表示するには、SQLiteデータベースを.xlsファイルにエクスポートします。
Representative Results
プロジェクト組織ファイルが作成されたら( 図1と2 )、このワークフローの最初のタスクは、未処理のシーケンシングファイルを評価し、トリミングと品質フィルタリングによってそれらをクリーニングすることです。 FastQCは、FASTQファイル形式の品質スコアとシーケンスの長さに関する人間が判読可能な要約統計量を生成します。最終的な読み取りが高品質であり、したがって組み立てに適しているかどうかを評価するために、トリミングの前後でFastQC数値を比較します。 「塩基毎の配列の品質」は、塩基配列の塩基対ごとの平均読み取り品質を示します。 FastQCの色で示される20〜28を超えるphred品質スコアを持つことが最善です。 「シーケンス毎の品質スコア」は、読み取りの品質フィルタリングが必要であるかどうかを決定する。 20-25未満の平均スコアを持つ読み取りが多すぎる場合は、平均読み取り品質に基づいてフィルタリングする必要があります。 「塩基毎の配列の内容物」は、4つのヌクレオチド塩基全体にわたって均一な分布を示すはずである。ヌクレオチド含量に偏りがある場合は、トリミングの終了が必要な場合があります。 「塩基毎のGC含量もすべての位置で均等でなければならない」ウォブルがある場合は、1.4.4.3のようにトリムする必要があるかもしれません「シーケンスGC含量」は正規分布でなければなりません。 )産物は、シークエンシングライブラリー中のコンタミネーションを起こし、正規分布を歪めることがあります。この場合、アダプタートリミングが必要になることがあります。「シーケンス長分布」は、すべてのリードの平均長さを示します。 「Sequence duplication levels」は、ライブラリ内で特定の読み取りシーケンスが何回表示されるかを示します。「複製されたシーケンス」セクションでは、読み取りシーケンスとカウントが大きく複製されます。また、FastQCは、アダプター配列または配列決定プラットフォームに関連する他の既知の配列である。 「ノットヒット」のラベルは、NCBI BLAST 6を用いて配列がさらに調査され、それが生物学的に関連性のある配列であるかどうか、またはそれを除去すべきかどうかを決定することを意味する。 DEには、BLASTのいくつかのバージョンもあります。 DE BLASTnアプリはhttps://de.iplantcollaborative.org/de/?type=apps&app-id=6f94cc92-6d28-45c6-aef1-036be697671dで入手できます。
未処理配列決定をスクリーニングして高品質の読み取りを生成した後、読み取りを組み立てて連続配列(コンティグ)を作製する必要がある。簡潔に言えば、類似配列を見つけるためにすべての短い配列の読みを並べることによってアセンブリが作成されます。特定の長さよりも長い類似した配列の領域はsaであるとみなされるなぜなら、ある長さのランダムに発生する類似のシーケンスの確率はほぼゼロであるからである。トリニティは、ログファイル、アセンブリプロセスの各ステップのfastaファイルを出力します。しかし、最も重要な出力は、 "Trinity.fasta"とラベル付けされたコンティグを含む最終アセンブリファイルで、メインフォルダにあります。このファイルには、アセンブルされたすべてのコンティグが含まれており、実際には人間が読めるものではありません。したがって、rnaQUASTツールを使用してアセンブリをより深く理解することができます。 rnaQUASTツールは、ユーザーがアセンブリを比較してどれが最も完全であるかを判断できるようにする数値を出力します( 図4 )。 rnaQUASTの各図の追加情報はwiki( https://wiki.cyverse.org/wiki/x/fwuEAQ )にあります。 BUSCO 7が実行された場合、特に興味深いのは、完全性とpの数を示すspecificity.txtファイルですartial BUSCO遺伝子およびアセンブリ中のGeneMarkS-T遺伝子予測の数を含む。 BUSCO遺伝子は、生物のグループに共通のキュレートされた遺伝子セットである。それらは、集団が、系統樹に基づいた任意の所与のタイプの生物に存在することが予想される遺伝子のセットをいかに良好に捕捉しているかを評価するために使用することができる。スタンドアロンBUSCOアプリは、DE( https://de.iplantcollaborative.org/de/?type=apps&app-id=112b8a52-efd8-11e5-a15c-277125fcb1b1 )でも利用できます。
異なる遺伝子発現分析は、組立転写表当たりの単純なカウントからの処理にわたって異なる発現パターンを有する転写物を同定する。 DESeq2は、正規化された平均からの変動を求めるために一般化線形モデル(GLM)を使用します。複製を用いた実験は、技術的バリエーションfrom sequencingはDESeq2アルゴリズムで正規化することができます。 DESeq2 DEG分析では、数値と、すべての出力数値と説明を含む.htmlレポートファイルが生成されます。代わりに、EdgeRをDESeq2の代わりに使用することができ、同じ.htmlレポートが代わりにEdgeRビジュアライゼーションで生成されます。研究者は、DESeq2とEdgeRの両方を実行して、与えられた実験の両方のアルゴリズムによって同定された差次的に発現された遺伝子を見つけることを望むかもしれない。 Trinotateは任意のスプレッドシートソフトウェアプログラムで開くことができる出力.xlsファイルを作成します。 DEG .txtファイルと注釈.xlsファイルは、CyVerseプラットフォーム外に存在する多数の下流のアプリケーションで分析および視覚化することができます。
図3:未処理シーケンシングリード、トリムリード、最終トリムおよびフィルタリングリードのFastQCレポートシーケンシングリードの系統的比較sである。 デノボトランスクリプトームを組み立てるには高品質の読み取りが必要です。 FastQCは、研究者がシーケンシングデータの初期品質を理解し、読み取りがどれだけ効率的に前処理されたかを追跡するのに役立ちます。 FastQCの結果は、配列される生物およびサンプルに依存するが、下流で比較されるすべてのサンプルにわたって均一性が、前処理読み取りの第一の目的である。チュートリアルビデオとドキュメンテーションは、FastQCの作成者と開発者から入手できます。 この図の拡大版を見るには、ここをクリックしてください。
図4:3つの別々のアセンブリのrnaQUASTレポート rnaQUASTを使用すると、同じアセンブラを使用して複数の読取りアセンブリを比較することができます。 ssemblersは同じ初期読み込みを使用します。 rnaQUASTはBUSCOを活用して、分類学的クレードに存在する既知のコア遺伝子に基づいてアセンブリに関する要約統計量を生成します。転写産物あたりのミスマッチの数および正準遺伝子に一致する転写産物の数(一致部分)は、アセンブラの精度についての洞察を提供する。ここに示した最後の4つのサブプロットは、コンティグおよびアイソフォームの長さの概要統計値および予想されるアイソフォームのカバレッジを提供する。 NAxは、y軸上の長さ(bp)より長い長さを有するコンティグの百分率(x)を表す。アセンブルされた画分は、その長さで割った最長の単一組み立て転写物である。カバーされた割合は、BUSCOからの核原核または真核生物遺伝子によって予想されるように、完全にアセンブルされた転写物/アイソフォームのパーセンテージである。 rnaQUASTによって生成されたすべてのグラフの説明が利用可能です( https://wiki.cyverse.org/wiki/x/fwuEAQ )。09 / 55009fig4large.jpg "target =" _ blank ">この図の拡大版を見るには、ここをクリックしてください。
アプリ名 | CyVerseプラットフォーム | サードパーティのドキュメント | CyVerseドキュメンテーション | サンプルデータセットの推定ランタイム | アプリへのリンク |
FastQC | DE | http://www.bioinformatics。 babraham.ac.uk/projects/fastqc/ https://www.youtube.com/watch?v=bz93ReOv87Y | https://wiki.cyverse.org/wiki/pages/viewpage.action?pageId=9316768 | 15分 | https://de.iplantcollaborative。 org / de /?type = apps&app-id = 112b9aa8-c4a7-11e5-8209- 5f3310948295 |
トリムマティックv0.33 | DE | https://github.com/timflutre/trimmomatic | https://wiki.cyverse.org/wiki/display/DEapps/Trimmomatic-prOgrammable-0.33 | 30分 | https://de.iplantcollaborative。 org / de /?type = apps&app-id = 9c2a30dc-028d- 11e6-a915-ab4311791e69 |
鎌 | DE | https://github.com/najoshi/sickle | https://wiki.cyverse.org/wiki/display/DEapps/Sickle-quality-based-trimming | 30分 | https://de.iplantcollaborative。 org / de /?type = apps&app-id = 68b278f8-d4d6-414d-9a64-b685a7714f7c |
三位一体 | 雰囲気 | https://github.com/trinityrnaseq/trinityrnaseq/wiki | https://pods.iplantcollaborative。 org / wiki / display / atmman / Trinity + - + Trinotate + Atmosphere + Image | 1週間 | https://atmo.iplantcollaborative。 org / application / images / 1261 |
DE | https://wiki.cyverse.org/wiki/display/DEapps/Trinity-64GB-2.1.1 | 2-5日 | https:// wiki.cyverse.org/wiki/display/DEapps/Trinity-64GB-2.1.1 | ||
rnaQUAST v1.2.0 | DE、大気 | http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html | https://pods.iplantcollaborative。 org / wiki / display / TUT / rnaQUAST + 1.2.0 +%28denovo + based%29 + using + DE | 30分 | https://de.iplantcollaborative。 org / de /?type = apps&app-id = 980dd11a-1666- 11e6-9122-930 ba8f23352 |
トランスデコーダー | DE | https://transdecoder.github.io | https://wiki.cyverse.org/wiki/display/DEapps/Transcript+decoder+2.0 | 2〜3時間 | https://de.iplantcollaborative。 org / de /?type = apps&app-id = 5a0ba87e-b0fa-4994-92a2- 0d48ee881179 |
DESeq2 | DE | https://bioconductor.org/packages/release/bioc/html/DESeq2.html | https://pods.iplantcollaborative。 org / wiki / pages /viewpage.action?pageId = 28115142 | 2〜3時間 | https://de.iplantcollaborative。 org / de /?type = apps&app-id = 9574e87c-4f90- 11e6-a594-008 cfa5ae621 |
EdgeR | DE | https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf | https://wiki.cyverse.org/wiki/pages/viewpage.action?pageId=28115144 | 2〜3時間 | https://de.iplantcollaborative。 org / de /?type = apps&app-id = 4a08ceda-54fe- 11e6-862f-008 cfa5ae621 |
トリノテート | 雰囲気 | https://trinotate.github.io/ | https://pods.iplantcollaborative。 org / wiki / display / atmman / Trinity + - + Trinotate + Atmosphere + Image | 1週間 | https://atmo.iplantcollaborative。 org / application / images / 1261 |
表1:分析プログラム、利用可能なプラットフォーム、最初の出現順にワークフローに使用できる追加リソース。すべてのパッケージのバージョンは、2016年4月現在のものです。
Discussion
プロトコルには5つの重要なステップがあり、それぞれがメインのプロジェクトフォルダ内に独自の別のフォルダを作成します( 図1と図2 )。プライマリの生シーケンシングデータはすべて無視されます。アップロードされ、 "1_Raw_Sequence"というラベルの付いた最初のフォルダに保存され、変更されてはなりません。データは3つの方法のいずれかでアップロードできます。 DEインターフェイスを使用してファイルを直接アップロードすることができます。これはデータをアップロードする最も簡単な方法ですが、転送に最長の時間を要します。 Cyberduckにはグラフィカルインターフェイスがあり、ユーザーはファイルをドラッグアンドドロップしてDEに転送することができます。 iCommandsは、データストアとの間でデータを転送したり、ディレクトリを作成したり、データセットを管理したりするために使用できるコマンドラインツールであり、おそらくデータファイルを転送する最も早い方法です。データストア内のすべてのデータは、他のCyVerseユーザーと共有できます(https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+and+Folders+Via+the+Discovery + Environment)、生成されたURL(https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+Via+Public+Links)を介して公開したり、一般公開または匿名でホストすることができますユーザー名は不要)利用可能なコミュニティデータ(http://data.iplantcollaborative.org; http://mirrors.cyverse.org)。そのフォルダの中で、生のシーケンスの読み取りをFastQC(http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/)で分析して、読み取りをトリミングしてフィルタリングして高品質の読み取りを生成する方法を評価します。トリミングと品質フィルタリングの後、FastQC出力を比較して、情報が失われることなく読み取り品質が変化したかどうかを判断することが有用です( 図3 )。 FastQCのx軸は線形ではなく、むしろ多くの出力グラフに対してビニングされているため、誤った結果が得られることに注意してください。トリムされ、読み込まれた読み込みは、Atmosphereクラウドコンピューティングのインスタンスを使用してde novo transcriptomをアセンブルするために使用されます。このクラウドコンピュータはローカルコンピュータの画面、キーボード、マウスを使用しますが、独自のソフトウェア(TrinityとTrinotate)とハードウェアがインストールされています。クラウドコンピュータインスタンスでプログラムを実行しても、ローカルコンピュータには何も影響しません。 デノボアセンブリとダウンストリームアノテーションは、このワークフローで最も長く実行される2つのステップです。したがって、それらは大気中で完了し、停電、深夜自動更新後の再起動、または他のユーザーによるクラッシュなどの分析を中断させる共通のラボ共有コンピュータの問題を回避します。トリノテート注釈はBLAST + 8 、HMMER 9 、tmHMM 10 、PFAM 11を使用します。注釈の最終出力はSQLiteデータベースと.xlsファイルです。出力は、KEGG 12,13などの下流解析プラットフォームでCyVerse外で使用できます。
このワークフローDEおよび大気中で使用する準備ができています。これにより、各分析パッケージのインストール、構成、およびトラブルシューティングに時間を費やす必要がなくなり、各ツールに必要なすべての依存関係が不要になります。研究者の分析を合理化し、無駄な労力を最小限に抑え、多くの科学者の参入障壁を低下させます。このワークフローでは、イルミナシーケンシングプラットフォームからのシングルエンドリードまたはペアエンドリードの組み立てが具体的に行われますが、DEおよびAtmosphereには他の種類のシーケンシングテクノロジを処理するツールが多数存在します。このワークフローのツールは、対応する代替ツールで簡単に置き換えることができ、あらゆるタイプの入力シーケンシング技術を処理できます。これは、新しいバージョンの解析ツールやまったく新しいツールにも当てはまります。
このワークフローは、一度にいくつかのトランスクリプトームのみを集め、比較し、注釈を付けるように特別に設計されています。したがって、ユーザーは、比較集団遺伝学のために複数のトランスクリプトームを組み立てるのに時間がかかることがあります。分析パイプラインは近い将来、集団遺伝学のユーザーに提供され、パイプラインへのリンクはwikiページ(https://wiki.cyverse.org/wiki/x/dgGtAQ)にあります。微分遺伝子発現解析ステップは反復を扱うことができるが、ペアワイズの比較であり、複数の因子( 例えば 、経時的に変化する条件、2回以上の処置)を正確に評価しない。参照ゲノムを持つ生物( 例: TRAPLINE 14 )の自動ワークフローが存在します。初心者にとって自動化されたワークフローが最も使いやすいものですが、 デノボアセンブリではここで概説した各ステップの評価と検討が必要です。さらに、ユーザーは自動パイプラインを構築する際にそれを使用する必要があり、したがって、ユーザーの変化する要求を満たすために本質的に柔軟性がありません。
このプロトコルのほとんどはインターネット上で実行されるため、ユーザーはブラウザの設定に問題が発生する可能性があります。まず、ポップアップブロッカーは、ウィンドウが開いていないようにしたり、ブラウザー内のCyVerseに許可が与えられるまでウィンドウのオープンを維持することができます。 Atmosphereは、リモートデスクトップにアクセスするためにVNCを使用しますが、他のソフトウェアを使用することもできます。このプロトコル全体は、Firefoxのバージョン45.0.2で実行され、一般的なすべてのインターネットブラウザで動作するはずですが、いくつかの矛盾が現れることがあります。ワークフローはTrinityが新しいバージョン(https://github.com/trinityrnaseq/trinityrnaseq/wiki)をリリースすると更新されます。ワークフローに関する最新バージョンと最新情報は、wikiチュートリアルページ( 表1 、https://wiki.cyverse.org/wiki/x/dgGtAQ)にあります。ユーザーは直接サポートに連絡したり、Ask CyVerse(ask.cyverse.org/)に質問を投稿してワークフローの問題のトラブルシューティングを行うことができます。
DEでは、このプロトコルの各ステップを達成するためにいくつかのアプリケーションが存在します。例えば、ユーザーはTrimmomaticの代わりにScythe(https://github.com/najoshi/sickle)を実行したいかもしれません。15をリードトリミングするか、またはDESeq 17,18の代わりにEdgeR 16を実行します。この原稿の範囲外ではあるが、DEアプリはユーザによってコピー、編集、リリースされることができる(https://wiki.cyverse.org/wiki/display/DEmanual/Creating,+Copying,+and+Editing+DE+ Apps)や新しいアプリを追加することができます(https://wiki.cyverse.org/wiki/display/DEmanual/Dockerizing+Your+Tools+for+the+CyVerse+Discovery+Environment)。 Atmosphere画像は、ユーザーのニーズに合わせた新しいワークフローや変更されたワークフローを作成するために、変更して再イメージ化することもできます(https://wiki.cyverse.org/wiki/x/TwHX)。この作業は、コマンドラインを使用してデータを移動し、分析を実行する方法の紹介として役立ちます。ユーザーは、CyVerseアプリケーションプログラミングインターフェイス(API)(http://www.cyverse.org/science-apis)などのより高度なコマンドラインリソースの利用、または知識を必要とする独自のDEアプリケーションの設計を検討することができます(https://wiki.cyverse.org/wiki/display/DEmanual/Creating+a+New+App+Interface)で分析ツールを実行する方法について説明します。
Materials
Name | Company | Catalog Number | Comments |
Trimmomatic v0.33 | USADELLAB.org | https://github.com/timflutre/trimmomatic | https://de.iplantcollaborative.org/de/?type=apps&app-id=9c2a30dc-028d-11e6-a915-ab4311791e69 |
Sickle | Joshi and Fass | https://github.com/najoshi/sickle | https://de.iplantcollaborative.org/de/?type=apps&app-id=68b278f8-d4d6-414d-9a64-b685a7714f7c |
Trinity | Broad Institute and Hebrew University of Jersalem | https://github.com/trinityrnaseq/trinityrnaseq/wiki | https://atmo.iplantcollaborative.org/application/images/1261 |
rnaQUAST v1.2.0 | Algorithmic Biology Lab, St. Petersburg Academic University of the Russian Academy of Sciences | http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html | https://de.iplantcollaborative.org /de/?type=apps&app- id=980dd11a-1666-11e6-9122- 930ba8f23352 |
Transdecoder | Broad Institute and Commonwealth Scientific and Industrial Research Organisation | https://transdecoder.github.io | https://de.iplantcollaborative.org/de/?type=apps&app-id=5a0ba87e-b0fa-4994-92a2-0d48ee881179 |
EdgeR | Robinson et al. 2010. | https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf | https://de.iplantcollaborative.org/de/?type=apps&app-id=5aa9e294-6f95-42f9-98e9-c9c96b44f499 |
Trinotate | Broad Institute and Hebrew University of Jersalem | https://trinotate.github.io/ | https://atmo.iplantcollaborative.org/application/images/1261 |
References
- Hasselmann, M., Ferretti, L., Zayed, A. Beyond fruit-flies: population genomic advances in non-Drosophila arthropods. Brief. Funct. Genomics. 14 (6), 424-431 (2015).
- Scholz, M. B., Lo, C. -C., Chain, P. S. Next generation sequencing and bioinformatic bottlenecks: the current state of metagenomic data analysis. Anal. Biotech. 23 (1), 9-15 (2012).
- Merchant, N., et al. The iPlant Collaborative: Cyberinfrastructure for Enabling Data to Discovery for the Life Sciences. PLoS Biol. 14 (1), e1002342 (2016).
- Oliver, S. L., Lenards, A. J., Barthelson, R. A., Merchant, N., McKay, S. J. Using the iPlant collaborative discovery environment. Cur. Protoc. Bioinformatics. , 1-22 (2013).
- Skidmore, E., Kim, S., Kuchimanchi, S., Singaram, S., Merchant, N., Stanzione, D. iPlant atmosphere: a gateway to cloud infrastructure for the plant sciences. Proc. 2011 ACM. , 59-64 (2011).
- Altschul, S. F., Gish, W., Miller, W., Myers, E. W., Lipman, D. J. Basic local alignment search tool. J. Mol. Bio. 215 (3), 403-410 (1990).
- Simão, F. A., Waterhouse, R. M., Ioannidis, P., Kriventseva, E. V., Zdobnov, E. M. BUSCO: assessing genome assembly and annotation completeness with single-copy orthologs. Bioinformatics. , (2015).
- Camacho, C., et al.
BLAST+: architecture and applications. BMC Bioinformatics. 10, 421 (2009). - Eddy, S. R. Profile hidden Markov models. Bioinformatics. 14 (9), 755-763 (1998).
- Krogh, A., Larsson, B., von Heijne, G., Sonnhammer, E. L. Predicting transmembrane protein topology with a hidden markov model: application to complete genomes. J. Mol. Biol. 305 (3), 567-580 (2001).
- Finn, R. D., Coggill, P., et al. The Pfam protein families database: towards a more sustainable future. Nucleic Acids Res. 44 (D1), D279-D285 (2016).
- Kanehisa, M., Sato, Y., Kawashima, M., Furumichi, M., Tanabe, M. KEGG as a reference resource for gene and protein annotation. Nucleic Acids Res. 44 (D1), D457-D462 (2016).
- Kanehisa, M., Goto, S. KEGG: Kyoto Encyclopedia of Genes and Genomes. Nucleic Acids Res. 28 (1), 27-30 (2000).
- Wolfien, M., et al. TRAPLINE: a standardized and automated pipeline for RNA sequencing data analysis, evaluation and annotation. BMC Bioinformatics. 17, 21 (2016).
- Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
- Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2010).
- Anders, S. Analysing RNA-Seq data with the DESeq package. Mol. Biol. 43 (4), 1-17 (2010).
- Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Bio. 15 (12), 1-21 (2014).