Summary
ここで示すプロトコルは、高度な統計分析アプローチへの品質管理と前処理のステップを含む、生の読み取りから機能分析までのRNAシーケンシングトランスクリプトームデータを分析するための完全なパイプラインを説明しています。
Abstract
病原体は、多種多様な感染症を引き起こす可能性があります。感染に応答して宿主によって誘導される生物学的プロセスは、疾患の重症度を決定する。このようなプロセスを研究するために、研究者は、感染、臨床結果、または疾患重症度の異なる段階で宿主転写体の動的変化を測定するハイスループットシーケンシング技術(RNA-seq)を使用することができます。この調査は、病気のより良い理解につながるだけでなく、潜在的な薬物標的と治療を明らかにすることができます。ここで示すプロトコルは、生の読み取りから機能解析までの RNA シーケンシング データを分析するための完全なパイプラインを記述します。パイプラインは 5 つのステップに分けられます: (1) データの品質管理;(2)遺伝子のマッピングと注釈(3)遺伝子と共発現遺伝子の遺伝子を分化して同定する統計解析(4)サンプルの摂動の分子程度の決定;(5)機能分析。手順 1 では、下流解析の品質に影響を与える可能性のある技術的なアーティファクトを削除します。ステップ2では、遺伝子は標準ライブラリプロトコルに従ってマッピングされ、また、アポイントトされます。ステップ3の統計解析では、感染していないサンプルと比較して、感染したサンプルで差で発現または共発現している遺伝子を特定します。サンプルの変動性および潜在的な生物学的外れ値の存在は、ステップ4の摂動アプローチの分子程度を使用して検証される。最後に、ステップ5の機能解析は、疾患表現型に関連する経路を明らかにする。このパイプラインは、宿主と病原体の相互作用研究によるRNA-seqデータ分析を通じて研究者を支援し、感染の分子メカニズムを理解するために不可欠なインビトロ または インビボ実験の 未来を推進することを目的としています。
Introduction
デング熱、黄熱病、チクングニア、ジカなどのアルボウイルスは、いくつかの流行の流行に広く関連しており、過去数十年でヒトに感染する主な病原体の1つとして出現しました1,2。チクングニアウイルス(CHIKV)に感染した人は、発熱、頭痛、発疹、ポリアルーギー、関節炎を持つことがよくあります3,4,5。ウイルスは、細胞の遺伝子発現を破壊し、様々な宿主シグナル伝達経路に影響を与える可能性があります。近年、血液転写酵素研究は、RNA-seqを利用して、回復期6または健康なコントロール7と比較して急性CHIKV感染に関連する微分発現遺伝子(DEG)を同定した。CHIKVに感染した小児は、ウイルスRNAの細胞センサー、JAK/STATシグナル伝達、TOLL様受容体シグナル伝達経路に関連するものなど、先天性免疫に関与する遺伝子を有していた。CHIKVに急性感染した成人は、単球および樹状細胞活性化に関連するもの、および抗ウイルス応答に関連するものなど、先天性免疫に関連する遺伝子の誘導も示した。ダウンレギュレーション遺伝子を豊富に含むシグナル経路には、T細胞の活性化やT細胞およびB細胞における分化および濃縮などの適応免疫に関連するものが含まれていた。
宿主および病原体遺伝子のトランスクリプトームデータを分析するために、いくつかの方法を使用することができる。多くの場合、RNA-seqライブラリー調製は成熟したポリA転写物の濃縮から始まります。このステップは、リボソームRNA(rRNA)の大部分を除去し、いくつかのケースではウイルス/細菌RNAを除去する。しかし、生物学的な質問が病原体転写物検出を伴い、RNAが以前の選択とは無関係に配列化される場合、他の多くの異なる転写物はシーケンシングによって検出され得る。例えば、サブゲノムmRNAは、疾患の重症度を確認する重要な因子であることが示されている8。さらに、CHIKVやSARS-CoV-2のような特定のウイルスに対して、ポリA濃縮ライブラリでさえ、下流の分析で利用できるウイルス読み取りを生成します9,10。宿主転写体の分析に焦点を当てると、研究者はサンプル間の生物学的摂動を調べ、微分発現された遺伝子および濃縮経路を同定し、共発現モジュール7,11,12を生成することができます。このプロトコルは、異なるバイオインフォマティクスアプローチを用いたCHIKV感染患者および健常者の転写分析を強調する(図1A)。以前に発表された研究からのデータ7は、20人の健康な人と39人のCHIKV急性感染者からなるが、代表的な結果を生成するために使用された。
Subscription Required. Please recommend JoVE to your librarian.
Protocol
このプロトコルで使用されるサンプルは、サンパウロ大学生物医学研究所の微生物学部門とセルジペ連邦大学の両方の倫理委員会によって承認されました(プロトコル:54937216.5.0000.5400.5467と54835916.2.0000.5546)。
1. Docker デスクトップのインストール
注: Docker 環境を準備する手順は、オペレーティング システム (OS) によって異なります。したがって、Mac ユーザーは 1.1 としてリストされている手順に従う必要があり、Linux ユーザーは 1.2 としてリストされている手順に従う必要があり、Windows ユーザーは 1.3 としてリストされている手順に従う必要があります。
- MacOS にインストールします。
- Docker ウェブサイト (素材テーブル) にアクセスし、 Mac 用 Docker デスクトップ をクリックし、[ Docker Hub からダウンロード ] リンクをクリックします。
- [Docker の取得] ボタンをクリックして、インストール ファイルをダウンロードします。
- Docker.dmg ファイルを実行してインストーラーを開き、アイコンを [アプリケーション] フォルダーにドラッグします。 アプリケーション フォルダーで Docker.app をローカライズして実行し、プログラムを起動します。
メモ:上部のステータスバーのソフトウェア固有のメニューは、ソフトウェアが実行中であり、端末からアクセス可能であることを示します。
- Linux OS にコンテナプログラムをインストールします。
- Docker Linux Web サイト (資料の表) にアクセスし、 Docker Linux リポジトリ リンクで使用可能なリポジトリセクションを使用してインストールする手順に従います。
- コマンドラインを使用してすべての Linux パッケージを更新します。
sudo apt-get の更新 - 必要なパッケージを Docker にインストールします。
sudo apt-get インストール apt-transport-https ca-Certificates カール gnupg lsb リリース - ソフトウェア・アーカイブ鍵リング・ファイルを作成します。
カール -fsSL https://download.docker.com/linux/ubuntu/gpg |スド gpg --デアーマー -o /usr/共有/キーリング/ドッカーアーカイブキーリング.gpg - ソース.リストファイルにドッカーデブ情報を追加します。
エコー 「deb [arch=amd64 signed by=/usr/共有/キーリング/ドッカーアーカイブキーリング.gpg] https://download.docker.com/linux/ubuntu $(lsb_release -cs) 安定|スド ティー /etc/apt/sources.list.d/docker.list > /dev/null - 最近追加されたものも含め、すべてのパッケージを再度更新します。
sudo apt-get の更新 - デスクトップバージョンをインストールします。
スド apt-get インストールドッカー-ceドッカー-ce-cli containerd.io - 地理的領域とタイム ゾーンを選択して、インストールプロセスを完了します。
- Windows OS にコンテナー プログラムをインストールします。
- Docker のウェブサイト (資料のテーブル) にアクセスし、[ はじめに] をクリックします。Windows 用 Docker デスクトップのインストーラーを検索します。ファイルをダウンロードし、コンピュータにローカルにインストールします。
- ダウンロード後、インストール ファイル (.exe) を起動し、既定のパラメーターをそのまま使用します。 [WSL 2 に必要な Windows コンポーネントをインストールする] と [ デスクトップへのショートカットの追加] の 2 つのオプションがオンになっていることを確認します。
注 : 場合によっては、このソフトウェアがサービスを開始しようとすると、WSL のインストールが完了しないです。このエラーを確認するには、ウェブサイトWSL2-Kernel(資料表)にアクセスしてください。 - 最新の WSL2 Linux カーネルをダウンロードしてインストールします。
- 管理者として PowerShell ターミナルにアクセスし、次のコマンドを実行します。
dism.exe /オンライン /有効機能 /機能名: マイクロソフト-Windows サブシステム - Linux /すべて /いいえrestart - ソフトウェア Docker デスクトップが正常にインストールされていることを確認します。
- Docker ハブ (資料一覧) の CSBL リポジトリからイメージをダウンロードします。
- Docker デスクトップを開き、ステータスがツールバーの左下にある「実行中」であることを確認します。
- Windows PowerShell ターミナル コマンド ラインに移動します。Docker ハブの CSBL リポジトリから、このプロトコルの Linux コンテナー イメージをダウンロードします。次のコマンドを実行してイメージをダウンロードします。
ドッカープルcsblusp/トランスクリプトーム
注: イメージをダウンロードすると、ファイルが Docker デスクトップで見ることができます。コンテナを作成するには、Windows ユーザーはステップ 1.5 に従う必要がありますが、Linux ユーザーはステップ 1.6 に従う必要があります。
- Windows OS でサーバー コンテナを初期化します。
- ツールバーからデスクトップアプリケーションマネージャで Docker イメージファイルを表示し、イメージページにアクセスします。
注: パイプライン イメージが正常にダウンロードされた場合は、csblusp/transcriptome イメージが使用可能になります。 - [ 実行 ] ボタンをクリックして、csblusp/transcriptome イメージからコンテナーを開始します。 [オプションの設定] を展開して、コンテナーを構成します。
- コンテナー名 (サーバーなど) を定義します。
- ローカル コンピューターのフォルダーを docker 内のフォルダーに関連付けます。これを行うには、ホスト パスを決定します。最後にダウンロードされる処理済みデータを格納するローカル コンピューターのフォルダーを設定します。コンテナパスを設定します。csblusp/transcriptome コンテナフォルダを定義してローカルマシンパスにリンクします(コンテナパスに「/opt/transferdata」という名前を使用します)。
- この後、 実行 をクリックして csblusp/トランスクリプトームコンテナを作成します。
- csblusp/トランスクリプトームコンテナからLinuxターミナルにアクセスするには、CLIボタンをクリックします。
- より良い経験をするためにbashターミナルに入力してください。このためには、次のコマンドを実行します。
バッシュ - bash コマンドを実行した後、ターミナルに表示されていることを確認してください (root@<コンテナID>:/#)。
root@ac12c583b731:/#
- ツールバーからデスクトップアプリケーションマネージャで Docker イメージファイルを表示し、イメージページにアクセスします。
- Linux OS 用のサーバーコンテナを初期化します。
- イメージに基づいて Docker コンテナーを作成するには、次のコマンドを実行します。
ドッカー実行 -d --rm --ネームサーバー -v <ホストパス>:/オプト/転送データ csblusp/トランスクリプトーム
注: <ホスト パス>: ローカル フォルダ マシンのパスを定義します。 - Docker コンテナのコマンドターミナルにアクセスするには、次のコマンドを実行します。
ドッカー exec -it サーバー・バッシュ - コマンドラインを使用してプログラム/スクリプトを実行する Linux 端末の可用性を確認します。
- bash コマンドを実行した後、ターミナルに表示されていることを確認してください (root@<コンテナID>:/#)。
root@ac12c583b731:/#
注: デフォルトでは、ルートパスワードは「トランスクリプトーム」です。必要に応じて、root パスワードは次のコマンドを実行して変更できます。
パスwd - 最初に、source コマンドを実行して addpath.sh すべてのツールが使用可能であることを確認します。次のコマンドを実行します。
ソース /opt/追加パス.sh
- イメージに基づいて Docker コンテナーを作成するには、次のコマンドを実行します。
- RNA シーケンシング フォルダの構造を確認します。
- トランスクリプトーム パイプライン スクリプト フォルダーにアクセスし、RNA シーケンスからのすべてのデータがフォルダー内に格納されていることを確認します: /home/transcriptome-パイプライン/データ。
- 解析から得られたすべての結果が、パス /home/transcriptome-パイプライン/結果のフォルダー内に格納されていることを確認します。
- ゲノムおよびアノテーション参照ファイルが、パス /home/transcriptome-pipeline/データセットのフォルダー内に格納されていることを確認します。これらのファイルは、すべての分析をサポートするのに役立ちます。
- すべてのスクリプトが、/home/transcriptome-pipeline/scripts パスのフォルダーに格納され、次に説明するように各ステップで区切られていることを確認します。
- アノテーションとヒトゲノムをダウンロードします。
- スクリプト フォルダにアクセスします。
cd /ホーム/トランスクリプトームパイプライン/スクリプト - 参照ヒトゲノムをダウンロードするには、次のコマンドを実行します。
バッシュ downloadGenome.sh - 注釈をダウンロードするには、次のコマンドを実行します。
downloadAnnotation.sh をバッシング
- スクリプト フォルダにアクセスします。
- 参照ゲノムの注釈またはバージョンを変更します。
- downloadAnnotation.sh 開いて downloadGenome.sh して、各ファイルの URL を変更します。
- downloadAnnotation.sh ファイルと downloadGenome.sh ファイルを転送領域にコピーし、ローカルOSで編集します。
cd /ホーム/トランスクリプトームパイプライン/スクリプト
cp downloadAnnotation.sh downloadGenome.sh /opt/転送データ - ステップ 1.5.4 でホストと Docker コンテナー間のリンクを選択したホスト パス フォルダーを開きます。
- 優先エディタソフトウェアを使用してファイルを編集し、保存します。最後に、変更したファイルをスクリプト フォルダに入れます。次のコマンドを実行します。
cd /オプト/転送データ
cp downloadAnnotation.sh downloadGenome.sh /ホーム/トランスクリプトームパイプライン/スクリプト
注:これらのファイルは、vimまたはnano Linuxエディタを使用して直接編集することができます。
- 次に、コマンド ラインを使用して fastq-dump ツールを設定します。
vdb-config --インタラクティブ
注: これにより、シーケンシングファイルをサンプルデータからダウンロードできます。- タブキーを使用して [ツール] ページをナビゲートし、現在のフォルダオプションを選択します。 [保存 ]オプションに移動し、[ OK]をクリックします。次に、fastq-dump ツールを 終了 します。
- 以前に公開された Paper7 からの読み取りのダウンロードを開始します。各サンプルの SRA アクセス番号が必要です。SRA NCBIウェブサイト(資料表)からSRA番号を取得します。
注: パブリックデータベースで利用できる RNA-Seq データを解析するには、ステップ 1.12 に従います。プライベートRNA-seqデータを分析するには、ステップ1.13に従います。 - 特定のパブリック データを分析します。
- 国立バイオテクノロジー情報センター(NCBI)のウェブサイトにアクセスし、特定のテーマのキーワードを探してください。
- 「ゲノム」セクションの「BioProject」の結果リンクをクリックします。
- 特定のスタディを選択してクリックします。 SRA実験をクリックします。新しいページが開き、このスタディで使用できるすべてのサンプルが表示されます。
- アクセス番号の上の 「送信先:」を クリックします。[ 出力先の選択] オプションで[ ファイル と 形式] オプションを選択し、[ RunInfo]を選択します。「 ファイルの作成」を クリックして、すべてのライブラリ情報をエクスポートします。
- SraRunInfo .csv ファイルを 1.5.4 ステップで定義したホスト パスに保存し、ダウンロード スクリプトを実行します。
cp /opt/転送データ/SraRunInfo.csv /ホーム/トランスクリプトームパイプライン/データ
cd /ホーム/トランスクリプトームパイプライン/スクリプト
バッシュ downloadAllLibraries.sh
- 非公開および未公開のシーケンシング データを分析します。
- 読み取りという名前のフォルダー内のシーケンス データを整理します。
注: Reads フォルダ内に、サンプルごとに 1 つのフォルダを作成します。これらのフォルダーは、各サンプルに対して同じ名前を持つ必要があります。ディレクトリ内に各サンプルのデータを追加します。ペアエンド RNA-Seq の場合、各サンプル ディレクトリには 2 つの FASTQ ファイルが含まれ、パターン {sample}_1.fastq.gz および {sample}_2.fastq.gz、順方向および逆方向のシーケンスに従って終了する名前を示す必要があります。たとえば、サンプル "Healthy_control" には、Healthy_control_1.fastq という名前の同じ名前のディレクトリと FASTQ ファイル.gz Healthy_control_2.fastq.gz が必要です。ただし、ライブラリのシーケンスがシングル エンド戦略の場合は、ダウンストリーム解析用に 1 つの読み取りファイルのみを保存する必要があります。たとえば、同じサンプルである "ヘルシー コントロール" には、Healthy_control.fastq.gz という名前の一意の FASTQ ファイルが必要です。 - すべてのサンプル名を含む表現型ファイルを作成します: 最初の列に「Sample」、2番目の列に「クラス」という名前を付けます。サンプルの列にサンプルディレクトリの名前が同じである必要があり、Class 列に各サンプルの表向きグループ (コントロールや感染など) を入力します。最後に、"metadata.tsv" という名前のファイルを保存し、それを /home/transcriptome-pipeline/data/ ディレクトリに送信します。既存の metadata.tsv をチェックして、その形式のファイルを理解してください。
cp /opt/転送データ/メタデータ.tsv
/ホーム/トランスクリプトームパイプライン/データ/メタデータ.tsv - ステップ 1.5.4 で定義された Host Path ディレクトリにアクセスし、新しい構造化ディレクトリサンプルをコピーします。最後に、/opt/transferdataからパイプラインデータディレクトリにサンプルを移動します。
cp -rf /オプト/転送データ/読み取り/*
/ホーム/トランスクリプトームパイプライン/データ/読み取り/
- 読み取りという名前のフォルダー内のシーケンス データを整理します。
- すべての読み取りがフォルダ/home/transcriptome-パイプライン/データ/読み取りフォルダに保存されていることを確認します。
2. データの品質管理
注: シーケンス読み取りでエラーの確率をグラフィカルに評価します。すべての技術的なシーケンス、例えば、アダプターを削除します。
- FastQC ツールを使用して、ライブラリのシーケンス品質にアクセスします。
- 品質グラフを生成するには、fastqcプログラムを実行します。次のコマンドを実行します。
バッシュ FastQC.sh
注: 結果は /home/トランスクリプトーム パイプライン/結果/FastQC フォルダーに保存されます。シーケンス・アダプターはライブラリーの準備およびシーケンスに使用されるため、アダプター・シーケンスのフラグメントがマッピング・プロセスを妨げる場合があります。
- 品質グラフを生成するには、fastqcプログラムを実行します。次のコマンドを実行します。
- アダプター・シーケンスと低品質の読み取りを取り外します。 Scripts フォルダにアクセスし、トリムツールのコマンドを実行します。
cd /ホーム/トランスクリプトームパイプライン/スクリプト
バッシュ trimmomatic.sh
注: シーケンス フィルタに使用されるパラメータは次のとおりです: リーディング低品質または 3 ベース (品質 3 以下) を削除します(リーディング:3);トレーリング低品質または3ベース(品質3以下)を削除します(トレーリング:3)。4ベース幅のスライディングウィンドウで読み取りをスキャンし、ベースあたりの平均品質が20(SLIDINGWINDOW:4:20)を下回ったときにカットします。36基長(MINLEN:36)の下にドロップ読み取り。これらのパラメータは、Trimmomatic スクリプト ファイルを編集することで変更できます。- 結果が次のフォルダーに保存されていることを確認します。次のコマンドを実行します。
ls /ホーム/トランスクリプトームパイプライン/結果/トリムリード
- 結果が次のフォルダーに保存されていることを確認します。次のコマンドを実行します。
3. サンプルのマッピングと注釈
注: 良質の読み取りを得た後、これらは参照ゲノムにマッピングされる必要があります。このステップでは、STAR マッパーを使用してサンプル例をマップしました。STARマッパーツールでは、読み込みとゲノムマッピングをロードして実行するために32 GBのRAMメモリが必要です。32 GB の RAM メモリを持たないユーザーは、既にマップされている読み取りを使用できます。このような場合は、ステップ3.3にジャンプするか、ボウタイ2マッパーを使用してください。このセクションには、STAR (すべての図に示す結果) と Bowtie2 (メモリ不足のマッパー) のスクリプトがあります。
- 最初にマッピングプロセスの参照ゲノムをインデックス化します。
- コマンド ラインを使用して Scripts フォルダにアクセスします。
cd /ホーム/トランスクリプトームパイプライン/スクリプト - STAR マッパーの場合は、次のコマンドを実行します。
indexGenome.sh をバッシング - ボウタイマッパーの場合は、実行します。
バッシュ indexGenomeBowtie2.sh
- コマンド ラインを使用して Scripts フォルダにアクセスします。
- 次のコマンドを実行して、フィルター処理された読み取り (ステップ 2 から取得) を参照ゲノム (GRCh38 バージョン) にマップします。STAR と Bowtie2 マッパーは、デフォルトのパラメータを使用して実行されます。
- STAR マッパーの場合は、次のコマンドを実行します。
バッシュ mapSTAR.sh - ボウタイ2マッパーの場合は、実行します。
バッシュ mapBowtie2.sh
注: 最終的な結果は、/home/transcriptome-パイプライン/結果/マップリードに格納されている各サンプルに対するバイナリアライメントマップ(BAM)ファイルです。
- STAR マッパーの場合は、次のコマンドを実行します。
- FeatureCounts ツールを使用してマッピングされた読み取りにアクロージングし、各遺伝子の生の数を取得します。読み取りに関するスクリプトを実行します。
注: FeatureCounts ツールは、マッピングされたシーケンス読み取りをゲノムフィーチャに割り当てます。生物学的な質問に続いて変更できるゲノムアノテーションの最も重要な側面には、アイソフォームの検出、複数のマッピングされた読み取りおよびエキソン-エキソン接合、遺伝子に対するGTF.attrType="gene_name"、またはメタ特徴レベルのパラメータを指定しない、allowMultiOverlap=TRUE、およびjuncCounts=TRUEがそれぞれ含まれる。- コマンド ラインを使用してスクリプト フォルダにアクセスします。
cd /ホーム/トランスクリプトームパイプライン/スクリプト - マップされた読み取りにアポイントを付けて、ジーンごとの生の数を取得するには、コマンドラインを実行します。
Rscript アノテーション。R
注:注釈プロセスに使用されるパラメータは、遺伝子の短い名前(GTF.attrType="gene_name")を返します。複数のオーバーラップを許可する (マルチオーバーラップを許可する = TRUE)。と、ライブラリがペアエンドであることを示します (ペアリングエンド=TRUEです)。シングル エンド戦略の場合は、パラメーターを使用してペアリングエンド=FALSE。結果は /home/トランスクリプトーム パイプライン/カウントリード フォルダに保存されます。
- コマンド ラインを使用してスクリプト フォルダにアクセスします。
- 遺伝子発現を正規化します。
注:遺伝子発現の正規化は、結果(例えば、健康なサンプルと感染したサンプル)間の結果を比較するために不可欠です。また、共発現と分子の摂動解析を行うためにも正規化が必要です。- コマンド ラインを使用して Scripts フォルダにアクセスします。
cd /ホーム/トランスクリプトームパイプライン/スクリプト - 遺伝子発現を正規化します。このためには、コマンド ラインを実行します。
Rscript 正規化サンプル。R
注: この実験では、生のカウント式を M 値のトリミング平均 (TMM) および 100 万分の数 (CPM) メソッドを使用して正規化しました。このステップは、ライブラリサイズの正規化を行うことによって、技術的影響による遺伝子発現の違いを取り除くことを目的としています。結果は /home/トランスクリプトーム パイプライン/カウントリード フォルダに保存されます。
- コマンド ラインを使用して Scripts フォルダにアクセスします。
4. 遺伝子と共発現遺伝子の発現
- オープンソースのEdgeRパッケージを使用して、微分発現遺伝子を同定します。これは、コントロールと比較して発現が高いか低い遺伝子を見つけることを含む。
- コマンド ラインを使用して Scripts フォルダにアクセスします。
cd /ホーム/トランスクリプトームパイプライン/スクリプト - 微分発現遺伝子を識別するには、コマンドラインを使用してDEG_edgeR R スクリプトを実行します。
スクリプト DEG_edgeR.R
注: 遺伝子の発現結果は、/home/transcriptome-パイプライン/結果/degs フォルダに保存されます。データはパソコンに転送できます。
- コマンド ラインを使用して Scripts フォルダにアクセスします。
- csblusp/トランスクリプトームコンテナからデータをダウンロードします。
- 処理されたデータを /home/transcriptome パイプラインから /opt/transferdata フォルダー (ローカル コンピューター) に転送します。
- コマンド ラインを実行して、すべてのファイルをローカル コンピュータにコピーします。
cp -rf /ホーム/トランスクリプトームパイプライン/結果 /オプト/転送データ/パイプライン
cp -rf /ホーム/トランスクリプトームパイプライン/データ /オプト/転送データ/パイプライン
注: ローカル コンピューターに移動して、すべての結果、データセット、およびデータをホスト パスでダウンロードできるようにします。
- 共式モジュールを識別する。
- 共同式モジュール識別ツール(CEMiTool)のウェブサイトにアクセス (の表
材料)。このツールは、ユーザーが提供する式データセットから、共同式モジュールを識別します。メイン ページで、右上の [ 実行 ] をクリックします。これにより、式ファイルをアップロードする新しいページが開きます。 - [式ファイル]セクションの下の[ファイルを選択]をクリックし、ホストパスから正規化された遺伝子発現行列'tmm_expression.tsv'をアップロードします。
注: ステップ 4.4.は必須ではない。
- 共同式モジュール識別ツール(CEMiTool)のウェブサイトにアクセス (の表
- 共発現モジュールの生物学的意味を探る。
- サンプルの「形式」セクションで「ファイルを選択」をクリックし、サンプルの「データのダウンロード」ステップ 4.2.2 からサンプルの「metadata_cemitool.tsv」を使用してファイルをアップロードします。遺伝子セット濃縮解析(GSEA)を実施する。
- [遺伝子相互作用] セクションで [ファイルの選択] を押して、ジーン相互作用 (cemitool-interactions.tsv) を含むファイルをアップロードします。webCEMiToolによって例として提供される遺伝子相互作用のファイルを使用することができる。相互作用は、タンパク質相互作用、転写因子およびそれらの転写された遺伝子、または代謝経路であり得る。このステップでは、各コ式モジュールの相互作用ネットワークが生成されます。
- [遺伝子セット] セクションの [ファイルの選択] をクリックして、遺伝子マトリックストランスポーズ (GMT) 形式のファイルに機能的に関連する遺伝子のリストをアップロードします。ジーンセットファイルを使用すると、ツールは各共発現モジュール、すなわち過剰表現解析(ORA)のエンリッチメント分析を実行できます。
注:この遺伝子のリストには、経路、GO用語、またはmiRNA標的遺伝子が含まれる可能性があります。研究者は、この分析のための遺伝子セットとして血液転写モジュール(BTM)を使用することができます。BTM ファイル (BTM_for_GSEA.gmt)。
- 共式解析を実行するためのパラメータを設定し、その結果を取得します。
- 次に、正符号をクリックして [ パラメータ ] セクションを展開し、既定のパラメータを表示します。必要に応じて、変更します。[ VST の適用 ] ボックスをオンにします。
- 電子 メール セクションに 電子メールを書き込み、結果を電子メールとして受信します。この手順はオプションです。
- [CEMiTool の実行] ボタンを押します。
- 右上にある[完全レポートをダウンロード]をクリックして 、完全な分析レポートをダウンロード します。圧縮ファイルcemitool_results.zipダウンロードされます。
- winRAR を使用してcemitool_results.zipの内容を抽出します。
注: 抽出された内容を含むフォルダには、解析のすべての結果と、それらのパラメータが設定された複数のファイルが含まれます。
5. サンプルの摂動の分子程度の決定
- 摂動の分子程度(MDP)ウェブ版。
- MDP を実行するには、MDP の Web サイト (資料一覧) にアクセスします。MDPは、各サンプルの分子距離を基準から計算します。[ 実行 ] ボタンをクリックします。
- [ ファイルの選択] リンクで、式ファイル tmm_expression.tsv をアップロードします。次に、ダウンロードデータステップ 4.2.2 から、hehenotipic データファイル metadata.tsv をアップロードします。また、GMT形式で経路注釈ファイルを提出して、疾患に関連する経路の摂動スコアを計算することもできる。
- データがアップロードされたら、MDP で使用される表向きの情報を含むクラス列を定義します。次に、コントロール クラスに対応するラベルを選択して、コントロール クラスを定義します。
注: サンプルスコアの計算方法に影響を与えるオプションのパラメータがいくつかあります。必要に応じて、ユーザは、摂動遺伝子の統計平均法、標準偏差、および上位パーセンテージを変更することができる。 - その後、 MDPを実行 ボタンを押すと、MDPの結果が表示されます。ユーザーは、各プロットの ダウンロードプロット をクリックすると、 MDPスコアファイルのダウンロード ボタンのMDPスコアをクリックして、数字をダウンロードすることができます。
注: ファイルの提出方法や MDP の動作に関する質問がある場合は、チュートリアルと Web ページを参照してください。
6. 機能強化分析
- ダウン規制された DEG のリストと、さらに規制された DEG のリストを作成します。遺伝子名は Entrez 遺伝子シンボルに従う必要があります。リストの各遺伝子は1行に配置する必要があります。
- 遺伝子リストを txt または tsv 形式で保存します。
- 機能解析を実行するには、エンリッチャーのウェブサイト(資料表)にアクセスします。
- [ファイルを選択]をクリックして、遺伝子のリストを 選択します。いずれかの DEG リストを選択し、[ 送信] ボタンを押します。
- WEB ページの上部にある [パスウェイ ] をクリックして、ORA アプローチを使用して機能拡張分析を実行します。
- 経路データベースを選択します。「Reactome 2016」経路データベースは、ヒトデータの生物学的意味を得るために広く使用される。
- 経路データベースの名前をもう一度クリックします。 棒グラフを 選択し、p値ランキングで並べ替えられているかどうかを確認します。表示されていない場合は、p値で並べ替えられるまで棒グラフをクリックします。この棒グラフはp値に従って上位10の経路を含む。
- [構成] ボタンを押して、アップレギュレート遺伝子分析の赤い色を選択し、下降制御遺伝子分析用の青色を選択します。svg、png、および jpg をクリックして、棒グラフを複数の形式で保存します。
- [テーブル] を選択し、棒グラフの左下にある [テーブルにエントリをエクスポート] をクリックして、機能拡張分析結果を txt ファイルに出力します。
注:この機能的エンリッチメント結果ファイルは、各行に1つの経路の名前、提出されたDEGリストと経路の間の重複した遺伝子の数、p値、調整されたp値、オッズ比、結合スコア、および経路に関与するDEGリストに存在する遺伝子の遺伝子シンボルを包含する。 - 他の DEG リストでも同じ手順を繰り返します。
注: ダウンレギュレーション DEG による解析は、ダウンレギュレーション遺伝子に富んだ経路を提供し、アップレギュレート遺伝子を用いた解析は、アップレギュレーション遺伝子に富んだ経路を提供します。
Subscription Required. Please recommend JoVE to your librarian.
Representative Results
トランスクリプトーム分析のコンピューティング環境は、Docker プラットフォームで作成および構成されました。このアプローチにより、初心者の Linux ユーザーは、事前管理知識を持たずに Linux 端末システムを使用できます。Docker プラットフォームは、ホスト OS のリソースを使用して、特定のユーザーのツールを含むサービス コンテナーを作成します (図 1B)。Linux OS Ubuntu 20.04 ディストリビューションに基づくコンテナが作成され、コマンドラインターミナル から アクセス可能なトランスクリプトミック分析用に完全に構成されました。このコンテナには、すべてのパイプライン分析に必要なデータセットとスクリプト用の事前定義されたフォルダ構造があります(図1C)。我々の研究グループ7 が発表した研究は、分析に使用され、健康な個体からの20のサンプルとCHIKV急性感染者からの39のサンプルで構成された(図1D)。
RNAの全シーケンシングのプロセスは、読み取りエラーを生成する可能性があり、これは2つ以上の転写物を持つクラスターまたは試薬の枯渇によって引き起こされる可能性があります。シーケンスプラットフォームは、シーケンス(読み取り)と各ヌクレオチドベースの関連する品質を含む一連の「FASTQ」ファイルを返します(図2A)。Phred の品質スケールは、各底面の読み取りが正しくない確率を示します(図 2B)。低品質の読み取りは、バイアスや不適切な遺伝子発現を生成し、下流の分析に連続したエラーを引き起こす可能性があります。Trimmomaticなどのツールは、サンプルから低品質の読み取りを識別して削除し、読み取りのマッピングの確率を高めるために開発されました(図2C、D)。
マッピングモジュールは、STARアライナーとGRCh38ヒトホストを基準ゲノムとして事前構成した。このステップでは、前のステップから回収された高品質の読み取り値を、ヒト参照ゲノムに対して整列させる入力として使用します(図3A)。STAR アライナは、マップされた読み取りのアライメントを BAM 形式ファイルの参照ゲノムに出力します。このアライメントに基づいて、FeatureCounts ツールは、GTF ファイル形式で人間のホストの参照注釈を使用して、位置合わせされた読み取りのフィーチャ (遺伝子) のアノテーションを実行します (図 3B)。最後に、各遺伝子名を1行とする発現マトリックスと、各サンプルを1列として生成する(図3C)。さらに下流の分析を行うために、サンプル名と各サンプルグループを含む追加のメタデータファイルも提供する必要があります。遺伝子発現マトリックスは、サンプル間で各遺伝子にマッピングされたカウント数を表し、DEGを識別するためのEdgeR入力として使用できます。また、TMMとCPMを用いて正規化し、試料中の全ライブラリーサイズで発現した遺伝子の割合を考慮して、技術的な変動性を取り除き、RNA-seq測定を補正しました。この行列は、共式およびMDP解析の入力としてさらに使用されました。
CEMiTool は、共式モジュール12を識別して分析します。同じモジュール内にあるジーンは共発現しているため、データセットのサンプル全体で同様の表現パターンを示します。このツールは、識別された各モジュールの生物学的有意性の探索も可能にします。GSEAによる機能エンリッチメント解析、オーバーリプレゼンテーション解析(ORA)による機能エンリッチメント解析、ネットワーク解析の3つのオプション分析を提供します。GSEAによる機能濃縮解析は、各表現型における各モジュールの遺伝子発現に関する情報を提供する(図4A)。これによれば、各表現型で抑圧または誘発されるモジュールの同定を可能にする。ORA分析は、調整されたp値でソートされた各モジュールの上位10個の有意に富化した生物学的機能を示す。GSEAとORAの結果を組み合わせて、障害のある生物学的プロセスを特定し、それらが標的の表現型によって抑圧または誘発されているかどうかを特定することが可能です。ネットワーク解析は各モジュールの相互作用を提供します(図4A)。これにより、各モジュールの遺伝子がどのように相互作用するかを視覚化できます。さらに、ネットワーク解析は、ネットワーク内の名前で識別される、最も接続された遺伝子、ハブに関する情報を提供します。ノードのサイズは、接続の程度を表します。
DEG を識別するために、社内スクリプトを開発し、エンドツーエンドの差分分析を単一方向および簡潔なコマンド ラインで実行します。このスクリプトは、DEG 分析を実行するために必要なすべての手順を実行し、メタデータ ファイル内のユーザーが提供するさまざまなサンプル グループを比較します。さらに、DEGの結果は、ダウンレギュレート遺伝子とアップレギュレーション遺伝子の別々のリストに保存され、次にバイオコンダクタからのEnhancedVolcano Rパッケージを使用して出版準備ができている図(図4B)にまとめられます。
MDPツールによって行われた摂動の分子程度の分析は私達が健康および感染した個人からの摂動サンプルを識別することを可能にする11。摂動スコアは、CHIKV感染した各サンプルに対して発現したすべての遺伝子を考慮して計算され、健常サンプルを参照群として考慮する(図5A)。MDPはまた、これらのサンプルから最も摂動された遺伝子の上位25%のみを使用して分析を行います(図5B)。サンプルは、遺伝的背景、年齢、性別、またはその他の以前の疾患を考えると、大きな変動を示すことができます。これらの要因は、トランスクリプトームプロファイルを変更することができます。これに基づいて、MDPは、どのサンプルが生物学的外れ値を除去し、下流の結果を改善する潜在的な生物学的外れ値であるかを示唆しています(図5A、B)。
ORAによる機能エンリッチメント解析は、DEGの生物学的意味を特定するために、エンリッチャーを用いて行うことができます。ダウンレギュレーション遺伝子のリストに基づいて提供された結果は、研究された表現型における抑圧された生物学的プロセスを示し、アップレギュレート遺伝子のリストに基づいて提供される結果は、目的の表現型で誘発される生物学的プロセスを提示する。エンキーによって生成された棒グラフに示す生物学的プロセスは、p値の順位に基づく上位10の濃縮された遺伝子セットである(図6)。
図 1: 環境ドッカーとサンプルスタディ. (A) Docker プラットフォームは、OS ホストリソースを使用して、トランスクリプトーム分析用のツールを含む Linux システムの「コンテナー」を作成します。(B) Docker コンテナーは、パイプライン スクリプトを実行する Linux システムをシミュレートします。(C) トランスクリプトーム パイプラインのフォルダ構造が作成され、分析用のデータセットとスクリプトを格納するように編成されました。(D) 我々のグループからの研究は、トランスクリプトーム分析の例として使用された。 この図の大きなバージョンを表示するには、ここをクリックしてください。
図2:シーケンシングの品質管理(A)FASTQフォーマットファイルは、配列およびヌクレオチド塩基の品質を表すために使用される。(B)10個ごとに対数確率誤読基数が増加するPhredスコア方程式。(C)および(D)ボックスプロットは、それぞれ、Trimmomatic実行の前後の各ヌクレオチド塩基の品質分布を表す。この図の大きなバージョンを表示するには、ここをクリックしてください。
図3:配列から遺伝子数発現へのマッピングとアノテーションプロセス (A) マッピングは、ゲノム局在を同定するために、転写産物とゲノムからの配列を整列させることから成る。(B)参照ゲノムにマッピングされた読み取りは、重複のゲノム局在に基づいてアノッティングされる。(C)featureCountsなどのマッピングファイルツールに基づいて、遺伝子発現を要約する。 この図の大きなバージョンを表示するには、ここをクリックしてください。
図4:遺伝子の共発現ネットワークと、モジュール 遺伝子からのタンパク質相互作用ネットワークに基づく共発現のモジュール(A)の統計解析。(B)CHIKV急性感染者および健康な個体の統計分析、および赤(p値およびlog2FC基準)、紫色(p値のみ)、緑色(log2FCのみ)、および灰色(有意性なし)の微分遺伝子発現。 この図の大きなバージョンを表示するには、ここをクリックしてください。
図5:CHIKV急性感染者および健康な個体の摂動の分子程度(MDP)は、トランスクリプトームから発現したすべての遺伝子を用いて各サンプルのMDPスコア。(B)最も摂動性の高い遺伝子の上位25%のみを使用した各サンプルのMDPスコア。この図の大きなバージョンを表示するには、ここをクリックしてください。
図6:(A)UP調節遺伝子および(B)ダウンレギュレート遺伝子の機能解析を、生物学的経路または代表的な遺伝子セットを評価するために、リエンrウェブサイトツールに提出した。P値は各経路について計算され、有意差のみが図に示された。この図の大きなバージョンを表示するには、ここをクリックしてください。
Subscription Required. Please recommend JoVE to your librarian.
Discussion
シーケンシングライブラリの準備は、可能な限り最善の方法で生物学的な質問に答えするための重要なステップです。研究の関心のあるトランスクリプトの種類は、どのシーケンシングライブラリが選択されるかの指針となり、バイオインフォマティクス分析を推進します。例えば、病原体と宿主相互作用のシーケンシングから、シーケンシングの種類に応じて、ホストトランスクリプトの両方から、あるいは単に配列を同定することができる。
次世代シーケンシング装置、例えば、イルミナプラットフォームは、塩基が誤って呼び出される確率を表すシーケンシング品質スコアを測定します。下流の解析は、低品質の配列に非常に敏感であり、読み取り過少または誤読遺伝子発現につながります。正しい解析と解釈を行う上でのもう 1 つのハードルは、アダプタ シーケンスです。アダプター・シーケンスはライブラリーの準備およびシーケンスに役立ち、ほとんどの場合、アダプターもシーケンス化されます。最近の研究では、マッピングツールが最終結果に与える影響は最小限の13であることを確認しました。しかし、病原体宿主研究では、マッピングプロセスは、マルチマッピングされた軌跡配列の問題を最小限に抑えるために異なる閾値をテストする際に、わずかに良い結果を生成することができます。
遺伝子発現の結果は、特にグループあたりのサンプル数が非常に少ない場合、サンプルが異なるアッセイから来て、DEGの結果をバッチ効果によって妨害する場合には、ある程度の注意を払って解釈する必要があります。これらの結果は、(i) 低発現遺伝子や維持するサンプルの数の除去など、適用されるデータフィルタリングのいくつかの要因に敏感です。(ii)研究設計は、CHIKVの研究7で示されるように、サンプル群または各感染患者対すべてのコントロール患者の間でちょうど比較する。(iii) DEGs の識別に使用される統計メソッド。ここでは、しきい値 p 値 0.05 を仮定して DEG を識別する EdgeR の基本的な例を示します。また、他のベンチマーク法と比較して、EdgeRはDEGs14を同定する際に大きな変動性を有することができることも文献で知られている。このような異なる方法のトレードオフを考慮し、利用可能な反復の数と実験design14の複雑さを考慮に入れるかもしれません。
CEMiToolは共発現モジュール解析を行う12.このツールは、バイオコンダクタリポジトリのRパッケージを通して利用可能であり、webCEMiToolを通じてユーザーフレンドリーなバージョンでも利用可能です。後者は、この現在のプロトコルで使用されるバージョンです。これは、よりユーザーフレンドリーであるという事実を含め、後者16と比較していくつかの利点を提示するWGCNA15に関連して代替ソフトウェアです17。さらに、このツールは、WGCNAでは、ユーザーがWGCNAを使用する前に遺伝子をフィルタリングする必要がある一方、遺伝子をフィルタリングするための自動方法を有する。さらに、このツールにはデフォルトパラメータが設定されていますが、WGCNAではパラメータ解析を手動で選択する必要があります。手動パラメータ選択は再現性を損なう;従って、自動パラメータ選択は改善された再現性を保証する。
CEMiTool が適切なソフトしきい値 (β値とも呼ばれる) を見つけることができない場合があります。この場合、ユーザーはRNA-seqデータが強い平均分散依存性を示すかどうかを確認する必要があります。平均が分散と強い線形関係を示す場合(すべての遺伝子を考慮して)、ユーザーはトランスクリプトデータの平均分散依存性を取り除くために「VSTを適用」パラメータをチェックする分析を再実行する必要があります。データに強い平均分散依存性があるかどうかを確認し、データが存在する場合はそれを削除することは常に重要です。
CEMiToolは、共発現モジュールの生物学的意味を同定し、探求するために広く使用されてきました。CHIKV急性感染研究は、症状の発症の2〜4日後の患者においてより高い活性を有するモジュールを示した7。ORAによるこのモジュールの機能濃縮は、単球および好中球7の増加を示した。ワクチン接種後のベースラインから7日目までの血液転写を用いたインフルエンザワクチン接種試験では、T、B、およびナチュラルキラー細胞、単球、好中球、インターフェロン応答、および血小板活性化に関連する生物学的プロセスに機能的に富化された共発現モジュールを発表した。
トランスクリプトームデータセットからの変動性を考慮すると、多くの変数が遺伝子発現プロファイルに影響を与える可能性があるため、データの異質性を特定して定量化することは困難です。MDP は、次の手順に従って、健康な対象および感染した被験者から摂動サンプルを識別および定量化する方法を提供します。(ii) 得られた値を使用して、すべての遺伝子のZスコアを計算する。(iii) z スコアの絶対値が 2 より大きいしきい値を設定し、制御サンプルからの代表的な偏差を示します。(iv)各サンプルに対してフィルタリングされたスコアを用いて、遺伝子値の平均を計算する。scRNA-seq分析にはいくつかの制限があるにもかかわらず、このツールはマイクロアレイおよびRNA-seq data11からの摂動スコアを決定する上で機能的であった。さらに、以前の研究では、結核および糖尿病患者19における血液転写体に上昇した摂動の分子程度を実証するためにこのツールを使用しています。本研究では、健常者を基準群として用いた制御およびCHIKV急性感染サンプルの摂動が示されている。
エンリッチャーが行う機能エンリッチメント分析はORA20,21です。ORA は、ユーザーが DEG のリストをツールに提供する必要がある機能拡張分析の 1 つのタイプです。通常、DEG のリストは、規制下の DEG リストと、アップレギュレーション DEG リストに分類されます。ORAを実行するための他のツールは、その中で、gProfilerは、ユーザーフレンドリーなWebバージョン22と、生体伝導体のRパッケージとして利用可能なgoseq23で利用可能です。機能強化分析のもう一つのタイプはGSEAです。GSEA を実行するには、ユーザーはランク付けされたリスト内のすべての遺伝子を提供する必要があります。このリストは、通常、フォールド変化における遺伝子発現に応じてランク付けされる。
エンリッチは、棒グラフの結果の p 値に基づいて濃縮された上位 10 個の遺伝子セットを常に提供します。したがって、ユーザは、結果を解釈する際に警戒しなければならないが、10未満の濃縮された遺伝子セットがある場合、棒グラフはまた、非濃縮生物学的プロセスを示す。このエラーを回避するには、p値のカットオフを確立し、棒グラフのすべての遺伝子セットが富化されると仮定する前に、経路のp値を観察する必要があります。さらに、ユーザーは、棒グラフに表示される10個の遺伝子セットの順序が、調整されたp値ではなくp値に従っていることを認識しなければならない。ユーザーが、すべての濃縮された経路を棒グラフに表示したい場合や、調整されたp値に従って並べ替えたい場合は、ダウンロードしたテーブルを使用して独自の棒グラフを作成することをお勧めします。ユーザーは、ExcelまたはRソフトウェアを使用して新しい棒グラフを作成することができます。
Subscription Required. Please recommend JoVE to your librarian.
Disclosures
著者らは開示するものは何もない。
Acknowledgments
HNはFAPESP(助成金番号:#2017/50137-3、2012/19278-6、2018/14933-2、2018/21934-5、2013/08216-2)およびCNPq(313662/2017-7)によって資金提供されています。
私たちは、フェローのための次の助成金に特に感謝しています: ANAG (FAPESPプロセス2019/13880-5), VEM (FAPESPプロセス2019/16418-0), IMSC (FAPESPプロセス2020/05284-0), APV (FAPESPプロセス2019/27146-1) RLTO (CNPq プロセス 134204/2019-0)。
Materials
Name | Company | Catalog Number | Comments |
CEMiTool | Computational Systems Biology Laboratory | 1.12.2 | Discovery and the analysis of co-expression gene modules in a fully automatic manner, while providing a user-friendly HTML report with high-quality graphs. |
EdgeR | Bioconductor (Maintainer: Yunshun Chen [yuchen at wehi.edu.au]) | 3.30.3 | Differential expression analysis of RNA-seq expression profiles with biological replication |
EnhancedVolcano | Bioconductor (Maintainer: Kevin Blighe [kevin at clinicalbioinformatics.co.uk]) | 1.6.0 | Publication-ready volcano plots with enhanced colouring and labeling |
FastQC | Babraham Bioinformatics | 0.11.9 | Aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing |
FeatureCounts | Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research | 2.0.0 | Assign mapped sequencing reads to specified genomic features |
MDP | Computational Systems Biology Laboratory | 1.8.0 | Molecular Degree of Perturbation calculates scores for transcriptome data samples based on their perturbation from controls |
R | R Core Group | 4.0.3 | Programming language and free software environment for statistical computing and graphics |
STAR | Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research | 2.7.6a | Aligner designed to specifically address many of the challenges of RNA-seq data mapping using a strategy to account for spliced alignments |
Bowtie2 | Johns Hopkins University | 2.4.2 | Ultrafast and memory-efficient tool for aligning sequencing reads to long reference sequences |
Trimmomatic | THE USADEL LAB | 0.39 | Trimming adapter sequence tasks for Illumina paired-end and single-ended data |
Get Docker | Docker | 20.10.2 | Create a bioinformatic environment reproducible and predictable (https://docs.docker.com/get-docker/) |
WSL2-Kernel | Windows | NA | https://docs.microsoft.com/en-us/windows/wsl/wsl2-kernel |
Get Docker Linux | Docker | NA | https://docs.docker.com/engine/install/ubuntu/ |
Docker Linux Repository | Docker | NA | https://docs.docker.com/engine/install/ubuntu/#install-using-the-repository |
MDP Website | Computational Systems Biology Laboratory | NA | https://mdp.sysbio.tools |
Enrichr Website | MaayanLab | NA | https://maayanlab.cloud/Enrichr/ |
webCEMiTool | Computational Systems Biology Laboratory | NA | https://cemitool.sysbio.tools/ |
gProfiler | Bioinformatics, Algorithmics and Data Mining Group | NA | https://biit.cs.ut.ee/gprofiler/gost |
goseq | Bioconductor (Maintainer: Matthew Young [my4 at sanger.ac.uk]) | NA | http://bioconductor.org/packages/release/bioc/html/goseq.html |
SRA NCBI study | NCBI | NA | https://www.ncbi.nlm.nih.gov/bioproject/PRJNA507472/ |
References
- Weaver, S. C., Charlier, C., Vasilakis, N., Lecuit, M. Zika, Chikungunya, and Other Emerging Vector-Borne Viral Diseases. Annual Review of Medicine. 69, 395-408 (2018).
- Burt, F. J., et al. Chikungunya virus: an update on the biology and pathogenesis of this emerging pathogen. The Lancet. Infectious Diseases. 17 (4), 107-117 (2017).
- Hua, C., Combe, B.
Chikungunya virus-associated disease. Current Rheumatology Reports. 19 (11), 69 (2017). - Suhrbier, A., Jaffar-Bandjee, M. -C., Gasque, P.
Arthritogenic alphaviruses-an overview. Nature Reviews Rheumatology. 8 (7), 420-429 (2012). - Nakaya, H. I., et al. Gene profiling of chikungunya virus arthritis in a mouse model reveals significant overlap with rheumatoid arthritis. Arthritis and Rheumatism. 64 (11), 3553-3563 (2012).
- Michlmayr, D., et al. Comprehensive innate immune profiling of chikungunya virus infection in pediatric cases. Molecular Systems Biology. 14 (8), 7862 (2018).
- Soares-Schanoski, A., et al. Systems analysis of subjects acutely infected with the Chikungunya virus. PLOS Pathogens. 15 (6), 1007880 (2019).
- Alexandersen, S., Chamings, A., Bhatta, T. R. SARS-CoV-2 genomic and subgenomic RNAs in diagnostic samples are not an indicator of active replication. Nature Communications. 11 (1), 6059 (2020).
- Wang, D., et al. The SARS-CoV-2 subgenome landscape and its novel regulatory features. Molecular Cell. 81 (10), 2135-2147 (2021).
- Wilson, J. A. C., et al. RNA-Seq analysis of chikungunya virus infection and identification of granzyme A as a major promoter of arthritic inflammation. PLOS Pathogens. 13 (2), 1006155 (2017).
- Gonçalves, A. N. A., et al. Assessing the impact of sample heterogeneity on transcriptome analysis of human diseases using MDP webtool. Frontiers in Genetics. 10, 971 (2019).
- Russo, P. S. T., et al. CEMiTool: a Bioconductor package for performing comprehensive modular co-expression analyses. BMC Bioinformatics. 19 (1), 56 (2018).
- Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12 (12), 0190152 (2017).
- Seyednasrollah, F., Laiho, A., Elo, L. L. Comparison of software packages for detecting differential expression in RNA-seq studies. Briefings in Bioinformatics. 16 (1), 59-70 (2015).
- Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, Article17 (2005).
- Cheng, C. W., Beech, D. J., Wheatcroft, S. B. Advantages of CEMiTool for gene co-expression analysis of RNA-seq data. Computers in Biology and Medicine. 125, 103975 (2020).
- Cardozo, L. E., et al. webCEMiTool: Co-expression modular analysis made easy. Frontiers in Genetics. 10, 146 (2019).
- de Lima, D. S., et al. Long noncoding RNAs are involved in multiple immunological pathways in response to vaccination. Proceedings of the National Academy of Sciences of the United States of America. 116 (34), 17121-17126 (2019).
- Prada-Medina, C. A., et al. Systems immunology of diabetes-tuberculosis comorbidity reveals signatures of disease complications. Scientific Reports. 7 (1), 1999 (2017).
- Chen, E. Y., et al. Enrichr: interactive and collaborative HTML5 gene list enrichment analysis tool. BMC Bioinformatics. 14, 128 (2013).
- Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
- Raudvere, U., et al. g:Profiler: a web server for functional enrichment analysis and conversions of gene lists (2019 update). Nucleic Acids Research. 47, 191-198 (2019).
- Young, M. D., Wakefield, M. J., Smyth, G. K., Oshlack, A. Gene ontology analysis for RNA-seq: accounting for selection bias. Genome Biology. 11 (2), 14 (2010).