Summary
DiCoExpress は、品質管理から共発現までの RNA-Seq 分析を実行するために R に実装されたスクリプトベースのツールです。DiCoExpressは、最大2つの生物学的要因まで完全でアンバランスな設計を処理します。このビデオチュートリアルでは、DiCoExpressのさまざまな機能について説明します。
Abstract
NGSデータ分析で統計モデリングを適切に使用するには、高度な専門知識が必要です。最近、RNA-Seqデータの微分解析に一般化線型モデルを使用することと、共発現解析を実行するための混合モデルの利点について、コンセンサスが高まっています。これらのモデリングアプローチを使用するための管理された設定を提供するために、RNA-Seq分析を実行するための標準化されたRパイプラインを提供するDiCoExpressを開発しました。統計学やRプログラミングの知識がなくても、一般化線型モデル内のコントラストに基づく微分解析により、品質管理から共発現まで、完全なRNA-Seq解析を実行できます。エンリッチメント解析は、発現差のある遺伝子のリストと、共発現遺伝子クラスターの両方で提案されています。このビデオチュートリアルは、ユーザーがDiCoExpressとRNA-Seq実験の生物学的解釈を強化する可能性を最大限に活用するのに役立つステップバイステップのプロトコルとして考案されています。
Introduction
次世代RNAシーケンシング(RNA-Seq)技術は、トランスクリプトーム解析のゴールドスタンダードとなっています1。この技術の黎明期から、バイオインフォマティシャンと生物統計学者の共同の努力により、マッピングから転写産物の定量化まで、トランスクリプトーム解析のすべての重要なステップに取り組む多数の方法が開発されました2。生物学者が現在利用できるツールのほとんどは、統計計算とグラフ3のためのRソフトウェア環境内で開発されており、生物学的データ分析のための多くのパッケージはBioconductorリポジトリ4で利用可能です。これらのパッケージは、分析の完全な制御とカスタマイズを提供しますが、コマンドラインインターフェイスの広範な使用を犠牲にしています。多くの生物学者は「ポイントアンドクリック」アプローチ5により慣れているため、RNA-Seq分析の民主化には、よりユーザーフレンドリーなインターフェースまたはプロトコルの開発が必要です6。例えば、Shiny7 を使用して R パッケージの Web インターフェイスを構築することができ、R-studio8 インターフェイスを使用するとコマンドラインデータ分析がより直感的になります。専用のステップバイステップのチュートリアルの開発は、新しいユーザーにも役立ちます。特に、ビデオチュートリアルは古典的なテキストチュートリアルを補完し、すべての手順ステップの理解を深めます。
我々は最近、中立的な比較研究10,11,12に基づいて最良のものと考えられる方法を用いて、Rにおける多因子RNA-Seq実験を分析するためのツールであるDiCoExpress9を開発しました。DiCoExpressは、カウントテーブルから始めて、データ品質管理ステップを提案し、続いて一般化線型モデル(GLM)を用いた差動遺伝子発現解析(edgeRパッケージ13)およびガウス混合モデル(coseqパッケージ12)を用いた共発現クラスターの生成を提案します。DiCoExpressは、最大2つの生物学的要因(遺伝子型と治療)と1つの技術的要因(すなわち、複製)までの完全でアンバランスな設計を処理します。DiCoExpressの独創性は、データ、スクリプト、および結果を格納および整理するディレクトリアーキテクチャと、コントラストの書き込みの自動化にあり、ユーザーは同じ統計モデル内で多数の質問を調査できます。統計結果を示すグラフィカルな出力を提供する努力も行われました。
DiCoExpressワークスペースは https://forgemia.inra.fr/GNet/dicoexpress でご利用いただけます。4つのディレクトリ、2つのpdf、2つのテキストファイルが含まれています。Data/ ディレクトリには、入力データセットが含まれています。このプロトコルでは、「チュートリアル」データセットを使用します。Sources/ ディレクトリには、分析の実行に必要な 7 つの R 関数が含まれており、ユーザーが変更してはなりません。分析は、Template_scripts/ ディレクトリに格納されているスクリプトを使用して実行されます。このプロトコルで使用されるプロトコルはDiCoExpress_Tutorial_JoVE.Rと呼ばれ、任意のトランスクリプトームプロジェクトに簡単に適応できます。すべての結果は Results/ ディレクトリに書き込まれ、プロジェクトに従って名前が付けられたサブディレクトリに格納されます。README.md ファイルには有用なインストール情報が含まれており、メソッドとその使用法に関する特定の詳細はDiCoExpress_Reference_Manual.pdfファイルにあります。
このビデオチュートリアルでは、コマンドラインベースのツールを使用して生物学者が感じる躊躇を克服することを目的として、DiCoExpressのさまざまな機能について説明します。ここでは、治療の有無にかかわらず、4つの遺伝子型の3つの生物学的複製における遺伝子発現を記述する人工RNA-Seqデータセットの解析を提示する。次に、図 1 に示す DiCoExpress ワークフローのさまざまな手順について説明します。「プロトコル」セクションで説明されているスクリプトと入力ファイルは、サイトで入手できます: https://forgemia.inra.fr/GNet/dicoexpress
データファイルの準備
Data/ ディレクトリに格納されている 4 つの csv ファイルは、プロジェクト名に従って名前を付ける必要があります。したがって、この例では、すべての名前は「チュートリアル」で始まり、プロトコルのステップ4でProject_Name = 「チュートリアル」を設定します。csv ファイルで使用される区切り記号は、ステップ 4 の Sep 変数に指定する必要があります。「チュートリアル」データセットでは、区切り文字は表です。上級ユーザーの場合、Filter 変数を使用して命令のリストと新しいProject_Nameを提供することで、データセット全体をサブセットに縮小できます。このオプションは、入力ファイルの冗長コピーを回避し、FAIR 原則14 を検証します。
4 つの csv ファイルのうち、COUNTS ファイルと TARGET ファイルのみが必須です。それらには、すべての遺伝子の生カウント(ここではTutorial_COUNTS.csv)と実験計画の説明(ここではTutorial_TARGET.csv)が含まれています。TARGET.csv ファイルには、すべてのサンプル (行ごとに 1 つのサンプル) が、各生物学的または技術的要因 (列内) のモダリティとともに記述されます。モダリティに選択する名前は、数字ではなく文字で始めることを強くお勧めします。最後の列の名前 ("レプリケート") は変更できません。最後に、サンプル名 (最初の列) は、COUNTS.csv ファイルの見出しの名前と一致する必要があります (この例ではGenotype1_control_rep1)。Enrichment.csv ファイルで、すべての行に 1 つのGene_IDと 1 つの注釈用語が含まれているのは、ユーザーがエンリッチメント分析を実行する予定がある場合のみです。1つの遺伝子に複数の注釈がある場合、それらは異なる行に記述する必要があります。Annotation.csv ファイルはオプションであり、出力ファイル内のすべての遺伝子の簡単な説明を追加するために使用されます。注釈ファイルを取得する最善の方法は、専用のデータベース(例:Thalemine:シロイヌナズナの https://bar.utoronto.ca/thalemine/begin.do)から情報を取得することです。
ディコエクスプレスの設置
DiCoExpress には、特定の R パッケージが必要です。コマンドラインソース("../Sources/Install_Packages.R") を R コンソールで表示し、必要なパッケージのインストール状態を確認します。Linux上のユーザーにとって、もう1つの解決策は、DiCoExpress専用で https://forgemia.inra.fr/GNet/dicoexpress/container_registry で利用可能なコンテナをインストールすることです。定義上、このコンテナーには、ライブラリやその他の依存関係など、必要なすべてのパーツを含む DiCoExpress が含まれています。
Subscription Required. Please recommend JoVE to your librarian.
Protocol
1. ディコエクスプレス
- R スタジオ セッションを開き、ディレクトリを Template_scripts に設定します。
- R スタジオで DiCoExpress_Tutorial.R スクリプトを開きます。
- DiCoExpress 関数を以下のコマンドを使用して R セッションにロードします。
>ソース("../出典/Load_Functions.R")
> Load_Functions()
> Data_Directory = "../データ"
> Results_Directory = "../結果/" - 次のコマンドを使用して、R セッションにデータ・ファイルをロードします。
> Project_Name = "チュートリアル"
> フィルター = NULL
> 9月="\t"
> Data_Files = Load_Data_Files(Data_Directory、Project_Name、フィルター、9月) - オブジェクトData_Filesをいくつかのオブジェクトに分割して、簡単に操作できるようにします。
> Project_Name = Data_Files$Project_Name
>ターゲット = Data_Files$ターゲット
> Raw_Counts = Data_Files$Raw_Counts
>アノテーション = Data_Files$アノテーション
> Reference_Enrichment = Data_Files$Reference_Enrichment - 「Nb条件」、「Nb複製」または「filterByExpr」の中から戦略を選択し、低発現遺伝子をフィルタリングするためのしきい値を選択します。ここで我々は選択します
> Filter_Strategy = "Nbレプリケート"
> CPM_Cutoff = 1 - コマンドでグループの色を指定する
> Color_Group = ヌル
注: NULL に設定すると、R は自動的に生物学的条件に色を属性付けます。それ以外の場合は、生物学的グループごとの色を示すベクトルを入力します。 - edgeR の関数 calcNormFactors によって受け入れられる正規化方法の中から、正規化方法を選択します。例えば
> Normalization_Method = "TMM" - 以下の機能を実行して品質管理を行う
> Quality_Control(Data_Directory、Results_Directory、Project_Name、ターゲット、Raw_Counts、Filter_Strategy、Color_Group、CPM_Cutoff、Normalization_Method) - 状態レプリケート = データがレプリケート係数に従ってペアになっている場合は TRUE、それ以外の場合は FALSE です。
- 交互作用 = TRUE を割り当てて、2 つの生物学的因子間の交互作用を考慮し、それ以外の場合は FALSE を割り当てます。
- 次のコマンドで統計モデルを指定します。
>モデル = GLM_Contrasts(Results_Directory、Project_Name、ターゲット、レプリケート、インタラクション)
> GLM_Model = モデル$GLM_Model
>コントラスト = モデル$コントラスト - 誤検出率のしきい値を定義します。ここでは 0.05
> Alpha_DiffAnalysis = 0.05 - 次のコマンドで微分分析を実行します。
> Index_Contrast=1:nrow(コントラスト)
> NbGenes_Profiles = 20
> NbGenes_Clustering = 50
> DiffAnalysis.edgeR (Data_Directory、Results_Directory、Project_Name、ターゲット、Raw_Counts、GLM_Model、コントラスト、Index_Contrast、Filter_Strategy、Alpha_DiffAnalysis、NbGenes_Profiles、NbGenes_Clustering、CPM_Cutoff、Normalization_Method) - エンリッチメント分析のしきい値を固定する (ここでは 0.01)
> Alpha_Enrichment = 0.01 - 発現差のある遺伝子(DEG)リストのエンリッチメント解析を実行する
>タイトル = ヌル
>エンリッチメント(Results_Directory、Project_Name、タイトル、Reference_Enrichment、Alpha_Enrichment) - 比較する DEG リストを選択します。例えば、
>グループ = コントラスト$コントラスト[24:28] - リスト比較の名前を指定します。この名前は、出力ファイルが保存されるディレクトリに使用されます。
> タイトル = "Interaction_with_Genotypes_1_and_2" - DEG リストで実行するアクションを指定するには、パラメーター Operation を共用体または交点に設定します。私たちは選ぶ
>操作 = "ユニオン" - DEG リストを比較する
> Venn_IntersectUnion(Data_Directory、Results_Directory、Project_Name、タイトル、グループ、操作) - 関数との共発現解析を実行する
> Coexpression_coseq(Data_Directory、Results_Directory、Project_Name、タイトル、ターゲット、Raw_Counts、Color_Group) - 共発現クラスターの濃縮分析の実行
>エンリッチメント(Results_Directory、Project_Name、タイトル、Reference_Enrichment、Alpha_Enrichment) - 分析を再現するために必要なすべての情報を含む 2 つのログ ファイルを生成します。
> Save_Parameters( )
メモ: このプロトコルで使用されるコマンドラインを 図 2 に示します。別のデータセットを分析するために変更する必要がある線が強調表示されます。
Subscription Required. Please recommend JoVE to your librarian.
Representative Results
すべての DiCoExpress 出力は Tutorial/ ディレクトリに保存され、それ自体が Results/ ディレクトリ内に配置されます。ここでは、分析の全体的な品質を評価するためのガイダンスを提供します。
品質管理
Quality_Control/ ディレクトリにある品質管理出力は、RNA-Seq分析結果が信頼できることを確認するために不可欠です。Data_Quality_Control.pdfファイルには、生データと正規化されたデータで得られたいくつかのプロットが含まれており、データに関する潜在的な問題を特定するために使用できます。サンプルごとの正規化度数の合計は、条件内条件と条件間の両方を比較する場合、類似している必要があります。さらに、正規化された遺伝子発現カウントは、条件内および条件間の両方で同様の中央値および分散を示すと予想されます(図3A)。そうしないと、条件間の類似性のない分散の兆候である可能性があり、モデル適合に問題となる可能性があります。
最後に、DiCoExpressで生成された正規化カウントのPCAプロットは、潜在的な基礎となるデータ構造を特定するのに役立ちます(図3B)。この例では、反復によるクラスタリングはなく、この因子は判別的ではありません。同時に、治療間の明確な区別を特定することができる。これらの結果は、生物学的効果が常に反復データセットよりも強いと予想されるため、良質のデータセットを示しています。結論として、ここで観察された全体的な品質は、データセット全体のその後の分析を妨げるものではありません。
統計モデリング
DiCoExpressは、2つの変数 反復 と 交互作用からの平均式の対数の統計モデリングの記述を容易にします。すべての生物学的条件のサンプルを同時に収集し、この実験を異なる日に複製して生物学的変動性を測定する場合、複製効果が考えられる。典型的な植物科学実験では、例えば、試料は、研究中の生物学的条件に関係なく、同じ成長チャンバ内で増殖され、生物学的複製は、異なる日に開始された実験に対応する。この場合、同じレプリケートのサンプルがペアになっているため、 レプリケート を TRUE に設定する必要があります。それ以外の場合は、[ レプリケート] を FALSE に設定する必要があります。この反復効果は、バッチ効果とも呼ばれます。
実験計画が相互作用すると予想される2つの生物学的因子によって記述されている場合は、変数 交互作用 をTRUEに設定して交互作用を考慮します。生物学的因子を 1 つだけ含むプロジェクトの場合、変数 交互作用 は自動的に FALSE に設定されます。
微分解析
テストされたすべてのコントラストについて識別された DEG は、DiffAnalysis/ ディレクトリ内のそれぞれのサブディレクトリにあるテキストファイルで使用できます。デフォルトでは、すべてのコントラストがテストされます。実験計画によっては、いくつかのコントラストが限られた生物学的関心(例えば、いくつかの遺伝子型の平均)であり得る。偽陽性コントロールはコントラストごとに実行され、潜在的に無関係なコントラストが分析に影響を与えないようにします。ただし、 Index_Contrast 変数に作用することによって、利子のコントラストのみを含むプロットを作成することは可能です。詳細については、オンラインリファレンスマニュアルを参照してください。
DiffAnalysis/ には、モデリング11 の品質を評価する最良の方法であることが最近示された生の p 値ヒストグラムも含まれていることに注意することが不可欠です。生のp値の期待される分布は一様であると考えられており、おそらく分布の左端側にピークがあります。生のp値が1の高ピークは、モデルフィッティングの問題を示しています。この場合、多くの場合、設定値 (たとえば、1 から 5 まで) を増やすこCPM_Cutoffで問題を解決できます。生のヒストグラムの例を 図4A および https://forgemia.inra.fr/GNet/dicoexpress/-/blob/master/DiCoExpress_Tutorial.pdf に示します。テストされたコントラストごとに、識別された上位DEG(デフォルトではトップ20)の発現プロファイルが、コントラストのディレクトリにあるファイルTop20_Profile.pdfにプロットされます。1つのコントラストで差次的に発現していると同定された1つの遺伝子の例を 図4Bに示す。アップとダウンのDEGの数は、テストされたコントラストごとにプロットされ、ファイルDown_Up_DEG.pdfで検出されます( 図4Cの例)。
共発現解析
我々の例では、共発現解析は、5つのDEGリストの和集合に対して実行され、対照的に、ジェノタイプ1または2の間の他の遺伝子型に対する治療応答の変動を探すことによって同定される。DEGのベン図は 、図5Aに示されている。同定されたすべてのクラスターについて共発現した遺伝子は、個々のテキストファイル(クラスターごとに1つのファイル)に印刷されます。異なるクラスターの式プロファイルは、Boxplot_profiles_Coseq.pdf ファイルで入手できます ( 図 5B の例を参照)。カスタマイズオプションは使用できますが、上級ユーザーのみが使用してください。さまざまなパラメータの完全な説明については、リファレンスマニュアルを参照してください。
エンリッチメント分析
コントラスト分析とクラスターエンリッチメント分析に対応するリストは、それぞれのディレクトリにあります。この分析で有意であることが判明した注釈用語は、Gene_IDリストで過剰または過小評価されている可能性があります。この情報は出力ファイルに含まれます。
検定の決定は生のp値から行われることに注意してください。ユーザーが生のp値を事後的に調整したい場合は、接尾辞All_Enrichment_Results.txtの付いたファイルで使用できます。
ディコエクスプレスの有効性
DiCoExpressは多因子RNA-Seq実験分析を容易にするために開発されましたが、その結果の妥当性はデータセットの特性に大きく依存します。結果の有効な解釈の前に、いくつかの出力を慎重にチェックする必要があります。まず、品質管理ステップでは、正規化されたライブラリーのサイズは類似している必要があり、正規化された遺伝子発現カウントは、条件内および条件間の両方で同様の中央値および分散を示す必要があります。次に、生のp値ヒストグラムの形状に特に注意を払う必要があります。最後に、共発現解析を実行する場合、ICLの明確に定義された最小値は、良好な品質を示すものである。これらの条件が満たされないことは、結果のいかなる解釈も誤りである可能性がある。
図1.DiCoExpress 分析パイプライン。 DiCoExpressを使用した完全なRNA-Seq分析の7つのステップは、青色のボックスが統計的方法が実行されるステップを表すことが示されています。ステップ7(濃縮)は、ステップ4(微分分析、図2では7.1と名付けられている)および/またはステップ6(共発現分析、図2では7.2と名付けられている)の後に行うことができる。赤い番号は、プロトコルのステップ番号に対応します。この図の拡大版を表示するには、ここをクリックしてください。
図2.DiCoExpress コマンド ラインのスクリーンショット。 チュートリアルデータセットの分析に使用されるコマンドラインが表示されます。黒丸中の数字は 図1と同様である。赤い四角形は、ユーザーがカスタマイズできる線を強調表示します。この図の拡大版を表示するには、ここをクリックしてください。
図3:品質管理工程の代表的な結果。 「チュートリアル」データセットで得られた図は、正規化されたカウントです。 A) 正規化された数の箱ひげ図。 B) 正規化されたカウントの PCA。この図の拡大版を表示するには、ここをクリックしてください。
図4:「チュートリアル」データセットで得られた微分発現解析図の代表的な結果。A)[control_Genotype2-control_Genotype3]コントラストの生のp値ヒストグラム。B)C1G62301.1遺伝子発現プロファイルは、あらゆる遺伝子型および条件において、Top20発現差のある遺伝子の1つである[control_Genotype2-control_Genotype3]対照的である。C)すべての試験対照における上下に発現差のある遺伝子の数。この図の拡大版を表示するには、ここをクリックしてください。
図5:共発現解析の代表的な結果。 「チュートリアル」データセットで取得した図。 A)5「遺伝子型1および2との相互作用」からのDEGのベン図は対照的である。遺伝子型1と2、1と3、1と4、2と3、2と4の間の治療応答変動からのDEGは、それぞれ円A、B、C、D、Eにある。右下に書かれている数字(「14877」)は、どのリストでもDEではない遺伝子の数です。 B)共発現クラスターからの遺伝子の発現プロファイル 3.図はTutorial_Interaction_with_Genotypes_1_and_2_Boxplot_profiles_Coseq.pdfから抽出したものである。この図の拡大版を表示するには、ここをクリックしてください。
Subscription Required. Please recommend JoVE to your librarian.
Discussion
RNA-Seqは生物学的研究においてユビキタスな方法となっているため、汎用性とユーザーフレンドリーな分析ツールの開発が常に必要とされています。ほとんどの分析ワークフローにおける重要なステップは、多くの場合、生物学的条件および/または治療間で発現差のある遺伝子を自信を持って同定することです15。信頼性の高い結果を生み出すには、適切な統計モデリングが必要であり、これがDiCoExpressの開発の動機となっています。
DiCoExpressは、生物学者がDEGを探す際に中立的な比較研究の可能性を最大限に活用するのを助けることを目的としたRに実装されたスクリプトベースのツールですDiCoExpressは、データ構造と品質を評価する機会を提供する標準化されたパイプラインを提供し、したがって、最良のモデリングアプローチが選択されることを保証します。統計学やRプログラミングの知識がなくても、一般化線型モデル内のコントラストに基づく微分解析を通じて、品質管理から共発現まで、完全なRNA-Seq解析を実行できます。DiCoExpressはRNA-Seq分析の統計的部分に焦点を当てており、入力としてカウントテーブルが必要であることに注意することが重要です。RNA-Seq読み取りアライメントとカウントテーブルの作成に特化した複数のバイオインフォマティクス手法は、このツールの範囲外です。それにもかかわらず、それらは最終的な分析の品質に直接影響し、慎重に選択する必要があります。
DiCoExpress は「ポイント アンド クリック」ツールではありませんが、そのディレクトリ アーキテクチャと R-Studio インターフェイスで提供および使用されるテンプレート スクリプトにより、R に関する最小限の知識を持つ生物学者がアクセスできます。DiCoExpress がインストールされると、ユーザーは R で関数を使用する方法と、必須引数と省略可能な引数を識別する方法を知っている必要があります。最初の重要なステップは、すべての遺伝子の生カウント(COUNTSファイル)と実験計画記述(TARGETファイル)を含む2つの必須ファイルを正しく提供することです。使用されるセパレータは、すべてのファイルで同じであるべきであり、サンプルの説明は、生物学的要因のモダリティに従って適切に行われるべきである。2つのファイルがDiCoExpressにロードされると、2番目の重要なステップ、すなわち共発現分析まで、分析はほぼ自動化されます。この分析は確かに時間がかかる可能性があり、大規模なデータセットで実行するには強力な計算サーバーが必要になる場合があります。
コントラストライティングの自動化は、3つ以上の生物学的要因にとって困難になるため、DiCoExpressを最大2つの生物学的要因の完全でアンバランスな設計に制限しました。プロジェクトに 2 つ以上の生物学的要因が含まれている場合、実用的な解決策は、最初の要因の 2 つを折りたたんで新しい要因を作成することです。それにもかかわらず、生物学的因子の数が増えると、意味のある生物学的解釈を与えることの難しさが増すことを心に留めておく必要があります。
DiCoExpressは進化するツールとして構想されており、メーリングリスト(https://groupes.renater.fr/sympa/subscribe/dicoexpress)を購読することを強くお勧めします。ツールの変更や改善はリストに掲載され、質問や提案を歓迎します。また、大規模なコミュニティによるDiCoExpressの採用により、特定の分析コンテキストで発生する可能性のあるバグを追跡して修正できることを願っています。すべての更新と修正は https://forgemia.inra.fr/GNet/dicoexpress gitディレクトリにプッシュされます。
Subscription Required. Please recommend JoVE to your librarian.
Disclosures
著者らは開示するものは何もありません
Acknowledgments
この研究は主にANR PSYCHE(ANR-16-CE20-0009)によって支援された。著者らは、DiCoExpressのコンテナの建設についてF. Desprezに感謝する。KBの作業は、未来への投資ANR-10-BTBR-01-01 Amaizing Programによってサポートされています。GQEおよびIPS2研究所は、Saclay Plant Sciences-SPS(ANR-17-EUR-0007)の支援を受けています。
Materials
Name | Company | Catalog Number | Comments |
References
- Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature reviews. Genetics. 10 (1), 57-63 (2009).
- Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics & Informatics. 13 (4), 119-125 (2015).
- R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , Vienna, Austria. https://www.R-project.org/ (2020).
- Huber, W., et al. Orchestrating high-throughput genomic analysis with Bioconductor. Nature Methods. 12 (2), 115-121 (2015).
- Smith, D. R. The battle for user-friendly bioinformatics. Frontiers in Genetics. 4, 187 (2013).
- Pavelin, K., Cham, J. A., de Matos, P., Brooksbank, C., Cameron, G., Steinbeck, C. Bioinformatics Meets User-Centred Design: A Perspective. PLoS Computational Biology. 8 (7), 1002554 (2012).
- Shiny: web application framework. , Available from: https://rdrr.io/cran/shiny/ (2021).
- RStudio Team. RStudio: Integrated Development for R. RStudio, PBC. , Boston, MA. at (n.d (2020).
- Lambert, I., Roux, C. P. -L., Colella, S., Martin-Magniette, M. -L. DiCoExpress: a tool to process multifactorial RNAseq experiments from quality controls to co-expression analysis through differential analysis based on contrasts inside GLM models. Plant methods. 16 (1), 68 (2020).
- Dillies, M. -A., et al. A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis. Briefings in bioinformatics. 14 (6), 671-683 (2012).
- Rigaill, G. Synthetic data sets for the identification of key ingredients for RNA-seq differential analysis. Briefings in Bioinformatics. 19 (1), (2016).
- Rau, A., Maugis-Rabusseau, C. Transformation and model choice for RNA-seq co-expression analysis. Briefings in Bioinformatics. 19 (3), (2017).
- Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2009).
- Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3 (1), 160018 (2016).
- Stark, R., Grzelak, M., Hadfield, J.
RNA sequencing: the teenage years. Nature Reviews Genetics. 20 (11), 631-656 (2019).