Waiting
Login-Verarbeitung ...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Cancer Research

ثلاث طرق لتحليل التعبير التفاضلي لتسلسل الحمض النووي الريبي: ليما، إيدج آر، DESeq2

Published: September 18, 2021 doi: 10.3791/62528
* These authors contributed equally

Summary

وقدم بروتوكول مفصل لأساليب تحليل التعبير التفاضلي لتسلسل الحمض النووي الريبي: ليما، إيدج آر، DESeq2.

Abstract

تسلسل الحمض النووي الريبي (RNA-seq) هي واحدة من التقنيات الأكثر استخداما على نطاق واسع في transcriptomics لأنها يمكن أن تكشف عن العلاقة بين التغيير الوراثي والعمليات البيولوجية المعقدة ولها قيمة كبيرة في التشخيص، والتكهنات، والعلاجات من الأورام. التحليل التفاضلي للبيانات RNA-seq أمر بالغ الأهمية لتحديد النسخ الشاذة ، و limma و EdgeR و DESeq2 هي أدوات فعالة للتحليل التفاضلي. ومع ذلك، يتطلب التحليل التفاضلي RNA-seq مهارات معينة مع لغة R والقدرة على اختيار طريقة مناسبة، وهو ما يفتقر إليه منهج التعليم الطبي.

هنا، ونحن نقدم بروتوكول مفصل لتحديد الجينات المعرب عنها بشكل تفاضلي (DEGs) بين سرطان cholangiocarcinoma (CHOL) والأنسجة العادية من خلال ليما، DESeq2 وEdgR، على التوالي، وتظهر النتائج في قطع بركان والرسوم البيانية فين. البروتوكولات الثلاثة ليما، DESeq2 و EdgeR متشابهة ولكن لها خطوات مختلفة بين عمليات التحليل. على سبيل المثال، يتم استخدام نموذج خطي للإحصائيات في limma، بينما يتم استخدام التوزيع الثنائي السالب في edgeR و DESeq2. بالإضافة إلى ذلك، فإن بيانات العد RNA-seq العادية ضرورية ل EdgeR و limma ولكنها ليست ضرورية ل DESeq2.

هنا، نقدم بروتوكول مفصل لثلاث طرق تحليل تفاضلي: ليما، إيدجر و DESeq2. نتائج الطرق الثلاث متداخلة جزئيا. جميع الأساليب الثلاثة لها مزاياها الخاصة، واختيار الأسلوب يعتمد فقط على البيانات.

Introduction

تسلسل الحمض النووي الريبي (RNA-seq) هي واحدة من التقنيات الأكثر استخداما على نطاق واسع في transcriptomics مع العديد من المزايا (على سبيل المثال، إعادة إنتاج البيانات العالية)، وزادت بشكل كبير فهمنا لوظائف وديناميات العمليات البيولوجية المعقدة1،2. تحديد النصوص الشاذة في سياق بيولوجي مختلف ، والتي تعرف أيضا باسم الجينات المعرب عنها بشكل تفاضلي (DEGs) ، هو خطوة رئيسية في تحليل الحمض النووي الريبي- seq. RNA-seq يجعل من الممكن الحصول على فهم عميق للآليات الجزيئية ذات الصلة pathogenesis والوظائف البيولوجية. لذلك، يعتبر التحليل التفريقي قيمة للتشخيص، التكهن والعلاجات من الأورام3،4،5. حاليا، تم تطوير المزيد من حزم R/Bioconductor مفتوحة المصدر لتحليل التعبير التفاضلي RNA-seq، وخاصة ليما، DESeq2 و EdgeR1،6،7. ومع ذلك، يتطلب التحليل التفاضلي مهارات معينة مع لغة R والقدرة على اختيار الطريقة المناسبة، والتي تفتقر إليها المناهج الدراسية للتعليم الطبي.

في هذا البروتوكول، استنادا إلى cholangiocarcinoma (CHOL) RNA-seq عدد البيانات المستخرجة من أطلس الجينوم السرطان (TCGA)، ثلاثة من الطرق الأكثر شهرة (ليماEdgeR9 و DESeq210)نفذت، على التوالي، من قبل برنامج R11 لتحديد DEGs بين CHOL والأنسجة العادية. البروتوكولات الثلاثة لليما، إيدجر و DESeq2 متشابهة ولكن لها خطوات مختلفة بين عمليات التحليل. على سبيل المثال، تعد بيانات العد RNA-seq العادية ضرورية ل EdgeR و limma8,9, بينما يستخدم DESeq2 تباينات المكتبة الخاصة به لتصحيح البيانات بدلا من تطبيع10. وعلاوة على ذلك، edgeR مناسبة خصيصا للبيانات RNA-seq، في حين يتم استخدام ليما لmicroarrays ورنا-seq. يتم اعتماد نموذج خطي من قبل limma لتقييم DEGs12، في حين تستند الإحصاءات في edgeR على التوزيعات الثنائية السلبية ، بما في ذلك تقدير Bayes التجريبي ، والاختبارات الدقيقة ، والنماذج الخطية المعممة واختبارات شبه الاحتمال9.

باختصار، نحن نقدم بروتوكولات مفصلة لتحليل التعبير التفاضلي RNA-seq باستخدام limma و DESeq2 و EdgeR على التوالي. بالإشارة إلى هذه المقالة، يمكن للمستخدمين بسهولة إجراء تحليل التفاضلية RNA-seq واختيار أساليب التحليل التفاضلي المناسبة لبياناتهم.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

ملاحظة: فتح برنامج R Studio وتحميل R ملف "DEGs.R" ، يمكن الحصول على الملف من الملفات الإضافية /البرامج النصية.

1. تحميل ومعالجة البيانات مسبقا

  1. قم بتنزيل بيانات العد عالية الإنتاجية (HTSeq) لورم تشولانجيوكارسينوما (CHOL) من أطلس جينوم السرطان (TCGA). يمكن تحقيق هذه الخطوة بسهولة بواسطة التعليمات البرمجية R التالية.
    1. انقر فوق تشغيل لتثبيت حزم R.
    2. انقر فوق تشغيل لتحميل حزم R.
      إذا (!requireNamespace("BiocManager" ، بهدوء = صحيح))
      + install.packages ("BiocManager")
      BiocManager::تثبيت(ج("TCGAbiolinks", "ملخصاErieriment"))
    3. تعيين دليل العمل.
      مكتبة (TCGAbiolinks)
      مكتبة(ملخصااالمسان)
      setwd("C:/المستخدمين/ليوشيي/سطح المكتب")
    4. اختر نوع السرطان.
      < السرطان - "TCGA-CHOL"
    5. تشغيل التعليمات البرمجية R من الملف "GDCquery.R" لتحميل البيانات. يمكن الحصول على الملف "GDCquery.R" من الملفات الإضافية/البرامج النصية:
      المصدر("ملفات تكميلية/برامج نصية/GDCquery.R")
      الرأس (cnt)
      ##TCGA-3X-AAVA-01A-11R-A41I-07
      رقم #ENSG00000000003 4262
      رقم1 #ENSG00000000005
      رقم #ENSG00000000419 1254
      رقم #ENSG00000000457 699
      رقم #ENSG00000000460 239
      رقم #ENSG00000000938 334
      ملاحظة: بعد التنفيذ، سيتم تحميل بيانات تعداد CHOLHTSeq ويسمى "cnt"، حيث تمثل الصفوف معرفات الجينات الفرقة والأعمدة تمثل عينة معرفات. يرجى ملاحظة الأرقام في المواضع 14-15 في عينة معرفات; تشير الأرقام التي تتراوح بين 01 و 09 إلى الأورام وتتراوح بين 10 و19 إلى الأنسجة الطبيعية.
  2. تحويل معرفات الجينات الفرقة إلى رموز الجينات.
    1. استيراد ملف التعليق التوضيحي إلى R وفقا لمسار التخزين الخاص به. يمكن الحصول على ملف التعليق التوضيحي (gencode.v22.annotation.gtf) من الملفات التكميلية.
      gtf_v22 <- rtracklayer::import('ملفات تكميلية/gencode.v22.annotation.gtf')
    2. تشغيل رمز R من "gtf_v22. R" الملف، والتي يمكن الحصول عليها من الملفات التكميلية / البرامج النصية:
      المصدر("ملفات تكميلية/برامج نصية/gtf_v22. R")
    3. تطبيق الدالة "ann" لتحويل معرفات الجينات الفرقة إلى رموز الجينات.
      cnt = ann (cnt,gtf_v22)
  3. تصفية الجينات منخفضة التعبير
    1. انقر فوق تشغيل لتثبيت حزمة R "edgeR".
      BiocManager::تثبيت("edgeR")
    2. انقر فوق تشغيل لتحميل حزمة R "edgeR".
      مكتبة(edgeR)
    3. قم بتشغيل رمز R التالي للحفاظ على الجينات التي لها قيم تعداد لكل مليون (CPM) أكبر من واحدة في عينتين على الأقل.
      الاحتفاظ <-rowSums(cpm(cnt)>1)>=2
      cnt <-as.matrix(cnt [الاحتفاظ,])
      ملاحظة: يتم استخدام قيمة الأعداد لكل مليون (CPM) بدلا من عدد القراءات لإزالة الانحراف الناتج عن أعماق تسلسل مختلفة.

2. تحليل التعبير التفاضلي من خلال "limma"

  1. انقر فوق تشغيل لتثبيت حزمة R "limma".
    BiocManager::تثبيت("limma")
  2. انقر فوق تشغيل لتحميل حزم R "limma" ، "edgeR".
    مكتبة (ليما)
    مكتبة(edgeR)
  3. تشغيل التعليمات البرمجية R التالية لإنشاء مصفوفة التصميم.
    مجموعة <- substring(colnames(cnt),14,15) # Extract group information
    المجموعة [المجموعة ٪في٪ "01"] <- "Cancer" # set '01' as tumor tissue
    المجموعة [المجموعة ٪in٪ "11"] <- "Normal" # set '11' as normal tissue
    مجموعة <- factor (group, levels = c("Normal","Cancer"))
    1. إنشاء مصفوفة التصميم.
      تصميم <- model.matrix (~ المجموعة)
      أسماء الصفوف (التصميم) <-colnames(cnt)
    2. إنشاء كائن DGEList.
      dge <- DGEList(التهم = cnt، المجموعة = المجموعة)
    3. تطبيع البيانات.
      dge <-calcNormFactors(dge، طريقة = "TMM")
    4. تشغيل التعليمات البرمجية R التالية لتنفيذ أسلوب limma-الاتجاه يستند تحليل التعبير التفاضلي.
      dge
      ##An كائن الفئة "DGEList"
      ##$counts
      ##TCGA-3X-AAVA-01A-11R-A41I-07
      رقم #TSPAN6 4262
      رقم #DPM1 1254
      رقم #SCYL3 699
      رقم #C1orf112 239
      رقم #FGR 334
    5. حساب قيمة CPM.
      logdge <- cpm(dge, سجل = TRUE, prior.count =3)
    6. انقر فوق تشغيل لاحتواء نموذج خطي للتنبؤ بالبيانات أو استنتاج العلاقة بين المتغيرات.
      تناسب <- lmFit (logdge، تصميم)
    7. حساب قيمة T وقيمة F واحتمالات السجل استنادا إلى بايزيان.
      تناسب < - يباي (صالح ، الاتجاه = TRUE)
    8. استخراج جدول النتائج.
      res_limma<-as.data.frame(topTable(fit,n=Inf))

      الرأس (res_limma)
      ## سجل اف اف سي افيExpr t P.Value adj. ب. فال ب
      ##RP11-252E2.2 -4.899493 -2.488589 -20.88052 2.386656e-25 4.931786e-21 47.28823
      ##BX842568.1 -4.347930 -2.595205 -20.14532 1.082759e-24 1.118706e-20 45.83656
      ##CTC-537E7.3 -5.154894 -2.143292 -19.59571 3.452354e-24 2.216114e-20 44.72001
      ##RP11-468N14.3 -6.532259 -2.029714 -19.49409 4.289807e-24 2.216114e-20 44.51056
      ##AP006216.5 -4.507051 -2.670915 -19.25649 7.153356e-24 2.956339e-20 44.01704
      ##RP11-669E14.4 -4.107204 -2.828311 -18.93246 1.448209e-23 4.987633e-20 43.33543
      #The يتم حفظ نتيجة تحليل التعبير التفاضلي في "res_limma"، والتي تشمل معرف الجين، قيمة تغيير أضعاف log2 (logFC)، متوسط مستوى التعبير log2 من الجين في التجربة (AveExpr)، والإحصاء t المعدلة (ر)، وإعادة رق قيمة p (P.Value)، ومعدل الاكتشاف الزائف (FDR) تصحيح قيمة p (adj). P.Val) واحتمالات السجل للجينات المعرب عنها بشكل تفاضلي (B)
      ملاحظة: الدالة "calcNormFactors()" من "edgeR" تم استخدامها لتطبيع البيانات لإزالة التأثير الناجم عن إعداد عينة أو بناء مكتبة وتسلسل. في بناء مصفوفة التصميم ، من الضروري مطابقة التصميم التجريبي (على سبيل المثال ، نوع الأنسجة: الأنسجة الطبيعية أو الأورام) لعينة من معرفات المصفوفة. limma-trend مناسب للبيانات التي يكون عمق تسلسلها هو نفسه، في حين أن limma-voom مناسب: (1) عندما يكون حجم مكتبة العينة مختلفا؛ '2' عندما يكون حجم مكتبة العينة مختلفا؛ '2' عندما يكون حجم مكتبة العينة مختلفا؛ '2' عندما يكون حجم المكتبة مختلفا؛ '2' عندما يكون حجم المكتبة مختلفا؛ '2' عندما يكون حجم مكتبة العينة مختلفا؛ '2' عندما يكون حجم المكتبة مختلفا؛ '2' عندما يكون '2' البيانات التي لم يتم تسويتها بواسطة TMM؛ '3' هناك الكثير من "الضوضاء" في البيانات. ويعني السجل الإيجابي أن الجين منظم في التجربة، في حين أن الرقم السلبي يعني أن الجين منظم بشكل لأسفل.
    9. تحديد DEGs.
      res_limma $sig <-as.factor (
      ifelse (res_limma دولار adj. P.Val < 0.05 والقيمة المطلقة (res_limma $logFC) > 2,
      ifelse(res_limma$logFC > 2,'up','down')'not')) # قيمة adj.p < 0.05 و |log2FC| > = 2 هي عتبات لتحديد DEGs
      ملخص(res_limma$sig)
      ##down لا يصل
      ##1880 ​17341 1443
    10. إخراج جدول النتائج إلى ملف.
      الكتابة.csv(res_limma، ملف = 'result_limma.csv')
    11. انقر فوق تشغيل لتثبيت حزمة R "ggplot2".
      install.packages ("ggplot2")
    12. انقر فوق تشغيل لتحميل حزمة R "ggplot2".
      مكتبة(ggplot2)
    13. تشغيل رمز R من "بركان. R" لإنشاء مؤامرة البركان. الملف "بركان. R" يمكن الحصول عليها من الملفات التكميلية.
      المصدر("ملفات تكميلية/برامج نصية/بركان. R")
      بركان (res_limma،"logFC","adj. ب.فال"،2,0.05)
      ملاحظة: يمكن تعيين الجينات إلى مواقع مختلفة وفقا لقيم log2FC و adj-p الخاصة بها ، ويتم تلوين DEGs المنظمة باللون الأحمر ، ويتم تلوين DEGs الخاضعة للتنظيم لأسفل باللون الأخضر.
    14. انقر فوق تصدير لحفظ مؤامرة بركان.
      ملاحظة: يمكن إنشاء قطع بركان وتحميلها في أشكال مختلفة (على سبيل المثال، PDF، TIFF، PNG، تنسيق JPEG). يمكن تعيين الجينات إلى مواقع مختلفة وفقا لقيمها log2FC و adj p ، يتم تلوين DEGs المتابعة المنظمة (log2FC > 2، adj p < 0.05) باللون الأحمر، وDGS أسفل تنظيم (log2FC < -2، adj p < 0.05) ملونة باللون الأخضر، وغير DEGs ملونة باللون الرمادي.

3. تحليل التعبير التفاضلي من خلال "edgeR"

  1. انقر فوق تشغيل لتحميل حزمة R "edgeR".
    مكتبة(edgeR)
  2. تشغيل التعليمات البرمجية R التالية لإنشاء مصفوفة التصميم.
    مجموعة < الفرعية(colnames(cnt),14,15)
    المجموعة [المجموعة ٪in٪ "01"] <-"السرطان"
    المجموعة [المجموعة ٪in٪ "11"] <-"عادي"
    المجموعة = عامل (مجموعة، مستويات = ج("عادي"، "السرطان"))
    تصميم < model.matrix(~ المجموعة)
    أسماء الصفوف (التصميم) = أسماء الأسماء (cnt)
  3. انقر فوق تشغيل لإنشاء كائن DGEList.
    dge <- DGEList(التهم = cnt)
  4. تطبيع البيانات.
    dge <-calcNormFactors(dge، طريقة = "TMM")
  5. انقر فوق تشغيل لتقدير تشتت قيم التعبير الجيني.
    dge <- التقديرDisp(dge, تصميم, قوي = T)
  6. انقر فوق تشغيل لاحتواء الطراز لحساب البيانات.
    تناسب <- glmQLFit (dge، تصميم)
  7. إجراء اختبار إحصائي.
    تناسب <- glmQLFTest(تناسب)
  8. استخراج جدول النتائج. يتم حفظ النتيجة في "res_edgeR"، والتي تشمل قيمة تغيير أضعاف السجل، سجل CPM، F، P القيمة وFDR تصحيح قيمة p.
    res_edgeR=as.data.frame(توبتاغس(احتواء، n=Inf))
    الرأس (res_edgeR)
    ## سجل CPM F PValue FDR
    ##GCDH -3.299633 5.802700 458.5991 1.441773e-25 2.979280e-21
    ##MSMO1 -3.761400 7.521111 407.0416 1.730539e-24 1.787993e-20R
    ##CL1 -3.829504 5.319641 376.5043 8.652474e-24 5.516791e-20
    ##ADI1 -3.533664 8.211281 372.6671 1.067904e-23 5.516791e-20
    ##KCNN2 -5.583794 3.504017 358.6525 2.342106e-23 9.679455e-20
    ##GLUD1 -3.287447 8.738080 350.0344 3.848408e-23 1.194406e-19
    يتم حفظ #The النتيجة في "res_edgeR"، والتي تشمل قيمة تغيير طية السجل (logFC)، سجل CPM، F، P القيمة وFDR تصحيح قيمة p
  9. تحديد DEGs.
    res_edgeR $sig = as.factor (
    ifelse(res_edgeR$FDR < 0.05 والقيمة المطلقة (res_edgeR$logFC) > 2,
    ifelse(res_edgeR$logFC > 2 ،'up', 'down')'not'))
    ملخص(res_edgeR$sig)
    ##down لا يصل
    ##1578 15965 3121
  10. إخراج جدول النتائج إلى ملف.
    الكتابة.csv(res_edgeR، ملف = 'res_edgeR.csv')
  11. إنشاء مؤامرة بركان.
    بركان (res_edgeR،"logFC","FDR",2,0.05)
  12. انقر فوق تصدير لحفظ مؤامرة بركان.

4. تحليل التعبير التفاضلي من خلال "DESeq2"

  1. انقر فوق تشغيل لتثبيت حزم R "DESeq2".
    BiocManager::تثبيت("DESeq2")
  2. انقر فوق تشغيل لتحميل حزم R "DESeq2".
    مكتبة(DESeq2)
  3. تشغيل التعليمات البرمجية R التالية لتحديد عامل التجميع.
    مجموعة < الفرعية(colnames(cnt),14,15)
    المجموعة [المجموعة ٪in٪ "01"] <-"السرطان"
    المجموعة [المجموعة ٪in٪ "11"] <-"عادي"
    المجموعة = عامل (مجموعة، مستويات = ج("عادي"، "السرطان"))
  4. إنشاء الكائن DESeqDataSet.
    dds <-DESeqDataSetFromMatrix (cnt، DataFrame(مجموعة)، تصميم = ~group)
    دس
    ##class: ديسك داتاسيت
    ##dim: 20664 45
    ##metadata(1): الإصدار
    ##assays(1): عدد
    ##rownames(20664): TSPAN6 DPM1 ... RP11-274B21.13 LINC01144
    ##rowData الأسماء(0):
    ##colnames(45): TCGA-3X-AAVA-01A-11R-A41I-07 ...
    ##colData أسماء(1): المجموعة
  5. إجراء التحليل.
    dds <- DESeq(dds)
  6. إنشاء جدول النتائج.
    res_DESeq2 <-data.frame(النتائج(dds))

    الرأس (res_DESeq2)
    ## قاعدةMean log2FoldChange lfcSE احصائيات pvalue بادج
    ##TSPAN6 4704.9243 -0.8204515 0.3371667 -2.433370 1.495899e-02 2.760180e-02
    ##DPM1 1205.9087 -0.3692497 0.1202418 -3.070894 2.134191e-03 4.838281e-03
    ##SCYL3 954.9772 0.2652530 0.2476441 1.071106 2.841218e-01 3.629059e-01
    ##C1orf112 277.7756 0.7536911 0.2518929 2.992109 2.770575e-03 6.101584e-03
    ##FGR 345.8789 -0.6423198 0.3712729 -1.730047 8.362180e-02 1.266833e-01
    ##CFH 27982.3546 -3.8761382 0.5473363 -7.081823 1.422708e-12 1.673241e-11
    ملاحظة: يتم حفظ النتيجة في "res_DESeq2" ، والذي يتضمن متوسط عدد القراءة العادية (baseMean) ، قيمة تغيير أضعاف السجل (log2FoldChange) ، خطأ قياسي لتغيير طي السجل (lfcSE) ، إحصائية Wald (stat) ، قيمة p الأصلية (pvalue) وقيمة p المصححة (padj)
  7. تحديد DEGs.
    res_DESeq2 $sig = as.factor (
    ifelse(res_DESeq2$padj < 0.05 والقيمة المطلقة (res_DESeq2$log2FoldChange) > 2,
    ifelse(res_DESeq2$log2FoldChange > 2 ,'up','down')'not'))
    ملخص (res_DESeq2$sig)
    ##down لا يصل
    ##1616 16110 2938
  8. إخراج جدول النتائج إلى ملف.
    الكتابة.csv(res_DESeq2، ملف = 'res_DESeq2.csv')
  9. إنشاء مؤامرة بركان.
    بركان(res_DESeq2،"log2FoldChange"," بادج",2,0.05)
  10. انقر فوق تصدير لحفظ مؤامرة بركان.

5. الرسم التخطيطي Venn

  1. انقر فوق تشغيل لتثبيت حزمة R "فيندياغرام".
    install.packages ("فيندياغرام")
  2. انقر فوق تشغيل لتحميل حزمة R "فيندياغرام".
    مكتبة (فيندياغرام)
  3. جعل الرسم البياني فين من DEGs المنظمة.
    grid.newpage()
    grid.draw(venn.diagram(list(Limma=أسماء الصفوف(res_
    ليما [res_limma$sig=="up",]),
    edgeR =أسماء الصفوف(res_edgeR[res_edgeR$sig=="up",]),
    DESeq2=أسماء الصفوف(res_DESeq2[res_DESeq2$sig==
    "لأعلى"،]))
    NULL، ارتفاع = 3، عرض = 3، وحدات = "في"،
    col="أسود",lwd=0.3,fill=c("#FF6666","#FFFF00",
    "#993366"),
    ألفا = ج (0.5، 0.5، 0.5)، الرئيسي = "أعلى ينظم DEGs"))
  4. انقر فوق تصدير لحفظ الرسم التخطيطي Venn.
  5. جعل رسم تخطيطي فين من أسفل DEGs المنظمة.
    grid.newpage()
    grid.draw(venn.diagram(list(Limma=أسماء الصفوف(res_
    ليما [res_limma$sig=="down",])
    edgeR = أسماء الصفوف (res_edgeR[res_edgeR$sig==
    "أسفل"،])،
    DESeq2=أسماء الصفوف(res_DESeq2[res_DESeq2$sig=="down",]))
    NULL، ارتفاع = 3، عرض = 3، وحدات = "في"،
    col="أسود",lwd=0.3,fill=c("#FF6666","#FFFF00",
    "#993366"),
    ألفا = ج (0.5، 0.5، 0.5)، الرئيسية = "DEGs أسفل تنظيم"))
  6. انقر فوق تصدير لحفظ الرسم التخطيطي Venn.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

هناك مقاربات مختلفة لتصور نتيجة تحليل التعبير التفاضلي ، من بينها مؤامرة البركان والرسم التخطيطي Venn تستخدم بشكل خاص. حددت ليما 3323 DEGs بين CHOL والأنسجة الطبيعية مع |logFC|≥2 وdj. P.Val <0.05 كعتبات، من بينها 1880 كانت أسفل تنظيم في أنسجة CHOL و 1443 كانت منظمة صعودا(الشكل 1a). وفي الوقت نفسه، حددت edgeR 1578 DEGs أسفل التنظيم و 3121 DEGs منظمة صعودا(الشكل 1ب)؛ حددت DESeq2 1616 DEGs الخاضعة للتنظيم السفلي و 2938 DEGs المتابعة التنظيم(الشكل 1c). وبمقارنة نتائج هذه الطرق الثلاث، تم تداخل 1431 مجموعة DEGs منظمة صعودا و1531 مجموعة DEGs منخفضة التنظيم(الشكل 2).

Figure 1
الشكل 1. تحديد الجينات المعرب عنها بشكل تفاضلي (DEGs) بين CHOL والأنسجة الطبيعية. (أ ج) يتم رسم قطع بركان من جميع الجينات التي حصلت عليها limma، edgeR و DESeq2، على التوالي، قيمة adj p (-log10) ضد تغيير أضعاف (log2)، النقاط الحمراء تمثل DEGs منظم (قيمة p المعدلة<0.05 وسجل | FC|> 2) والنقاط الخضراء تمثل DEGs أسفل تنظيم (قيمة p المعدلة< 0.05 وتسجيل | إف سي|< 2). يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

Figure 2
الشكل 2. تظهر الرسومات التخطيطية Venn تداخلا بين النتائج المشتقة من limma و edgeR و DESeq2. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

ملفات تكميلية. الرجاء الضغط هنا لتحميل هذا الملف.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

يمكن التعرف بسهولة على النصوص الشاذة وفيرة في السرطانات من خلال تحليل التفاضلية RNA-seq5. ومع ذلك، غالبا ما يتم تقييد تطبيق تحليل التعبير التفاضلي RNA-seq لأنه يتطلب مهارات معينة مع لغة R والقدرة على اختيار الأساليب المناسبة. لمعالجة هذه المشكلة، ونحن نقدم مقدمة مفصلة لطرق الثلاثة الأكثر شهرة (ليما، EdgeR و DESeq2) والدروس لتطبيق تحليل التعبير التفاضلي RNA-seq. وهذا من شأنه أن ييسر فهم أوجه التشابه والاختلاف بين الأساليب الثلاثة، ويمكن من اختيار طريقة مناسبة للبيانات الفردية، ويمكننا من فهم العمليات البيولوجية الدينامية المعقدة.

هنا، نقدم بروتوكول مفصل لتحليل التعبير التفاضلي RNA-seq من خلال limma و edgeR و DESeq2 على التوالي، على خمس مراحل: (1) تنزيل البيانات ومعالجتها مسبقا، (ii-iv) تحليل التعبير التفاضلي من خلال limma و edgeR و DESeq2، على التوالي، (5) مقارنة نتائج هذه الطرق الثلاث من خلال رسم تخطيطي Venn.

وتكبر الأساليب الثلاثة على خطوات متشابهة ومختلفة فيما بين عمليات تحليل التعبير التفاضلي. يتم استخدام نموذج خطي للإحصاءات في ليما، وهو ينطبق على جميع تقنيات التعبير الجيني، بما في ذلك microarrays، RNA-seq والكمية PCR8،13،في حين edgeR و DESeq2 تنفيذ مجموعة من المنهجيات الإحصائية على أساس التوزيع الثنائي السلبي9،10، و edgeR و DESeq2 مناسبة لبيانات RNA-seq. بالإضافة إلى ذلك، فإن بيانات العد RNA-seq العادية ضرورية ل EdgeR و limma، في حين يستخدم DESeq2 التناقضات الخاصة به في المكتبة لتصحيح البيانات بدلا من التطبيع ويجب أن تكون البيانات في DESeq2 مصفوفة عدد صحيح. وتشمل أساليب التطبيع TMM (قلص متوسط M-القيم)، TMMwsp، RLE (تعبير السجل النسبي) و upperquartile، من بينها TMM هو الأسلوب الأكثر استخداما تطبيع للبيانات RNA-seq. وأظهرت نتائج الأساليب الثلاثة أن DESeq2 و EdgeR الحصول على المزيد من DEGs من ليما. والسبب في هذا الاختلاف هو أن edgeR و DESeq2 تستند إلى نموذج ثنائي الحدود السلبية، مما يساهم في أعداد كبيرة من الإيجابيات كاذبة. على العكس من ذلك، limma-voom يستخدم فقط وظيفة التباين ولا تظهر إيجابيات كاذبة مفرطة، كما هو الحال مع تحول استقرار التباين يليه تحليل نموذج خطي مع limma14،15،16.

جميع الأساليب الثلاثة لها مزاياها الخاصة ، والاختيار يعتمد فقط على نوع البيانات. على سبيل المثال، إذا كان هناك بيانات microarray، يجب إعطاء limma مع الأولوية، ولكن عندما يكون الجيل التالي من بيانات التسلسل، يفضل DESeq2 و EdgeR9و10و17. باختصار، نحن نقدم هنا بروتوكول مفصل لتحليل التعبير التفاضلي RNA-seq مع حزم R limma و edgeR و DESeq2 على التوالي. نتائج الناتج من الطرق الثلاث متداخلة جزئيا، وهذه الطرق التفاضلية لها مزايا كل منها. لسوء الحظ، لا يغطي هذا البروتوكول التفاصيل التقنية لأنواع البيانات الأخرى (مثل البيانات الدقيقة) والأساليب (مثل EBSeq)18.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

لم يتم نشر المخطوطة من قبل ولا يتم النظر في نشرها في مكان آخر. ساهم جميع المؤلفين في إنشاء هذه المخطوطة للمحتوى الفكري الهام وقرأوا المخطوطة النهائية ووافقوا عليها. ونعلن أنه لا يوجد تضارب في المصالح.

Acknowledgments

وقد تم دعم هذا العمل من قبل المؤسسة الوطنية للعلوم الطبيعية في الصين (المنحة رقم 81860276) ومشاريع الصندوق الخاص الرئيسية للبرنامج الوطني للبحث والتطوير (المنحة رقم 2018YFC1003200).

Materials

Name Company Catalog Number Comments
R version 3.6.2 free software
Rstudio free software

DOWNLOAD MATERIALS LIST

References

  1. Tambonis, T., Boareto, M., Leite, V. B. P. Differential Expression Analysis in RNA-seq Data Using a Geometric Approach. Journal of Computational Biology. 25, 1257-1265 (2018).
  2. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature Reviews. Genetics. 10, 57-63 (2009).
  3. Anders, S., et al. Count-based differential expression analysis of RNA sequencing data using R and Bioconductor. Nature Protocols. 8, 1765-1786 (2013).
  4. McDermaid, A., Monier, B., Zhao, J., Liu, B., Ma, Q. Interpretation of differential gene expression results of RNA-seq data: review and integration. Briefings in Bioinformatics. 20, 2044-2054 (2019).
  5. Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12, 0190152 (2017).
  6. Law, C. W., et al. RNA-seq analysis is easy as 1-2-3 with limma, Glimma and edgeR. F1000Research. 5, (2016).
  7. Varet, H., Brillet-Guéguen, L., Coppée, J. Y., Dillies, M. A. SARTools: A DESeq2- and EdgeR-Based R Pipeline for Comprehensive Differential Analysis of RNA-Seq Data. PloS One. 11, 0157022 (2016).
  8. Ritchie, M. E., et al. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Research. 43, 47 (2015).
  9. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26, Oxford, England. 139-140 (2010).
  10. Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology. 15, 550 (2014).
  11. Gentleman, R. C., et al. Bioconductor: open software development for computational biology and bioinformatics. Genome Biology. 5, 80 (2004).
  12. Law, C. W., Chen, Y., Shi, W., Smyth, G. K. voom: Precision weights unlock linear model analysis tools for RNA-seq read counts. Genome Biology. 15, 29 (2014).
  13. Smyth, G. K. Linear models and empirical bayes methods for assessing differential expression in microarray experiments. Statistical Applications in Genetics and Molecular Biology. 3, (2004).
  14. Lund, S. P., Nettleton, D., McCarthy, D. J., Smyth, G. K. Detecting differential expression in RNA-sequence data using quasi-likelihood with shrunken dispersion estimates. Statistical Applications in Genetics and Molecular Biology. 11, (2012).
  15. Reeb, P. D., Steibel, J. P. Evaluating statistical analysis models for RNA sequencing experiments. Frontiers in Genetics. 4, 178 (2013).
  16. Rocke, D. M., et al. Excess False Positive Rates in Methods for Differential Gene Expression Analysis using RNA-Seq Data. bioRxiv. , (2015).
  17. Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC genomics. 11, 383 (2010).
  18. Leng, N., et al. EBSeq: an empirical Bayes hierarchical model for inference in RNA-seq experiments. Bioinformatics. 29, Oxford, England. 1035-1043 (2013).

Tags

أبحاث السرطان، العدد 175،
ثلاث طرق لتحليل التعبير التفاضلي لتسلسل الحمض النووي الريبي: ليما، إيدج آر، DESeq2
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Liu, S., Wang, Z., Zhu, R., Wang,More

Liu, S., Wang, Z., Zhu, R., Wang, F., Cheng, Y., Liu, Y. Three Differential Expression Analysis Methods for RNA Sequencing: limma, EdgeR, DESeq2. J. Vis. Exp. (175), e62528, doi:10.3791/62528 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter