Waiting
Login-Verarbeitung ...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Cancer Research

שלוש שיטות לניתוח ביטויים דיפרנציאליים לרצף RNA: לימה, EdgeR, DESeq2

Published: September 18, 2021 doi: 10.3791/62528
* These authors contributed equally

Summary

פרוטוקול מפורט של שיטות ניתוח ביטוי דיפרנציאלי עבור רצף RNA סופק: לימה, EdgeR, DESeq2.

Abstract

רצף RNA (RNA-seq) היא אחת הטכנולוגיות הנפוצות ביותר בתעתיק, שכן היא יכולה לחשוף את הקשר בין השינוי הגנטי לתהליכים ביולוגיים מורכבים ויש לה ערך רב באבחון, פרוגנוסטיקה וטיפולים של גידולים. ניתוח דיפרנציאלי של נתוני RNA-seq חיוני לזיהוי תמלולים חריגים, ולימה, EdgeR ו- DESeq2 הם כלים יעילים לניתוח דיפרנציאלי. עם זאת, ניתוח דיפרנציאלי RNA-seq דורש מיומנויות מסוימות עם שפת R ואת היכולת לבחור שיטה מתאימה, אשר חסר בתוכנית הלימודים של החינוך הרפואי.

בזאת, אנו מספקים את הפרוטוקול המפורט לזיהוי גנים מבוטאים דיפרנציאלי (DEGs) בין cholangiocarcinoma (CHOL) ורקמות נורמליות באמצעות לימה, DESeq2 ו- EdgeR, בהתאמה, והתוצאות מוצגות בחלקות הר געש ודיאגרמות ון. שלושת הפרוטוקולים של לימה, DESeq2 ו- EdgeR דומים אך יש להם שלבים שונים בין תהליכי הניתוח. לדוגמה, מודל ליניארי משמש עבור סטטיסטיקה בלימה, בעוד ההתפלגות הבינומית השלילית משמשת ב- edgeR וב- DESeq2. בנוסף, נתוני ספירת הרנ"א-seq מנורמלים נחוצים עבור EdgeR ולימה, אך אינם נחוצים עבור DESeq2.

כאן, אנו מספקים פרוטוקול מפורט לשלוש שיטות ניתוח דיפרנציאליות: לימה, EdgeR ו- DESeq2. התוצאות של שלוש השיטות חופפות חלקית. לכל שלוש השיטות יש יתרונות משלהן, ובחירת השיטה תלויה רק בנתונים.

Introduction

RNA-sequencing (RNA-seq) היא אחת הטכנולוגיות הנפוצות ביותר בתעתיק עם יתרונות רבים (למשל, שחזור נתונים גבוה), והגדילה באופן דרמטי את הבנתנו את הפונקציות והדינמיקה של תהליכים ביולוגיים מורכבים1,2. זיהוי של תמלילים חריגים בהקשר ביולוגי שונה, הידועים גם כגנים מבוטאים באופן דיפרנציאלי (DEGs), הוא צעד מפתח בניתוח RNA-seq. RNA-seq מאפשר לקבל הבנה עמוקה של מנגנונים מולקולריים הקשורים פתוגנזה פונקציות ביולוגיות. לכן, ניתוח דיפרנציאלי נחשב בעל ערך עבור אבחון, פרוגנוסטיקה וטיפולים של גידולים3,4,5. נכון לעכשיו, חבילות R/Bioconductor קוד פתוח יותר פותחו עבור ניתוח ביטוי דיפרנציאלי RNA-seq, במיוחד לימה, DESeq2 ו EdgeR1,6,7. עם זאת, ניתוח דיפרנציאלי דורש מיומנויות מסוימות עם שפת R ואת היכולת לבחור את השיטה המתאימה, אשר חסר בתוכנית הלימודים של החינוך הרפואי.

בפרוטוקול זה, המבוסס על נתוני ספירת הרנ"א-seq של cholangiocarcinoma (CHOL) שחולצו מאטלס הגנום הסרטני (TCGA), שלוש מהשיטות הידועות ביותר (לימה8, EdgeR9 ו- DESeq210) בוצעו, בהתאמה, על ידי תוכנית R11 כדי לזהות את DEGs בין CHOL ורקמות נורמליות. שלושת הפרוטוקולים של לימה, EdgeR ו- DESeq2 דומים אך יש להם שלבים שונים בין תהליכי הניתוח. לדוגמה, נתוני ספירת הרנ"א-seq המנורמלים נחוצים עבור EdgeR ו- limma8,9, ואילו DESeq2 משתמשת בסתירות ספריה משלה כדי לתקן נתונים במקום נורמליזציה10. יתר על כן, edgeR מתאים במיוחד לנתוני RNA-seq, בעוד שהלימה משמשת למיקרו-arrays ו- RNA-seq. מודל ליניארי מאומץ על ידי לימה כדי להעריך את DEGs12, בעוד הסטטיסטיקה ב edgeR מבוססים על הפצות בינומיות שליליות, כולל הערכת בייס אמפירית, בדיקות מדויקות, מודלים ליניאריים כלליים ובדיקות מעין סבירות9.

לסיכום, אנו מספקים את הפרוטוקולים המפורטים של ניתוח ביטוי דיפרנציאלי RNA-seq באמצעות לימה, DESeq2 ו- EdgeR, בהתאמה. בהתייחסם למאמר זה, משתמשים יכולים לבצע בקלות את הניתוח הדיפרנציאלי של RNA-seq ולבחור את שיטות הניתוח הדיפרנציאלי המתאימות עבור הנתונים שלהם.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

הערה: פתח את תוכנית R-studio לטעון קובץ R "DEGs.R", הקובץ ניתן לרכוש מקבצים משלימים / סקריפטים.

1. הורדה ועיבוד מראש של נתונים

  1. הורד את נתוני ספירת הרצוף בעל התפוקה הגבוהה (HTSeq) של כולנגיוקרצינומה (CHOL) מאטלס הגנום הסרטני (TCGA). שלב זה יכול להיות מושג בקלות על ידי קוד R הבא.
    1. לחץ על הפעל כדי להתקין חבילות R.
    2. לחץ על הפעל כדי לטעון חבילות R.
      if(!requireNamespace("BiocManager", בשקט=TRUE))
      + install.packages("BiocManager")
      BiocManager::install(c("TCGAbiolinks", "ניסיון מסוכם"))
    3. הגדר את ספריית העבודה.
      ספריה (TCGAbiolinks)
      ספריה (ניסיון מסוכם)
      setwd("C:/Users/LIUSHIYI/Desktop")
    4. בחר את סוג הסרטן.
      סרטן < - "TCGA-CHOL"
    5. הפעל את קוד ה- R מהקובץ "GDCquery.R" כדי להוריד את הנתונים. ניתן לרכוש את הקובץ "GDCquery.R" מקבצים/סקריפטים משלימים:
      מקור("קבצים משלימים/סקריפטים/GDCquery.R")
      head(cnt)
      ##TCGA-3X-AAVA-01A-11R-A41I-07
      ##ENSG00000000003 4262
      ##ENSG00000000005 1
      ##ENSG00000000419 1254
      ##ENSG00000000457 699
      ##ENSG00000000460 239
      ##ENSG00000000938 334
      הערה: לאחר ביצוע, נתוני ספירת CHOLHTSeq יורדו וייקראו "cnt", כאשר שורות מייצגות מזהי גנים ועמודות של הרכב מייצגות מזהים לדוגמה. אנא שימו לב למספרים במיקומים 14-15 בתמותות הת"י לדוגמה; מספרים הנעים בין 01 ל -09 מצביעים על גידולים הנעים בין 10 ל -19 מצביעים על רקמות רגילות.
  2. המר זהות גנים של אנסמבל לסמלים גנטיים.
    1. יבא את קובץ הביאורים ל- R בהתאם לנתיב האחסון שלו. ניתן לרכוש את קובץ הביאורים (gencode.v22.annotation.gtf) מקבצים משלימים.
      gtf_v22 <- rtracklayer::import('קבצים משלימים/gencode.v22.annotation.gtf')
    2. הפעל את קוד R מ"gtf_v22. קובץ R, אשר ניתן לרכוש מקבצים משלימים / סקריפטים:
      מקור("קבצים משלימים/סקריפטים/gtf_v22. R")
    3. החל את הפונקציה "ann" כדי להמיר את זהות הגן הרכב לסמלים גנטיים.
      cnt= ann(cnt,gtf_v22)
  3. סינון גנים בעלי ביטוי נמוך
    1. לחץ על הפעל כדי להתקין את חבילת R "edgeR".
      BiocManager::install("edgeR")
    2. לחץ על הפעל כדי לטעון את חבילת R "edgeR".
      library(edgeR)
    3. הפעל את קוד ה- R הבא כדי לשמור על גנים עם ערכי ספירה למיליון (עלות לאלף חשיפות) הגדולים מאחד מכל שתי דגימות לפחות.
      שמור <- שורותsums(cnt)>1)>=2
      cnt <- as.matrix(cnt[keep,])
      הערה: נעשה שימוש בערך ספירה למיליון (עלות לאלף חשיפות) במקום ספירת הקריאה כדי לבטל את הסטייה הנגרמת על-ידי עומקי רצף שונים.

2. ניתוח ביטוי דיפרנציאלי באמצעות "לימה"

  1. לחץ על הפעל כדי להתקין את חבילת R "limma".
    BiocManager::install("limma")
  2. לחץ על הפעל כדי לטעון את חבילות R "לימה", "edgeR".
    library(limma)
    library(edgeR)
  3. הפעל את קוד ה- R הבא כדי ליצור את מטריצת העיצוב.
    קבוצה <- substring(colnames(cnt),14,15) # Extract group information
    קבוצה [קבוצה %ב% "01"] <- "Cancer" # set '01' as tumor tissue
    קבוצה [קבוצה %ב% "11"] <- "Normal" # set '11' as normal tissue
    קבוצה <- factor (group, levels = c("Normal","Cancer"))
    1. צור את מטריצת העיצוב.
      עיצוב <- model.matrix (~group)
      שמות שורה (design) <- colnames(cnt)
    2. צור את האובייקט DGEList.
      dge <- DGEList(counts = cnt, group = group)
    3. לנרמל את הנתונים.
      dge <- calcNormFactors(dge, method = "TMM")
    4. הפעל את קוד ה- R הבא כדי לבצע את ניתוח הביטוי הדיפרנציאלי המבוסס על שיטת מגמת לימה.
      dge
      אובייקט #An של מחלקה "DGEList"
      ##$counts
      ##TCGA-3X-AAVA-01A-11R-A41I-07
      ##TSPAN6 4262
      ##DPM1 1254
      ##SCYL3 699
      ##C1orf112 239
      ##FGR 334
    5. חשב את ערך ה- CPM.
      logdge <- cpm(dge, log=TRUE, prior.count=3)
    6. לחץ על הפעל כדי להתאים למודל ליניארי כדי לחזות את הנתונים או להסיק את קשר הגומלין בין משתנים.
      התאם <- lmFit (logdge, design)
    7. חשב את ערך T, ערך F וסיכויי יומן רישום בהתבסס על Bayesian.
      התאם <- eBayes(בכושר, מגמה= TRUE)
    8. חלץ את טבלת התוצאות.
      res_limma<- as.data.frame(topTable(התאמה,n=Inf))

      ראש(res_limma)
      ## logFC AveExpr t P.Value adj. פ.ואל.
      ##RP11-252E2.2 -4.899493 -2.488589 -20.88052 2.386656e-25 4.931786e-21 47.28823
      ##BX842568.1 -4.347930 -2.595205 -20.14532 1.082759e-24 1.118706e-20 45.83656
      ##CTC-537E7.3 -5.154894 -2.143292 -19.59571 3.452354e-24 2.216114e-20 44.72001
      ##RP11-468N14.3 -6.532259 -2.029714 -19.49409 4.289807e-24 2.216114e-20 44.51056
      ##AP006216.5 -4.507051 -2.670915 -19.25649 7.153356e-24 2.956339e-20 44.01704
      ##RP11-669E14.4 -4.107204 -2.828311 -18.93246 1.448209e-23 4.987633e-20 43.33543
      #The תוצאה של ניתוח ביטוי דיפרנציאלי נשמרת ב- "res_limma", הכולל את מזהה הגן, ערך שינוי הקיפול של log2 (logFC), רמת הביטוי הממוצעת של log2 של הגן בניסוי (AveExpr), סטטיסטיקת t שהשתנתה (t), ערך p מחדש (P.Value), ערך p המתוקן של שיעור גילוי כוזב (FDR) (adj). פ.ואל) וסיכויי היומן של הגנים המבוטאים באופן דיפרנציאלי (ב)
      הערה: הפונקציה "calcNormFactors()" של "edgeR" שימשה לנרמול הנתונים כדי לחסל את ההשפעה הנגרמת על ידי הכנת מדגם או בניית ספריה ורצף. בבניית מטריצת עיצוב, יש צורך להתאים עיצוב ניסיוני (למשל, סוג רקמה: רקמות רגילות או גידול) כדי לדגום מזהים של המטריצה. מגמת לימה מתאימה לנתונים שעומק הרצף שלהם זהה, ואילו לימה-וום מתאים: (i) כאשר גודל ספריית הדגימה שונה; (ii) נתונים שאינם מנורמלים על-ידי TMM; (iii) יש הרבה "רעש" בנתונים. logFC חיובי אומר כי הגן הוא מוסדר למעלה בניסוי, בעוד מספר שלילי אומר כי הגן הוא למטה מוסדר.
    9. זהה את הדי-ג'י.
      res_limma$sig <- as.factor(
      ifelse(res_limma$adj. P.Val < 0.05 & res_limma$logFC) > 2,
      ifelse(res_limma$logFC > 2 ,'למעלה','down'),'')) # הערך של adj.p < 0.05 ו- |log2FC| >= 2 הם סף לזיהוי DEGs
      סיכום(res_limma$sig)
      ##down לא למעלה
      ##1880 ​17341 1443
    10. פלט טבלת התוצאות לקובץ.
      כתיבה.csv(res_limma, קובץ = 'result_limma.csv')
    11. לחץ על הפעל כדי להתקין את חבילת R "ggplot2".
      install.packages("ggplot2")
    12. לחץ על הפעל כדי לטעון את חבילת R "ggplot2".
      library(ggplot2)
    13. הפעל את קוד R מ "הר הגעש. R" כדי ליצור את חלקת הר הגעש. הקובץ "הר געש. R" ניתן לרכוש מקבצים משלימים.
      מקור("קבצים משלימים/ סקריפטים / הר געש. R")
      הר געש(res_limma,"logFC","adj. פ.ואל",2,0.05)
      הערה: ניתן למפות גנים למיקומים שונים בהתאם לערכי log2FC ו- adj-p שלהם, ה- DEGs המפוקחים למעלה נצבעים באדום, ו- DEGs המוסדר כלפי מטה נצבע בירוק.
    14. לחץ על ייצוא כדי להציל את חלקת הר הגעש.
      הערה: ניתן ליצור ולהוריד את מגרשי הר הגעש בפורמטים שונים (למשל, pdf, TIFF, PNG, פורמט JPEG). ניתן למפות גנים למיקומים שונים בהתאם לערכי log2FC ו- adj p שלהם, ה- DEGs המוסדרים (log2FC > 2, adj p < 0.05) צבועים באדום, ו- DEGs המוסדר כלפי מטה (log2FC < -2, adj p < 0.05) צבועים בירוק, שאינם DEGs צבועים באפור.

3. ניתוח ביטוי דיפרנציאלי באמצעות "edgeR"

  1. לחץ על הפעל כדי לטעון את חבילת R "edgeR".
    library(edgeR)
  2. הפעל את קוד ה- R הבא כדי ליצור מטריצת עיצוב.
    group <-substring(colnames(cnt),14,15)
    קבוצה [קבוצה %ב% "01"] <- "סרטן"
    קבוצה [קבוצה %ב% "11"] <- "רגיל"
    group=factor(קבוצה, רמות = c("נורמלי","סרטן"))
    עיצוב <-model.matrix(~קבוצה)
    שמות שורה(design) = colnames(cnt)
  3. לחץ על הפעל כדי ליצור את האובייקט DGEList.
    dge <- DGEList(counts=cnt)
  4. לנרמל את הנתונים.
    dge <- calcNormFactors(dge, method = "TMM")
  5. לחץ על הפעל כדי להעריך את הפיזור של ערכי ביטוי גנים.
    dge <- estimateDisp(dge, design, robust = T)
  6. לחץ על הפעל כדי להתאים מודל לספירת נתונים.
    התאם <- glmQLFit(dge, עיצוב)
  7. ערוך בדיקה סטטיסטית.
    התאם <- glmQLFTest (התאמה)
  8. חלץ את טבלת התוצאות. התוצאה נשמרת ב- "res_edgeR", הכוללת את ערך שינוי קיפול יומן הרישום, יומן הרישום עלות לאלף חשיפות, F, ערך p וערך p מתוקן של FDR.
    res_edgeR=as.data.frame(topTags(התאמה, n=Inf))
    ראש(res_edgeR)
    ## logFCFC F PValue FDR
    ##GCDH -3.299633 5.802700 458.5991 1.441773e-25 2.979280e-21
    ##MSMO1 -3.761400 7.521111 407.0416 1.730539e-24 1.787993e-20R
    ##CL1 -3.829504 5.319641 376.5043 8.652474e-24 5.516791e-20
    ##ADI1 -3.533664 8.211281 372.6671 1.067904e-23 5.516791e-20
    ##KCNN2 -5.583794 3.504017 358.6525 2.342106e-23 9.679455e-20
    ##GLUD1 -3.287447 8.738080 350.0344 3.848408e-23 1.194406e-19
    תוצאת #The נשמרת ב- "res_edgeR", הכוללת את ערך השינוי של קיפול יומן הרישום (logFC), עלות לאלף חשיפות של יומן רישום, F, ערך p וערך p מתוקן של FDR
  9. זהה את הדי-ג'י.
    res_edgeR$sig = as.factor(
    ifelse(res_edgeR$FDR < 0.05 & abs(res_edgeR$logFC) > 2,
    ifelse(res_edgeR$logFC > 2 'למעלה','down'),'not'))
    סיכום(res_edgeR$sig)
    ##down לא למעלה
    ##1578 15965 3121
  10. פלט טבלת התוצאות לקובץ.
    כתיבה.csv(res_edgeR, קובץ = 'res_edgeR.csv')
  11. צור את חלקת הר הגעש.
    הר געש(res_edgeR,"logFC","FDR",2,0.05)
  12. לחץ על ייצוא כדי להציל את חלקת הר הגעש.

4. ניתוח ביטוי דיפרנציאלי באמצעות "DESeq2"

  1. לחץ על הפעל כדי להתקין חבילות R "DESeq2".
    BiocManager::install("DESeq2")
  2. לחץ על הפעל כדי לטעון חבילות R "DESeq2".
    library(DESeq2)
  3. הפעל את קוד ה- R הבא כדי לקבוע את גורם הקבץ.
    group <-substring(colnames(cnt),14,15)
    קבוצה [קבוצה %ב% "01"] <- "סרטן"
    קבוצה [קבוצה %ב% "11"] <- "רגיל"
    group=factor(קבוצה, רמות = c("נורמלי","סרטן"))
  4. צור את האובייקט DESeqDataSet.
    dds <-DESeqDataSetFromMatrix (cnt, DataFrame(group), design = ~group)
    dds
    ##class: DESeqDataSet
    ##dim: 20664 45
    ##metadata(1): גירסה
    ##assays(1): ספירה
    ##rownames(20664): TSPAN6 DPM1 ... RP11-274B21.13 LINC01144
    שמות #rowData(0):
    ##colnames(45): TCGA-3X-AAVA-01A-11R-A41I-07 ...
    ##colData שמות(1): קבוצה
  5. בצע את הניתוח.
    dds <- DESeq(dds)
  6. צור את טבלת התוצאות.
    res_DESeq2 <- data.frame(תוצאות(dds))

    ראש(res_DESeq2)
    ## baseMean log2FoldChange lfcSE stat pvalue padj
    ##TSPAN6 4704.9243 -0.8204515 0.3371667 -2.433370 1.495899e-02 2.760180e-02
    ##DPM1 1205.9087 -0.3692497 0.1202418 -3.070894 2.134191e-03 4.838281e-03
    ##SCYL3 954.9772 0.2652530 0.2476441 1.071106 2.841218e-01 3.629059e-01
    ##C1orf112 277.7756 0.7536911 0.2518929 2.992109 2.770575e-03 6.101584e-03
    ##FGR 345.8789 -0.6423198 0.3712729 -1.730047 8.362180e-02 1.266833e-01
    ##CFH 27982.3546 -3.8761382 0.5473363 -7.081823 1.422708e-12 1.673241e-11
    הערה: התוצאה נשמרת ב- "res_DESeq2", הכוללת את הממוצע של ספירת הקריאה המנורמלת (baseMean), ערך שינוי קיפול יומן (log2FoldChange), שגיאת תקן שינוי קיפול יומן (lfcSE), סטטיסטיקת Wald (stat), ערך p המקורי (pvalue) וערך p מתוקן (padj)
  7. זהה DEGs.
    res_DESeq2$sig = as.factor(
    ifelse(res_DESeq2$padj < 0.05 & abs (res_DESeq2$log2FoldChange) > 2,
    ifelse(res_DESeq2$log2Foldשינוי > 2 'למעלה','down'),'not'))
    סיכום(res_DESeq2$sig)
    ##down לא למעלה
    ##1616 16110 2938
  8. פלט טבלת התוצאות לקובץ.
    כתיבה.csv(res_DESeq2, קובץ = 'res_DESeq2.csv')
  9. צור את חלקת הר הגעש.
    הר געש(res_DESeq2,"log2FoldChange","padj",2,0.05)
  10. לחץ על ייצוא כדי להציל את חלקת הר הגעש.

5. דיאגרמת ון

  1. לחץ על הפעל כדי להתקין את חבילת R "VennDiagram".
    install.packages("VennDiagram")
  2. לחץ על הפעל כדי לטעון את חבילת R "VennDiagram".
    ספריה (דיאגרמת ון)
  3. הפוך דיאגרמת ון של DEGs מוסדר.
    grid.newpage()
    grid.draw(venn.diagram(list(Limma=rownames(res_
    לימה[res_limma$sig=="up",]),
    edgeR=rownames(res_edgeR[res_edgeR$sig=="up",]),
    DESeq2=rownames(res_DESeq2[res_DESeq2$sig==
    "למעלה",])),
    NULL, גובה = 3, רוחב = 3,יחידות = "in",
    קול="שחור", lwd = 0.3,fill =c("#FF6666", "#FFFF00",
    "#993366"),
    אלפא = c(0.5, 0.5, 0.5),ראשי = "למעלה מוסדר DEGs"))
  4. לחץ על ייצוא כדי לשמור את דיאגרמת חיתוך ההון.
  5. הפוך דיאגרמת ון של DEGs מוסדר למטה.
    grid.newpage()
    grid.draw(venn.diagram(list(Limma=rownames(res_
    לימה[res_limma$sig=="down",]),
    edgeR=rownames(res_edgeR[res_edgeR$sig==
    "למטה",]),
    DESeq2=rownames(res_DESeq2[res_DESeq2$sig=="down",])),
    NULL, גובה = 3, רוחב = 3,יחידות = "in",
    קול="שחור", lwd = 0.3,fill =c("#FF6666", "#FFFF00",
    "#993366"),
    אלפא = c(0.5, 0.5, 0.5),ראשי = "DEGs מוסדר למטה"))
  6. לחץ על ייצוא כדי לשמור את דיאגרמת חיתוך ההון.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

ישנן גישות שונות כדי לדמיין את התוצאה של ניתוח ביטוי דיפרנציאלי, ביניהם חלקת הר הגעש ודיאגרמת Venn משמשים במיוחד. לימה זיהתה 3323 DEGs בין CHOL ורקמות נורמליות עם |logFC|≥2 ו adj. P.Val <0.05 כסף, ביניהם 1880 היו למטה מוסדר ברקמות CHOL ו 1443 היו מוסדר למעלה(איור 1a). בינתיים, edgeR זיהתה את דגי ה-DEGs המפוקחים מטה של 1578 ואת 3121 דגי DEGs מוסדרים כלפי מעלה (איור 1b); DESeq2 זיהה את דגי DEGs בפיקוח מטה 1616 ו DEGs 2938 למעלה מוסדר(איור 1c). בהשוואה לתוצאות של שלוש שיטות אלה, 1431 DEGs מוסדר ו 1531 DEGs מוסדר למטה היו חופפים (איור 2).

Figure 1
איור 1. זיהוי של גנים מבוטאים באופן דיפרנציאלי (DEGs) בין CHOL ורקמות רגילות. (a-c) חלקות הר הגעש של כל הגנים שנרכשו על ידי לימה, edgeR ו- DESeq2, בהתאמה, ערך adj p (-log10) משורטט כנגד שינוי הקיפול (log2), נקודות אדומות מייצגות את ה- DEGs המפוקחים (ערך p מותאם<0.05 ויומן | FC|> 2) והנקודות הירוקות מייצגות את ה- DEGs המפוקחים כלפי מטה (ערך p מותאם< 0.05 ויומן רישום | פ.צ|< 2). אנא לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.

Figure 2
איור 2. דיאגרמות Venn מציגות חפיפה בין התוצאות הנגזרות מהלימה, edgeR ו- DESeq2. אנא לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.

קבצים משלימים. נא לחץ כאן כדי להוריד קובץ זה.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

תמלילים חריגים בשפע בסרטן ניתן לזהות בקלות על ידי ניתוח דיפרנציאלי RNA-seq5. עם זאת, היישום של ניתוח ביטוי דיפרנציאלי RNA-seq מוגבל לעתים קרובות כפי שהוא דורש מיומנויות מסוימות עם שפת R ואת היכולת לבחור שיטות מתאימות. כדי לטפל בבעיה זו, אנו מספקים מבוא מפורט לשלוש השיטות הידועות ביותר (לימה, EdgeR ו- DESeq2) וערכות לימוד להחלת ניתוח הביטוי הדיפרנציאלי של RNA-seq. זה יאפשר את הבנת הדמיון וההבדלים בכל שלוש השיטות, יאפשר בחירה של שיטה מתאימה לנתונים בודדים, ויאפשר לנו להבין את התהליכים הביולוגיים הדינמיים המורכבים.

כאן, אנו מציגים פרוטוקול מפורט לניתוח ביטוי דיפרנציאלי RNA-seq באמצעות לימה, edgeR ו- DESeq2 בהתאמה, בחמישה שלבים: (i) הורדה ועיבוד מראש של נתונים, (ii-iv) ניתוח ביטוי דיפרנציאלי באמצעות לימה, edgeR ו- DESeq2, בהתאמה, (v) השוואה של התוצאות של שלוש שיטות אלה באמצעות דיאגרמת Venn.

לשלוש השיטות יש שלבים דומים ושונים בין תהליכי ניתוח הביטוי הדיפרנציאלי. מודל ליניארי משמש לסטטיסטיקה בלימה, החלה על כל טכנולוגיות ביטוי הגנים, כולל מיקרו-arrays, RNA-seq ו- PCR כמותי8,13, בעוד edgeR ו- DESeq2 ליישם מגוון של מתודולוגיות סטטיסטיות המבוססות על ההתפלגות הבינומית השלילית9,10, ו edgeR ו- DESeq2 מתאימים לנתוני RNA-seq. בנוסף, נתוני ספירת הרנ"א-seq המנורמלים נחוצים עבור EdgeR ולימה, בעוד ש- DESeq2 משתמש באי-התאמות ספריה משלו כדי לתקן נתונים במקום נורמליזציה והנתונים ב- DESeq2 חייבים להיות מטריצת מספר שלם. שיטות הנורמליזציה כוללות את TMM (ממוצע גזור של ערכי M), TMwsp, RLE (ביטוי יומן יחסי) ו- upperquartile, ביניהם TMM היא שיטת הנורמליזציה הנפוצה ביותר עבור נתוני RNA-seq. התוצאות של שלוש השיטות הראו כי DESeq2 ו- EdgeR משיגים יותר DEGs מאשר לימה. הסיבה להבדל זה היא כי edgeR ו- DESeq2 מבוססים על המודל הבינומי השלילי, התורם למספר גדול של תוצאות חיוביות שגויות. להיפך, לימה-וום משתמשת רק בפונקציית השונות ואינה מציגה חיוביות שגויות מוגזמות, כמו במקרה של שינוי ייצוב ואחריו ניתוח מודל ליניארי עם לימה14,15,16.

לכל שלוש השיטות יש יתרונות משלהן, והבחירה תלויה רק בסוג הנתונים. לדוגמה, אם יש נתוני microarray, לימה צריכה להינתן עם עדיפות, אבל כאשר זה הדור הבא ריצוף נתונים, DESeq2 ו EdgeR מועדפים9,10,17. לסיכום, אנו מספקים כאן פרוטוקול מפורט לניתוח ביטוי דיפרנציאלי RNA-seq עם חבילות R לימה, edgeR ו- DESeq2, בהתאמה. תוצאות הפלט משלוש השיטות חופפות בחלקן, ולשיטות דיפרנציאליות אלה יש יתרונות משלהן. למרבה הצער, פרוטוקול זה אינו מכסה את הפרטים הטכניים עבור סוגי נתונים אחרים (למשל, נתוני microarray) ושיטות (למשל, EBSeq)18.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

כתב היד לא פורסם בעבר ואינו נשקלת לפרסום במקומות אחרים. כל המחברים תרמו ליצירת כתב יד זה לתוכן אינטלקטואלי חשוב וקראו ואישרו את כתב היד הסופי. אנו מצהירים שאין ניגוד אינטרסים.

Acknowledgments

עבודה זו נתמכה על ידי הקרן הלאומית למדעי הטבע של סין (מענק מס ' 81860276) ופרויקטים מרכזיים של הקרן המיוחדת של תוכנית המחקר והפיתוח הלאומית (מענק מס '2018YFC1003200).

Materials

Name Company Catalog Number Comments
R version 3.6.2 free software
Rstudio free software

DOWNLOAD MATERIALS LIST

References

  1. Tambonis, T., Boareto, M., Leite, V. B. P. Differential Expression Analysis in RNA-seq Data Using a Geometric Approach. Journal of Computational Biology. 25, 1257-1265 (2018).
  2. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature Reviews. Genetics. 10, 57-63 (2009).
  3. Anders, S., et al. Count-based differential expression analysis of RNA sequencing data using R and Bioconductor. Nature Protocols. 8, 1765-1786 (2013).
  4. McDermaid, A., Monier, B., Zhao, J., Liu, B., Ma, Q. Interpretation of differential gene expression results of RNA-seq data: review and integration. Briefings in Bioinformatics. 20, 2044-2054 (2019).
  5. Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12, 0190152 (2017).
  6. Law, C. W., et al. RNA-seq analysis is easy as 1-2-3 with limma, Glimma and edgeR. F1000Research. 5, (2016).
  7. Varet, H., Brillet-Guéguen, L., Coppée, J. Y., Dillies, M. A. SARTools: A DESeq2- and EdgeR-Based R Pipeline for Comprehensive Differential Analysis of RNA-Seq Data. PloS One. 11, 0157022 (2016).
  8. Ritchie, M. E., et al. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Research. 43, 47 (2015).
  9. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26, Oxford, England. 139-140 (2010).
  10. Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology. 15, 550 (2014).
  11. Gentleman, R. C., et al. Bioconductor: open software development for computational biology and bioinformatics. Genome Biology. 5, 80 (2004).
  12. Law, C. W., Chen, Y., Shi, W., Smyth, G. K. voom: Precision weights unlock linear model analysis tools for RNA-seq read counts. Genome Biology. 15, 29 (2014).
  13. Smyth, G. K. Linear models and empirical bayes methods for assessing differential expression in microarray experiments. Statistical Applications in Genetics and Molecular Biology. 3, (2004).
  14. Lund, S. P., Nettleton, D., McCarthy, D. J., Smyth, G. K. Detecting differential expression in RNA-sequence data using quasi-likelihood with shrunken dispersion estimates. Statistical Applications in Genetics and Molecular Biology. 11, (2012).
  15. Reeb, P. D., Steibel, J. P. Evaluating statistical analysis models for RNA sequencing experiments. Frontiers in Genetics. 4, 178 (2013).
  16. Rocke, D. M., et al. Excess False Positive Rates in Methods for Differential Gene Expression Analysis using RNA-Seq Data. bioRxiv. , (2015).
  17. Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC genomics. 11, 383 (2010).
  18. Leng, N., et al. EBSeq: an empirical Bayes hierarchical model for inference in RNA-seq experiments. Bioinformatics. 29, Oxford, England. 1035-1043 (2013).

Tags

חקר הסרטן גיליון 175
שלוש שיטות לניתוח ביטויים דיפרנציאליים לרצף RNA: לימה, EdgeR, DESeq2
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Liu, S., Wang, Z., Zhu, R., Wang,More

Liu, S., Wang, Z., Zhu, R., Wang, F., Cheng, Y., Liu, Y. Three Differential Expression Analysis Methods for RNA Sequencing: limma, EdgeR, DESeq2. J. Vis. Exp. (175), e62528, doi:10.3791/62528 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter