Cancer Research

שלוש שיטות לניתוח ביטויים דיפרנציאליים לרצף RNA: לימה, EdgeR, DESeq2

Published: September 18, 2021 doi: 10.3791/62528

Shiyi Liu*¹, Zitao Wang*¹, Ronghui Zhu¹, Feiyan Wang², Yanxiang Cheng¹, Yeqiang Liu²

¹Department of Obstetrics and Gynecology, Renmin Hospital of Wuhan University, ²Department of Pathology, Shanghai Skin Disease Hospital, Tongji University School of Medicine

* These authors contributed equally

Summary

פרוטוקול מפורט של שיטות ניתוח ביטוי דיפרנציאלי עבור רצף RNA סופק: לימה, EdgeR, DESeq2.

Abstract

רצף RNA (RNA-seq) היא אחת הטכנולוגיות הנפוצות ביותר בתעתיק, שכן היא יכולה לחשוף את הקשר בין השינוי הגנטי לתהליכים ביולוגיים מורכבים ויש לה ערך רב באבחון, פרוגנוסטיקה וטיפולים של גידולים. ניתוח דיפרנציאלי של נתוני RNA-seq חיוני לזיהוי תמלולים חריגים, ולימה, EdgeR ו- DESeq2 הם כלים יעילים לניתוח דיפרנציאלי. עם זאת, ניתוח דיפרנציאלי RNA-seq דורש מיומנויות מסוימות עם שפת R ואת היכולת לבחור שיטה מתאימה, אשר חסר בתוכנית הלימודים של החינוך הרפואי.

בזאת, אנו מספקים את הפרוטוקול המפורט לזיהוי גנים מבוטאים דיפרנציאלי (DEGs) בין cholangiocarcinoma (CHOL) ורקמות נורמליות באמצעות לימה, DESeq2 ו- EdgeR, בהתאמה, והתוצאות מוצגות בחלקות הר געש ודיאגרמות ון. שלושת הפרוטוקולים של לימה, DESeq2 ו- EdgeR דומים אך יש להם שלבים שונים בין תהליכי הניתוח. לדוגמה, מודל ליניארי משמש עבור סטטיסטיקה בלימה, בעוד ההתפלגות הבינומית השלילית משמשת ב- edgeR וב- DESeq2. בנוסף, נתוני ספירת הרנ"א-seq מנורמלים נחוצים עבור EdgeR ולימה, אך אינם נחוצים עבור DESeq2.

כאן, אנו מספקים פרוטוקול מפורט לשלוש שיטות ניתוח דיפרנציאליות: לימה, EdgeR ו- DESeq2. התוצאות של שלוש השיטות חופפות חלקית. לכל שלוש השיטות יש יתרונות משלהן, ובחירת השיטה תלויה רק בנתונים.

Introduction

RNA-sequencing (RNA-seq) היא אחת הטכנולוגיות הנפוצות ביותר בתעתיק עם יתרונות רבים (למשל, שחזור נתונים גבוה), והגדילה באופן דרמטי את הבנתנו את הפונקציות והדינמיקה של תהליכים ביולוגיים מורכבים¹^,². זיהוי של תמלילים חריגים בהקשר ביולוגי שונה, הידועים גם כגנים מבוטאים באופן דיפרנציאלי (DEGs), הוא צעד מפתח בניתוח RNA-seq. RNA-seq מאפשר לקבל הבנה עמוקה של מנגנונים מולקולריים הקשורים פתוגנזה פונקציות ביולוגיות. לכן, ניתוח דיפרנציאלי נחשב בעל ערך עבור אבחון, פרוגנוסטיקה וטיפולים של גידולים³^,⁴^,⁵. נכון לעכשיו, חבילות R/Bioconductor קוד פתוח יותר פותחו עבור ניתוח ביטוי דיפרנציאלי RNA-seq, במיוחד לימה, DESeq2 ו EdgeR¹^,⁶^,⁷. עם זאת, ניתוח דיפרנציאלי דורש מיומנויות מסוימות עם שפת R ואת היכולת לבחור את השיטה המתאימה, אשר חסר בתוכנית הלימודים של החינוך הרפואי.

בפרוטוקול זה, המבוסס על נתוני ספירת הרנ"א-seq של cholangiocarcinoma (CHOL) שחולצו מאטלס הגנום הסרטני (TCGA), שלוש מהשיטות הידועות ביותר (לימה⁸, EdgeR⁹ ו- DESeq2¹⁰) בוצעו, בהתאמה, על ידי תוכנית R¹¹ כדי לזהות את DEGs בין CHOL ורקמות נורמליות. שלושת הפרוטוקולים של לימה, EdgeR ו- DESeq2 דומים אך יש להם שלבים שונים בין תהליכי הניתוח. לדוגמה, נתוני ספירת הרנ"א-seq המנורמלים נחוצים עבור EdgeR ו- limma⁸^,⁹, ואילו DESeq2 משתמשת בסתירות ספריה משלה כדי לתקן נתונים במקום נורמליזציה¹⁰. יתר על כן, edgeR מתאים במיוחד לנתוני RNA-seq, בעוד שהלימה משמשת למיקרו-arrays ו- RNA-seq. מודל ליניארי מאומץ על ידי לימה כדי להעריך את DEGs¹², בעוד הסטטיסטיקה ב edgeR מבוססים על הפצות בינומיות שליליות, כולל הערכת בייס אמפירית, בדיקות מדויקות, מודלים ליניאריים כלליים ובדיקות מעין סבירות⁹.

לסיכום, אנו מספקים את הפרוטוקולים המפורטים של ניתוח ביטוי דיפרנציאלי RNA-seq באמצעות לימה, DESeq2 ו- EdgeR, בהתאמה. בהתייחסם למאמר זה, משתמשים יכולים לבצע בקלות את הניתוח הדיפרנציאלי של RNA-seq ולבחור את שיטות הניתוח הדיפרנציאלי המתאימות עבור הנתונים שלהם.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

הערה: פתח את תוכנית R-studio לטעון קובץ R "DEGs.R", הקובץ ניתן לרכוש מקבצים משלימים / סקריפטים.

1. הורדה ועיבוד מראש של נתונים

הורד את נתוני ספירת הרצוף בעל התפוקה הגבוהה (HTSeq) של כולנגיוקרצינומה (CHOL) מאטלס הגנום הסרטני (TCGA). שלב זה יכול להיות מושג בקלות על ידי קוד R הבא.
1. לחץ על הפעל כדי להתקין חבילות R.
2. לחץ על הפעל כדי לטעון חבילות R.
  if(!requireNamespace("BiocManager", בשקט=TRUE))
  + install.packages("BiocManager")
  BiocManager::install(c("TCGAbiolinks", "ניסיון מסוכם"))
3. הגדר את ספריית העבודה.
  ספריה (TCGAbiolinks)
  ספריה (ניסיון מסוכם)
  setwd("C:/Users/LIUSHIYI/Desktop")
4. בחר את סוג הסרטן.
  סרטן < - "TCGA-CHOL"
5. הפעל את קוד ה- R מהקובץ "GDCquery.R" כדי להוריד את הנתונים. ניתן לרכוש את הקובץ "GDCquery.R" מקבצים/סקריפטים משלימים:
  מקור("קבצים משלימים/סקריפטים/GDCquery.R")
  head(cnt)
  ##TCGA-3X-AAVA-01A-11R-A41I-07
  ##ENSG00000000003 4262
  ##ENSG00000000005 1
  ##ENSG00000000419 1254
  ##ENSG00000000457 699
  ##ENSG00000000460 239
  ##ENSG00000000938 334
  הערה: לאחר ביצוע, נתוני ספירת CHOLHTSeq יורדו וייקראו "cnt", כאשר שורות מייצגות מזהי גנים ועמודות של הרכב מייצגות מזהים לדוגמה. אנא שימו לב למספרים במיקומים 14-15 בתמותות הת"י לדוגמה; מספרים הנעים בין 01 ל -09 מצביעים על גידולים הנעים בין 10 ל -19 מצביעים על רקמות רגילות.
המר זהות גנים של אנסמבל לסמלים גנטיים.
1. יבא את קובץ הביאורים ל- R בהתאם לנתיב האחסון שלו. ניתן לרכוש את קובץ הביאורים (gencode.v22.annotation.gtf) מקבצים משלימים.
  gtf_v22 <- rtracklayer::import('קבצים משלימים/gencode.v22.annotation.gtf')
2. הפעל את קוד R מ"gtf_v22. קובץ R, אשר ניתן לרכוש מקבצים משלימים / סקריפטים:
  מקור("קבצים משלימים/סקריפטים/gtf_v22. R")
3. החל את הפונקציה "ann" כדי להמיר את זהות הגן הרכב לסמלים גנטיים.
  cnt= ann(cnt,gtf_v22)
סינון גנים בעלי ביטוי נמוך
1. לחץ על הפעל כדי להתקין את חבילת R "edgeR".
  BiocManager::install("edgeR")
2. לחץ על הפעל כדי לטעון את חבילת R "edgeR".
  library(edgeR)
3. הפעל את קוד ה- R הבא כדי לשמור על גנים עם ערכי ספירה למיליון (עלות לאלף חשיפות) הגדולים מאחד מכל שתי דגימות לפחות.
  שמור <- שורותsums(cnt)>1)>=2
  cnt <- as.matrix(cnt[keep,])
  הערה: נעשה שימוש בערך ספירה למיליון (עלות לאלף חשיפות) במקום ספירת הקריאה כדי לבטל את הסטייה הנגרמת על-ידי עומקי רצף שונים.

2. ניתוח ביטוי דיפרנציאלי באמצעות "לימה"

לחץ על הפעל כדי להתקין את חבילת R "limma".
BiocManager::install("limma")
לחץ על הפעל כדי לטעון את חבילות R "לימה", "edgeR".
library(limma)
library(edgeR)
הפעל את קוד ה- R הבא כדי ליצור את מטריצת העיצוב.
קבוצה <- substring(colnames(cnt),14,15) # Extract group information
קבוצה [קבוצה %ב% "01"] <- "Cancer" # set '01' as tumor tissue
קבוצה [קבוצה %ב% "11"] <- "Normal" # set '11' as normal tissue
קבוצה <- factor (group, levels = c("Normal","Cancer"))
1. צור את מטריצת העיצוב.
  עיצוב <- model.matrix (~group)
  שמות שורה (design) <- colnames(cnt)
2. צור את האובייקט DGEList.
  dge <- DGEList(counts = cnt, group = group)
3. לנרמל את הנתונים.
  dge <- calcNormFactors(dge, method = "TMM")
4. הפעל את קוד ה- R הבא כדי לבצע את ניתוח הביטוי הדיפרנציאלי המבוסס על שיטת מגמת לימה.
  dge
  אובייקט #An של מחלקה "DGEList"
  ##$counts
  ##TCGA-3X-AAVA-01A-11R-A41I-07
  ##TSPAN6 4262
  ##DPM1 1254
  ##SCYL3 699
  ##C1orf112 239
  ##FGR 334
5. חשב את ערך ה- CPM.
  logdge <- cpm(dge, log=TRUE, prior.count=3)
6. לחץ על הפעל כדי להתאים למודל ליניארי כדי לחזות את הנתונים או להסיק את קשר הגומלין בין משתנים.
  התאם <- lmFit (logdge, design)
7. חשב את ערך T, ערך F וסיכויי יומן רישום בהתבסס על Bayesian.
  התאם <- eBayes(בכושר, מגמה= TRUE)
8. חלץ את טבלת התוצאות.
  res_limma<- as.data.frame(topTable(התאמה,n=Inf))
  
  ראש(res_limma)
  ## logFC AveExpr t P.Value adj. פ.ואל.
  ##RP11-252E2.2 -4.899493 -2.488589 -20.88052 2.386656e-25 4.931786e-21 47.28823
  ##BX842568.1 -4.347930 -2.595205 -20.14532 1.082759e-24 1.118706e-20 45.83656
  ##CTC-537E7.3 -5.154894 -2.143292 -19.59571 3.452354e-24 2.216114e-20 44.72001
  ##RP11-468N14.3 -6.532259 -2.029714 -19.49409 4.289807e-24 2.216114e-20 44.51056
  ##AP006216.5 -4.507051 -2.670915 -19.25649 7.153356e-24 2.956339e-20 44.01704
  ##RP11-669E14.4 -4.107204 -2.828311 -18.93246 1.448209e-23 4.987633e-20 43.33543
  #The תוצאה של ניתוח ביטוי דיפרנציאלי נשמרת ב- "res_limma", הכולל את מזהה הגן, ערך שינוי הקיפול של log2 (logFC), רמת הביטוי הממוצעת של log2 של הגן בניסוי (AveExpr), סטטיסטיקת t שהשתנתה (t), ערך p מחדש (P.Value), ערך p המתוקן של שיעור גילוי כוזב (FDR) (adj). פ.ואל) וסיכויי היומן של הגנים המבוטאים באופן דיפרנציאלי (ב)
  הערה: הפונקציה "calcNormFactors()" של "edgeR" שימשה לנרמול הנתונים כדי לחסל את ההשפעה הנגרמת על ידי הכנת מדגם או בניית ספריה ורצף. בבניית מטריצת עיצוב, יש צורך להתאים עיצוב ניסיוני (למשל, סוג רקמה: רקמות רגילות או גידול) כדי לדגום מזהים של המטריצה. מגמת לימה מתאימה לנתונים שעומק הרצף שלהם זהה, ואילו לימה-וום מתאים: (i) כאשר גודל ספריית הדגימה שונה; (ii) נתונים שאינם מנורמלים על-ידי TMM; (iii) יש הרבה "רעש" בנתונים. logFC חיובי אומר כי הגן הוא מוסדר למעלה בניסוי, בעוד מספר שלילי אומר כי הגן הוא למטה מוסדר.
9. זהה את הדי-ג'י.
  res_limma$sig <- as.factor(
  ifelse(res_limma$adj. P.Val < 0.05 & res_limma$logFC) > 2,
  ifelse(res_limma$logFC > 2 ,'למעלה','down'),'')) # הערך של adj.p < 0.05 ו- |log2FC| >= 2 הם סף לזיהוי DEGs
  סיכום(res_limma$sig)
  ##down לא למעלה
  ##1880 17341 1443
10. פלט טבלת התוצאות לקובץ.
  כתיבה.csv(res_limma, קובץ = 'result_limma.csv')
11. לחץ על הפעל כדי להתקין את חבילת R "ggplot2".
  install.packages("ggplot2")
12. לחץ על הפעל כדי לטעון את חבילת R "ggplot2".
  library(ggplot2)
13. הפעל את קוד R מ "הר הגעש. R" כדי ליצור את חלקת הר הגעש. הקובץ "הר געש. R" ניתן לרכוש מקבצים משלימים.
  מקור("קבצים משלימים/ סקריפטים / הר געש. R")
  הר געש(res_limma,"logFC","adj. פ.ואל",2,0.05)
  הערה: ניתן למפות גנים למיקומים שונים בהתאם לערכי log2FC ו- adj-p שלהם, ה- DEGs המפוקחים למעלה נצבעים באדום, ו- DEGs המוסדר כלפי מטה נצבע בירוק.
14. לחץ על ייצוא כדי להציל את חלקת הר הגעש.
  הערה: ניתן ליצור ולהוריד את מגרשי הר הגעש בפורמטים שונים (למשל, pdf, TIFF, PNG, פורמט JPEG). ניתן למפות גנים למיקומים שונים בהתאם לערכי log2FC ו- adj p שלהם, ה- DEGs המוסדרים (log2FC > 2, adj p < 0.05) צבועים באדום, ו- DEGs המוסדר כלפי מטה (log2FC < -2, adj p < 0.05) צבועים בירוק, שאינם DEGs צבועים באפור.

3. ניתוח ביטוי דיפרנציאלי באמצעות "edgeR"

לחץ על הפעל כדי לטעון את חבילת R "edgeR".
library(edgeR)
הפעל את קוד ה- R הבא כדי ליצור מטריצת עיצוב.
group <-substring(colnames(cnt),14,15)
קבוצה [קבוצה %ב% "01"] <- "סרטן"
קבוצה [קבוצה %ב% "11"] <- "רגיל"
group=factor(קבוצה, רמות = c("נורמלי","סרטן"))
עיצוב <-model.matrix(~קבוצה)
שמות שורה(design) = colnames(cnt)
לחץ על הפעל כדי ליצור את האובייקט DGEList.
dge <- DGEList(counts=cnt)
לנרמל את הנתונים.
dge <- calcNormFactors(dge, method = "TMM")
לחץ על הפעל כדי להעריך את הפיזור של ערכי ביטוי גנים.
dge <- estimateDisp(dge, design, robust = T)
לחץ על הפעל כדי להתאים מודל לספירת נתונים.
התאם <- glmQLFit(dge, עיצוב)
ערוך בדיקה סטטיסטית.
התאם <- glmQLFTest (התאמה)
חלץ את טבלת התוצאות. התוצאה נשמרת ב- "res_edgeR", הכוללת את ערך שינוי קיפול יומן הרישום, יומן הרישום עלות לאלף חשיפות, F, ערך p וערך p מתוקן של FDR.
res_edgeR=as.data.frame(topTags(התאמה, n=Inf))
ראש(res_edgeR)
## logFCFC F PValue FDR
##GCDH -3.299633 5.802700 458.5991 1.441773e-25 2.979280e-21
##MSMO1 -3.761400 7.521111 407.0416 1.730539e-24 1.787993e-20R
##CL1 -3.829504 5.319641 376.5043 8.652474e-24 5.516791e-20
##ADI1 -3.533664 8.211281 372.6671 1.067904e-23 5.516791e-20
##KCNN2 -5.583794 3.504017 358.6525 2.342106e-23 9.679455e-20
##GLUD1 -3.287447 8.738080 350.0344 3.848408e-23 1.194406e-19
תוצאת #The נשמרת ב- "res_edgeR", הכוללת את ערך השינוי של קיפול יומן הרישום (logFC), עלות לאלף חשיפות של יומן רישום, F, ערך p וערך p מתוקן של FDR
זהה את הדי-ג'י.
res_edgeR$sig = as.factor(
ifelse(res_edgeR$FDR < 0.05 & abs(res_edgeR$logFC) > 2,
ifelse(res_edgeR$logFC > 2 'למעלה','down'),'not'))
סיכום(res_edgeR$sig)
##down לא למעלה
##1578 15965 3121
פלט טבלת התוצאות לקובץ.
כתיבה.csv(res_edgeR, קובץ = 'res_edgeR.csv')
צור את חלקת הר הגעש.
הר געש(res_edgeR,"logFC","FDR",2,0.05)
לחץ על ייצוא כדי להציל את חלקת הר הגעש.

4. ניתוח ביטוי דיפרנציאלי באמצעות "DESeq2"

לחץ על הפעל כדי להתקין חבילות R "DESeq2".
BiocManager::install("DESeq2")
לחץ על הפעל כדי לטעון חבילות R "DESeq2".
library(DESeq2)
הפעל את קוד ה- R הבא כדי לקבוע את גורם הקבץ.
group <-substring(colnames(cnt),14,15)
קבוצה [קבוצה %ב% "01"] <- "סרטן"
קבוצה [קבוצה %ב% "11"] <- "רגיל"
group=factor(קבוצה, רמות = c("נורמלי","סרטן"))
צור את האובייקט DESeqDataSet.
dds <-DESeqDataSetFromMatrix (cnt, DataFrame(group), design = ~group)
dds
##class: DESeqDataSet
##dim: 20664 45
##metadata(1): גירסה
##assays(1): ספירה
##rownames(20664): TSPAN6 DPM1 ... RP11-274B21.13 LINC01144
שמות #rowData(0):
##colnames(45): TCGA-3X-AAVA-01A-11R-A41I-07 ...
##colData שמות(1): קבוצה
בצע את הניתוח.
dds <- DESeq(dds)
צור את טבלת התוצאות.
res_DESeq2 <- data.frame(תוצאות(dds))

ראש(res_DESeq2)
## baseMean log2FoldChange lfcSE stat pvalue padj
##TSPAN6 4704.9243 -0.8204515 0.3371667 -2.433370 1.495899e-02 2.760180e-02
##DPM1 1205.9087 -0.3692497 0.1202418 -3.070894 2.134191e-03 4.838281e-03
##SCYL3 954.9772 0.2652530 0.2476441 1.071106 2.841218e-01 3.629059e-01
##C1orf112 277.7756 0.7536911 0.2518929 2.992109 2.770575e-03 6.101584e-03
##FGR 345.8789 -0.6423198 0.3712729 -1.730047 8.362180e-02 1.266833e-01
##CFH 27982.3546 -3.8761382 0.5473363 -7.081823 1.422708e-12 1.673241e-11
הערה: התוצאה נשמרת ב- "res_DESeq2", הכוללת את הממוצע של ספירת הקריאה המנורמלת (baseMean), ערך שינוי קיפול יומן (log2FoldChange), שגיאת תקן שינוי קיפול יומן (lfcSE), סטטיסטיקת Wald (stat), ערך p המקורי (pvalue) וערך p מתוקן (padj)
זהה DEGs.
res_DESeq2$sig = as.factor(
ifelse(res_DESeq2$padj < 0.05 & abs (res_DESeq2$log2FoldChange) > 2,
ifelse(res_DESeq2$log2Foldשינוי > 2 'למעלה','down'),'not'))
סיכום(res_DESeq2$sig)
##down לא למעלה
##1616 16110 2938
פלט טבלת התוצאות לקובץ.
כתיבה.csv(res_DESeq2, קובץ = 'res_DESeq2.csv')
צור את חלקת הר הגעש.
הר געש(res_DESeq2,"log2FoldChange","padj",2,0.05)
לחץ על ייצוא כדי להציל את חלקת הר הגעש.

5. דיאגרמת ון

לחץ על הפעל כדי להתקין את חבילת R "VennDiagram".
install.packages("VennDiagram")
לחץ על הפעל כדי לטעון את חבילת R "VennDiagram".
ספריה (דיאגרמת ון)
הפוך דיאגרמת ון של DEGs מוסדר.
grid.newpage()
grid.draw(venn.diagram(list(Limma=rownames(res_
לימה[res_limma$sig=="up",]),
edgeR=rownames(res_edgeR[res_edgeR$sig=="up",]),
DESeq2=rownames(res_DESeq2[res_DESeq2$sig==
"למעלה",])),
NULL, גובה = 3, רוחב = 3,יחידות = "in",
קול="שחור", lwd = 0.3,fill =c("#FF6666", "#FFFF00",
"#993366"),
אלפא = c(0.5, 0.5, 0.5),ראשי = "למעלה מוסדר DEGs"))
לחץ על ייצוא כדי לשמור את דיאגרמת חיתוך ההון.
הפוך דיאגרמת ון של DEGs מוסדר למטה.
grid.newpage()
grid.draw(venn.diagram(list(Limma=rownames(res_
לימה[res_limma$sig=="down",]),
edgeR=rownames(res_edgeR[res_edgeR$sig==
"למטה",]),
DESeq2=rownames(res_DESeq2[res_DESeq2$sig=="down",])),
NULL, גובה = 3, רוחב = 3,יחידות = "in",
קול="שחור", lwd = 0.3,fill =c("#FF6666", "#FFFF00",
"#993366"),
אלפא = c(0.5, 0.5, 0.5),ראשי = "DEGs מוסדר למטה"))
לחץ על ייצוא כדי לשמור את דיאגרמת חיתוך ההון.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

ישנן גישות שונות כדי לדמיין את התוצאה של ניתוח ביטוי דיפרנציאלי, ביניהם חלקת הר הגעש ודיאגרמת Venn משמשים במיוחד. לימה זיהתה 3323 DEGs בין CHOL ורקמות נורמליות עם |logFC|≥2 ו adj. P.Val <0.05 כסף, ביניהם 1880 היו למטה מוסדר ברקמות CHOL ו 1443 היו מוסדר למעלה(איור 1a). בינתיים, edgeR זיהתה את דגי ה-DEGs המפוקחים מטה של 1578 ואת 3121 דגי DEGs מוסדרים כלפי מעלה (איור 1b); DESeq2 זיהה את דגי DEGs בפיקוח מטה 1616 ו DEGs 2938 למעלה מוסדר(איור 1c). בהשוואה לתוצאות של שלוש שיטות אלה, 1431 DEGs מוסדר ו 1531 DEGs מוסדר למטה היו חופפים (איור 2).

איור 1. זיהוי של גנים מבוטאים באופן דיפרנציאלי (DEGs) בין CHOL ורקמות רגילות. (a-c) חלקות הר הגעש של כל הגנים שנרכשו על ידי לימה, edgeR ו- DESeq2, בהתאמה, ערך adj p (-log10) משורטט כנגד שינוי הקיפול (log2), נקודות אדומות מייצגות את ה- DEGs המפוקחים (ערך p מותאם<0.05 ויומן | FC|> 2) והנקודות הירוקות מייצגות את ה- DEGs המפוקחים כלפי מטה (ערך p מותאם< 0.05 ויומן רישום | פ.צ|< 2). אנא לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.

איור 2. דיאגרמות Venn מציגות חפיפה בין התוצאות הנגזרות מהלימה, edgeR ו- DESeq2. אנא לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.

קבצים משלימים. נא לחץ כאן כדי להוריד קובץ זה.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

תמלילים חריגים בשפע בסרטן ניתן לזהות בקלות על ידי ניתוח דיפרנציאלי RNA-seq⁵. עם זאת, היישום של ניתוח ביטוי דיפרנציאלי RNA-seq מוגבל לעתים קרובות כפי שהוא דורש מיומנויות מסוימות עם שפת R ואת היכולת לבחור שיטות מתאימות. כדי לטפל בבעיה זו, אנו מספקים מבוא מפורט לשלוש השיטות הידועות ביותר (לימה, EdgeR ו- DESeq2) וערכות לימוד להחלת ניתוח הביטוי הדיפרנציאלי של RNA-seq. זה יאפשר את הבנת הדמיון וההבדלים בכל שלוש השיטות, יאפשר בחירה של שיטה מתאימה לנתונים בודדים, ויאפשר לנו להבין את התהליכים הביולוגיים הדינמיים המורכבים.

כאן, אנו מציגים פרוטוקול מפורט לניתוח ביטוי דיפרנציאלי RNA-seq באמצעות לימה, edgeR ו- DESeq2 בהתאמה, בחמישה שלבים: (i) הורדה ועיבוד מראש של נתונים, (ii-iv) ניתוח ביטוי דיפרנציאלי באמצעות לימה, edgeR ו- DESeq2, בהתאמה, (v) השוואה של התוצאות של שלוש שיטות אלה באמצעות דיאגרמת Venn.

לשלוש השיטות יש שלבים דומים ושונים בין תהליכי ניתוח הביטוי הדיפרנציאלי. מודל ליניארי משמש לסטטיסטיקה בלימה, החלה על כל טכנולוגיות ביטוי הגנים, כולל מיקרו-arrays, RNA-seq ו- PCR כמותי⁸^,¹³, בעוד edgeR ו- DESeq2 ליישם מגוון של מתודולוגיות סטטיסטיות המבוססות על ההתפלגות הבינומית השלילית⁹^,¹⁰, ו edgeR ו- DESeq2 מתאימים לנתוני RNA-seq. בנוסף, נתוני ספירת הרנ"א-seq המנורמלים נחוצים עבור EdgeR ולימה, בעוד ש- DESeq2 משתמש באי-התאמות ספריה משלו כדי לתקן נתונים במקום נורמליזציה והנתונים ב- DESeq2 חייבים להיות מטריצת מספר שלם. שיטות הנורמליזציה כוללות את TMM (ממוצע גזור של ערכי M), TMwsp, RLE (ביטוי יומן יחסי) ו- upperquartile, ביניהם TMM היא שיטת הנורמליזציה הנפוצה ביותר עבור נתוני RNA-seq. התוצאות של שלוש השיטות הראו כי DESeq2 ו- EdgeR משיגים יותר DEGs מאשר לימה. הסיבה להבדל זה היא כי edgeR ו- DESeq2 מבוססים על המודל הבינומי השלילי, התורם למספר גדול של תוצאות חיוביות שגויות. להיפך, לימה-וום משתמשת רק בפונקציית השונות ואינה מציגה חיוביות שגויות מוגזמות, כמו במקרה של שינוי ייצוב ואחריו ניתוח מודל ליניארי עם לימה^14,¹⁵^,¹⁶.

לכל שלוש השיטות יש יתרונות משלהן, והבחירה תלויה רק בסוג הנתונים. לדוגמה, אם יש נתוני microarray, לימה צריכה להינתן עם עדיפות, אבל כאשר זה הדור הבא ריצוף נתונים, DESeq2 ו EdgeR מועדפים⁹^,¹⁰^,¹⁷. לסיכום, אנו מספקים כאן פרוטוקול מפורט לניתוח ביטוי דיפרנציאלי RNA-seq עם חבילות R לימה, edgeR ו- DESeq2, בהתאמה. תוצאות הפלט משלוש השיטות חופפות בחלקן, ולשיטות דיפרנציאליות אלה יש יתרונות משלהן. למרבה הצער, פרוטוקול זה אינו מכסה את הפרטים הטכניים עבור סוגי נתונים אחרים (למשל, נתוני microarray) ושיטות (למשל, EBSeq)¹⁸.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

כתב היד לא פורסם בעבר ואינו נשקלת לפרסום במקומות אחרים. כל המחברים תרמו ליצירת כתב יד זה לתוכן אינטלקטואלי חשוב וקראו ואישרו את כתב היד הסופי. אנו מצהירים שאין ניגוד אינטרסים.

Acknowledgments

עבודה זו נתמכה על ידי הקרן הלאומית למדעי הטבע של סין (מענק מס ' 81860276) ופרויקטים מרכזיים של הקרן המיוחדת של תוכנית המחקר והפיתוח הלאומית (מענק מס '2018YFC1003200).