Summary

שלוש שיטות לניתוח ביטויים דיפרנציאליים לרצף RNA: לימה, EdgeR, DESeq2

Published: September 18, 2021
doi:

Summary

פרוטוקול מפורט של שיטות ניתוח ביטוי דיפרנציאלי עבור רצף RNA סופק: לימה, EdgeR, DESeq2.

Abstract

רצף RNA (RNA-seq) היא אחת הטכנולוגיות הנפוצות ביותר בתעתיק, שכן היא יכולה לחשוף את הקשר בין השינוי הגנטי לתהליכים ביולוגיים מורכבים ויש לה ערך רב באבחון, פרוגנוסטיקה וטיפולים של גידולים. ניתוח דיפרנציאלי של נתוני RNA-seq חיוני לזיהוי תמלולים חריגים, ולימה, EdgeR ו- DESeq2 הם כלים יעילים לניתוח דיפרנציאלי. עם זאת, ניתוח דיפרנציאלי RNA-seq דורש מיומנויות מסוימות עם שפת R ואת היכולת לבחור שיטה מתאימה, אשר חסר בתוכנית הלימודים של החינוך הרפואי.

בזאת, אנו מספקים את הפרוטוקול המפורט לזיהוי גנים מבוטאים דיפרנציאלי (DEGs) בין cholangiocarcinoma (CHOL) ורקמות נורמליות באמצעות לימה, DESeq2 ו- EdgeR, בהתאמה, והתוצאות מוצגות בחלקות הר געש ודיאגרמות ון. שלושת הפרוטוקולים של לימה, DESeq2 ו- EdgeR דומים אך יש להם שלבים שונים בין תהליכי הניתוח. לדוגמה, מודל ליניארי משמש עבור סטטיסטיקה בלימה, בעוד ההתפלגות הבינומית השלילית משמשת ב- edgeR וב- DESeq2. בנוסף, נתוני ספירת הרנ”א-seq מנורמלים נחוצים עבור EdgeR ולימה, אך אינם נחוצים עבור DESeq2.

כאן, אנו מספקים פרוטוקול מפורט לשלוש שיטות ניתוח דיפרנציאליות: לימה, EdgeR ו- DESeq2. התוצאות של שלוש השיטות חופפות חלקית. לכל שלוש השיטות יש יתרונות משלהן, ובחירת השיטה תלויה רק בנתונים.

Introduction

RNA-sequencing (RNA-seq) היא אחת הטכנולוגיות הנפוצות ביותר בתעתיק עם יתרונות רבים (למשל, שחזור נתונים גבוה), והגדילה באופן דרמטי את הבנתנו את הפונקציות והדינמיקה של תהליכים ביולוגיים מורכבים1,2. זיהוי של תמלילים חריגים בהקשר ביולוגי שונה, הידועים גם כגנים מבוטאים באופן דיפרנציאלי (DEGs), הוא צעד מפתח בניתוח RNA-seq. RNA-seq מאפשר לקבל הבנה עמוקה של מנגנונים מולקולריים הקשורים פתוגנזה פונקציות ביולוגיות. לכן, ניתוח דיפרנציאלי נחשב בעל ערך עבור אבחון, פרוגנוסטיקה וטיפולים של גידולים3,4,5. נכון לעכשיו, חבילות R/Bioconductor קוד פתוח יותר פותחו עבור ניתוח ביטוי דיפרנציאלי RNA-seq, במיוחד לימה, DESeq2 ו EdgeR1,6,7. עם זאת, ניתוח דיפרנציאלי דורש מיומנויות מסוימות עם שפת R ואת היכולת לבחור את השיטה המתאימה, אשר חסר בתוכנית הלימודים של החינוך הרפואי.

בפרוטוקול זה, המבוסס על נתוני ספירת הרנ”א-seq של cholangiocarcinoma (CHOL) שחולצו מאטלס הגנום הסרטני (TCGA), שלוש מהשיטות הידועות ביותר (לימה8, EdgeR9 ו- DESeq210) בוצעו, בהתאמה, על ידי תוכנית R11 כדי לזהות את DEGs בין CHOL ורקמות נורמליות. שלושת הפרוטוקולים של לימה, EdgeR ו- DESeq2 דומים אך יש להם שלבים שונים בין תהליכי הניתוח. לדוגמה, נתוני ספירת הרנ”א-seq המנורמלים נחוצים עבור EdgeR ו- limma8,9, ואילו DESeq2 משתמשת בסתירות ספריה משלה כדי לתקן נתונים במקום נורמליזציה10. יתר על כן, edgeR מתאים במיוחד לנתוני RNA-seq, בעוד שהלימה משמשת למיקרו-arrays ו- RNA-seq. מודל ליניארי מאומץ על ידי לימה כדי להעריך את DEGs12, בעוד הסטטיסטיקה ב edgeR מבוססים על הפצות בינומיות שליליות, כולל הערכת בייס אמפירית, בדיקות מדויקות, מודלים ליניאריים כלליים ובדיקות מעין סבירות9.

לסיכום, אנו מספקים את הפרוטוקולים המפורטים של ניתוח ביטוי דיפרנציאלי RNA-seq באמצעות לימה, DESeq2 ו- EdgeR, בהתאמה. בהתייחסם למאמר זה, משתמשים יכולים לבצע בקלות את הניתוח הדיפרנציאלי של RNA-seq ולבחור את שיטות הניתוח הדיפרנציאלי המתאימות עבור הנתונים שלהם.

Protocol

הערה: פתח את תוכנית R-studio לטעון קובץ R “DEGs.R”, הקובץ ניתן לרכוש מקבצים משלימים / סקריפטים. 1. הורדה ועיבוד מראש של נתונים הורד את נתוני ספירת הרצוף בעל התפוקה הגבוהה (HTSeq) של כולנגיוקרצינומה (CHOL) מאטלס הגנום הסרטני (TCGA). שלב זה יכול להיות מושג בקלות על ידי קוד R הבא. לחץ על <str…

Representative Results

ישנן גישות שונות כדי לדמיין את התוצאה של ניתוח ביטוי דיפרנציאלי, ביניהם חלקת הר הגעש ודיאגרמת Venn משמשים במיוחד. לימה זיהתה 3323 DEGs בין CHOL ורקמות נורמליות עם |logFC|≥2 ו adj. P.Val <0.05 כסף, ביניהם 1880 היו למטה מוסדר ברקמות CHOL ו 1443 היו מוסדר למעלה(איור 1a). בינתיים, edgeR זיהתה את דגי ה-DEGs המפו?…

Discussion

תמלילים חריגים בשפע בסרטן ניתן לזהות בקלות על ידי ניתוח דיפרנציאלי RNA-seq5. עם זאת, היישום של ניתוח ביטוי דיפרנציאלי RNA-seq מוגבל לעתים קרובות כפי שהוא דורש מיומנויות מסוימות עם שפת R ואת היכולת לבחור שיטות מתאימות. כדי לטפל בבעיה זו, אנו מספקים מבוא מפורט לשלוש השיטות הידועות ביות?…

Disclosures

The authors have nothing to disclose.

Acknowledgements

עבודה זו נתמכה על ידי הקרן הלאומית למדעי הטבע של סין (מענק מס ‘ 81860276) ופרויקטים מרכזיים של הקרן המיוחדת של תוכנית המחקר והפיתוח הלאומית (מענק מס ‘2018YFC1003200).

Materials

R version 3.6.2 free software
Rstudio free software

References

  1. Tambonis, T., Boareto, M., Leite, V. B. P. Differential Expression Analysis in RNA-seq Data Using a Geometric Approach. Journal of Computational Biology. 25, 1257-1265 (2018).
  2. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature Reviews. Genetics. 10, 57-63 (2009).
  3. Anders, S., et al. Count-based differential expression analysis of RNA sequencing data using R and Bioconductor. Nature Protocols. 8, 1765-1786 (2013).
  4. McDermaid, A., Monier, B., Zhao, J., Liu, B., Ma, Q. Interpretation of differential gene expression results of RNA-seq data: review and integration. Briefings in Bioinformatics. 20, 2044-2054 (2019).
  5. Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12, 0190152 (2017).
  6. Law, C. W., et al. RNA-seq analysis is easy as 1-2-3 with limma, Glimma and edgeR. F1000Research. 5, (2016).
  7. Varet, H., Brillet-Guéguen, L., Coppée, J. Y., Dillies, M. A. SARTools: A DESeq2- and EdgeR-Based R Pipeline for Comprehensive Differential Analysis of RNA-Seq Data. PloS One. 11, 0157022 (2016).
  8. Ritchie, M. E., et al. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Research. 43, 47 (2015).
  9. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26, 139-140 (2010).
  10. Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology. 15, 550 (2014).
  11. Gentleman, R. C., et al. Bioconductor: open software development for computational biology and bioinformatics. Genome Biology. 5, 80 (2004).
  12. Law, C. W., Chen, Y., Shi, W., Smyth, G. K. voom: Precision weights unlock linear model analysis tools for RNA-seq read counts. Genome Biology. 15, 29 (2014).
  13. Smyth, G. K. Linear models and empirical bayes methods for assessing differential expression in microarray experiments. Statistical Applications in Genetics and Molecular Biology. 3, (2004).
  14. Lund, S. P., Nettleton, D., McCarthy, D. J., Smyth, G. K. Detecting differential expression in RNA-sequence data using quasi-likelihood with shrunken dispersion estimates. Statistical Applications in Genetics and Molecular Biology. 11, (2012).
  15. Reeb, P. D., Steibel, J. P. Evaluating statistical analysis models for RNA sequencing experiments. Frontiers in Genetics. 4, 178 (2013).
  16. Rocke, D. M., et al. Excess False Positive Rates in Methods for Differential Gene Expression Analysis using RNA-Seq Data. bioRxiv. , (2015).
  17. Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC genomics. 11, 383 (2010).
  18. Leng, N., et al. EBSeq: an empirical Bayes hierarchical model for inference in RNA-seq experiments. Bioinformatics. 29, 1035-1043 (2013).

Play Video

Cite This Article
Liu, S., Wang, Z., Zhu, R., Wang, F., Cheng, Y., Liu, Y. Three Differential Expression Analysis Methods for RNA Sequencing: limma, EdgeR, DESeq2. J. Vis. Exp. (175), e62528, doi:10.3791/62528 (2021).

View Video