פרוטוקול מפורט של שיטות ניתוח ביטוי דיפרנציאלי עבור רצף RNA סופק: לימה, EdgeR, DESeq2.
רצף RNA (RNA-seq) היא אחת הטכנולוגיות הנפוצות ביותר בתעתיק, שכן היא יכולה לחשוף את הקשר בין השינוי הגנטי לתהליכים ביולוגיים מורכבים ויש לה ערך רב באבחון, פרוגנוסטיקה וטיפולים של גידולים. ניתוח דיפרנציאלי של נתוני RNA-seq חיוני לזיהוי תמלולים חריגים, ולימה, EdgeR ו- DESeq2 הם כלים יעילים לניתוח דיפרנציאלי. עם זאת, ניתוח דיפרנציאלי RNA-seq דורש מיומנויות מסוימות עם שפת R ואת היכולת לבחור שיטה מתאימה, אשר חסר בתוכנית הלימודים של החינוך הרפואי.
בזאת, אנו מספקים את הפרוטוקול המפורט לזיהוי גנים מבוטאים דיפרנציאלי (DEGs) בין cholangiocarcinoma (CHOL) ורקמות נורמליות באמצעות לימה, DESeq2 ו- EdgeR, בהתאמה, והתוצאות מוצגות בחלקות הר געש ודיאגרמות ון. שלושת הפרוטוקולים של לימה, DESeq2 ו- EdgeR דומים אך יש להם שלבים שונים בין תהליכי הניתוח. לדוגמה, מודל ליניארי משמש עבור סטטיסטיקה בלימה, בעוד ההתפלגות הבינומית השלילית משמשת ב- edgeR וב- DESeq2. בנוסף, נתוני ספירת הרנ”א-seq מנורמלים נחוצים עבור EdgeR ולימה, אך אינם נחוצים עבור DESeq2.
כאן, אנו מספקים פרוטוקול מפורט לשלוש שיטות ניתוח דיפרנציאליות: לימה, EdgeR ו- DESeq2. התוצאות של שלוש השיטות חופפות חלקית. לכל שלוש השיטות יש יתרונות משלהן, ובחירת השיטה תלויה רק בנתונים.
RNA-sequencing (RNA-seq) היא אחת הטכנולוגיות הנפוצות ביותר בתעתיק עם יתרונות רבים (למשל, שחזור נתונים גבוה), והגדילה באופן דרמטי את הבנתנו את הפונקציות והדינמיקה של תהליכים ביולוגיים מורכבים1,2. זיהוי של תמלילים חריגים בהקשר ביולוגי שונה, הידועים גם כגנים מבוטאים באופן דיפרנציאלי (DEGs), הוא צעד מפתח בניתוח RNA-seq. RNA-seq מאפשר לקבל הבנה עמוקה של מנגנונים מולקולריים הקשורים פתוגנזה פונקציות ביולוגיות. לכן, ניתוח דיפרנציאלי נחשב בעל ערך עבור אבחון, פרוגנוסטיקה וטיפולים של גידולים3,4,5. נכון לעכשיו, חבילות R/Bioconductor קוד פתוח יותר פותחו עבור ניתוח ביטוי דיפרנציאלי RNA-seq, במיוחד לימה, DESeq2 ו EdgeR1,6,7. עם זאת, ניתוח דיפרנציאלי דורש מיומנויות מסוימות עם שפת R ואת היכולת לבחור את השיטה המתאימה, אשר חסר בתוכנית הלימודים של החינוך הרפואי.
בפרוטוקול זה, המבוסס על נתוני ספירת הרנ”א-seq של cholangiocarcinoma (CHOL) שחולצו מאטלס הגנום הסרטני (TCGA), שלוש מהשיטות הידועות ביותר (לימה8, EdgeR9 ו- DESeq210) בוצעו, בהתאמה, על ידי תוכנית R11 כדי לזהות את DEGs בין CHOL ורקמות נורמליות. שלושת הפרוטוקולים של לימה, EdgeR ו- DESeq2 דומים אך יש להם שלבים שונים בין תהליכי הניתוח. לדוגמה, נתוני ספירת הרנ”א-seq המנורמלים נחוצים עבור EdgeR ו- limma8,9, ואילו DESeq2 משתמשת בסתירות ספריה משלה כדי לתקן נתונים במקום נורמליזציה10. יתר על כן, edgeR מתאים במיוחד לנתוני RNA-seq, בעוד שהלימה משמשת למיקרו-arrays ו- RNA-seq. מודל ליניארי מאומץ על ידי לימה כדי להעריך את DEGs12, בעוד הסטטיסטיקה ב edgeR מבוססים על הפצות בינומיות שליליות, כולל הערכת בייס אמפירית, בדיקות מדויקות, מודלים ליניאריים כלליים ובדיקות מעין סבירות9.
לסיכום, אנו מספקים את הפרוטוקולים המפורטים של ניתוח ביטוי דיפרנציאלי RNA-seq באמצעות לימה, DESeq2 ו- EdgeR, בהתאמה. בהתייחסם למאמר זה, משתמשים יכולים לבצע בקלות את הניתוח הדיפרנציאלי של RNA-seq ולבחור את שיטות הניתוח הדיפרנציאלי המתאימות עבור הנתונים שלהם.
תמלילים חריגים בשפע בסרטן ניתן לזהות בקלות על ידי ניתוח דיפרנציאלי RNA-seq5. עם זאת, היישום של ניתוח ביטוי דיפרנציאלי RNA-seq מוגבל לעתים קרובות כפי שהוא דורש מיומנויות מסוימות עם שפת R ואת היכולת לבחור שיטות מתאימות. כדי לטפל בבעיה זו, אנו מספקים מבוא מפורט לשלוש השיטות הידועות ביות?…
The authors have nothing to disclose.
עבודה זו נתמכה על ידי הקרן הלאומית למדעי הטבע של סין (מענק מס ‘ 81860276) ופרויקטים מרכזיים של הקרן המיוחדת של תוכנית המחקר והפיתוח הלאומית (מענק מס ‘2018YFC1003200).