Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Engineering

ניתוח ניסויי RNA-Seq מולטי-פקטוריאליים עם DiCoExpress

Published: July 29, 2022 doi: 10.3791/62566

Summary

DiCoExpress הוא כלי מבוסס סקריפט המיושם ב- R לביצוע ניתוח RNA-Seq מבקרת איכות לביטוי משותף. DiCoExpress מטפלת בעיצוב מלא ולא מאוזן עד 2 גורמים ביולוגיים. מדריך וידאו זה מנחה את המשתמש דרך התכונות השונות של DiCoExpress.

Abstract

שימוש נכון במודלים סטטיסטיים בניתוח נתוני NGS דורש רמה מתקדמת של מומחיות. לאחרונה יש קונצנזוס הולך וגובר על שימוש במודלים ליניאריים כלליים לניתוח דיפרנציאלי של נתוני RNA-Seq ועל היתרון של מודלים של תערובת לביצוע ניתוח ביטוי משותף. כדי להציע הגדרה מנוהלת לשימוש בגישות מידול אלה, פיתחנו את DiCoExpress המספק צינור R מתוקנן לביצוע ניתוח RNA-Seq. ללא ידע מסוים בסטטיסטיקה או בתכנות R, מתחילים יכולים לבצע ניתוח RNA-Seq מלא מבקרות איכות לביטוי משותף באמצעות ניתוח דיפרנציאלי המבוסס על ניגודים בתוך מודל ליניארי כללי. ניתוח העשרה מוצע הן ברשימות הגנים המתבטאים באופן דיפרנציאלי, והן באשכולות הגנים המתבטאים במשותף. מדריך וידאו זה נתפס כפרוטוקול שלב אחר שלב כדי לעזור למשתמשים לנצל את מלוא היתרונות של DiCoExpress ואת הפוטנציאל שלו בהעצמת הפרשנות הביולוגית של ניסוי RNA-Seq.

Introduction

טכנולוגיית ריצוף RNA (RNA-Seq) מהדור הבא היא כיום תקן הזהב של ניתוח תעתיק1. מאז ימיה הראשונים של הטכנולוגיה, המאמצים המשולבים של ביואינפורמטיקאים וביוסטטיסטיקאים הביאו לפיתוח שיטות רבות המתמודדות עם כל השלבים החיוניים של ניתוחי תעתיק, ממיפוי ועד כימות תעתיק2. רוב הכלים העומדים לרשות הביולוג כיום מפותחים בסביבת תוכנת R למחשוב סטטיסטי וגרפים3, וחבילות רבות לניתוח נתונים ביולוגיים זמינות במאגר המוליכים הביולוגיים4. חבילות אלה מציעות שליטה מלאה והתאמה אישית של הניתוח, אך הן מגיעות במחיר של שימוש נרחב בממשק שורת פקודה. מכיוון שביולוגים רבים מרגישים יותר בנוח עם גישת "הצבע ולחץ"5, הדמוקרטיזציה של ניתוחי RNA-Seq דורשת פיתוח של ממשקים או פרוטוקולים ידידותיים יותר למשתמש6. לדוגמה, ניתן לבנות ממשקי אינטרנט של חבילות R באמצעות Shiny7, וניתוח נתוני שורת הפקודה נעשה אינטואיטיבי יותר עם ממשק R-studio8 . פיתוח ערכות לימוד ייעודיות, שלב אחר שלב, יכול גם לעזור למשתמש החדש. בפרט, מדריך וידאו משלים טקסט קלאסי, מה שמוביל להבנה מעמיקה יותר של כל שלבי ההליך.

לאחרונה פיתחנו את DiCoExpress9, כלי לניתוח ניסויי RNA-Seq רב-תכליתיים ב-R באמצעות שיטות הנחשבות לטובות ביותר בהתבסס על מחקרי השוואה ניטרליים10,11,12. החל מטבלת ספירה, DiCoExpress מציעה שלב בקרת איכות נתונים ואחריו ניתוח ביטוי גנים דיפרנציאלי (חבילת edgeR13) באמצעות מודל ליניארי כללי (GLM) ויצירת אשכולות ביטוי משותף באמצעות מודלים של תערובת גאוס (חבילת coseq12). DiCoExpress מטפלת בתכנון מלא ולא מאוזן של עד 2 גורמים ביולוגיים (כלומר, גנוטיפ וטיפול) וגורם טכני אחד (כלומר, שכפול). המקוריות של DiCoExpress טמונה בארכיטקטורת הספריות שלה המאחסנת ומארגנת נתונים, סקריפטים ותוצאות ובאוטומציה של כתיבת הניגודים ומאפשרת למשתמש לחקור שאלות רבות בתוך אותו מודל סטטיסטי. כמו כן נעשה מאמץ לספק פלטים גרפיים הממחישים את התוצאות הסטטיסטיות.

סביבת העבודה DiCoExpress זמינה ב-https://forgemia.inra.fr/GNet/dicoexpress. הוא מכיל ארבע ספריות, שני קובצי PDF ושני קובצי טקסט. הנתונים/ הספריה מכילה את מערכי נתוני הקלט; עבור פרוטוקול זה, נשתמש במערך הנתונים "הדרכה". ה-Sources/directory מכיל שבע פונקציות R הדרושות לביצוע הניתוח, והמשתמש אינו יכול לשנות אותן. הניתוח מופעל באמצעות סקריפטים המאוחסנים בספרייה Template_scripts/ . זה המשמש בפרוטוקול זה נקרא DiCoExpress_Tutorial_JoVE.R וניתן להתאים אותו בקלות לכל פרויקט תמלול. כל התוצאות נכתבות בספריית התוצאות/ ומאוחסנות בספריית משנה הקרויה על פי הפרויקט. קובץ README.md מכיל מידע שימושי על ההתקנה, וכל פרט ספציפי הנוגע לשיטה ולשימוש בה ניתן למצוא בקובץ DiCoExpress_Reference_Manual.pdf.

מדריך וידאו זה מנחה את המשתמש דרך התכונות השונות של DiCoExpress במטרה להתגבר על חוסר הרצון שחשים ביולוגים באמצעות כלים מבוססי שורת פקודה. אנו מציגים כאן ניתוח של מערך נתונים מלאכותי של RNA-Seq המתאר ביטוי גנים בשלושה שכפולים ביולוגיים של ארבעה גנוטיפים, עם או בלי טיפול. כעת נעבור על השלבים השונים של זרימת העבודה של DiCoExpress המתוארים באיור 1. הסקריפט המתואר בסעיף פרוטוקול וקבצי קלט זמינים באתר: https://forgemia.inra.fr/GNet/dicoexpress

הכנת קבצי נתונים
ארבעת קבצי ה- csv המאוחסנים ב- Data/ directory צריכים להיקרא בהתאם לשם הפרויקט. בדוגמה שלנו, כל השמות, אם כן, מתחילים ב-"Tutorial", ואנו נגדיר Project_Name = "Tutorial" בשלב 4 של הפרוטוקול. יש לציין את המפריד המשמש בקובצי csv במשתנה Sep בשלב 4. במערך הנתונים "הדרכה" שלנו, המפריד הוא טבלה. עבור משתמשים מתקדמים, ניתן לצמצם את ערכת הנתונים המלאה לערכת משנה על-ידי מתן רשימת הוראות Project_Name חדשה באמצעות המשתנה Filter. אפשרות זו מונעת עותקים מיותרים של קבצי הקלט ומאמתת את עקרונות FAIR14.

מבין ארבעת קבצי ה- csv, רק קבצי COUNTS ו- TARGET הם חובה. הם מכילים את הספירות הגולמיות עבור כל גן (כאן Tutorial_COUNTS.csv) ואת תיאור התכנון הניסויי (כאן Tutorial_TARGET.csv). קובץ TARGET.csv מתאר כל דגימה (דגימה אחת בכל שורה) עם מודאליות עבור כל גורם ביולוגי או טכני (בעמודות). אנו ממליצים בחום שהשמות שנבחרו עבור האופנים יתחילו באות ולא במספר. לא ניתן לשנות את שם העמודה האחרונה ("שכפל". לבסוף, השמות לדוגמה (עמודה ראשונה) חייבים להתאים לשמות בכותרות של הקובץ COUNTS.csv (Genotype1_control_rep1 בדוגמה שלנו). קובץ ההעשרה.csv שבו כל שורה מכילה Gene_ID אחת ומונח ביאור אחד נדרש רק אם המשתמש מתכנן להפעיל את ניתוח ההעשרה. אם לגן אחד יש כמה ביאורים, הם יצטרכו להיכתב בשורות שונות. קובץ הביאור.csv הוא אופציונלי ומשמש להוספת תיאור קצר של כל גן בקבצי הפלט. הדרך הטובה ביותר לקבל קובץ ביאור היא לאחזר את המידע ממאגרי מידע ייעודיים (לדוגמה, Thalemine: https://bar.utoronto.ca/thalemine/begin.do עבור Arabidopsis).

התקנת דיקו אקספרס
DiCoExpress דורש חבילות R ספציפיות. השתמש במקור שורת הפקודה(".. /Sources/Install_Packages.R") במסוף R כדי לבדוק את מצב התקנת החבילה הנדרשת. עבור משתמשים בלינוקס, פתרון נוסף הוא להתקין את המיכל המוקדש ל- DiCoExpress וזמין ב- https://forgemia.inra.fr/GNet/dicoexpress/container_registry. מעצם הגדרתו, מיכל זה מכיל DiCoExpress עם כל החלקים הדרושים, כגון ספריות ויחסי תלות אחרים.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. דיקו אקספרס

  1. פתח הפעלת סטודיו R והגדר את הספריה ל- Template_scripts.
  2. פתח את הסקריפט DiCoExpress_Tutorial.R בסטודיו R.
  3. טען פונקציות DiCoExpress בהפעלת R עם הפקודות הבאות:
    > מקור(".. /מקורות/Load_Functions.R")
    > Load_Functions()
    > Data_Directory = ".. /נתונים"
    > Results_Directory = ".. /תוצאות/"
  4. טען קבצי נתונים בהפעלת R באמצעות הפקודות הבאות:
    > Project_Name = "הדרכה"
    מסנן > = NULL
    > ספטמבר = "\t"
    > Data_Files = Load_Data_Files(Data_Directory, Project_Name, מסנן, ספטמבר)
  5. פצל את האובייקט Data_Files במספר אובייקטים כדי לטפל בהם בקלות:
    > Project_Name = Data_Files$Project_Name
    > יעד = Data_Files$יעד
    > Raw_Counts = Data_Files$Raw_Counts
    > ביאור = Data_Files$ביאור
    > Reference_Enrichment = Data_Files$Reference_Enrichment
  6. בחר אסטרטגיה בין "NbConditions", "NbReplicates" או "filterByExpr" וסף לסינון גנים בעלי ביטוי נמוך. כאן אנו בוחרים
    > Filter_Strategy = "NbReplicates"
    > CPM_Cutoff = 1
  7. ציון צבעי קבוצה בעזרת הפקודה
    > Color_Group = NULL
    הערה: כאשר הוא מוגדר כ- NULL, R מייחס באופן אוטומטי צבעים לתנאים הביולוגיים. אחרת הזינו וקטור המציין צבע לכל קבוצה ביולוגית.
  8. בחר שיטת נורמליזציה בין אלה המקובלים על-ידי הפונקציה calcNormFactors של edgeR. כמו למשל
    > Normalization_Method = "TMM"
  9. בצע את בקרת האיכות על-ידי ביצוע הפונקציה הבאה
    > Quality_Control(Data_Directory, Results_Directory, Project_Name, יעד, Raw_Counts, Filter_Strategy, Color_Group, CPM_Cutoff Normalization_Method)
  10. State Replicate = TRUE אם הנתונים מזווגים בהתאם לגורם השכפול, FALSE אחרת.
  11. הקצה אינטראקציה = TRUE כדי לשקול אינטראקציה בין שני הגורמים הביולוגיים, FALSE אחרת.
  12. ציון המודל הסטטיסטי עם הפקודות הבאות
    מודל > = GLM_Contrasts(Results_Directory, Project_Name, יעד, שכפול, אינטראקציה)
    > GLM_Model = דגם$GLM_Model
    > ניגודים = מודל$ניגודים
  13. הגדר את הסף של שיעור גילוי השווא, כאן 0.05
    > Alpha_DiffAnalysis =0.05
  14. ביצוע הניתוח הדיפרנציאלי באמצעות הפקודות הבאות
    > Index_Contrast=1:nrow(ניגודים)
    > NbGenes_Profiles = 20
    > NbGenes_Clustering = 50
    > DiffAnalysis.edgeR (Data_Directory, Results_Directory, Project_Name, יעד, Raw_Counts, GLM_Model, ניגודים, Index_Contrast, Filter_Strategy, Alpha_DiffAnalysis, NbGenes_Profiles, NbGenes_Clustering, CPM_Cutoff Normalization_Method)
  15. תקן סף לניתוח ההעשרה, כאן 0.01
    > Alpha_Enrichment = 0.01
  16. ביצוע ניתוח העשרה של רשימות גנים המתבטאים באופן דיפרנציאלי (DEG)
    > כותרת = NULL
    > העשרה(Results_Directory, Project_Name, כותרת, Reference_Enrichment, Alpha_Enrichment)
  17. בחר רשימות DEG להשוואה. כמו למשל,
    > קבוצות = ניגודים$ניגודים[24:28]
  18. ספק שם להשוואת הרשימה. שם זה משמש לספרייה שבה יישמרו קבצי הפלט
    > כותרת = "Interaction_with_Genotypes_1_and_2"
  19. ציין את הפעולה שיש לבצע ברשימות DEG על-ידי הגדרת הפרמטר פעולה לאיחוד או להצטלבות. אנו בוחרים
    > מבצע = "איחוד"
  20. השוואה בין רשימות ה- DEGs
    > Venn_IntersectUnion(Data_Directory, Results_Directory, Project_Name, כותרת, קבוצות, פעולה)
  21. ביצוע ניתוח ביטוי משותף עם הפונקציה
    > Coexpression_coseq(Data_Directory, Results_Directory, Project_Name, כותרת, יעד, Raw_Counts, Color_Group)
  22. ביצוע ניתוח העשרה של אשכולות הביטוי המשותף
    > העשרה(Results_Directory, Project_Name, כותרת, Reference_Enrichment, Alpha_Enrichment)
  23. צור שני קבצי יומן רישום המכילים את כל המידע הדרוש כדי לשחזר את הניתוח
    > Save_Parameters( )
    הערה: שורות פקודה המשמשות בפרוטוקול זה מוצגות באיור 2. קווים שיש לשנות כדי לנתח מערך נתונים אחר מודגשים.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

כל יציאות DiCoExpress נשמרות במדריך / ספרייה, עצמה ממוקמת בתוך התוצאות / ספריה. אנו מספקים כאן הדרכה להערכת האיכות הכוללת של הניתוח.

בקרת איכות
פלט בקרת האיכות, הממוקם בספרייה Quality_Control/ , חיוני כדי לוודא שתוצאות ניתוח RNA-Seq אמינות. קובץ Data_Quality_Control.pdf מכיל מספר עלילות המתקבלות עם נתונים גולמיים ומנורמלים שניתן להשתמש בהם כדי לזהות בעיות פוטנציאליות עם הנתונים. סך כל הספירות המנורמלות לכל מדגם צריך להיות דומה כאשר משווים הן בין תנאים פנימיים והן בין תנאים. יתר על כן, ספירות ביטוי הגנים המנורמלות צפויות להציג חציון ושונות דומים הן בתנאים תוך-תאיים והן בין-תנאים (איור 3A). אחרת, זה יכול להיות סימן לשונות לא דומה בין התנאים, בעיה שעלולה להיות בעייתית להתאמת המודל.

לבסוף, עלילות PCA על ספירות מנורמלות המיוצרות ב-DiCoExpress עוזרות לזהות מבני נתונים פוטנציאליים בסיסיים (איור 3B). בדוגמה שלנו, אין אשכולות לפי המשכפלים, כלומר גורם זה אינו מפלה. יחד עם זאת, ניתן לזהות הבחנה ברורה בין הטיפולים. תוצאות אלה מצביעות על מערך נתונים באיכות טובה מכיוון שהאפקט הביולוגי צפוי תמיד להיות חזק יותר מזה המשוכפל. לסיכום, האיכות הכוללת שנצפתה כאן אינה מונעת כל ניתוח עוקב של מערך הנתונים כולו.

מודלים סטטיסטיים
DiCoExpress מקל על כתיבת המידול הסטטיסטי של הלוגריתם של הביטוי הממוצע משני המשתנים שכפול ואינטראקציה. אפקט שכפול הוא מתקבל על הדעת אם הדגימות של כל התנאים הביולוגיים נאספים בו זמנית וכי ניסוי זה משוכפל בימים שונים כדי למדוד שונות ביולוגית. בניסוי טיפוסי במדעי הצמח, למשל, דגימות גדלות באותו תא גידול ללא קשר למצב הביולוגי הנחקר והעתקים ביולוגיים מתאימים לניסויים שהחלו בימים שונים. במקרה זה, הדוגמאות של אותו משוכפל משויכות, ועליך להגדיר את Replicate ל- TRUE. אחרת, יש להגדיר את שכפול ל- FALSE. אפקט שכפול זה ידוע גם בשם אפקט אצווה.

אם תכנון הניסוי מתואר על ידי שני גורמים ביולוגיים הצפויים לקיים אינטראקציה, הגדר את המשתנה אינטראקציה ל- TRUE כדי לשקול את האינטראקציה. שים לב שעבור פרויקט המכיל גורם ביולוגי אחד בלבד, המשתנה אינטראקציה מוגדר באופן אוטומטי כ- FALSE.

אנליזה דיפרנציאלית
ה- DEG שזוהה עבור כל הניגודים שנבדקו זמין בקבצי טקסט הממוקמים בספריות המשנה המתאימות שלהם בתוך ספריית DiffAnalysis/ . כברירת מחדל, כל הניגודים נבדקים. בהתאם לתכנון הניסוי, ניגודים מסוימים יכולים להיות בעלי עניין ביולוגי מוגבל (לדוגמה, ממוצע על מספר גנוטיפים). שים לב שהבקרה החיובית השגויה מתבצעת לפי ניגודיות כדי להבטיח שניגודים שעלולים להיות לא רלוונטיים לא ישפיעו על הניתוח. עם זאת, ניתן לייצר מגרשים המכילים רק את ניגוד האינטרסים על ידי פעולה על המשתנה Index_Contrast . פרטים זמינים במדריך העזר המקוון.

חשוב לשים לב כי DiffAnalysis/ מכיל גם את ההיסטוגרמות הגולמיות של ערך p שהוכחו לאחרונה כדרך הטובה ביותר להעריך את איכות המידול11. ההתפלגות הצפויה של ערכי p גולמיים אמורה להיות אחידה, עם אולי שיא בקצה השמאלי של ההתפלגות. שיא גבוה עבור ערך p גולמי של 1 מעיד על בעיות התאמת הדגם. במקרה זה, הבעיה יכולה להיפתר לעתים קרובות על ידי הגדלת הערך CPM_Cutoff שנקבע, למשל, מ 1 ל 5. דוגמאות להיסטוגרמות גולמיות זמינות באיור 4A וב-https://forgemia.inra.fr/GNet/dicoexpress/-/blob/master/DiCoExpress_Tutorial.pdf . עבור כל ניגוד שנבדק, פרופילי ביטוי של ה- DEG העליון שזוהה (20 הראשונים כברירת מחדל) מתווים בקובץ Top20_Profile.pdf הממוקם בספריית הניגודיות. דוגמה לגן אחד שזוהה כמתבטא באופן דיפרנציאלי בניגוד אחד מוצגת באיור 4B. מספר ה-DEG למעלה ולמטה משורטט עבור כל ניגודיות שנבדקה ונמצא בקובץ Down_Up_DEG.pdf (דוגמה באיור 4C).

ניתוח ביטוי משותף
בדוגמה שלנו, ניתוח הביטוי המשותף מבוצע באיחוד של 5 רשימות DEG, המזוהות על ידי ניגודיות בחיפוש אחר שונות תגובת הטיפול בין גנוטיפ 1 או 2 לעומת אחרים. דיאגרמת חיתוך קבוצות (Venn) של DEG מוצגת באיור 5A. הגנים המתבטאים במשותף עבור כל אשכול מזוהה מודפסים בקבצי טקסט בודדים (קובץ אחד לכל אשכול). פרופילי הביטויים של האשכולות השונים יחד זמינים בקובץ Boxplot_profiles_Coseq.pdf (ראו דוגמה באיור 5B). למרות שאפשרויות התאמה אישית זמינות, משתמשים מתקדמים בלבד בהן. אנא עיין במדריך העזר לקבלת הסבר מלא על הפרמטרים השונים.

ניתוח העשרה
רשימות המתאימות לניתוחי הניגודיות והעשרת האשכולות ממוקמות בספריות המתאימות. מונח ביאור שנמצא כמשמעותי בניתוח זה יכול להיות מיוצג יתר על המידה או תת-ייצוג ברשימת Gene_ID. מידע זה כלול בקובץ הפלט.

שים לב שהחלטת הבדיקה מתקבלת מערכי ה- p הגולמיים. אם המשתמש מעוניין להתאים את ערכי ה- p הגולמיים a posteriori, הם זמינים בקבצים עם סיומת All_Enrichment_Results.txt.

תוקף של DiCoExpress
למרות ש- DiCoExpress פותחה כדי להקל על ניתוחי ניסויי RNA-Seq רב-גורמיים, תוקף תוצאותיה תלוי במידה רבה במאפייני מערך הנתונים. יש לבדוק היטב מספר פלטים לפני כל פרשנות תקפה של התוצאות. ראשית, בשלב בקרת האיכות, גודל הספרייה המנורמלת צריך להיות דומה וספירת ביטוי הגנים המנורמלת צריכה להציג חציון ושונות דומים הן בתנאים התוך-קרקעיים והן בתנאים הבין-לאומיים. לאחר מכן, יש להקדיש תשומת לב מיוחדת לצורת ההיסטוגרמות הגולמיות של ערך p. לבסוף, בעת ביצוע ניתוח ביטוי משותף, ערך מינימלי מוגדר בבירור עבור כיל מעיד על איכות טובה. זה תנאים אלה אינם מתקיימים, כל פרשנות של התוצאות עשויה להיות שגויה.

Figure 1
איור 1. צינור ניתוח DiCoExpress.  שבעת השלבים של ניתוח RNA-Seq מלא באמצעות DiCoExpress מסומנים בתיבות כחולות המייצגות שלבים שבהם מבוצעות שיטות סטטיסטיות. ניתן לבצע את שלב 7 (העשרה) לאחר שלב 4 (ניתוח דיפרנציאלי והוא נקרא 7.1 באיור 2) ו/או שלב 6 (ניתוח ביטוי משותף ושמו 7.2 באיור 2). מספרים אדומים תואמים למספרי השלבים בפרוטוקול. אנא לחץ כאן כדי להציג גרסה גדולה יותר של נתון זה.

Figure 2
איור 2. צילומי מסך של שורות הפקודה של DiCoExpress.  שורות פקודה המשמשות לניתוח ערכת נתוני ההדרכה מסומנות. המספרים בעיגולים שחורים זהים לאלה שבאיור 1. מלבנים אדומים מדגישים קווים שהמשתמש יכול להתאים אישית. אנא לחץ כאן כדי להציג גרסה גדולה יותר של נתון זה.

Figure 3
איור 3: תוצאות מייצגות של שלב בקרת האיכות.  איור שהושג עם ערכת הנתונים "הדרכה" מנורמל ספירות. א) בוקספלוט של ספירות מנורמלות. ב) PCA על ספירות מנורמלות. אנא לחץ כאן כדי להציג גרסה גדולה יותר של נתון זה.

Figure 4
איור 4: תוצאות מייצגות של ניתוח הביטוי הדיפרנציאלי איור שהתקבל עם ערכת הנתונים "הדרכה". A) היסטוגרמה גולמית של ערך p של הניגוד [control_Genotype2 - control_Genotype3]. B) פרופיל ביטוי גנים C1G62301.1 בכל גנוטיפ ומצב, אחד מ-20 הגנים המתבטאים באופן דיפרנציאלי בניגודיות [control_Genotype2 - control_Genotype3]. ג) מספר הגנים המתבטאים באופן דיפרנציאלי למעלה ולמטה בכל ניגוד שנבדק. אנא לחץ כאן כדי להציג גרסה גדולה יותר של נתון זה.

Figure 5
איור 5: תוצאות מייצגות של ניתוח קו-אקספרסיביציה.  איור שהושג עם ערכת הנתונים "הדרכה". A) דיאגרמת Venn של DEG מתוך 5 "אינטראקציה עם גנוטיפ 1 ו 2" ניגודים. DEG משינוי תגובת הטיפול בין גנוטיפ 1 ו -2, 1 ו -3, 1 ו -4, 2 ו -3, 2 ו -4 נמצאים במעגל A, B, C, D, E בהתאמה. המספר שנכתב בפינה הימנית התחתונה ("14877") הוא מספר הגנים שאינם DE בשום רשימה. B) פרופיל ביטוי של גנים מאשכול הקו-אקספרס 3. הדמות מופקת מתוך Tutorial_Interaction_with_Genotypes_1_and_2_Boxplot_profiles_Coseq.pdf. אנא לחץ כאן כדי להציג גרסה גדולה יותר של נתון זה.

קובץ משלים. אנא לחץ כאן כדי להוריד קובץ זה.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

מכיוון ש-RNA-Seq הפך לשיטה נפוצה במחקרים ביולוגיים, יש צורך מתמיד לפתח כלים אנליטיים רב-תכליתיים וידידותיים למשתמש. שלב קריטי ברוב תהליכי העבודה האנליטיים הוא לעתים קרובות לזהות בביטחון את הגנים המתבטאים באופן דיפרנציאלי בין תנאים ביולוגיים ו/או טיפולים15. הייצור של תוצאות אמינות דורש מודלים סטטיסטיים נאותים, אשר כבר המוטיבציה לפיתוח של DiCoExpress.

DiCoExpress הוא כלי מבוסס סקריפטים המיושם ב- R שמטרתו לעזור לביולוגים לנצל את מלוא האפשרויות של מחקרי השוואה ניטרליים כאשר הם מחפשים DEG. DiCoExpress מספקת צינור סטנדרטי המציע את ההזדמנות להעריך את מבנה הנתונים ואיכותם, ובכך להבטיח את גישת המידול הטובה ביותר נבחרת. ללא ידע מיוחד בסטטיסטיקה או בתכנות R, הוא מאפשר למתחילים לבצע ניתוח RNA-Seq מלא מבקרות איכות לביטוי משותף באמצעות ניתוח דיפרנציאלי המבוסס על ניגודים בתוך מודלים ליניאריים כלליים. חשוב לציין כי DiCoExpress מתמקדת בחלק הסטטיסטי של ניתוח RNA-Seq ודורשת טבלת ספירה כקלט. שיטות הביואינפורמטיקה המרובות המוקדשות ליישור קריאה של RNA-Seq וליצירת טבלאות ספירה הן מחוץ לתחום הכלי. עם זאת, יש להם השפעה ישירה על איכות הניתוח הסופי ויש לבחור אותם בקפידה.

למרות ש- DiCoExpress אינו כלי "הצבע ולחץ", ארכיטקטורת הספריות שלו וסקריפט התבנית המסופק ומשמש בממשק R-Studio הופכים אותו לנגיש לביולוגים עם ידע מינימלי על R. לאחר התקנת DiCoExpress, המשתמשים צריכים לדעת כיצד להשתמש בפונקציה ב- R ולזהות ארגומנטים נדרשים ואופציונליים. הצעד הקריטי הראשון הוא לספק בצורה נכונה את שני קבצי החובה המכילים את הספירות הגולמיות עבור כל גן (קובץ COUNTS) ואת תיאור התכנון הניסויי (קובץ TARGET). המפריד המשומש צריך להיות זהה עבור כל קובץ ותיאור הדגימות צריך להיעשות כראוי על פי אופני הגורמים הביולוגיים. לאחר טעינת שני הקבצים ב- DiCoExpress, הניתוח הוא כמעט אוטומטי עד לשלב הקריטי השני, כלומר, ניתוח הביטוי המשותף. ניתוח זה אכן יכול לגזול זמן רב וייתכן שיהיה צורך בשרת חישובים רב עוצמה כדי להריץ אותו על מערכי נתונים גדולים.

מכיוון שאוטומציה של כתיבת הניגודיות הופכת למאתגרת עבור יותר משני גורמים ביולוגיים, הגבלנו את DiCoExpress לעיצוב מלא ולא מאוזן של עד 2 גורמים ביולוגיים. אם פרויקט מכיל יותר משני גורמים ביולוגיים, פתרון מעשי הוא למוטט שניים מהגורמים הראשוניים כדי ליצור גורם חדש. עם זאת, יש לזכור כי הקושי לתת פרשנות ביולוגית משמעותית עולה כאשר מספר הגורם הביולוגי גדל.

DiCoExpress נתפס ככלי מתפתח ואנו ממליצים בחום למשתמשים להירשם לרשימת התפוצה (https://groupes.renater.fr/sympa/subscribe/dicoexpress). כל שינוי או שיפור בכלי יוכרזו ברשימה ואנו מקדמים בברכה שאלות או הצעות. אנו גם מקווים שאימוץ DiCoExpress על ידי קהילה גדולה יאפשר מעקב ותיקון של באגים שעלולים להתרחש בהקשר ניתוח מסוים. כל העדכונים והתיקונים יידחפו לספריית git https://forgemia.inra.fr/GNet/dicoexpress.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

למחברים אין מה לחשוף

Acknowledgments

עבודה זו נתמכה בעיקר על ידי הנפש ANR (ANR-16-CE20-0009). המחברים מודים ל- F. Desprez על בניית המכולה של DiCoExpress. עבודת KB נתמכת על ידי תוכנית ההשקעה לעתיד ANR-10-BTBR-01-01 Amaizing. מעבדות GQE ו-IPS2 נהנות מתמיכת Saclay Plant Sciences-SPS (ANR-17-EUR-0007).

Materials

Name Company Catalog Number Comments

DOWNLOAD MATERIALS LIST

References

  1. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature reviews. Genetics. 10 (1), 57-63 (2009).
  2. Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics & Informatics. 13 (4), 119-125 (2015).
  3. R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , Vienna, Austria. https://www.R-project.org/ (2020).
  4. Huber, W., et al. Orchestrating high-throughput genomic analysis with Bioconductor. Nature Methods. 12 (2), 115-121 (2015).
  5. Smith, D. R. The battle for user-friendly bioinformatics. Frontiers in Genetics. 4, 187 (2013).
  6. Pavelin, K., Cham, J. A., de Matos, P., Brooksbank, C., Cameron, G., Steinbeck, C. Bioinformatics Meets User-Centred Design: A Perspective. PLoS Computational Biology. 8 (7), 1002554 (2012).
  7. Shiny: web application framework. , Available from: https://rdrr.io/cran/shiny/ (2021).
  8. RStudio Team. RStudio: Integrated Development for R. RStudio, PBC. , Boston, MA. at (n.d (2020).
  9. Lambert, I., Roux, C. P. -L., Colella, S., Martin-Magniette, M. -L. DiCoExpress: a tool to process multifactorial RNAseq experiments from quality controls to co-expression analysis through differential analysis based on contrasts inside GLM models. Plant methods. 16 (1), 68 (2020).
  10. Dillies, M. -A., et al. A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis. Briefings in bioinformatics. 14 (6), 671-683 (2012).
  11. Rigaill, G. Synthetic data sets for the identification of key ingredients for RNA-seq differential analysis. Briefings in Bioinformatics. 19 (1), (2016).
  12. Rau, A., Maugis-Rabusseau, C. Transformation and model choice for RNA-seq co-expression analysis. Briefings in Bioinformatics. 19 (3), (2017).
  13. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2009).
  14. Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3 (1), 160018 (2016).
  15. Stark, R., Grzelak, M., Hadfield, J. RNA sequencing: the teenage years. Nature Reviews Genetics. 20 (11), 631-656 (2019).

Tags

הנדסה גיליון 185
ניתוח ניסויי RNA-Seq מולטי-פקטוריאליים עם DiCoExpress
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Baudry, K., Paysant-Le Roux, C.,More

Baudry, K., Paysant-Le Roux, C., Colella, S., Castandet, B., Martin, M. L. Analyzing Multifactorial RNA-Seq Experiments with DiCoExpress. J. Vis. Exp. (185), e62566, doi:10.3791/62566 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter