Waiting
登录处理中...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

פרוטוקול להצפנה באמצעות גנים להגדיר העשרה ניתוח כדי לזהות את המודל החייתי המתאים עבור המחקר Translational

Published: August 16, 2017 doi: 10.3791/55768

Summary

אנו מספקים פרוטוקול מתוקננת לשימוש של העשרה קבע מפענוח transcriptomic נתונים כדי לזהות מודל העכבר אידיאלי עבור המחקר translational.
פרוטוקול זה ניתן להשתמש עם DNA microarray ו- RNA רצף נתונים, עוד יותר ניתן להאריך לנתונים אחרים טכנולוגיות אם נתונים זמינים.

Abstract

מחקרים שנעשו לאחרונה כי בהשוואה datasets transcriptomic של מחלות האדם עם datasets דגמים העכבר באמצעות טכניקות מסורתיות ג'ין-כדי-גן השוואה הביא למסקנות סותרות בדבר הרלוונטיות של מודלים בבעלי חיים עבור translational מחקר. הסיבה הראשית עבור אי-ההתאמות בין ניתוחים ביטוי גנים שונים הוא שרירותי הסינון של גנים ביטוי באופן שונה. יתר על כן, ההשוואה של גנים יחיד בין מינים שונים ופלטפורמות לעתים קרובות הוא מוגבל על ידי סטיה טכני, שמוביל פירוש מוטעה קון/הכתבים בין נתונים של מודלים האדם ושל בעלי החיים. לפיכך, נדרשים מתוקננת גישות לניתוח נתונים שיטתי. כדי להתגבר על יעילות השוואות ג'ין-כדי-גן וסינון ג'ין סובייקטיבית, אנו לאחרונה הפגינו כי מפענוח העשרה set (GSEA) יש פוטנציאל כדי להימנע מבעיות אלה. לכן, פיתחנו פרוטוקול מתוקננת לשימוש של GSEA להבדיל בין מודלים בעלי חיים המתאימים ולא הולמים עבור המחקר translational. פרוטוקול זה אינה מתאימה כדי לחזות כיצד לתכנן מערכות מודל חדש א-פריורי, כפי שהוא דורש נתונים ניסיוני טכנולוגיות קיימים. עם זאת, הפרוטוקול מתאר כיצד לפרש את הנתונים הקיימים בצורה סטנדרטית לשם בחירת המודל בעלי חיים המתאימים ביותר, ובכך להימנע לניסויים בבעלי חיים מיותרים ומטעה translational מחקרים.

Introduction

מודלים בעלי חיים נמצאים בשימוש נרחב לחקר מחלות אנושיות, בגלל הדמיון המשוערת שלהם לבני במונחים של גנטיקה, אנטומיה, פיזיולוגיה. יתר על כן, חייתיים לעיתים קרובות לשמש שומרי טיפולים קליניים, יכול להיות בעל השפעה עצומה על ההצלחה של המחקר translational. בחירה זהירה של המודל בעלי חיים מיטביים יכולה להפחית את מספר מחקרים שנעשו בבעלי חיים מטעה. לאחרונה, הרלוונטיות של מודלים בעלי חיים למחקר translational משווקי נדון, בעיקר בגלל ניתוח datasets באותו המתקבל מחלות דלקתיות האדם ומודלים העכבר קשורים הובילה למסקנות סותרות 1,2. הדיון הזה חשף בעיה יסודית במהלך ניתוח נתונים טכנולוגיות: גישות סטנדרטיים לניתוח נתונים שיטתי נדרשים כדי לצמצם את הבחירה ג'ין משוחד וכדי להגדיל את היציבות של השוואות בין זנים 3.

באופן מסורתי, הניתוח של נתונים transcriptomics (ונתונים אחרים טכנולוגיות) נעשית ברמת יחיד-ג'ין, כולל צעד ראשוני של הגן הנבחר בהתבסס על פרמטרים ניתוק מחמירים (למשל, שינוי קיפול > 2.0, ערך p < 0.05). עם זאת, ההגדרה של ניתוק ראשונית פרמטרים לעיתים קרובות הוא סובייקטיבי, שרירותי, לא מוצדק מבחינה ביולוגית, יכול אף לגרום מסקנות מול1,2. יתר על כן, הבחירה הראשונית ג'ין בדרך כלל מגבילה את הניתוח כמה מאוד ואת downregulated גנים, ובכך אינו רגיש מספיק כדי לכלול את רוב גנים שבאו לידי ביטוי באופן שונה במידה פחותה.

עם עליית עידן גנומיקה בתחילת שנות האלפיים, הידע הגובר של מסלולים ביולוגיים והקשרים, פותחו גישות סטטיסטיות חלופי מותר לעקוף את המגבלות של ניתוחים ברמת יחיד-גן. ג'ין להגדיר העשרה ניתוח (GSEA)4, שהיא אחת של שיטות מקובלות הניתוח של נתונים transcriptomics, עושה שימוש האפריורית מוגדרת על ידי קבוצות של גנים (למשל, איתות מסלולים, מיקום proximal על כרומוזום וכו.). GSEA ממפה קודם כל הגנים לא מסונן שזוהו לסטים ג'ין המיועד (למשל, מסלולים), ללא כל קשר שלהם שינוי בודדות בביטוי. גישה זו ולכן כולל גם גנים בינוני מוסדר שאחרת היה אבוד עם ניתוחים ברמת יחיד-גן. השינוי מוספים בביטוי בתוך הגן ערכות לאחר מכן מתבצעת באמצעות סטטיסטיקה סכום המצטבר.

למרות השימוש רחב במחקר רפואי, GSEA וגישות העשרה קבע קשורים לא שהאקסיומה נלקחים בחשבון לניתוח של טכנולוגיות מורכבות נתונים. כאן, אנו מתארים את פרוטוקול לצורך השוואת נתונים טכנולוגיות מדגימות האנושי עם אלה של מודלים בעכבר כדי לזהות את מודל אידיאלי ללימודי translational. נדגים את הישימות של פרוטוקול מבוסס על אוסף של העכבר מודלים המשמשים עבור מחקה מחלות דלקתיות אנושי. עם זאת, צינור ניתוח זו אינה מוגבלת האדם-עכבר השוואות והוא שאלות המחקר amendable נוספות.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. הורדה של התוכנה GSEA, המאגר חתימות מולקולרית

  1. לעבור לאתר האינטרנט הרשמי של מכון רחב GSEA (http://software.broadinstitute.org/gsea/index.jsp), להירשם כדי לקבל גישה אל התוכנה GSEA הכלי, מסד הנתונים חתימות מולקולרית (MSigDB).
  2. להוריד את היישום בשולחן העבודה של javaGSEA או אופציה חלופית תוכנה (למשל, R script).
    הערה: כל האפשרויות ליישם בדיוק באותו האלגוריתם. התוכנה GSEA זמין באופן חופשי לאנשי אקדמיה לתעשייה למטרות מחקר פנימי.
  3. עבור עוד יותר פרטים על תוכנת GSEA ללכת תיעוד האתר (http://software.broadinstitute.org/cancer/software/gsea/wiki/index.php/Main_Page) וגם במדריך למשתמש של GSEA (http://software.broadinstitute.org/gsea/doc/ GSEAUserGuideFrame.html).
  4. הורד מסד הנתונים חתימות מולקולרית (MSigDB) מאתר האינטרנט GSEA כדי לקבל גישה לאוספים קבע גנים בודדים.
    הערה: MSigDB הוא אוסף של ג'ין המבואר ערכות לשימוש עם התוכנה GSEA או למטרות אחרות. ג'ין ערכות ניתן לחלק על פי איתות המסלולים, ג'ין אונטולוגיה תנאי, מוטיבים cis-רגולציה, חתימות ניסיוני ואחרים. הגנים MSigDB נקראים תמיד על-ידי סמל הגן הרשמי שלהם הוגו (ארגון הגנום האנושי). עבור ההשוואה של מסלול רגולציה בין הפרעת האדם נתון עכבר אחר מודלים זה מומלץ להוריד ' כל המסלולים הקנוני, סמלים ג'ין ' קובץ (c2.cp.v5.2.symbols.gmt). קובץ זה כולל ערכות ג'ין היו מוערת, המסודרות איתות המסלולים על ידי קג 5 , 6, 7 , Reactome 8 BioCarta 9. המחרוזת ' v5.2 ' מייצג את פרטי הגירסה של האוסף. הקפד להוריד את הגרסה האחרונה של הקבצים. MSigDB זמין באופן חופשי לאנשי אקדמיה לתעשייה למטרות מחקר פנימי. זה לא צורך להוריד את MSigDB, אם החיבור לאינטרנט מסופק במהלך הניתוח. במקרה זה MSigDB ישירות ניתן לבחור בממשק המשתמש GSEA.
  5. להוריד את הדנ א שבב (מערך) ביאורים קבצים מהאתר GSEA לתרגם את מערך ספציפי בדיקה מזהים לסמלים כללי הוגו ג'ין (למשל, Mouse430_2.chip).
    הערה: זה אין צורך להוריד את הביאורים chip הדנ א, אם החיבור לאינטרנט מסופק במהלך הניתוח. במקרה זה ניתן לבחור את הביאורים chip הדנ א ישירות בתוך ממשק המשתמש של GSEA. הפרוטוקול יכול לשמש גם עם נתונים רצפי RNA. במקרה זה,-אין צורך להוריד קבצים ביאור. במקום זאת, השתמש בכלי preranked GSEA לניתוח הנתונים ביטוי גנים (ראה שלב 4.12).

2. להוריד את נתוני הניסוי של ביטוי גנים על הפרעת האדם ועל מודלים בעלי חיים המתאימים

  1. ביטוי (transcriptomics) זיהוי הגן ניסיוני ללימודי ההפרעה האנושי של בחירה (למשל, ביטוי גנים פרופילים של לויקוציטים נגזר חולים עם הפרעת ספיגה, GSE9960).
  2. מודלים
  3. בדומה לכך, חיפוש של מספר בעלי חיים שאמורים להיות מושווה ל הניסויים בבני אדם (למשל, ביטוי גנים פרופילים של כדוריות הדם נגזר עכברים לאחר הזרקה של Staphylococcus aureus (S. aureus), GSE20524). בשלב זה משתמשים בידע קודם עבור preselection בבעלי חיים כמודלים שעשוי להיות מתאים מחקה את המצב האנושי.
  4. עבור מטרה זו להפנות לספרות, מסדי נתונים כגון Omnibus ביטוי גנים (GEO) מסד נתונים 10 או ArrayExpress 11, להוריד את הנתונים transcriptomics המנורמל של עניין. לשמור את הנתונים כקבצי טקסט בדיסק הקשיח המקומי. גיאו מסד הנתונים, מומלץ להורדה של קבצי טקסט מופרד באמצעות טאב סדרת מטריקס. גם לקחת הערה של פלטפורמת (סוג המערך) נעשה שימוש במחקר זה, שכן מידע זה יש צורך לתרגם את מזהי בדיקה ספציפית מערך לסמלים ג'ין כללי של הוגו.
    הערה: ודא די זיכרון לאחסון נתונים, כמו ערכות נתונים transcriptomics מהווים בדרך כלל כמה מאות מגה-

3. נתונים טיפול ועיצוב

  1. לפני ייבוא נתונים ביטוי גנים ניסיוני לתוך הכלי תוכנות GSEA, לשקול את מבנה הנתונים הנדרשים. לימוד כל שני קבצים שונים ליצור באופן ידני: 1) גנים ביטוי קובץ נתונים המכיל ערכי מדידה עבור גנים שונים ודוגמאות, ו- 2) פנוטיפ קובץ המכיל תוויות מדגם לקבץ דוגמאות בודדות (למשל, טיפול בקבוצות).
    לקבלת פרטים נוספים ומבנה נתונים אפשרויות עבור הדף תבנית נתונים GSEA (http://software.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats).
    הערה: בדרך כלל, כל סוגי הנתונים transcriptomics תואמים הפרוטוקול, כולל ניסויים microarray DNA, RNA-seq או שבב-seq מחקרים. במקרה של שימוש בניסויים microarray DNA, קובץ הנתונים של ביטוי גנים צריך להכיל מערך ספציפי בדיקה המזהה ובסימנים ג'ין הוגו עבור כל ג'ין (בדיקה מזהים תתורגם הוגו ג'ין סמלים במהלך ניתוח, ראה שלבים 1.5 ו- 4.10). במקרה של שימוש בנתונים RNA-seq או שבב-seq, מדדים מחושבים באופן ידני קבוצה עבור ג'ין ביטוי נתונים (למשל, קבוצה רעה יחס) אמור לשמש במקום נתונים לדוגמה בודדים. מדדים אלה קבוצה אז צריך להיות מנותח בעזרת הכלי preranked GSEA (ראה שלב 4.12). נתונים ביטוי גנטי צריך להיות מנורמל כרגיל לפני ייבוא לתוך התוכנה GSEA. הסוג של נורמליזציה (למשל, הרביעון או בליטת חיבור מעוקב) בדרך כלל נשאר החוקר.
  2. ג'ין ביטוי נתונים קובץ: להשתמש בתבנית הקובץ (*. txt) טקסט מופרד לתיאור dataset של ביטוי כפי שהיא מתוארת איור 1A. ראה גם את קובץ הדוגמה הנתמכים GSE20524_expression.txt.
    הערה: קובץ הנתונים של ביטוי גנים מכיל ביטוי ערכים עבור כל הגנים לזיהוי (או הגששים), גם עבור גנים זה עשוי לא באופן שונה להתבטא. הקובץ ולכן בדרך כלל כוללת אלפי גנים. זה מאורגן כפי שהיא מתוארת איור 1A. השורה הראשונה מכילה שם התווית (לדוגמה, ג'ין סמל או בדיקה המזהה) ואחריו המזהה עבור כל דגימה ב- dataset (למשל, לדוגמה 1, לדוגמה 2 וכדומה). השארית של הקובץ מכיל ביטוי הערכים עבור כל אחד הגנים ועבור כל מדגם ב- dataset. הכלי תוכנות GSEA מבצעת את החישובים עבור מדדים קבוצה (למשל, יחס אכזרי קבוצה או אות על רעש-יחס-), לכן מומלץ לכלול נתונים עבור כל דגימה בודדת. לחלופין, זה אפשרי להשתמש מדדים קבוצה מחושב באופן חיצוני עבור נתונים ביטוי גנים (ראה איור 1B).
  3. קובץ
  4. פנוטיפ: ליצור קובץ נפרד עבור הגדרת ולקרוא קבוצות אשר מהווים דוגמאות בודדות כפי שהיא מתוארת < מחלקה חזקה= "xfig" > איור 2. השתמש ברווחים או בטאבים כדי להפריד את השדות. לשמור אותו בתבנית קובץ CLS (הגדרת מחלקה C++). ראה גם את קובץ הדוגמה הנתמכים GSE20524_pheno_infection.cls.
    הערה: השורה הראשונה מכילה את המספר הכולל של דגימות ואת עוד יותר את מספר קבוצות ( איור 2). בעוד במספר הדגימות צריכה להתאים את קובץ הנתונים של ביטוי גנים (ראה 3.2), במספר הקבוצות תלוי תכנון המחקר. השדה השלישי של הקו הראשון הוא תמיד ' 1 '.
    הקו השני בקובץ CLS מכיל את השם של כל קבוצה. הקו יתחיל עם סימן סולמית (#) ואחריו רווח ( איור 2).
    השורה השלישית מכילה קבוצה תווית עבור כל דגימה. התווית קבוצה יכול להיות מספר שרירותי או טקסט. . זה רק את סדר התוויות הקובע האגודה של כל מדגם לקבוצות: התווית הראשונה בשימוש מוקצית לקבוצה הראשונה על הקו השני; התווית השנייה ייחודי מוקצית לקבוצה השנייה וכן הלאה. ודא כי כל דגימה של אותה קבוצה יש התווית אותו בשלב זה, מספר התוויות זהה במספר הדגימות שצוין בשורה הראשונה. לבסוף, שמור את הקובץ כקובץ טקסט המופרד באמצעות טאבים (txt.), לשנות באופן ידני את סיומת שם הקובץ (*.cls).
  5. קבצי מסד נתונים של הגדר ג'ין (אופציונלי)
  6. : להגדיר ערכות הגן מותאם אישית. להשתמש בתבנית הקובץ GMT (ג'ין מטריקס משורבב) מופרד באמצעות טאבים עבור ערכות ג'ין כפי שהיא מתוארת באיור 3. ראה גם את קובץ הדוגמה הנתמכים Gene_sets_Inflammation_BIOCARTA_KEGG_REACTOME.gmt.
    הערה: הגדרת קבוצות הגן מותאם אישית יכול להיות שימושי למשל להגביל את הגן לקבוע ניתוח העשרת מסלולים עניין מיוחד (למשל, אימונולוגיה איתות ללימודי אלח דם), או עבור דה נובו הגדרת קבוצות הגן עצמו (למשל, מופעל, עכבות גנים במחקרים בעלי לצורך השוואה). הקובץ מאורגן כפי שהיא מתוארת באיור 3. בתבנית GMT, כל שורה מייצגת ערכה ג'ין ( איור 3). כל ערכת ג'ין מתואר על ידי שם, תיאור הגנים בערכת ג'ין. העמודה הראשונה כוללת שמות קבע גנים ייחודיים. הקו השני אופציונלי עשויים להכיל תיאור של קבוצת גנים. העמודות הבאות מכילות את שמות ג'ין (סמלים ג'ין הוגו רשמי) של קבוצת גנים המתאימים. לבסוף, שמור את הקובץ בשם הכרטיסיה קובץ טקסט מופרד (*. txt), לשנות באופן ידני את סיומת שם הקובץ (* .gmt).

4. ביצוע של GSEA

  1. פתח את כלי התוכנה GSEA (ראה 1.2).
  2. לחץ ' לטעון נתונים ' כפתור בצד שמאל של החלון הראשי ( איור 4A). כרטיסיה חדשה ייפתח לייבוא את קבצי הנתונים הנדרשים ( איור 4B). עיין בכרטיסיה חדשה אל קובץ הנתונים (*. txt) של ביטוי גנים (ראה 3.2), הקובץ פנוטיפ (*.cls) (ראה 3.3), באופן אופציונלי, ובמידה ערכות הגן מותאם אישית (* .gmt) קובץ ( איור 4B).
    1. , במקרה GSEA לא יכול להתחבר לאינטרנט, גם לטעון את שהורדו MSigDB (* .gmt) (ראה למשל, c2.cp.v5.2.symbols.gmt של מסלולים, 1.4) וקבצי ה-DNA צ'יפ (מערך) ביאורים (* .chip) קבצים (לדוגמה, Mouse430_2.chip, ראה 1.5). מופיעים הנתונים המיובאים בהצלחה ' לטעון נתונים ' סעיף ( איור 4C).
      הערה: כל מחקר ביטוי גנים יש לנתח עם GSEA בנפרד. השוואה בין שני מחקרים (למשל אדם הפרעת לעומת דגם העכבר) יבוצעו בשלב 5.
  3. לחץ ' GSEA לרוץ ' כפתור בצד שמאל של החלון הראשי. כרטיסיה חדשה תיפתח כדי להגדיר את הפרמטרים עבור הניתוח ( איור 4D). הכרטיסיה מחולק לשלושה חלקים: שדות חובה, שדות בסיסיים ושדות מתקדם.
  4. את השדות הדרושים, בחר תחילה את הנתונים (dataset) ביטוי טעון בשלב 4.2 ( איור 4D).
  5. לבחור את הגן מגדיר מסד נתונים, או מהאתר מחובר או מקובץ קבוע ג'ין מיובא באופן ידני ( איור 4D).
  6. עריכת תוויות פנוטיפ לבחירת הקבוצות של דגימות שאמורים להיות מושוות אליו אחד לשני (למשל, S. aureus הטיפול לעומת בריאים שליטה) ( איור 4D).
  7. התמוטטות dataset לסמלים ג'ין (= נכון) על מנת לתרגם את מזהי בדיקה ב- dataset ביטוי לסמלים הרשמי הוגו הגן להשתמש במסד הנתונים סטים של הגן. בחר כוזב, אם הביטוי ערכת הנתונים כבר מכיל סמלים ג'ין הוגו ( איור 4D).
  8. להגדיר את הגדרת ברירת המחדל של מספר התמורות ל- 1,000 ( איור 4D).
    הערה: עבור מספרים גבוהים יותר הזמן מחשוב יגדל משמעותית.
  9. לשנות את סוג תמורה כדי ' ג'ין סט ', היות פנוטיפ תמורה זו מומלצת רק כאשר ישנם דוגמאות יותר משבע כל פנוטיפ ( איור 4D).
  10. בחר לבסוף, פלטפורמת השבבים המשמש ליצירת הנתונים ביטוי גנים, צ'יפ מהאתר מחובר או מ- DNA מיובאים באופן ידני את קובץ ביאורים (מערך) ( איור 4D).
    הערה: שלב זה נחוץ רק, אם בדיקה מזהי משמשים ב- dataset ביטוי שהועלה.
  11. את השדות הבסיסיים לערוך לפחות ' ' ניתוח שם, שמור תוצאות בתיקיה זו כדי למצוא שוב את הקובץ תוצאות ( איור 4D). בנוסף, עוד פרמטרים סטטיסטיים ניתן לשינוי. עבור עוד פרטים על הפרמטרים המקטע שדות מתקדמים ללכת בבקשה במדריך למשתמש של GSEA (http://software.broadinstitute.org/gsea/doc/GSEAUserGuideFrame.html).
  12. (אופציונלי): במדדים קבוצה מחושב באופן חיצוני במקרה על ביטוי גנים נתונים (למשל, יחס אכזרי קבוצה) צריך לשמש במקום נתוני דגימה בודדת, השתמש בכלי preranked GSEA. הניתוח ואז תיעשה בהתבסס על רשימה פשוטה של הגנים שהוקצו עם קבוצה מחושב מראש מדדים המשמשים לדרג את הגנים. לאחר טעינת הקובץ בביטוי אלטרנטיביים ג'ין ללכת לבר הניווט הראשי ולחץ על כלים/GseaPreranked. באופן דומה, כרטיסיה חדשה תיפתח עבור הגדרת הפרמטרים לניתוח ( איור 4E).
    הערה: שימוש בכלי preranked GSEA מומלצת מחקרים כי אין נתונים ביטוי גנים ספציפיים דוגמת בודדים. זה יכול להיות המקרה אם נתונים סטטיסטיים מיוחד או תהליכי הנורמליזציה בוצעו על הנתונים מובילים לערכים רשע קבוצה במקום נתונים לדוגמה בודדים. באמצעות הכלי preranked GSEA מומלץ עבור נתונים רצפי RNA. לנרמל את הנתונים ביטוי של רצפי RNA ולחשב קבוצה מדדים על הדגימות (למשל, יומן השינוי קיפול), זה יכול לשמש כדי לדרג את הגנים על פי הביטוי שלהם.
  13. לחץ ' לרוץ ' בסרגל התחתון השמאלי של החלון.
    הערה: הניתוח ואז לוקח מספר דקות בהתאם למהירות מחשוב. עקוב אחר ההתקדמות של הניתוח בסעיף דוחות GSEA בפינה השמאלית התחתונה של החלון. לאחר סיום הניתוח, המצב ' הצלחה ' מופיעים בסעיף דוחות GSEA.
  14. ניתוח
  15. לחץ על תצליחו במקטע GSEA דוחות כדי לפתוח את תוצאות הניתוח.
    הערה: תפריט ניווט חדש ייפתח בחלון דפדפן שמסכם את כל התוצאות ואת הגדרות הפרמטר ( איור 5). בשני הסעיפים העליון של תפריט ניווט מהווים ג'ין להגדיר העשרה תוצאות עבור הקבוצות מוגדר (למשל, העשרה S. aureus מטופלים דוגמאות או דגימות הבקרה בריא). השורות הראשונות של שני החלקים להציג סיכום של תוצאות סטטיסטיקה. ערכות ג'ין מועשרים באופן משמעותי בקצב שווא-גילוי (פד) מתחת ל- 25% נחשבים כמו מועשר של פרשנות הבאה. פרטים נוספים על הפירוש של הניתוח ניתן למצוא במדריך למשתמש של GSEA (http://software.broadinstitute.org/gsea/doc/GSEAUserGuideFrame.html).
  16. לחץ על העשרת נתונים היסטוריים תוצאות ב- excel בתבנית כדי לייצא את התוצאות של ניתוח לגיליון אלקטרוני ( איור 6A). לייצא את התוצאות העשרה מפורט ב excel בנפרד עבור שני פנוטיפים ( איור 5) ולהצטרף את תוצאות הנתונים בקובץ הגיליון האלקטרוני אחד. עבור הבאים השוואה בין הנתונים ביטוי גנים של מספר מחקרים, לשמור לפחות את השם של קבוצת גנים (עמודה A), את העשרת מנורמל ניקוד (נס) (עמודה F), רוזוולט (שיעור גילוי שווא) לבין ערך (עמודה H) ( איור 6B ).
    הערה: קובץ הגיליון האלקטרוני מכיל נתונים ענק לכל אחד שנותחה ג'ין סט, כולל השם של קבוצת גנים (עמודה A), גודלו (כלומר, מספר גנים זוהו בנתונים ביטוי גנים, עמודה D), נס שלה (מדד כמותי של הכיוון, למידה העשרה, עמודה F), ערכו הנומינלי p (שלא תוקנו, עמודה G), לבין ערך רוזוולט (מתוקנות על השערה מספר בדיקות, בעמודה H). עבור עוד פרטים על הפירוש, עיין במדריך למשתמש של GSEA (http://software.broadinstitute.org/gsea/doc/GSEAUserGuideFrame.html).
  17. חזור על שהגן לקבוע ניתוח העשרה (שלבים 4.1 כדי 4.15) עבור המחקר השני (למשל, S. aureus GSE9960) ועבור כל מחקרים נוספים שאמורים להיות ביחס אחד לשני. כוללים מחקרים קליניים בבני אדם רבים והדגמים העכבר שונים ככל האפשר כדי לזהות את מודל עכבר אופטימלית עבור שאלת המחקר translational.

5. השוואה בין התוצאות GSEA

  1. כדי לזהות מודל בעלי חיים אופטימלי עבור מחקה מצב אנושי השווה GSEA תוצאות ללמודי כל אחד לשני. להשתמש ציוני העשרה לבין הערכים רוזוולט לסיווג של המסלולים (ג'ין סטים) כפי מופעל (נס > רוזוולט 0, < 25%), עכבות (נס < רוזוולט 0, < 25%) או אף אחד משניהם (פד ר > 25%). עבור כל השוואה של שני מחקרים, לספור את מספר מימושים של הצירופים האפשריים תשעה של תקנה מסלול כמצוין על-ידי טבלה לשעת חירום 3 x 3 ( איור 7 א).
  2. להעריך את הקשר בין שני מחקרים על ידי חישוב של ערך ניבוי חיובי (ppv) לבין את ערך ניבוי שלילי (npv), אשר מעצם הגדרתו החלק של המסלולים המוצגים התקנה זהה (מופעל או מעוכבים) שני מחקרים .
    1. חישוב ppv ל- npv לפי הנוסחאות הבאות (1) ו- (2):
      (1) Equation 1
      (2) Equation 2
      הערה: מאז החפיפה יכול להיות מקרי, על ppv של npv יש נוספת ניתן להשוות את הערכים צפוי במקרה. גישה זו מאפשרת את ההערכה של כמות המידע שניתן להשיג ממחקר אחד לחיזוי ההשפעות במחקר אחר. למשל, אם תהליכי רגולציה בשני דגמים היו עצמאית (רק חופפים במקרה), אם המודל הראשון 10% של המסלולים היו upregulated, מאשר ppv על הדגם השני יהיה גם 10% ולא היה לא נוספים להשיג של inf ormation. מהצד השני, אם שני הדגמים היו מקושרים על ידי מנגנוני רגולציה משותפת, אז ppv (ל- npv) יהיה משמעותי יותר מהצפוי במקרה. לדוגמה, עבור התחזית של שינויים בביטוי הגנים במהלך האנושי אלח דם (GSE9960) מתופעות במודל מאתר S. aureus הזרקה (GSE20524), ppv הוא 43% (6/(6+8+0)) של npv הוא 61% (11/(0+7+11)). במילים אחרות, 43% של המסלולים מופעל במודל מאתר S. aureus הזרקה (GSE20524) מופעלות גם במהלך האנושי אלח דם (GSE9960). באופן דומה, 61% של המסלולים עכבות במודל מאתר S. aureus הזרקה (GSE20524) מעוכבים גם במהלך האנושי אלח דם (GSE9960), ( איור 7 ב). ניתן גם לקבוע עבור הכוכבים ההופכי (הכוונה לניבוי ממחקר 1 ללמוד 2) ppv ל- npv.
  3. כדי לחשב את החפיפה להתייחס לטבלה לשעת חירום 3 x 3 ( איור 7) ולחשב במקרה ppvchance ו- npvchance על פי הנוסחאות הבאות (3) ו- (4):
    (3) < img alt = "משוואה 3" src = "/files/ ftp_upload/55768/55768eq3.jpg"/ >
    (4) Equation 4
    הערה: לדוגמה, התחזית של שינויים בביטוי הגנים במהלך האנושי אלח דם (GSE9960) של אפקטים S. aureus מאתר הזרקה מודל (GSE20524) ppvchance הוא 13% (8/64) ויש npvchance ו- 22% (14/64).
  4. לחשב את הרווח של ppv לעומת הסיכון על-ידי חיסור ppvchance מ ppv. לחשב בהתאם עבור npv:
    (5) Equation 5
    (6) Equation
    הערה: לדוגמה, נבואתו של ג'ין ביטוי משתנה במהלך האנושי אלח דם (GSE9960) מתופעות במודל מאתר S. aureus הזרקה (GSE20524) את השינוי ב- ppv, npv לעומת הסיכוי +30% (43% - 13%) ו +39% (61% - 22%), בהתאמה.
  5. לחשב את הרווח של מידע שניתן להשיג מן המחקר 2 לגבי מחקר 1 על ידי ממוצע של ppvgain ו- npvgain:
    (7) Equation
  6. השתמש בטבלה לשעת חירום שהוגדרו בשלב 5.1 של זוג של מחקרים (study1.pathway, study2.pathway) כדי לחשב את ערך p על-ידי בדיקה כי בריבוע
    מאגר הנתונים של הטבלה לשעת חירום במטריצה אקס לבצע מבחן כי בריבוע, למשל, על ידי שימוש ה-R לתפקד chisq.test.
    הערה: לדוגמה, השוואת המחקר שנבחר אלח דם אנושי (GSE9960) עם מאתר S. aureus הזרקה מודל (GSE20524) מציג חפיפה סטטיסטית בתקנה מסלול דלקתיות:
    > chisq.test(X,simulate.p.value=F)$ p.value
    3.82e-07

6. זיהוי דגם בעל חיים אופטימלי

  1. השווה GSEA התוצאות עבור כל השילובים של מחקרים אשר נבחרו לניתוח.
    הערה: מומלץ גם להשוות בין הניסויים בבני אדם (בדומה) אחד לשני, כמו גם מחקרים בבעלי חיים שונים אחד לשני. השוואה זו יכולה לספק תובנות השונות משמשות של מחקרים קליניים (או הפרעות), הדגמים בעלי חיים שונים. הוא צפוי כי המחקרים הקליניים צריך להראות שחפיפה מקובל של מידע משמעותי להשיג, כי אחרת המחקרים הקליניים יכול להיות גם הטרוגנית למצוא מודל חיה שיכולים לחקות את המצב האנושי. במקרה זה, מומלץ לכלול רק מחקרים בבני אדם דומים אחד לשני לצורך זיהוי מתאימים חייתיים.
  2. למיין כל השילובים הרווח של מידע (שלב 5.5). לשימוש השוואת datasets רבים, מטריצה והמחש את הממצאים על-ידי שימוש heatmap צבעוניים או משהו דומה ( איור 8).
  3. בחר את המודל החייתי עם הרווח הגבוהה ביותר של מידע. על מנת להעריך את המשמעות רווח של מידע, בחשבון גם את מבחן כי בריבוע (שלב 5.6).
    הערה: מודלים בעלי חיים רק שיתייחסו אליה בהתאם אם מידע הוא מהותי, אם ערך p של מבחן כי בריבוע הוא מתחת לרמת מובהקות. ספי User-defined יהיה בדרך כלל תלוי במספר גורמים: 1) ידע טרום המחקר על transferability של תוצאות ממודל בבעלי חיים על בני אדם (למשל דומה פיסיולוגיה), 2) את התועלת הצפויה עבור בני אדם על ידי הצלחה המשוער, מעשי 3) תחולת כי ניסויים בבעלי חיים, ו- 4) הצפוי כאב, סבל או העוול שנעשה על המעבדהתורת הנאום חיות.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

מודגמות את זרימת העבודה GSEA ואת צילומי מסך של נתונים למופת. איור 1 מציג את קובץ הנתונים של ג'ין ביטוי המכיל את הנתונים transcriptomic של עניין. על כל מחקר קובץ תיאורי פנוטיפ נדרש זה מוצג באיור2. ג'ין המבואר סטים (למשל, מסלולים) מוגדרים בקובץ הגדרת מסד הנתונים ג'ין (איור 3). איור 4 מראה פרוטוקול צעד אחר צעד עבור השימוש בכלי תוכנה GSEA. דוח תוצאות למופת ניתנת באיור5. תוצאות מפורטות של העשרה GSEA מסוכמות באיור 6. ההשוואה של מחקרים ביטוי גנים שונים, בפרט אנושי לעומת מחקרים העכבר, טבלה לשעת חירום נדרש (איור 7). עבור הפריט החזותי של התוצאות, מציג איור 8 מטריצת מתאם של מסלול השוואות בין אדם ומחקרים העכבר.

Figure 1
איור 1: קובץ נתונים של ביטוי גנים GSEA. הקובץ מכיל ביטוי ערכים עבור כל הגנים לזיהוי (או הגששים), גם עבור גנים זה עשוי לא באופן שונה להתבטא. הקובץ ולכן בדרך כלל כוללת אלפי גנים. (א) בקובץ הנתונים של ביטוי גנים כולל נתונים עבור כל דגימה בודדת. השורה הראשונה מכילה את השם תוויות (כאן: בדיקה המזהה) ולאחריו תיאור אופציונלי של ושמות מדגם בודדים (כאן: GSM515585, GSM515586, וכדומה). השארית של הקובץ מכיל ביטוי הערכים עבור כל אחד הגנים ועבור כל מדגם ב- dataset. תבנית הנתונים של ביטוי גנים אלטרנטיביים (B). מבחוץ לחשב מדדים קבוצה (כאן: יחס מרושע) יכול לשמש עבור הכלי preranked GSEA אם נתונים לדוגמה בודדים אינם זמינים. אנא לחץ כאן כדי להציג גירסה גדולה יותר של הדמות הזאת.

Figure 2
איור 2: קובץ פנוטיפ GSEA. הקובץ משלב דוגמאות בודדות קבוצות ולתוויות הקבוצות בהתאם. השורה הראשונה מכילה את המספר הכולל של דגימות ולמנף את מספר קבוצות. השדה השלישי של הקו הראשון הוא תמיד '1'. הקו השני מכיל את השם של כל קבוצה. הקו מתחיל עם סימן סולמית (#) ואחריו רווח. השורה השלישית מכילה קבוצה תווית עבור כל דגימה (כאן: 0 או 1). אנא לחץ כאן כדי להציג גירסה גדולה יותר של הדמות הזאת.

Figure 3
איור 3: ג'ין GSEA להגדיר קובץ מסד הנתונים. הקובץ מגדיר קבוצות של גנים הוקצו קטגוריות או תהליכים ביולוגיים מסוימים (כאן: מסלולים דלקתיות). בתבנית GMT, כל שורה מייצגת ערכה ג'ין, אשר מוגדרת ע י שם, תיאור, הגנים כלולים (סמלים ג'ין הוגו הרשמי). אנא לחץ כאן כדי להציג גירסה גדולה יותר של הדמות הזאת.

Figure 4
איור 4: הגדרות תוכנה GSEA. הכלי תוכנות GSEA שהורד מהאתר במכון כיישום שולחן העבודה ב- java. (א) בתפריט ההתחלה. הצד השמאלי מכיל את תפריט הניווט בעוד החלק השמאלי (דף הבית) נותן סיכום קצר של זרימת העבודה GSEA. לחיצה על לחצן טעינת הנתונים יפתח כרטיסייה חדשה עבור ייבוא קבצי. (B) עומס נתונים בסעיף לפני ייבוא נתונים. הקבצים הנדרשים יכול להיות מיובאים דרך הדפדפן קובץ. (ג) נתונים טען בסעיף לאחר ייבוא הנתונים. הנתונים המיובאים קבצים מפורטים מטמון האובייקטים והן מאורגנות כדי datasets (קובץ חובה), פנוטיפים (קובץ חובה), ג'ין הגדרת מסדי נתונים (אופציונלי, אם ניתן החיבור לאינטרנט) ו שבב קבצים (אופציונלי, אם ניתן החיבור לאינטרנט). לחיצה על כפתור הפעל GSEA יפתח כרטיסייה חדשה עבור הגדרת הפרמטרים ניתוח. (ד) סעיף GSEA לרוץ . הכרטיסיה ' ' הגדרת הפרמטרים ניתוח מחולק שדות חובה, שדות בסיסיים ושדות מתקדם. לחיצה על הלחצן הפעל על על התחתון השמאלי של החלון יהיה להתחיל את הניתוח. ההתקדמות של הניתוח ואז יהיה גלוי במקטע דוחות GSEA בפינה השמאלית התחתונה של החלון. לאחר סיום הניתוח, מצב 'הצלחה' מופיע GSEA דוחות סעיף. (E) GSEA preranked בכלי. ביטוי גנים קבצי נתונים המכיל קבוצה מחושב באופן חיצוני מדדים במקום נתונים לדוגמה בודדים יכול להיות מנותח באמצעות סרגל הניווט הראשי. אנא לחץ כאן כדי להציג גירסה גדולה יותר של הדמות הזאת.

Figure 5
איור 5: GSEA ח. ח GSEA ייפתח בחלון דפדפן שמסכם את כל התוצאות ואת הפרמטרים שנבחרו. בשני הסעיפים העליון של תפריט ניווט מהווים ג'ין העשרה ערכת תוצאות הקבוצות מוגדר (למשל, העשרה דגימות S. aureus מטופלים או דגימות הבקרה בריא). בדוגמה הזו, 42 קבוצות גנים 65 (מסלולים) מופעלות בעכברים S. aureus מטופלים, בעוד 14 מהם באופן משמעותי מועשר עם פד מתחת ל 25%. באופן דומה, 23 קבוצות גנים 65 (מסלולים) מעוכבים בעכברים S. aureus מטופלים, בעוד 18 מהם באופן משמעותי מועשר עם פד מתחת ל 25%. לחיצה על תוצאות העשרה מפורט נפתח בעורך html או excel הקובץ עבור ייצוא נתוני ניתוח נדרש להשוואה של מחקרים ביטוי גנים שונים. אנא לחץ כאן כדי להציג גירסה גדולה יותר של הדמות הזאת.

Figure 6
איור 6: מפורט העשרה תוצאות. (א) קובץ הגיליון האלקטרוני לייצאם המכילה תוצאות ניתוח מפורט עבור ערכות ג'ין (מסלולים) הופעלו S. aureus מטופלים עכברים. קובץ הגיליון האלקטרוני מכיל נתונים ענק עבור כל ערכת ג'ין שנותחה, כולל השם של קבוצת גנים, גודלו, הציון מנורמל העשרה שלה, ערכו הנומינלי p (שלא תוקנו) ערכו רוזוולט. (B) פשוטה הגיליון האלקטרוני קובץ זהמכיל רק את המידע הנדרש לצורך השוואת מחקרים ביטוי גנים שונים. אנא לחץ כאן כדי להציג גירסה גדולה יותר של הדמות הזאת.

Figure 7
איור 7:3 x 3 טבלה לשעת חירום של תוצאות GSEA. (א) הנפוץ בתבנית טבלה לשעת חירום עבור ההשוואה של 2 מחקרים. (B) מספרי המופת של מסלולים מוסדרים עבור ההשוואה של מחקר אלח דם אנושי (GSE9960) עם מאתר S. aureus הזרקה מודל (GSE20524). אנא לחץ כאן כדי להציג גירסה גדולה יותר של הדמות הזאת.

Figure 8
איור 8: מטריצת מתאם של מסלול השוואות בין האדם לבין מחקרים העכבר. החפיפה של מסלול תקנה מוצג על הרווח של מידע ניתן להשיג מחקר (עכבר) אחד לחיזוי ההשפעות במחקר (אדם) אחר (כחול, ירידה, מתאם נמוך; רד, עלייה, קורלציה גבוהה). בדוגמה הזו, חשף ההשוואה של האדם עם datasets מאתר קבוצת משנה של ניסיוניות מאתר שהיו מאוד correlative ללימודים קליניים אנושי (מחקרים 10 ו-11, קו מנוקד), המציין כי מודלים העכבר אלה הם המתאימים ביותר עבור מחקה המצב האנושי. לעומת זאת, הלימודים 7, 8 ו-9 הראה שום קורלציה למחקרים מחלות אנושיות. אנא לחץ כאן כדי להציג גירסה גדולה יותר של הדמות הזאת.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

מודלים בעלי חיים זמן הוחלו על החקירה של מנגנוני המחלה ועל הפיתוח של אסטרטגיות טיפוליות מקוריות. עם זאת, ספקנות לגבי predictivity בבעלי חיים כמודלים החלה להתפשט בעקבות הכישלונות של ניסויים קליניים12. יתר על כן, דיונים במחלוקת אודות אסטרטגיות המתאימות עבור ניתוח ופרשנות של נתונים טכנולוגיות גדול ניסויים פרה גידלו למסקנות הפוכות להסיק את אותם נתונים לאחר יישום אסטרטגיות ניתוח נתונים שונות1 ,2. כתוצאה מכך, יש ביקוש גבוה עוד יותר חזקים ביואינפורמטיקה שיטות לניתוח של טכנולוגיות מורכבות נתונים להגדרת באופן שיטתי את המודל החייתי אופטימלית עבור מחלה אנושית נתונה. החלת המודל הטוב ביותר זמין לא רק משפר את המחקר translational אלא תורמת רווחת בעלי חיים על ידי הימנעות ניסויים בבעלי חיים, זה אולי לא לתאם עם המצב האנושי.

פרוטוקול הציג מתאר בגישה סטנדרטית להשוות באופן שיטתי נתונים טכנולוגיות של מינים שונים במטרה לזהות את מודלים בעלי חיים אופטימלי והפרוטוקולים טיפול עבור הפרעה אנושית נתונה. על ידי שימוש GSEA במקום ניתוח חד-ג'ין, פרוטוקול זה עוקף כל הבעיות הקשורות הגדרה סובייקטיבית של ספי ביטוי גנים וסינון ג'ין. ההתמקדות הנבחר מסלולים נוספים מאפשרת לכתובת ספציפית (פתו) פיזיולוגיים התהליך של ההפרעה/התנאי המדובר (למשל, דלקת). כמובן, הדיוק של התוצאות GSEA תלוי על איכות הגן הנוכחי ביאורים קבע אם מנגנוני רגולציה נשמרים בין המינים. עם זאת, אנו משערים כי באופן כללי השימור היא גבוהה יותר ברמה מסלול יותר ברמה גנטית יחיד. בנוסף, קבע העשרה גישות הם עמידים יותר להשוואות של transcriptomic נתונים בין פלטפורמות שונות, ניסיוניות או גדודים קליניים מאשר יחיד-גן מנתח13.

במקום להשתמש ערכות גנים מוגדרים מראש כגון מסלולים, הגישה הציג גם מאפשר להגדיר ערכות הגן מותאם אישית. בפרט, ביטוי ניסיוני נתונים יכול לשמש לזיהוי גנים הרלוונטיים מופעל או מעוכבים במצב אחד (למשל, החפיפה של גנים אנושיים מוסדר ב גדודים קליניים). דה נובו מוגדרים ג'ין סטים ואז ניתן להשתמש כדי לבדוק העשרה של נתונים מודלים בבעלי חיים שונים. גישה חלופית זו מונע את "הנסיעה" של שימוש מסלולים המבואר. עוד, הפרוטוקול אינה מוגבלת השוואת נתונים transcriptomic, אך היא להעברה כל הנתונים טכנולוגיות כולל פרוטאומיקס, מטבולומיקס. למרות זאת, יש לזכור כי גישה זו היא מוגבלת נתונים טכנולוגיות קיימים מודלים העכבר, בני אדם, וכי מספר זה אינו מציין כיצד לפתח מודלים חדשים. עם זאת, הוא מייצג גישה יעילה עבור הפרשנות מתוקננת של נתונים קיימים, אשר עשויים להקל על בחירה זהירה של המודל בעלי חיים אופטימלי, ובכך להימנע מחקרים translational מיותרים ומטעה.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

המחברים מצהירים כי יש להם אינטרסים כלכליים אין מתחרים.

Acknowledgments

עבודה זו מומן על ידי המכון הפדרלי הגרמני לשם הערכת סיכונים (BfR).

Materials

Name Company Catalog Number Comments
Excel Microsoft Corporation

DOWNLOAD MATERIALS LIST

References

  1. Seok, J., et al. Genomic responses in mouse models poorly mimic human inflammatory diseases. Proc Natl Acad Sci U S A. 110 (9), 3507-3512 (2013).
  2. Takao, K., Miyakawa, T. Genomic responses in mouse models greatly mimic human inflammatory diseases. Proc Natl Acad Sci U S A. 112 (4), 1167-1172 (2015).
  3. Weidner, C., Steinfath, M., Opitz, E., Oelgeschläger, M., Schönfelder, G. Defining the optimal animal model for translational research using gene set enrichment analysis. EMBO Mol Med. 8 (8), 831-838 (2016).
  4. Subramanian, A., et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proc Natl Acad Sci U S A. 102 (43), 15545-15550 (2005).
  5. Kanehisa, M., Sato, Y., Kawashima, M., Furumichi, M., Tanabe, M. KEGG as a reference resource for gene and protein annotation. Nucleic Acids Res. 44 (D1), D457-D462 (2016).
  6. Kanehisa, M., Goto, S. KEGG: kyoto encyclopedia of genes and genomes. Nucleic Acids Res. 28 (1), 27-30 (2000).
  7. Fabregat, A., et al. The Reactome pathway Knowledgebase. Nucleic Acids Res. 44 (D1), D481-D487 (2016).
  8. Croft, D., et al. The Reactome pathway knowledgebase. Nucleic Acids Res. 42 (Database issue), D472-D477 (2014).
  9. Nishimura, D. BioCarta. Biotech Software & Internet Report. 2 (3), 117-120 (2001).
  10. Edgar, R., Domrachev, M., Lash, A. E. Gene Expression Omnibus: NCBI gene expression and hybridization array data repository. Nucleic Acids Res. 30 (1), 207-210 (2002).
  11. Kolesnikov, N., et al. ArrayExpress update--simplifying data submissions. Nucleic Acids Res. 43 (Database issue), D1113-D1116 (2015).
  12. Cohen, J., et al. Sepsis: a roadmap for future research. Lancet Infect Dis. 15 (5), 581-614 (2015).
  13. Spinelli, L., Carpentier, S., Montanana Sanchis, F., Dalod, M., Vu Manh, T. P. BubbleGUM: automatic extraction of phenotype molecular signatures and comprehensive visualization of multiple Gene Set Enrichment Analyses. BMC Genomics. 16 (1), 814 (2015).

Tags

פרוטוקול בסיסי גיליון 126 המודל החייתי דגם העכבר המחקר Translational במערכות ביולוגיות Transcriptomics GSEA
פרוטוקול להצפנה באמצעות גנים להגדיר העשרה ניתוח כדי לזהות את המודל החייתי המתאים עבור המחקר Translational
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Weidner, C., Steinfath, M., Wistorf, More

Weidner, C., Steinfath, M., Wistorf, E., Oelgeschläger, M., Schneider, M. R., Schönfelder, G. A Protocol for Using Gene Set Enrichment Analysis to Identify the Appropriate Animal Model for Translational Research. J. Vis. Exp. (126), e55768, doi:10.3791/55768 (2017).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter