Biochemistry

JUMPn: יישום יעיל עבור אשכולות ביטוי משותף של חלבונים וניתוח רשת בפרוטאומיקה

Published: October 19, 2021 doi: 10.3791/62796

David Vanderwall¹, Poudel Suresh^1,2, Yingxue Fu², Ji-Hoon Cho², Timothy I. Shaw^2,3, Ashutosh Mishra², Anthony A. High², Junmin Peng^1,2, Yuxin Li^1,2

¹Departments of Structural Biology and Developmental Neurobiology, St. Jude Children’s Research Hospital, ²Center for Proteomics and Metabolomics, St. Jude Children’s Research Hospital, ³Department of Computational Biology, St. Jude Children’s Research Hospital

Summary

אנו מציגים כלי לביולוגיה של מערכות JUMPn כדי לבצע ולהמחיש ניתוח רשת עבור נתוני פרוטאומיקה כמותית, עם פרוטוקול מפורט הכולל עיבוד נתונים מראש, אשכולות ביטוי משותף, העשרת מסלולים וניתוח רשת אינטראקציות חלבון-חלבון.

Abstract

עם ההתקדמות האחרונה בטכנולוגיות פרוטאומיקה מבוססות ספקטרומטריית מסות, פרופיל עמוק של מאות פרוטאומים הפך אפשרי יותר ויותר. עם זאת, הפקת תובנות ביולוגיות ממערכי נתונים כה חשובים היא מאתגרת. כאן אנו מציגים תוכנה מבוססת ביולוגיה של מערכות JUMPn, ואת הפרוטוקול הקשור אליה כדי לארגן את הפרוטאום לאשכולות ביטוי משותף של חלבונים על פני דגימות ורשתות אינטראקציה בין חלבונים לחלבונים (PPI) המחוברות באמצעות מודולים (למשל, קומפלקסים של חלבונים). באמצעות פלטפורמת R/Shiny, תוכנת JUMPn מייעלת את הניתוח של אשכולות ביטויים משותפים, העשרת מסלולים וזיהוי מודול PPI, עם הדמיית נתונים משולבת וממשק ידידותי למשתמש. השלבים העיקריים של הפרוטוקול כוללים התקנה של תוכנת JUMPn, הגדרת חלבונים המבוטאים באופן דיפרנציאלי או פרוטאום מווסת (dys), קביעת אשכולות ביטוי משותף משמעותיים ומודולי PPI, והדמיית תוצאות. בעוד שהפרוטוקול מודגם באמצעות פרופיל פרוטאום מבוסס תוויות איזובריות, JUMPn ישים בדרך כלל למגוון רחב של מערכי נתונים כמותיים (למשל, פרוטאומיקה ללא תוויות). התוכנה והפרוטוקול של JUMPn מספקים אפוא כלי רב עוצמה כדי להקל על פרשנות ביולוגית בפרוטאומיקה כמותית.

Introduction

פרוטאומיקה מבוססת ספקטרומטריית מסה של רובה ציד הפכה לגישה המרכזית לניתוח מגוון הפרוטאומים של דגימות מורכבות¹. עם ההתקדמות האחרונה במכשור ספקטרומטריית מסות ^2,3, כרומטוגרפיה ^4,5, זיהוי ניידות יונים⁶, שיטות רכישה (⁷ בלתי תלויות בנתונים ורכישה תלוית נתונים⁸), גישות כימות (שיטת תיוג פפטיד איזוברי רב-plex, למשל, TMT ^9,10, וכימות ללא תווית^11,12) ואסטרטגיות ניתוח נתונים/ פיתוח תוכנה 13,14,15,16,17,18, כימות של הפרוטאום כולו (למשל, מעל 10,000 חלבונים) הוא כיום שגרתי 19,20,21. עם זאת, כיצד להשיג תובנות מכניסטיות ממערכי נתונים כמותיים כה עמוקים עדיין מאתגר²². ניסיונות ראשוניים לחקור מערכי נתונים אלה הסתמכו בעיקר על ביאור של אלמנטים בודדים של הנתונים, תוך התייחסות לכל רכיב (חלבון) באופן עצמאי. עם זאת, מערכות ביולוגיות והתנהגותן אינן ניתנות להסבר אך ורק על ידי בחינת מרכיבים בודדים²³. לכן, גישה מערכתית הממקמת את הביומולקולות הכימותיות בהקשר של רשתות אינטראקציה חיונית להבנת מערכות מורכבות והתהליכים הקשורים אליהן כגון עוברי, תגובה חיסונית ופתוגנזה של מחלות אנושיות²⁴.

ביולוגיה של מערכות מבוססות רשת התפתחה כפרדיגמה רבת עוצמה לניתוח נתוני פרוטאומיקה כמותית בקנה מידה גדול 25,26,27,28,29,30,31,32,33. מבחינה מושגית, מערכות מורכבות כגון תאי יונקים יכולות להיות ממודלות כרשת היררכית^34,35, שבה המערכת כולה מיוצגת בשכבות: תחילה על ידי מספר רכיבים גדולים, שכל אחד מהם לאחר מכן ממודל באופן איטרטיבי על ידי תת-מערכות קטנות יותר. מבחינה טכנית, המבנה של דינמיקת פרוטאום יכול להיות מוצג על ידי רשתות מחוברות זו בזו של אשכולות חלבונים המתבטאים במשותף (מכיוון שגנים/חלבונים המתבטאים במשותף חולקים לעתים קרובות פונקציות ביולוגיות דומות או מנגנונים של ויסות³⁶) ומודולי PPI בעלי אינטראקציה פיזית³⁷. כדוגמה אחרונה²⁵, יצרנו פרופילים טמפורליים של פרוטאום שלם ופוספופרוטאום במהלך הפעלת תאי T והשתמשנו ברשתות ביטוי משותפות אינטגרטיביות עם PPIs כדי לזהות מודולים פונקציונליים המתווכים יציאה של תאי T. מספר מודולים הקשורים לביו-אנרגיה הודגשו ואומתו בניסוי (לדוגמה, מודולי המיטוריבוסום וה-IV המורכבים²⁵, ומודול פחמן אחד³⁸). בדוגמה אחרת²⁶, הרחבנו עוד יותר את הגישה שלנו לחקר הפתוגנזה של מחלת אלצהיימר, ותיעדפנו בהצלחה את התקדמות המחלה במודולים ובמולקולות הקשורים להתקדמות המחלה. חשוב לציין שרבות מהתגליות הבלתי משוחדות שלנו אומתו על ידי קבוצות חולים עצמאיות^26,29 ו/או מודלים של עכברי מחלה²⁶. דוגמאות אלה המחישו את כוחה של גישת הביולוגיה של המערכות לניתוח מנגנונים מולקולריים באמצעות פרוטאומיקה כמותית ושילובי אומיקה אחרים.

כאן אנו מציגים את JUMPn, תוכנה יעילה החוקרת נתוני פרוטאומיקה כמותית באמצעות גישות ביולוגיות של מערכות מבוססות רשת. JUMPn משמש כמרכיב במורד הזרם של חבילת התוכנה מבוססת JUMP פרוטאומיקה 13,14,39, ומטרתו למלא את הפער מכימות חלבונים בודדים למסלולים בעלי משמעות ביולוגית ומודולי חלבונים באמצעות גישת הביולוגיה של המערכות. על-ידי לקיחת מטריצת הכימות של חלבונים המבוטאים באופן דיפרנציאלי (או המשתנה ביותר) כקלט, JUMPn שואף לארגן את הפרוטאום בהיררכיה שכבתית של צבירי חלבונים המתבטאים יחד על פני דגימות ומודולי PPI המחוברים בצפיפות (למשל, קומפלקסים של חלבונים), אשר מבוארים עוד יותר עם מסדי נתונים של מסלולים ציבוריים על ידי ניתוח ייצוג יתר (או העשרה) (איור 1). JUMPn פותחה עם פלטפורמת R/Shiny⁴⁰ עבור ממשק ידידותי למשתמש ומשלבת שלושה מודולים פונקציונליים עיקריים: ניתוח אשכולות ביטוי משותף, ניתוח העשרת מסלולים וניתוח רשת PPI (איור 1). לאחר כל ניתוח, התוצאות מוצגות באופן אוטומטי באופן חזותי וניתנות לכוונון באמצעות פונקציות הווידג'ט R/מבריק וניתנות להורדה בקלות כטבלאות פרסום בתבנית Microsoft Excel. בפרוטוקול הבא, אנו משתמשים בנתוני פרוטאום שלמים כמותיים כדוגמה ומתארים את השלבים העיקריים של השימוש ב- JUMPn, כולל התקנת תוכנת JUMPn, ההגדרה של חלבונים המבוטאים באופן דיפרנציאלי או הפרוטאום המווסת (dys), ניתוח רשת ביטוי משותף וניתוח מודול PPI, הדמיה ופרשנות של תוצאות, וירי בעיות. תוכנת JUMPn זמינה באופן חופשי ב-GitHub⁴¹.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

הערה: בפרוטוקול זה, השימוש ב- JUMPn מודגם על ידי שימוש במערך נתונים שפורסם של פרופיל פרוטאום שלם במהלך התמיינות תאי B המכומת על ידי ריאגנט התווית האיזוברית TMT²⁷.

1. הגדרת תוכנת JUMPn

הערה: שתי אפשרויות מסופקות להגדרת תוכנת JUMPn: (i) התקנה במחשב מקומי לשימוש אישי; וכן (ii) פריסה של JUMPn בשרת מבריק מרוחק עבור משתמשים מרובים. עבור התקנה מקומית, מחשב אישי עם גישה לאינטרנט ו- ≥4 Gb של זיכרון RAM מספיק כדי להפעיל ניתוח JUMPn עבור ערכת נתונים עם גודל מדגם קטן (n < 30); זיכרון RAM גדול יותר (לדוגמה, 16 Gb) נחוץ לניתוח קוהורט גדול (לדוגמה, n = 200 דגימות).

התקן את התוכנה במחשב מקומי. לאחר ההתקנה, אפשר לדפדפן האינטרנט להפעיל את JUMPn ולתת לניתוח לפעול במחשב המקומי.
1. התקן אנקונדה⁴² או מיניקונדה⁴³ בהתאם להוראות המקוונות.
2. הורד את קוד המקור JUMPn⁴¹. לחץ פעמיים כדי לפתוח את הקובץ שהורדת JUMPn_v_1.0.0.0.zip; תיקייה חדשה בשם JUMPn_v_1.0.0 תיווצר.
3. פתח מסוף שורת הפקודה. ב- Windows, השתמש בשורת הבקשה של Anaconda. ב- MacOS, השתמש ביישום הטרמינל המובנה.
4. צור את סביבת JUMPn Conda: קבל את הנתיב המוחלט של התיקיה JUMPn_v_1.0.0 (לדוגמה, /path/to/to/JUMPn_v_1.0.0). כדי ליצור ולהפעיל סביבת Conda ריקה הקלד את הפקודות הבאות במסוף
  conda create -p /path/to/JUMPn_v_1.0.0/JUMPn -y
  conda הפעל /path/to/JUMPn_v_1.0.0/JUMPn
5. התקן יחסי תלות של JUMPn: התקן R (במסוף, הקלד conda להתקין -c conda-forge r=4.0.0 -y), שנה את הספריה הנוכחית לתיקיה JUMPn_v_1.0.0 (במסוף, הקלד נתיב תקליטור /to/JUMPn_v_1.0.0), והתקן את חבילות התלות (במסוף, הקלד אתחול Rscript. R)
6. הפעל את JUMPn בדפדפן האינטרנט: שנה את הספריה הנוכחית לתיקיית הביצוע (במסוף, הקלד ביצוע תקליטור) והפעל את JUMPn (במסוף, סוג R -e "מבריק::runApp()")
7. לאחר ביצוע האמור לעיל, מסך המסוף יופיע בהאזנה ב- http://127.0.0.1:XXXX (כאן XXXX מציין 4 מספרים אקראיים). העתק והדבק http://127.0.0.0.1:XXXX בדפדפן האינטרנט, שבו יופיע דף הפתיחה של JUMPn (איור 2).
פריסה בשרת מבריק. דוגמאות לשרת מבריק כוללות את שרת shinyapps.io המסחרי או כל שרת מבריק הנתמך באופן מוסדי.
1. הורד והתקן את RStudio בעקבות ההוראה⁴⁴.
2. קבל את הרשאת הפריסה עבור השרת המבריק. עבור שרת shinyapps.io, הגדר את חשבון המשתמש על-ידי ביצוע ההוראה⁴⁵. עבור שרת מבריק מוסדי, פנה למנהל השרת לקבלת בקשת הרשאות.
3. הורד את קוד המקור JUMPn⁴¹ למחשב המקומי; ההתקנה אינה הכרחית. פתח את השרת. R או ui. R קבצים ב- RStudio ולחץ על התפריט הנפתח פרסם לשרת בפינה השמאלית העליונה של RStudio IDE.
4. בחלונית 'פרסם לחשבון' , הקלד את כתובת השרת. לחץ על לחצן פרסם . פריסה מוצלחת מאומתת עם ניתוב מחדש אוטומטי מ- RStudio לשרת RShiny שבו נפרס היישום.

2. הרצת הדגמה באמצעות ערכת נתונים לדוגמה

הערה: JUMPn מציע הרצת הדגמה באמצעות ערכת הנתונים של פרוטאומיקה של תאי B שפורסמה. הרצת ההדגמה ממחישה זרימת עבודה יעילה שלוקחת את מטריצת הכימות של חלבונים המבוטאים באופן דיפרנציאלי כקלט ומבצעת אשכולות ביטוי משותף, העשרת מסלולים וניתוח רשת PPI ברצף.

בדף הבית של JUMPn (איור 2), לחץ על לחצן התחלת ניתוח כדי להתחיל בניתוח JUMPn.
בפינה השמאלית התחתונה של דף ניתוח התחלה (איור 3), לחץ על לחצן העלה הדגמה B Cell Proteomic Data ; תופיע תיבת דו-שיח המודיעה על הצלחת העלאת הנתונים.
בפינה השמאלית התחתונה של הדף, לחץ על שלח ניתוח JUMPn כפתור כדי ליזום את הפעלת ההדגמה באמצעות פרמטרי ברירת מחדל; יופיע סרגל התקדמות המציין את מהלך הניתוח. המתן עד למילוי סרגל ההתקדמות (3 דקות צפויות).
לאחר סיום הפעלת ההדגמה, תופיע תיבת דו-שיח עם הודעת הרצת ההצלחה והנתיב המוחלט לתיקיית התוצאות. לחץ על המשך לתוצאות כדי להמשיך.
דף האינטרנט ינחה תחילה את המשתמש לתוצאות אשכול הביטויים המשותפים על-ידי WGCNA. לחץ על הצג תוצאות בחלון תיבת הדו-שיח כדי להמשיך.
מצא את תבניות הביטוי המשותף של חלבונים בצד שמאל של דף התוצאה 1: דף פלט WGCNA . לחץ על התיבה הנפתחת בחר את תבנית הביטוי כדי לנווט בין שתי תבניות איור:
1. בחר מגמות כדי להציג את תרשים המגמות, כאשר כל שורה מייצגת את שפע החלבון הבודד בין הדגימות. הצבע של כל קו מייצג עד כמה קרובה תבנית הביטוי לקונצנזוס של אשכול הביטויים המשותפים (כלומר, "eigengene" כפי שהוגדר על ידי אלגוריתם WGCNA).
2. בחר Boxplot כדי להציג תבניות של ביטויים משותפים בתבנית boxplot עבור כל דגימה.
הצג את מפת החום של העשרת המסלול/אונטולוגיה בצד ימין של דף הפלט של WGCNA. המסלולים המועשרים ביותר עבור כל צביר מוצגים יחד במפת חום, כאשר עוצמת הצבע משקפת את ערך ה-p המותאם לבנימיני-הוכברג.
גלול מטה בדף האינטרנט כדי להציג את תבנית הביטוי עבור חלבונים בודדים.
1. השתמש בתיבה הנפתחת בחר את אשכול ביטויי המשותף כדי להציג חלבונים מכל אשכול (ברירת המחדל היא אשכול 1). בחר חלבון מסוים בטבלה, שעליו תעודכן באופן אוטומטי תרשים המוט שמתחת לטבלה כדי לשקף את שפע החלבון שלו.
2. חפש שמות חלבונים ספציפיים באמצעות תיבת החיפוש בצד ימין של הטבלה עבור חלבון מסוים.
כדי להציג את תוצאות PPI, לחץ על עמוד התוצאות 2: פלט PPI בחלק העליון.
לחץ על בחר את אשכול הביטויים המשותפים כדי להציג את התוצאות עבור אשכול ביטויים משותפים ספציפי (ברירת המחדל היא אשכול 1). התצוגות של כל לוחות האיורים בדף זה יעודכנו עבור האשכול החדש שנבחר.
הצגת רשתות ה- PPI עבור אשכול הביטויים המשותפים שנבחר בחלונית האיור השמאלית:
1. לחץ על התיבה הנפתחת בחר לפי קבוצה כדי לסמן מודולי PPI בודדים בתוך הרשת. לחץ על התיבה הנפתחת בחר תבנית פריסת רשת כדי לשנות את פריסת הרשת (ברירת המחדל היא על-ידי Fruchterman Reingold).
2. השתמש בעכבר ובמשטח המגע כדי לבצע שלבים 2.11.3-2.11.5.
3. הגדל את התצוגה או הקטן את רשת ה- PPI לפי הצורך. שמות הגנים של כל צומת ברשת יוצגו כאשר מוגדלים מספיק.
4. כאשר מגדילים את התצוגה, בחרו ולחצו על חלבון מסוים כדי להדגיש את החלבון ואת שכניו ברשת.
5. גרור צומת מסוים (חלבון) ברשת כדי לשנות את מיקומו בפריסה; ובכך ניתן לארגן מחדש את פריסת הרשת על ידי המשתמש.
בחלונית הימנית של דף התוצאות של PPI, הצג את המידע ברמת האשכול של הביטוי המשותף המסייע בפענוח תוצאות PPI:
1. הצג את תבנית הביטוי המשותף של האשכול שנבחר כ- boxplot כברירת מחדל.
2. לחץ על התיבה הנפתחת בחר את תבנית הביטוי לקבלת מידע נוסף או תצוגה כאמור בשלבים 2.12.3-2.12.5.
3. בחר מגמות כדי להציג מגמות המתארות עבור תבנית הביטוי המשותף.
4. בחר מסלול Barplot כדי להציג מסלולים מועשרים באופן משמעותי עבור אשכול הביטויים המשותפים.
5. בחר תרשים מעגל מסלול כדי להציג מסלולים מועשרים באופן משמעותי עבור אשכול הביטויים המשותפים בתבנית העלילה המעגלית.
גלול מטה בדף האינטרנט של דף התוצאה 2: פלט PPI כדי להציג תוצאות ברמת מודול PPI הבודד. לחץ על התיבה הנפתחת בחר את המודול כדי לבחור מודול PPI ספציפי לתצוגה (Cluster1: Module 1 מוצג כברירת מחדל).
הצג את מודול ה- PPI בחלונית השמאלית. כדי לתפעל את תצוגת הרשת, בצע את השלבים 2.11.2-2.11.5.
הצג את תוצאות העשרת המסלול/אונטולוגיה בלוח הימני. לחץ על התיבה הנפתחת בחר סגנון ביאור נתיב לקבלת מידע נוסף ותציג:
1. בחר Barplot כדי להציג מסלולים מועשרים באופן משמעותי עבור מודול ה- PPI שנבחר.
2. בחר תרשים מעגל כדי להציג מסלולים מועשרים באופן משמעותי עבור מודול ה- PPI שנבחר בתבנית של תרשים מעגל.
3. בחר מפת חום כדי להציג מסלולים מועשרים באופן משמעותי ואת שמות הגנים המשויכים ממודול ה- PPI שנבחר.
4. בחר טבלה כדי להציג את תוצאות העשרת המסלולים המפורטות, כולל שם המסלולים/מונחי אונטולוגיה, שמות גנים וערך P על ידי הבדיקה המדויקת של פישר.
הצג את טבלת הפרסום בתבנית גיליון אלקטרוני: בצע את הנתיב המוחלט (המודפס בראש שני עמודי התוצאות) ומצא את טבלת הגיליון האלקטרוני של הפרסום בשם ComprehensiveSummaryTables.xlsx.

3. הכנת קובץ הקלט והעלאה ל- JUMPn

הערה: JUMPn לוקח כקלט את מטריצת הכימות של החלבונים המבוטאים באופן דיפרנציאלי (השיטה המפוקחת) או של החלבונים המשתנים ביותר (שיטה לא מפוקחת). אם מטרת הפרויקט היא להבין חלבונים שהשתנו במצבים מרובים (למשל, קבוצות מחלה שונות, או ניתוח סדרתי זמן של תהליכים ביולוגיים), עדיפה השיטה המפוקחת לביצוע ניתוח DE; אחרת, גישה לא מפוקחת של בחירת החלבונים המשתנים ביותר עשויה לשמש למטרה האקספלורטורית.

צור את טבלת כימות החלבון, כאשר כל חלבון הוא שורות וכל דגימה היא עמודות. השג זאת באמצעות חבילת תוכנות פרוטאומיקה מודרנית מבוססת ספקטרומטריית מסה (לדוגמה, חבילת JUMP ^13,14,39, תגלית פרוטאום, Maxquant ^15,46).
הגדר את הפרוטאום המשתנה.
1. השתמש בתוצאות הניתוח הסטטיסטי שמספקת חבילת התוכנה לפרוטאומיקה כדי להגדיר חלבונים בעלי ביטוי דיפרנציאלי (DE) (לדוגמה, עם ערך p מותאם < 0.05).
2. לחלופין, משתמשים יכולים לעקוב אחר קוד R^{לדוגמה 47} כדי להגדיר DE או את רוב החלבונים המשתנים.
עצב את קובץ הקלט באמצעות הפרוטאום המשתנה המוגדר.
הערה: תבנית קובץ הקלט הנדרשת (איור 4) כוללת שורת כותרת; העמודות כוללות הצטרפות לחלבון (או כל מזהה ייחודית), GN (סמלי גנים רשמיים), תיאור חלבון (או כל מידע שסופק על-ידי המשתמש), ולאחר מכן כימות חלבונים של דגימות בודדות.
1. בצע את סדר העמודות שצוין בשלב 3.1, אך שמות העמודות של הכותרת גמישים למשתמש.
2. עבור פרוטאום מכמת TMT (או דומה), השתמש בעוצמת כתב TMT המסוכמת כערכי כימות קלט. עבור נתונים ללא תוויות, השתמש בספירות ספקטרליות מנורמלות (לדוגמה, NSAF⁴⁸) או בשיטה מבוססת עוצמה (לדוגמה, עוצמת LFQ או עוצמת חלבון iBAQ המדווחת על-ידי Maxquant⁴⁶).
3. ערכים חסרים מותרים לניתוח JUMPn. הקפד לתייג אותם כ- NA במטריצת הכימות. עם זאת, מומלץ להשתמש רק בחלבונים עם כימות ביותר מ -50% מהדגימות.
4. שמור את קובץ הקלט שהתקבל כתבנית .txt, .xlsx או .csv (כל השלושה נתמכים על-ידי JUMPn).
העלה קובץ קלט:
1. לחץ על לחצן דפדפן ובחר את קובץ הקלט (איור 3, החלונית השמאלית); תבנית הקובץ (xlsx, csv ו - txt נתמכים) תזוהה באופן אוטומטי.
2. אם קובץ הקלט מכיל ערכי כימות דמויי עוצמה (לדוגמה, אלה שנוצרו על-ידי חבילת JUMP³⁹) או דמויי-יחס (לדוגמה, מ-Proteome Discoverer), בחר כן עבור האפשרות הפעל יומן 2-טרנספורמציה של נתונים; אחרת, ייתכן שהנתונים כבר עברו שינוי יומן, לכן בחר לא עבור אפשרות זו.

4. ניתוח אשכולות ביטויים משותפים

הערה: הקבוצה שלנו 25,26,27 ואחרים 28,29,31 הוכיחו כי WGCNA⁴⁹ היא שיטה יעילה לניתוח אשכולות ביטוי משותף של פרוטאומיקה כמותית. JUMPn עוקב אחר הליך בן 3 שלבים עבור ניתוח WGCNA^25,50: (i) הגדרה ראשונית של אשכולות גנים/חלבונים בביטוי משותף על ידי חיתוך עץ דינמי⁵¹ בהתבסס על מטריצת החפיפה הטופולוגית (TOM; נקבעת על ידי דמיון בכימות בין גנים/חלבונים); (2) מיזוג של אשכולות דומים כדי להפחית את היתירות (בהתבסס על דנדרוגרמה של קווי דמיון eigengene); ו-(iii) הקצאה סופית של גנים/חלבונים לכל צביר העולה על ניתוק המתאם המינימלי של פירסון.

הגדר את הפרמטרים של WGCNA (איור 3, החלונית האמצעית). שלושת הפרמטרים הבאים שולטים בשלושת השלבים, בהתאמה:
1. הגדר גודל אשכול מינימלי כ- 30. פרמטר זה מגדיר את המספר המינימלי של חלבונים הנדרשים עבור כל אשכול ביטוי משותף בשלב הראשוני (i) של חיתוך עץ דינמי היברידי מבוסס TOM. ככל שהערך גדול יותר, כך מספר האשכולות המוחזרים על ידי האלגוריתם קטן יותר.
2. הגדר את מרחק האשכולות המינימלי כ- 0.2. הגדלת ערך זה (לדוגמה, מ- 0.2-0.3) עלולה לגרום למיזוג אשכולות רב יותר במהלך שלב (ii), וכתוצאה מכך לגרום למספר קטן יותר של אשכולות.
3. הגדר kME מינימלי כ- 0.7. חלבונים יוקצו לאשכול המתואם ביותר המוגדר בשלב (ii), אך רק חלבונים עם מתאם פירסון העוברים את הסף הזה יישמרו. חלבונים שנכשלים בשלב זה לא יוקצו לאשכול כלשהו (אשכול 'NA' עבור החלבונים שנכשלו בדו"ח הסופי).
ליזום את הניתוח. ישנן שתי דרכים להגיש את ניתוח אשכולות הביטויים המשותפים:
1. לחץ על לחצן שלח ניתוח JUMPn בפינה השמאלית התחתונה כדי ליזום את הניתוח המקיף של WGCNA באופן אוטומטי ואחריו ניתוח רשת PPI.
2. לחלופין, בחר לבצע את שלב WGCNA בלבד (במיוחד לצורך כוונון פרמטרים; ראה שלבים 4.2.3-4.2.4):
3. לחץ על לחצן פרמטרים מתקדמים בתחתית הדף ניתוח התחלה ; חלון פרמטר חדש יופיע. בווידג'ט התחתון , בחר מצב ניתוח, בחר WGCNA בלבד ולאחר מכן לחץ על בטל כדי להמשיך.
4. בדף ניתוח התחלה , לחץ על לחצן שלח ניתוח JUMPn .
5. בכל מקרה לעיל, סרגל התקדמות יופיע עם הגשת הניתוח.
  הערה: לאחר סיום הניתוח (בדרך כלל < דקה אחת עבור ניתוח WGCNA בלבד ו- <3 דקות לניתוח מקיף), תופיע תיבת דו-שיח עם הודעת הרצת הצלחה והנתיב המוחלט לתיקיית התוצאות.
בחנו את תוצאות WGCNA כפי שהן מתוארות בשלבים 2.4-2.8 (איור 5). שים לב שהנתיב המוחלט co_exp_clusters_3colums.txt הקובץ מסומן בראש דף התוצאות: פלט WGCNA כדי לרשום את חברות האשכול של כל חלבון ולהשתמש בו כקלט לניתוח PPI בלבד .
פתרון בעיות. נדונים שלושת המקרים הנפוצים הבאים. לאחר עדכון הפרמטרים כפי שיפורט להלן, בצע את השלבים 4.2.2-4.2.4 כדי ליצור תוצאות WGCNA חדשות.
1. אם תבנית ביטוי משותף חשובה אחת צפויה מהנתונים אך הוחמצה על ידי האלגוריתם, בצע את השלבים 4.4.2-4.4.4
2. צביר חסר סביר במיוחד עבור אשכולות קטנים של ביטוי משותף, כלומר רק מספר מוגבל (למשל, <30) של חלבונים המציגים תבנית זו. לפני הניתוח מחדש, בחנו מחדש את קובץ הקלט של מטריצת כימות החלבון ואתרו מספר חלבוני בקרה חיוביים הדבקים בתבנית ביטוי משותף חשובה זו.
3. כדי להציל את האשכולות הקטנים, להקטין את גודל האשכול המינימלי (לדוגמה, 10; גודל אשכול קטן מ-10 עשוי שלא להיות חזק ולכן לא מומלץ), והקטן את מרחק האשכול המינימלי (למשל, 0.1; כאן מותר גם להגדיר כ-0, מה שאומר שמיזוג אשכולות אוטומטי יידלג).
4. לאחר ביצוע שלב אשכולות הביטויים המשותפים עם הפרמטרים המעודכנים, תחילה, בדוק אם האשכול ניצל מתוכניות תבנית ה- Co-Expression, ולאחר מכן בדוק את הפקדים החיוביים על-ידי חיפוש בגישת החלבון שלהם מכימות חלבונים מפורט (הקפד לבחור את אשכול הביטויים המשותפים המתאים מהווידג'ט הנפתח בצד שמאל לפני החיפוש).
  הערה: ייתכן שיהיה צורך באיטרציות מרובות של כוונון פרמטרים והפעלה חוזרת להצלה.
5. אם יש יותר מדי חלבונים שלא ניתן להקצות לאשכול כלשהו, בצע את השלבים 4.4.6-4.4.7.
  הערה: בדרך כלל, אחוז קטן (בדרך כלל <10%) מהחלבונים לא יכול להיות מוקצה לאשכול כלשהו מכיוון שאלו עשויים להיות חלבונים חריגים שלא עקבו אחר אף אחד מדפוסי הביטוי הנפוצים של מערך הנתונים. עם זאת, אם אחוז כזה הוא משמעותי (למשל, >30%), זה מצביע על כך שקיימים דפוסי ביטוי משותף נוספים שלא ניתן להתעלם מהם.
6. הקטן הן את הפרמטרים 'גודל אשכול מינימלי' וגם את הפרמטרים 'מרחק אשכולות מינימלי' כדי להקל על מצב זה על-ידי זיהוי אשכולות 'חדשים' של ביטויים משותפים.
7. בנוסף, הפחיתו את פרמטר המתאם המינימלי של פירסון (kME) כדי לכווץ את חלבוני ה-'NA cluster' האלה.
  הערה: כוונון פרמטר זה לא ייצור אשכולות חדשים אלא יגדיל את גודלם של אשכולות 'קיימים' על ידי קבלת יותר חלבונים שנכשלו בעבר עם הסף התחתון; עם זאת, זה גם יגדיל את ההטרוגניות של כל צביר, שכן חלבונים רועשים יותר מותרים כעת.
8. לשני אשכולות יש הבדל מינורי מאוד של דפוסים; למזג אותם לאשכול אחד לאחר שלבים 4.4.9-4.4.11.
9. הגדל את הפרמטר מרחק אשכול מינימלי כדי לפתור את הבעיה.
10. עם זאת, במצבים מסוימים, ייתכן שהאלגוריתם לעולם לא יחזיר את התבנית הרצויה; ברגע כזה, התאמה ידנית או עריכה של חברות באשכול בקובץ co_exp_clusters_3colums.txt (קובץ משלב 4.3) למיזוג.
11. קח את הקובץ שלאחר העריכה כקלט לניתוח רשת PPI במורד הזרם. במקרה של עריכה ידנית, הצדק את הקריטריונים של הקצאת אשכולות, ורשם את הליך העריכה הידנית.

5. ניתוח רשת אינטראקציות חלבון-חלבון

הערה: על-ידי הכנסת אשכולות ביטויים משותפים לרשת PPI, כל אשכול ביטוי משותף מחולק עוד יותר למודולי PPI קטנים יותר. הניתוח מתבצע עבור כל אשכול ביטוי משותף וכולל שני שלבים: בשלב הראשון, JUMPn מעביר חלבונים מאשכול הביטוי המשותף לרשת PPI ומוצא את כל הרכיבים המחוברים (כלומר, אשכולות מרובים של צמתים/חלבונים מחוברים; כדוגמה, ראו איור 6A); לאחר מכן, קהילות או מודולים (של צמתים מחוברים בצפיפות) יזוהו עבור כל רכיב מחובר באופן איטרטיבי באמצעות שיטת מטריצת החפיפה הטופולוגית (TOM)⁵².

קביעת תצורה של פרמטרים לניתוח רשת PPI (איור 3, לוח ימני).
1. הגדר גודל מודול PPI מינימלי כ- 2. פרמטר זה מגדיר את הגודל המינימלי של הרכיבים המנותקים מניתוח השלב הראשון. כל רכיב קטן יותר מהפרמטר שצוין יוסר מהתוצאות הסופיות.
2. הגדר את גודל מודול ה-PPI המרבי כ- 40. רכיבים גדולים ומנותקים שעוברים את הסף הזה יעברו ניתוח מבוסס TOM בשלב השני. ניתוח השלב השני יפצל כל רכיב גדול למודולים קטנים יותר: כל מודול מכיל ככל הנראה חלבונים המחוברים בצפיפות רבה יותר מהרכיב המקורי בכללותו.
ליזום את הניתוח. ישנן שתי דרכים להגיש את ניתוח רשת PPI:
1. לחץ על לחצן שלח ניתוח JUMPn כדי לבצע באופן אוטומטי את ניתוח ה- PPI לאחר ניתוח WGCNA כברירת מחדל.
2. לחלופין, העלה תוצאות אשכולות מותאמות אישית של ביטויים משותפים ובצע ניתוח PPI בלבד בהתאם לשלבים 5.2.3-5.2.5.
3. הכן קובץ קלט על-ידי ביצוע תבנית הקובץ co_exp_clusters_3colums.txt (ראה תת-סעיף 4.4).
4. לחץ על לחצן פרמטרים מתקדמים בתחתית הדף ניתוח התחלה ; חלון פרמטר חדש יופיע. בהפעלה העליונה העלה תוצאת אשכול ביטוי משותף לניתוח 'PPI בלבד', לחץ על דפדפן כדי להעלות את קובץ הקלט שהוכן בשלב 5.2.3.
5. בווידג'ט התחתון , בחר מצב ניתוח, בחר PPI בלבד ולאחר מכן לחץ על בטל כדי להמשיך. בדף ניתוח התחלה , לחץ על לחצן שלח ניתוח JUMPn .
לאחר סיום הניתוח (בדרך כלל <3 דקות), בחנו את תוצאות ה-PPI כפי שהן מתוארות בשלבים 2.10-2.15 (איור 6).
שלב מתקדם אופציונלי) התאמת מודולריזציה של PPI על ידי כוונון פרמטרים:
1. הגדל את הפרמטר גודל מודול מקסימלי כדי לאפשר יותר חלבונים הכלולים בתוצאות ה- PPI. העלה רשת PPI מותאמת אישית כדי לכסות אינטראקציות לא מתועדות, בהתאם לשלבים 5.4.2-5.4.3.
2. לחץ על לחצן פרמטרים מתקדמים בתחתית הדף ניתוח התחלה ; חלון פרמטר חדש יופיע. הכן את קובץ ה- PPI המותאם אישית, המכיל שלוש עמודות בתבנית של , C onnection ו- ; כאן מוצגים על ידי שמות הגנים הרשמיים של כל חלבון.
3. בהעלאת מסד נתונים של PPI, לחץ על לחצן עיון כדי להעלות את קובץ ה- PPI המותאם אישית.

6. ניתוח העשרת מסלולים

הערה: המבנים ההיררכיים הנגזרים מ-JUMPn הן של אשכולות ביטויים משותפים והן של מודולי PPI שבתוכם מבוארים באופן אוטומטי עם מסלולים המיוצגים יתר על המידה באמצעות הבדיקה המדויקת של פישר. מסדי הנתונים של המסלולים/טופולוגיה שבהם נעשה שימוש כוללים אונטולוגיה של גנים (GO), KEGG, Hallmark ו-Reactome. משתמשים עשויים להשתמש באפשרויות מתקדמות כדי להעלות מסדי נתונים מותאמים אישית לצורך הניתוח (למשל, במקרה של ניתוח נתונים ממינים שאינם בני אדם).

כברירת מחדל, ניתוח העשרת המסלולים מופעל באופן אוטומטי עם אשכולות ביטויים משותפים וניתוח רשת PPI.
הצג את תוצאות העשרת המסלול:
1. בצע את השלבים 2.7, 2.12 ו- 2.15 כדי להציג באופן חזותי פורמטים שונים בדפי התוצאות. הצג תוצאות מפורטות בטבלת הפרסום של גיליונות אלקטרוניים בקובץ ComprehensiveSummaryTables.xlsx (שלב 2.16).
(שלב מתקדם אופציונלי) העלה מסד נתונים מותאם אישית לניתוח העשרת מסלולים:
1. הכינו את קובץ הרקע של הגן, שבדרך כלל מכיל את שמות הגנים הרשמיים של כל הגנים של המין.
2. הכן את קובץ ספריית האונטולוגיה בהתאם לשלבים 6.3.3-6.3.4.
3. הורד את קבצי ספריית האונטולוגיה מאתרים ציבוריים, כולל EnrichR⁵³, ו- MSigDB⁵⁴. לדוגמה, הורד אונטולוגיה מדרוזופילה מאתר EnrichR⁵⁵.
4. ערוך את הקובץ שהורדת עבור התבנית הנדרשת עם שתי עמודות: שם המסלול כעמודה הראשונה, ולאחר מכן סמלי הגנים הרשמיים (המופרדים על-ידי "/") כעמודה השנייה. תבנית הקובץ המפורטת מתוארת בדף העזרה של תוכנת JUMPn R מבריקה.
  הערה: מצא קבצים לדוגמה של רקע גנים וספריית אונטולוגיה (תוך שימוש ב- Drosophila כמופע) באתר JUMPn GitHub⁵⁶.
5. לחץ על לחצן פרמטרים מתקדמים בתחתית הדף ניתוח התחלה; חלון פרמטר חדש יופיע.
6. מצא העלאת קובץ רקע לניתוח העשרת מסלולים ולחץ על דפדפן כדי להעלות את קובץ הרקע שהוכן בשלב 6.3.1. לאחר מכן, בהפעלה, בחר את הרקע שישמש לניתוח העשרת מסלולים, לחץ על רקע שסופק על-ידי המשתמש.
7. מצא העלה קובץ ספריית אונטולוגיה לניתוח העשרת מסלולים ולחץ על דפדפן כדי להעלות את קובץ ספריית האונטולוגיה שהוכן בשלבים 6.3.2-6.3.3.4. לאחר מכן, בהפעלה, בחר מסדי נתונים לניתוח העשרת מסלולים, לחץ על מסד נתונים שסופק על-ידי המשתמש בתבנית .xlsx.
לחץ על לחצן שלח ניתוח JUMPn בפינה השמאלית התחתונה כדי ליזום את הניתוח באמצעות מסד הנתונים המותאם אישית.

7. ניתוח מערך נתונים עם גודל מדגם גדול

הערה: JUMPn תומך בניתוח של ערכת נתונים עם גודל מדגם גדול (עד 200 דגימות נבדקו). כדי להקל על התצוגה החזותית של גודל מדגם גדול, יש צורך בקובץ נוסף (בשם "קובץ מטא") המציין את קבוצת המדגם כדי להקל על הצגת תוצאות אשכולות של ביטויים משותפים.

הכן והעלה קובץ מטא.
1. הכן את קובץ המטא המציין מידע קבוצתי (לדוגמה, קבוצות בקרה ומחלות) עבור כל דגימה בהתאם לשלבים 7.1.2-7.1.3.
2. ודא שקובץ המטא מכיל לפחות שתי עמודות: עמודה 1 חייבת להכיל את שמות הדגימות הזהים לשמות העמודות ולסדר מקובץ מטריצת כימות החלבון (כפי שהוכן בשלב 3.3); עמודה 2 ואילך תשמש להקצאה קבוצתית עבור כל מספר של תכונות שהוגדרו על-ידי המשתמש. מספר העמודות גמיש.
3. ודא שהשורה הראשונה של קובץ המטא מכילה את שמות העמודות עבור כל עמודה; מהשורה השנייה ואילך, יש לרשום מידע לדוגמה בודד של קבוצות או תכונות אחרות (למשל, מין, גיל, טיפול וכו ').
4. העלה את קובץ המטא על ידי לחיצה על לחצן פרמטרים מתקדמים בתחתית הדף ניתוח התחלה ; חלון פרמטר חדש יופיע. המשך לשלב 7.1.5
5. מצא העלה פריט קובץ מטא ולחץ על דפדפן כדי להעלות את קובץ הרקע. אם התבנית הבלתי צפויה או שמות הדגימה שאין שני להם מזוהים על-ידי JUMPn, תופיע הודעת שגיאה לעיצוב נוסף של קובץ המטא (שלבים 7.1.1-7.1.3).
התאם את הפרמטרים לניתוח אשכולות של ביטויים משותפים: הגדר מתאם מינימלי של פירסון כ- 0.2. פרמטר זה צריך להיות רגוע בשל גודל מדגם גדול יותר.
לחץ על שלח את לחצן ניתוח JUMPn בפינה השמאלית התחתונה כדי לשלוח את הניתוח.
הצגת תוצאות ניתוח: כל פלט הנתונים זהה למעט הצגת תבניות האשכול של ביטויים משותפים.
1. בדף התוצאות 1: WGCNA Output , הצג באופן חזותי את אשכולות הביטויים המשותפים כתיבות עם דוגמאות המרובדות לפי קבוצות או התכונות של דגימות המוגדרות על-ידי המשתמש. כל נקודה בעלילה מייצגת את ה-eigengene (כלומר, תבנית הקונצנזוס של האשכול) המחושבת על ידי אלגוריתם WGCNA.
2. אם המשתמש סיפק תכונות מרובות (לדוגמה, גיל, מין, טיפול וכו') כדי לקבץ את הדגימות, לחץ על התיבה הנפתחת בחר את תבנית הביטוי כדי לבחור תכונה אחרת לקיבוץ הדגימות.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

השתמשנו בערכות הנתונים של פרוטאומיקה עמוקה שפורסמו על^{ידינו 25,26,27,30} (איורים 5 ואיור 6) וכן בסימולציות נתונים⁵⁷ (טבלה 1) כדי לייעל ולהעריך את ביצועי JUMPn. לצורך ניתוח אשכולות חלבונים בביטוי משותף באמצעות WGCNA, אנו ממליצים להשתמש בחלבונים שהשתנו באופן משמעותי בין דגימות כקלט (למשל, חלבונים בעלי ביטוי דיפרנציאלי (DE) שזוהו על ידי ניתוח סטטיסטי). בעוד שהכללת חלבונים שאינם DE לצורך הניתוח עשויה לגרום ליותר אשכולות של ביטויים משותפים המוחזרים על-ידי התוכנית (בשל גודל קלט גדול יותר), אנו משערים כי ערבוב האות האמיתי (למשל, חלבוני ה-DE) עם הרקע (הנותרים שאינם DE) לצורך ניתוח ברמת המערכת עשוי לדלל את האות ולהסוות את מבנה הרשת הבסיסי. כדי לבחון זאת, ניתוח הסימולציה בוצע בשני תנאים שונים: i) פרוטאום דינמי מאוד (למשל, 50% השתנה בהפעלת תאי T²⁵) ו-ii) פרוטאום יציב יחסית (למשל, 2% פרוטאום השתנה ב-AD²⁶). עבור הפרוטאום הדינמי ביותר, שישה צבירי ביטויים משותפים הודגמו מ-50% פרוטאום בעקבות אותו גודל אשכול ודפוסי ביטוי (כלומר, eigengenes) של התוצאות שפורסמו שלנו²⁵. באופן דומה, עבור פרוטאום יציב יחסית, הדמינו שלושה צבירים מ-2% פרוטאום בעקבות מחקר פרוטאומיקה AD²⁶ שנערך לאחרונה. כצפוי, הגדלת מספר התשומות של החלבונים מגדילה את מספר האשכולות שזוהו (טבלה 1). עבור הפרוטאום הדינמי ביותר, שימוש בכל החלבונים כקלט יכול ללכוד את רוב האשכולות האמיתיים (5 מתוך 6 האשכולות המדומים בתום לב; 83% זוכרים) בדיוק של 63% (5 מתוך 8 האשכולות המוחזרים הם חיוביים אמיתיים; כלומר, 3 האשכולות הנותרים הם חיוביים כוזבים). עם זאת, עבור הפרוטאום היציב יחסית, הגדלת גודל הקלט עם חלבונים שאינם DE מפחיתה באופן דרמטי את הדיוק (טבלה 1). לדוגמה, באמצעות הפרוטאום כולו כקלט, מזוהים 169 מודולים, מתוכם רק 2 נכונים (1.2% דיוק; 98.8% הנותרים שזוהו מודולים הם תוצאות חיוביות שגויות). תוצאות אלה מצביעות אפוא על כך שבחירת הפרוטאום שהשתנה רק כקלט תגביר את הדיוק של ניתוח ביטוי משותף, במיוחד עבור פרוטאום יציב יחסית.

לאחר זיהוי של צבירי חלבונים בעלי ביטוי משותף, כל אשכול יעבור ביאורים על-ידי JUMPn באמצעות ניתוח העשרת המסלולים (איור 1). הגרסה הנוכחית כוללת ארבעה מסדי נתונים נפוצים של מסלולים, כולל Gene Ontology (GO), KEGG, Hallmark ו-Reactome. משתמשים יכולים גם להרכיב מסד נתונים משלהם בפורמט GMT⁵⁴, אותו ניתן להעלות ל- JUMPn. שילוב מסדי נתונים מרובים לניתוח העשרת מסלולים עשוי לספק תצוגות מקיפות יותר; עם זאת, הגדלים של מסדי נתונים של מסלולים שונים משתנים באופן משמעותי, מה שעלול לגרום להטיה לא רצויה למסדי נתונים מסוימים (במיוחד גדולים). שני פתרונות מסופקים בתוך JUMPn. ראשית, באמצעות גישה סטטיסטית, ערכי p נומינליים מותאמים (או נענשים) לצורך בדיקת השערות מרובות בשיטת בנג'יני-הוכברג⁵⁸, כאשר מסד נתונים גדול יותר דורש ערך p נומינלי משמעותי יותר כדי להגיע לאותה רמת p מותאמת מזו של מסד נתונים קטן. שנית, JUMPn מדגיש את המסלול המועשר ביותר באופן משמעותי עבור כל מסד נתונים בנפרד, ולכן מסלולים מועשרים עליונים ספציפיים למסד נתונים מוצגים תמיד.

בדומה לניתוח העשרת מסלולים, רשת PPI מרוכבת נערכה על ידי שילוב של מסדי נתונים STRING^59,60, BioPlex^61,62 ו-InWeb_IM⁶³. מסד הנתונים של BioPlex נוצר באמצעות טיהור זיקה ואחריו ספקטרומטריית מסות בקווי תאים אנושיים, בעוד ש- STRING ו- InWeb מכילים מידע ממקורות שונים. לכן מסדי הנתונים של STRING ו- InWeb סוננו עוד יותר על ידי ציון הקצה כדי להבטיח איכות גבוהה, כאשר הניתוק נקבע על ידי התאמה מיטבית של הקריטריונים ללא קנה מידה²⁴. רשת PPI הממוזגת הסופית מכסה יותר מ-20,000 גנים אנושיים עם כ-1,100,000 קצוות (טבלה 2). אינטראקציה מקיפה זו כלולה ומתפרסמת בחבילה עם תוכנת JUMPn שלנו לניתוח PPI רגיש.

לאחר סיום הניתוח, JUMPn יוצר את קובץ הגיליון האלקטרוני של טבלת הפרסום ComprehensiveSummaryTables.xlsx, המורכב משלושה גיליונות בודדים. הגיליון הראשון מכיל תוצאות של אשכולות חלבונים בביטוי משותף עם חלבון אחד בכל שורה: העמודה הראשונה מציינת את חברות האשכול של כל חלבון קלט, והעמודות הנותרות מועתקות מקובץ קלט המשתמש, המכיל את הצטרפות החלבון, שמות הגנים, תיאור החלבון וכימות הדגימות הבודדות. הגיליון השני מכיל תוצאות של ניתוח העשרת מסלולים, המציג מסלולים משמעותיים מועשרים בכל אשכול ביטוי משותף. טבלה זו מאורגנת תחילה על ידי מסדי נתונים שונים של מסלולים, ולאחר מכן ממוינת לפי אשכולות ביטוי משותף, מסלולים פונקציונליים, המספר הכולל של גני המסלול, המספר הכולל של הגנים באשכול הבודד, מספרי ושמות הגנים החופפים, קיפול העשרה, ערכי P נגזרים מדויקים של פישר ושיעור גילוי שווא של בנג'מיני-הוכברג. הגיליון השלישי מכיל תוצאות של ניתוח מודול PPI עם מודול PPI אחד לכל שורה; העמודות שלו כוללות את שם המודול (המוגדר על ידי חברות הביטוי המשותף שלו ומזהה המודול, לדוגמה, Cluster1_Module1), החלבונים והמספרים הממופים, כמו גם מסלולים פונקציונליים המוגדרים על ידי חיפוש בחלבוני המודול כנגד מסדי הנתונים של המסלולים.

איור 1: זרימת עבודה של JUMPn. מטריצת הכימות של המשתנה העליון של חלבונים בעלי ביטוי דיפרנציאלי (DE) נלקחת כקלט, והחלבונים מקובצים לאשכולות ביטוי משותף על ידי אלגוריתם WGCNA. לאחר מכן, כל ביטוי משותף מבואר על-ידי ניתוח העשרת מסלולים, ומועבר לרשת האינטראקציה בין חלבונים לחלבון (PPI) לצורך זיהוי מודולי חלבונים המחוברים בצפיפות. אנא לחץ כאן כדי להציג גרסה גדולה יותר של נתון זה.

איור 2: דף הפתיחה של JUMPn. אנא לחץ כאן כדי להציג גרסה גדולה יותר של נתון זה.

איור 3: דף קלט של JUMPn. הדף כולל את חלונית העלאת קובץ הקלט ואת לוחות קביעת התצורה של הפרמטרים עבור אשכולות ביטויים משותפים וניתוח רשת PPI, בהתאמה. אנא לחץ כאן כדי להציג גרסה גדולה יותר של נתון זה.

איור 4: קובץ קלט לדוגמה של מטריצת כימות. העמודות כוללות הצטרפות חלבונים (או כל תעודת זהות ייחודית), GN (סמלי גנים רשמיים), תיאור חלבונים (או כל מידע שסופק על-ידי המשתמש), ולאחר מכן כימות חלבונים של דגימות בודדות. אנא לחץ כאן כדי להציג גרסה גדולה יותר של נתון זה.

איור 5: תוצאות אשכול ביטויים משותפים המדווחות על-ידי JUMPn. מוצגות תבניות האשכולות של הביטוי המשותף (A), מפת החום של המסלול המועשר העליון על פני אשכולות (B) ושפע החלבון המפורט עבור כל צביר (C). משתמשים יכולים לבחור אפשרויות תצוגה שונות ולנווט בין אשכולות שונים באמצעות תיבת הבחירה. אנא לחץ כאן כדי להציג גרסה גדולה יותר של נתון זה.

איור 6: תוצאות ניתוח רשת PPI שדווחו על-ידי JUMPn. הרשת הבין-מודולית הגלובלית מוצגת (A), ואחריה רשת משנה של מודולים בודדים (B) והמסלולים המועשרים באופן משמעותי שלה (C). משתמשים יכולים לבחור אפשרויות תצוגה שונות ולנווט בין אשכולות ומודולים שונים באמצעות תיבת הבחירה. אנא לחץ כאן כדי להציג גרסה גדולה יותר של נתון זה.

% חלבונים מובילים לניתוח	# מודולים מדומים	# מודולים שזוהו	# מודולים שנכבשו מחדש¹	דיוק²	^{נזכרים 3}
פרוטאום דינמי ביותר (למשל, במהלך הפעלת תאי T): 6 מודולים מדומים מ-50% פרוטאום
2	6	2	2	1	0.33
5	6	2	2	1	0.33
10	6	3	3	1	0.5
20	6	4	4	1	0.67
50	6	6	6	1	1
100	6	8	5	0.63	0.83
פרוטאום יציב יחסית (למשל, במהלך פתוגנזה של AD): 3 מודולים מדומים מ-2% פרוטאום
1	3	1	1	1	0.33
2	3	3	3	1	1
5	3	8	3	0.38	1
10	3	13	3	0.23	1
20	3	19	3	0.16	1
50	3	71	2	0.03	0.67
100	3	169	2	0.01	0.67
¹ מודול שנכבש מחדש הוא מודול שזוהה שה-eigengene שלו מתואם מאוד (Pearson R > 0.95) עם אחד ה-eigenes המדומים.
²דיוק = # מודולים שנכבשו מחדש / # מודולים שזוהו
³recall = # מודולים שנכבשו מחדש / # מודולים מדומים

טבלה 1: מחקרי סימולציה של זיהוי אשכולות ביטויים משותפים.

רשתות PPI	לא. של צמתים	לא. של קצוות
BioPlex 3.0 משולב (293T+HCT116)	14,551	1,67,399
InBio_Map_core_2016_09_12	17,429	6,08,166
מחרוזת (v11.0)	18,954	5,87,482
רשת PPI מורכבת	20,485	11,52,607

טבלה 2: סטטיסטיקה של רשתות אינטראקציה בין חלבון לחלבון (PPI) אנושיות. רשתות PPI מסוננות לפי ניקוד קצה כדי להבטיח איכות גבוהה, כאשר ניתוק הניקוד נקבע על ידי התאמה מיטבית של הקריטריונים ללא קנה מידה.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

כאן הצגנו את תוכנת JUMPn שלנו ואת הפרוטוקול שלה, אשר יושמו בפרויקטים מרובים לניתוח מנגנונים מולקולריים באמצעות נתוני פרוטאומיקה כמותית עמוקה 25,26,27,30,64. התוכנה והפרוטוקול של JUMPn עברו אופטימיזציה מלאה, כולל התחשבות בחלבוני DE לניתוח רשת ביטוי משותף, אוסף של רשת PPI מקיפה ואיכותית, ניתוח סטטיסטי מחמיר (למשל, על ידי התחשבות בבדיקות השערות מרובות) עם ממשק יעיל וידידותי למשתמש. מודולי חלבונים מרובים שזוהו על ידי JUMPn אומתו על ידי ניסויים פונקציונליים^25,27 או קבוצות מטופלים עצמאיות²⁶, המדגימים את JUMPn ככלי יעיל לזיהוי מולקולות מפתח ומסלולים העומדים בבסיס תהליכים ביולוגיים מגוונים.

שלבים קריטיים של פרוטוקול זה כוללים יצירת תוצאות אופטימליות של אשכולות ביטוי משותף ומודולי PPI, אשר עשויים לדרוש איטרציות מרובות של כוונון פרמטרים, כמו גם העלאה של רשת PPI מותאמת אישית. בפרוטוקול שלנו דנו בתרחישים מעשיים נפוצים, כולל כיצד להתמודד עם חסרים של אשכולות חשובים, אחוז גבוה של חלבונים שלא הוקצו, מיזוג של שני אשכולות יתירים וחסרים של חלבונים חשובים בתוך מודולי PPI. אנו ממליצים למשתמש להכין מספר חלבוני בקרה חיוביים ולאשר את נוכחותם באשכולות הביטוי המשותף הסופיים. לפעמים פקד חיובי לעולם לא ייכלל במודולי ה- PPI הסופיים עקב מסד נתונים לא שלם של רשת PPI. כדי להקל על כך באופן חלקי, עדכנו את רשת ה- PPI שלנו עם הגרסאות העדכניות ביותר של BioPlex V3⁶² ו- STRING V11⁶⁰. בנוסף, JUMPn מאפשר למשתמשים להעלות רשתות PPI מותאמות אישית. לדוגמה, אינטראקציות חדשניות הנגזרות מניסויים בספקטרומטריית טיהור מסות זיקה (AP-MS) תוך שימוש בחלבון בקרה חיובי חשוב כפיתיון עשויות להיות משולבות עם רשת ה-PPI המורכבת הנוכחית לניתוח מותאם אישית יותר.

על ידי שימוש במסגרת ניתוח העשרת המסלולים עבור כל צביר חלבונים בביטוי משותף, ניתן להרחיב את JUMPn להסקת פעילות גורם שעתוק (TF). ההנחה היא שאם קיים ייצוג יתר של גני מטרה של TF מסוים באשכול ביטויים משותפים (כלומר, מטרות אלה מבוטאות באופן דיפרנציאלי ופועלות על פי אותה תבנית ביטוי), הפעילות של אותו TF עשויה להשתנות על פני תנאי ניסוי מכיוון ששפע חלבון המטרה שלו משתנה באופן עקבי. מבחינה טכנית, ניתן להשיג זאת פשוט באמצעות JUMPn על ידי החלפת מסד הנתונים הנוכחי של המסלול במסד הנתונים של יעד TF (לדוגמה, מפרויקט ENCODE⁶⁵). באופן דומה, ניתן להסיק את פעילות קינאז גם על ידי מינוף מסד הנתונים של קינאז-סובסטרט, תוך לקיחת פוספופרוטאומיקה עמוקה כקלט. כדוגמה, זיהינו בהצלחה TFs וקינאזות שאינם מווסתים בבסיס פתוגנזה של גידולי מוח⁶⁴. ואכן, השימוש בגישת הרשת להסקת פעילות התגלה כגישה רבת עוצמה לזיהוי מניעים לא מווסתים למחלות אנושיות ^66,67.

תוכנת JUMPn מוחלת בקלות על מגוון רחב של סוגי נתונים. אף על פי שהתיוג האיזוברי של פרוטאום מכמת שימש כדוגמה להמחשה, אותו פרוטוקול ישים גם עבור נתוני פרוטאומיקה מכמתים ללא תווית, כמו גם עבור פרופילי ביטוי כלל-גנומיים (למשל, כימות על-ידי RNA-seq או microarray; ראו את הדוגמה האחרונה שלנו ליישום JUMPn הן עבור פרופילי ביטוי גנים והן עבור פרופילי ביטוי חלבונים²⁷). נתוני פוספופרוטאומיקה יכולים להילקח גם על ידי JUMPn כדי לזהות פוספוסיטים בעלי ביטוי משותף, ולאחר מכן הסקה של פעילות קינאז²⁵. בנוסף, נתוני אינטראקציה הנוצרים על ידי גישת AP-MS יהיו מתאימים גם הם, שבאמצעותם חלבוני טרף העוקבים אחר חוזק אינטראקציית פיתיון דומה וסטויכיומטריה ייצרו אשכולות ביטוי משותף וחופפים עוד יותר עם PPIs ידועים לפענוח נתונים⁶⁸.

קיימות מגבלות עבור הגירסה הנוכחית של JUMPn. ראשית, הליך ההתקנה מבוסס שורת פקודה ודורש ידע בסיסי במדעי המחשב. זה מעכב שימוש רחב יותר ב-JUMPn, במיוחד מצד ביולוגים ללא רקע חישובי. יישום אידיאלי יותר הוא לפרסם את JUMPn בשרת מקוון. שנית, מאגרי המידע הנוכחיים הם ממוקדי אדם בגלל ההתמקדות שלנו במחקרי מחלות אנושיות. שים לב שנתוני פרוטאומיקה שנוצרו על ידי עכברים נותחו גם על ידי JUMPn באמצעות מסדי נתונים ממוקדי אדם^{כאלה 25,27}, בהנחה שרוב ה-PPIs נשמרים בשני המינים^69,70. איתות ספציפי לעכבר לא ייתפס על ידי גישה זו, אך הוא אינו מעניין אותם מחקרים אנושיים. עם זאת, עבור מערכות מודל שאינן של יונקים (למשל, דגי זברה, זבוב או שמרים), יש להכין ולהעלות מאגרי מידע ספציפיים למין JUMPn באמצעות האפשרויות המתקדמות. משאבים של מינים נוספים עשויים להיות מסופקים באמצעות שחרור עתידי של JUMPn. שלישית, השלב הנוכחי של ניתוח אונטולוגיה/מסלולים לוקח זמן משמעותי, שניתן לייעל אותו עוד יותר על ידי מחשוב מקבילי.

לסיכום, אנו מציגים את התוכנה והפרוטוקול של JUMPn לחקר נתוני פרוטאומיקה כמותית כדי לזהות ולדמיין מודולי חלבונים המתבטאים באופן משותף ובעלי פוטנציאל לאינטראקציה פיזית על ידי גישת הביולוגיה של המערכת. התכונות העיקריות המבדילות את JUMPn מאחרות 53,71,72 כוללות: (i) JUMPn משלב ומייעל ארבעה מרכיבים עיקריים של המסלול וניתוח הרשת (איור 1); (ii) בשונה מרוב תוכנות ניתוח המסלולים שלוקחות רשימת גנים פשוטה כקלט, JUMPn מתחילה ממטריצת כימות, שבאמצעותה ניתן לשלב מידע כמותי בצורה חלקה עם מסלולים ורשתות מתועדים בספרות; (iii) הן אשכולות חלבונים של ביטוי משותף והן מודולי אינטראקציה מבוארים באופן אוטומטי על ידי מסלולים ידועים, ומודמיינים באמצעות פלטפורמת האינטראקציה R/מבריקה באמצעות דפדפן אינטרנט ידידותי למשתמש; (iv) התוצאות הסופיות מאורגנות בשלוש טבלאות הניתנות לפרסום בקלות בתבנית Excel. לפיכך, אנו מצפים שה-JUMPn ופרוטוקול זה יהיו ישימים באופן נרחב למחקרים רבים לניתוח מנגנונים באמצעות נתוני פרוטאומיקה כמותית.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

למחברים אין מה לחשוף.

Acknowledgments

התמיכה במימון ניתנה על ידי המכונים הלאומיים לבריאות (NIH) (R01AG047928, R01AG053987, RF1AG064909, RF1AG068581 ו-U54NS110435) ו-ALSAC (ארגוני צדקה סוריים לבנוניים אמריקאים). ניתוח הטרשת הנפוצה בוצע במרכז הפרוטאומיקה והמטבולומיקה של בית החולים למחקר לילדים סנט ג'וד, שנתמך בחלקו על ידי מענק תמיכה במרכז הסרטן של NIH (P30CA021765). התוכן הוא באחריותם הבלעדית של המחברים ואינו מייצג בהכרח את הדעות הרשמיות של המכונים הלאומיים לבריאות.

Materials

Name	Company	Catalog Number	Comments
MacBook Pro with a 2.3 GHz Quad-Core Processor running OS 10.15.7.	Apple Inc.	MacBook Pro 13''	Hardware used for software development and testing
Anoconda	Anaconda, Inc.	version 4.9.2	https://docs.anaconda.com/anaconda/install/
miniconda	Anaconda, Inc.	version 4.9.2	https://docs.conda.io/en/latest/miniconda.html
RStudio	RStudio Public-benefit corporation	version 4.0.3	https://www.rstudio.com/products/rstudio/download/
Shiny Server	RStudio Public-benefit corporation		https://shiny.rstudio.com/articles/shinyapps.html