Summary

ניתוחים פרוטאומיקס מבוססי ספקטרומטר מסה משימוש במסד הנתונים OpenProt לחשוף את הרומן חלבונים מתורגם ממסגרות קאנונית קריאה פתוחה

Published: April 11, 2019
doi:

Summary

OpenProt הוא מסד נתונים ונגיש באופן חופשי אוכף דגם polycistronic של הגנום האיקריוטים. כאן, אנו מציגים פרוטוקול לשימוש של מסדי נתונים OpenProt כשחוקרים datasets ספקטרומטר מסה. שימוש OpenProt מסד נתונים לניתוח של ניסויים פרוטיאומיה מבנית מאפשרת גילוי של הרומן וחלבונים בעבר לגילוי.

Abstract

ביאור הגנום הוא מרכזי מחקר פרוטיאומיה מבנית של היום כמו זה מצייר את קווי המתאר של הנוף פרוטיאומיה מבנית. מודלים מסורתיים של פתח קריאה מסגרת (ORF) ביאור לכפות קריטריונים שרירותיים שני: אורך מינימלי של 100 codons, של ORF יחיד לפי התעתיק. עם זאת, מספר גדל והולך של מחקרים מדווחים ביטוי של חלבונים מן לכאורה ללא קידוד אזורים, מאתגר את הדיוק של ביאורים הגנום הנוכחי. אלה הרומן חלבונים נמצאו מקודדים או בתוך ללא קידוד RNAs, 5 או 3′ לא מתורגם מחוזות (UTRs) mRNAs, או חופפים רצף קידוד ידוע (תקליטורים) בחלופה ORF. OpenProt הוא הראשון מסד הנתונים אוכף למודל polycistronic האיקריוטים הגנום, ומאפשר ביאור של ORFs מרובים עבור כל פרוטוקול. OpenProt נגישה בחופשיות, ומציע הורדות המותאם אישית של רצפי חלבונים על פני 10 מינים. שימוש OpenProt מסד נתונים לניסויים פרוטיאומיה מבנית מאפשר גילוי הרומן חלבונים ושל מדגיש את האופי polycistronic של גנים האיקריוטים. גודל מסד OpenProt (כל חזה חלבונים) הוא משמעותי, צריך להילקח בחשבון לניתוח. עם זאת, עם גילוי שקר המתאים (פד) בהגדרות או השימוש של מסד נתונים OpenProt מוגבלת, משתמשים ירוויח תצוגה ריאליסטית יותר של הנוף פרוטיאומיה מבנית. בסך הכל, OpenProt הוא כלי זמין באופן חופשי כי תשקוד תגליות פרוטיאומיה מבנית.

Introduction

במהלך העשורים האחרונים, הפך פרוטאומיקס ספקטרומטר מסה (נולד ב- MS) המבוסס על הטכניקה הזהב לפענח proteomes של התאים האיקריוטים1,2,3,4,5. שיטה זו מתבססת על ביאורי הגנום הנוכחי כדי ליצור הפניה חלבון רצף מסד נתונים אשר מתווה את טווח האפשרויות-6,7,8. עם זאת, ביאורים הגנום החזק קריטריונים שרירותיים על ביאור ORF, כגון אורך מינימלי של 100 codons, של ORF יחיד לפי התעתיק9,10. מספר גדל והולך של מחקרים אתגר המודל הנוכחי ביאור ולדווח על גילויים של unannotated ORFs תפקודי הגנום האיקריוטים8,11,12,13, 14. אלו חלבונים הרומן מצויים לקודד לכאורה אי קידוד RNAs, 5 או 3′ ללא תרגום אזורים (UTR) של mRNAs, או חופפים את רצף קידוד קאנוני (cCDS) במסגרת חלופית. אמנם רוב התגליות האלה כבר התגלה באקראי, הם מדגימים את האזהרות של ביאורים הגנום הנוכחי ואת אופי polycistronic של גנים האיקריוטים8.

כאן, אנחנו מדגישים את השימוש OpenProt מסדי נתונים מבוססי MS פרוטאומיקס. OpenProt הוא מסד הנתונים הראשון לקיים מודל ביאור polycistronic transcriptomes האיקריוטים. זה זמין באופן חופשי בגיל www.openprot.org15. שיעור של אלה חזה ש-orfs יהיה אקראי ולא שאינם פונקציונליים, וזו הסיבה OpenProt cumulates ראיות ניסיוני ופונקציונליים כדי להגדיל את הביטחון העצמי. ראיות כוללים ביטוי חלבון (על-ידי MS) תרגום ראיות (על-ידי יצירת פרופיל ריבוזום)15. ראיה פונקציונלי כוללים הומולוגיה חלבון (עם בפרנואידית כמו גישה), תחום פונקציונלי חיזוי15.

OpenProt מציעה את האפשרות להוריד מספר מסדי נתונים, המכיל רק הנתמכים היטב חלבונים למסדי נתונים בהזמנה אישית. כאן, נציג צינור לשימוש של מסדי נתונים OpenProt, יציע תובנות מאיזה מסד נתונים כדי לבחור בהתחשב המטרה ניסיוני. הצינור ניתוח פרוטאומיקס, המובאת כאן נתמך על ידי המסגרת גלקסי גישה פתוחה, קל לשימוש, אבל מאגרי המידע יכול לעבוד עם כל זרימת עבודה16,17,18. גם נציג כיצד להשתמש באתר האינטרנט של OpenProt עבור איסוף מידע נוסף על הרומן חלבונים זוהה על ידי גב’ שימוש OpenProt מסדי נתונים מספקת תצוגה מקיפה יותר של הנוף פרוטיאומיה מבנית, תשקוד מהתגליות פרוטאומיקס, סמנים ביולוגיים דרך שיטתית יותר מאשר שיטות הנוכחי.

פרוטוקול זה מדגיש את השימוש OpenProt מסדי נתונים15 כשחוקרים MS datasets; זה לא יבדוק את העיצוב של הניסוי עצמו, אשר כבר ביסודיות שנסקרו במקום20,21,22. במאמץ להישאר פתוח לחלוטין, הפרוטוקול הוא זמין באופן חופשי (S1 חומר משליםS4). לקריאה קלה יותר, כל המונחים OpenProt וברחבי בזאת פרוטוקול זה מוגדרים בטבלה1.

Protocol

1. OpenProt מסד נתונים להורדה הערה: מסדי נתונים מותאמים אישית המבוססים על נתוני ה-RNA-seq לדוגמה ניתן להשיג, ההליך מפורט בסעיף השני של פרוטוקול זה. אם יש צורך במסד נתונים מותאמים אישית, אנא דלג לסעיף הבא. עבור אל אתר האינטרנט של OpenProt: www.openprot.org, פתח דף הורדות באמצעות הקישור ‘ מתפריט ‘ העמוד העליון. לחץ על המינים של עניין בהתבסס על הנתונים ניסיוני. לחץ על סוג החלבון הרצוי.הערה: OpenProt מציע שלושה סיווגים: RefProt, איזופורמים ו- AltProt. כפי שמוצג באיור1, פרמטר זה ישתנו בהתבסס על המטרה מחקר. לחץ על RefProt לבד כדי ליצור קבצים המכילים רק ידוע חלבונים. לחץ על AltProt ועל איזופורמים ליצירת קבצים המכילים רק הרומן חלבונים – גם איזופורמים הרומן של חלבונים הידועים (איזופורמים) או מקודד על ידי חלופה ORF (AltProts). אנא שימו לב כי OpenProt כופה אורך ORF מינימלי של15-30 codons. לחץ על AltProts, איזופורמים ו- RefProts כדי ליצור קבצים המכילים את כל סוגי חלבון קיים במסד הנתונים OpenProt – חלבונים הרומן וידוע. אם הוא זמין, לחץ על הביאור של חלבון אשר נמשכים רצפים.הערה: OpenProt מציע נוף פרוטיאומיה מבנית יותר ממצה על-ידי שילוב מספר ביאורים. ביאורים Transcriptome יש חפיפה מינימלי; לפיכך, הביאור הנבחר יכול להשפיע באופן משמעותי פרוטיאומיה מבנית מטמיעים פרופיל15,23. לחץ על רמת תמיכה הראיות הדרושות שיקול חלבון. כפי שמוצג באיור1, פרמטר זה ישתנו בהתבסס על המטרה מחקר. לחץ על מינימום של שני פפטידים ייחודי שאותרו כדי ליצור קבצים המכילים רק את החלבונים הכי בטוחה.הערה: קריטריון של שני פפטידים ייחודי הוא נחשב כיום תקן הזהב ב פרוטאומיקס ביטוי חלבון. אם המטרה ניסיוני היא לזהות את החלבונים היטב נתמכת וידוע, מומלץ השימוש בפרמטר זה. לחץ על מינימום של פפטידים ייחודי אחד זוהה ליצירת קבצים המכילים חלבונים כבר נצפו לפחות פעם אחת בין הניסויים ספקטרומטר מסה מחדש נותחו על ידי OpenProt.הערה: זה מאפשר התחשבות באורך קצר יותר של AltProts, ההסתברות כי חלק מהם עשויים להכיל אחד בלבד ייחודי פפטיד tryptic8,11. לחץ על כל חזה כדי ליצור קבצי המכילות את כל OpenProt תחזיות.הערה: הגדרה זו מומלצת רק אם המטרה ניסיוני הוא לגלות הרומן חלבונים (איור 1). הגדלת ניכר עוקבות שיחות מרחב החיפוש עבור צינור ניתוח מותאם כפי שמתואר להלן7,15. לחץ על תבנית הקובץ הרצויה כדי להוריד. עבור ניתוחים פרוטיאומיה מבנית, לבחור את הקובץ Fasta (חלבון). בקובץ ה-readme מכיל את כל המידע הנחוץ על תבנית הקובץ. 2. מותאם אישית OpenProt מסד נתונים להורדה הערה: סעיף זה מפרט כיצד להשיג מסד נתונים מותאמים אישית. אם אין נתונים מותאם אישית נדרשת, דלג לסעיף הבא. עבור אל אתר OpenProt (www.openprot.org) ופתח את דף החיפוש באמצעות הקישור ‘ מתפריט ‘ העמוד העליון. לחץ על המינים של עניין בהתבסס על נתונים ניסיוני מנותח. הזן רשימה של הגנים או של תעתיקים של ריבית. בעת שימוש רשימה של גנים, הזן אותו בתיבה שאילתה ג’ין . בעת שימוש רשימה של הפרוטוקולים, הזן אותו בתיבה השאילתה התעתיק . לתקתק כל קופסה חל על מסד הנתונים הרצוי. אל תלחץ על כל קופסה לקבל טבלה המכילה את כל סוגי חלבון נתמך על ידי OpenProt: RefProt, איזופורמים ו- AltProts. לחץ על הצג רק חלבונים עם ראיות כדי לקבל טבלה המכילה את כל סוגי חלבונים (RefProts, איזופורמים ו- AltProts) אשר זוהו לפחות פעם אחת על-ידי MS ו/או לתרגום אילו ראיות שנאספו מריבוזום נתוני פרופיל. באופן דומה, לחץ על הצג רק חלבונים זוהה על ידי MS או על הצג רק חלבונים שזוהה על-ידי יצירת פרופיל ריבוזום לקבל טבלה המכילה את כל סוגי חלבונים אשר זוהו לפחות פעם אחת על-ידי MS או ריבוזום פרופילים בהתאמה. לחץ על הצג רק AltProts או על הצג רק איזופורמים לקבל טבלה המכילה רק AltProts או רק איזופורמים בהתאמה. לחץ על הצג רק AltProts והן להראות רק איזופורמים לקבל טבלה המכילה שני סוגים של חלבונים.הערה: כל השילובים של מסננים אפשריות. לאחר הגדרת כל הפרמטרים הרצויים, לחץ על חיפוש. טבלת הפלט יופיע מתחת בשדות שאילתת החיפוש. לחץ על לחצן הורד Fasta בפינה הימנית העליונה של טבלת הפלט. פעולה זו תיצור קובץ Fasta המכיל כל החלבונים הנובע המאוחזרים רשימת גנים או התמלילים. הינכם מתבקשים לשים לב כי מסיבות חישובית, OpenProt מחזיק לכל היותר 2,000 האלמנטים שאילתה (גנים או תעתיקים) בכל פעם. במקרה של רשימה מעל ממגבלה זו, מספר fasta ניתן שנוצר, ואז משורשר (כמפורט להלן); או פשוט להוריד את מסד הנתונים כולו OpenProt, לסנן את הקובץ שהושג בהתאם לרצונך. Bin רשימה שלמה של גנים או תעתיקים לתוך רשימות של ערכים 2,000 או פחות. עבור כל אחת מהרשימות משנה, הורדת קובץ Fasta כמתואר לעיל (שלב 3.3 ל 3.6). . היכנס המופע גלקסי האירופית (או כל מקרה אחר בו פרוטאומיקס כלים זמינים), https://usegalaxy.eu/. ליצור היסטוריה חדשה, לייבא את כל מסדי הנתונים OpenProt שהורדת (אחת בכל רשימת המשנה של גנים או תעתיקים) על ידי לחיצה על הסמל העלה בחלק העליון השמאלי של המסך. השתמש בכלי Fasta למזג קבצים ורצפים מסנן ייחודי שפותח על ידי המפתחים של GalaxyP (https://github.com/galaxyproteomics/). בחר את האפשרות למזג כל Fasta , קלט את כל מסדי הנתונים המיובאים של OpenProt.הערה: כל כלי ניתן לחפש על-ידי שימוש בתיבת שאילתה בצד שמאל של המסך בחר באפשרות ההצטרפות רק כדי להעריך את רצף unicity, העתק את הכלל של ניתוח מבנה המזהה OpenProt (>(.*) \ |), ולאחר מכן לחץ על ביצוע. הערה כל הקבצים יש כבר שרשור לתוך קובץ Fasta ייחודי עם תחליף המוצגת כעת בחלונית ‘ היסטוריה ‘ בצד ימין של המסך. זה מהווה את הנתונים. 3. מאגר טיפול הערה: מעכשיו, פלטפורמת גלקסי ישמש, אך ניתן להחיל אותם עקרונות לתוכנות אחרות פרוטיאומיה מבנית. . היכנס המופע גלקסי האירופית (או כל מקרה אחר בו פרוטאומיקס כלים זמינים), https://usegalaxy.eu/. ליצור היסטוריה חדשה, לייבא את מסד הנתונים OpenProt שהורד על-ידי לחיצה על הלוגו להעלות בחלק העליון השמאלי של המסך. עבור אל הדף זרימת ויבא שזרימת מסד הנתונים טיפול (S1 חומר משלים) על ידי לחיצה על הסמל העלה בחלק העליון השמאלי של הלוח האמצעי. לחץ על להפעיל את זרימת העבודה , בחר את מסד הנתונים המיובאים OpenProt כקלט.הערה: זרימת עבודה זו לצרף את מאגר CRAPome fasta OpenProt וצור דמה רצפים (רצפים הפוכה)24. אם רשימה דמה דשדוש רצוי, זה יכול להיעשות על-ידי שינוי הפרמטר על הכלי DecoyDatabase. שנה את שם הקובץ Fasta שהושג למשהו משמעותי. מסד הנתונים הוא מוכן לשמש פרוטאומיקס ניתוחים. 4. הכנת קובץ ספקטרומטר מסה הערה: רוב הכלים פרוטאומיקס הזמינים על גלקסי מופעים להשתמש בתבנית mzML, ומעדיפים פפטיד מנועי חיפוש נתונים במצב centroid. פתח את הכלי MSConvert זמינה בחופשיות מן הסוויטה ProteoWizard והעלו קובץ הנתונים להיות שנותחה25. בחר את ספריית הפלט, תבנית הקובץ הרצויה כדי mzML. הגדר לשיא בחירת מסנן באמצעות האלגוריתם דיסקרטית מבוסס (CWT) על MS1 ורמות MS2, ולהתחיל המרה26. 5. פפטיד וחלבון זיהוי/כמת הערה: חלק זה של הצינור משתמשת בכלים של הסוויטה OpenMS, תכליתי ומסגרת נוחה לשימוש18. . היכנס המופע גלקסי האירופית (או כל מקרה אחר בו פרוטאומיקס כלים זמינים), https://usegalaxy.eu/. ליצור היסטוריה חדשה, להעביר את מסד הנתונים שנוצרה בעבר (שלב 3.5) היסטוריה חדשה זו עם גרירה-ושחרור. ייבא את קובץ הנתונים של טרנספורמציה mzML (שלב 4.3) על-ידי לחיצה על הלוגו להעלות בחלק העליון השמאלי של המסך. עבור אל הדף זרימת ויבא שזרימת העבודה הרצויה על-ידי לחיצה על הלוגו להעלות בחלק העליון השמאלי של הלוח האמצעי.הערה: MS ניסויים באופן שונה מעוצבים בהתבסס על הפלט הסופי הרצוי. זרימות עבודה מובאים כאן עבור שני עיצובים בתדירות גבוהה: חלבון וכימות חלבון מבוסס על איזוטופ יציב תיוג (סיל). עם זאת, המופע גלקסי מכיל כלים רבים אחרים אשר יתמוך סוגים אחרים של פרוטיאומיה מבנית ניתוחים27,28. עבור עיצוב זיהוי חלבונים, לייבא את זרימת העבודה הניתנים S2 חומר משלים. בעת שימוש זרימת עבודה זו, אנא אל תשתמש zlip דחיסה בעת המרת הקבצים שלך (שלב 4.2) על כימות חלבון מבוסס על עיצוב תיוג איזוטופ יציב, לייבא את זרימת העבודה הניתנים S3 חומר משלים. בחר להפעיל את זרימת העבודה וסקור את הפרמטרים השונים. בחר קובץ הנתונים המיובאים mzML קלט ולאחר שנוצר בעבר מסד הנתונים (שלב 3.5) קובץ Fasta מסד הנתונים. כיוון זרימת העבודה משתמשת ה-X! חיפוש טנדם מנוע, לייבא את ה-X! טנדם ברירת המחדל של תצורת קובץ (הניתנים S4 חומר משלים)29 על ידי לחיצה על הסמל העלה בחלק העליון השמאלי של המסך. זרימת העבודה משתמשת במנועי חיפוש מרובים (MS-GF + ו- X! טנדם). צרף במנועי-חיפוש אחרים, או לבחור אחד פשוט על-ידי הוספה או הסרה של הכלים של זרימת העבודה30,31.הערה: באמצעות מנועי חיפוש מרובות מומלצת שכן היא מגבירה את רגישות ורגישות של ניתוח32. על מנת להסביר גידול משמעותי בגודל בעת שימוש במסד הנתונים כולו OpenProt, השתמש רוזוולט מחמירים15. כברירת מחדל, זרימת העבודה שסופקה מוגדר של 0.001%, רוזוולט, הולם עבור השימוש במסד הנתונים כולו OpenProt. עבור מסדי נתונים אחרים, זה ניתן לערוך כלשהו לערך הרצוי.הערה: הקפד להתאים את הפרמטרים של הכלים השונים בהתאם ספקטרומטר מסה בשימוש ואת פרוטוקול נסיוני (קודמן יון פרגמנט שגיאה, קבוע, שינויים משתנה, אנזים בשימוש, וכו ‘.). באופן אופציונלי, להוריד פלט עבור כל שלב של זרימת העבודה עבור אחסון או ניתוח בקרת איכות על ידי לחיצה על השלב שבחרת בחלונית ‘ היסטוריה ‘ ולאחר מכן לחיצה על הלוגו להציל שיופיע מתחת. 6. בקרת איכות הערה: מכיוון פרוטאומיקס מבוססי MS הוא התוצאה של תהליך מורכב שבו כל שלב צריך להיות מותאם כדי להפיק תוצאות לשחזור, בקרת איכות היא הליך הכרחי ב ה33של זרימת העבודה. במספר מדדים הם בחינת ביצועים משותפים של ביצועים, כגון מספר התאמות ספקטרום פפטיד (PSM), מספר מזוהה פפטידים וחלבונים. הפעל את הכלי קובץ מידע על הפלט IDFilter (מסומן בירוק באיור2) לספק מדדים כגון. אמנם לא החלים על כל תעודה מזהה, במיוחד עם אלגוריתמית, דוחות של חלבונים הרומן צריך תמיד להיות לתוצאה המוגמרת. בדיקה של התוצאה חלבון, כיסוי רצף ספקטרום תמיכה הממצא היא בעלת חשיבות חיונית. השתמש בכלי TOPPview מן המסגרת OpenMS לעשות את זה; הוא זמין באופן חופשי, מתועדות היטב18,34,35. 7. OpenProt מסד נתונים הכרייה הערה: לאחר ביצוע מזהה בטוחים של חלבון הרומן שמנבאת OpenProt (ההצטרפות מספרים החל IP_ עבור AltProts ו- II_ עבור הרומן איזופורמים), מידע ביולוגי נוסף יכול להיות שנאספו של אתר האינטרנט OpenProt15. עבור אל אתר האינטרנט של OpenProt: www.openprot.org, פתח דף החיפוש באמצעות הקישור בתפריט העמוד העליון. לחץ על המינים של הריבית (כמו האחד שבו זוהה החלבון) והזינו את מספר הצטרפותן של חלבון בתיבת שאילתה חלבון . לחץ על חיפוש, תופיע טבלה המכילה מידע בסיסי על החלבון המאוחזרים. תכונות טבלה: אורך החלבון (בחומצת אמינו), שלה משקל מולקולרי (kDa), נקודה איזואלקטרית, תומך ראיות על ידי MS או ריבוזום פרופיל (תרגום ראיות, טה), תחזיות פונקציונליים כגון חזה תחומים וחלבון הומולוגיה (על פני 10 מינים הנתמך על-ידי OpenProt, גירסה 1.3). הטבלה מכילה גם מידע על הגן הקשור, תעתיק, הלוקליזציה של החלבון בתוך בתמליל. לחץ על הקישור פרטים כדי לאסוף עוד מידע. הדף שנפתח מכיל דפדפן הגנום אשר ממורכזת על חלבון המאוחזרים, והמידע כמו קואורדינטות transcriptomic את גנומית ו הנוכחות של קוזאק או יעילות גבוהה תרגום חניכה האתר (TIS) מוטיב36, 37. לחץ על חלבון או DNA קישורים בכרטיסיה פרטי, להשיג חלבון או רצפי DNA בהתאמה. אתר מידע מפורט אודות MS ראיות, ריבוזום פרופיל זיהוי, שימור ותחומים חלבון שזוהה על-ידי לחיצה על גבי כרטיסיות ראשיות ה-15.

Representative Results

זרימת העבודה המתוארת לעיל הוחל על dataset MS זמינים ב38,מאגר גאווה39. המחקר המקורית שפותחה שיטה (iMixPro), באמצעות איזוטופ יציב תיוג של חומצות אמינו בתרבות תא (SILAC), כדי למנוע תוצאות חיוביות שגויות של זיקה לטיהור MS (AP-MS) ניסויים38. בקצרה, ניסוי AP-MS מורכב באמצעות נוגדנים חרוזים-מחויב להביא חלבון של עניין (פיתיון) interactors שלו (הטרף). החלבונים שנאספו לאחר מכן מתעכל, שהוכנו עבור MS. שיטת הכנה מדגם ואת הגדרות מכשיר, מתוארים במחקר המקורי ועל המאגר גאווה (PXD004246). אתגר בניסויים כאלה היא השפע של תוצאות חיוביות שגויות, בעיקר של חלבונים מחייב את החרוזים. אבל לא את הפיתיון. כאן השתמשנו SILAC כדי ליצור יחסי איזוטופ לבין הטרף נכון תוצאות חיוביות שגויות: 3 שליטה (אין פיתיון) תרבותי אור בינוני, 1 מדגם לבטא את הפיתיון תרבותי אור בינוני ו 1 מדגם לבטא את הפיתיון תרבותי בינוני כבד הדגימות עיבוד עם חרוזים, ספקטרומטר מסה ניתוח נוסף. עם עיצוב כזה, חלבונים שאינם ספציפיים מחייב את החרוזים תהיה של כבדות לאור יחס של 1:4; כאשר הטרף נכון יהיה יחס של 1:138. מחדש ניתחנו את הנתונים שלהם-AP-MS משימוש במסד הנתונים OpenProt; הדיג בסירות האלה כללו שלושה חלבונים אנדוגני (PTPN14, JIP3 ו- IQGAP1), שניים יתר באה לידי ביטוי חלבונים (RAF1 ו- RNF41). מאז הניסויים להשתמש SILAC, היה להשתמש בזרימת העבודה של גלקסיה על כימות חלבון (S3 חומר משלים, איור 2). זרימת העבודה היה להפעיל אותו באמצעות מסד הנתונים OpenProt שלמה (OpenProt_all) או מסד נתונים OpenProt מוגבלת (OpenProt_2pep, כולל רק חלבונים מזוהה בעבר עם מינימום של שני פפטידים ייחודי). חלבון וכימות היו טובים, לשחזור מעבר בשימוש מסדי הנתונים שונים. כפי שמוצג באיור3, רוב החלבונים מזוהה בעיתון המקורי אותרו גם באמצעות מסד הנתונים ‘ OpenProt_2pep ‘ או ‘ OpenProt_all (רשימה מפורטת זמינה ב- S5 חומר משלים). תוצאה זו מראה כי הצינור המתוארים כאן את OpenProt מסדי נתונים מסוגלים לייצר חלבון וכימות לזו של נהלים הנוכחי מבוסס על מסדי נתונים UniProtKB40. עם זאת, השימוש של מסדי נתונים OpenProt יש יתרון ייחודי המאפשר זיהוי של הרומן וחלבונים לגילוי בעבר, כפי שמתואר במקרה זה ללמוד. 11 הנתמכים היטב חלבונים (1 Isoform ו- 10 AltProts), אך כיום לא מוערת של מסדי נתונים, זוהו על-פני כל נתונים (datasets), עם פפטידים בטוח בעצמו, באמצעות מסד הנתונים OpenProt_2pep (כל חלבון accessions, לצד מספר התומכים פפטידים, זמינות S5 חומר משלים). מסד נתונים זה מאפשר השימוש של 1% מסורתיים רוזוולט כמו הגדלת מרחב החיפוש נשאר מתונה. אלו חלבונים 11 לא זוהו במחקר המקורי כפי שהם נעדרו ממסד הנתונים. חלבונים הרומן 29 (איזופורמים 16 ו- 13 AltProts) התגלו לאורך כל נתונים (datasets), עם פפטידים בטוח בעצמו, באמצעות מסד הנתונים OpenProt_all (כל חלבון accessions, יחד עם המספר של תמיכה פפטידים, הן S6 חומר משלים הזמינות ב- ). כפי שמוצג באיור3, פד מחמירים מומלץ לא השפיעה ההזדהויות הכי בטוחה של חלבון, למרות שזה להקטין את המספר הכולל של חלבונים מזוהה. יחסית למסד הנתונים OpenProt_2pep ‘, מספר גבוה יותר של חלבונים רומן יכול להיות בביטחון מזוהה. כל החלבונים האלה הרומן נעדרים ממסד הנתונים של OpenProt_2pep. זה מדגיש את תפקיד מכריע של מסד הנתונים שבחרת עבור פרוטאומיקס מבוססי MS. חלבון רומן אחד התגלה interactor של החלבון RAF1 (IP_637643). באמצעות אתר האינטרנט OpenProt, ניתן לראות חלבון זה לא זוהו על ידי MS ולא ריבוזום פרופיל עד עכשיו (גירסה 1.3 OpenProt). החלבון חומצות אמינו 46 ארוך, יכול לתת רק שני פפטידים ייחודי על עיכול tryptic. פפטיד שזוהו ב RAF1 AP-MS dataset (שבר 18) היה קשת באיכות טובה, כפי שמוצג באיור4, ומוצגים כבדות לאור יחס של 1,09. החלבון מקודד בגן NANOGNBP1 , אשר הוא פסאודוגן של NANOGNB. התמליל (ENST00000448444), כיום מבואר כמו ללא קידוד, זוהה על-פני מספר רקמות לפי פורטל GTEx40. החלבון מכיל תחום פונקציונלי חזויים הקשורים עם דנ א איגוד (ג’ין אונטולוגיה קדימה: 0003677)41. איור 1 : מסד נתונים לבחירה עבור תרשים ניתוחים פרוטאומיקס. ניתוח של נתונים MS, ובייחוד את הבחירה של מסד הנתונים, תלויים מטרות המחקר. שלוש מטרות משותפות יוקפו בקו כחול (צינור קלאסי פרוטיאומיה מבנית), ירוק (חיפוש ממצה פרוטיאומיה מבנית) וכתום (גילוי פרוטיאומיה מבנית). כל המטרה תלויה מאגר מידע מתאים צינור. כלי זיהוי יחיד עשוי לשמש פרוטאומיקס ממצה המסיביות צינורות. עבור צינור גילוי פרוטיאומיה מבנית, אנו ממליצים באמצעות מספר זיהוי מנועי. FDRs מומלצים מסומנים באדום, חלבון מסד נתונים גדלים מסומנים בתיבות אפורות. אנא לחץ כאן כדי להציג גירסה גדולה יותר של הדמות הזאת. איור 2 : ייצוג גרפי של זרימת העבודה גלקסי להשתמש. ייצוג שזרימת ניתוח פרוטיאומיה מבנית המשמש re-אנליזה של נתונים Eyckerman et al.38שלב אחר שלב. קבצי קלט, פפטיד search וחלבון כימות מסומנים באמצעות תיבות תפוזים. הקופסאות הכחולות מתאימות הכלים בעזרתם, תיבות אפורים שיתאימו קבצי הפלט הנוצר. מנועי חיפוש שונים (MS-GF + ו- X! Tandem) מסומנים באמצעות צבעים שונים (בהתאמה אדום וסגול), כמו גם של חיצים המציינים הכרחי התשומות והתפוקות שלהם. הקופסא הירוקה מדגיש את הכלי יצירת רשימה של חלבון ופיזיקליים. כאשר יציאות מרובות נוצרות, זו ששימשה צעדים במורד הזרם מסומן בתור הקרוב ביותר על החץ. זרימת עבודה זו זמינה בחופשיות S2 חומר משלים. ה-X! קובץ התצורה של פרמטרים ברירת המחדל טנדם זמין S4 חומר משלים. אנא לחץ כאן כדי להציג גירסה גדולה יותר של הדמות הזאת. איור 3 : השוואה של זיהוי אינטראקטור לכל פיתיון באמצעות מסדי נתונים שונים- דיאגרמות חיתוך קבוצות של חלבון ההזדהויות באמצעות את OpenProt הכי בטוחה מסד (בכתום, תומכים עדות מינימום 2 פפטידים ייחודי, OpenProt_2pep) עם ה 1% פד, או את OpenProt כל מסד הנתונים (בכחול, OpenProt_all) עם 0.001%, רוזוולט, או כפי שדווח המקורי נייר (באפור)38. כל דיאגרמה מקביל interactors מזוהה בשביל הפיתיון שהוזכרו: RAF1, RNF41, PTPN14, JIP3 ו- IQGAP1. אנא לחץ כאן כדי להציג גירסה גדולה יותר של הדמות הזאת. איור 4 : MS/MS הספקטרום של מזוהה MDNLWAK(13C 6) פפטיד מחלבון הרומן IP_637643. העוצמה היא יחסית (0 ל- 100%). פסגות שנבחרו מסומנות באדום, y יונים הביאורים מופיעים בכהה אדום ו- b יונים ביאורים בירוק. מופק התוכנה TOPPview34. קודמן שגיאה = 2.70 ppm, עידוד ציון = 0.12. אנא לחץ כאן כדי להציג גירסה גדולה יותר של הדמות הזאת. המונח הגדרה הפניה ORF חלופי (AltORF) ORF קאנונית שכרגע אין מוערת של הגנום ביאורים, אך מבואר ב- OpenProt. 15 הפניה ORF (RefORF) ORF הקנוני מבואר הגנום ביאורים ו OpenProt. 15 חלבון חלופי (AltProt) חלבון הרומן בקוד על-ידי AltORF, עם אין דמיון משמעותי עם RefProt. ההצטרפות קידומת: IP_. 15 הפניה חלבון (RefProt) חלבון כעת מבואר חלבון רצף במסדי נתונים כגון UniProtKB, Ensembl או NCBI RefSeq, וגם ב- OpenProt. 15 Isoform רומן חלבון הרומן בקוד על-ידי AltORF, עם דמיון משמעותי עם RefProt. ההצטרפות קידומת: II_. 15 מסד OpenProt_2pep מכיל את הרצף של כל RefProts וחלבונים הרומן שמנבאת OpenProt, כבר זיהתה עם מינימום של 2 פפטידים ייחודי. 15 מסד OpenProt_1pep מכיל את הרצף של כל RefProts וחלבונים הרומן שמנבאת OpenProt, כבר זיהתה עם מינימום של 1 פפטיד ייחודי. 15 מסד OpenProt_all מכיל את הרצף של כל RefProts וחלבונים הרומן חזה על-ידי OpenProt. 15 טבלה 1: הגדרת המונחים OpenProt וברחבי פרוטוקול S1 חומר משלים: גלקסי זרימת עבודה עבור מסד הנתונים טיפול. זה יצרף את רצפי CRAPome ואת דמה (הפוכה) קלט במסד הנתונים. הפלט הוא קובץ Fasta. אנא לחץ כאן כדי להוריד. S2 חומר משלים: גלקסי זרימת עבודה עבור זיהוי חלבונים. זה יהיה לזהות חלבונים מקובץ נתונים ספקטרומטר מסה בעזרת שני מנועי החיפוש (MS-GF + ו- X! טנדם). לכל פרמטר ניתן לכוונן לפי הצורך לפני הפעלת זרימת העבודה. אנא לחץ כאן כדי להוריד. S3 חומר משלים: גלקסי זרימת עבודה עבור כימות חלבון באמצעות איזוטופ יציב תיוג (סיל). זה לזהות ולכמת חלבונים מקובץ נתונים ספקטרומטר מסה בעזרת שני מנועי החיפוש (MS-GF + ו- X! טנדם). לכל פרמטר ניתן לכוונן לפי הצורך לפני הפעלת זרימת העבודה. אנא לחץ כאן כדי להוריד. S4 גשמי משלים: X! קובץ התצורה של פרמטרים ברירת מחדל טנדם. קובץ XML זה הכרחי להפעלת ה-X! כלי TandemAdapter על פלטפורמת גלקסי. אנא לחץ כאן כדי להוריד. S5 חומר משלים: לכמת מהחלבונים iMixPro datasets. קבצי נתונים מ- Eyckerman et al. 201638 עובדו באמצעות מאגרי מידע OpenProt, חלבונים כימות מפורטים עבור כל תנאי. פיתיונות הם PTPN14, JIP3, IQGAP1, RAF1 ו- RNF41. ג’ין המצוין ירוק תואמים חלבונים זיהה גם הנייר המקורי38. שמות ג’ין המצוין כתום מקבילים הידועים interactors על פי BioGrid זה לא דווח בעיתון המקורי. שמות ג’ין המצוין כחול בהיר יתאימו חלבונים הרומן המזוהה כ- interactors (המספר המתאים של ההצטרפות חלבון מותווה בסוגריים). ג’ין שמות המצוין אפור בהיר, נטוי שיתאימו סביר מזהמים (קרטין חלבונים). אנא לחץ כאן כדי להוריד. S6 חומר משלים: זיהה מהחלבונים הרומן iMixPro datasets. קבצי נתונים מ- Eyckerman et al. 201638 עובדו באמצעות מאגרי מידע OpenProt, חלבונים מזוהה הרומן מפורטים עבור כל תנאי. פיתיונות הם PTPN14, JIP3, IQGAP1, RAF1 ו- RNF41. חלבון ההצטרפות מספרים מפורטים, מתחיל עם II_ עבור הרומן איזופורמים של חלבון ידוע, ועם IP_ עבור מהחלבונים הרומן ORF חלופי (AltProt). המספר של תמיכה פפטידים מסומנים בסוגריים מרובעים. אנא לחץ כאן כדי להוריד.

Discussion

בעת ניתוח נתוני ספקטרומטרים המוני, האיכות של זיהוי חלבונים חלקית מסתמך על הדיוק של מסד נתונים בשימוש6,20. לגישות באופן מסורתי משתמשים במסדי נתונים UniProtKB, אך אלה תומכות בדגם ביאור הגנום ORF יחיד לפי התעתיק ואורך מינימלי של codons (למעט דוגמאות הפגינו בעבר) 10040. מחקרים רבים מתייחסים את החסרונות של מסדי נתונים כאלה עם גילוי ORFs תפקודית של לכאורה ללא קידוד אזורים8,11,12,13. עכשיו, OpenProt מאפשר זיהוי חלבונים ממצה יותר כמו זה מושך רצפי חלבונים מביאורים transcriptome מרובים. OpenProt מאחזר NCBI RefSeq (GRCh38.p7), Ensembl (GRCh38.83) transcriptomes וביאורים UniProtKB (UniProtKB-SwissProt, 2017-09-27)40,42,43. ביאורים הנוכחי להציג חפיפה מועטה, OpenProt ובכך מציג תצוגה יותר ממצה של הנוף פרוטיאומיה מבנית פוטנציאליים מאשר כאשר מוגבל אחד ביאור15.

יתר על כן, כפי OpenProt אוכף מודל polycistronic, היא מאפשרת מספר ביאורים חלבון לפי התעתיק. מסיבות סטטיסטיות וחישובית, OpenProt עדיין מחזיקה את הסף אורך מינימלי של 30 codons15. ובכל זאת, זה מנבא אלפי רצפי חלבונים הרומן, ובכך להרחיב את טווח אפשרויות לזיהוי החלבון. מתוך תפיסה זו, OpenProt תומך פרוטיאומיה מבנית תגליות בצורה שיטתית יותר.

האיכות של זיהוי חלבונים עשויה להיות מושפעת גם הפרמטרים המשמשים. ניתוחים פרוטאומיקס מבוססי MS כלל מחזיקים חלבון 1% פד. עם זאת, OpenProt בכל מסד הנתונים מכיל בערך פי 6 יותר ערכים (איור 1). לקחת בחשבון גידול משמעותי זה לחלל, אנו ממליצים על שימוש של רוזוולט מחמירים יותר של 0.001%. פרמטר זה היה ממוטב באמצעות בחינת מחקרים והערכת ידנית ספקטרה שנבחרו באקראי15. חיובי כוזב הם עדיין אפשרות, אבל, אנו מעודדים את אימות לתמוך ראיות על חלבון הרומן, בדיקה יסודית. תקן מומלץ יכול להיות הזיהוי של חלבון מ MS שתי הפעלות שונות, כמו נתוני רקע תוצאות חיוביות שגויות משתנות בין נתונים (datasets)15.

הצינור שסופק כאן ונועד לשמש מקרה המבחן יכול להיות שונה מרוצה להתאים את עיצוב ניסיוני והפרמטרים. אנו ממליצים באמצעות מספר מנועי חיפוש, שכן היא מגבירה את הרגישות ורגישות של פפטיד זיהוי32. יתר על כן, אנו מעודדים שימוש במסד הנתונים המתאימים ביותר המטרה ניסיוני (איור 1). בתור משתמש את OpenProt כל מסד הנתונים מגיע עם פד המחמירים, ייתכן ההזדהויות אמיתי. לפיכך, במסד הנתונים כולו צריך להיות מיועד גילוי הרומן חלבונים, בעוד פרוטאומיקס קלאסית פרופיל להשתמש במאגרי המידע OpenProt קטנים יותר (כגון OpenProt_2pep השתמשו במחקר במקרה לעיל).

OpenProt כרגע המנבא רצפים החל codon ATG, ואילו מספר מחקרים מודגשות תרגום חניכה בגיל44,אחרים codons45. כאשר חלבון הרומן מזוהה על ידי פפטידים ייחודי אחד או כמה, זה אפשרי ש-codon חניכה נכון אינה ATG המשוער. המשתמשים יכולים לחפש הוכחות תרגום באתר האינטרנט של OpenProt. כיום, OpenProt רק דוחות תרגום אירועים אם הן נוגעות כל חלבון החזוי רצף (100% חפיפה)15. לפיכך, היעדר ראיות תרגום לא אומר שהחלבון לא מתורגם, אבל זה codon התחלה לא ייתכן ATG לכאורה.

למרות מגבלותיה הנוכחי, OpenProt מציע נוף יותר ממצה של פוטנציאל קידוד של הגנום האיקריוטים. OpenProt מסדי נתונים פוסטר פרוטיאומיה מבנית תגליות וההבנה של פונקציות פרוטיאומיה מבנית ואינטראקציות. התפתחויות עתידיות של מסד הנתונים OpenProt יכלול ביאור של מינים אחרים, תרגום עדויות בלתי-ATG להתחיל codon ופיתוח של צינור כדי לכלול חלבונים הרומן הגנום כולו ולימודים רצף exome.

Disclosures

The authors have nothing to disclose.

Acknowledgements

אנו מודים ויויאן Delcourt על עזרה, דיונים ועצה על העבודה. X.R. הוא חבר של דו הנתמכות על-ידי קוויבק Santé FRQS דה מרכז רשרש du Fonds דה רשרש מרכז שרברוק דה Universitaire Hospitalier. מחקר זה נתמך על ידי כיסא קנדה מחקר פרוטאומיקס פונקציונלי, גילוי של הרומן חלבונים גרנט X.R. ו- CIHR מגב-137056. אנו מודים הקבוצה לחשב את ה קוויבק, קנדה מחשוב לתמיכה שלהם עם השימוש mp2 מחשב העל של אוניברסיטת דה שרברוק. הפעולה של מחשב העל mp2 ממומנת על ידי קנדה קרן של חדשנות (CFI), le ministère de l’Économie, דה לה המדע et du l’innovation דה קוויבק (MESI) ו les Fonds דה קוויבק רשרש – טבע et טכנולוגיות (FRQ-NT). שרת ה-Galaxy שבו נעשה שימוש עבור כמה חישובים פרוטאומיקס בחלקו ממומן על ידי שיתופי מחקר מרכז 992 אפיגנטיקה רפואי (DFG גרנט SFB 992/1/2012), הגרמני הפדרלי במשרד החינוך והמחקר (BMBF מעניק 031 RBC A538A/A538C, 031L0101B /031L0101C de. אי-אפינפרין, דה 0106 031L. מדרגות (de. אי)).

Materials

OpenProt website open source n/a www.openprot.org
Galaxy Server open source n/a https://usegalaxy.eu/
TOPPview software open source n/a www.openms.de

References

  1. Kim, M. S., et al. A draft map of the human proteome. Nature. 509 (7502), 575-581 (2014).
  2. Wilhelm, M., et al. Mass-spectrometry-based draft of the human proteome. Nature. 509 (7502), 582-587 (2014).
  3. Hein, M. Y., et al. A human interactome in three quantitative dimensions organized by stoichiometries and abundances. Cell. 163 (3), 712-723 (2015).
  4. Huttlin, E. L., et al. The BioPlex Network: A Systematic Exploration of the Human Interactome. Cell. 162 (2), 425-440 (2015).
  5. Huttlin, E. L., et al. Architecture of the human interactome defines protein communities and disease networks. Nature. 545 (7655), 505-509 (2017).
  6. Kumar, D., Yadav, A. K., Dash, D. Choosing an Optimal Database for Protein Identification from Tandem Mass Spectrometry Data. Proteome Bioinformatics. , 17-29 (2017).
  7. Jeong, K., Kim, S., Bandeira, N. False discovery rates in spectral identification. BMC Bioinformatics. 13 (Suppl 16), (2012).
  8. Brunet, M. A., Levesque, S. A., Hunting, D. J., Cohen, A. A., Roucou, X. Recognition of the polycistronic nature of human genes is critical to understanding the genotype-phenotype relationship. Genome Research. , (2018).
  9. Brent, M. R. Genome annotation past, present, and future: how to define an ORF at each locus. Genome Research. 15 (12), 1777-1786 (2005).
  10. Harrow, J., et al. GENCODE: The reference human genome annotation for The ENCODE Project. Genome Research. 22 (9), 1760-1774 (2012).
  11. Samandi, S., et al. Deep transcriptome annotation enables the discovery and functional characterization of cryptic small proteins. eLife. 6, e27860 (2017).
  12. Saghatelian, A., Couso, J. P. Discovery and characterization of smORF-encoded bioactive polypeptides. Nature Chemical Biology. 11 (12), 909-916 (2015).
  13. Delcourt, V., Staskevicius, A., Salzet, M., Fournier, I., Roucou, X. Small Proteins Encoded by Unannotated ORFs are Rising Stars of the Proteome, Confirming Shortcomings in Genome Annotations and Current Vision of an mRNA. Proteomics. , (2017).
  14. Plaza, S., Menschaert, G., Payre, F. In Search of Lost Small Peptides. Annual Review of Cell and Developmental Biology. 33 (1), (2017).
  15. Brunet, M. A., et al. OpenProt: a more comprehensive guide to explore eukaryotic coding potential and proteomes. Nucleic Acids Research. , (2018).
  16. Afgan, E., et al. The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2016 update. Nucleic Acids Research. 44 (W1), W3-W10 (2016).
  17. Afgan, E., et al. The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2018 update. Nucleic Acids Research. 46, W537-W544 (2018).
  18. Sturm, M., et al. OpenMS – An open-source software framework for mass spectrometry. BMC Bioinformatics. 9 (1), 163 (2008).
  19. Carithers, L. J., et al. A Novel Approach to High-Quality Postmortem Tissue Procurement: The GTEx Project. Biopreservation and Biobanking. 13 (5), 311-319 (2015).
  20. Aebersold, R., Mann, M. Mass spectrometry-based proteomics. Nature. 422 (6928), 6928 (2003).
  21. Domon, B., Aebersold, R. Mass Spectrometry and Protein Analysis. Science. 312 (5771), 212-217 (2006).
  22. Hu, J., Coombes, K. R., Morris, J. S., Baggerly, K. A. The importance of experimental design in proteomic mass spectrometry experiments: Some cautionary tales. Briefings in Functional Genomics. 3 (4), 322-331 (2005).
  23. Wu, P. Y., Phan, J. H., Wang, M. D. Assessing the impact of human genome annotation choice on RNA-seq expression estimates. BMC Bioinformatics. 14 (11), S8 (2013).
  24. Mellacheruvu, D., et al. The CRAPome: a contaminant repository for affinity purification-mass spectrometry data. Nature Methods. 10 (8), 730-736 (2013).
  25. Adusumilli, R., Mallick, P. Data Conversion with ProteoWizard msConvert. Proteomics: Methods and Protocols. , 339-368 (2017).
  26. French, W. R., et al. Wavelet-Based Peak Detection and a New Charge Inference Procedure for MS/MS Implemented in ProteoWizard’s msConvert. Journal of Proteome Research. 14 (2), 1299-1307 (2015).
  27. Kuenzi, B. M., et al. APOSTL: An Interactive Galaxy Pipeline for Reproducible Analysis of Affinity Proteomics Data. Journal of Proteome Research. 15 (12), 4747-4754 (2016).
  28. Hoekman, B., Breitling, R., Suits, F., Bischoff, R., Horvatovich, P. msCompare: a framework for quantitative analysis of label-free LC-MS data for comparative candidate biomarker studies. Molecular & Cellular Proteomics: MCP. 11 (6), (2012).
  29. Bjornson, R. D., et al. X!!Tandem, an improved method for running X!tandem in parallel on collections of commodity computers. Journal of Proteome Research. 7 (1), 293-299 (2008).
  30. Kim, S., Pevzner, P. A. MS-GF+ makes progress towards a universal database search tool for proteomics. Nature Communications. 5, 5277 (2014).
  31. Vaudel, M., Barsnes, H., Berven, F. S., Sickmann, A., Martens, L. SearchGUI: An open-source graphical user interface for simultaneous OMSSA and X!Tandem searches. Proteomics. 11 (5), 996-999 (2011).
  32. Shteynberg, D., Nesvizhskii, A. I., Moritz, R. L., Deutsch, E. W. Combining results of multiple search engines in proteomics. Molecular & Cellular Proteomics: MCP. 12 (9), 2383-2393 (2013).
  33. Bittremieux, W., et al. Quality control in mass spectrometry-based proteomics. Mass Spectrometry Reviews. 37 (5), 697-711 (2018).
  34. Bertsch, A., Gröpl, C., Reinert, K., Kohlbacher, O. OpenMS and TOPP: Open Source Software for LC-MS Data Analysis. Data Mining in Proteomics: From Standards to Applications. , 353-367 (2011).
  35. Pfeuffer, J., et al. OpenMS – A platform for reproducible analysis of mass spectrometry data. Journal of Biotechnology. 261, 142-148 (2017).
  36. Kozak, M. Pushing the limits of the scanning mechanism for initiation of translation. Gene. 299 (1-2), 1-34 (2002).
  37. Noderer, W. L., et al. Quantitative analysis of mammalian translation initiation sites by FACS-seq. Molecular Systems Biology. 10, 748 (2014).
  38. Eyckerman, S., et al. Intelligent Mixing of Proteomes for Elimination of False Positives in Affinity Purification-Mass Spectrometry. Journal of Proteome Research. 15 (10), 3929-3937 (2016).
  39. Vizcaíno, J. A., et al. 2016 update of the PRIDE database and its related tools. Nucleic Acids Research. 44 (D1), D447-D456 (2016).
  40. Bateman, A., et al. UniProt: the universal protein knowledgebase. Nucleic Acids Research. 45 (D1), D158-D169 (2017).
  41. The Gene Ontology Consortium Expansion of the Gene Ontology knowledgebase and resources. Expansion of the Gene Ontology knowledgebase and resources. Nucleic Acids Research. 45 (D1), D331-D338 (2017).
  42. O’Leary, N. A., et al. Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. Nucleic Acids Research. 44, D733-D745 (2016).
  43. Zerbino, D. R., et al. Ensembl 2018. Nucleic Acids Research. 46 (D1), D754-D761 (2018).
  44. Andreev, D. E., et al. Translation of 5’ leaders is pervasive in genes resistant to eIF2 repression. eLife. 4, e03971 (2015).
  45. Jackson, R., et al. The translation of non-canonical open reading frames controls mucosal immunity. Nature. 564, 434-438 (2018).

Play Video

Cite This Article
Brunet, M. A., Roucou, X. Mass Spectrometry-Based Proteomics Analyses Using the OpenProt Database to Unveil Novel Proteins Translated from Non-Canonical Open Reading Frames. J. Vis. Exp. (146), e59589, doi:10.3791/59589 (2019).

View Video