Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

גישה משולבת לזיהוי מיקרופרוטאינים וניתוח רצף

Published: July 12, 2022 doi: 10.3791/63841
* These authors contributed equally

Summary

הפרוטוקול המתואר כאן מספק הוראות מפורטות כיצד לנתח אזורים גנומיים בעלי עניין עבור פוטנציאל קידוד מיקרופרוטאין באמצעות PhyloCSF בדפדפן הגנום הידידותי למשתמש UCSC. בנוסף, מומלץ להמשיך ולחקור את מאפייני הרצף של מיקרופרוטאינים שזוהו כדי לקבל תובנה לגבי הפונקציות הפוטטיביות שלהם.

Abstract

ריצוף הדור הבא (NGS) הניע את תחום הגנומיקה קדימה ויצר רצפי גנום שלמים עבור מינים רבים של בעלי חיים ואורגניזמי מודל. עם זאת, למרות העושר הזה של מידע על רצף, מאמצי ביאור גנים מקיפים הוכחו כמאתגרים, במיוחד עבור חלבונים קטנים. יש לציין כי שיטות קונבנציונליות לביאור חלבונים תוכננו להחריג במכוון חלבונים פוטטיביים המקודדים על ידי מסגרות קריאה פתוחות קצרות (sORFs) באורך של פחות מ-300 נוקלאוטידים כדי לסנן את המספר הגבוה יותר באופן אקספוננציאלי של sORFs שאינם מקודדים לאורך הגנום. כתוצאה מכך, מאות חלבונים קטנים ומתפקדים הנקראים מיקרופרוטאינים (באורך <100 חומצות אמינו) סווגו באופן שגוי כ-RNA שאינם מקודדים או התעלמו מהם לחלוטין.

כאן אנו מספקים פרוטוקול מפורט כדי למנף כלים ביואינפורמטיים חינמיים, הזמינים לציבור, כדי לבצע שאילתה על אזורים גנומיים עבור פוטנציאל קידוד מיקרופרוטאין המבוסס על שימור אבולוציוני. באופן ספציפי, אנו מספקים הוראות שלב אחר שלב כיצד לבחון את שימור הרצף ואת פוטנציאל הקידוד באמצעות תדרי החלפת קודון פילוגנטיים (PhyloCSF) בדפדפן הגנום הידידותי למשתמש של אוניברסיטת קליפורניה סנטה קרוז (UCSC). בנוסף, אנו מפרטים שלבים ליצירת יישור יעיל של מינים מרובים של רצפי מיקרופרוטאין שזוהו כדי להמחיש את שימור רצפי חומצות האמינו וממליצים על משאבים לניתוח מאפייני מיקרופרוטאין, כולל מבני תחום חזויים. כלים רבי עוצמה אלה יכולים לשמש כדי לסייע בזיהוי רצפי קידוד מיקרופרוטאין באזורים גנומיים שאינם קנוניים או כדי לשלול נוכחות של רצף קידוד משומר עם פוטנציאל תרגום בתעתיק שאינו מקודד בעל עניין.

Introduction

זיהוי המערך השלם של יסודות הקידוד בגנום היה מטרה מרכזית מאז תחילת פרויקט הגנום האנושי, ונותר מטרה מרכזית בהבנת המערכות הביולוגיות והאטיולוגיה של מחלות מבוססות גנטיקה 1,2,3,4. ההתקדמות בטכניקות NGS הובילה לייצור רצפי גנום שלמים עבור מספר רב של אורגניזמים, כולל בעלי חוליות, חסרי חוליות, שמרים וצמחים5. בנוסף, שיטות ריצוף שעתוק בתפוקה גבוהה חשפו עוד יותר את המורכבות של השעתוק התאי, וזיהו אלפי מולקולות RNA חדשניות עם פונקציות מקודדות חלבונים ופונקציות שאינן מקודדות 6,7. פענוח כמות עצומה זו של מידע על רצף הוא תהליך מתמשך, והאתגרים נותרו במאמצי ביאור גנים מקיפים8.

ההתפתחות האחרונה של שיטות ליצירת פרופילים תרגומיים, כולל פרופיל ריבוזומים 9,10 וריצוף פולי-ריבוזום11, סיפקו ראיות המצביעות על כך שמאות אירועי תרגום לא קנוניים ממפים sORFs שאינם מנומקים כיום ברחבי הגנום, עם פוטנציאל ליצור חלבונים קטנים הנקראים מיקרופרוטאינים או מיקרופפטידים 12,13,14,15,16, 17. מיקרופרוטאינים התגלו כקבוצה חדשה של חלבונים רב-תכליתיים שבעבר התעלמו מהם בשיטות ביאור גנים סטנדרטיות בשל גודלם הקטן (<100 חומצות אמינו) והיעדר מאפייני גנים קלאסיים המקודדים חלבונים 8,12,18,19,20. מיקרופרוטאינים תוארו כמעט בכל האורגניזמים, כולל שמרים21,22, זבובים 17,23,24 ויונקים 25,26,27,28, והוכח שהם ממלאים תפקידים קריטיים בתהליכים מגוונים, כולל התפתחות, חילוף חומרים ואיתות סטרס 19,20,29, 30,31,32,33,34. לפיכך, חובה להמשיך לכרות את הגנום עבור חברים נוספים בסוג זה של חלבונים קטנים פונקציונליים שהתעלמו מהם זה מכבר.

למרות ההכרה הנרחבת בחשיבות הביולוגית של מיקרופרוטאינים, סוג זה של גנים נותר בתת-ייצוג משמעותי בביאור הגנום, והזיהוי המדויק שלהם ממשיך להוות אתגר מתמשך שהפריע להתקדמות בתחום. כלים חישוביים שונים ושיטות ניסיוניות פותחו לאחרונה כדי להתגבר על הקשיים הכרוכים בזיהוי רצפי קידוד מיקרופרוטאין (שנדונו בהרחבה במספר סקירות מקיפות 8,35,36,37). מחקרי זיהוי מיקרופרוטאין רבים שנערכו לאחרונה 38,39,40,41,42,43,44,45,46,47 הסתמכו במידה רבה על שימוש באלגוריתם אחד כזה שנקרא PhyloCSF48,49 גישה גנומית השוואתית רבת עוצמה שניתן למנף אותה כדי להבחין בין אזורים מקודדים חלבונים שמורים בגנום לבין אלה שאינם מקודדים.,

PhyloCSF משווה את תדרי החלפת הקודונים (CSF) באמצעות יישורי נוקלאוטידים מרובי מינים ומודלים פילוגנטיים כדי לזהות חתימות אבולוציוניות של גנים המקודדים חלבונים. גישה אמפירית מבוססת מודלים זו מסתמכת על ההנחה שחלבונים נשמרים בעיקר ברמת חומצות האמינו ולא ברצף הנוקלאוטידים. לכן, תחליפי קודון נרדפים, המקודדים את אותה חומצת אמינו, או תחליפי קודון לחומצות אמינו בעלות תכונות שמורות (כלומר, מטען, הידרופוביות, קוטביות) מקבלים ציון חיובי, בעוד שהחלפות שאינן מילים נרדפות, כולל תחליפי מיסנס ושטויות, מקבלים ציון שלילי. PhyloCSF מאומן על נתוני גנום שלם והוכח כיעיל בניקוד חלקים קצרים של רצף קידוד (CDS) במנותק מהרצף המלא, דבר הנחוץ בעת ניתוח מיקרופרוטאינים או אקסונים בודדים של גנים סטנדרטיים המקודדים חלבונים48,49.

יש לציין כי השילוב האחרון של רכזות המסלול של PhyloCSF בדפדפן הגנום 49,50,51 של אוניברסיטת קליפורניה בסנטה קרוז (UCSC) מאפשר לחוקרים מכל הרקעים לגשת בקלות לממשק ידידותי למשתמש כדי לשאול אזורים גנומיים בעלי עניין עבור פוטנציאל קידוד חלבונים. הפרוטוקול המתואר להלן מספק הוראות מפורטות כיצד לטעון את רכזות המסלול של PhyloCSF בדפדפן הגנום של UCSC ולאחר מכן לחקור אזורים גנומיים בעלי עניין כדי לחקור אזורים המקודדים חלבונים בביטחון גבוה (או היעדרם). בנוסף, במקרה שבו נצפה ציון חיובי של PhyloCSF, מסומנים צעדים לניתוח נוסף של פוטנציאל קידוד מיקרופרוטאין וליצור ביעילות יישור מינים מרובים של רצפי חומצות האמינו שזוהו כדי להמחיש את שימור הרצף בין המינים. לבסוף, מספר משאבים וכלים נוספים הזמינים לציבור מוצגים בדיון כדי לסקור מאפייני מיקרופרוטאין שזוהו, כולל מבני תחום חזויים ותובנות לגבי תפקוד המיקרופרוטאין הפוטטיבי.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

הפרוטוקול המתואר להלן מפרט שלבים לטעינה ולניווט ברצועות הדפדפן PhyloCSF בדפדפן הגנום של UCSC (שנוצר על ידי Mudge et al.49). לשאלות כלליות בנוגע לדפדפן הגנום של UCSC, ניתן למצוא כאן מדריך נרחב למשתמש בדפדפן גנום: https://genome.ucsc.edu/goldenPath/help/hgTracksHelp.html.

1. טעינת מרכז המסלולים PhyloCSF לדפדפן הגנום של UCSC

  1. פתח חלון דפדפן אינטרנט ונווט אל דפדפן הגנום של UCSC (https://genome.ucsc.edu/).
  2. תחת הכותרת כלים שלנו , בחר באפשרות עקוב אחר רכזות .
    הערה: ניתן למצוא את האפשרות 'רכזות מעקב' גם תחת הכרטיסיה ' הנתונים שלי '.
  3. בכרטיסיה מרכזים ציבוריים , הקלד PhyloCSF בתיבה מונחי חיפוש . לחץ על הלחצן חפש מרכזים ציבוריים .
  4. התחבר ל- PhyloCSF על ידי לחיצה על לחצן התחבר עבור שם הרכזת PhyloCSF (תיאור: פוטנציאל קידוד חלבונים אבולוציוני כפי שנמדד על ידי PhyloCSF).
    הערה: מרכז מסלול זה ייטען למכלולים רבים, כולל אדם (hg19 ו- hg38) ועכבר (mm10 ו- mm39).
  5. לאחר לחיצה על חיבור, המתן לניתוב מחדש לדף שער הדפדפן של UCSC Genome (https://genome.ucsc.edu/cgi-bin/hgGateway).

2. ניווט לגנים בעלי עניין באמצעות מזהי גנים

  1. בחר את המינים ואת הרכב הגנום כדי לבצע שאילתה. כדי לבצע שאילתה על מין אחר (לדוגמה, עכבר), בחר את המינים המעניינים תחת הכותרת עיון/בחירת מינים על-ידי לחיצה על הסמל המתאים, או הקלד את המינים בתיבת הטקסט שאומרת, הזן מינים, שם משותף או מזהה הרכבה.
    הערה: ההרכבה מופיעה ישירות תחת הכותרת חיפוש מיקום . בדרך כלל, ברירת המחדל היא האסיפה האנושית (לדוגמה, דצמבר 2009 [GRCh37/hg19]).
  2. בחר את ההרכבה לחיפוש תחת הכותרת חיפוש מיקום באמצעות התפריט הנפתח.
  3. הזן את המיקום, סמל הגן או מונחי החיפוש בתיבה מיקום/מונח חיפוש ולחץ על עבור כדי לנווט לגן בעל עניין בדפדפן הגנום.
  4. אם החיפוש הניב מספר התאמות, המתן כדי להיות מנותב מחדש לדף הדורש בחירה של מיקום מעניין. לחץ על הגן המתאים של עניין.

3. ניווט לאזורים גנומיים בעלי עניין באמצעות מידע על רצף

  1. נווט אל דפדפן הגנום של UCSC (https://genome.ucsc.edu/) ובחר את כלי היישור דמוי BLAST (BLAT) תחת הכותרת כלים שלנו כדי לבצע שאילתה על רצף ספציפי של DNA או חלבון. לחלופין, רחף עם הסמן מעל הכרטיסיה כלים ובחר באפשרות Blat או בצע את הקישור הבא: https://genome.ucsc.edu/cgi-bin/hgBlat.
  2. בחר את המינים (גנום) ואת הרכבת העניין באמצעות התפריטים הנפתחים.
  3. הגדר את סוג השאילתה באמצעות התפריט הנפתח.
  4. הדבק את רצף העניין בתיבת הטקסט BLAT Search Genome ולחץ על שלח.
  5. לחץ על קישור הדפדפן תחת הכותרת פעולות כדי לנווט לאזור הגנומי המעניין.

4. זיהוי sORFs שמורים באמצעות נתוני מסלול PhyloCSF

  1. סריקה חזותית של האזור הגנומי המעניין בחיפוש אחר ניקוד חיובי של אזורי PhyloCSF (איור 1).
    הערה: להסבר מפורט כיצד לפרש באופן חזותי את ציוני PhyloCSF בדפדפן הגנום של UCSC, עיין בסעיף התוצאות המייצגות להלן.
  2. השתמש בתכונת הזום כדי להגדיל אזורים מעניינים כדי לבחון מאפייני רצף ולחפש קודוני התחלה/עצירה. כדי להגדיל את התצוגה באופן ידני, החזק את מקש Shift ולחץ והחזק את לחצן העכבר תוך כדי גרירה לאורך אזור העניין. לחלופין, השתמש בלחצני ההגדלה וההגדלה של התצוגה בחלק העליון של הדף כדי לנווט (אפשרויות זום 1.5x, 3x, 10x או base זמינות).
    הערה: לפני השימוש בלחצני התצוגה/ההזזה לאחור, יש צורך למקם מחדש את הגן כך שאזור העניין יהיה באמצע המסך. כדי לבצע פעולה זו, לחץ על התמונה וגרור אותה שמאלה או ימינה כדי להזיז את האזור הגנומי אופקית לפי הצורך או השתמש בחצים הנעים בחלק העליון של הדף.
  3. הגדל את התצוגה עד שרצף הנוקלאוטידים (הבסיס) יהיה גלוי.
    הערה: רצף הנוקלאוטידים יופיע ישירות מעל ציון +1 PhyloCSF מוחלק.
  4. סרוק חזותית את רצף הנוקלאוטידים בסמוך להתחלה ולסוף של אזורי PhyloCSF בעלי הניקוד החיובי כדי לזהות קודוני התחלה (ATG) ועצירה (TGA/TAA/TAG) בעלי ניקוד חיובי.
    הערה: אם הגן המעניין נמצא על גדיל המינוס של הדנ"א, קודוני ההתחלה והעצירה יהיו המשלים ההפוך (כלומר, CAT עבור קודון ההתחלה ו- TCA/TTA/CTA עבור קודון העצירה).

5. הצגת אזורים הומולוגיים בגנומים אחרים

  1. רחף עם העכבר מעל הכותרת תצוגה בחלק העליון של הדף ולחץ על האפשרות בגנומים אחרים (המר).
  2. הגדר את הגנום המעניין באמצעות התפריט הנפתח מתחת לכותרת הגנום החדש .
  3. בחר את ההרכבה הגנומית המעניינת באמצעות התפריט הנפתח תחת הכותרת הרכבה חדשה ולאחר מכן לחץ על לחצן שלח .
  4. לאחר שהדפדפן מחזיר רשימה של אזורים במכלול החדש עם דמיון, לחץ על קישור מיקום הכרומוזום כדי לנווט לאזור ההומולוגי של העניין.
    הערה: אחוז הבסיסים הכוללים (נוקלאוטידים) והטווח המכוסה על ידי האזור יוגדרו עבור כל אזור ברשימה. ככל שאחוז הבסיסים התואמים גבוה יותר, כך השימור גבוה יותר לאזור העניין.
  5. בצע את אותן אסטרטגיות ניווט המפורטות בסעיף 4 כדי לנתח את הרצף.

6. יצירת יישורי רצף מרובי מינים עבור מיקרופרוטאינים בעלי עניין

  1. לחץ על הגן המעניין במסלול GENCODE בדפדפן הגנום של UCSC (המצוין באיור 1A עם תיבה כחולה) כדי לנווט לדף תיאור הגן.
  2. תחת הכותרת רצף וקישורים לכלים ומסדי נתונים , לחץ על הקישור בטבלה שקוראת FASTA של מינים אחרים.
  3. לחץ על התיבות המשויכות למינים המעניינים כדי לבחור אותם. לחץ על שלח. העתק והדבק את הרצפים המופיעים בתחתית העמוד בתבנית FASTA למסמך עיבוד תמלילים.
  4. פתח חלון דפדפן שני ונווט אל כלי יישור הרצף המרובה של אומגה Clustal Omega 52 באתר האינטרנט של המכון האירופי לביואינפורמטיקה (EMBL-EBI)53,54: https://www.ebi.ac.uk/Tools/msa/clustalo/.
  5. הדבק את קבצי הרצף שעדיין נמצאים בלוח בתיבה בשלב 1 שקוראת רצפים בכל תבנית נתמכת. גלול לתחתית הדף ולחץ על שלח. חפש מתחת לתוצאות המיושרות (בגופן שחור) סמלים המציינים את מידת השימור של כל חומצת אמינו (סמלים מוגדרים בטבלה 1).
    הערה: ייתכן שיחלפו מספר דקות כדי ליצור את היישור.
  6. כדי להציג את תכונות חומצות האמינו בצבע, לחץ על הקישור הצג צבעים ישירות מעל הרצפים כדי לצבוע את חומצות האמינו בהתאם לתכונותיהן (המוגדרות בטבלה 2).
  7. העתק והדבק את יישור הרצף לתוכנית עיבוד תמלילים או מצגת כדי ליצור קובץ איור או איור (לדוגמה, איור 2).
    הערה: השתמש בגופן חד-מרחבי ליישור כגון Courier.
  8. כדי להציג פלטים אחרים מדף התוצאות של Clustal Omega , לחץ על הכרטיסיות המתאימות (כלומר, עץ מדריך או עץ פילוגנטי).
  9. לחץ על הכרטיסיה מציגי תוצאות לקבלת אפשרויות להצגת מידע הרצף באמצעות Jalview, תוכנית חינמית המתמחה בעריכה, הדמיה וניתוח של רצף מרובים55, או כדי לגשת לקישורים ישירים ל - MView ול - Simple Phylogeny56.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

כאן נשתמש במיקרופרוטאין mitoregulin המאומת (Mtln) כדוגמה כדי להדגים כיצד sORF שמור ייצור ציון PhyloCSF חיובי שניתן לדמיין ולנתח בקלות בדפדפן הגנום של UCSC. Mitoregulin היה מבואר בעבר כמו RNA לא מקודד (לשעבר גן אנושי מזהה LINC00116 ו מזהה גן עכבר 1500011K16Rik). גנומיקה השוואתית ושיטות ניתוח שימור רצפים מילאו תפקיד קריטי בתגלית הראשונית שלה 40,57,58,59,60,61, מה שמדגיש את חוזקן של שיטות אלה. עבור דוגמה זו, ייעשה שימוש במכלול העכבר GRCm38/mm10 (דצמבר 2011). ניתן לבצע את החיפוש באמצעות מזהי הגנים (mitoregulin, Mtln) או מיקום הגן (chr2:127,791,364-127,792,496) כמתואר בסעיף פרוטוקול 2. לחלופין, ניתן לחפש את רצף חומצות האמינו עבור mitoregulin (המוצג באיור 2) באמצעות הכלי BLAT (המתואר בפרוטוקול סעיף 3).

מסך דומה לזה המתואר באיור 1A יופיע עם מרכז המסלולים של PhyloCSF גלוי בחלק העליון של המסך. מסלולי ה-PhyloCSF המוחלקים (המוחלקים עם מודל מרקוב נסתר המגדיר הסתברות שכל קודון מקודד) מתוארים כשישה מסלולים בסך הכל, עם שלושה מסלולים המתאימים לחוט הפלוס של הדנ"א (המתואר בירוק כ-PhyloCSF +1, +2 ו-+3) ושלושה מסלולים המתאימים לחוט המינוס של הדנ"א (המתואר באדום כ-PhyloCSF -1, -2 ו -3). מסלולים אלה מייצגים את שלוש מסגרות הקריאה הפוטנציאליות עבור הגן המעניין בכל כיוון. בחלון הדפדפן, אקסונים מתוארים כמלבנים כחולים המחוברים על ידי קווים אופקיים כחולים דקים, המייצגים את האינטרונים. ראשי החצים על האזורים האינטרוניים מציינים באיזה כיוון מתמלל הגן (ולכן, באיזה גדיל להתמקד עבור ציון PhyloCSF). לדוגמה של Mtln באיור 1, ראשי החץ האינטרוניים מצביעים שמאלה. לכן, הגן Mtln מתועתק מגדיל המינוס של הדנ"א, וציון ה-PhyloCSF הרלוונטי מתואר במסלולים -1, -2 ו--3 (באדום).

כל מסלול PhyloCSF מתואר כקו שחור דק עם אזורי ניקוד שליליים המתוארים בירוק בהיר/אדום מתחת לקו ואזורי ניקוד חיוביים המסומנים בירוק/אדום כהה מעל הקו. כפי שתואר במבוא, ציון PhyloCSF חיובי מציין אזור שמור שככל הנראה מקודד. שים לב שעבור אזורים המקודדים חלבונים עם שימור רצף גבוה במיוחד, לעתים קרובות הם גם מקבלים ציון חיובי על גדיל האנטי-סנס; עם זאת, ציון PhyloCSF הוא בדרך כלל גבוה יותר על הגדיל הנכון. לדוגמה, ניתן לראות זאת באיור 1 עבור Mtln, שם רצף הקידוד הנכון מקבל ציונים גבוהים מאוד במסלול PhyloCSF -1, וגם גדיל האנטי-חוש (מסלול PhyloCSF +2) יוצר ציון חיובי. כפי שניתן לראות באיור 1A (המצוין בקופסה שחורה), יש אזור באקסון הראשון של Mtln שמקבל ציונים גבוהים מאוד במסלול PhyloCSF -1, מה שמרמז על כך שזה עשוי להתאים לאזור קידוד. כדי לבחון את האזור הזה בפירוט רב יותר, כדאי להגדיל ולהגדיל את האזור (איור 1B). כפי שניתן לראות באיור 1C,D, אזור הניקוד החיובי באקסון הראשון של Mtln מתחיל ישירות מעל קודון התחלה (איור 1C) ומסתיים בקודון עצירה (איור 1D), מה שמצביע על כך ש-ORF זה נשמר מאוד ומרמז מאוד שמדובר ב-ORF מקודד. מכיוון ש-Mtln נמצא על גדיל המינוס של הדנ"א, קודוני ההתחלה והעצירה מוצגים כהשלמה הפוכה של הקודון (כלומר, קודון ההתחלה של ATG מוצג כ-CAT [איור 1C] וקודון העצירה של TGA מוצג כ-TCA [איור 1D]).

בנוסף לשימוש ב- PhyloCSF כדי לחפש אזורים שמורים עם פוטנציאל קידוד מיקרופרוטאין, ניתן ליישם טכניקה זו גם כניתוח מעבר ראשון של רנ"א שאינם מקודדים כדי לשלול את נוכחותו של ORF משומר, ובכך לספק תמיכה בביאור שאינו מקודד. לדוגמה, ניתוח של lncRNA HOTAIR62,63 המאופיין היטב באמצעות PhyloCSF מראה ציון שלילי לאורך כל הגן על פני כל ששת המסלולים (איור 3), מה שמצביע באופן חזק על חוסר שימור רצף ומספק תמיכה לכך ש-HOTAIR מבואר כהלכה כ-RNA שאינו מקודד.

כפי שניתן לראות בבירור באיור 1, כל הקידוד ORF עבור mitoregulin ממוקם בתוך אקסון יחיד, ובכך מייצר קריאה פשוטה ופשוטה על ידי PhyloCSF עם אזור יחיד, ללא הפרעה, בעל ניקוד חיובי. עם זאת, נתוני רכזת המסלול של PhyloCSF אינם תמיד ברורים וקלים לפענוח. לדוגמה, המיקרופרוטאין mitolamban/Stmp1/Mm47 המקודד על ידי העכבר 1810058I24גן 47,64,65 מתאר ORF משומר המשתרע על פני שלושה אקסונים (איור 4A), וציון PhyloCSF החיובי קופץ ממסלול +2 באקסון 1 (איור 4B) למסלול +3 באקסון 2 (איור 4C), ואז בחזרה למסלול +2 באקסון 3 (איור 4D ). בעוד שבמבט ראשון זה נראה מבלבל, ההסבר די פשוט. PhyloCSF נותן ציונים לשש מסגרות הקריאה הפוטנציאליות (שלוש על גדיל הפלוס של הדנ"א ושלוש על גדיל המינוס) של אזורים גנומיים מבלי לקחת בחשבון את ארכיטקטורת האקסון/אינטרון הספציפית של כל גן. לכן, הוא שומר על מידע הרצף האינטרוני במחזוריות 3-נוקלאוטידים של מסגרות הקריאה. לפיכך, אם אינטרון מכיל מספר נוקלאוטידים שאינם מתחלקים בשלושה (כלומר, שלושה נוקלאוטידים/קודון), מסגרת הקריאה של PhyloCSF תקפוץ ממסלול אחד למשנהו.

לבסוף, ניתן להשתמש ב-PhyloCSF גם ביעילות כדי לזהות מספר רב של ORFs מקודדים שונים בתוך מולקולת RNA אחת. לדוגמה, המיקרופרוטאין MIEF1 (MIEF1-MP) מקודד בתוך 5' UTR של גורם התארכות מיטוכונדריאלי 1 (MIEF1)66 (איור 5). כאשר האזור הגנומי MIEF1 מנותח על-ידי PhyloCSF, ניתן להבחין בקלות בציון PhyloCSF חיובי בדיד המתאים ל-MIEF1-MP (איור 5C) במעלה הזרם של ה-CDS הראשי עבור MIEF1 (איור 5B). דיון נוסף על MIEF1 ועל המיקרופרוטאין הקשור אליו (MIEF1-MP) מובא להלן בדיון יחד עם סיכום החוזקות והחולשות של השיטות והפרוטוקולים המתוארים במאמר זה.

Figure 1
איור 1: ניתוח PhyloCSF של הגן mitoregulin (Mtln) מצביע על אזור של שימור רצף גבוה המתאים למיקרופרוטאין מאומת. (A) צילומי מסך של דפדפן הגנום של UCSC ומסלולי PhyloCSF מראים כי Mtln מכיל שני אקסונים ואינטרון יחיד. ראשי החץ בתוך האינטרון מצביעים שמאלה, מה שמעיד על כך שהגן Mtln מתועתק מגדיל המינוס של הדנ"א, ולכן ציוני ה-PhyloCSF הרלוונטיים מוצגים במסלולים -1, -2 ו--3 (באדום). רצף הקידוד המלא של mitoregulin כלול בתוך אקסון 1 ומקבל ציונים גבוהים במסלול PhyloCSF -1 (B). ניתן לראות בבירור קודון התחלה שמור בתחילת אזור הניקוד החיובי במסלול PhyloCSF -1 (C), המודגש באמצעות תיבה ירוקה (CAT, השלמה הפוכה ATG). בנוסף, קודון עצירה משומר (TCA, TGA משלים הפוך) מסומן עם תיבה אדומה בלוח (D), אשר מתיישרת עם הקצה של אזור PhyloCSF בעל הניקוד החיובי. מידע מפורט על הגן Mtln ניתן למצוא על ידי לחיצה על מזהה הגן Mtln בתוך התיבה הכחולה (מוצג בלוח A). יש לציין כי אזורי קידוד חלבונים שמורים מאוד מקבלים לעתים קרובות גם ציונים חיוביים על גדיל האנטי-חושים (ראו כאן במסלול PhyloCSF +2 עבור Mtln). עם זאת, ציון PhyloCSF הוא בדרך כלל גבוה יותר על הגדיל הנכון (מסלול PhyloCSF -1 בדוגמה זו). אנא לחץ כאן כדי להציג גרסה גדולה יותר של נתון זה.

Figure 2
איור 2: יישור רצף מינים מרובים של המיקרופרוטאין מיטורגולין שנוצר באמצעות תוכנית Clustal Omega. רצפי חומצות האמינו של mitoregulin עבור שמונת המינים שצוינו הוצאו כמפורט בסעיף פרוטוקול 6 והותאמו לכלי יישור הרצפים המרובים של Clustal Omega. התכונות של חומצות האמינו מסומנות על ידי צבע (אדום, קטן / הידרופובי; כחול, חומצי; מגנטה, בסיסי; ירוק, הידרוקסל / סולפהידריל / אמין) (מוגדר עוד יותר בטבלה 2). הסמלים שמתחת לחומצות האמינו מציינים את מידת השימור (כוכביות, שאריות שמורות לחלוטין; מעי גס, חומצות אמינו בעלות תכונות דומות מאוד; תקופות, שימור בין קבוצות בעלות תכונות דומות חלשות) (מפורט בהרחבה בטבלה 1). אנא לחץ כאן כדי להציג גרסה גדולה יותר של נתון זה.

Figure 3
איור 3: צילום מסך של מסלולי PhyloCSF עבור הרנ"א הארוך המאומת שאינו מקודד Hotair מראה חוסר שימור רצף לאורך כל הלוקוס הגנומי שלו. ראשי החצים באזור האינטרוני של הוטאייר מצביעים שמאלה, מה שמעיד על כך שה-lncRNA מתועתק מהחוט השלילי של הדנ"א, ולכן מסלולי ה-PhyloCSF -1, -2 ו--3 צריכים להיות במוקד הניתוח. שימו לב שציון ה-PhyloCSF שלילי בכל הגן (עבור כל ששת המסלולים), מה שמעיד על חוסר בשימור רצף, התומך בביאור הנכון שלו כרנ"א שאינו מקודד. אנא לחץ כאן כדי להציג גרסה גדולה יותר של נתון זה.

Figure 4
איור 4: ניתוח PhyloCSF של גן העכבר 1810058I24Rik , המקודד את המיקרופרוטאין מיטולמבן/Stmp1/Mm47. (A) הגן עכבר 1810058I24Rik מורכב משלושה אקסונים, וראשי החץ באזורים האינטרוניים מצביעים ימינה, מה שמצביע על כך שהוא מתועתק על גדיל הפלוס של הדנ"א ולכן יש לנתח את מסלולי PhyloCSF +1, +2 ו-+3. רצף קידוד המיקרופרוטאין המשומר משתרע על פני כל שלושת האקסונים, החל מאקסון 1 (B), קורא דרך אקסון 2 (C) ומסתיים באקסון 3 (D). שים לב שציון PhyloCSF החיובי נמצא במסלול +2 באקסון 1, במסלול +3 באקסון 2, וברצועת +2 באקסון 1. הסיבה לתנועה של הציון החיובי ממסלול אחד למשנהו היא ש-PhyloCSF מנתח את שש מסגרות הקריאה הפוטנציאליות של רצף הדנ"א ללא תלות במבנה האקסון/אינטרון של הגן. לכן, אינטרון המכיל מספר נוקלאוטידים שאינם מתחלקים בשלושה (שלושה נוקלאוטידים/קודון) יגרום להסטה במסגרת הקריאה למסלול אחר. אנא לחץ כאן כדי להציג גרסה גדולה יותר של נתון זה.

Figure 5
איור 5: ניתוח של הלוקוס הגנומי Mief1 עם PhyloCSF מזהה אזור עם פוטנציאל קידוד חלבונים ב-5' UTR שאינו תלוי ב-Mief1 CDS העיקרי ב-RNA המשותף. הודגם כי ה-ORF (uORF) המשומר הזה מקודד מיקרופרוטאין בשם Mief1-MP. (A) סקירה כללית של הלוקוס הגנומי Mief1 . ראשי החצים באינטרונים מצביעים ימינה, מה שמעיד על כך ש-Mief1 מתועתק מתוך גדיל הפלוס של הדנ"א (התמקדו ברצועות PhyloCSF +1, +2 ו-+3 כדי לקבוע את פוטנציאל הקידוד). ה-Mief1 CDS הראשי מקודד חלבון של 463 חומצות אמינו ומוצג בפאנל (B). עם זאת, יש גם ORF שמור מובהק במעלה הזרם בתוך 5' UTR של Mief1 שמקודד מיקרופרוטאין ייחודי של 70 חומצות אמינו בשם Mief1-MP (C). כפי שניתן לראות בפאנל C, ל- Mief1-MP יש קודון התחלה ועצירה שמור משלו בתוך ה- Mief1 5' UTR, וה- ORF מקבל ציונים גבוהים מאוד במסלול PhyloCSF +1, ומספק ראיות חזקות לכך שהוא מקודד מיקרופרוטאין פונקציונלי. קיצורים: ORF = מסגרת קריאה פתוחה; uORF = במעלה הזרם ORF; UTR = אזור לא מתורגם; CDS = רצף קידוד. אנא לחץ כאן כדי להציג גרסה גדולה יותר של נתון זה.

סמל רמת שימור חומצות אמינו חומצות אמינו מקובצות
כוכבית (*) שאריות שנשמרו במלואן לא ישים (שאריות בודדות שנשמרו במלואן)
נקודתיים (:) קבוצות עם מאפיינים דומים מאוד סט; NEQK; NHQK; NDEQ; QHRK; מילב; מילף; היי; FYW
נקודה (.) קבוצות עם מאפיינים דומים חלשים CSA; טרקטורון; SAG; STNK; STPA; SGND; SNDEQK; NDEQHK; NEQHRK; FVLIM; HFY
רווח (ללא סמל) אין דמיון לא ישים (אין דמיון)

טבלה 1: הגדרות של סמלי קונצנזוס עבור יישורי רצף מרובים שנוצרו על-ידי Clustal Omega. יישור רצף המינים המרובים המוצג באיור 2 נוצר באמצעות Clustal Omega52. קיצורים: סרין (S), תראונין (T), אלנין (A), אספרגין (N), חומצה גלוטמית (E), גלוטמין (Q), ליזין (K), חומצה אספרטית (D), ארגינין (R), מתיונין (M), איזולאוצין (I), לאוצין (L), פנילאלנין (F), היסטידין (H), טירוזין (Y), טריפטופן (W), ציסטאין (C), ואלין (V), גליצין (G), פרולין (P).

צבע גופן מאפיין שאריות חומצות אמינו [קיצור]
אדום קטן, הידרופובי אלנין [A], ואלין [V], פנילאלנין [F], פרולין [P], מתיונין [M], איזולאוצין [I], לאוצין [L], טריפטופן [W]
כחול חומצי חומצה אספרטית [D], חומצה גלוטמית [E]
מגנטה בסיסי ארגינין [R], ליזין [K]
ירוק הידרוקס, סולפהידריל, אמין, +G סרין [S], תראונין [T], טירוזין [Y], היסטידין [H], ציסטאין [C], אספרגין [N], גליצין [G], גלוטמין [Q]

טבלה 2: המאפיינים של חומצות האמינו המתוארות באיור 2. אומגה52 מגושמת שימשה ליצירת יישור הרצף המרובה המוצג באיור 2.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

הפרוטוקול המוצג כאן מספק הוראות מפורטות כיצד לחקור אזורים גנומיים בעלי עניין עבור פוטנציאל קידוד מיקרופרוטאין באמצעות PhyloCSF בדפדפן הגנום הידידותי למשתמש UCSC 48,49,50,51. כפי שפורט לעיל, PhyloCSF הוא אלגוריתם גנומי השוואתי רב עוצמה המשלב מודלים פילוגנטיים ותדרי החלפת קודון כדי לזהות חתימות אבולוציוניות האופייניות לגנים המקודדים חלבונים48,49. PhyloCSF נמצא בשימוש נרחב לזיהוי מיקרופרוטאינים פונקציונליים באזורים גנומיים שבעבר ביאורו כ-38,39,40,41,42,43,44,45,46,47 והוכח כי גישה זו עולה בביצועיה על שיטות גנומיות השוואתיות אחרות עבור רצפים קצרים כגון מיקרופרוטאינים קטנים עד 13 חומצות אמינו ועבור אקסונים קטנים של חלבונים קנוניים 35,48,49., יש לציין כי התועלת של PhyloCSF כשיטה חזקה לזיהוי רצפים פונקציונליים של קידוד חלבונים באמצעות שימור אבולוציוני משתרעת מעבר לזו של מיני בעלי חוליות וחסרי חוליות, ואף יושמה לאחרונה על גנומים נגיפיים כדי לחקור בהצלחה את יכולת קידוד החלבונים של הגנום SARS-CoV-267.

בנוסף לזיהוי רצפי קידוד פוטטיביים בתוך רנ"א שאינם מקודדים מבוארים, היתרון של PhyloCSF הוא שהוא יכול גם לזהות באופן אמין מיקרופרוטאינים משומרים המקודדים על ידי ORFs בתוך אזורים לא מתורגמים מבוארים (UTRs) של גנים המקודדים חלבונים קנוניים, כולל גנים המקודדים במעלה הזרם ו-3' במורד הזרם (uORFs ו-dORFs, בהתאמה)8,19,66,68 . לדוגמה, המיקרופרוטאין MIEF1 (MIEF1-MP) מקודד ב-5' UTR של גורם התארכות מיטוכונדריאלי 1 (MIEF1)66. במקרה של MIEF1-MP, ציון PhyloCSF חיובי בדיד המתאים ל-MIEF1-MP נצפה במעלה הזרם של ה-ORF המקודד MIEF1 (איור 5). בעוד שחלק מהמיקרופרוטאינים המקודדים על ידי uORF מתקשרים ישירות עם החלבונים הקנוניים במורד הזרם ב-mRNA המשותף שלהם (לדוגמה, MIEF1-MP ו-MIEF1), אחרים פועלים באופן בלתי תלוי בחלבון המקודד על-ידי ה-CDS66,68 הראשי. לכן, כאשר מאפיינים מיקרופרוטאינים המקודדים על ידי uORF, אין להניח שהם פועלים באמצעות ויסות ישיר של מוצר החלבון שלהם במורד הזרם.

בעוד של- PhyloCSF יש חוזקות ברורות רבות ככלי לזיהוי רצפי קידוד מיקרופרוטאין שמורים, חשוב להכיר במספר מגבלות של שיטה זו. ראשית, בעוד ששימור רצפים מצביע על כך שאזור גנומי עבר סלקציה פונקציונלית ולכן הוא מקודד, היעדר שימור חזק וציון PhyloCSF שלילי כתוצאה מכך אינם שוללים באופן סופי את פוטנציאל הקידוד של רצף נתון. במילים אחרות, הסתמכות בלעדית על PhyloCSF עלולה לגרום לפיקוח על ORFs מתורגמים שאינם נשמרים היטב אך עדיין מייצרים מיקרופרוטאינים פונקציונליים. יש לציין כי אזורים גנומיים עם ציוני שימור או שימור שליליים נמוכים יכולים להתאים לאזורי קידוד ספציפיים למינים או לאלה של גנים "צעירים" אבולוציוניים באמצעות סטיית רצף או לידת גן דה נובו 46,69,70,71,72,73,74. לדוגמה, המיקרופרוטאין ASAP, המקודד על ידי מה שנחשב בעבר לרנ"א LINC00467 האנושי שאינו מקודד, אינו מקבל ציון חיובי על ידי PhyloCSF מכיוון שרצף חומצות האמינו נשמר רק ביונקים גבוהים יותר75. בנוסף, מחקרים אחרונים זיהו מספר מיקרופרוטאינים ספציפיים לבני אדם, כולל אחד המקודד על ידי lncRNA הבין-גני RP3-527G5.1, שאינו מייצר ציון PhyloCSF חיובי68,72. בהקשר זה, היעדר ציון PhyloCSF חיובי אינו יכול להתפרש כהוכחה לאזור שאינו מקודד ויש לפרש אותו בזהירות.

שיקול שני שיש לזכור בעת השימוש ב- PhyloCSF הוא שלמרות שציון חיובי מרמז מאוד על בחירה פונקציונלית ויכולת קידוד חלבונים, קו ראיות זה אינו יכול לעמוד בפני עצמו ויש לאמת אותו בניסוי. דוגמאות לשיטות שניתן להשתמש בהן כדי ליצור ראיות תומכות לביטוי מיקרופרוטאין יציב כוללות זיהוי של החלבון הפוטטיבי על ידי ספקטרומטריית מסה או כתם מערבי באמצעות נוגדן שהועלה כנגד רצף המיקרופרוטאינים המעניין. לחלופין, מכיוון שזה יכול להיות מאתגר ליצור נוגדנים אמינים למיקרופרוטאינים בשל היעדר אפשרויות רצף לאנטיגניות אופטימלית, ניתן גם להשתמש בקריספר/Cas9 ובמסלול התיקון המכוון להמולוגיה (HDR) כדי להכניס תג אפיטופ לתוך הלוקוס האנדוגני במסגרת עם רצף המיקרופרוטאין הפוטטיבי, ובכך להקל על זיהוי החלבון המעניין באמצעות נוגדן בעל זיקה גבוהה (למשל, דגל, HA, V5, Myc)18. מגבלה אחרונה של PhyloCSF להכיר בכך היא שלמרות שהוא משולב כיום ברבים מהמכלולים הגנומיים הנפוצים, כולל הומו ספיינס (hg19 אנושי, hg38), Mus musculus (עכבר mm10, mm39), גאלוס גאלוס (עוף, galGal4, galGal6), Drosophila melanogaster (זבוב פירות, dm6), Caenorhabditis elegans (נמטודות, ce11), ו- SARS-CoV-2 (wuhCor1), ישנם עדיין מינים רבים שאינם ניתנים כיום לחקירה ישירות בדפדפן הגנום של UCSC.

זיהוי של תחומים שמורים או מאפייני רצף בתוך מיקרופרוטאינים מזוהים יכול לעזור להגביר את הביטחון ברלוונטיות התפקודית שלהם ולספק תובנה מסוימת לגבי הפונקציה הפוטטיבית שלהם. כאן אנו מספקים המלצות לכלים ומשאבים ספציפיים שניתן להשתמש בהם כדי לנתח רצפי חומצות אמינו מיקרופרוטאין שזוהו בפירוט רב יותר כדי לקבל תובנה כזו. הכלים הספציפיים המפורטים להלן (ומסוכמים בטבלת החומרים) זמינים לציבור באופן חופשי, ומצאנו שהם ידידותיים במיוחד למשתמש וחזקים במחקרי מיקרופרוטאין 18,38,39,40,41,47. מעבר לכלים המתוארים כאן, ישנם שפע של משאבים נוספים שניתן למצוא בפורטלי משאבים ביואינפורמטיים כגון Expasy (https://www.expasy.org) ו- EMBL-EBI (https://www.ebi.ac.uk/services/all). עם זאת, פירוט הפרטים עבור כל אחד מהכלים במאגרים אלה הוא מעבר להיקף של מאמר זה. כאן אנו ממליצים על המשאבים הבאים.

ראשית, TMHMM76 (https://services.healthtech.dtu.dk/service.php?TMHMM-2.0) מנתח רצפי חלבונים בעלי עניין לנוכחותם של תחומי טרנס-ממברנה. יש לציין כי מספר מיקרופרוטאינים שאופיינו באופן פונקציונלי עד כה מכילים תחומי טרנס-ממברנה חד-פעמיים, מה שמקל על לוקליזציה שלהם לאזורי ממברנה ומאפשר את הוויסות הישיר שלהם של תעלות יונים, מחליפים ואנזימים הקשורים לממברנה30. שנית, המרכז הלאומי למידע ביוטכנולוגי (NCBI) חיפוש תחומים משומר77 (https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi) הוא כלי פופולרי המשמש לזיהוי תחומים שמורים בתוך רצפי חלבונים או קידוד נוקלאוטידים. שלישית, מסד הנתונים של משפחת חלבונים (Pfam)78 (http://pfam.xfam.org) מספק יישור וסיווגים של משפחות חלבונים ותחומים. רביעית, WoLF PSORT79 (https://wolfpsort.hgc.jp/) הוא כלי שניתן להשתמש בו כדי לחזות לוקליזציה של חלבונים תת-תאיים. חמישית, COXPRESdB80 הוא מסד נתונים של ביטוי משותף של גנים (https://coxpresdb.jp) המספק קשרי גנים מווסתים יחד כדי להעריך תפקודי גנים. לבסוף, SignalP 6.081 היא תוכנית חיזוי (https://services.healthtech.dtu.dk/service.php?SignalP) הנמצאת בשימוש נרחב, המזהה את נוכחותו של רצף פפטידי אות ומנבאת את מיקומו של אתר הבקיעה.

לסיכום, ניתן להשתמש בשיטות המתוארות כאן כדי לנתח ביעילות אזורים גנומיים בעלי עניין עבור פוטנציאל קידוד חלבונים באמצעות PhyloCSF בדפדפן הגנום של UCSC. שיטות אלה נגישות מאוד וניתן ללמוד אותן בקלות וליישם אותן ביעילות על ידי אנשים ללא הכשרה מוקדמת או מומחיות בביואינפורמטיקה או בגנומיקה השוואתית. כפי שהודגם כאן בפירוט, PhyloCSF הוא כלי רב עוצמה שניתן ליישם כניתוח מעבר ראשון כדי לעזור להבחין בין קידוד חלבונים לעומת גנים שאינם מקודדים בגנומים של בעלי חוליות, חסרי חוליות ונגיפים, והחוזקות של גישה זו עולות במידה רבה על החולשות שצוינו.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

המחברים מצהירים כי אין להם אינטרסים כלכליים מתחרים.

Acknowledgments

עבודה זו נתמכה על ידי מענקים מהמכונים הלאומיים לבריאות (HL-141630 ו- HL-160569) ומקרן המחקר לילדים של סינסינטי (פרס הנאמן).

Materials

Name Company Catalog Number Comments
Website Website Address Requirements
Clustal Omega Multiple Sequence Alignment Tool https://www.ebi.ac.uk/Tools/msa/clustalo/ Web browser Multiple sequence alignment program for the efficient alignment of FASTA sequences (i.e. for cross-species comparison of identified microproteins)
COXPRESSdb https://coxpresdb.jp Web browser Provides co-regulated gene relationships to estimate gene functions
EMBL-EBI Bioinformatics Tools FAQs https://www.ebi.ac.uk/seqdb/confluence/display/JDSAT/Bioinformatics+Tools+FAQ Web browser Frequently Asked Questions (FAQs) for EMBL-EBI tools. Includes the color coding key for protein sequence alignments
European Bioinformatics Institute (EMBL-EBI),
Tools and Data Resources
https://www.ebi.ac.uk/services/all Web browser Comprehensive list of freely available websites, tools and data resources
Expasy - Swiss Bioinformatics Resource Portal https://www.expasy.org Web browser Suite of bioinformatic tools and resources for protein sequence analysis that is maintained by the Swiss Institute of Bioinformatics (SIB)
National Center for Biotechnology Information (NCBI)
Conserved Domain Search
https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi Web browser Search tool to identify conserved domains within protein or coding nucleotide sequences
Pfam 35 http://pfam.xfam.org Web browser Protein family (Pfam) database, provides alignments and classification of protein families and domains
PhyloCSF Track Hub Description https://genome.ucsc.edu/cgi-bin/hgTrackUi?hgsid=1267045267_TEc99h2oW5Q
edaCd4ir8aZ65ryaD&db=mm10
&c=chr2&g=hub_109801_
PhyloCSF_smooth
Web browser Detailed description of the Smoothed PhyloCSF tracks and PhyloCSF Track Hub
   
   
   
   
   
SignalP 6.0 https://services.healthtech.dtu.dk/service.php?SignalP-6.0 Web browser Predicts the presence of signal peptides and the location of their cleavage sites
TMHMM - 2.0 https://services.healthtech.dtu.dk/service.php?TMHMM-2.0 Web browser Prediction of transmembrane helices in proteins
UCSC Genome Browser BLAT Search https://genome.ucsc.edu/cgi-bin/hgBlat Web browser Tool used to find genomic regions using DNA or protein sequence information
UCSC Genome Browser Gateway https://genome.ucsc.edu/cgi-bin/hgGateway Web browser Direct link to the UCSC Genome Browser Gateway
UCSC Genome Browser Home https://genome.ucsc.edu/ Web browser Home website for the UCSC Genome Browser
UCSC Genome Browser Track Data Hubs https://genome.ucsc.edu/cgi-bin/hgHubConnect#publicHubs Web browser Direct link to Track Data Hubs/Public Hubs database to search for and load the PhyloCSF Tracks
UCSC Genome Browser User Guide https://genome.ucsc.edu/goldenPath/help/hgTracksHelp.html Web browser Comprehensive user guide detailing how to navigate the UCSC Genome Browser
WoLF PSORT https://wolfpsort.hgc.jp Web browser Protein subcellular localization prediction tool

DOWNLOAD MATERIALS LIST

References

  1. Collins, F. S., Morgan, M., Patrinos, A. The human genome project: lessons from large-scale biology. Science. 300 (5617), 286-290 (2003).
  2. Lander, E. S., et al. Initial sequencing and analysis of the human genome. Nature. 409 (6822), 860-921 (2001).
  3. Sachidanandam, R., et al. A map of human genome sequence variation containing 1.42 million single nucleotide polymorphisms. Nature. 409 (6822), 928-933 (2001).
  4. Venter, J. C., et al. The sequence of the human genome. Science. 291 (5507), 1304-1351 (2001).
  5. Fuentes-Pardo, A. P., Ruzzante, D. E. Whole-genome sequencing approaches for conservation biology: Advantages, limitations and practical recommendations. Molecular Ecology. 26 (20), 5369-5406 (2017).
  6. Carninci, P., et al. The transcriptional landscape of the mammalian genome. Science. 309 (5740), 1559-1563 (2005).
  7. Maeda, N., et al. Transcript annotation in FANTOM3: mouse gene catalog based on physical cDNAs. PLoS Genetics. 2 (4), 62 (2006).
  8. Schlesinger, D., Elsasser, S. J. Revisiting sORFs: overcoming challenges to identify and characterize functional microproteins. The FEBS Journal. 289 (1), 53-74 (2022).
  9. Ingolia, N. T., et al. Ribosome profiling reveals pervasive translation outside of annotated protein-coding genes. Cell Reports. 8 (5), 1365-1379 (2014).
  10. Ingolia, N. T., Ghaemmaghami, S., Newman, J. R., Weissman, J. S. Genome-wide analysis in vivo of translation with nucleotide resolution using ribosome profiling. Science. 324 (5924), 218-223 (2009).
  11. Aspden, J. L., et al. Extensive translation of small Open Reading Frames revealed by Poly-Ribo-Seq. Elife. 3, 03528 (2014).
  12. Andrews, S. J., Rothnagel, J. A. Emerging evidence for functional peptides encoded by short open reading frames. Nature Reviews Genetics. 15 (3), 193-204 (2014).
  13. Mackowiak, S. D., et al. Extensive identification and analysis of conserved small ORFs in animals. Genome Biology. 16 (1), 1-21 (2015).
  14. Ruiz-Orera, J., Messeguer, X., Subirana, J. A., Alba, M. M. Long non-coding RNAs as a source of new peptides. Elife. 3, 03523 (2014).
  15. Basrai, M. A., Hieter, P., Boeke, J. D. Small open reading frames: beautiful needles in the haystack. Genome Research. 7 (8), 768-771 (1997).
  16. Frith, M. C., et al. The abundance of short proteins in the mammalian proteome. PLoS Genetics. 2 (4), 52 (2006).
  17. Ladoukakis, E., Pereira, V., Magny, E. G., Eyre-Walker, A., Couso, J. P. Hundreds of putatively functional small open reading frames in Drosophila. Genome Biology. 12 (11), 118 (2011).
  18. Makarewich, C. A., Olson, E. N. Mining for Micropeptides. Trends in Cell Biology. 27 (9), 685-696 (2017).
  19. Wright, B. W., Yi, Z., Weissman, J. S., Chen, J. The dark proteome: translation from noncanonical open reading frames. Trends in Cell Biology. , (2021).
  20. Saghatelian, A., Couso, J. P. Discovery and characterization of smORF-encoded bioactive polypeptides. Nature Chemical Biology. 11 (12), 909-916 (2015).
  21. Kastenmayer, J. P., et al. Functional genomics of genes with small open reading frames (sORFs) in S. cerevisiae. Genome Research. 16 (3), 365-373 (2006).
  22. Smith, J. E., et al. Translation of small open reading frames within unannotated RNA transcripts in Saccharomyces cerevisiae. Cell Reports. 7 (6), 1858-1866 (2014).
  23. Lin, M. F., et al. Revisiting the protein-coding gene catalog of Drosophila melanogaster using 12 fly genomes. Genome Research. 17 (12), 1823-1836 (2007).
  24. Magny, E. G., et al. Conserved regulation of cardiac calcium uptake by peptides encoded in small open reading frames. Science. 341 (6150), 1116-1120 (2013).
  25. Bazzini, A. A., et al. Identification of small ORFs in vertebrates using ribosome footprinting and evolutionary conservation. EMBO J. 33 (9), 981-993 (2014).
  26. Ingolia, N. T., Lareau, L. F., Weissman, J. S. Ribosome profiling of mouse embryonic stem cells reveals the complexity and dynamics of mammalian proteomes. Cell. 147 (4), 789-802 (2011).
  27. Ma, J., et al. Discovery of human sORF-encoded polypeptides (SEPs) in cell lines and tissue. J Proteome Res. 13 (3), 1757-1765 (2014).
  28. Slavoff, S. A., et al. Peptidomic discovery of short open reading frame-encoded peptides in human cells. Nature Chemical Biology. 9 (1), 59-64 (2013).
  29. Khitun, A., Ness, T. J., Slavoff, S. A. Small open reading frames and cellular stress responses. Molecular Omics. 15 (2), 108-116 (2019).
  30. Makarewich, C. A. The hidden world of membrane microproteins. Experimental Cell Research. 388 (2), 111853 (2020).
  31. Pueyo, J. I., Magny, E. G., Couso, J. P. New peptides under the s(ORF)ace of the genome. Trends in Biochemical Sciences. 41 (8), 665-678 (2016).
  32. Pauli, A., et al. Toddler: an embryonic signal that promotes cell movement via Apelin receptors. Science. 343 (6172), 1248636 (2014).
  33. Chng, S. C., Ho, L., Tian, J., Reversade, B. ELABELA: a hormone essential for heart development signals via the apelin receptor. Developmental Cell. 27 (6), 672-680 (2013).
  34. Lee, C., et al. The mitochondrial-derived peptide MOTS-c promotes metabolic homeostasis and reduces obesity and insulin resistance. Cell Metabolism. 21 (3), 443-454 (2015).
  35. Pauli, A., Valen, E., Schier, A. F. Identifying (non-)coding RNAs and small peptides: challenges and opportunities. Bioessays. 37 (1), 103-112 (2015).
  36. Plaza, S., Menschaert, G., Payre, F. In search of lost small peptides. Annual Review of Cell and Developmental Biology. 33, 391-416 (2017).
  37. Kiniry, S. J., Michel, A. M., Baranov, P. V. Computational methods for ribosome profiling data analysis. Wiley Interdisciplinary Reviews: RNA. 11 (3), 1577 (2020).
  38. Anderson, D. M., et al. A micropeptide encoded by a putative long noncoding RNA regulates muscle performance. Cell. 160 (4), 595-606 (2015).
  39. Anderson, D. M., et al. Widespread control of calcium signaling by a family of SERCA-inhibiting micropeptides. Science Signaling. 9 (457), (2016).
  40. Makarewich, C. A., et al. MOXI Is a mitochondrial micropeptide that enhances fatty acid beta-oxidation. Cell Reports. 23 (13), 3701-3709 (2018).
  41. Nelson, B. R., et al. A peptide encoded by a transcript annotated as long noncoding RNA enhances SERCA activity in muscle. Science. 351 (6270), 271-275 (2016).
  42. Chu, Q., et al. Regulation of the ER stress response by a mitochondrial microprotein. Nat Commun. 10 (1), 4883 (2019).
  43. Senis, E., et al. TUNAR lncRNA encodes a microprotein that regulates neural differentiation and neurite formation by modulating calcium dynamics. Frontiers in Cell and Developmental Biology. 9, 747667 (2021).
  44. Li, M., et al. A putative long noncoding RNA-encoded micropeptide maintains cellular homeostasis in pancreatic beta cells. Molecular Therapy-Nucleic Acids. 26, 307-320 (2021).
  45. Martinez, T. F., et al. Accurate annotation of human protein-coding small open reading frames. Nature Chemical Biology. 16 (4), 458-468 (2020).
  46. van Heesch, S., et al. The translational landscape of the human heart. Cell. 178 (1), 242-260 (2019).
  47. Makarewich, C. A., et al. The cardiac-enriched microprotein mitolamban regulates mitochondrial respiratory complex assembly and function in mice. Proceedings of the National Academy of Sciences of the United States of America. 119 (6), 2120476119 (2022).
  48. Lin, M. F., Jungreis, I., Kellis, M. PhyloCSF: a comparative genomics method to distinguish protein coding and non-coding regions. Bioinformatics. 27 (13), 275-282 (2011).
  49. Mudge, J. M., et al. Discovery of high-confidence human protein-coding genes and exons by whole-genome PhyloCSF helps elucidate 118 GWAS loci. Genome Research. 29 (12), 2073-2087 (2019).
  50. Kent, W. J., et al. The human genome browser at UCSC. Genome Research. 12 (6), 996-1006 (2002).
  51. Raney, B. J., et al. Track data hubs enable visualization of user-defined genome-wide annotations on the UCSC Genome Browser. Bioinformatics. 30 (7), 1003-1005 (2014).
  52. Sievers, F., et al. scalable generation of high-quality protein multiple sequence alignments using Clustal Omega. Molecular Systems Biology. 7 (1), 539 (2011).
  53. Goujon, M., et al. A new bioinformatics analysis tools framework at EMBL-EBI. Nucleic Acids Research. 38 (2), 695-699 (2010).
  54. Harte, N., et al. Public web-based services from the European Bioinformatics Institute. Nucleic Acids Research. 32 (2), 3-9 (2004).
  55. Waterhouse, A. M., Procter, J. B., Martin, D. M., Clamp, M., Barton, G. J. Jalview Version 2-a multiple sequence alignment editor and analysis workbench. Bioinformatics. 25 (9), 1189-1191 (2009).
  56. Madeira, F., et al. The EMBL-EBI search and sequence analysis tools APIs in 2019. Nucleic Acids Research. 47 (1), 636-641 (2019).
  57. Friesen, M., et al. Mitoregulin controls beta-oxidation in human and mouse adipocytes. Stem Cell Reports. 14 (4), 590-602 (2020).
  58. Stein, C. S., et al. Mitoregulin: A lncRNA-Encoded microprotein that supports mitochondrial supercomplexes and respiratory efficiency. Cell Reports. 23 (13), 3710-3720 (2018).
  59. Chugunova, A., et al. LINC00116 codes for a mitochondrial peptide linking respiration and lipid metabolism. Proceedings of the Nationall Academy of Sciences of the United States of America. 116 (11), 4940-4945 (2019).
  60. Lin, Y. F., et al. A novel mitochondrial micropeptide MPM enhances mitochondrial respiratory activity and promotes myogenic differentiation. Cell Death and Disease. 10 (7), 528 (2019).
  61. Wang, L., et al. The micropeptide LEMP plays an evolutionarily conserved role in myogenesis. Cell Death and Disease. 11 (5), 357 (2020).
  62. He, S., Liu, S., Zhu, H. The sequence, structure and evolutionary features of HOTAIR in mammals. BMC Evolutionary Biology. 11 (1), 1-14 (2011).
  63. Rinn, J. L., et al. Functional demarcation of active and silent chromatin domains in human HOX loci by noncoding RNAs. Cell. 129 (7), 1311-1323 (2007).
  64. Bhatta, A., et al. A Mitochondrial micropeptide is required for activation of the Nlrp3 inflammasome. Journal of Immunology. 204 (2), 428-437 (2020).
  65. Zhang, D., et al. Functional prediction and physiological characterization of a novel short trans-membrane protein 1 as a subunit of mitochondrial respiratory complexes. Physiological Genomics. 44 (23), 1133-1140 (2012).
  66. Rathore, A., et al. MIEF1 microprotein regulates mitochondrial translation. Biochemistry. 57 (38), 5564-5575 (2018).
  67. Jungreis, I., Sealfon, R., Kellis, M. SARS-CoV-2 gene content and COVID-19 mutation impact by comparing 44 Sarbecovirus genomes. Nature Communications. 12 (1), 2642 (2021).
  68. Chen, J., et al. Pervasive functional translation of noncanonical human open reading frames. Science. 367 (6482), 1140-1146 (2020).
  69. Ruiz-Orera, J., Verdaguer-Grau, P., Villanueva-Canas, J. L., Messeguer, X., Alba, M. M. Translation of neutrally evolving peptides provides a basis for de novo gene evolution. Nature Ecology and Evolution. 2 (5), 890-896 (2018).
  70. Blevins, W. R., et al. Uncovering de novo gene birth in yeast using deep transcriptomics. Nature Communications. 12 (1), 604 (2021).
  71. Papadopoulos, C., et al. Intergenic ORFs as elementary structural modules of de novo gene birth and protein evolution. Genome Research. , (2021).
  72. Vakirlis, N., Duggan, K. M., McLysaght, A. De novo birth of functional, human-specific microproteins. bioRxiv. , 462744 (2021).
  73. Van Oss, S. B., Carvunis, A. R. De novo gene birth. PLoS Genetics. 15 (5), 1008160 (2019).
  74. Andersson, D. I., Jerlstrom-Hultqvist, J., Nasvall, J. Evolution of new functions de novo and from preexisting genes. Cold Spring Harbor Perspectives in Biology. 7 (6), 017996 (2015).
  75. Ge, Q., et al. Micropeptide ASAP encoded by LINC00467 promotes colorectal cancer progression by directly modulating ATP synthase activity. Journal of Clinical Investigations. 131 (22), (2021).
  76. Sonnhammer, E. L., von Heijne, G., Krogh, A. A hidden Markov model for predicting transmembrane helices in protein sequences. Proceedings. International Conference on Intelligent Syststems for Molecular Biology. 6, 175-182 (1998).
  77. Lu, S., et al. CDD/SPARCLE: the conserved domain database in 2020. Nucleic Acids Research. 48, 265-268 (2020).
  78. Mistry, J., et al. Pfam: The protein families database in 2021. Nucleic Acids Research. 49, 412-419 (2021).
  79. Horton, P., et al. PSORT: protein localization predictor. Nucleic Acids Research. 35 (2), 585-587 (2007).
  80. Obayashi, T., Kagaya, Y., Aoki, Y., Tadaka, S., Kinoshita, K. COXPRESdb v7: a gene coexpression database for 11 animal species supported by 23 coexpression platforms for technical evaluation and evolutionary inference. Nucleic Acids Research. 47, 55-62 (2019).
  81. Teufel, F., et al. SignalP 6.0 predicts all five types of signal peptides using protein language models. Nature Biotechnology. , 01156 (2022).

Tags

ביולוגיה גיליון 185
גישה משולבת לזיהוי מיקרופרוטאינים וניתוח רצף
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Brito-Estrada, O., Hassel, K. R.,More

Brito-Estrada, O., Hassel, K. R., Makarewich, C. A. An Integrated Approach for Microprotein Identification and Sequence Analysis. J. Vis. Exp. (185), e63841, doi:10.3791/63841 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter