Genetics

קביעת הסבירות של Variant פתוגניות באמצעות חומצת אמינו ברמת ניתוח אות לרעש של וריאציה גנטית

Published: January 16, 2019 doi: 10.3791/58907

¹Department of Pediatrics, Baylor College of Medicine, ²Department of Pediatrics, Division of Cardiology, Duke University School of Medicine

Summary

ניתוח אות לרעש ברמת חומצת אמינו קובע מהי השכיחות של וריאציה גנטית במיקום נתון חומצת אמינו מנורמל על רקע וריאציה גנטית של אוכלוסיה נתונה. דבר זה מאפשר זיהוי של variant "נקודות חמות" בתוך רצף חלבונים (אות) המתנשא מעל התדירות של שמתגלה נדירה באוכלוסיה (רעש).

Abstract

החידושים העלות ואת המהירות של הדור הבא רצף גנטי שיצר פיצוץ של exome כל קליניים ובדיקות הגנום כולו. בזמן זה הוביל זיהוי מוגברת של מוטציות פתוגניים סביר הקשורים עם תסמונות גנטיות, זה גם באופן דרמטי גדל המספר אגב מצא וריאציות גנטיות של משמעות לא ידוע (VUS). קביעת משמעות קלינית גרסאות אלה היא אתגר גדול עבור רופאים ומדענים. גישה זו כדי לסייע בקביעת הסבירות פתוגניות הוא ניתוח אות לרעש באותה רמת חלבון רצף. פרוטוקול זה מתאר שיטה לניתוח אות לרעש ברמת חומצת אמינו המנצלת תדר משתנה במיקום כל חומצת אמינו של החלבון עם חלבון ידוע טופולוגיה כדי לזהות אזורים של הרצף ראשי עם הסבירות מוגברות של וריאציה פיפטות (ביחס האוכלוסייה וריאציה "רקע"). שיטה זו ניתן לזהות מיקום משקע חומצת אמינו "נקודות חמות" סימן פיפטות גבוהה, בו ניתן להשתמש כדי ללטש את המשקל אבחון של VUSs כגון אלה המזוהה על-ידי הבא הדור בדיקה גנטית.

Introduction

השיפור המהיר ב רצף גנטי פלטפורמות יש מהפכה את הנגישות ואת תפקיד הגנטיקה ברפואה. ברגע מרותק גן יחיד, או חופן של גנים, הקטנת עלויות ולהגביר מהירות של הדור הבא רצף גנטי הוביל רצף שגרתי של מכלול של הגנום של קידוד רצף (exome כל רצף, ווס), (את כל הגנים רצף הגנום כולו, WGS) בסביבה קלינית. וס ו- WGS שימשו לעיתים קרובות בסביבה של neonates חולה אנוש, וילדים עם חשש לתסמונת גנטית איפה כלי אבחון מוכחת שיכולים לשנות ניהול קליני¹^,². בזמן זה הוביל זיהוי מוגברת של מוטציות פתוגניים סביר הקשורים עם תסמונות גנטיות, הוא גדל גם באופן דרמטי את מספר וריאציות גנטיות מצאו דרך אגב, או תוצאות חיוביות לא צפוי, של האבחון לא ידוע משמעות (VUS). בעוד כמה גרסאות אלה הם התעלמו, לא דווחו, הווריאציות ההתאמה לשפות אחרות כדי גנים הקשורים קטלנית או חולנית מאוד מחלות מדווחים לעתים קרובות. הנחיות הנוכחי ממליצים דיווח של משתנים מקריים נמצאו גנים ספציפיים אשר ייתכן כי היתרון רפואי למטופל, כולל גנים הקשורים להתפתחות פתאומית הלב מוות-נטייה למחלות כמו cardiomyopathies ו channelopathies³. למרות המלצה זו תוכננה כדי ללכוד אנשים בסיכון של מחלה נטייה-רואים את זה, הרגישות של זיהוי variant ובמעמד ירידה לפרטים. זו באה לידי ביטוי מספר גדל והולך של VUSs, דרך אגב מקבילו גרסאות לא ברורה של תוכנית השירות לאבחון רחוק עולה על התדר של מחלות המתאימות אוכלוסיה נתונה⁴. אחת כזו, תסמונת QT ארוך (LQTS), היא מחלת channelopathy לב הקנוני נגרמת על ידי מוטציות ההתאמה לשפות אחרות כדי גנים אשר לקודד תעלות יונים הלב, או ערוץ אינטראקציה חלבונים, וכתוצאה מכך מתעכבת רה-פולריזציה לב⁵. זה מתעכב רה-פולריזציה, על ידי אלקטרוקרדיוגרם ממושכת על נח רל, התוצאה נטייה חשמל כדי קטלנית להפרעה כמו torsades דה pointes. בעוד מספר גנים קושרו להתפתחות של מחלה זו, מוטציות בגן KCNQ1-מקודדים אני_Ks אשלגן (KCNQ1, Kv7.1) הוא הגורם LQTS סוג 1 וערוץ מנוצל כדוגמה מתחת⁶. הממחישות את המורכבות פרשנות variant, הנוכחות של גרסאות נדיר גנים הקשורים LQTS, שנקרא "רקע וריאציה גנטית" כבר שתואר לעיל⁷^,⁸.

בנוסף גדולה ועיצובה בסגנון מאגרי מידע הווריאנטים המוכרים פתוגניים, קיימים מספר אסטרטגיות לניבוי שגרסאות שונות של אפקט יהיה לייצר. חלקם מבוססים על אלגוריתמים, כגון לנפות, Polyphen 2, אשר יכול לסנן מספר גדול של גרסאות הרומן-שם נרדף לחזות deleteriousness⁹^,¹⁰. למרות לשימוש נרחב של כלים אלה, ירידה לפרטים נמוכה מגבילה הישימות שלהם כשמדובר "קורא" VUSs קלינית¹¹. ניתוח "אות לרעש" הוא כלי אשר מזהה את הסבירות של variant להיות קשור עם המחלה מבוסס על התדר של וריאציה פיפטות ידוע ב לוקוסים המדובר מנורמל נגד וריאציה גנטית נדירה מתוך אוכלוסיה. הווריאציות ההתאמה לשפות אחרות מנחלת גנטי בו יש שכיחות גבוהה של מוטציות הקשורות במחלה לעומת האוכלוסייה המבוססת על וריאציה, גבוהה אות לרעש, הם נוטים יותר להיות מחלה-הקשורים עצמם. עוד, נדיר שמתגלה אגב ההתאמה לשפות אחרות כדי גן עם תדירות גבוהה של האוכלוסייה נדיר משתנים בהשוואה תדר הקשורים למחלה, נמוך אות לרעש, עשוי להיות פחות סביר הקשורים למחלה. תוכנית השירות לאבחון של ניתוח אות לרעש כבר מאויר בהנחיות העדכנית ביותר עבור בדיקה גנטית עבור cardiomyopathies ו- channelopathies; עם זאת, זה רק כבר מועסקים רמת גן שלם או ספציפיים ברמה¹². לאחרונה, ניתנה מגדיל את הזמינות של פיפטות משתנים (מחלת מסדי נתונים, המחזור מחקרים בספרות) והן משתני בקרה מבוסס-אוכלוסייה (קונסורציום צבירה Exome, חכי, אניה, מסד הנתונים צבירת הגנום, GnomAD¹³), זה הוחל למיקום חומצת אמינו בודדות בתוך הרצף העיקרי של חלבון. ניתוח אות לרעש ברמת חומצת אמינו הוכיח שימושי לסיווג גרסאות שזוהו אגב גנים הקשורים LQTS ככל הנראה וריאציה גנטית "רקע" ולא הקשורים למחלה. בין הגנים העיקריים שלושה המשויך LQTS, כולל KCNQ1, אלה גרסאות שזוהו אגב חסרה יחס אות לרעש משמעותית, רומז כי תדירות גרסאות אלה-חומצת אמינו בודדות עמדות מבטאות נדיר וריאציה האוכלוסייה במקום מוטציות הקשורות במחלה. יתר על כן, כאשר התחום הספציפי-חלבון טופולוגיה ומצופה נגד אזורים של מוטציה אות לרעש, פיפטות גבוהה "נקודות חמות" מקומי לתחומים פונקציונלי מפתח של חלבונים¹⁴. מתודולוגיה זו טומן בחובו הבטחה בקביעת שהסבירות 1) משתנה היא מחלה או אוכלוסייה-הקשורים ו 2) זיהוי הרומן תחומים פונקציונליים קריטי של חלבון המשויך מחלות אנושיות.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. לזהות את הגן ואת ספציפי אחוי Isoform עניין

הערה: כאן, נדגים את השימוש Ensembl¹⁵ כדי לזהות את רצף קונצנזוס עבור הגן עניין אשר משויך בפתוגנזה של המחלה של הריבית (כלומר KCNQ1 מוטציות משויכים LQTS). חלופות Ensembl כוללים RefSeq באמצעות המרכז הלאומי לביוטכנולוגיה מידע (NCBI)¹⁶ , אוניברסיטת קליפורניה, סנטה קרוז (UCSC) דפדפן הגנום האנושי¹⁷ (ראה טבלה של חומרים).

בתוך הבית Ensembl, בחר המין (קרי אנושי) בתפריט הנפתח והזן את הגן של ראשי תיבות עניין בשטח (כלומר KCNQ1). לחץ על "לך"
בחר את הקישור המתאים הגן עניין (קרי "KCNQ1 (גנים אנושיים)"
בחר את הקישור התואם בתמליל של עניין מזהה עניין מהשולחן"תעתיק" (דהיינו TranscriptID ENST00000155840.10, NM_000218 [תעתיק רנ א], NP_000209 [חלבון תוצר של תעתיק רנ א]).
הערה: סקירה של הספרות הרלוונטי יש צורך להבטיח שרצף קונצנזוס התעתיק הנכון נבחר.
הערה את התעתיק הספציפי NM ו NP מספרי זיהוי לשימוש עתידי בעמודה "RefSeq" של השולחן"תעתיק".
בחר את הקישור המשויך מספר מזהה NP לפתוח דף אינטרנט חדש ממסד הנתונים NCBI חלבון.
גלול מטה אל המקטע "מקור" כדי להשיג את חלבון הרצף (ראשית) על-ידי ג'ין עניין.
גלול למעלה בסעיף "תכונות" כדי לקבל רשימה של התכונות חלבון (תחומים פונקציונליים, מחייב תחומים, שינוי post-translational אתרי).
הערה: המידע הזה ניתן להשיג באמצעות מסד הנתונים NCBI חלבון או ממקורות ראשוניים בספרות. זה יידונו נוספת בשלב 5.

2. יצירת הנתונים Variant גנטי ניסיוני ("אות")

הערה: כאן, נדגים כיצד ליצור מסד נתונים של משתנים הקשורים למחלה בגן עניין עם התדר של המשתנים הקשורים המחלה בקרב אנשים עם המחלה של עניין. מסד נתונים זה יכול לקחת צורות רבות, והוא מייצג את "אות" (וריאציה גנטית פנוטיפ-חיוביים) אשר אפשרות לנרמל מול מסד הנתונים variant שליטה. זה יכול לכלול גרסאות 1) מחלות הקשורות להשוואה נגד VUSs לזהות תחומים תפקודית הרומן חלבון ו/או 2) VUSs, כולל דרך אגב זיהו VUSs, להשוואה משתנים הקשורים למחלה כדי לקבוע את הסבירות פתוגניות. משתנים הקשורים למחלה ב KCNQ1, יוצגו להמחשה; עם זאת, השיטה זו זהה עבור ניתוח של VUSs המזוהים אגב או כל קבוצה אחרת של משתנים ניסיוני.

לזהות את cohort(s) של אינדקס במקרים שאינם קשורים/probands עם המחלה עניין עבורו הגן עניין היה genotyped באופן מקיף עבור כל probands (כלומר מחקר מזהה 24 probands שאינם קשורים אירוח גרסאות KCNQ1 מתוך 200 אנשים עם LQTS היו נתון בחקירה גנטי KCNQ1).
הערה: ניתן לזהות קוהורטות אלה בספרות, מתוך ניסיוני ניתוח גנטי, או שילוב של שניהם.
1. אל תכלול לימודים שאינם מבוססי עוקבה (כלומר דו ח מקרה מוטציה-חיוביים בודדים), אינם מעניקים את המספר הכולל של אנשים genotyped הגן של עניין, או לא מנתחים באופן מקיף גנטית (את ג'ין כלומר הקרנה גנטי "יישוב" של exons KCNQ1 רק 2-4) אלה למנוע חישוב שכיחות של variant.
2. כוללים אינדיבידואלים הם לא קשורים probands ולהשמיט אנשים קרובים כמו זה יכולים להעריך יתר על המידה תדרי וריאנט (כלומר מחקר מזהה 4 אנשים שאינם קשורים עם מוטציות KCNQ1 במדגם של 20 חולים עם LQTS. אחד probands האלה הוא חלק ממשפחה עם 5 ברוחן מוטציה-חיוביים אחרים. לא לכלול כל בני המשפחה, כוללים רק את probands לא קשורים 4).
לקמפל את כל הווריאציות גנטי ניסיוניים נמצאו cohort(s) מזוהה
1. להקצות במינוח המכיל את חומצת אמינו פראי-סוג, מיקום חומצת אמינו, חומצת אמינו variant (קרי אלנין חומצה אמינית מספר 212 שינתה ולין, Ala212Val או A212V). אחד סוג כזה של המינוח הוא הפגין באיור1.
2. לאשר כי המינוח משתנה של כל המשתנים גנטי ניסיוני מבוסס על הפניה באותו הגן התעתיק שכאמור בשלב 1.4. אם ניסיוני וריאציות גנטיות הן לא מבואר בתעתיק גנים התייחסות זהה, ואז reannotate בעמדה variant תעתיק הפניה באמצעות פרוטוקול יישור (ראה שלב 1.2)
הכללת משתנים שאינם ישימים בהתאם השאלה להיות חקר.
1. אל תכלול גרסאות לוקליזציה לאזורים ללא קידוד של הגנום או גרסאות אשר לא תשנה את החלבון רצף כגון גרסאות נרדף, intronic, אזור לא מתורגם, 5" או 3' [UTR] ואזור intergenic גרסאות (קרי דווח על פיפטות משתנה ב- KCNQ1 אשר רגישה ל 5' UTR של האזור קידוד תשתף כפי הוא לא ניבא כדי לשנות את רצף החלבון).
2. הכללת משתנים שאינם עונים הכללה קריטריונים לצורך המחקר. עבור משתנים הקשורים למחלה, כולל גרסאות כבר לא נחשבים פיפטות.
  1. לוודא כי כל משתנה כיום נחשב פתוגניים, סביר להניח פתוגניים, או לפחות לא שפירים נצליב גרסאות עם מסד הנתונים ClinVar (ראה טבלה של חומרים).
  2. הזן את ג'ין ואת variant עניין לתוך שדה חיפוש ClinVar (קרי KCNQ1-Y111C), בחר באפשרות "חיפוש"
  3. לזהות את הווריאציה של עניין תחת העמודה "וריאציה/מיקום".
  4. שימו לב הקונצנזוס פרשנות פתוגניות תחת העמודה "משמעות קלינית" (דהיינו KCNQ1-Y111C מפרשים כמו "פתוגניים").
  5. כוללים גרסאות שהן "סביר פתוגניים" או "פתוגניים".
  6. כוללים גרסאות עם כינויי "סותר פירושים של פתוגניות," "משמעות לא בטוח", או כאשר אין רישום זמין ("לא סיפקה") ובמידת לחדר העבודה.
  7. לא לכלול גרסאות כמנהל "סביר שפיר" (דהיינו KCNQ1-A62T).
לחשב את תדירות אלל מינור (MAF) לכל תפקיד variant ניסיוני.
1. לחשב איך כל אללים היו חיוביות עבור כל משתנה בהתאמה (כלומר אם המוטציה משפחתית ולא משפחתית הטרוזיגוטיים נמצא אצל אנשים שאינם קשורים 2, המספר של אללים משתנה-חיובי Y111C KCNQ1 2).
2. לחשב את המספר הכולל של אללים וסודרו בתוך קבוצה
  1. הערה המספר הכולל של יחידים וסודרו במחקר עוקבה כל (שלב 2.1)
  2. הכפילו את המספר הכולל של יחידים ב- 2 כדי לקבוע את המספר הכולל של אללים.
    הערה: זה שקיימות הגנום דיפלואידי לפיה כל המארחים בודדים 2 של כל אלל.
3. לחשב את המספר הכולל של אנשים משתנה-חיובית לכל תפקיד חומצה אמינית (אללים ב 2.4.1/alleles שלב שלב 2.4.2). לדוגמה, אם 2 לא קשור יחידים בכל לארח משפחתית ולא משפחתית הטרוזיגוטיים מוטציות KCNQ1-Y111C גדודים של 100 ו-200 שצוותו LQTS יחידים, בהתאמה, אז התדירות של משתנים ניסיוני במיקום חומצת אמינו 111 היא 2 גרסאות/((100+200 individuals ) * 2 אללים/הפרט) (כלומר משולב MAF 0.0033).
4. לחשב ערך זה עבור כל משתנה כמו MAF בהתאמה של כל משתנה ניסיוני. לפרטים נוספים ראה שלב 4.2.

3. יצירת בקרה גנטית Variant מסד הנתונים ("רעש")

הערה: כאן, נדגים כיצד ליצור מסד נתונים של משתני בקרה בגן עניין בתדירות הקשורים באוכלוסיה שליטה. מסד נתונים זה מייצג את "הרעשים" (פנוטיפ-שלילי, האוכלוסייה המבוססת על וריאציה גנטית) המהווה הרקע שמולו אפשרות לנרמל את מסד הנתונים variant ניסיוני. זה נקרא כווריאציית "שליטה".

לזהות את cohort(s) של probands בריא, לא קשורים או לנצל גדול האוכלוסייה המבוססת על מחקרים לזיהוי. גרסאות נדיר בקרב אוכלוסיה נתונה.
הערה: מקורות עבור מסד נתונים זה הינם מגוונים וכוללים: 1) אנשים בריאים ו/או אחרת פנוטיפ-שלילי יחידים נתון סנגר רצף או שהוחזקו מסדי נתונים של האוכלוסייה המבוססת על יחידים אשר המחלה המדוברת היא נדיר שתדירותם כגון 2) פרויקט הגנום 1000 (N = נושאים 1,094)¹⁸, 3) הלאומי ללב, ריאות, דם מכון ללכת על פרוייקט רצף של Exome (ESP, N = נושאים 5,379)¹⁹, 4) Exome צבירת Consortium (חכי, אניה, N = נושאים 60,706)¹³, ו/או 5) הגנום צבירת מסד הנתונים (GnomAD, N = אנשים 138,632)¹³ (ראה טבלה של חומרים). מסד הנתונים GnomAD ב'טבלת בתור דוגמה להמחשה.
1. הזן את הגן עניין בתיבת החיפוש בדף הבית GnomAD (קרי KCNQ1).
2. לאשר כי הדפדפן שבחרת את הגן הנכון ואת תעתיק של עניין (שלב 1.4).
3. לוודא כי קיים כיסוי מתאים של רצף של מיקומה על-ידי סקירת "כלומר כיסוי" עלילה "כיסוי."
4. בחר עבור קידוד רצף וריאציה גנטית על-ידי בחירה "Missense + LoF."
5. בחר באפשרות ייצוא "שולחן" ל CSV, אשר תיצור קובץ TextEdit בשם "לא ידוע".
6. Relabel הקובץ וכלול את סיומת חדשה "*. csv" (כלומר "KCNQ1 שליטה Variation.csv").
7. פתח את הקובץ באמצעות תוכנית תוכנה מתאימה לניתוח של קבצי *. csv (ראה טבלה של חומרים).
לזהות את החלבון משתנה וריאציה גנטית בעמודה שכותרתו "תוצאה חלבון".
להחיל אותו לקבלת פטור למשתנים גנטי אלה שליטה גם גרסאות גנטי ניסיוני (שלב 2.3.1).
לזהות את MAF של כל משתנה שליטה.
1. אתר את העמודה "אלל חשוב", אשר מציין את המספר של אללים נמצא הנמל variant.
2. אתר את העמודה "מספר אלל", אשר מציין את המספר הכולל של אללים וסודרו בזה בהתחשב בעמדה חומצת אמינו.
  הערה: המספר הכולל של אללים רציף משתנה בהתאם כיסוי במיקום זה. אזורי כיסוי גבוה ייגש 2 * המספר הכולל של בודדים בתוך GnomAD (קרי עבור אנשים 138,632, כיסוי מלא מקיף הכולל אללים 277,264 genotyped). לעומת זאת, אזורי כיסוי נמוך יהיה מספר מופחת אלל סה
3. לאתר את הווריאציה MAF אשר מחושב מראש בעמודה "אלל תדר" מייצג "אלל ספירת" מחולק "אלל מספר."
  הערה: הגנום האנושי, יש לי שני כל אלל (כלומר 1 הנושא נמצא כי גרסה משפחתית ולא משפחתית הטרוזיגוטיים 10 אנשים יש MAF של 1/20)
4. הערה את MAF עבור כל משתנה כמו MAF בהתאמה של כל משתנה שליטה.
  הערה: MAF ספציפית משתנה עבור כל קבוצה גזעית/אתניים הכוללת GnomAD ניתן לראות העמודות מימין "תדירות אלל."
החלת סף MAF עבור גרסאות נדיר שמעליה בקרת גרסאות אינם נכללים כמו "נפוץ".
1. הגדר את הסף MAF לערך מקסימלי שבה כלולים כל באמת מחלה-הקשורים המשתנים (ראה שלב 2) ציין גם במסד הנתונים של הפקד מתחת לסף (קרי, בין כל מחלה-הקשורים KCNQ1 שמתגלה גם ב GnomAD וריאנט נפוץ הגבוהה MAF היא 0.009, אז לא להיות כלולים כל הווריאציות GnomAD מעל לסף מסוים של 0.01 פג).
ודא כי המינוח משתנה ניסיוני זהים לפקד (ראה שלב 2.2).
שמור את הקובץ. במקרים מסוימים, זה עשוי לדרוש שינוי הסוג/סיומת הקובץ.

4. חומצה אמינית אות לרעש רמת חישוב ומיפוי

חישוב של MAF לכל תפקיד חומצה אמינית בווריאציה שליטה (ראה איור 1 הכולל דוגמה KCNQ1 GnomAD גרסאות).
1. יכולת יצירת גרפים בגיליון אלקטרוני, ליצור עמודה של העמדות של כל המשתנים ניסיוני.
2. להסיר את הטקסט משתנה לעזוב רק המיקום משתנה.
  הערה: פונקציות שונות/נוסחאות יכול להיות מנוצל כדי למחוק באופן אוטומטי אלה רכיבי טקסט בתוך תאים (איור 1, עמודה C; ראה טבלה של חומרים).
3. למיין את גרסאות עולה ערך כדי לזהות עמדות יש גרסה יותר 1 המשויכים אליה (איור 1, עמודה E; כלומר חומצת אמינו המיקום 10 מופיע פעמיים בעמודה E אשר מציין 2 גרסאות ייחודי במיקום).
4. לשלב את MAF עבור כל משתנה המשויך עמדה נתונה על ידי לקיחת הסכום של כל MAFs לתפקיד נתון (איור 1, עמודה G ו- H).
חישוב של MAF לכל תפקיד חומצה אמינית עם גרסה ניסיונית (ראה איור 2 המכיל גרסאות פיפטות KCNQ1 מעושה).
1. באופן דומה כדי 4.1.1, ליצור עמודה של עמדות חומצת אמינו אשר יש גרסאות ניסיוני (איור 2, עמודה B).
2. לכל תפקיד variant, לחשב את MAF של כל המשתנים הקשורים באותו מיקום מ שלב 2.4 (איור 2, עמודה C-G).
צור-מסתובב הממוצע של MAF לשניהם ניסיוני, בקרת גרסאות.
1. להרחיב את העמודות שנוצרו ב- 4.1 ו- 4.2 לכלול תאים למשרות חומצת אמינו שיש לא משתנה כמו MAF = 0. (איור 3).
  1. צור עמודה המכילה את כל העמדות חומצת אמינו בגן של הריבית (כלומר 1 כדי 676 עבור KCNQ1, איור 3, עמודה C ואני).
  2. להוסיף על MAF של 0 עבור כל העמדות שאין משתני הבקרה וגם ערכות נתונים ניסיוני.
    הערה: ניתן לבצע זאת באופן אוטומטי על-ידי שימוש בפונקציה "VLOOKUP" שימוש נפוץ תוכנה (איור 3, עמודה D ו- J, ראה טבלה של חומרים).
2. צור-מסתובב הממוצע עבור כל ניסיוני ועמודה השכיחות של שליטה.
  הערה: זה מאפשר הסקה של מיקום סמוכים פתוגניות, ניתן לשינוי, או אפילו נשלל, להתאים את הצרכים של המחקר.
  1. יצירת עמודת המייצג ממוצע מתגלגל של MAF לשניהם השליטה וגם ערכות נתונים ניסיוני (איור 3, עמודה E ו- K).
  2. במקום העמודה ממוצע מתגלגל, הממוצע של MAF המתאימים לתפקידים variant 5 וריאציות של N-מסוף ו- 5 עמדות C-מסוף למצב נתון.
    הערה: זו יוצרת-מסתובב הממוצע של + /-5. למשרות עם שאריות חומצה אמינית פחות מ-5 הקודם, או בעקבות, מיקום ממוצע מתגלגל (כלומר N - או קצה קרבוקסילי), ממוצע מתגלגל רק תיקח בחשבון את שאריות הקיימים (קרי לגלגל את הממוצע ב חומצת אמינו עמדה 3 יהיה בממוצע MAF-חומצת אמינו עמדות 1 על פי 8, מחושב כסכום של אלה MAFs לחלק ל 8).
לחשב את התדר המינימלי שליטה על-ידי חלוקת את MAF מתגלגל הנמוך ביותר ב- 2.
1. לשנות תא כלשהו עם פקד MAF 0 התדר המינימלי כדי למנוע חלוקה ב- 0 בעת חישוב יחס אות לרעש.
לחשב את חומצת אמינו יחס אות לרעש ברמה (איור 4).
1. לחלק לכל תפקיד חומצה אמינית ניסיוני מתגלגל הממוצע על-ידי הפקד המתאים מתגלגל הממוצע.
2. גרף יחס (ציר y) לעומת חומצת אמינו עמדה זו (ציר x).

5. חלבון תחום טופולוגיית שכבת-

מזהים את המיקומים חומצת אמינו הקונצנזוס של תכונות/תחומים פונקציונליים, או אזורים של השינוי post-translational, של החלבון עניין (שלב 1.7).
הערה: מספר משאבים יכול להיות מנוצל כדי לזהות תחומים אלה. משאבים אלה, כמו גם המשאבים לזיהוי תחומים בשם בחלבונים הרומן, נבדקו היטב הספרות²⁰. פרוטוקול זה יתאר את מסד הנתונים חלבון זמין דרך NCBI, אשר הוא מנוצל באופן נרחב, חזקים (ראה טבלה של חומרים).
זיהוי עמדות חומצת אמינו המשויך חלבון תכונות/תחומים.
1. פתח את דף האינטרנט NCBI.
2. הזן את NP של החלבון עניין בשדה החיפוש.
3. לזהות תחומים חלבון ידוע ויש תכונות קטלוגים תחת "תכונות".
4. לזהות ורשום את העמדות שם/סוג ושל חומצות אמינו של התחום.
5. בחר את הקישור המתאים בתכונה כדי להמחיש את האזור על חלבון רצף הראשי עניין.
צור עמודה המכילה את הגבולות של התכונות/המחשבים.
1. יצירת עמודת לצד העמודה רעש: אות העמודה מיקום חומצת אמינו שניתן יהיה הפניה (איור 5א, עמודה C).
2. לזהות את התאים המתאים-ההיבט N-מסוף או C-מסוף של כל תחום/תכונה ומקום 1 בכל תא (כלומר אם N-מסוף בתחום המחשבים transmembrane S1 של KCNQ1 הוא חומצה אמינית עמדה 122, התחום C-מסוף הוא מיקום 142, ואז 1 תוצב בשורה לתפקיד חומצת אמינו 122 ו- 142).
3. עבור תכונות/תחומים חופפים, להציג תחומים מרובים על-ידי שינוי של 1 בערכים אחרים (קרי 1.5, 2, 2.5); זה יכול לסייע להבחין בין תחומים.
ליצור גרף עם גבולות אלה עמדה-y ואת חומצת אמינו בציר ה-x (איור 5B).
שכבת-על הגרף הזה עם גרף אות לרעש שנוצר בשלב 4.4.
לזהות מתאמים בין חלבון ידוע תחומים/תכונות וניתוח האות לרעש.

6. שכבת-על המיקום משתנה

מפת תפקידים variant בודדים עבור כיסוי של תרשימי המופק בשלבים 4.4 ו- 5.4.
1. ליצור עמודה לצד העמודה תחום/תכונה כזאת השורות בעמודה יתאים את חומצת אמינו עמדות (איור 5א, עמודה D).
2. מקום 1 בכל תא בשורה נוספת המתאימה לתפקיד הכולל משתנה בהתאמה.
3. ליצור גרף עם עמודה זו עמדה-y ואת חומצת אמינו בציר ה-x (איור 5C).
שכבת-על הגרף הזה עם גרף אות לרעש שנוצר בשלב 4.4, גרף תחום שנוצר בשלב 5.4.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

תוצאה נציג לאות חומצת אמינו ברמת רעש ניתוח עבור KCNQ1 מתואר באיור6. בדוגמה זו, נדיר גרסאות שזוהו במדגם GnomAD (בקרת עוקבה), המזוהים אגב ווס משתנים (ניסיוני עוקבה #1), משתנים הקשורים במקרה של LQTS ייחשב סביר הקשורים למחלה (ניסיוני עוקבה #2) מתוארים. עוד יותר, הניתוח אות לרעש השוואת וס ו- LQTS עוקבה משתנה תדירות מנורמל נגד GnomAD תדר משתנה מתואר. משתנים הקשורים LQTS הפגינו יחס אות לרעש גבוה בתחומים המתאימים עם ערוץ הנקבובית, סלקטיביות מסנן את התחום KCNE1 מחייב. לשם השוואה, גרסאות שזוהו אגב במדגם ווס לא ברור להפגין אזורים ספציפיים של גובה אות לרעש גבוה, רומז כי גרסאות אלה מבטאות וריאציה גנטית ברקע. דוגמה זו לא לנצל את משתנה MAFs כאמור לעיל; עם זאת, הוא מדגים את כל אותם עקרונות כמתואר.

איור 1 : דוגמה של מסד הנתונים variant שליטה ןובשחב MAF. בעמודה A, מיובאים ישירות GnomAD בקרת גרסאות נדיר. עמודה B, המחיקה של צד שמאל, שאינן קשורות מיקום טקסט מן המינוח משתנה באמצעות נוסחת דוגמה להסרת תו (קרי: עבור B2 "= ימין (A2, לן (A2)-5", ראה טבלה של חומרים). עמודה C, המחיקה של ימנית צדדית, שאינן קשורות מיקום טקסט מן המינוח משתנה באמצעות נוסחה הקשורה (קרי: עבור C2 "= LEFT(B2,LEN(B2)-3"). עמודה D, תוצאות ממוינת חומצת אמינו עמדות. עמודה E, חומצה אמינית עמדות ממוינים באופן העולה כדי לאפשר זיהוי של תפקידים כפולים. עמודה F, קשורה MAF עבור כל משתנה כפי שיובאו GnomAD. עמודה G ו- H, בשילוב MAF לתפקיד נתון חומצת אמינו (סכום של כל משתנה MAF במיקום ספציפי). אנא לחץ כאן כדי להציג גירסה גדולה יותר של הדמות הזאת.

איור 2 : דוגמה של מסד הנתונים variant ניסיוני ןובשחב MAF. עמודה A, רשימת ללעוג הקשורים LQTS מוטציות בגן KCNQ1 המייצג מסד נתונים ניסיוני מוטציה הקשורים למחלה. עמודה B, מיקום המוטציה המתאים כל משתנה. עמודה C, ספירה של מוטציה-חיוביים בודדים בתוך 1 המחקר מעושה. כל הם מניחים שהן נשאיות מוטציה משפחתית ולא משפחתית הטרוזיגוטיים. המספר הכולל של יחידים genotyped במחקר ממוקם בחלק התחתון של הדף. בעמודה D, ספירה של מוטציה-חיוביות הפרט 2 מחקר מעושה. עמודה E, ספירה של מוטציה-חיוביות הפרט 3 מחקר מעושה. עמודה F, יחידים מוטציה-חיובי הכולל אירוח המוטציה שנצפה על-פני כל מחקרים. שימו לב כי מוטציות שונות הקשורים באותה תנוחה חומצת אמינו לשלבו. עמודה G, MAF התפקיד של כל מוטציה ושל חומצות אמינו באמצעות נוסחת דוגמה (קרי: G2 "=2/(176*2)", ראו טבלה של חומרים). שימו לב כי מאז כל האנשים הם בחזקת להיות משפחתית ולא משפחתית הטרוזיגוטיים, כל אדם בחזקת לשאת 2 אללים של מיקומה KCNQ1, יש להכפיל את האנשים הכולל 2 עבור התדירות אלל. אנא לחץ כאן כדי להציג גירסה גדולה יותר של הדמות הזאת.

איור 3 : דוגמה מתגלגל חישוב הממוצע עבור שליטה וכל הווריאנטים ניסיוני. עמודה A ו- B, עמדות וריאנט של שליטה GnomAD ו- MAFs בהתאמה. עמודה C, כל חומצת אמינו העמדות של KCNQ1 של חומצת אמינו הצב למצב סופי. בעמודה D, GnomAD משתנה MAF עבור כל העמדות עם MAF 0 במקום עמדות ללא משתנה. זה יכול להיות באופן אוטומטי מחושב באמצעות פונקציית VLOOKUP (קרי עבור D2, "= IFERROR(VLOOKUP(C2,A:B,2,),0), ראה טבלה של חומרים). עמודה E, מתגלגל הממוצע של הצב MAF באמצעות נוסחת דוגמה (קרי עבור E2, "= SUM(D2:D7)/6", E7, "= SUM(D2:D12)/11"). עמודה G ו- H, גרסה ניסיונית LQTS עמדות עם MAFs בהתאמה. הטור הראשון, כל חומצת אמינו העמדות של KCNQ1. עמודה J, משתנה LQTS MAF עבור כל העמדות. טור K, מתגלגל LQTS MAF. מילוי אפור תאים הן דוגמאות איפה MAF ערכים בעמודות B ו- H מורחבות לתוך עמודה D ו- J, בהתאמה, אשר לתאם עם תפקידים המתאימים בעמודה C/א שימו לב זה קריטי כי כל התאים המעוצבים "מספרים" עבור הנוסחה הנכונה תפקוד. אנא לחץ כאן כדי להציג גירסה גדולה יותר של הדמות הזאת.

איור 4 : דוגמה של ניתוח אות לרעש, יצירת גרפים. שמאלה, למשל מסד נתונים וחישובים. עמודה A, כל חומצת אמינו העמדות של KCNQ1. עמודה B, LQTS ניסיוני MAF מתגלגל בממוצע לכל תפקיד. בעמודה C, GnomAD שליטה MAF ממוצע מתגלגל לכל תפקיד. D: יחס אות לרעש (קרי עבור D2, "= B2/C2"). נכון, דוגמה גרף של יחס אות לרעש (ציר y) לעומת תפקיד חומצה אמינית (ציר x). אנא לחץ כאן כדי להציג גירסה גדולה יותר של הדמות הזאת.

איור 5 : דוגמה של חלבון ומיפוי המיקום משתנה. A, דוגמה מסד נתונים וחישובים. עמודה A, כל חומצת אמינו העמדות של KCNQ1. עמודה B, KCNQ1 עמדות אשר יש וריאציה נדירה שליטה מזוהה ב- GnomAD. העמודה מיפוי תחום שבו תאים המכילים ערכים תואמים ההיבט N או C-מסוף של עמודה C, לזהות תחומים חלבון KCNQ1 או תכונות. כמו רוב המחשבים N-מסוף הוא שהתחום S1 יש גבול N-מסוף-חומצת אמינו 122, אין ערכים מצוינים כאן. בעמודה D, העמודה מיפוי וריאנט שבו תאים המכילים 1 שיתאימו KCNQ1 עמדות אשר לשפה גרסאות נדיר. מילוי אפור תאים הן שתי דוגמאות היכן עמדות variant בעמודה B מורחבות עמודה D אשר לתאם עם תפקידים המתאימים בעמודה A. אנא לחץ כאן כדי להציג גירסה גדולה יותר של הדמות הזאת.

איור 6 : דוגמה של חומצת אמינו ברמת ניתוח אות לרעש של KCNQ1-מקודד KCNQ1 (Kv7.1). עמדות העליון, variant מודגמות עם קווים אנכיים, כולל נדירים GnomAD עוקבה משתנים (שחור), המזוהים אגב גרסאות ווס הפניות (כחול), וכל הווריאנטים שזוהתה LQTS cases(green). תחומים פונקציונליים מצוינים. התדירות היחסית של LQTS משתנים במקרה מנורמל למשתנים GnomAD (קו ירוק) מתואר בהשוואה ווס (קו כחול). S1-S6, תחומים transmembrane; SF, יון סלקטיביות מסנן; KCNE1, AKAP9, תחומים מחייב חלבון בהתאמה. ששונה והוא התפרסם בכתב עם אישור עבודה קודמת¹⁴. אנא לחץ כאן כדי להציג גירסה גדולה יותר של הדמות הזאת.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

בדיקות סקר גנטיות תפוקה גבוהה כולל מתקדמת באופן דרמטי היישום ואת זמינות בעשור האחרון. עם זאת, מחלות רבות עם בסיס גנטי ומבוססת, כגון cardiomyopathies, בדיקה מורחבת הצליחה לשפר את התשואה אבחון²¹. יתר על כן, יש משמעותי הוודאות בכלי אבחון של משתנים רבים שזוהו. . זאת חלקית בשל מספר גדל והולך של משתנים נדיר אגב מזוהה גילה על ווס, WGS, אשר יכול להוביל אבחון שגוי²²... ניתוח אות לרעש רמת חומצת אמינו מבוסס על אסטרטגיות ומבוססת לניבוי פתוגניות variant ומספק את היתרון של מינוף הגנום בקנה מידה גדול של האוכלוסייה המבוססת על מחקרים כדי לחדד פרשנות variant.

המסקנה היא כי אחד השלבים המכריעים פרוטוקול זה היא הבחירה של גדודים ניסיוני ובקרה. רבים מהמחקרים הגנום גדולה זמין לציבור נגישים דרך מסדי נתונים הצבירה, כגון GnomAD, שיכולים לאפשר לנציג גדודים שליטה ב פרוטוקול זה להיות גדול כמו יחידים 138,632 בתאריך הנוכחי. אך לא כל נושאים קוהורטות אלה צבירה לכאורה בריא, גודל המדגם גדול בסביבה של מחלה נדירה גורם זה משאב שלא יסולא בפז ומאפשר MAF הדרה סף מחמירים. אי-הכללה של גרסאות נפוצות הכרחי כמו שהם לא צפוי להיות סיבת המחלה Mendelian מאוד penetrant. בהתבסס על העבודות הקודמות, סף MAF של 0.01 עבור גנים הקשורים channelopathy ל- 0.0001 עבור גנים שריר הלב עשוי להיות מתאים, אומת על-ידי קבוצות עצמאית²³^,²⁴. חשוב, את החשיבות של הסף MAF, זה צריך להיות מוגדר ואומת עבור כל המחקר באופן עצמאי. סף MAF לא צריך להיות מוחל על עוקבה ניסיוני, בהתחשב נוכחות ומבוססת של מוטציות מייסד channelopathies ו- cardiomyopathies. גודל קבוצה ניסיונית צריך להיות מספיק כדי לזהות אזורים שבו משתנים ייתכן אשכול; עם זאת, יש אין גודל קפדנית. בנוסף, קבוצה ניסיונית לא צריך לכלול גרסאות ידוע להיות שפירים בתוך הספרות, כמו זה ימעיט את אמיתות האות פתוגניים.

בחירת כראוי לקבלת פטור חיונית גם פרשנות ותחולה של התוצאה. על פי פרוטוקול זה ממליצה לא כולל שיעורים מוטציה מסוימים כגון גרסאות נרדף, אלה יתכן כבניין יכול להיות כלולות עבור תהליכי מחלה שבה גרסאות נרדף ברישול היה מזוהה²⁵^,²⁶. בנוסף, כאשר ההשתלה שונים מוחלים על שנינו ניסיוני ולשלוט קבוצות, זה יכול לאפשר ריבוד של מיפוי אות לרעש על ידי מחלקת מוטציה (קרי בהשוואת missense כדי לחתוך גרסאות).

הגדרת ממוצע מתגלגל על MAFs לאפשר מסקנה של מעורבות כדי חומצות אמינו שכנות. לדוגמה, אם חומצת אמינו 35 מכיל וריאנט פיפטות, שוכן מתחם בקיפול חלבון קריטי, אז עמדה 36 שיש מידה של פתוגניות כאשר מוטציה. באופן דומה, קטע רצף הראשי צריך כמות גדולה של שליטה נדירה משתנים, ואז חומצות אמינו בתוך אזור זה לא לארח גרסאות נדיר עוד תהיה סבירות גבוהה יותר של המכיל שמתגלה נדירה באוכלוסיה. בעוד הממוצע מתגלגל ב פרוטוקול זה + /-5, טווח זה יכול להיות משתנים בהתאם למשתמש רמת הרזולוציה של יחס אות לרעש של החלבון ספציפיים הנלמדים. בדוגמה של LQTS, חקרו KCNQ1-ערוץ KCNQ1 מקודד יש במספר תחומים transmembrane פורש חומצות אמינו ~ 10, הנחיה המחברים להתאמת הרזולוציה הרצויה שלהם כדי לשקף ממצאים משמעותיים באותו קנה מידה¹⁴. חלבונים עם עוד ראשי רצף, אורך החלבון, טווח ממוצע מתגלגל ייתכן שתצטרך להיות גדל משתרע גדול יותר של חלבון רצף ללא שליטה וריאציה.

ישנן מספר מגבלות לשיטה זו. כאמור לעיל, אוכלוסיה פנוטיפ-חיוביות מספקת אירוח גרסאות פיפטות בשם חייב להיות מזוהה על מנת לנהוג אות ברור פיפטות. בנוסף, גרסאות פיפטות אלה ייתכן penetrance משתנה, וכך באמת פיפטות מוטציות לא יכול להתבטא הפנוטיפ המחלה או אולי אחרת מלא penetrant ומחלות אף. בעוד רבים בידי מסדי נתונים, כגון GnomAD, נחשבים לעתים קרובות "גדודים בריא", השכיחות של מחלות גנטיות סביר דומה במסד נתונים זה כמו לימודי אוכלוסיה. כמפורט, פרוטוקול זה מתמקד במיוחד שינויים ברמת חומצה אמינית הנובע גרסאות ג'ין exonic את הקוד עבור חומצות אמינו, אשר אינו כולל את התפקיד כי פתוגניים גרסאות splicing intronic עשוי לשחק מחלת monogenic. . נותן את תפקידם הפגינו לאחרונה ב- cardiomyopathies, הרחבת הרזולוציה הגישה עשוי להיות מוצדקת כדי לזהות intergenic "נקודות חמות" כמו גם. יתר על כן, היישום של סף MAF עלולה לפספס מסוימים "אללים סיכון", אם כי קיימים באוכלוסייה עם MAF גבוה יותר כי למחלות שכיחות, עשוי לתרום המחלה פתוגנזה²⁷^,²⁸. למרות מגבלות אלו, ניתוח זה היא יכולת הסתגלות, יכול לשחק תפקיד מרכזי במתן קלינאים הסתברות היחסי של המחלה פתוגניות בעת הצורך להחיל.

בסופו של דבר, בהתחשב את הטעמים של ניתוח זה כדי לזהות אזורים קריטיים בתוך חלבון, ברמת חומצה אמינית אות לרעש חישובים ניצול מוטציות פיפטות מציעה את האפשרות לזהות תחומים תפקודית הרומן של החלבונים להיות למד. בהתחשב התבוננות גבוהה פתוגניות אות לרעש בנקודות מפתח של תעלות יונים, כגון התחום נקבובית, מסנן סלקטיביות, תחום transmembrane S2 המחשבים מחייב KCNE1 של KCNQ1, זיהוי של "לשיא של פתוגניות" בתוך אזור של החלבון ללא פונקציה ידוע יכול להציע תחום קריטי הרומן. לדוגמה, מסומן לשיא של פתוגניות של מוטציות הקשורות LQTS זוהתה ההתאמה לשפות אחרות כדי חומצה אמינית שאריות 912-930 של KCNH2-מקודד KCNH2 (Kv11.1). אזור זה של החלבון מדגים נטייה מסומן מוטציות הקשורות LQTS¹⁴, עדיין אין תחום פונקציונלי המאפשר זיהוי אישי. הידע של חלבון טופולוגיה מתרחב, פרוטאומיקס מתוחכמים יותר יכול מידה משפרת את הרזולוציה של שיטה זו בעתיד מבדיקת יחס אות לרעש לאורך מבנה ראשוני של חלבון כדי לכלול המשני שלה, שלישוני, או מבנה רבעוני. בנוסף למדעי חישובית מתקדמים כדי ניתוח זה, כגון למידה ממוחשבת ובינה מלאכותית, מעניקה הזדמנות לזהות דפוסים הרומן בין פיפטות לעומת האוכלוסייה המבוססת על וריאציה גנטית, אם חזקים מסדי נתונים אלה גרסאות יכול להיות שנוצר²⁹^,³⁰. בתורו, שיטה זו יכולה לסייע טוב יותר אפיון של חיזוי הגומלין גנוטיפ-פנוטיפ של מחלות ספציפיות, לשמש בצירוף ההסתברות pre-test של הפרט של מחלה, לשפר את התשואה אבחון של בדיקות גנטיות. עוד, ניתוח זה עשוי לגלות חלבון הרומן ביולוגיה ולזהות לוקוסים הרומן בתוך הגנום האנושי, אשר באה לידי ביטוי במחלה כאשר משתנה.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

המחברים אין לחשוף.

Acknowledgments

APL נתמך על ידי נבחרת מוסדות של בריאות K08-HL136839.

Materials

Name	Company	Catalog Number	Comments
1000 Genome Project	N/A	www.internationalgenome.org
ClinVar	N/A	www.ncbi.nlm.nih.gov/clinvar
Ensembl Genome Browser	N/A	uswest.ensembl.org/index.html
Excel	Microsoft	office.microsoft.com/excel/	Used for all example formulas and functions
Exome Aggregation Consortium	N/A	www.exac.broadinstitute.org
Genome Aggregation Database	N/A	www.gnomad.broadinstitute.org
National Center for Biotechnology Information Domain and Structure Database	N/A	www.ncbi.nlm.nih.gov/guide/domains-structures/
National Center for Biotechnology Information Gene Database	N/A	www.ncbi.nlm.nih.gov/gene/
National Center for Biotechnology Information Protein Database	N/A	www.ncbi.nlm.nih.gov/protein/
National Heart, Lung, and Blood Institute GO Exome Sequencing Project	N/A	www.evs.gs.washington.edu/EVS/
SnapGene	GSL Biotech LCC	www.snapgene.com
University of California, Santa Cruz Human Genome Browser	N/A	www.genome.ucsc.edu