Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Informatic ניתוח של נתוני רצף אצווה שמרים 2-היברידית המסכים

Published: June 28, 2018 doi: 10.3791/57802

Summary

רצף עמוק של אוכלוסיות השמרים שנבחר עבור אינטראקציות חיוביות שמרים 2-היברידית פוטנציאל התשואות שפע של מידע אודות אינטראקציה שותף חלבונים. כאן, אנו מתארים את הפעולה של ביואינפורמטיקה ספציפי כלים ותוכנות מעודכן המותאם אישית כדי לנתח נתונים רצף כזה המסכים.

Abstract

אנחנו הסתגלו שמרים 2-היברידית וזמינותו לחשוף בו זמנית עשרות אינטראקציות חלבון ארעי וסטטיים בתוך מסך אחד ניצול רצפי DNA קצר-קריאה תפוקה גבוהה. Datasets רצף וכתוצאה מכך יכול לא רק לעקוב אחרי איזה גנים באוכלוסיה כי הם מועשרים במהלך הבחירה עבור אינטראקציות חיוביות שמרים 2-היברידית, אלא גם לתת מידע מפורט אודות תחומי משנה רלוונטיים של חלבונים מספיק עבור אינטראקציה. כאן, אנו מתארים חבילה מלאה של תוכניות עצמאיות המאפשרות שאינם מומחים לביצוע כל ביואינפורמטיקה, צעדים סטטיסטיים כדי לעבד ולנתח DNA רצף fastq קבצים אצווה שמרים 2-היברידית וזמינותו. השלבים בעיבוד מכוסה על ידי תוכנות אלה כוללים: קריאות רצף 1) מיפוי והספירה המתאים לכל חלבון המועמד מקודד בתוך ספרייה 2-היברידית טרף שמרים; 2) תוכנית ניתוח סטטיסטי המעריכה את הפרופילים העשרה; ו 3) כלים לבחון את המסגרת translational והמיקום בתוך אזור קידוד של כל מועשר פלסמיד מקודד חלבונים שמעצבת את עניין.

Introduction

גישה אחת לגלות אינטראקציות חלבון הוא שמרים 2-היברידית (Y2H) וזמינותו, אילו תוכנות המנצלות לרעה את מהונדסים תאי שמרים לגדול רק כאשר חלבון עניין נקשר שבר של אינטראקציה שותפים1. זיהוי של אינטראקציות מרובות Y2H יכול להיעשות עכשיו עם העזרה של רצף תפוקה גבוהה מקבילים מסיבית. מספר תבניות כבר תיאר2,3,4,5 כולל אחד פיתחנו שבו אוכלוסיות מגודלים באצוות בתנאים בחר עבור שמרים המכיל פלסמידים לייצר אינטראקציה חיובית Y2H6. זרימת העבודה אנחנו פיתח, הנקרא DEEPN (דינמי העשרה עבור הערכה של חלבונים רשתות), מזהה interactomes דיפרנציאלית מספריות טרף אותו לזהות חלבונים המקיימים אינטראקציה עם חלבון (או קבוצת המחשבים) אחד vs. חלבון אחר או תחום mutant conformationally נפרדים. אחד הצעדים העיקריים בתהליך זה הוא ראוי עיבוד וניתוח של הנתונים רצף ה-DNA. מידע שאפשר לקרוא על ידי רק ספירת מספר קריאות עבור כל ג'ין גם לפני וגם אחרי הבחירה של Y2H אינטראקציות באופן מקביל ניסוי ה-RNA-seq. עם זאת, מידע מעמיק הרבה יותר יכול להיות מופק אלה נתונים (datasets) כולל מידע על תחום המשנה של חלבון נתון זה הוא מסוגל לייצר אינטראקציה עם Y2H. בנוסף, ואילו הגישה DEEPN היא ערך, ניתוח רבים דוגמת משכפל יכול להיות מסורבל ויקר. בעיה זו הביאו להקלה באמצעות מודל סטטיסטי שפותחה במיוחד עבור DEEPN datasets איפה המספר של משכפל מוגבל6. כדי להפוך עיבוד וניתוח של ה-DNA רצף נתונים (datasets) מהימן, מלא, עמיד, או נגיש לחוקרים ללא מומחיות ביואינפורמטיקה, פיתחנו חבילת תוכניות שיכולות לכסות את כל השלבים של ניתוח.

הסוויטה לעמוד לבד תוכנות הפועלות במחשבים שולחניים כולל MAPster, DEEPN Stat_Maker. MAPster הוא ממשק משתמש גרפי המאפשר שכל קובץ fastq בתור עבור מיפוי הגנום באמצעות תוכנית ' HISAT2 '7, הפקת קובץ .sam תקן לשימוש ביישומים במורד הזרם. DEEPN יש כמה מודולים. זה מקצה וסופרת קריאות המתאים גן מסוים דומה כימות סוג RNA-seq בעזרת המודול "ספירת ג'ין". אותה גם מחלצת את רצפי המתאים בצומת שבין התחום תעתיק Gal4 ואת הרצף טרף, collates את המיקום של צמתים אלה כדי לאפשר בדיקה שלהם על ידי השוואתי טבלאות וגרפים (באמצעות המודול 'Junction_Make') המודול 'Blast_Query' מאפשר בדיקה קלה, כימות, השוואה של הרצף צומת Gal4 לצומת. Stat_Maker מעריך את הקריאות לפי ג'ין העשרת נתונים סטטיסטית כדרך של סדר עדיפויות להיטים Y2H סביר. כאן, אנו נתאר כיצד להשתמש מהתוכנות הללו, לנתח באופן מלא את רצף ה-DNA נתונים Y2H DEEPN הניסוי. גירסאות של DEEPN זמינים לפעול במערכות PC, Mac, ו- Linux. בתוכניות אחרות, כגון התוכנית מיפוי MAPster, מודול הסטטיסטיקה DEEPN Stat_Maker להסתמך על subroutines המופיעה תחת Unix, הינם זמינים רק במערכות Mac ו- linux.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. מיפוי Fastq קבצים

הערה: התוכנה DEEPN, כמו גם תוכניות רבות ביואינפורמטיקה להשתמש DNA רצף נתונים שבו כל רצף לקרוא מופה עבור המיקום בהפניה הדנ א. מגוון רחב של תוכניות מיפוי יכול לשמש עבור זה כולל MAPster הממשק כאן העושה את התוכנית HISTAT2 כדי לייצר .sam קבצים המשמשים בצעדים העוקבים.

  1. למפות את הנתונים רצף הגירסה הנכונה של הגנום. עבור ספריות Y2H ממוצא העכבר, השתמש הגנום mm10 UCSC; עבור אלה באמצעות גנים אנושיים, להשתמש הגנום הפניה UCSC hg38, עבור גנים האפייה , השתמש הגנום הפניה UCSC SacCer3.
  2. התקן MAPster.
    1. MAPster תוכנה להוריד ולהתקין. התוכנה ניתן למצוא באמצעות דפדפן אינטרנט במקומות הבאים: https://github.com/emptyewer/MAPster/releases. HISAT2 פועל במערכות מבוססות Unix, כגון Apple Macintosh. מסיבה זו, התוכנית MAPster תפעל רק במערכות תואם כגון אפל מקינטוש ולינוקס.
      הערה: דרישות המערכת עבור Mac אפל הם: OSX 10.10 +, > 4gb זיכרון RAM, > שטח דיסק 500 ג'יגה-בתים, גישה לאינטרנט לצורך הורדת הפניה הגנום. משתמשים, ייתכן שיהיה עליך להתייעץ עם המוסדיים אותו אדם אם הארגון שלהם כולל פרוטוקולי אבטחה הגבלת זכויות והרשאות של מנהל.
  3. הזן את הקבצים הנדרשים ואת הפרמטרים באמצעות הכרטיסיה "ראשי" (איור 1). בחר "Pairwise" הלחצן המתאים כדי להזין קבצים כמו זוגות או אינטראקצית עם FASTQ כתבנית קובץ ברירת המחדל.
    1. לניתוח DEEPN, הפעל את האפשרות "Pairwise" כדי "לא פעיל" כדי להפעיל בתבנית קריאה יחיד.
    2. טעינת קבצים MAPster פשוט על-ידי גרירה ושחרור לתוך חלון המתאים.
    3. בחר הפניה מקור ה-DNA/הגנום שמתאים למקור של Y2H טרף ספריית התוספות. אינדקס הגנום של מספר אורגניזמים דגם המפורטים בתיבת "גנום", ניתן באופן אוטומטי להוריד מאתר אוניברסיטת ג'ונס הופקינס מרכז עבור ביולוגיה חישובית. הפניה הגנום יאוחסנו באופן מקומי לשימוש מאוחר יותר.
    4. לציין את מספר תהליכים במחשב הייתה מוקדשת התוכנית מיפוי תחת התיבה "חוטים", מאז HISAT2 תומך מרובת השרשור. MAPster חפש את המחשב ולהציע את המספר המרבי של מעבדים הזמינים כברירת מחדל.
    5. ציין שם של קובץ הפלט. שם קובץ זה ישמש לאורך כל התהליך DEEPN אז מומלץ שם קצר אך תיאורי ללא רווח או תווים מיוחדים. ציין תיקיה פלט הקבצים הממופים באמצעות לחצן "ספריית פלט פתוח".
    6. פעם אחת את הקבצים המתאימים ופרמטרים נבחרו, להוסיף את העבודה מיפוי לתור עבודות באמצעות הלחצן "הוסף את התור". שמות הקבצים בחלון הראשי יכול להיות מחיקתם והחלפתם הקבצים המתאימים למדגם חדש, ניתן להוסיף לתור אחרי מתן שם קובץ פלט התואם.
    7. לחץ על לחצן "הפעל תור" לאחר כל העבודות מוזנות תור המשימות.
      הערה: לאחר עבודה מיפוי הושם בתור, בחירת העבודה הזו גורמת קביעות הפרמטר להציג את החלון "העבודה פרמטרים" ואת הצהרת שורת הפקודה עם כל הארגומנטים יוצג בחלון "העבודה הפקודה". האפשרויות פלט כוללות בימוי אם כדי לשמור על קריאות להיכשל ליישר וציון מספר היישורים העיקרי המותר עבור כל קריאה. קובץ פלט המהווה ברירת מחדל של MAPster נמצא בתבנית סאם (למשל קובץ '.sam'). זה יכיל את כל פעולות רצף הקריאה מקבצי ה-fastq שצוין עבור הדגימה כולל אלה שהיו (מיפוי) ולא היו (לא ממופים) ממופים בהצלחה geome שצוין.

2. Bioinformatic עיבוד באמצעות תוכנת DEEPN

הערה: התוכנה DEEPN עוברת קומפילציה כעת לשימוש עם טרף ספריות המכיל רצפי cDNA העכבר, רצפים cDNA אנושי או רצפי דנ א גנומי cerevisiae ס . DEEPN מקבל את תבנית הקובץ .sam רגיל, באפשרותך לקבל קובץ סאם (.sam) המכיל קריאות ממופים והן שאינן ממופות או קבצים נפרדים עבור כל הקריאות שאינן ממופות וממופים.

  1. DEEPN תוכנה להוריד ולהתקין. התוכנה ניתן למצוא באמצעות דפדפן אינטרנט במקומות הבאים: https://github.com/emptyewer/DEEPN/releases. בחר איזו גירסה תואמת את פלטפורמת המחשוב ויכולת להורדה. כדי להתקין, פתח את חבילת ההתקנה שהורדת.
    הערה: גרסאות DEEPN זמינים עבור PC, Mac, ו- Linux sysrems. מערכות PC ו- Mac צריך > שטח דיסק קשיח 500 Gb ו > 4gb זיכרון RAM.
  2. פתח את התוכנה DEEPN. מהחלון הראשי (איור 2) בחר את המידע המתאים ספריית טרף מתיבת הבחירה העליונה. בחרו תיקייה לאן הקבצים המעובדים ללכת על-ידי לחיצה על לחצן "תיקיית עבודה" ניווט אל התיקיה/הספריה. אחד ניתן ליצור תיקיה/ספריה חדשה במידת הצורך. לאחר "תיקיית עבודה", DEEPN תיצור שלוש תיקיות המשנה רשאי unmapped_sam_files, mapped_sam_files ו- sam_files.
    1. אם שימוש בקבצי .sam המכיל קריאות ממופים והן לא ממופים כגון אלה הופק באמצעות הגדרות ברירת המחדל של התוכנית MAPster, למקם אותם בתוך תיקיית 'sam_files'. אחרת למקם קבצים .sam unmapped_sam_files ו mapped_sam_files בהתאם.
  3. ליזום עיבוד על-ידי לחיצה על לחצן "ג'ין ספירה + צומת הפוך".
    הערה: עיבוד יתחיל עם מודול ג'ין ספירת ישתמש מיפוי עמדות לספור כמה קריאות שיתאימו לכל הגנים. הופכים את צומת ואז לחלץ צומת רצפים (רצפי התמזגו ישירות במורד הזרם מהתחום Gal4-הפעלה) מ הקריאות ולזהות אותם באמצעות האלגוריתם הפיצוץ. פעולה זו תיצור קבוצה מלאה של התיקיות בתמונה באיור3. זמן עיבוד תלוי גודל ואת מספר קבצי נתונים רצף ואת מהירות העיבוד של המחשב המשמש. פעמים טיפוסי נע בין 12 – 30 h עבור הנתונים (dataset) ניסיוני של 250 מיליון ~ קורא. ההליך לספור גן וההליך Junction_Make ניתן להתחיל בנפרד על-ידי לחיצה על לחצן "ג'ין ספירת" או על הכפתור "צומת הפוך".
  4. הורד והתקן Stat_Maker (https://github.com/emptyewer/DEEPN/releases). זוהי חבילה ניתוח סטטיסטי מיועד datasets DEEPN שעובד כיום רק במערכות Unix Mac.
    1. פתח Stat_Maker ולחץ על הלחצן 'אימות התקנת' (איור 4). אם מפעיל בפעם הראשונה, Stat_Maker יתקין באופן אוטומטי R, ג'אגים ו- Bioconductor על ידי משיכת משאבים אלה מהאינטרנט. ברגע R, ג'אגים ו Bioconductor מזוהים, Stat_Maker תהפוך לפעילה, לאפשר את המשך קלט משתמש.
    2. לחץ על הלחצן "בחר את תיקיית" כדי לנווט אל תיקיית העבודה שעיבד DEEPN. Stat_Maker באופן אוטומטי לחפש ולפרט את הקבצים לשם ניתוח סטטיסטי בחלון.
    3. גרור ושחרר את הקבצים המתאימים מהחלון רשימת קבצים מעל לתוך החלונות קובץ מתחת עבור כל ערכת נתונים וקטוריים וגם פיתיון ועבור כל תנאי הגידול: שלא נבחרו (שלו + המדיה) ונבחר (שלו - המדיה). חשוב, Stat_Maker דורש datasets כפולים עבור ריק וקטור לבד, שתי דגימות של אוכלוסיות שלא נבחרו שתי דוגמאות שנבחרו. זה נותן הערכה של השתנות בתוך הניסוי.
    4. לחץ על לחצן "הפעל". בהתאם למהירות המחשב, חישוב יימשך בין 5 ל-15 דקות.
  5. תוצאות סקירה מהפלט Stat_Maker, אשר מוצבים בתוך תיקיית משנה חדשה בתוך תיקיית העבודה הראשי עם התווית "Stat_Maker תוצאות".
    הערה: התוצאות נמצאים בקובץ ה-CSV (ערכים מופרדים באמצעות פסיק) שניתן לפתוח במשותף תוכניות גליונות אלקטרוניים. Stat_Maker לדרג כניסות הגן נוטים להיות מועשר באופן שונה בעת הבחירה עם הפיתיון עניין על ריק pTEF-GBD (איור 5). ייערכו גם הוא האחוז של קריאות עבור כל ערכת נתונים בהן תותב ג'ין נמצא במעלה הנהר, במורד הזרם, או בתוך מסגרת קריאה פתוחה, אם הגן נמצא גם בתוך מסגרת קריאה translational נכונה. לעתים קרובות, DEEPN ללכוד חזקים Y2H אינטראקציות של פיתיון עם חלקים cDNA נתון זה אל מחוץ למסגרת שקריאה תקינה של החלבון המתאים או על חלק cDNA זה במורד הזרם של המסגרת המתאימה פתוח-קריאה. סריקה ופלט משולב Stat_Maker מייעל את זיהוי, חיסול של הפיגועים האלה לא רלוונטי.
  6. כדי לסקור את הנתונים לגבי כל מועמד פוטנציאלי, פתח את התוכנה DEEPN, בחר את המידע המתאים של ספריית הטרף ואז תיקיית העבודה הנכון באמצעות התיקיה"עבודה".
    1. לחץ על לחצן "הפיצוץ השאילתה". זה טוען חלון חדש (איור 6). בתיבת הטקסט העליונה, הקלד את שם הגן או מספר GenBank NM כדי לבחור את המועמד הגן עניין. שמות גנים אלה תואמים את שמות הרשומים בקובץ הפלט StatMaker. סוג הזן או להחזיר, אשר יוזם אחזור של הגן עניין.
    2. בחר אילו נתונים (datasets) ישמש עבור ניתוח שימוש בתפריטים "בחר ערכת נתונים". בדרך כלל, אלה כוללים את הווקטור בלבד, פיתיון גדל בתנאים לא בררניים ודוגמאות המדגם פיתיון גדל בתנאים הבחירה. בתחילה, datasets ייקח כמה רגעים כדי לטעון, עם זאת, השאילתה עוקבות של datasets אותו עם גנים שונים יעבור במהירות. Blast_Query יציג את נקודות היתוך לאורך הרצף של עניין, והוא שופע איך כל נקודת היתוך. זה ניתן להציג גם תבנית טבלה באמצעות הכרטיסיה "תוצאות" או עיצוב גרפי באמצעות הכרטיסיה "עלילה". תוצאות אלו ניתן לייצא לקובץ csv באמצעות לחיצה על לחצן "שמור. csv" בפינה הימנית העליונה.

3. אימות של מועמדים המזוהה על-ידי DEEPN

הערה: המטרה של DEEPN ו- Stat_Maker הוא לזהות גנים המועמד לתת השפעה חיובית הדדית Y2H. אימות אינטראקציות Y2H כזה יכול להיות בוצע באמצעות תבנית מסורתי Y2H בינארית באמצעות פלסמיד פיתיון את עניין לשייך את פלסמיד תחום "טרף" Gal4-הפעלה ריק כמו גם לשייך את פלסמיד טרף נושא השבר הגן/cDNA עניין. . זה לא ריאלי כדי לבודד את פלסמיד בפועל של עניין בתוך התערובת של DNA מבודד מן האוכלוסייה שמרים נתון לבחירה Y2H... עם זאת, אחד יכול שהמפתחות לשחזר מה השבר הגן/cDNA הוא זה מייצר את האינטראקציה Y2H, תחל עבור 5' ו 3' קצוות הרסיס ומעצבים להגביר את מקטע ה-DNA מבודד מן האוכלוסייה שמרים. סעיף זה מתאר כיצד למצוא בקצה 5' ו 3' של השבר טרף המועמד.

  1. פתחו את התוכנה DEEPN ובחרו את הפרמטרים "בחר פרמטר" ואת תיקיית עבודה "בחר לעבוד תיקיית" המתאים לפרויקט. להפעיל את המודול Blast_Query על-ידי לחיצה על לחצן "הפיצוץ השאילתה".
  2. הקלד את השם של הגן מעניינים או GenBank שלה "NM" מספר בתיבת הטקסט העליונה. בחר מתוך התפריט הנפתח את ערכת הנתונים התואם באוכלוסייה שמרים שנבחרו על הכל, עניין כדי לאחזר את הטבלה של צומת עמדות תחת הכרטיסייה 'תוצאות'. כברירת מחדל, Blast_Query יורה את עמדות שונות על פי שלהם שפע ב- dataset, לכמת על ידי ppm המספר הכולל של צמתי נמצאו בתוך מסד הנתונים.
    1. תמצאו הנפוץ ביותר למקם את זה "ב ORF" , "במסגרת". הערך עבור מיקום מקביל נוקלאוטיד מיקומו של הגן עם הרצף הפניה NCBI (מס 'NM') נמצאו בתיבת הטקסט העליונה. הרצף הזה יכול להיות שאוחזר GenBank (https://www.ncbi.nlm.nih.gov/nuccore/) או העתקת תיבת הטקסט התחתון בחלון Blast_Query.
      הערה: ניתן למצוא לדוגמה איור 6, בחלונית האמצעית. ב- dataset מרכז, 'תוצאות' הצג צומת הנפוץ ביותר: 'מיקום': 867; '#Junctions': 20033.821; 'התחלה שאילתה', 1; תקליטורים: ב ORF; ' מסגרת ': מסגרת. נוקלאוטיד 867 של הרצף הפניה GenBank NCBI NM_019648 הוא ההתחלה של השבר טרף.
  3. אם ההתחלה שאילתה הוא 1, עיצוב 5' סוף המפתח כדי לכלול את נוקלאוטיד המתאים למספר עמדה והרחבת 25 נוקלאוטידים במורד הזרם מהעמדה הזו (איור 7). אם השאילתה להתחיל הוא יותר מ 1, הוא מציין כי יש נוספת נוקלאוטידים בין התחום הפעלה Gal4 לבין הרצף טרף עניין ולהתחיל כי תחל צריכה נוסף במורד הזרם לפי הערך להפעיל שאילתה.
  4. מן החלון DEEPN לחץ על לחצן "קריאה עומק" תחת "לנתח נתונים". לאחר פתיחת החלון לקריאה עומק, הקלד NCBI רצף (ננומטר) מספר או ג'ין שם ההפניה לתיבת הטקסט העליונה. השתמש בתפריט הנפתח כדי לבחור את ערכת הנתונים הרלוונטיים המכיל את הגן מועשר עניין. השתמש בטבלה משמאל ולהציג הגרפיקה על הזכות לקבוע כמה קריאות נמצאו נתונים התואמים הגן עניין (איור 7ב').
  5. עיצוב 3' סוף פריימר זה ללכוד את הרצף של השבר ג'ין מחושב על ידי קריאה עומק. אם השפע של קריאות מעבר ORF ו קודון, עיצוב ומהצמיגים תכלול את stop codon והן את האזור רק במעלה הזרם stop codon. אם רצפי הגן לא להרחיב מעבר stop codon, השתמש בטבלה התוצאות למצוא הכי רחוקות 3' באזור זה ניתן להבחין ולהשתמש עמדה זו הרחוק 3' עמדה כדי למקם את המפתח.
    הערה: התוכנית לקריאה עומק סורקת במרווחי זמן כדי למצוא את רצפי התואמים את cDNA/ג'ין שצוין עניין. זה עוזר לחזות איפה בקצה 5' ו 3' של השבר הטרף הנפוץ ביותר עבור הגן הזה במדגם. תנודות העומק קריאה לאורכו של הרצף הן נורמליות, כפי שניתן לראות באיור7. העומק קריאה ברור בעבר stop codon, מציין כי השבר טרף חורג stop codon, ובכך ומהצמיגים 3' פשוט יכולה להתאים את האזור סביב stop codon.
  6. לבצע תגובת ה-PCR 50 µL לכל הגנים. כל התגובה מכילה 25 pmol של כל פריימר ואחורה תואמים את פלסמיד טרף-ספרייה (ראה טבלה של חומרים). תגובות מכילים גם µL 25 של אמינות גבוהה 2 x PCR מיקס מאסטר, µg 5 של דנ א ומים עד 50 µL.
    1. להגביר את תגובות עבור 25 מחזורי עם סיומת פעמים של 3 דקות ב-72 מעלות, חישול טמפרטורה של 55 ° C ל 30 s, ו denaturing ב 98 ° C עבור 10 ס' לפני רכיבה על אופניים על ידי דנטורציה s 30 ב 98 ° C ופעל עם הדגירה 5 דקות ב- 72 מעלות צלזיוס.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

מיפוי נתונים fastq: הצעד הראשון
למעשה כל הגדרות היישומים כולל DEEPN הפלט הראשוני הוא קובץ של רצף קצר קורא את למפותם על ידי יישור כדי גנומית, transcriptomic, או אחר מפנה דנ א8. לאחרונה, התוכנית יישור HISAT2 פותחה המשתמשת באלגוריתמים אינדקס המדינה-of-the-art כדי להגדיל באופן משמעותי את מהירות7,של מיפוי9. HISAT2 רץ ביעילות במחשב שולחני, יכול מפה בגודל בדרך כלל לקרוא קובץ בתוך דקות. זה אפשר לנו לעטוף את HISAT2 לתוך ממשק משתמש גרפי בשם MAPster אשר ניתן למפות fastq קבצים באופן מקומי, המאפשר למשתמשים להימנע מלסמוך על אשכולות המחשב המרוחק ביצועים גבוהים בדרך כלל פועלות עם שורת הפקודה שפה (איור 1). תכונות חשובות של MAPster כוללים את הימצאותם של פרמטרים מוגדרים מראש עבור ה-RNA-seq ולאפיין ניסויים מיפוי הגנום כולו, היכולת תור משימות מרובות, וגישה סט מלא של פרמטרים הניתנים לשינוי בקלות HISAT2 עבור משתמשים מנוסים יישומים. על מנת להמחיש את הפונקציונליות של MAPster, קובץ נתונים זמינים בפומבי eHAP RNA-seq תא מופה להפניה GRChg38 אנסמבל הגנום פלוס תעתיק דנ א. EHAP A11 שכפול 1 FASTQ הקובץ שהורד מן הארכיון לקריאה של רצף NCBI והכילה 38.3 מיליון קריאות. MAPster הופעלה על ה-iMac אפל בעל 3.5 GHz Intel Core i7 מעבד באמצעות ברירת המחדל RNA-seq פרמטרים עבור הקובץ אינטראקצית קריאה. המיפוי הושלמה בתוך פחות מחמש דקות. הקצב יישור הכולל היה 96.6%. תוצאות דומות נמצאו עם datasets DEEPN אופייני של 15-25 מיליון reads/המדגם, למרות הקצב יישור הכולל הוא נמוך יותר בשל נוכחותם של וקטור הרצף של פלסמיד טרף Y2H.

מציאת הלהיטים מועמד עם העזרה של Stat_Maker.
התוכנית StatMaker מייצרת קובץ excel לצפייה שמסכם את רוב המידע הרלוונטי הדרוש כדי לזהות חלבונים שמעצבת המועמד. כי Stat_Maker עושה שימוש של שגרות מבוססי-unix, זה יפעל ב- Mac (OS10.10 +) אבל לא PC. ראשית, זה מסכם את הקריאות ב ppm עבור כל ג'ין עבור וקטור שליטה ואת הפיתיון אוכלוסיות והן גם מפיק הסתברות דירוג אם העשרת של גן מסוים כשבוחרים עבור Y2H אינטראקציה עם הפיתיון עניין גדול באמת העשרה של הגן הזה כאשר נבחרת לאינטראקציה עם הפקד וקטור בלבד (איור 5). שנית, StatMaker מבצעת את חישובי מודול BlastQuery על כל הגן מוערכים, מנהל את האחוז של קריאות צומת הנמצאים בתוך המסגרת translational הנכונה ואת הרצף קידוד אשר יהיה צורך בוטרפליי רלוונטי מבחינה ביולוגית interactor. פלט משולב זה מאפשר המועמדים המיון והסינון במהירות כדי לזהות את אלה יכולים להיבדק קרוב יותר על-ידי BlastQuery. עם פלט זה, אחד באפשרותך למיין תחילה למועמדים האלה עם probabily הגבוהה של להיות מועשר במהלך הבחירה עבור האינטראקציה Y2H על חלבון פיתיון של עניין, לא כשבוחרים עבור אינטראקציה על פלסמיד וקטור לבד. בפועל, אנו מוצאים כי P > 0.95 עובד היטב. ואז מועמדים יכול להיות מדורגת עבור אלו שיש להם את קריאות צומת רוב כי הן באזור קידוד במסגרת שקריאה תקינה באמצעות פונקציית המיון פשוטה. . הנה, מועמדים עם > 85% של צמתי זה הן במסגרת translational הנכון, נמצאו גם בתוך פתח קריאה מסגרת/חלבון קידוד אזור (ב ORF) או זה להתחיל רק הזרם של ההתחלה codon (במעלה). מסנן זה האחרון מבטל 60 – 80% של מועמדים שיש להם ערך P מקובל, הפקת רשימה כי הוא רלוונטי הרבה יותר מבחינה ביולוגית לניהול לבדיקה נוספת.

התוכנה DEEPN.
ליבת DEEPN תוכנה בחבילות מספר מודולים חישובית יחד כדי לשלב את כל השלבים ביואינפורמטיקה באמצעות סם קבצים. Gene_Count מספק את מספר הקריאות לכל גן, ביצוע חישוב דומה כימות RNA-seq. תוכניות אחרות לבצע חישוב מסוג זה יכול לשמש גם כן, עם זאת, תבנית הקובץ צריך על מנת להיות תואם עם מודולים אחרים DEEPN ואת התוכנית Stat_Maker. לחלופין, המודול Gene_Count יכול לשמש כדי לכמת את הניסויים RNAseq, לעומת זאת, חבילות נוספות intergrated עם סטטיסטיקות ספציפיות תוכניות היה מפותח10. התהליך של התאמת קריאה ממופה מסוים עם שלה הגן המתאים עניין שופרה מאז התוכנה DEEPN הראשונית באמצעות מבנה עץ נתונים עבור הקצאה ג'ין. ההשפעה של זה היה להאיץ באופן משמעותי את מהירות עיבוד כזה dataset אופייני המכיל 10 מיליון ממופה קריאות לוקח 5 – 10 דקות על מחשב שולחני עם דרישות מערכת מינימליות. ניתוחים אחרים, בפרט הניתוח של קריאות צומת המתפרסים על התחום Gal4-הפעלה של המועמד אינטראקציה של עניין, הם עצמאיים. הם ארוזים עם alogorithm הפיצוץ הפועלת באופן מקומי, יש ניתוח של נהלים לאיסוף כל הצומת קורא כראוי והמיקומים שלהם על כל הגנים נתון. אחד החסרונות של התוכנה DEEPN הוא שזה גורם של מסדי נתונים מעוצבים מיוחדים המגדירים אילו exons בתוך הגנום הפניה משמשים להגדרת cDNAs או קידוד אזורי ושימוש מעוצב מסדי נתונים המציינים את רצף, התחל translational ועצירות של כל cDNA/גנים בשימוש. מצאנו כי היה קשה לאחזר את כל המידע במסד הנתונים ש-DEEPN דורש בתבנית אמין שחסר חלק מהטעויות כדין שנתקלנו עם בניית אינדקס של גנים מסוימים. לכן, ריכזנו מסדי נתונים חדשים שאנו איכות מבוקר ולא להטביע אותם לתוך התוכנה DEEPN לעיון פנימי עקבית. כיום, עכבר, אדם וספריות טרף cerevisiae ס Y2H נתמכים על ידי מאגרי המידע הכלול ובלבד הקבצים fastq DNA ממופים נגד mm10, hg38, או SacCer3 הפניית מאגרי מידע זמין מ UCSC. Y2H ספריות של אורגניזמים שונים יעובד על-ידי DEEPN ובלבד מסדי נתונים דומים שנבנו והניח לתוך התוכנה DEEPN. בסך הכל, אולם, האריזה עצמאי של כל המודולים DEEPN, מסדי נתונים ותוכניות אחרות לעשות ניתוחים אלה bioinformatic נגיש לחוקרים בכל הרמות של מומחיות.

Figure 1
איור 1 : ממשק MAPster ה. צילום מסך של החלון הראשי של MAPster. התיבות להזנת הקבצים הנדרשים ותבניות מוצגים. כבה "Pairwise" (A) לטפל קובצי רצף כמו קורא יחיד-end. הגנום הפניה נבחרה בתפריט 'גנום' בר (B). מספר המעבדים הנמצאים בשימוש על-ידי HISAT2 נבחר בתפריט "חוטים" (C). ניתן להקליד את השם החדש מדגם "שם קובץ פלט" טקסט בחלון (D). ניתן להגדיר את ספריית קבצי הפלט ב- (E). להלן הוא חלון המציג את התורים של יחיד-end לקרוא קבצים. לאחר דגימה נוספה לתור, ניתן לאתחל מיפוי באמצעות לחצן "הפעל תור" (F). אנא לחץ כאן כדי להציג גירסה גדולה יותר של הדמות הזאת.

Figure 2
איור 2 : ממשק DEEPN. תמונה של ממשק משתמש גרפי, המשמשים להפעלת המודולים DEEPN. אנא לחץ כאן כדי להציג גירסה גדולה יותר של הדמות הזאת.

Figure 3
איור 3 : השלמת עיבוד. ברגע DEEPN מעבד נתונים, נוצרים את תיקיות המשנה הבאות. אלה יכולים להיבדק, אבל הזרם ותהליכים דורשים כי תיקיות משנה אלה יישארו בתוך תיקיית העבודה הראשי, כי הם שומרים את התוכן ואת שמות. אנא לחץ כאן כדי להציג גירסה גדולה יותר של הדמות הזאת.

Figure 4
איור 4 : ניתוח Stat_Maker. תמונה של ממשק המשתמש הגרפי Stat_Maker, אשר נטען עם קבצים המתאימים כדי לאפשר עיבוד. העליון מציג את התצוגה הראשונית של Stat_Maker. ברגע הנוכחות של הנתונים המשמשים כבסיס תמיכה אומתו על ידי לחיצה על הלחצן 'אימות התקנת', ואת תיקיית עבודה נכונה זיהו לאחר לחיצה על הלחצן "בחר את תיקיית", GUI יהפוך לפעיל, המאפשר טעינת הקבצים. אנא לחץ כאן כדי להציג גירסה גדולה יותר של הדמות הזאת.

Figure 5
איור 5 : קטע מתוך פלט Stat_Maker. חלק Stat_Maker פלט משווה את העשרת המועמדים טרף על חלבון יחיד פיתיון וקטוריים לבד (ריק pTEF-GBD). גם הוא ניתוח המקביל של פלסמידים המתאים למועמד טרף מכילים המסגרת פתוח-קריאה נכונה. כל הגן הערכה יש מספר ערכים: בסיס, Vec, פיתיון ו- Enr. "הבסיס" הוא ממוצע שיעור הקריאות (ppm) אשר נצפו על הגן בתוך datasets 2 המתאים האוכלוסיות כפולים המכיל רק וקטור לבד, ילדיך גדלו בתנאים לא בררניים. "Vec" מתייחס ממוצע שיעור הקריאות (ppm) אשר נצפו על הגן בתוך datasets 2 המתאים האוכלוסיות כפולים המכיל רק וקטור לבד, ילדיך גדלו בתנאים סלקטיביים (למשל-שלו). "פיתיון" מתייחס שחלקן של קריאות (ppm) היו שנצפו הגן בתוך datasets 2 המתאים האוכלוסיות 2 המכיל את פלסמיד פיתיון, גדלו בתנאים סלקטיביים (למשל-שלו). "Enr" (enrichement) הוא log2 ((Bs/Bn) / (לעומת/Vn)) איפה Bs הקריאות כפיתיון תחת בחירת, בסון הוא קריאות כפיתיון תחת ללא בחירה, לעומת הוא וקטור לבד תחת בחירת, Vn וקטור לבד תחת בחירת. אנא לחץ כאן כדי להציג גירסה גדולה יותר של הדמות הזאת.

Figure 6
איור 6 : התצוגה של Blast_Query. פלט של Blast_Query 3 תצוגות שונות. העליון הוא התצוגה הראשונית של Stat_Maker לפני datasets של המועמדים שנבחרו. הפאנל האמצעי הוא מבט בדוגמה של טבלת הנתונים הצגת מידע על מועמד נתון שני datasets שונים. התחתונה מציגה תצוגה גרפית של נתונים טבלאיים, התוויית מספר נקודות הצומת מסוים לאורך הגן/cDNA עניין. אנא לחץ כאן כדי להציג גירסה גדולה יותר של הדמות הזאת.

Figure 7
איור 7 : למצוא את תחל 5' ו 3' כדי להגביר. (א) מציגה רצף היפותטי, כיצד לעצב את oligo 5' כדי ללכוד את המסגרת הנכונה ואת פיוז'ן הצבע בין התחום Gal4-ההפעלה לבין הרצף הטרף של עניין. בדוגמה 1, המיקום של נקודת היתוך הוא בבית נוקלאוטיד 10בתאנון עם התחלה Q של 1. ההיסט לעיל באמצעות טבלה, נוקלאוטידים 0 יתווספו למצוא 5' מיקום התחלה של ומהצמיגים. נקודת היתוך של פלסמיד טרף המשוחזרת מראה כי התחום הפעלה Gal4 מותך ישירות אל הטרף-נוקלאוטיד 10. דוגמה 2, להפעיל השאילתה הוא 3, אשר דורש היסט של נוקלאוטיד 1 כדי ללכוד את נקודת ההתחלה הנכונה ועל מסגרת של הטרף הקדמי. התרשים הנטרפים המשוחזרת מראה כי ישנם 2 נוקלאוטידים בין התחום הפעלה Gal4 את המיקום הידוע של הקדמי טרף זה חייב להיות אחראים. (B) מראה את החלון עומק לקריאה. תיבת הטקסט בחלק העליון משמש כדי להזין את מספר רצף של הפניה NCBI ואת התפריט הנפתח תחת '.sam בחר קובץ' משמש כדי לבחור את הנתונים עבור המדגם המכילים את הגן שמעצבת מועשר אם הריבית. קריאה עומק מראה כמה רצפים (ציר Y) נמצאו נתונים התואמים העמדות נוקלאוטיד של הרצף של עניין (ציר x). אנא לחץ כאן כדי להציג גירסה גדולה יותר של הדמות הזאת.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

חבילת התוכנות המתוארים כאן מאפשרת לעבד ולנתח תפוקה גבוהה DNA רצף נתונים ניסוי DEEPN לחלוטין. בתוכנית הראשונה בשימוש הוא MAPster, אשר לוקח את קריאות רצף ה-DNA בקבצים רגילים fastq וממפה את עמדתם על הפניה דנ א לעיבוד הזרם על ידי שורה שלמה של אינפורמטיקה תוכניות כולל את התוכנה DEEPN. השירות של הממשק MAPster ואת יכולתו תור משימות מרובות, לשלב קבצי קלט, פלט coveniently שם קבצים, בשילוב עם המהירות של HISAT2 הבסיסית תוכנית7 שהיא שולטת מספק של מיפוי כלי קל לשימוש עבור מגוון רחב של יישומים מעבר DEEPN. MAPster ניתן לגשת מספר פרמטרים של התוכנית HISAT2 המותאמים עבור סוגים אחרים של ניתוח נתונים חוץ DEEPN. חלק מהתכונות האלה לכלול פרמטרים מוגדרים מראש עבור ה-RNA-seq וניסויים מיפוי הגנום כולו וגישה סט מלא של פרמטרים הניתנים לשינוי בקלות HISAT2 עבור משתמשים מנוסים, יישומים מותאמים אישית. למשל, לחצן ה-RNA-seq מוסיף עיצוב שתאפשר את פרוטוקול האסיפה. היישור בלוקים לחצן CRISPR סטרנד המשלים הפוכה כמו ראוי עבור קובץ ה-DNA הפניה נגזר רצפי RNA מדריך. הפרמטרים האופציונליים נמצאים מתחת לגיל ארבע כרטיסיות, שכותרתו "קלט, יישור, רישום נקודות ו פלט". האפשרויות קלט כוללות את היכולת לשנות תבניות קובץ הקלט כדי לציין אפשרויות חיתוך קריאה בסיסית. היישור ואת כרטיסיות הבקיע כוללים את האפשרויות לבחירת גדיל אחד בלבד על ההפניה DNA וכדי להגדיר לעונש הפער ואת חוסר התאמה של הציונים יישור. היכולת לתור בנוחות מספר עבודות מיפוי שכל אחד עם הגדרת פרמטרים ברורים צריך להפוך MAPster עניין עבור משתמשים גם מומחה וגם הלא-מומחה לרדוף אחרי הגדרות היישומים המורכבים.

DEEPN ואת Stat_Maker תוכנות מוקדשות ניתוח ביואינפורמטיקה ספציפיות של נתונים אצווה Y2H המסכים. זה נגיש מגוון רחב של החוקרים, מהווה חבילת תוכנה רציפים bioinformatic הפעל באמצעות ממשק משתמש גרפי. חבילה זו יש כבר עוד יותר ממוטב, משולב תיאור המקורי שלה6 כך זה רץ מהר יותר ולא ניתוח של המועמד להיטים הוא יעיל. ניתן להפעיל את כל השלבים ביואינפורמטיקה במחשב שולחני. לוקח תוכנה DEEPN הראשי שאלה מפת תפקידים כדי לחשב כמה קורא תואמים כל הגן ובכך שעמד בבסיסן של מה גנים נתון הוא מועשר בעת הבחירה. תוכנה זו גם מוצאת 'צומת' רצפים התואמים הכנס של עניין כפי שהוא מותך לתחום הפעלת גנים ברמת השעתוק של פלסמיד טרף מנהל את התוצאות הללו כך אחד יכול לדמיין את כל חלקים שונים של ORF מסוים או cDNA המספיק לאינטראקציה. בנוסף, זה גם מספק מידע כדי לוודא את מסגרת קריאה של כל הוספה. בזרוע השלישית של התוכנה bioinformatic היא Stat_Maker, אשר משתמשת קבצי פלט מעובד על ידי DEEPN כדי לחשב את הרלוונטיות סטטיסטי של ג'ין enrichments הנובע אינטראקציות עם חלבון הפיתיון נתון לעומת (לבד תחום וקטור Gal4-הדי-איגוד ריק pTEF-GBD). שיפור האחרונה היא Stat_Maker לא רק מספקת דירוג סטטיסטי של כל מועמד, אבל גם מנהל את המידע המתאים שחולצו מן הרצפים צומת המתאימים, ולהפוך אותם זמינים בקובץ יחיד עושה את זה הרבה יותר קל לחוקרים סקר ולסקור את התוצאות.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

המחברים אין לחשוף

Acknowledgments

עבודה זו נתמכה על ידי מכוני הבריאות הלאומיים: NIH R21 EB021870-01A1, על ידי ה-NSF מחקר פרויקט מענק: 1517110.

Materials

Name Company Catalog Number Comments
Mapster https://github.com/emptyewer/MAPster/releases
DEEPN software https://github.com/emptyewer/DEEPN/releases
Statmaker https://github.com/emptyewer/DEEPN/releases
Minimum computer system Apple Mac Intel Core i5 or better
- 4 Gb RAM or better
- 500 Gb Disk spce or better
- OS 10.10 or higher
Dell Intel i5-7400 or better
- 4 Gb RAM or better
- 500 Gb Disk spce or better
- Windows 7 or higher

DOWNLOAD MATERIALS LIST

References

  1. Fields, S., Song, O. A novel genetic system to detect protein-protein interactions. Nature. 340 (6230), 245-246 (1989).
  2. Rajagopala, S. V. Mapping the Protein-Protein Interactome Networks Using Yeast Two-Hybrid Screens. Advances in Experimental Medicine and Biology. 883, 187-214 (2015).
  3. Weimann, M., et al. A Y2H-seq approach defines the human protein methyltransferase interactome. Nature Methods. 10 (4), 339-342 (2013).
  4. Yachie, N., et al. Pooled-matrix protein interaction screens using Barcode Fusion Genetics. Molecular Systems Biology. 12 (4), 863 (2016).
  5. Trigg, S. A., et al. CrY2H-seq: a massively multiplexed assay for deep-coverage interactome mapping. Nature Methods. , (2017).
  6. Pashkova, N., et al. DEEPN as an Approach for Batch Processing of Yeast 2-Hybrid Interactions. Cell Reports. 17 (1), 303-315 (2016).
  7. Kim, D., Langmead, B., Salzberg, S. L. HISAT: a fast spliced aligner with low memory requirements. Nature Methods. 12 (4), 357-360 (2015).
  8. Reinert, K., Langmead, B., Weese, D., Evers, D. J. Alignment of Next-Generation Sequencing Reads. Annual Review of Genomics and Human Genetics. 16, 133-151 (2015).
  9. Pertea, M., Kim, D., Pertea, G. M., Leek, J. T., Salzberg, S. L. Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown. Nature Protocols. 11 (9), 1650-1667 (2016).
  10. Conesa, A., et al. A survey of best practices for RNA-seq data analysis. Genome Biology. 17, 13 (2016).

Tags

גנטיקה גיליון 136 אינטראקציית חלבון רצף הדור הבא ניתוח רצף הדנ א שמרים 2-היברידית
Informatic ניתוח של נתוני רצף אצווה שמרים 2-היברידית המסכים
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Krishnamani, V., Peterson, T. A.,More

Krishnamani, V., Peterson, T. A., Piper, R. C., Stamnes, M. A. Informatic Analysis of Sequence Data from Batch Yeast 2-Hybrid Screens. J. Vis. Exp. (136), e57802, doi:10.3791/57802 (2018).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter