Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

אלגוריתם רומן ייס שינוי נקודות לניתוח הגנום רחב, של סוגי נתוני ChIPseq מגוונים

Published: December 10, 2012 doi: 10.3791/4273

Summary

נקודת השינוי בייס שלנו (BCP) אלגוריתם בונה על התקדמות מדינה-of-the-art בדוגמנות שינוי נקודות באמצעות מודלי מרקוב נסתרים וחייל אותם על הכרומטין immunoprecipitation ניתוח נתוני רצף (ChIPseq). BCP מבצע היטב בסוגי נתונים רחבים וpunctate, אבל מצטיין בזיהוי איים חזקים, לשעתק של העשרת היסטון מפוזרת באופן מדויק.

Abstract

ChIPseq היא טכניקה המשמשת באופן נרחב לחקר אינטראקציות-DNA חלבון. קראו פרופילי צפיפות נוצרים באמצעות הבא של רצף ה-DNA של חלבון נישא ויישור הקצר קורא לגנום הפניה. אזורים מועשרים מתגלים כפסגות, אשר לעתים קרובות נבדלים באופן דרמטי במצב, תלוי בחלבון המטרה 1. לדוגמה, לעתים קרובות גורמי שעתוק להיקשר באתר ואופן רצף ספציפי ונוטים לייצר פסגות punctate, תוך שינויי היסטון הם נפוצים יותר ומאופיינים באיים רחבים, מפוזרים של העשרה 2. אמין זיהוי אזורים אלה היה המוקד של העבודה שלנו.

אלגוריתמים לניתוח נתוני ChIPseq העסיקו מתודולוגיות שונות, משיטות היוריסטיות 3-5 ליותר מודלים סטטיסטיים קפדניים, מודלי מרקוב נסתרים (למשל הממ) 6-8. אנחנו חפשנו פתרון שהקטין את הצורך לקשה להגדרה, אד הוק פרמטרים שלעתים קרובותהרזולוציה להתפשר ולהפחית את השימושיות אינטואיטיבית של הכלי. עם כל כבוד לשיטות HMM מבוססים, אנו מכוונים לצמצום שיטות אמידות פרמטרים וסיווגים פשוטים, סופיים מדינה שלעתים קרובות מנוצלים.

בנוסף, ניתוח נתוני ChIPseq קונבנציונלי כרוך סיווג צפוי לקרוא פרופילי צפיפות כאחד punctate או מפוזר ואחרי היישום הבא של הכלי המתאים. אנחנו עוד מטרה להחליף את הצורך בשני דגמים שונים אלה עם מודל יחיד, תכליתי יותר, שיכול לטפל בכשרון את כל הספקטרום של סוגי נתונים.

כדי לעמוד ביעדים אלה, אנו נבנינו מסגרת סטטיסטית הראשונים שככבו באופן טבעי מבני ChIPseq נתונים באמצעות מראש חוד חנית ב9 הממ, אשר מנצל מפורשות רק נוסחות-חדשנות חיונית ליתרונות הביצועים שלה. מודלים מתוחכמים יותר אז האוריסטי, HMM להכיל מצבים נסתרים אינסופיים דרךמודל ייס. אנחנו יישמנו אותו לזיהוי נקודתי שינוי סבירות בצפיפות לקרוא, אשר נוסף להגדיר מקטעים של העשרה. הניתוח שלנו גילה כמה ייס שינוי נקודת האלגוריתם שלנו (BCP) הייתה מורכבות חישובית, שמעידות מופחתות זמן ריצה מתומצת וגודל פיזי של זיכרון. אלגוריתם BCP יושם בהצלחה לשניהם שיא punctate והזדהות אי מפוזרת עם דיוק חזק ופרמטרים מוגדרים משתמש מוגבלים-. זה מאויר הן צדדי וקל שימוש שלה. כתוצאה מכך, אנו מאמינים כי ניתן ליישם בקלות בטווח הרחב של סוגי הנתונים ומשתמשי קצה באופן שהוא קל להשוואה וניגוד, מה שהופך אותו לכלי מצוין לניתוח נתוני ChIPseq שיכול לסייע בשיתוף פעולה ואימות בין קבוצות מחקר. הנה, אנחנו מדגימים את היישום של חומר לגורם שעתוק קיים ונתוני 10,11 epigenetic 12 כדי להמחיש את השימושיות שלה.

Protocol

1. הכנת קבצי קלט לBCP ניתוח

  1. יישר הקצר קורא מופק מריצות רצף (שבב וספריות קלט) לגנום הייחוס המתאים באמצעות תוכנת יישור המועדפת קצרה לקריאה. המקומות הממופים יש להמיר לפורמט (BED) 13 (דפדפן UCSC הגנום, 6 נתונים להרחבת דפדפן עמודות http://genome.ucsc.edu/), קו מופרד באמצעות טאבים לממופים לקרוא המציין כרומוזום הממופה, יתחילו עמדה (0 מבוססים), עמדה בסוף (פתוח למחצה), קוראה את השם, ציון (לא חובה), וגדיל.

2 א. לפזר קראו פרופילים: שבב preprocessing נקרא צפיפות לאיתור של איים מועשרים בנתונים לדיה

  1. להאריך את השבב ומקומות קלט ממופים לאורך קבוע מראש שבר, כלומר. גודל השבר ממוקד במהלך עיכול או sonication אנזים של ה-DNA, בדרך כלל סביב 200 נקודתי בסיס. ספירת Fragment היא אז aggregaטד בפחים סמוכים. כברירת מחדל, גודל סל מוגדר אורך הקטע המשוער של 200 נ"ב.
  2. כל שינוי אפשרי ב- נקודתי קבוצה של פחים עם ספירת קריאה זהה ייפול סביר ביותר ברוב הגבולות החיצוניים. בהתאם לכך, אין זה סביר שנקודת שינוי תתרחש בגבול פנימי בין שני פחים עם את ספירת הקריאה. אז, פחים סמוכים קבוצה, עם זהה קוראים לסל, לגוש אחד, כלומר. פורמט bedGraph 13.

2b. פרופילי Punctate לקרוא: שבב preprocessing וקבצי BED קלט לאיתור של פיקס בנתוני Punctate

  1. הצבירה החופפת קוראה לשבב הגדיל פלוס מינוס קורא בנפרד. צפיפות הגדיל הספציפית לקרוא צריכה טופס פרופיל bimodal של פסגות חיבור וחיסור. בחר זוגות פלוס / מינוס של הפסגות המועשרות ביותר ולהשתמש במרחק בין פסגותיהם כאומדן לאורך בר הספרייה.
  2. Shift השבב והקלט קורא חצי מהבר length למרכז ולחשב את הצפיפות של הקריאה השתנתה והתמזגה פלוס מינוס גדיל קורא. מתודולוגיה זו להערכת אורך הקטע אומצה מג'אנג, et al. 3. עמדות עם ספירת מיזוג זהה צריכות להיות מקובצים לגושים, בדומה לצעד 2a.2.

3. מעריך האחורי Mean נקרא צפיפות של כל בלוק באמצעות קירוב BCMIX

  1. הצפיפות לקרוא כל בלוק היא במתכונת כהתפלגות פואסון, נקודתי עניין t), עם ממוצע פרמטר בעקבות תערובת של הפצות גמא, Γ (α, β), והסתברות מראש של נקודת שינוי המתרחשת בכל גבול בלוק של p. מיזוג POIs t) על G (α, β) יעיל הופך את המודל HMM מדינה אינסופית. מעריך-פרמטרי היפר, α, β, ו-p, באמצעות סבירות אחורית מרבית.
  2. במפורש לחשב את ההערכות לBayesכל בלוק, לא θ, כמו E (θ t | γ Z). החלף את הצריכה מסורתית יותר, אבל זמן קדימה ואחורה מסננים המשמשים לעתים קרובות בהממ, עם קירוב תערובת מורכבות תחומה יותר מחשוב יעיל להעריך אמצעי אחורי, θ ג. האמצעי האחורי שיתקבל יהיה "מוחלק" בפרופיל קבוע piecewise משוער כך בלוקים עם זהה, ג θ, יש לחסום יחד נוסף עם גבול מתעדכן מרכז.

4 א. לפזר קראו פרופילים: אמצעי אחורי לאחר התהליך למקטעים של העשרה מפוזרת

  1. השתמש במספר הקלט קורא לθ כל בלוק ג חדש כשיעור רקע, נקודתי עניין (λ) ולקבוע העשרה באמצעות בדיקה פשוטה המבוססת על השערה האם הממוצע האחורי השבב, θ ג, עולה על כ δ סף. 90 השנה </ Sup>-quantile הוא ד ברירת המחדל ומתאים ברוב המקרים.
  2. מיזוג סמוך θ ג לוקים כי יעלו ההעשרה לאזור ודוח יחיד למזג קואורדינטות בפורמט המיטה פשוטה. לחלופין, אפשר לדווח ג θ עבור כל בלוק בפורמט bedGraph לשמור את הפרטים ברזולוציה גבוהה של אומדני צפיפות הקריאה.

4 ב. Punctate קרא פרופילים: אמצעי אחורי לאחר התהליך למועמדי שיא

  1. הגדר את קצב הרקע, נקודתי עניין (λ), כממוצע של כל הספירות קראו (γ 2) ולזהות את כל הבלוקים העולים על הסף, ד. מאז פסגות punctate צפויות להיות יותר משמעותי מועשר, δ מוגדר כברירת המחדל של 99 ה-quantile של נקודתי עניין (λ).
  2. הגדר את הבלוק עם ג θ המקסימאלי כפסגת שיא המועמד ולצרף את לוקי איגוף שחולקים דן קריאה דומהsity (± 1 לקרוא לסמוך כדי לאפשר וריאציה קלה). אזור צמוד זו מוגדר כאתר מועמד מחייב.
  3. חישוב λ 2 כספירות קראו הממוצעות באתר שבב המועמד המחייב ובדיקת השערת רקע הקלט לעומת זו היה השערת האפס, H 0, 1 הוא שλλ 2 ונדחה H 0 על בסיס סף p-value. פסגות מועמד תפוקה בפורמט המיטה.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

BCP מצטיין בזיהוי האזורים של העשרה רחבה בנתוני השינוי היסטון. כנקודת התייחסות, השוו את התוצאות שלנו בעבר לאלה של 3 SICER, כלי קיים אשר הוכיח ביצועים חזקים. הטוב ביותר להמחיש את היתרונות של BCP, בדק שינוי היסטון שנחקר היטב הוא ליצור בסיס להערכת שיעורי הצלחה. עם זה בחשבון, אז אנחנו מנתחים H3K36me3, שכן הוא הוכח לקשר חזק עם גופים פעילים תעתיקי גנים (איור 1). בניגוד לכך, שגם H3K36me3 הוכח להיות הדדי בלעדי לH3K27me3 סימני דיכוי. אנחנו עוד ממונפים יחסים ידועים אלה כדי להמחיש את יתרונות ביצועים של BCP באי הדיוק של שיחות על ידי קביעת החלק של חפיפה עם עמותות וdisassociations ידועים, בהשפעת קשר ואנטי מתאם. הנה, אנחנו יותר לבסס את היתרונות של BCP באמצעות דוגמאות נוספותשל ביצועים גבוהים.

העבודה הקודמת שלנו הראתה נטייה לגודל הרבה יותר גדול באי BCP, 23.9-25.8 ק"ג, מSICER, 2.7-10.7 ק"ג; איים גדולים יותר להיות בקו אחד עם הציפיות הקונבנציונליות של איים מפוזרים הרחבים של H3K36me3 העשרה (PLoS Comp יו, שהוגש). כמובן, איים גדולים לא לבד מצביעים על דיוק. אז, קבע כמה חפיפת אזורים אלה היו בגנים מוכרים והניגוד הזה עם מידת חפיפה עם שטח intergenic, אינדיקציה לשיעור חיובי כוזב (FPR). כיסוי הגן בBCP נע 0.492-0.497 לעומת 0.276-0.437 בSICER מבלי להשפיע FPR קשה; חפיפת טווח intergenic 0.89-0.90 ו0.85-0.98 בBCP וSICER, בהתאמה. כאן, אנו מציגים את אזור נציג נוסף המציג את הקשר הדוק בין הגבולות של העשרה וגן הגופים-בבירור להבחין פעיל ולדכאשעתוק אד (איור 1). עוד הדבר זה תומך בטענה שלנו שBCP שומר על חפיפה הגבוהה של גנים פעילים בH3K36me3 איים עם גבולות המיושרים הדוק לגוף גנים מבלי להגדיל את מידת החפיפה חיובית כוזבת בחלל intergenic, גנים עם שעתוק מודחק, או הסימן המדכא H3K27me3.

תוך הערכת השחזור של BCP-האי קוראה בשתי ערכות נתונים לשכפל, הבחין BCP לא סובל מתלות כבדה על עומק כיסוי קריאה באלגוריתם המתחרה, SICER. אנו מספקים עדות נוספת לחוסן והשחזור של BCP ידי בדיקת אזורים שונים נוספים מדגים גבולות אי עקביים למרות עומק הכיסוי המופחת (מדומה על ידי דגימה קוראה ממערך הנתונים המלא) (איור 2).

כדי להדגים את הרבגוניות של BCP מלא, השיג קשת רחבה של נתוני שינוי היסטון, כולל סימן punctateשל H3K27ac, H3K9ac, וH3K4me3, והסימן המפוזר, H3K9me3, בנוסף לH3K27me3 וH3K36me3. נתחנו נתונים אלה מציבים תוך שימוש בהגדרות ברירת המחדל של הפרמטרים עבור שניהם BCP וSICER (איור 3). סימנים אלה מייצגים מגוון רחב של פרופילי צפיפות לקרוא ותאפשר לנו להתמקד באזור שממחיש רבים מהתכונות נפוצות הקשורים בם. במרכז נמצאת H3K36me3 העשרה בגני PXDN סימון שעתוק פעיל. נפילה כצפוי באתר תחילת השעתוק הן סימנים נוספים punctate, פעיל, H3K27ac, H3K9ac וH3K4me3. רק במורד הזרם של PXDN מודחק חלל intergenic התאפיין H3K27me3 העשרה. באגף שממול נמצא גן מודחק H3K27me3. נע עוד צעד אחד החוצה מושתק הכרומטין, כפי שמצוין על ידי הנוכחות של H3K9me3 העשרה המופיעה כדי לציין השתקת SNTG2 וMYT1L, אולי במובן מסוים פחות חולף אז H3K27me3 הדחקה. אזור זה מקיף את רוב תופעות enהגיב בChIPseq של שינויי היסטון ומדגים כיצד האופי הדינמי של BCP ניתן לזהות גם acetylation punctate וH3K4me3 סימנים ואילו באותו הזמן הבחנת איים סמוכים גדולים של הדיכוי H3K27me3 וH3K9me3 ושעתוק פעיל H3K36me3. כדי לחזור ולהדגיש, BCP יכול לעשות כזה כל הניתוחים האלה פשוט בהגדרות ברירת מחדל, וכפי שהראה, עדיין מייצר תוצאות איכותיות, ללא קשר לסוג נתונים. האלגוריתם הוא גם מהיר וזיכרון יעיל, ולכן מספק תועלת כמעט משכנעת.

איור 1
איור 1. מפוזר לקרוא פרופילי צפיפות של שינויי היסטון. H3K27me3 (למעלה) וH3K36me3 (תחתון) מדגימים את האיים הרחבים, מפוזרי ההעשרה קשור הדוקים עם גופי גן (קופסות ירוקות). H3K27me3 קורלציה עם גנים מודחקים ומרחב intergenic וanticorrelates עם אופן פעיל trגופי גנים anscribed. ההפך הוא נכון לH3K36me3. נתונים הם מדמיינים בדפדפן הגנום UCSC (http://genome.ucsc.edu).

איור 2
האיור 2. BCP הוא איתן ושחזור. איילנד קוראה לH3K36me3 לשתיים ומשכפל בדגימת עומק של 30%, 50 ו 70 למערך נתונים המלא לשכפל 1 נותחה עם BCP. לשכפל השני, עם כיסוי קריאה נמוכה באופן משמעותי, המיוצר שיחות אי דומות ומידת החפיפה הייתה מאוד נשמרה ללא תלות בדגימת אחוז. יתר על כן, נותרו איי דיוק כפי שראו בהתאמה הקרובה של גבולות עם ביאורי גוף גני RefSeq.

איור 3
איור 3. BCP הוא להיפךאלגוריתם אריח שיכול להיות מיושם על כל סוגי נתוני שינויי היסטון. BCP וSICER שמשו כדי לנתח את המכלול של סוגי נתונים, מסימני punctate כמו H3K27ac, H3K9ac, וH3K4me3, כדי לפזר סימנים כמו H3K36me3, H3K27me3, וH3K9me3. שימוש בפרמטרים של ברירת המחדל עבור שני האלגוריתמים, איי BCP ללכוד את הצפיפות המועשרת ללא קשר לרוחבם, תוך SICER לעתים קרובות שברים לאזורים רבים משנה איים. גם במקרה הרחב ומפוזר מאוד של H3K9me3, BCP יש ביצועים סבירים.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

אנחנו יצאנו לפתח מודל לניתוח נתוני ChIPseq שיכולים לזהות את שני מבני נתוני punctate ומפוזרים היטב באותה מידה. עד עכשיו, אזורים של העשרה, אזורים מפוזרים במיוחד, המשקפים את ציפיות גודל נחת האי גדול, שהיו קשים לזיהוי. כדי לטפל בבעיות אלה, אנו נצלנו את החידושים האחרונים בטכנולוגית הממ, אשר מחזיקים יתרונות רבים על פני דגמים האוריסטי קיימים והממ פחות חדשני.

המודל שלנו עושה שימוש במסגרת ייס עם נוסחות מפורשות. זו הבחנה קריטית מהממ אחר, בכך שהוא מאפשר לנו לחשב אמצעי אחורי, צפוי לקרוא צפיפות של כל מגזר, עם חישובים פשוטים, ולא להסתמך על זמן רב ומחשוב יקרים סימולציות כגון שיטות מונטה קרלו שרשרת מרקוב. כתוצאה מכך, לעתים החישוב שלנו ודרישות זיכרון מופחתות באופן דרמטי. שימוש גבוה ביצועי מחשוב אשכולות wiליבת ה כפולה, בלוטות 2.0 GHz עם 2 GB של זיכרון 64-bit לנתח ~ 23000000 H3K27me3 קוראים או ~ 21000000 H3K36me3 קוראים, BCP לקח פחות משעה לניתוח הגנום כולו בהשוואה למספר שעות עד ימים הנדרשים לשיטות אחרות. חיסכון בזמן אלה יכולים להיות מושגת רק עם 2 GB של זיכרון הצנוע.

בנוסף, תנאי המודל שלנו את האמצעים השונים של כל מגזר, כלומר. נקודתי העניין (θ), על הפצת גמא רציפה. בעיקרו של דבר, זה מאפשר למצבים אפשריים אינסופיים לכל מגזר. BCP יכול לספק יותר מ סיווגים בינאריים פשוטים של מועשר לעומת רקע ושומר על סדר גודל הצפיפות לקרוא לכל קטע דרך אמצעי הפלט האחורי.

אנחנו גם עושים שימוש באלגוריתם BCMIX ליעילות חישובית. זה מאפשר חיפוש מקיף קרוב לשינוי נקודות בין העשרה ורקע של כל הפוזיציות הגנומי האפשריות. זה מספק רזולוציה גבוהה לא גonfined ידי הגדרות window שרירותיות, עם מעט השפעה על זמן ריצה או דרישות זיכרון.

כל זה נעשה ללא דיוק מטריד, היא בתאוריה, מאז המודל סטטיסטי קפדני ותוצאותיה להתכנס לאומד ייס, כמו גם באימון, כפי שהודגמנו כאן. כיסוי הגן של התוצאות שלנו מראה את H3K36me3 שיחות האי הן מאוד מדויקות בלי לפלוש למרחב מוכר נכלל הדדי intergenic או H3K27me3 העשרה. התוצאות הן להפליא לשעתק וחזקות והראו תלות קטנה בעומק כיסוי, וכינתה את האיים דומים עם כיסוי גן גבוה ונמוך FPR למרות עומקי דגימה נמוכה כמו 30%. BCP היה בשימוש רחב, ללא כל התאמה לפרמטרים של ברירת מחדל, כדי לנתח מגוון רחב של נתונים ושינוי היסטון ChIPseq גורם שעתוק וביצועים טובים בכל המקרים. אנו מקווים כי בשל הדיוק שלו גבוה, החוסן, והשחזור, BCP ישמש כיעילכלי לניתוח נתונים, שיתוף פעולה ותימוכין בעתיד.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

אין ניגודי האינטרסים הכריזו.

Acknowledgments

פרס סטאר יסוד (MQZ), מענק NIH ES017166 (MQZ), NSF מענק DMS0906593 (HX).

Materials

Name Company Catalog Number Comments
Linux-based workstation

DOWNLOAD MATERIALS LIST

References

  1. Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
  2. Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
  3. Zhang, Y., et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol. 9, R137 (2008).
  4. Zang, C., et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data. Bioinformatics. 25, 1952-1958 (2009).
  5. Jothi, R., Cuddapah, S., Barski, A., Cui, K., Zhao, K. Genome-wide identification of in vivo protein-DNA binding sites from ChIP-Seq data. Nucleic Acids Res. 36, 5221-5231 (2008).
  6. Qin, Z. S., et al. HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data. BMC Bioinformatics. 11, 369 (2010).
  7. Song, Q., Smith, A. D. Identifying dispersed epigenomic domains from ChIP-Seq data. Bioinformatics. 27, 870-871 (2011).
  8. Spyrou, C., Stark, R., Lynch, A. G., Tavaré, S. BayesPeak: Bayesian analysis of ChIP-seq data. BMC Bioinformatics. 10, 299 (2009).
  9. Lai, T., Xing, H. A simple Bayesian approach to multiple change-points. Statistica Sinica. , (2011).
  10. Robertson, G., et al. Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat. Methods. 4, 651-657 (2007).
  11. Stitzel, M. L., et al. Global epigenomic analysis of primary human pancreatic islets provides insights into type 2 diabetes susceptibility loci. Cell Metab. 12, 443-455 (2010).
  12. Bernstein, B. E., et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnol. 28, 1045-1048 (2010).
  13. Karolchik, D., et al. The UCSC Table Browser data retrieval tool. Nucleic Acids Res. 32, 493-496 (2004).
  14. Matys, V., et al. TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res. 31, 374-378 (2003).
  15. Portales-Casamar, E., et al. JASPAR 2010: the greatly expanded open-access database of transcription factor binding profiles. Nucleic Acids Res. 38, D105-D110 (2010).

Tags

גנטיקה גיליון 70 ביואינפורמטיקה ביולוגית ג'נומיקס מולקולרית ביולוגיה תאית אימונולוגיה הכרומטין immunoprecipitation השבב seq שינויי היסטון פילוח ייס מודלי מרקוב נסתרים אפיגנטיקה
אלגוריתם רומן ייס שינוי נקודות לניתוח הגנום רחב, של סוגי נתוני ChIPseq מגוונים
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Xing, H., Liao, W., Mo, Y., Zhang,More

Xing, H., Liao, W., Mo, Y., Zhang, M. Q. A Novel Bayesian Change-point Algorithm for Genome-wide Analysis of Diverse ChIPseq Data Types. J. Vis. Exp. (70), e4273, doi:10.3791/4273 (2012).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter