Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

מדריך מעשי לphylogenetics לNonexperts

Published: February 5, 2014 doi: 10.3791/50975

Summary

כאן אנו מתארים צינור צעד אחר צעד ליצירת phylogenies אמין ממערכי נתוני רצף נוקליאוטידים או חומצות אמינו. מדריך זה נועד לשרת את חוקרים או סטודנטים חדשים לניתוח פילוגנטי.

Abstract

חוקרים רבים, על פני מוקדים מגוונים להפליא, מתראיין phylogenetics לשאלת המחקר שלהם (S). עם זאת, חוקרים רבים חדשים לנושא זה וכך הוא מציג בעיות הטמונות. כאן אנו לקמפל הקדמה מעשית לphylogenetics לnonexperts. אנו מתארים באופן צעד אחר צעד, צינור להפקת phylogenies אמין ממערכי נתוני רצף גן. אנחנו מתחילים עם מדריך למשתמש עבור כלי חיפוש דמיון באמצעות ממשקי האינטרנט, כמו גם הרצה מקומית. בשלב בא, אנו לחקור תוכניות ליצירת מערכי רצף מרובים ואחרי פרוטוקולים לשימוש בתוכנה כדי לקבוע דגמים מיטבית של אבולוציה. לאחר מכן, אנו מתארים פרוטוקולים לשיקום יחסים פילוגנטי באמצעות סבירות המרבית וקריטריונים בייס ולבסוף מתארים את הכלים המאפשרים הדמית עצי פילוגנטי. אמנם זה לא בכל אמצעי תיאור ממצה של גישות פילוגנטי, הוא מספק את הקורא עם informat מתחיל מעשייון ביישומי תוכנת מפתח מנוצלים בדרך כלל על ידי phylogeneticists. החזון למאמר זה יהיה כי זה יכול לשמש ככלי הכשרה מעשי לחוקרים שיצאו ללימודי פילוגנטי וגם לשמש כמשאב חינוכי שיכול להיות משולב בתוך כיתה או במעבדת הוראה.

Introduction

על מנת להבין כיצד שני (או יותר) מינים התפתחו, יש צורך קודם כל להשיג רצף או נתונים מורפולוגיים מכל מדגם, נתונים אלה מייצגים כמויות שאנחנו יכולים להשתמש בו כדי למדוד את מערכת היחסים שלהם בחלל אבולוציוני. בדיוק כמו כאשר מדידת מרחק לינארי, שיש יותר נתונים זמינים (למשל קילומטרים, סנטימטרים, מיקרון) יהיו שווים ל מדידה מדויקת יותר. Ergo, הדיוק שבה חוקר יכול להסיק מרחק האבולוציוני מושפע מאוד את נפח הנתונים אינפורמטיבי זמינים למדוד מערכות יחסים. יתר על כן, מכיוון שמדגמים שונים להתפתח בקצב שונה ועל ידי מנגנונים שונים, השיטה שאנו משתמשים כדי למדוד את היחסים בין שני מינים גם משפיעה ישירות על הדיוק של מדידות אבולוציוני. לכן, בגלל יחסים האבולוציוניים אינם ישירות שנצפו אך במקום זאת הם להסיק מרצף או נתונים מורפולוגיים, הבעיה של הסקה אבולוציוניתמערכות יחסים הופכים לאחד מהנתונים סטטיסטיים. Phylogenetics הוא הענף של ביולוגיה העוסקת ביישום מודלים סטטיסטיים לדפוסים של אבולוציה כדי לשחזר את ההיסטוריה האבולוציונית בין מינים בצורה אופטימלית. שחזור זה בין המינים המכונה תולדות הגזע של קטגוריות המיון.

כדי לסייע לגשר על הפער במומחיות בין ביולוגים מולקולריים וביולוגים אבולוציוניים שאנו מתארים כאן צעד אחר צעד צינור כדי להסיק מסקנה, phylogenies מסט של רצפים. ראשית, אנחנו פירוט השלבים הכרוכים בחקירת מסד נתונים באמצעות מקומי יישור כלי חיפוש הבסיסי (תפציץ 1) אלגוריתם באמצעות הממשק מבוסס האינטרנט וגם באמצעות הרצה מקומית, זה הוא לעתים קרובות הצעד הראשון בהשגת רשימה של רצפים דומים למזוהה שאילתה, למרות שחלקם חוקרים עשויים להתעניין גם באיסוף נתונים עבור קבוצה אחת באמצעות ממשקי אינטרנט כגון Phylota (http://www.phylota.net/). פיצוץ הוא אלגוריתם לגomparing חומצת אמינו עיקרי או נתונים רצף נוקליאוטידים מול מסד נתונים של רצפים כדי לחפש את "להיטים" המזכירים את רצף השאילתה. התכנית תפציץ תוכננה על ידי סטיבן אלטשול et al. במכון הלאומי לבריאות (NIH) 1. השרת תפציץ מורכב ממספר התוכניות שונות, והנה רשימה של חלק מתוכניות תפציץ הנפוצות ביותר:

i) תפציץ נוקלאוטיד נוקלאוטיד (blastn): תכנית זו דורשת קלט רצף ה-DNA ומחזירה את רצפי ה-DNA הדומה ביותר ממאגר ה-DNA שמציין המשתמש (לדוגמה לאורגניזם ספציפי).

ii) פיצוץ חלבונים (blastp): כאן משתמש תשומות רצף חלבון והתכנית מחזירה את רצפי חלבונים דומים ביותר ממאגר החלבון שהמשתמש מציין.

iii) תפציץ תפקיד ספציפי איטרטיבי (PSI-BLAST) (blastpgp): הקלט מהמשתמש הוא הגנה של מחזורברצף שמחזיר קבוצה של חלבונים הקשורים באופן הדוק, וממערך נתונים זה נשמר בפרופיל שנוצר. הבא שאילתה חדשה שנוצרה רק באמצעות אלה "מוטיבים" נשמרים בו נעשה שימוש כדי לחקור את מסד הנתונים של חלבון וזה מחזיר את קבוצה גדולה יותר של חלבונים שממנה הסט חדש של "מוטיבים" שימור מחולץ ולאחר מכן נעשה שימוש כדי לחקור את מסד הנתונים של חלבון עד קבוצה גדולה עוד יותר של חלבונים retuned ופרופיל אחר מופק והתהליך חוזר ונשנה. על ידי כולל חלבונים הקשורים לשאילתא בכל שלב בתכנית זו מאפשרת למשתמש לזהות רצפים שהם מסתעף יותר.

iv) נוקלאוטיד תרגום חלבון 6-מסגרת (blastx): כאן המשתמש מספק קלט רצף נוקליאוטידים אשר מומר מוצרי שש מסגרת מושגית תרגום (כלומר שני גדילים) מול מסד נתוני רצף חלבון..

v) נוקלאוטיד תרגום נוקלאוטיד 6 מסגרתתרגום 6 מסגרת (tblastx): תכנית זו לוקחת קלט רצף נוקליאוטידים DNA ומתרגמת את הקלט לכל מוצרי התרגום הרעיוניים של שש המסגרת שבה משווה מול תרגומי שש מסגרת של מסד הנתונים רצף נוקליאוטידים.

vi) תרגום חלבון נוקלאוטיד 6 מסגרת (tblastn): תכנית זו משתמשת קלט רצף חלבון להשוואה מול כל שש מסגרות הקריאה של מסד הנתונים רצף נוקליאוטידים.

בשלב בא, אנו מתארים תוכניות נפוצות ליצירת רצף יישור מרובה (MSA) מבסיס נתוני רצף, וזה מלווה במדריך למשתמש לתוכניות שקובעות את הדגמים הטובים ביותר בכושר של אבולוציה לבסיס נתוני רצף. שחזור פילוגנטי הוא בעיה סטטיסטית, ובגלל זה, שיטות פילוגנטי צריכים לשלב מסגרת סטטיסטית. מסגרת סטטיסטית זה הופכת להיות מודל האבולוציוני שמשלב שינוי רצף בתוך בסיס הנתונים. מו האבולוציוני הזהדל מורכב מסט של הנחות לגבי התהליך של החלפות נוקלאוטיד או חומצה אמינית, והמודל הכי המתאים למערך נתונים מסוימים ניתן לבחור באמצעות בדיקה סטטיסטית. נכון לנתונים של דגמים שונים ניתן להשוות באמצעות בדיקות יחס סבירות (LRTs) או קריטריוני מידע כדי לבחור את המודל הטוב ביותר להתאמה בתוך קבוצה של אפשריים אלה. שני קריטריוני מידע משותפים הם קריטריון Akaike המידע (AIC) 2 והקריטריון בייס המידע (BIC) 3. ברגע יישור אופטימלי שנוצר, יש שיטות רבות ושונות ליצירת תולדות הגזע מהנתונים המיושרים. ישנן שיטות רבות של הסקת יחסים האבולוציוניים; רחב, הם יכולים להיות מחולקים לשתי קטגוריות: שיטות המבוסס על מרחק ושיטות המבוסס על רצף. שיטות המבוסס על מרחק לחשב מרחקי pairwise מרצפים, ולאחר מכן להשתמש במרחקים אלה כדי להשיג את העץ. שיטות המבוסס על רצף להשתמש ביישור הרצף באופן ישיר, ובדרך כלל לחפש tחלל רי באמצעות קריטריון אופטימלי. אנו מתארים שתי שיטות המבוסס על רצף לשיקום יחסים פילוגנטי: אלה הם 4 PhyML אשר מיישמת את מסגרת הסבירות המרבית, וMrBayes 5 אשר עושה שימוש בהיקש בייס שרשרת מרקוב מונטה קרלו. סבירות ושיטות בייס לספק מסגרת סטטיסטית לשחזור פילוגנטי. על ידי מתן מידע משתמש בכלים עץ בנייה נפוץ, אנחנו מציגים בפני הקורא את הנתונים הדרושים כדי להסיק יחסי פילוגנטי.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. מקומי יישור כלי חיפוש בסיסי (תפציץ): באינטרנט ממשק

  1. לחץ על קישור זה לבקר בשרת האינטרנט תפציץ 1 במרכז הארצי למידע ביוטכנולוגיה (צמח השדה). - Http://blast.ncbi.nlm.nih.gov/Blast.cgi (איור 1).
  2. קלט רצף FASTA מעוצב טקסט (ראה איור 2 לדוגמא) לתוך תיבת השאילתה.
  3. לחץ על התכנית המתאימה תפציץ ומסד נתונים רלוונטיים או מינים בודדים של עניין להשתמש בחיפוש, ולאחר מכן לחץ על "פיצוץ".
    הערה: רצף FASTA מעוצב מתחיל בשורת תיאור מצויינים על ידי סימן ">". התיאור חייב לעקוב מייד אחרי הסימן ">", הרצף (כלומר. נוקלאוטידים או חומצות אמינו) בצעו את תיאורו בשורה הבאה. הפלט מחיפוש הפיצוץ מוצג כ-HTML, טקסט רגיל, XML, או ta פגעBles (טקסט או csv) עם ברירת המחדל שנקבע ל-HTML (איור 3).

2. מקומי יישור כלי חיפוש בסיסי (תפציץ): הרצה מקומית

  1. הורד את ההרצה של שורת הפקודה האחרונה תפציץ תפציץ מהקישור הזה:
    ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ -
  2. לחץ פעמיים על קובץ win32.exe הפיצוץ האחרון ולקבל את הסכם הרישיון ולחץ על התקנה: em> למשתמשי ה-PC.
    הערה: מדריך התקנת ברירת המחדל הוא C: + צמח השדה-פיצוץ 2.2.27.
  3. הגדר את משתנה סביבת המחשב באופן הבא:
    1. לחץ על המחשב "התחל" כפתור, ולאחר מכן לחץ לחיצה ימנית על "מחשב",
    2. לחץ על "מאפיינים" ובמוקפץ לחץ על הלשונית "המתקדמת"
    3. לחץ על הכפתור "משתני הסביבה" ובקופץ החדשים לחץ על לחצן "החדש" תחת ה"משתני משתמש למשתמש" סעיף ה
    4. במוקפץ להוסיף את השם המשתנה "נתיב" וערך משתנה "C: צמח השדה-פיצוץ 2.2.27 + bin.
      הערה: בספריית bin מכילה את קובץ ההפעלה (כלומר blastp, וכו '.)..
  4. em> למשתמשי מקינטוש: פתח את יישום המסוף (לעשות "Finder" רק פתוח זה ולחפש "טרמינל" וזה יציג את הסמל "מסוף"). לסוג חלון המסוף:
    > Ftp ftp.ncbi.nih.gov
    הערה: ניתן גם להקליד את כתובת האתר בשימוש מעל בדוגמא למחשב
  5. כדי לגשת לסוג אתר FTP צמח השדה "בעילום שם" לשם וסיסמא, ולאחר מכן סוג:
    > פיצוץ cd / הרצה / האחרון
  6. רשימת ההרצה על ידי הקלדה:
    > Ls
  7. קבל את הגרסה האחרונה על ידי הקלדת הפקודה הבאה (או מה הגרסה האחרונה הוא כרגע):
    2; לקבל צמח השדה פיצוץ-2.2.7-macosx.tar.gz
  8. לצאת מאתר צמח השדה שרת FTP על ידי הקלדה "יציאה".
  9. לשחרר לחץ הקבצים שהורדו על ידי הקלדה:
    > זפת xzf צמח השדה פיצוץ-2.2.7-macosx.tar.gz
  10. הוסף את המיקום של הקבצים בינאריים להפעלת הפיצוץ לנתיב שלך, כך שהקליפה יכולה לחפש דרך ספרייה זו כאשר מחפשת פקודות על ידי הקלדה:
    > PATH = $ PATH: new_folder_location
  11. בדוק אם זה הוסיף את המיקום לנתיב שלך על ידי הקלדה:
    > PATH הד $
  12. הורד מסדי נתונים מעוצבים מראש תפציץ (אשר מתעדכנים מדי יום) על ידי לחיצה כאן:
    ftp://ftp.ncbi.nlm.nih.gov/blast/db/
  13. מניחים את מסד הנתונים לתיקייה "DB".
  14. em> במחשב: פתח את שורת הפקודה של MS-DOS (לעשות קליק זה "התחל" והקלד "cmd" בשורת החיפוש) ולשנות את הספרייה לתיקיית צמח השדה הפיצוץ על ידי הקלדה:
    C: Users> cd .. [מהלכיםעד תיקייה אחת]
    C: cd > צמח השדה-פיצוץ 2.2.27 +
    זה יהיה לשנות את הספרייה:
    C: צמח השדה-פיצוץ 2.2.27 +>
  15. ליצור את מסד הנתונים בעזרת הפקודה "makedb" הבאה:
    > Makedb-בdb / db prot-out briggsae.fasta-dbtype / briggsae
    הערה: בדוגמא הבאה (איור 4) מסד נתונים בשם "briggsae" ומורכב מקבוצת הצמדה אחד מן האורגניזם Caenorhabditis briggsae.
  16. יצירת רצף חלבון שאילתה שנקרא "מבחן" על ידי החדרת רצף טקסט FASTA מעוצב חלבון לתוך התיקייה "DB".
  17. לחקור את מסד הנתונים באמצעות חיפוש blastp ידי הקלדת הפקודה הבאה:
    > Db blastp השאילתה / db test.txt-db / briggsae החוצה text.txt
  18. em> במקינטוש: להוריד מסד הנתונים עבור חיפושי פיצוץ מקומיים על ידי גישה לאתר האינטרנט של ה-FTP צמח השדה בהתאם להוראות לעיל (שלב 2.4) וסוג n:
    > LCD .. / מסדי נתונים /
  19. הורד את הגנום או רצף של עניין על ידי הקלדה:
    > לקבל NC_ [# הצטרפות]. FNA
    הערה: ". FNA" מתייחס לרצף נוקליאוטידים FASTA המעוצב ו" ה-FAA. "מתייחסת לרצפי חומצות אמינו FASTA מעוצבים.
  20. סוג "לפרוש" כדי לצאת מאתר FTP.
  21. להפוך את מסד הנתונים על ידי הקלדה:
    > Makeblastdb-ב/ db prot עכבר dbtype mouse.faa-out
  22. הכנס רצף שאילתה מעוצב FAST לתוך התיקייה "הסל" ולחקור את מסד הנתונים עם את הפקודה הבאה:
    results.txt blastp השאילתה "query.fasta"-db "מסד הנתונים שלך" החוצה>

3. יצירת יישור רצף מרובה

  1. לחץ על הקישורים הבאים כדי לגשת למערך תוכניות נפוצות מרובות רצף (MSA):
    ClustalW 6 http://www.clustal.org/
    קאליGN 7 http://msa.sbc.su.se/cgi-bin/msa.cgi
    MAFFT 8,9 http://mafft.cbrc.jp/alignment/software/
    שרירים 10 http://www.drive5.com/muscle/
    11 T-קפה http://www.tcoffee.org/Projects/tcoffee/
    12 PROBCONS http://toolkit.tuebingen.mpg.de/probcons
  2. לחץ על קישור זה - http://tcoffee.crg.cat/apps/tcoffee/do:regular - ונתוני רצף מעוצבים FASTA הקלט לתוך תיבת השאילתה
    הערה: פלט לדוגמא מ-T-קפה שניתן לראות בתרשים 5, שאריות דומות מקודד לפי צבע.
  3. הורד את ה-MSA Clustal כגרסת שורת הפקודה (ClustalW) או v גרפיersion (ClustalX) על ידי לחיצה על קישור זה: http://www.clustal.org/clustal2/ - ואז ללחוץ על ההפעלה המתאימה (כלומר נצחון, לינוקס, Mac OS X).
  4. להעלות את הנתונים כטקסט רצף FASTA מעוצב וליישר (איור 6).

4. קביעת מודלים הטוב ביותר בכושר של אבולוציה

  1. לחץ כאן כדי להוריד את תכנית ProtTest 13:
    http://darwin.uvigo.es/our-software/
  2. ברגע שProtTest מורד, לחץ פעמיים על קובץ ProtTest.jar
  3. ברגע שProtTest הוא הושק, לחץ על "בחר קובץ" ולטעון את נתוני הרצף (איור 7).
  4. לאחר מכן לחץ על "התחל" והתכנית תתחיל (איור 8).
    הערה: לאחר השלמת הריצה (איור 8), התכנית תציין את המודל הטוב ביותר על פי קריטריונים כגון: "המודל הטוב ביותר על פי המרכז לאינפורמציה אלטרנטיבית: לכשכש + I G +"

5. הסיק phylogenies רצף בהתבסס על ידי נראה מקסימלית או הסקה בייס

  1. הורדתי 4 PhyML כאן:
    https://code.google.com/p/phyml/
  2. הפעל את קובץ ההפעלה על ידי לחיצה כפולה על היישום המתאים (כלומר phyml Windows, phyml לינוקס, וכו '.) ואת חלון ממשק יצוץ (איור 9).
  3. טען את רצף הקלט כרצף PHYLIP מעוצב על ידי הקלדה:
    > "שם קובץ". PHY
    הערה: כדי להמיר בין פורמטי רצף, השתמש בתכנית "Readseq" האינטרנט זמינה ב - http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi.
  4. הפעל את התכנית על ידי הקלדה "Y".
  5. הורד MrBayes 5 כאן:
    rceforge.net / download.php "> http://mrbayes.sourceforge.net/download.php
  6. כדי להפעיל את התכנית בלחיצה על קובץ ההפעלה ולקרוא את נתוני רצף NEXUS מעוצבים לתכנית על ידי הקלדה:
    > הוצאת להורג "שם קובץ". NEX
  7. הגדר את המודל האבולוציוני.
  8. בחר את מספר הדורות המנוהל על ידי הקלדה:
    > Mcmcp NGEN = 1000000 [זה מגדיר את מספר הדורות ל1000000]
    > עוקה Burnin = 10,000 [זה מגדיר את Burnin ל10000]
  9. שמור את אורכי הסניף בקובץ התוצאות על ידי הקלדה:
    > Mcmcp savebrlens = כן
  10. הפעל את הניתוח על ידי הקלדה:
    > המרק"ם
  11. סכם את העצים באמצעות הפקודה "sumt".

6. חזותי phylogenies

  1. להציג רשימה של תוכניות הצופה עץ כאן:
    http://www.treedyn.org/overview/editors.html
  2. הורד את progr 14 TreeViewהנני כאן:
    http://taxonomy.zoology.gla.ac.uk/rod/treeview.html

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

מציאת קווי דמיון לשאילתא מאפשרת לחוקרים מייחסים את זהות פוטנציאלית לרצפים חדשים וגם להסיק קשרים בין רצפים. סוג קלט קובץ ליפציץ 1 הוא רצף FASTA מעוצב טקסט או מספר הצטרפות GenBank. רצף FASTA מעוצב מתחיל בשורת תיאור מצויינים על ידי סימן ">" (איור 2). התיאור חייב לעקוב מייד אחרי הסימן ">", הרצף (כלומר. נוקלאוטידים או חומצות אמינו) בצעו את תיאורו בשורה הבאה. כאשר קבצי רצף עריכת חיסכון ו, דרך טובה ביותר הוא להשתמש בעורך טקסט כגון "פנקס רשימות" במחשב או TextWrangler (http://www.barebones.com/products/textwrangler/) עבור Mac. האלגוריתם תפציץ מבצע יישור "מקומי", אשר מחפש מותח קצרה של דמיון רצף. לאחר האלגוריתם חפש ומצא את כל stretche האפשרי "של "מרצף השאילתה והאריך מקסימאלי הרצפים האלה, אז זה מרכיב מערכים עבור כל זוג רצף שאילתה. אז זה חשוב להבין כמה טוב התאמות אלה, וכך חל פיצוץ סטטיסטיקה לכל מכה אשר מהווה ערך מצפה (E) וציון ביט. ערך E נותן אינדיקציה למובהקות הסטטיסטיות למשחק. E-הערך נמוך יותר, משמעותי יותר הלהיט, למשל יישור רצף עם E-ערך של 0.05 אומר שהסבירות לכך משחק מתרחש באופן מקרי בלבד הוא 5 ב100. הציון קצת משתמש במטריצת ניקוד מסוימת כדי לספק אינדיקציה לכמה טוב הוא היישור. הציון קצת גבוה יותר, טוב יותר את היישור. דומה לגרסה המקוונת של פיצוץ, יש מספר הפרמטרים שניתן להגדיר באמצעות פקודות באמצעות ההפעלה תפציץ המקומית ניתן למצוא מידע מקיף המתאר את הפקודות האלה כאן -. http://www.ncbi.nlm.nih.gov/books/ NBK1762 /. התפוקה של החיפוש המקומי היא קובץ טקסט פשוט כמו הפלט מהממשק תפציץ באינטרנט (איור 4).

רצף מרובה יישור (MSA) הוא יישור רצף של שלושה או יותר רצפים עיקריים מורכבים מחומצות אמינו, ה-DNA, או RNA. ClustalW 6 שוחרר ב1994, הוא אחד הכלים הפופולריים ביותר עבור MSA ביולוגים. ניתן למצוא ממשק מקוון ידידותי למשתמש המספק גישת one-stop למספר כלים הפופולריים MSA בשרת EMBL-EBI כאן - http://www.ebi.ac.uk/Tools/msa. הקלט עבור כל תכנית ניתן לעצב FASTA נתוני רצף (ראה איור 2) אם כי בפורמטים רבים ושונים גם יתקבלו, וניתן למצוא אתרי מראה רבים לכל באינטרנט. פרמטרים רבים כמו עונשים פער ותבניות פלט ניתן לבחור בקלות. פלט מדגם מMSA T-קפה שניתן לראות באיור 5, שבו שאריות דומות הן שיתוףlor מקודד. בחלק מהמקרים, כלי MSA ניתן גם להוריד והוצא להורג באופן מקומי. Clustal ניתן להוריד כגרסת שורת הפקודה (ClustalW) או גרסה גרפית (ClustalX) מהאתר זה - http://www.clustal.org/clustal2/. כדי להוריד, פשוט לחץ על ההפעלה המתאימה (כלומר. נצחון, לינוקס, Mac OS X). עבור Windows ההפעלה של התכנית תהיה להוריד ותפריט מוקפץ יחייב את המשתמש ללחוץ על "הפעלה", ולאחר מכן התקנה תתחיל. התכנית היא מאוד אינטואיטיבי, ניתן לטעון רצפים מקובץ טקסט המכיל רצפים מעוצבים כNBRF / PIR, FASTA, EMBL / השוויצרי-Prot, Clustal, GCC / MSF, GCG9 RSF, וGDE. רצפים מיושרים על ידי לחיצה על "יישור מלא אין" מהתפריט "היישור". יישור מדגם של שישה רצפי חלבונים מיושרים באמצעות ClustalX ניתן לראות באיור 6. פרמטרים שונים, כגון גודל גופן וצבע ניתן לשנות בקלות, וeditiננוגרם של רצפים נעשה על ידי לחיצה על תפריט "עריכה". יישור מעודן באופן ידני הם לעתים קרובות עדיף על שיטות אוטומטיות לחלוטין ובגלל זה, פיתוח כלי MSA הוא אזור פעיל מאוד של מחקר. ניתן למצוא כמה עורכי יישור נפוצים בקישורים הבאים: Se-אל - http://tree.bio.ed.ac.uk/software/seal/; BSEdit - http://www.bsedit.org/; JalView - http://www.jalview.org/; Seaview - http://pbil.univ-lyon1.fr/software/seaview.html.

למערכי חומצה אמינית התכנית 13 ProtTest משמשת כדי לקבוע את הבחירה של מודלים מיטבית של מחליפים חומצת אמינו בתוך הנתונים. ProtTest עושה בחירה זו על ידי מציאת המודל מהרשימה של דגמי מועמד עם Akaike מידע הקריטריון הקטן ביותר (AIC), בייס Informaציון קריטריון tion (BIC), או החלטת תיאורית הקריטריון (DT). הגרסה האחרונה של ProtTest (גרסה 3.2) כוללת 15 מטריצות קצב שונות כי תוצאת 120 דגמים שונים. המשתמש חייב להיות זמן ריצה ג'אווה במערכת שלהם לרוץ ProtTest. Java Runtime הוא זמין באופן חופשי כאן - http://www.java.com/en/download/chrome.jsp. רצפים שהוזנו כPHYLIP או בפורמט NEXUS. כדי להמיר בין פורמטי רצף, השתמש בתכנית "Readseq" האינטרנט זמינה ב - http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi. לחץ על "בחר קובץ" ולטעון את נתוני הרצף. לאחר מכן לחץ על "התחל" והתכנית תתחיל. כדי לשנות את מספר הדגמים שנבחרו, אתה יכול ללחוץ על כפתור "מודלים". ברגע שהתכנית מתחילה הוא יציג סרגל התקדמות בתחתית ורשימת הדגמים כפי שהם ניתחו (איור 8 https://code.google.com/p/prottest3/wiki/Background. יש גם אינטרנט ממשק מקוון לProtTest המתפקד בדיוק כמו הגרסה שהורדת אלא שהוא יכול לטפל רק במספר מוגבל של רצפים. ממשק האינטרנט ניתן להיכנס על ידי לחיצה כאן - http://darwin.uvigo.es/software/prottest2_server.html. למערכי נתוני נוקלאוטיד התכנית 15 jModelTest משמשת כדי לבחון את הבחירה הסטטיסטית של מודלים מיטבית של החלפות נוקלאוטיד ידי יישום המרכז לאינפורמציה אלטרנטיבית, BIC, וקריטריוני DT שתוארו לעיל וגם מבחן מנת סבירות היררכי ודינמיs (hLRT וdLRT). jModelTest מותאם עבור Mac OS X. לקלט, פורמטים מרובים מותרים. מדריך ברור צעד אחר צעד נגיש על ידי המפתחים כאן - http://computing.bio.cam.ac.uk/local/doc/jmodeltest.pdf

PhyML היא תכנית האומדת phylogenies סבירות מרבי מיישור של רצפי נוקליאוטידים או חומצות אמינו. PhyML ישלב מספר רב של דגמי החלפה מצמידים את אפשרויות שונות כדי לחפש מרחב טופולוגיה עץ (איור 10). התכנית תחסוך תוצאות לשני קבצי טקסט. הקובץ הראשון יכיל את עץ ML בפורמט Newick אשר יכול בקלות להיות שנצפו באמצעות צופה עץ (ראה פרוטוקול 6), והקובץ האחר יכיל את הנתונים הסטטיסטיים (שם קובץ, מודל, ציוני Log-סבירות, וכו '.) של הניתוח . כל הפרמטרים מוגדרים מאוד בקלות על ידי ביצוע הפריטים בתפריט. תיאור מפורט יותר של כל אופ תפריטtion מוסבר במדריך לPhyML זמין בדף הורדת PhyML - https://code.google.com/p/phyml/downloads/list. MrBayes 5 היא תכנית אשר מנצלת היסק המרק"ם בייס על פני מספר המודלים אבולוציוניים לשחזר יחסי פילוגנטי. התכנית מתנהגת זהה בכל הפלטפורמות והורידה פעם אחת המתקין יתקין את קובץ ההפעלה. כדי להפעיל את התכנית, פשוט לחץ על ההפעלה. ישנם דגמים רבים שניתן להגדיר וניתן למצוא את הפרטים של כל דגם והפקודות שלהם כאן - http://mrbayes.sourceforge.net/wiki/index.php/Tutorial. אפשרות נוספת לעזרה היא להקליד "lset עזרה" - זה יספק פרטים על הגדרת דגם. לדוגמא "Prset aamodelpr = מעורב" יאפשר מעורבת דוגמנות או "prset aamodelpr = קבוע (לכשכש)" יקבע את מודל חומצת אמינו לוושינגטון דגם G. קבוצת חוץ יכול להיות מוגדרת בקלות על ידי ציון מספר taxon "קבוצת חוץ 30", התכנית באופן אוטומטי רשימות רצפים / מינים על ידי מספר. אם קבוצת חוץ לא צוין העץ יהיה unrooted. ברגע שהתכנית פועלת (איור 11) את ההתקדמות ניתן לראות במרווחי זמן מסוימים שבו ניתן להגדיר באמצעות פקודת "printfreq = X". פרטים נוספים על מתי להפסיק את הניתוח (כלומר. כמה דורות לרוץ ל) ניתן למצוא במדריך למשתמש. ערכי clade על cladogram מסופקים בתוצאות לצד phylogram שגם סיפק בפורמט Newick שיכול בקלות להיתפס באמצעות צופה עץ (ראה פרוטוקול 6).

ברגע שעץ פילוגנטי שנוצר, טופולוגיה צריכה להיות דמיינו. ישנם כלים רבים באינטרנט ויישומים להורדה להשתמש כדי להמחיש טופולוגיות עץ. ניתן לצפות ברשימה חלקית של תוכניות הפופולריות כאן -ylogenetic_tree_visualization_software">http://en.wikipedia.org/wiki/List_of_phylogenetic_tree_visualization_software , וניתן למצוא רשימה מקיפה יותר כאן - http://www.treedyn.org/overview/editors.html. TreeView 14 וTreeDyn 16 הם שתי אפשרויות הפופולריות. שניהם מאוד ידידותיים למשתמש וקלים להכיר את האפשרויות השונות. TreeView פועל על מק ו-Windows, באמצעות ממשקים כמעט זהים. הקלט יכול להיות אחד מכמה פורמטים כולל NEXUS, MEGA PHYLIP, Hennig86, וClustalW / X. TreeView (איור 12) כולל גם עורך עץ המאפשר למשתמש להזיז את הענפים, עצי reroot, ולארגן מחדש את המראה של העץ.

איור 1
איור 1. > דף האינטרנט תפציץ צמח השדה. שרת האינטרנט תפציץ מכיל חבילה של תוכניות תפציץ ומתארח על ידי המרכז הלאומי למידע ביוטכנולוגיה (צמח השדה). לחץ כאן לצפייה בתמונה גדולה יותר.

איור 2
איור 2. רצף FASTA מעוצב. פורמט FASTA מתחיל בשורת תיאור שצוינה על ידי ">". התיאור חייב לעקוב מייד אחרי הסימן ">", הרצף (כלומר. נוקלאוטידים או חומצות אמינו) בצעו את תיאורו בשורה הבאה. לחץ כאן לצפייה בתמונה גדולה יותר.

NT "עבור: together.within-לשמור על עמודים =" תמיד "> איור 3
איור 3. פלט HTML מחיפוש פיצוץ. הפלט מחיפוש הפיצוץ ממחיש את האזורים של זהות בתוך רצף השאילתה, וגם מספק קצת-ציונים, מצפה ערכים ומערכי pairwise עם כל משחק. לחץ כאן לצפייה בתמונה גדולה יותר.

איור 4
איור 4. פלט מדגם מחיפוש הפעלה תפציץ מקומי. התפוקה של חיפוש זה היא קובץ טקסט פשוט כמו הפלט מהממשק תפציץ באינטרנט, כי כולל את ערכם מצפה וציון ביט, כמו גם התאמה תיאור. לחץ כאן לצפייה בתמונה גדולה יותר.

איור 5
איור 5. פלט של MSA באמצעות T-קפה. התפוקה מדגישה אתרים דומים ומשקולות ההתאמה לפי צבע. פערים מוכנסים כ" - "סימנים ועמדת שאריות או נוקלאוטיד נשמרה עבור כל taxon. לחצו כאן לצפייה בתמונה גדולה יותר.

"/> Ig6.jpg
איור 6. יישור מדגם באמצעות ClustalX. משחקים דומים צבע מקודדים ופערים מוכנסים כ" - "סימן. שורת התפריטים נראית בחלק העליון השמאלית. לחץ כאן לצפייה בתמונה גדולה יותר.

איור 7
איור 7. ממשק תכנית ProtTest. לחץ כאן לצפייה בתמונה גדולה יותר.

איור 8
Figure 8. קונסולת ProtTest. קונסולת ProtTest תוך כדי ריצת ניתוח. מד ההתקדמות מציינת כמה דגמים כבר הושלם, והחלון הראשי מציג את ציון סבירות יומן עבור כל דגם. לחץ כאן לצפייה בתמונה גדולה יותר.

איור 9
איור 9. ממשק PhyML. לחץ כאן לצפייה בתמונה גדולה יותר.

איור 10
איור 10. תפריט PhyML הממשק. רגע רצפים נטענים לתוך PhyML התפריט הראשון מופיע, שניתן לנווט על ידי הקלדת האות או הסימן בסוגריים מרובעים. ניתן להגיע לתפריטי משנה על ידי הקלדת סימן "+". לחץ כאן לצפייה בתמונה גדולה יותר.

איור 11
איור 11. MrBayes הממשק. ניתן לראות כאשר MrBayes הוא הושק ההתקדמות במרווחי זמן מסוים שנקבע באמצעות "= X printfreq" הפקודה. למרות שלא ניתן להפסיק את התכנית במהלך ריצה, לאחר המספר המסוים של דורות מחושב המשתמש יתבקש אם הם רוצים לרוץ יותר דורות.www.jove.com/files/ftp_upload/50975/50975fig11highres.jpg "target =" _blank "> לחץ כאן לצפייה בתמונה גדולה יותר.

איור 12
איור 12. ממשק TreeView. בנתון זה החלון TreeView מציג עץ מדגם של חלבונים מFlybase (http://flybase.org/). קבצים מיובאים על ידי לחיצה על האפשרות "הפתוחה", ובחירת סוג קובץ מתאים (לדוגמא. פורמט Newick). לחצו כאן לצפייה בתמונה גדולה יותר.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

התקווה שלנו למאמר זה היא שזה ישמש כנקודת התחלה כדי להנחות את החוקרים או סטודנטים כי הם חדשים phylogenetics. פרויקטים לקביעת רצף הגנום הפכו פחות יקרות בשנים האחרונות, וכתוצאה מכך הביקוש למשתמש עבור טכנולוגיה זו הולך וגדל, ועכשיו הייצור של מערכי נתונים רצף גדולים הוא דבר שבשגרה במעבדות קטנות. מערכי נתונים אלה לעתים קרובות לספק לחוקרים עם קבוצות של גנים שדורשים מסגרת פילוגנטי כדי להתחיל להבין את תפקידם. יתר על כן, בגלל phylogenetics הוא למצוא בית במספר גדל והולך של מעבדות מחקר, אנחנו גם מתכוונים למאמר זה כדי לשמש כמכשיר חינוכי לתלמידים המעוניינים בהרחבה במחקר ביולוגי. על ידי מתן מידע למשתמש על "למה", "איך", ו "שבו" לכלים עץ בנייה נפוצות, אנו מספקים מסגרת לקורא להתחיל להכיר את עצמם עם יישומים אלה וכיצד הם פועלים. However, אנו ממליצים לקורא לשחק עם כל ההגדרות בתוך כל אחד מכלים, בניסיון להבין כיצד הפרמטרים השונים יכולים להשפיע על נתוני הרצף שלהם, ועל מנת להבטיח תאימות בין פלטפורמה ותוכנה בכל מקרה ומקרה. הניתוח שתואר לעיל היה מתקבל באמצעות Dell Optiplex 990 עם מעבד Core i7 של אינטל ומחשב נייד MacBook עם מעבד Intel Core 2 Duo, עם זאת, את המהירות של ניתוח וגם הקבצים בינאריים הספציפיים (למשל. 32 ביט או 64 ביט) יהיו תלויים על הפלטפורמה של המשתמש.

אתגר כאשר הרכיב מדריך למשתמש כמו זה לphylogenetics, הוא שתחום phylogenetics וביואינפורמטיקה בכללותו, הוא אזור המתרחב במהירות של מחקר שמשחרר תוכנה חדשה כל הזמן שמטרתה לספק מערכים טובים יותר, תחזיות דמיון, או עצי פילוגנטי . כדי למתן בעיה זו, ניסינו להתמקד בתוכניות שהסביבה כבר מספר שנים ועדיין פופולריים על חשבון of כמה טוב הם עובדים. עם זאת, אנו רוצים לציין כי ישנם כלים רבים אחרים זמינים כדי להתמודד עם הבעיות שתוארנו במאמר זה, וכך לעודד את הקורא לנצל זאת ולשלב מספר רב של יישומים לניתוח שלהם.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

יש לנו מה למסור.

Acknowledgments

אנו מודים לחברים במעבדה או 'האלורן להערות על כתב היד. אנו מודים לג'ורג' וושינגטון אוניברסיטת המחלקה למדעי ביולוגיה וקולומביאני המכללה לאמנויות ומדעים למימון לד 'האלורן.

Materials

Name Company Catalog Number Comments
BLAST webpage  http://blast.ncbi.nlm.nih.gov/Blast.cgi
BLAST executables  ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
Preformatted BLAST databases ftp://ftp.ncbi.nlm.nih.gov/blast/db/
Clustal http://www.clustal.org/
Kalign http://msa.sbc.su.se/cgi-bin/msa.cgi
MAFFT http://mafft.cbrc.jp/alignment/software/
MUSCLE http://www.drive5.com/muscle/
T-Coffee http://www.tcoffee.org/Projects/tcoffee/
PROBCONS http://toolkit.tuebingen.mpg.de/probcons 
Se-Al  http://tree.bio.ed.ac.uk/software/seal/
BSEdit  http://www.bsedit.org/
JalView http://www.jalview.org/
SeaView http://pbil.univ-lyon1.fr/software/seaview.html
ProtTest  https://code.google.com/p/prottest3/
Java Runtime  http://www.java.com/en/download/chrome.jsp
Readseq http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi
jModelTest https://code.google.com/p/jmodeltest2/
PhyML https://code.google.com/p/phyml/
MrBayes http://mrbayes.sourceforge.net/download.php
TreeView http://taxonomy.zoology.gla.ac.uk/rod/treeview.html
TreeDyn http://www.treedyn.org/

DOWNLOAD MATERIALS LIST

References

  1. Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207 (4), 647-653 (1989).
  2. Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19 (6), 706-723 (1974).
  3. Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6 (2), 461-464 (1978).
  4. Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52 (5), 696-704 (2003).
  5. Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17 (8), 754-755 (2001).
  6. Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22 (22), 4673-4680 (1994).
  7. Lassmann, T., Sonnhammer, E. L. Kalign--an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
  8. Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33 (2), 511-518 (2005).
  9. Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30 (14), 3059-3066 (2002).
  10. Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
  11. Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302 (1), 205-217 (2000).
  12. Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15 (2), 330-340 (2005).
  13. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27 (8), 1164-1165 (2011).
  14. Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12 (4), 357-358 (1996).
  15. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9 (8), 772 (2012).
  16. Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).

Tags

פרוטוקול בסיסי גיליון 84 phylogenetics יישור רצף מרובה עץ פילוגנטי הרצה תפציץ כלי חיפוש יישור מקומיים בסיסיים מודלים בייס
מדריך מעשי לphylogenetics לNonexperts
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

O'Halloran, D. A Practical Guide toMore

O'Halloran, D. A Practical Guide to Phylogenetics for Nonexperts. J. Vis. Exp. (84), e50975, doi:10.3791/50975 (2014).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter