دليل عملي لPhylogenetics لNonexperts

Biology

Your institution must subscribe to JoVE's Biology section to access this content.

Fill out the form below to receive a free trial or learn more about access:

 

Summary

نحن هنا وصف خط أنابيب خطوة بخطوة لتوليد phylogenies موثوق بها من النوكليوتيدات أو الأحماض الأمينية تسلسل قواعد البيانات. ويهدف هذا الدليل لخدمة الباحثين أو الطلاب الجدد لتحليل النشوء والتطور.

Cite this Article

Copy Citation | Download Citations

O'Halloran, D. A Practical Guide to Phylogenetics for Nonexperts. J. Vis. Exp. (84), e50975, doi:10.3791/50975 (2014).

Please note that all translations are automatically generated.

Click here for the english version. For other languages click here.

Abstract

العديد من الباحثين، عبر بؤر متنوعة بشكل لا يصدق، وتطبيق phylogenetics على سؤال أبحاثهم (ق). ومع ذلك، العديد من الباحثين جديدا على هذا الموضوع وذلك يعرض المشاكل المتأصلة. نحن هنا تجميع مقدمة عملية لphylogenetics لnonexperts. ونحن الخطوط العريضة بطريقة خطوة بخطوة، خط أنابيب لتوليد phylogenies موثوق بها من مجموعات البيانات تسلسل الجينات. نبدأ مع-دليل المستخدم لأدوات البحث التشابه عبر واجهات الانترنت وكذلك التنفيذية المحلية. المقبل، ونحن استكشاف برامج لتوليد التحالفات تسلسل متعددة تليها البروتوكولات لاستخدام البرنامج لتحديد أفضل نماذج تناسب التطور. نحن بعد ذلك الخطوط العريضة لإعادة إعمار بروتوكولات العلاقات النشوء والتطور عبر أقصى احتمال والمعايير النظرية الافتراضية ووصف أخيرا أدوات لتصور أشجار النشوء والتطور. في حين أن هذا ليس بأي وسيلة وصفا شاملا لنهج النشوء والتطور، فإنه لا يقدم للقارئ المعلومات حول عملية بدء العمليةايون على تطبيقات البرامج الرئيسية المستخدمة عادة من قبل phylogeneticists. ان الرؤية لهذه المادة أنه يمكن أن يكون بمثابة أداة تدريب عملي للباحثين الشروع في دراسات النشوء والتطور وأيضا بمثابة الموارد التعليمية التي يمكن إدراجها في أحد الفصول أو التدريس في المعمل.

Introduction

من أجل فهم كيفية تطور اثنين (أو أكثر) من الأنواع، فمن الضروري أولا للحصول على تسلسل أو البيانات المورفولوجية من كل عينة؛ تمثل هذه البيانات الكميات التي يمكننا استخدامها لقياس العلاقة بينهما عبر الفضاء التطورية. تماما مثل عند قياس المسافة الخطية، بعد أن والمزيد من البيانات المتاحة (مثل ميل، بوصة، ميكرون) تساوي قياس أكثر دقة. إرجو، والدقة التي يمكن أن نستنتج الباحث المسافة التطورية ويتأثر بشدة من حجم البيانات بالمعلومات المتوفرة لقياس العلاقات. وعلاوة على ذلك، لأن عينات مختلفة تتطور بمعدلات مختلفة وآليات مختلفة، والطريقة التي نستخدمها لقياس العلاقة بين اثنين من الأنواع أيضا يؤثر بشكل مباشر على دقة القياسات التطورية. لذلك، لأن العلاقات التطورية لا تراعى مباشرة ولكن بدلا من ذلك يتم استقراء من تسلسل أو البيانات المورفولوجية، مشكلة استنتاج التطوريالعلاقات يصبح واحدا من الإحصاءات. Phylogenetics هي فرع من فروع علم الأحياء المعنية مع تطبيق النماذج الإحصائية لأنماط التطور من أجل إعادة بناء التاريخ التطوري على النحو الأمثل بين الأصناف. ويشار إلى هذه الأصناف لإعادة الإعمار بين نسالة كما في الأنواع و.

للمساعدة على سد الفجوة في الخبرات بين علماء البيولوجيا الجزيئية والبيولوجيا التطورية وصفنا هنا خطوة خطوة عن طريق خط أنابيب لاستنتاج phylogenies من مجموعة من متواليات. أولا، نحن بالتفصيل الخطوات المتبعة في الاستجواب قاعدة البيانات باستخدام بسيطة المحلي محاذاة أداة البحث (الانفجار 1) الخوارزمية من خلال واجهة على شبكة الإنترنت، وكذلك باستخدام التنفيذية المحلية، وهذا غالبا ما يكون الخطوة الأولى في الحصول على قائمة من سلاسل مشابهة لمجهولين الاستعلام، على الرغم من أن بعض الباحثين قد تكون مهتمة ايضا في جمع البيانات لمجموعة واحدة عبر واجهات شبكة الإنترنت مثل Phylota (http://www.phylota.net/). انفجار هو خوارزمية لجomparing الأحماض الأمينية الأساسية أو بيانات تسلسل النوكليوتيدات مقابل قاعدة بيانات من تسلسل للبحث عن "يضرب" التي تشبه تسلسل الاستعلام. وقد تم تصميم البرنامج انفجار ستيفن Altschul وآخرون. في المعاهد الوطنية للصحة (NIH) 1. يتكون خادم انفجار عدد من البرامج المختلفة، وهنا لائحة لبعض البرامج انفجار الأكثر شيوعا:

ط) انفجار النوكليوتيدات النوكليوتيدات (BLASTN): يتطلب هذا البرنامج إدخال تسلسل الحمض النووي وإرجاع تسلسل الحمض النووي الأكثر مماثلة من قاعدة بيانات الحمض النووي أن يحدد المستخدم (على سبيل المثال لكائن معين).

ب) البروتين البروتين انفجار (blastp): هنا المستخدم مدخلات تسلسل البروتين وبرنامج بإرجاع تسلسل البروتين الأكثر مماثلة من قاعدة البيانات البروتين الذي يحدد المستخدم.

ج) موقف محدد انفجار تكرارية (PSI-انفجار) (blastpgp): إن إدخال المستخدم هو المتواجدفي تسلسل التي ترجع مجموعة من البروتينات ترتبط ارتباطا وثيقا، ومن هذه البينات يتم إنشاء ملف تعريف الحفظ. المقبل يتم إنشاء استعلام جديد فقط باستخدام هذه "الزخارف" الحفظ الذي يستخدم لاستجواب قاعدة بيانات البروتين وهذا بإرجاع مجموعة أكبر من البروتينات التي مجموعة جديدة من "الزخارف" الحفظ يتم استخراج وتستخدم بعد ذلك لاستجواب قاعدة بيانات البروتين حتى وعاد مجموعة أكبر من البروتينات ويتم إنشاء ملف تعريف آخر وكرر العملية. من قبل بما في ذلك البروتينات ذات الصلة في الاستعلام في كل خطوة هذا البرنامج يتيح للمستخدم تحديد متواليات التي هي أكثر المتباينة.

د) النوكليوتيدات 6 الإطار الترجمة البروتين (blastx): وهنا يوفر للمستخدم مدخلا تسلسل النوكليوتيدات التي يتم تحويلها إلى ستة الإطار المفاهيمي المنتجات الترجمة (أي كل من فروع) مقابل قاعدة بيانات تسلسل البروتين.

ت) النوكليوتيدات 6 الإطار الترجمة النوكليوتيداتالترجمة 6 الإطار (tblastx): هذا البرنامج يأخذ مدخلات تسلسل النوكليوتيدات الحمض النووي ويترجم المدخلات إلى كل ستة الإطار المفاهيمي المنتجات الترجمة الذي يقارن ضد الترجمات ستة الإطار قاعدة بيانات تسلسل النوكليوتيدات.

سادسا) البروتين النوكليوتيدات الترجمة 6 الإطار (tblastn): يستخدم هذا البرنامج لإدخال تسلسل البروتين لمقارنة ضد جميع الأطر القراءة ستة من قاعدة بيانات تسلسل النوكليوتيدات.

المقبل، ونحن تصف البرامج استخداما لتوليد تسلسل محاذاة متعددة (MSA) من مجموعة بيانات تسلسل، وهذا تبعتها دليل المستخدم لبرامج التي تحدد نماذج أفضل تناسب التطور لمجموعة بيانات التسلسل. إعادة الإعمار النشوء والتطور مشكلة الإحصائية، وبسبب هذا، وأساليب النشوء والتطور بحاجة إلى دمج إطار إحصائي. يصبح هذا الإطار الإحصائي نموذج التطوري الذي يشتمل على تغيير تسلسل ضمن مجموعة البيانات. هذا مو التطوريوتتألف ديل مجموعة من الافتراضات حول عملية النوكليوتيدات أو الأحماض الأمينية بدائل، ويمكن اختيار أفضل نموذج لاحتواء مجموعة بيانات خاصة من خلال اختبار الإحصائية. صالح لبيانات من نماذج مختلفة يمكن مقارنتها عبر اختبارات نسبة احتمال (LRTs) أو معايير المعلومات لتحديد أنسب نموذج ضمن مجموعة من تلك ممكن. معيارين المعلومات شيوعا هي المعيار Akaike المعلومات (AIC) 2 والمعيار المعلومات النظرية الافتراضية (BIC) 3. مرة واحدة يتم إنشاء محاذاة الأمثل، وهناك العديد من الطرق المختلفة لإنشاء نسالة من البيانات الانحياز. هناك طرق عديدة لاستنتاج العلاقات التطورية؛ على نطاق واسع، ويمكن تقسيمها إلى فئتين: طرق القائم على مسافة والأساليب القائمة على التسلسل. الطرق المعتمدة على مسافة حساب المسافات البشرى من متواليات، ومن ثم استخدام هذه المسافات للحصول على الشجرة. الأساليب القائمة على استخدام تسلسل المحاذاة تسلسل مباشرة، وعادة ما بحث رالفضاء ري باستخدام معيار المثالية. ونحن الخطوط العريضة الأساليب القائمة على تسلسل اثنين لإعادة بناء العلاقات النشوء والتطور: هذه هي PhyML 4 الذي ينفذ الإطار احتمال الحد الأقصى، وMrBayes 5 والذي يستخدم النظرية الافتراضية سلسلة ماركوف مونتي كارلو الاستدلال. احتمال والأساليب النظرية الافتراضية توفير إطار إحصائي لإعادة الإعمار النشوء والتطور. من خلال توفير معلومات المستخدم التي يشيع استخدامها على أدوات بناء شجرة، ونحن نقدم للقارئ البيانات اللازمة لاستنتاج العلاقات النشوء والتطور.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. محاذاة الأساسية المحلية أداة البحث (الانفجار): واجهة على الانترنت

  1. انقر على هذا الرابط لزيارة خادم الويب انفجار 1 في المركز الوطني لمعلومات التكنولوجيا الحيوية (NCBI). - http://blast.ncbi.nlm.nih.gov/Blast.cgi (الشكل 1).
  2. إدخال FASTA تسلسل تنسيق النص (انظر الشكل 2 على سبيل المثال) في مربع الاستعلام.
  3. انقر فوق البرنامج انفجار المناسبة وقواعد البيانات ذات الصلة أو الأنواع الفردية من الفائدة لاستخدامها في البحث ثم انقر فوق "انفجار".
    ملاحظة: تسلسل FASTA تنسيق يبدأ مع خط وصف المشار إليها بواسطة ">" علامة. وصف يجب أن تتبع مباشرة بعد ">" علامة، تسلسل (أي. النيوكليوتيدات أو الأحماض الأمينية) اتبع الوصف على السطر التالي. وينظر الإخراج من البحث انفجار كما HTML، نص عادي، XML، أو ضرب تاBLES (نص أو CSV) مع تعيين الافتراضي إلى HTML (الشكل 3).

2. محاذاة الأساسية المحلية أداة البحث (الانفجار): للتنفيذ محلي

  1. تحميل أحدث انفجار سطر الأوامر التنفيذية انفجار من هذا الرابط:
    ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ -
  2. م> بالنسبة لمستخدمي الكمبيوتر: انقر نقرا مزدوجا فوق ملف آخر win32.exe الانفجار وقبول اتفاقية الترخيص ثم انقر فوق تثبيت.
    ملاحظة: الدليل التثبيت الافتراضي هو C: NCBI الانفجار-2.2.27 +.
  3. تكوين متغير البيئة PC كما يلي:
    1. انقر فوق جهاز الكمبيوتر على زر "ابدأ"، ثم انقر فوق الحق "جهاز الكمبيوتر"،
    2. انقر على زر "خصائص" وفي المنبثقة انقر على "متقدم" التبويب
    3. انقر على زر "متغيرات البيئة" في والجديدة المنبثقة انقر فوق الزر "جديد" تحت اله "متغيرات المستخدم للمستخدم" القسم
    4. في المنبثقة إضافة اسم متغير "مسار"، وقيمة المتغير "C: NCBI الانفجار-2.2.27 + بن.
      ملاحظة: يحتوي على دليل بن القابل للتنفيذ (أي blastp، الخ.).
  4. م> بالنسبة لمستخدمي ماك: افتح التطبيق الطرفي (للقيام بذلك مجرد فتح "الكشاف" وبحث "الطرفية" وهذا سيتم عرض رمز "محطة"). في نوع إطار المحطة الطرفية:
    > بروتوكول نقل الملفات ftp.ncbi.nih.gov
    ملاحظة: يمكن أيضا كتابة عنوان URL المستخدمة أعلاه في المثال لPC
  5. للوصول إلى موقع FTP NCBI نوع "المجهول" للحصول على اسم وكلمة المرور، ثم اكتب:
    > سي دي الانفجار / التنفيذية / اخر
  6. قائمة الملفات التنفيذية بواسطة الكتابة:
    > ليرة سورية
  7. الحصول على أحدث إصدار عن طريق كتابة ما يلي (أو أيا كان أحدث إصدار حاليا):
    2؛ حصول NCBI الانفجار-2.2.7-macosx.tar.gz
  8. الخروج من موقع خادم بروتوكول نقل الملفات NCBI بكتابة "خروج".
  9. ضغط الملفات التي تم تحميلها عن طريق كتابة:
    > القطران xzf NCBI الانفجار-2.2.7-macosx.tar.gz
  10. إضافة موقع الثنائيات لتنفيذ الانفجار إلى المسار بحيث يمكن البحث من خلال قذيفة هذا الدليل عندما تبحث عن الأوامر بكتابة:
    > PATH = $ PATH: new_folder_location
  11. معرفة ما اذا كان هذا إضافة الموقع إلى المسار الخاص بك عن طريق كتابة:
    > صدى $ PATH
  12. تحميل قواعد بيانات انفجار المنسقة مسبقا (التي يتم تحديثها يوميا) عن طريق النقر هنا:
    ftp://ftp.ncbi.nlm.nih.gov/blast/db/
  13. وضع قاعدة البيانات في مجلد "ديسيبل".
  14. م> على PC: افتح موجه MS-DOS (للقيام بذلك انقر على "ابدأ" واكتب "كمد" في شريط البحث) وتغيير الدليل إلى المجلد NCBI الانفجار بكتابة:
    C: المستخدمين> سي دي .. [التحركاتحتى مجلد واحد]
    C: > CD-NCBI الانفجار 2.2.27 +
    سيؤدي ذلك إلى تغيير الدليل إلى:
    C: NCBI الانفجار-2.2.27 +>
  15. إنشاء قاعدة بيانات باستخدام الأمر "makedb" التالية:
    > makedb في ديسيبل / briggsae.fasta-DBTYPE البروتوكول الاضافي المغادرة ديسيبل / briggsae
    ملاحظة: في المثال أدناه (الشكل 4) يدعى قاعدة البيانات "briggsae" وتتألف من مجموعة واحدة من الربط الكائن انواع معينة briggsae.
  16. إنشاء تسلسل البروتين الاستعلام يسمى "اختبار" عن طريق إدراج تسلسل FASTA تنسيق النص البروتين إلى مجلد "ديسيبل".
  17. استجواب قاعدة البيانات عن طريق البحث blastp عن طريق كتابة الأمر التالي:
    > ديسيبل blastp استعلام / TEST.TXT-ديسيبل ديسيبل / briggsae المغادرة text.txt
  18. م> في ماك: تحميل قاعدة بيانات لعمليات البحث انفجار المحلية عن طريق الوصول إلى بروتوكول نقل الملفات موقع NCBI وفقا للتعليمات أعلاه (الخطوة 2.4) ونوع ن:
    > شاشات الكريستال السائل .. / قواعد البيانات /
  19. تحميل الجينوم أو تسلسل من الفائدة عن طريق كتابة:
    > الحصول على NC_ [الانضمام #]. الفنا
    ملاحظة: "سانا" يشير إلى تنسيق FASTA تسلسل النوكليوتيدات و"FAA". يشير إلى تنسيق FASTA تسلسل الحمض الأميني.
  20. اكتب "إنهاء" للخروج من موقع بروتوكول نقل الملفات.
  21. جعل قاعدة البيانات عن طريق كتابة:
    > makeblastdb في ديسيبل /-mouse.faa من الماوس DBTYPE البروتوكول الاضافي
  22. إدراج تسلسل الاستعلام تنسيق FAST إلى مجلد "بن" واستجواب قاعدة البيانات باستخدام الأمر التالي:
    > blastp-الاستعلام "الخاص query.fasta" ديسيبل "قاعدة البيانات" من results.txt

3. توليد الأحلاف تسلسل متعددة

  1. انقر على هذه الروابط للوصول استخداما تسلسل محاذاة (MSA) برامج متعددة:
    ClustalW 6 http://www.clustal.org/
    كاليGN 7 http://msa.sbc.su.se/cgi-bin/msa.cgi
    MAFFT 8،9 http://mafft.cbrc.jp/alignment/software/
    العضلات 10 http://www.drive5.com/muscle/
    T-11 القهوة http://www.tcoffee.org/Projects/tcoffee/
    PROBCONS 12 http://toolkit.tuebingen.mpg.de/probcons
  2. انقر على هذا الرابط - http://tcoffee.crg.cat/apps/tcoffee/do:regular - وتسلسل البيانات تنسيق المدخلات FASTA في مربع الاستعلام
    ملاحظة: يمكن الاطلاع على إخراج نموذج من T-القهوة في الشكل 5، بقايا مماثلة لونا مميزا.
  3. تحميل كلوستال MSA كإصدار سطر الأوامر (ClustalW) أو الخامس الرسوميةersion (ClustalX) من خلال النقر على هذا الرابط: http://www.clustal.org/clustal2/ - ثم انقر على الملف القابل للتنفيذ المناسب (أي فوز، لينكس، نظام التشغيل Mac OS X).
  4. تحميل البيانات كنص تسلسل FASTA تنسيق ومواءمة (الشكل 6).

4. تحديد أفضل نماذج تناسب التطور

  1. انقر هنا لتحميل برنامج ProtTest 13:
    http://darwin.uvigo.es/our-software/
  2. مرة واحدة يتم تحميلها ProtTest، انقر نقرا مزدوجا فوق الملف ProtTest.jar
  3. مرة واحدة يتم تشغيل ProtTest، انقر على "حدد ملف" وتحميل البيانات التسلسل (الشكل 7).
  4. ثم انقر على زر "البدء" وسيبدأ البرنامج (الشكل 8).
    ملاحظة: بعد الانتهاء من تشغيل (الشكل 8)، سيقوم البرنامج تشير إلى أفضل نموذج على أساس معايير مثل "أفضل نموذج وفقا لAIC: WAG + I + G"

5. استنتاج تسلسل استنادا Phylogenies بواسطة القصوى أرجحية أو الاستدلال النظرية الافتراضية

  1. تحميل PhyML 4 هنا:
    https://code.google.com/p/phyml/
  2. إطلاق القابل للتنفيذ عن طريق النقر المزدوج التطبيق المناسب (أي phyml ويندوز، لينكس phyml، الخ.) وسوف يطفو على السطح نافذة واجهة (الشكل 9).
  3. تحميل تسلسل إدخال كتسلسل PHYLIP تنسيق بكتابة:
    > "اسم الملف". فيز
    ملاحظة: لتحويل بين صيغ تسلسل، واستخدام "Readseq" برنامج الويب المتاحة في - http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi .
  4. إطلاق البرنامج عن طريق كتابة "Y".
  5. تحميل MrBayes 5 هنا:
    rceforge.net / download.php "> http://mrbayes.sourceforge.net/download.php
  6. لبدء البرنامج اضغط على الملف القابل للتنفيذ وقراءة البيانات تسلسل NEXUS مهيأ في البرنامج عن طريق كتابة:
    > تنفيذ "اسم الملف". NEX
  7. تعيين النموذج التطوري.
  8. حدد عدد من الأجيال التي تديرها الكتابة:
    > mcmcp NGEN = 1000000 [هذا بتعيين عدد من الأجيال 1000000]
    > مستنقع احترق بالداخل = 10000 [هذا يضع احترق بالداخل إلى 10000]
  9. حفظ أطوال فرع في ملف النتائج عن طريق كتابة:
    > mcmcp savebrlens = نعم
  10. تشغيل تحليل الكتابة:
    > MCMC
  11. تلخيص الأشجار باستخدام الأمر "sumt".

6. تصور Phylogenies

  1. عرض قائمة برامج المشاهد شجرة هنا:
    http://www.treedyn.org/overview/editors.html
  2. تحميل تحكم TreeView 14 الحديثة اضافة بالصورأنا هنا:
    http://taxonomy.zoology.gla.ac.uk/rod/treeview.html

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

العثور على أوجه التشابه مع استعلام يسمح للباحثين لصقه هوية القدرة على تسلسل جديدة وأيضا نستنتج العلاقات بين متواليات. نوع ملف الإدخال للانفجار 1 هو FASTA تسلسل النص المنسق أو بنك الجينات عدد الانضمام. تسلسل FASTA تنسيق يبدأ مع خط وصف المشار إليها بواسطة ">" علامة (الشكل 2). وصف يجب أن تتبع مباشرة بعد ">" علامة، تسلسل (أي. النيوكليوتيدات أو الأحماض الأمينية) اتبع الوصف على السطر التالي. عند حفظ الملفات وتسلسل التحرير، فمن الأفضل استخدام محرر نص مثل "المفكرة" على جهاز الكمبيوتر أو TextWrangler ( http://www.barebones.com/products/textwrangler/ ) لنظام التشغيل Mac. الخوارزمية انفجار يؤدي التحالفات "المحلية"، وهو البحث لفترات قصيرة من تشابه تسلسل. بعد أن بدا خوارزمية يصل كل ما يمكن stretche "ق "من تسلسل الاستعلام وتمديد الحد الأقصى هذه المتتاليات، بعد ذلك بتجميع التحالفات لكل زوج تسلسل الاستعلام. ومن ثم من المهم أن نفهم جيدا كيف هي هذه المباريات، وذلك ينطبق انفجار إحصاءات لضرب كل قيمة والتي تتكون نتوقع (E) والنتيجة قليلا. يعطي قيمة E مؤشرا على دلالة إحصائية لمباراة. وانخفاض القيمة E، وأكثر أهمية ضرب مثلا محاذاة تسلسل مع القيمة E من 0.05 يعني أن احتمال هذا المباراة التي تحدث عن طريق الصدفة وحدها 5 في 100. يستخدم النتيجة قليلا على التهديف مصفوفة محددة لتعتبر مؤشرا جيدا كيف المحاذاة. وكلما ارتفعت درجة بت، وأفضل المحاذاة. وعلى غرار النسخة الإلكترونية من انفجار، وهناك عدد من المعلمات التي يمكن تعيينها عن طريق الأوامر القابلة للتنفيذ باستخدام انفجار المحلية مورد شامل واصفا هذه الأوامر يمكن العثور عليها هنا -. http://www.ncbi.nlm.nih.gov/books/ NBK1762 /. الناتج من البحث المحلي هو ملف نصي تماما مثل الناتج من واجهة انفجار على الانترنت (الشكل 4).

تسلسل متعددة محاذاة (MSA) هو تسلسل المحاذاة من ثلاثة أو أكثر من تسلسل الأولية تتكون من الأحماض الأمينية، والحمض النووي، أو الحمض النووي الريبي. ClustalW 6 الذي صدر في عام 1994، هي واحدة من الأدوات الأكثر شعبية بالنسبة للMSA علماء الأحياء. واجهة سهلة الاستخدام على الانترنت الذي يوفر الوصول وقفة واحدة لعدة أدوات MSA شعبية يمكن العثور على الملقم EMBL-بنك الإمارات الدولي هنا - http://www.ebi.ac.uk/Tools/msa . المدخلات لكل برنامج يمكن تنسيق البيانات FASTA تسلسل (انظر الشكل 2) على الرغم من وتقبل أيضا العديد من الصيغ المختلفة، والعديد من المواقع مرآة لكل يمكن الاطلاع على الانترنت. العديد من المعلمات مثل العقوبات الفجوة وتنسيقات الإخراج ويمكن اختيار بسهولة. ويمكن الاطلاع على إخراج نموذج من MSA T-القهوة في الشكل 5، حيث بقايا مماثلة وشاركلور مشفرة. في بعض الحالات، كما يمكن تحميل أداة MSA وتنفيذها محليا. كلوستال يمكن تحميلها كإصدار سطر الأوامر (ClustalW) أو إصدار الرسومية (ClustalX) من هذا الموقع - http://www.clustal.org/clustal2/ . لتحميل، فقط اضغط على الملف القابل للتنفيذ المناسب (مثال. الفوز، لينكس، نظام التشغيل Mac OS X). لنظام التشغيل Windows القابل للتنفيذ البرنامج سيتم تحميل وسوف القائمة المنبثقة تتطلب من المستخدم إلى النقر فوق "تشغيل"، ومن ثم سيبدأ التثبيت. هذا البرنامج هو بديهية جدا، متواليات يمكن تحميله من ملف نصي يحتوي على تسلسل بتنسيق NBRF / شرطة التدخل السريع، FASTA، EMBL / السويسري بروت، كلوستال، دول مجلس التعاون الخليجي / منظمة أطباء بلا حدود، GCG9 مراسلون بلا حدود، وGDE. يتم محاذاة تسلسل بالنقر على "تشكيلة كاملة لا" من القائمة "محاذاة". ويمكن رؤية تشكيلة عينة من ستة تسلسل البروتين الانحياز باستخدام ClustalX في الشكل 6. معايير مختلفة مثل حجم الخط واللون يمكن تعديلها بسهولة، وeditiيتم نانوغرام من متواليات من خلال النقر على القائمة "تحرير". التحالفات المكرر يدويا وغالبا ما تكون متفوقة على أساليب مؤتمتة بالكامل وبسبب هذا، وتطوير الأدوات MSA هي منطقة نشطة جدا من البحوث. بعض المحررين المحاذاة المشتركة ويمكن الاطلاع على الروابط التالية: سي ال - http://tree.bio.ed.ac.uk/software/seal/ ؛ BSEdit - http://www.bsedit.org/ ؛ JalView - http://www.jalview.org/ ؛ سافيو - http://pbil.univ-lyon1.fr/software/seaview.html .

لالاصطفافات الأحماض الأمينية ويستخدم البرنامج ProtTest 13 لتحديد اختيار النماذج الأكثر تناسبا من يحل محلهم الأحماض الأمينية ضمن البيانات. ProtTest يجعل هذا الاختيار من خلال إيجاد نموذج من قائمة النماذج المرشح مع أصغر معلومات Akaike الفرقان (AIC)، النظرية الافتراضية إنفورمانشوئها الفرقان (BIC) النتيجة، أو نظرية القرار الفرقان (DT). يتضمن أحدث إصدار من ProtTest (الإصدار 3.2) 15 المصفوفات معدل المختلفة التي تؤدي في 120 نماذج مختلفة. يجب أن يكون للمستخدم وقت التشغيل جافا على النظام الخاص بهم لتشغيل ProtTest. وقت التشغيل جافا هو متاح مجانا هنا - http://www.java.com/en/download/chrome.jsp . يتم إدخالها متواليات كما PHYLIP أو تنسيق NEXUS. لتحويل بين صيغ تسلسل، واستخدام "Readseq" برنامج الويب المتاحة في - http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi . انقر على "حدد ملف" وتحميل البيانات التسلسل. ثم انقر على زر "البدء" وسيبدأ البرنامج. لتعديل عدد من النماذج المختارة، ويمكن النقر على زر "النماذج". عندما يبدأ البرنامج فإنه سيتم عرض شريط تقدم في الجزء السفلي وسرد النماذج ويجري تحليلها أنها (الشكل 8 https://code.google.com/p/prottest3/wiki/Background . وهناك أيضا واجهة ويب عبر الإنترنت لProtTest الذي يعمل تماما مثل إصدار تم تحميله إلا أنه يمكن التعامل مع عدد محدود فقط من متواليات. هذه الواجهة على شبكة الإنترنت يمكن الوصول إليها عن طريق النقر هنا - http://darwin.uvigo.es/software/prottest2_server.html . لمجموعات البيانات النوكليوتيدات يستخدم البرنامج jModelTest 15 لدراسة إحصائية من اختيار النماذج الأكثر تناسبا من بدائل النوكليوتيدات من خلال تنفيذ AIC، BIC، ومعايير DT المذكورة أعلاه وأيضا الهرمي والديناميكية اختبار احتمال التموينيةق (hLRT وdLRT). هو الأمثل jModelTest لنظام التشغيل ماك العاشر للمدخلات، ويسمح بأشكال متعددة. خطوة بخطوة دليل واضح هو متاح من قبل المطورين هنا - http://computing.bio.cam.ac.uk/local/doc/jmodeltest.pdf

PhyML هو البرنامج الذي يقدر الحد الأقصى لاحتمال phylogenies من التحالفات من النوكليوتيدات أو تسلسل الأحماض الأمينية. سوف PhyML دمج عدد كبير من نماذج الاستبدال جانب لمختلف الخيارات للبحث شجرة مساحة طوبولوجيا (الشكل 10). سيقوم البرنامج بحفظ النتائج في ملفين النص. سوف تحتوي على الملف الأول الشجرة ML في شكل Newick والتي يمكن بسهولة أن ينظر إليها باستخدام المشاهد شجرة (انظر البروتوكول 6)، وسوف تحتوي على ملف آخر الإحصاءات (اسم الملف، نموذج، وعشرات دخول-الاحتمالات، الخ.) من تحليل . يتم تعيين كافة المعلمات بسهولة جدا عن طريق اتباع عناصر القائمة. أوصاف أكثر تفصيلا من كل مرجع القائمةوأوضح نشوئها في دليل PhyML متاحة على صفحة التحميل PhyML - https://code.google.com/p/phyml/downloads/list . MrBayes 5 هو البرنامج الذي يستخدم النظرية الافتراضية MCMC الاستدلال عبر عدد من النماذج التطورية لإعادة بناء العلاقات النشوء والتطور. برنامج تتصرف نفسه على جميع المنصات وتحميلها مرة واحدة وسوف المثبت تثبيت قابل للتنفيذ. لبدء البرنامج، ببساطة انقر على الملف القابل للتنفيذ. وهناك العديد من النماذج التي يمكن تعيينها وتفاصيل كل نموذج والأوامر الخاصة بهم ويمكن الاطلاع هنا - http://mrbayes.sourceforge.net/wiki/index.php/Tutorial . خيار آخر هو مساعدة لكتابة "مساعدة lset" - وهذا سيوفر التفاصيل حول الإعداد النموذجي. على سبيل المثال "Prset aamodelpr = المختلطة" سوف تسمح النمذجة مختلطة أو "prset aamodelpr = ثابت (هز)" سيتم تعيين نموذج الأحماض الأمينية إلى WA نموذج G. وoutgroup يمكن تعيين بسهولة عن طريق تحديد عدد الأصناف "outgroup 30"؛ البرنامج تلقائيا قوائم متواليات / الوحدات التصنيفية من حيث العدد. إذا لم يتم تحديد outgroup سوف تكون شجرة unrooted. مرة واحدة يتم تشغيل البرنامج (الشكل 11) ويمكن الاطلاع على التقدم في فترات زمنية محددة والتي يمكن تعيينها باستخدام "printfreq = X" الأوامر. مزيد من التفاصيل حول متى تتوقف التحليل (أي. كيف أجيال عديدة لتشغيل ل) يمكن العثور عليها في دليل المستخدم. وتقدم القيم كليد على cladogram في النتائج جنبا إلى جنب مع phylogram التي يتم توفيرها أيضا في شكل Newick التي يمكن بسهولة أن ينظر إليها باستخدام المشاهد شجرة (انظر البروتوكول 6).

مرة واحدة يتم إنشاء شجرة النشوء والتطور، يحتاج إلى طوبولوجيا يمكن تصور. هناك العديد من أدوات الإنترنت والتطبيقات القابلة للتنزيل المستخدمة لتصور طبولوجيا شجرة. ويمكن الاطلاع على قائمة جزئية من برامج شعبية هنا -ylogenetic_tree_visualization_software">http://en.wikipedia.org/wiki/List_of_phylogenetic_tree_visualization_software , وقائمة أكثر شمولا ويمكن الاطلاع هنا - http://www.treedyn.org/overview/editors.html . تحكم TreeView 14 و 16 TreeDyn هما الخيارات الشعبية. كلاهما سهلة الاستعمال جدا وسهلة للتعرف على مختلف الخيارات. TreeView عنصر يعمل على ويندوز وماك، وذلك باستخدام واجهات متطابقة تقريبا. مدخلات يمكن أن تكون واحدة من العديد من الأشكال بما في ذلك NEXUS، PHYLIP، Hennig86، MEGA، وClustalW / X. TreeView عنصر (الشكل 12) ويشمل أيضا محرر الشجرة التي تسمح للمستخدم لنقل الفروع والأشجار reroot، وإعادة ترتيب مظهر الشجرة.

الشكل 1
الشكل 1. > NCBI انفجار صفحات الإنترنت. يحتوي على خادم الويب انفجار مجموعة من البرامج الانفجار ويتم استضافتها من قبل المركز الوطني لمعلومات التكنولوجيا الحيوية (NCBI). اضغط هنا لمشاهدة صورة أكبر.

الرقم 2
الشكل 2. FASTA تنسيق التسلسل. تنسيق FASTA يبدأ مع خط وصف المشار إليها بواسطة ">". وصف يجب أن تتبع مباشرة بعد ">" علامة، تسلسل (أي. النيوكليوتيدات أو الأحماض الأمينية) اتبع الوصف على السطر التالي. اضغط هنا لمشاهدة صورة أكبر.

الإقليم الشمالي "FO: المحافظة على together.within صفحة =" دائما "> الرقم 3
الرقم 3. إخراج HTML من البحث انفجار. الإخراج من البحث انفجار يوضح مجالات الهوية ضمن سلسلة الاستعلام، ويوفر أيضا عشرات من الشيء، ونتوقع القيم والاصطفافات البشرى مع كل مباراة. اضغط هنا لمشاهدة صورة أكبر.

الرقم 4
الشكل 4. وإخراج نموذج من البحث انفجار قابل للتنفيذ المحلية. الناتج من هذا البحث هو ملف نصي تماما مثل الناتج من واجهة انفجار على الانترنت، والتي تشمل قيمة نتوقع والنتيجة قليلا، بالإضافة إلى وصف المباراة. اضغط هنا لمشاهدة صورة أكبر.

الرقم 5
الرقم 5. الناتج من MSA باستخدام T-القهوة. الإخراج يبرز المواقع والأوزان مماثلة المباراة حسب اللون. تندس الثغرات بأنها "-" علامات ويتم الاحتفاظ موقف بقايا أو النوكليوتيدات لكل الأصناف. اضغط هنا لمشاهدة صورة أكبر.

ig6.jpg "/>
الرقم 6. تشكيلة العينة باستخدام ClustalX. مباريات مماثلة لونا مميزا وتندس الثغرات بأنها "-" علامة. وينظر الى شريط القوائم في أعلى اليسار. اضغط هنا لمشاهدة صورة أكبر.

الرقم 7
الرقم 7. واجهة البرنامج ProtTest. اضغط هنا لمشاهدة صورة أكبر.

الرقم 8
فايجوري 8. وحدة ProtTest. ProtTest حدة التحكم أثناء تشغيل التحليل. يشير شريط التقدم كيفية العديد من النماذج قد اكتملت، ويعرض الإطار الرئيسي النتيجة سجل احتمال لكل نموذج. اضغط هنا لمشاهدة صورة أكبر.

الرقم 9
الرقم 9. واجهة PhyML. اضغط هنا لمشاهدة صورة أكبر.

الرقم 10
الرقم 10. القائمة PhyML الواجهة. حالما يتم تحميل متواليات في PhyML تظهر القائمة الأولى، والتي يمكن التنقل عن طريق كتابة حرف أو رمز في قوس مربع. قوائم فرعية يمكن الوصول عن طريق كتابة "+" علامة. اضغط هنا لمشاهدة صورة أكبر.

الرقم 11
الرقم 11. واجهة MrBayes. عندما يتم تشغيل MrBayes التقدم يمكن عرضها في فترات محددة تعيين باستخدام "printfreq = X" الأوامر. على الرغم من أن البرنامج لا يمكن وقفها خلال شوط، بعد أن يتم حسابها على عدد محدد من الأجيال سيطلب من المستخدم اذا كانوا يريدون لتشغيل أكثر الأجيال.www.jove.com/files/ftp_upload/50975/50975fig11highres.jpg "الهدف =" _blank "> اضغط هنا لمشاهدة صورة أكبر.

الرقم 12
. واجهة تحكم TreeView. في هذا الشكل يعرض نافذة تحكم TreeView الرقم 12 شجرة عينة من البروتينات من Flybase (http://flybase.org/). يتم استيراد الملفات عن طريق النقر على "فتح" الخيار، واختيار نوع الملف المناسب (على سبيل المثال. شكل Newick). اضغط هنا لمشاهدة صورة أكبر.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

أملنا لهذا المقال هو أنه سيكون بمثابة نقطة انطلاق لتوجيه الباحثين أو الطلاب الذين هم جديدة لphylogenetics. أصبحت مشاريع تسلسل الجينوم أقل تكلفة على مدى السنوات القليلة الماضية ونتيجة لذلك الطلب مستخدم لهذه التكنولوجيا في تزايد مستمر، والآن إنتاج مجموعات البيانات الكبيرة تسلسل هو شائع في مختبرات صغيرة. غالبا ما تقدم هذه المجموعات مع مجموعات من الباحثين الجينات التي تتطلب إطارا النشوء والتطور لبدء لفهم وظيفتها. وعلاوة على ذلك، لأن phylogenetics هو العثور على منزل في عدد متزايد من مختبرات البحوث، ونحن نعتزم أيضا لهذه المقالة لتكون بمثابة جهاز التعليمية للطلاب الراغبين على نطاق واسع في الأبحاث البيولوجية. من خلال توفير معلومات المستخدم على "لماذا"، "كيف"، و "حيث" تستخدم عادة لأدوات بناء شجرة، ونحن نقدم إطارا للقارئ أن تبدأ في التعرف على هذه التطبيقات وكيفية عملها. However، فإننا ننصح القارئ للعب مع حولها جميع الإعدادات داخل كل أداة في محاولة لفهم كيف يمكن أن تؤثر على مختلف المعالم البيانات تسلسلها، وضمان التوافق بين التكوين والبرامج في كل حالة. تم حساب تحليل المبينة أعلاه باستخدام طراز OptiPlex من Dell 990 مع معالج إنتل كور i7 وجهاز كمبيوتر محمول ماك بوك مع معالج إنتل كور ديو 2، ومع ذلك، وسرعة التحليل وأيضا ثنائيات محددة (على سبيل المثال 32 بت أو 64 بت) سيعتمد على منصة للمستخدم.

وثمة تحد عند ترجمة دليل المستخدم هذا مثل واحد لphylogenetics، هو أن مجال لل phylogenetics، والمعلوماتية الحيوية ككل، هي منطقة التوسع السريع للبحوث التي تطلق باستمرار برامج جديدة تهدف إلى توفير أفضل التحالفات، والتنبؤات التشابه، أو أشجار النشوء والتطور . للتخفيف من حدة هذه المشكلة، حاولنا التركيز على البرامج التي كانت موجودة منذ عدة سنوات ولا تزال شعبية على حساب سو كيف أنها تعمل بشكل جيد. أن قال، نحن نريد أن نشير إلى أن هناك العديد من الأدوات الأخرى المتاحة لمعالجة المشاكل التي قد الموضحة في هذه المقالة، وهكذا تشجيع القارئ على استغلال هذا وتتضمن تطبيقات متعددة في تحليلاتهم.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

ليس لدينا شيء في الكشف عنها.

Acknowledgments

نشكر أعضاء المختبر أوهالرون للتعليق على المخطوطة. نشكر وزارة جامعة جورج واشنطن للعلوم البيولوجية وكلية الكولومبي الآداب والعلوم للحصول على تمويل لD. أوهالرون.

Materials

Name Company Catalog Number Comments
BLAST webpage  http://blast.ncbi.nlm.nih.gov/Blast.cgi
BLAST executables  ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
Preformatted BLAST databases ftp://ftp.ncbi.nlm.nih.gov/blast/db/
Clustal http://www.clustal.org/
Kalign http://msa.sbc.su.se/cgi-bin/msa.cgi
MAFFT http://mafft.cbrc.jp/alignment/software/
MUSCLE http://www.drive5.com/muscle/
T-Coffee http://www.tcoffee.org/Projects/tcoffee/
PROBCONS http://toolkit.tuebingen.mpg.de/probcons 
Se-Al  http://tree.bio.ed.ac.uk/software/seal/
BSEdit  http://www.bsedit.org/
JalView http://www.jalview.org/
SeaView http://pbil.univ-lyon1.fr/software/seaview.html
ProtTest  https://code.google.com/p/prottest3/
Java Runtime  http://www.java.com/en/download/chrome.jsp
Readseq http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi
jModelTest https://code.google.com/p/jmodeltest2/
PhyML https://code.google.com/p/phyml/
MrBayes http://mrbayes.sourceforge.net/download.php
TreeView http://taxonomy.zoology.gla.ac.uk/rod/treeview.html
TreeDyn http://www.treedyn.org/

DOWNLOAD MATERIALS LIST

References

  1. Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207, (4), 647-653 (1989).
  2. Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19, (6), 706-723 (1974).
  3. Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6, (2), 461-464 (1978).
  4. Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52, (5), 696-704 (2003).
  5. Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17, (8), 754-755 (2001).
  6. Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22, (22), 4673-4680 (1994).
  7. Lassmann, T., Sonnhammer, E. L. Kalign--an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
  8. Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33, (2), 511-518 (2005).
  9. Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30, (14), 3059-3066 (2002).
  10. Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32, (5), 1792-1797 (2004).
  11. Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302, (1), 205-217 (2000).
  12. Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15, (2), 330-340 (2005).
  13. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27, (8), 1164-1165 (2011).
  14. Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12, (4), 357-358 (1996).
  15. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9, (8), 772 (2012).
  16. Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).

Comments

0 Comments


    Post a Question / Comment / Request

    You must be signed in to post a comment. Please or create an account.

    Usage Statistics