A Practical Guide to Phylogenetics for Nonexperts

Damien O'Halloran

doi:10.3791/50975

JoVE Journal > Biology

Please note that all translations are automatically generated. Click here for the English version.

Biology

Nonexperts के लिए Phylogenetics के लिए एक व्यावहारिक गाइड

Published: February 05, 2014

doi:

10.3791/50975

Damien O’Halloran

¹Department of Biological Sciences and Institute for Neuroscience,The George Washington University

Summary

यहाँ हम न्यूक्लियोटाइड या अमीनो एसिड अनुक्रम डेटासेट से विश्वसनीय phylogenies पैदा करने के लिए एक कदम दर कदम पाइपलाइन का वर्णन. इस गाइड शोधकर्ताओं या वंशावली विश्लेषण करने के लिए नए छात्रों की सेवा करना है.

Abstract

कई शोधकर्ताओं, अविश्वसनीय रूप से विविध foci भर में, उनके अनुसंधान प्रश्न (ओं) को Phylogenetics आवेदन कर रहे हैं. हालांकि, कई शोधकर्ताओं ने इस विषय के लिए नए हैं और इसलिए यह अंतर्निहित समस्याओं को प्रस्तुत. यहाँ हम nonexperts के लिए Phylogenetics के लिए एक व्यावहारिक परिचय संकलन. हम एक कदम दर कदम तरीके, जीन अनुक्रम डेटासेट से विश्वसनीय phylogenies पैदा करने के लिए एक पाइप लाइन में रूपरेखा. हम ऑनलाइन इंटरफेस के साथ ही स्थानीय निष्पादनयोग्य के माध्यम से समानता खोजी उपकरण के लिए एक उपयोगकर्ता के गाइड के साथ शुरू करते हैं. अगला, हम विकास की सबसे फिट मॉडल निर्धारित करने के लिए सॉफ्टवेयर का उपयोग करने के लिए प्रोटोकॉल द्वारा पीछा एकाधिक अनुक्रम संरेखण पैदा करने के लिए कार्यक्रमों का पता लगाने. हम तो अधिकतम संभावना और Bayesian मापदंड के द्वारा वंशावली रिश्तों के पुनर्निर्माण के लिए प्रोटोकॉल रूपरेखा और अंत में वंशावली पेड़ दृश्यमान करने के लिए उपकरणों का वर्णन. किसी भी वंशावली दृष्टिकोण की एक विस्तृत विवरण का मतलब द्वारा यह नहीं है, यह व्यावहारिक शुरू कर informat के साथ पाठक प्रदान करता हैसामान्यतः phylogeneticists द्वारा उपयोग प्रमुख सॉफ्टवेयर अनुप्रयोगों पर आयन. इस लेख के लिए दृष्टि यह वंशावली पढ़ाई पर तैयार कर रहे शोधकर्ताओं के लिए एक व्यावहारिक प्रशिक्षण उपकरण के रूप में सेवा करते हैं और यह भी एक कक्षा या शिक्षण प्रयोगशाला में शामिल किया जा सकता है कि एक शैक्षिक संसाधन के रूप में सेवा कर सकता है कि होगा.

Introduction

दो (या अधिक) प्रजाति विकसित कैसे को समझने के लिए, यह प्रत्येक नमूने से अनुक्रम या रूपात्मक डेटा प्राप्त करने के लिए पहली आवश्यक है, इन आंकड़ों हम विकासवादी अंतरिक्ष के माध्यम से अपने रिश्ते को मापने के लिए उपयोग कर सकते हैं कि मात्रा का प्रतिनिधित्व करते हैं. (उदाहरण के लिए मील, इंच, माइक्रोन) उपलब्ध अधिक डेटा एक अधिक सटीक माप के लिए समानता मिलेगी, रेखीय दूरी मापने जब बस की तरह. फलस्वरूप, एक शोधकर्ता विकासवादी दूरी अनुमान कर सकते हैं सटीकता के साथ जो भारी रिश्तों को मापने के लिए उपलब्ध जानकारीपूर्ण डेटा की मात्रा से प्रभावित है. विभिन्न नमूनों अलग दरों पर और अलग तंत्र द्वारा विकसित क्योंकि इसके अलावा, हम दो taxa के बीच संबंधों को मापने के लिए उपयोग किए जाने वाले विधि भी सीधे विकासवादी माप की शुद्धता को प्रभावित करती है. इसलिए, विकास के संबंधों पर सीधे नहीं मनाया जाता है लेकिन बजाय अनुक्रम या रूपात्मक डेटा, विकासवादी inferring की समस्या से extrapolated रहे हैं क्योंकिरिश्तों आंकड़ों में से एक हो जाता है. Phylogenetics बेहतर taxa के बीच विकास के इतिहास को फिर से संगठित करने के क्रम में विकास के पैटर्न के लिए सांख्यिकीय मॉडल को लागू करने के साथ संबंध जीव विज्ञान की शाखा है. Taxa के बीच यह पुनर्निर्माण taxa की फाइलोजेनी के रूप में जाना जाता है.

हम यहाँ दृश्यों का एक सेट से phylogenies inferring के लिए कदम पाइप लाइन के द्वारा एक कदम का वर्णन आणविक जीव और विकासवादी जीव के बीच विशेषज्ञता में खाई पाटने में मदद करने के लिए. सबसे पहले, हम विस्तार से वेब आधारित इंटरफेस के माध्यम से और भी स्थानीय निष्पादनयोग्य का उपयोग करके बेसिक स्थानीय संरेखण खोज उपकरण (ब्लास्ट ¹⁾ कलन विधि का उपयोग डेटाबेस पूछताछ में शामिल कदम है, यह अक्सर एक अज्ञात के लिए इसी तरह के दृश्यों की एक सूची प्राप्त करने में पहला कदम है क्वेरी, कुछ शोधकर्ताओं ने यह भी Phylota (http://www.phylota.net/) के रूप में वेब इंटरफेस के माध्यम से एक ही समूह के लिए डेटा इकट्ठा करने में रुचि हो सकती है. ब्लास्ट ग के लिए एक एल्गोरिथ्म हैक्वेरी अनुक्रम सदृश कि 'हिट' के लिए खोज करने के लिए दृश्यों का एक डाटाबेस के खिलाफ प्राथमिक अमीनो एसिड या nucleotide अनुक्रम डेटा omparing. ब्लास्ट कार्यक्रम स्टीफन Altschul एट अल द्वारा डिजाइन किया गया था. राष्ट्रीय स्वास्थ्य संस्थान (एनआईएच) में ^1. ब्लास्ट सर्वर विभिन्न कार्यक्रमों के एक नंबर के होते हैं, और यहाँ सबसे आम ब्लास्ट कार्यक्रमों में से कुछ की एक सूची है:

मैं) nucleotide-न्यूक्लियोटाइड ब्लास्ट (blastn): इस कार्यक्रम के एक डीएनए अनुक्रम इनपुट की आवश्यकता है और डीएनए डेटाबेस से ज्यादा समान डीएनए दृश्यों देता है कि उपयोगकर्ता निर्दिष्ट करता है कि एक विशिष्ट जीव के लिए (उदाहरण के लिए).

द्वितीय) प्रोटीन प्रोटीन ब्लास्ट (blastp): यहाँ उपयोगकर्ता एक प्रोटीन अनुक्रम जानकारी और प्रोग्राम उपयोगकर्ता निर्दिष्ट करता है कि प्रोटीन डेटाबेस से ज्यादा समान प्रोटीन दृश्यों देता है.

III) स्थिति विशिष्ट चलने का विस्फोट (साई ब्लास्ट) (blastpgp): उपयोगकर्ता इनपुट एक prote हैनिकट से संबंधित प्रोटीन का एक सेट देता है जो अनुक्रम में, और इस डाटासेट से एक संरक्षित प्रोफाइल उत्पन्न होता है. अगला एक नई क्वेरी एक प्रोटीन डेटाबेस से पूछताछ करने के लिए प्रयोग किया जाता है जो केवल इन संरक्षित "रूपांकनों" का उपयोग कर उत्पन्न होता है और इस संरक्षित "रूपांकनों" का एक नया सेट निकाला और फिर एक प्रोटीन डेटाबेस तक पूछताछ करने के लिए उपयोग किया जाता है, जिसमें से प्रोटीन का एक बड़ा समूह रिटर्न प्रोटीन का एक भी बड़ा सेट लौटा रहे हैं और एक अन्य प्रोफाइल उत्पन्न होता है और इस प्रक्रिया को दोहराया. प्रत्येक चरण में क्वेरी में संबंधित प्रोटीन शामिल करके इस कार्यक्रम उपयोगकर्ता अधिक मुक़्तलिफ़ हैं कि दृश्यों की पहचान करने के लिए अनुमति देता है.

चतुर्थ) Nucleotide 6 फ्रेम अनुवाद प्रोटीन (blastx): यहाँ उपयोगकर्ता छह फ्रेम वैचारिक अनुवाद उत्पादों (यानी में बदल जाता है, जो एक nucleotide अनुक्रम इनपुट प्रदान करता है दोनों किस्में) एक प्रोटीन अनुक्रम डेटाबेस के खिलाफ..

V) 6 फ्रेम अनुवाद-न्यूक्लियोटाइड न्यूक्लियोटाइड6 फ्रेम अनुवाद (tblastx): इस कार्यक्रम के एक डीएनए nucleotide अनुक्रम इनपुट लेता है और यह एक nucleotide अनुक्रम डेटाबेस के छह फ्रेम में अनुवाद के खिलाफ तुलना जो सभी छह फ्रेम वैचारिक अनुवाद उत्पादों में निवेश के लिए अनुवाद.

vi) प्रोटीन न्यूक्लियोटाइड 6 फ्रेम अनुवाद (tblastn): इस कार्यक्रम के एक nucleotide अनुक्रम डेटाबेस के सभी छह पढ़ने फ्रेम के खिलाफ तुलना करने के लिए एक प्रोटीन अनुक्रम इनपुट का उपयोग करता है.

अगला, हम एक दृश्य डाटासेट से एक एकाधिक अनुक्रम संरेखण (एमएसए) पैदा करने के लिए आमतौर पर इस्तेमाल किया कार्यक्रमों का वर्णन है, और यह एक दृश्य डाटासेट के लिए विकास की सबसे फिट मॉडल है कि निर्धारित कार्यक्रमों के लिए एक उपयोगकर्ता के गाइड द्वारा पीछा किया जाता है. जातिवृत्तिक पुनर्निर्माण एक सांख्यिकीय समस्या है, और इस वजह से, वंशावली तरीकों एक सांख्यिकीय ढांचे को शामिल करने की जरूरत है. इस सांख्यिकीय ढांचे डाटासेट भीतर अनुक्रम परिवर्तन को शामिल किया गया है कि एक विकासवादी मॉडल बन जाता है. इस विकासवादी मोडेल न्यूक्लियोटाइड या एमिनो एसिड प्रतिस्थापन की प्रक्रिया के बारे में मान्यताओं का एक सेट शामिल है, और एक विशेष डाटासेट के लिए सबसे फिट मॉडल सांख्यिकीय परीक्षण के माध्यम से चुना जा सकता है. विभिन्न मॉडलों के डेटा के लिए फिट संभव वालों में से एक सेट के भीतर सबसे फिट मॉडल का चयन करने के लिए संभावना अनुपात परीक्षण (LRTs) या जानकारी मापदंड के माध्यम से तुलना की जा सकती. दो आम जानकारी मापदंड Akaike जानकारी कसौटी (एआईसी) ² और Bayesian जानकारी कसौटी (बीआईसी) ³ रहे हैं. एक इष्टतम संरेखण उत्पन्न हो जाने के बाद गठबंधन डेटा से एक फाइलोजेनी बनाने के लिए कई अलग अलग तरीके हैं. विकासवादी रिश्तों inferring के कई तरीके हैं, मोटे तौर पर, वे दो श्रेणियों में बांटा जा सकता है: दूरी आधारित विधियों और अनुक्रम आधारित विधियों. दूरी आधारित विधियों दृश्यों से जोड़ो दूरी की गणना, और फिर पेड़ प्राप्त करने के लिए इन दूरियों का उपयोग करें. अनुक्रम आधारित विधियों सीधे अनुक्रम संरेखण का उपयोग, और आमतौर पर टी खोजएक optimality कसौटी का उपयोग REE अंतरिक्ष. हम वंशावली रिश्तों के पुनर्निर्माण के लिए दो अनुक्रम आधारित विधियों की रूपरेखा तैयार: इन अधिकतम संभावना ढांचे को लागू करता है जो PhyML ⁴ हैं, और Bayesian मार्कोव चेन मोंटे कार्लो निष्कर्ष का उपयोग करता है जो MrBayes ^5. संभावना और Bayesian तरीकों वंशावली पुनर्निर्माण के लिए एक सांख्यिकीय ढांचा प्रदान करते हैं. आमतौर पर इस्तेमाल किया पेड़ निर्माण उपकरणों पर उपयोगकर्ता जानकारी प्रदान करके, हम वंशावली रिश्तों अनुमान करने के लिए आवश्यक आवश्यक डेटा के लिए पाठक परिचय.

Protocol

1. बेसिक स्थानीय संरेखण खोज उपकरण (ब्लास्ट): ऑनलाइन इंटरफ़ेस जैव प्रौद्योगिकी सूचना के लिए राष्ट्रीय केन्द्र (एन सी बी आई) में हुए विस्फोट 1 वेब सर्वर यात्रा करने के लिए इस लिंक पर क्लिक करें. – <a href="h…

Representative Results

एक प्रश्न के समानता ढूँढना शोधकर्ताओं नए दृश्यों के लिए एक संभावित पहचान मानो और भी दृश्यों के बीच संबंधों का अनुमान लगाने के लिए अनुमति देता है. ब्लास्ट 1 के लिए फ़ाइल इनपुट प्रकार FASTA स्वरूपित पाठ ?…

Discussion

इस लेख के लिए हमारी आशा है कि यह Phylogenetics के लिए नए हैं कि शोधकर्ताओं या छात्रों के मार्गदर्शन के लिए एक प्रारंभिक बिंदु के रूप में सेवा करेंगे. जीनोम अनुक्रमण परियोजनाओं पिछले कुछ वर्षों में कम महंगे हो गए…

Disclosures

The authors have nothing to disclose.

Acknowledgements

हम पांडुलिपि पर टिप्पणियों के लिए O'Halloran प्रयोगशाला के सदस्यों को धन्यवाद. हम डी. O'Halloran के लिए वित्त पोषण के लिए जीव विज्ञान के जॉर्ज वाशिंगटन विश्वविद्यालय के विभाग और कला और विज्ञान के कोलंबियन कॉलेज धन्यवाद.

Materials

BLAST webpage			http://blast.ncbi.nlm.nih.gov/Blast.cgi
BLAST executables			ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
Preformatted BLAST databases			ftp://ftp.ncbi.nlm.nih.gov/blast/db/
Clustal			http://www.clustal.org/
Kalign			http://msa.sbc.su.se/cgi-bin/msa.cgi
MAFFT			http://mafft.cbrc.jp/alignment/software/
MUSCLE			http://www.drive5.com/muscle/
T-Coffee			http://www.tcoffee.org/Projects/tcoffee/
PROBCONS			http://toolkit.tuebingen.mpg.de/probcons
Se-Al			http://tree.bio.ed.ac.uk/software/seal/
BSEdit			http://www.bsedit.org/
JalView			http://www.jalview.org/
SeaView			http://pbil.univ-lyon1.fr/software/seaview.html
ProtTest			https://code.google.com/p/prottest3/
Java Runtime			http://www.java.com/en/download/chrome.jsp
Readseq			http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi
jModelTest			https://code.google.com/p/jmodeltest2/
PhyML			https://code.google.com/p/phyml/
MrBayes			http://mrbayes.sourceforge.net/download.php
TreeView			http://taxonomy.zoology.gla.ac.uk/rod/treeview.html
TreeDyn			http://www.treedyn.org/

References

Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207 (4), 647-653 (1989).
Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19 (6), 706-723 (1974).
Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6 (2), 461-464 (1978).
Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52 (5), 696-704 (2003).
Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17 (8), 754-755 (2001).
Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22 (22), 4673-4680 (1994).
Lassmann, T., Sonnhammer, E. L. Kalign–an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33 (2), 511-518 (2005).
Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30 (14), 3059-3066 (2002).
Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302 (1), 205-217 (2000).
Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15 (2), 330-340 (2005).
Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27 (8), 1164-1165 (2011).
Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12 (4), 357-358 (1996).
Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9 (8), 772 (2012).
Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

O’Halloran, D. A Practical Guide to Phylogenetics for Nonexperts. J. Vis. Exp. (84), e50975, doi:10.3791/50975 (2014).

Nonexperts के लिए Phylogenetics के लिए एक व्यावहारिक गाइड

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

Nonexperts के लिए Phylogenetics के लिए एक व्यावहारिक गाइड

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

✖

To prove you're not a robot, please enter the text in the image below