यहाँ हम न्यूक्लियोटाइड या अमीनो एसिड अनुक्रम डेटासेट से विश्वसनीय phylogenies पैदा करने के लिए एक कदम दर कदम पाइपलाइन का वर्णन. इस गाइड शोधकर्ताओं या वंशावली विश्लेषण करने के लिए नए छात्रों की सेवा करना है.
कई शोधकर्ताओं, अविश्वसनीय रूप से विविध foci भर में, उनके अनुसंधान प्रश्न (ओं) को Phylogenetics आवेदन कर रहे हैं. हालांकि, कई शोधकर्ताओं ने इस विषय के लिए नए हैं और इसलिए यह अंतर्निहित समस्याओं को प्रस्तुत. यहाँ हम nonexperts के लिए Phylogenetics के लिए एक व्यावहारिक परिचय संकलन. हम एक कदम दर कदम तरीके, जीन अनुक्रम डेटासेट से विश्वसनीय phylogenies पैदा करने के लिए एक पाइप लाइन में रूपरेखा. हम ऑनलाइन इंटरफेस के साथ ही स्थानीय निष्पादनयोग्य के माध्यम से समानता खोजी उपकरण के लिए एक उपयोगकर्ता के गाइड के साथ शुरू करते हैं. अगला, हम विकास की सबसे फिट मॉडल निर्धारित करने के लिए सॉफ्टवेयर का उपयोग करने के लिए प्रोटोकॉल द्वारा पीछा एकाधिक अनुक्रम संरेखण पैदा करने के लिए कार्यक्रमों का पता लगाने. हम तो अधिकतम संभावना और Bayesian मापदंड के द्वारा वंशावली रिश्तों के पुनर्निर्माण के लिए प्रोटोकॉल रूपरेखा और अंत में वंशावली पेड़ दृश्यमान करने के लिए उपकरणों का वर्णन. किसी भी वंशावली दृष्टिकोण की एक विस्तृत विवरण का मतलब द्वारा यह नहीं है, यह व्यावहारिक शुरू कर informat के साथ पाठक प्रदान करता हैसामान्यतः phylogeneticists द्वारा उपयोग प्रमुख सॉफ्टवेयर अनुप्रयोगों पर आयन. इस लेख के लिए दृष्टि यह वंशावली पढ़ाई पर तैयार कर रहे शोधकर्ताओं के लिए एक व्यावहारिक प्रशिक्षण उपकरण के रूप में सेवा करते हैं और यह भी एक कक्षा या शिक्षण प्रयोगशाला में शामिल किया जा सकता है कि एक शैक्षिक संसाधन के रूप में सेवा कर सकता है कि होगा.
दो (या अधिक) प्रजाति विकसित कैसे को समझने के लिए, यह प्रत्येक नमूने से अनुक्रम या रूपात्मक डेटा प्राप्त करने के लिए पहली आवश्यक है, इन आंकड़ों हम विकासवादी अंतरिक्ष के माध्यम से अपने रिश्ते को मापने के लिए उपयोग कर सकते हैं कि मात्रा का प्रतिनिधित्व करते हैं. (उदाहरण के लिए मील, इंच, माइक्रोन) उपलब्ध अधिक डेटा एक अधिक सटीक माप के लिए समानता मिलेगी, रेखीय दूरी मापने जब बस की तरह. फलस्वरूप, एक शोधकर्ता विकासवादी दूरी अनुमान कर सकते हैं सटीकता के साथ जो भारी रिश्तों को मापने के लिए उपलब्ध जानकारीपूर्ण डेटा की मात्रा से प्रभावित है. विभिन्न नमूनों अलग दरों पर और अलग तंत्र द्वारा विकसित क्योंकि इसके अलावा, हम दो taxa के बीच संबंधों को मापने के लिए उपयोग किए जाने वाले विधि भी सीधे विकासवादी माप की शुद्धता को प्रभावित करती है. इसलिए, विकास के संबंधों पर सीधे नहीं मनाया जाता है लेकिन बजाय अनुक्रम या रूपात्मक डेटा, विकासवादी inferring की समस्या से extrapolated रहे हैं क्योंकिरिश्तों आंकड़ों में से एक हो जाता है. Phylogenetics बेहतर taxa के बीच विकास के इतिहास को फिर से संगठित करने के क्रम में विकास के पैटर्न के लिए सांख्यिकीय मॉडल को लागू करने के साथ संबंध जीव विज्ञान की शाखा है. Taxa के बीच यह पुनर्निर्माण taxa की फाइलोजेनी के रूप में जाना जाता है.
हम यहाँ दृश्यों का एक सेट से phylogenies inferring के लिए कदम पाइप लाइन के द्वारा एक कदम का वर्णन आणविक जीव और विकासवादी जीव के बीच विशेषज्ञता में खाई पाटने में मदद करने के लिए. सबसे पहले, हम विस्तार से वेब आधारित इंटरफेस के माध्यम से और भी स्थानीय निष्पादनयोग्य का उपयोग करके बेसिक स्थानीय संरेखण खोज उपकरण (ब्लास्ट 1) कलन विधि का उपयोग डेटाबेस पूछताछ में शामिल कदम है, यह अक्सर एक अज्ञात के लिए इसी तरह के दृश्यों की एक सूची प्राप्त करने में पहला कदम है क्वेरी, कुछ शोधकर्ताओं ने यह भी Phylota (http://www.phylota.net/) के रूप में वेब इंटरफेस के माध्यम से एक ही समूह के लिए डेटा इकट्ठा करने में रुचि हो सकती है. ब्लास्ट ग के लिए एक एल्गोरिथ्म हैक्वेरी अनुक्रम सदृश कि 'हिट' के लिए खोज करने के लिए दृश्यों का एक डाटाबेस के खिलाफ प्राथमिक अमीनो एसिड या nucleotide अनुक्रम डेटा omparing. ब्लास्ट कार्यक्रम स्टीफन Altschul एट अल द्वारा डिजाइन किया गया था. राष्ट्रीय स्वास्थ्य संस्थान (एनआईएच) में 1. ब्लास्ट सर्वर विभिन्न कार्यक्रमों के एक नंबर के होते हैं, और यहाँ सबसे आम ब्लास्ट कार्यक्रमों में से कुछ की एक सूची है:
मैं) nucleotide-न्यूक्लियोटाइड ब्लास्ट (blastn): इस कार्यक्रम के एक डीएनए अनुक्रम इनपुट की आवश्यकता है और डीएनए डेटाबेस से ज्यादा समान डीएनए दृश्यों देता है कि उपयोगकर्ता निर्दिष्ट करता है कि एक विशिष्ट जीव के लिए (उदाहरण के लिए).
द्वितीय) प्रोटीन प्रोटीन ब्लास्ट (blastp): यहाँ उपयोगकर्ता एक प्रोटीन अनुक्रम जानकारी और प्रोग्राम उपयोगकर्ता निर्दिष्ट करता है कि प्रोटीन डेटाबेस से ज्यादा समान प्रोटीन दृश्यों देता है.
III) स्थिति विशिष्ट चलने का विस्फोट (साई ब्लास्ट) (blastpgp): उपयोगकर्ता इनपुट एक prote हैनिकट से संबंधित प्रोटीन का एक सेट देता है जो अनुक्रम में, और इस डाटासेट से एक संरक्षित प्रोफाइल उत्पन्न होता है. अगला एक नई क्वेरी एक प्रोटीन डेटाबेस से पूछताछ करने के लिए प्रयोग किया जाता है जो केवल इन संरक्षित "रूपांकनों" का उपयोग कर उत्पन्न होता है और इस संरक्षित "रूपांकनों" का एक नया सेट निकाला और फिर एक प्रोटीन डेटाबेस तक पूछताछ करने के लिए उपयोग किया जाता है, जिसमें से प्रोटीन का एक बड़ा समूह रिटर्न प्रोटीन का एक भी बड़ा सेट लौटा रहे हैं और एक अन्य प्रोफाइल उत्पन्न होता है और इस प्रक्रिया को दोहराया. प्रत्येक चरण में क्वेरी में संबंधित प्रोटीन शामिल करके इस कार्यक्रम उपयोगकर्ता अधिक मुक़्तलिफ़ हैं कि दृश्यों की पहचान करने के लिए अनुमति देता है.
चतुर्थ) Nucleotide 6 फ्रेम अनुवाद प्रोटीन (blastx): यहाँ उपयोगकर्ता छह फ्रेम वैचारिक अनुवाद उत्पादों (यानी में बदल जाता है, जो एक nucleotide अनुक्रम इनपुट प्रदान करता है दोनों किस्में) एक प्रोटीन अनुक्रम डेटाबेस के खिलाफ..
V) 6 फ्रेम अनुवाद-न्यूक्लियोटाइड न्यूक्लियोटाइड6 फ्रेम अनुवाद (tblastx): इस कार्यक्रम के एक डीएनए nucleotide अनुक्रम इनपुट लेता है और यह एक nucleotide अनुक्रम डेटाबेस के छह फ्रेम में अनुवाद के खिलाफ तुलना जो सभी छह फ्रेम वैचारिक अनुवाद उत्पादों में निवेश के लिए अनुवाद.
vi) प्रोटीन न्यूक्लियोटाइड 6 फ्रेम अनुवाद (tblastn): इस कार्यक्रम के एक nucleotide अनुक्रम डेटाबेस के सभी छह पढ़ने फ्रेम के खिलाफ तुलना करने के लिए एक प्रोटीन अनुक्रम इनपुट का उपयोग करता है.
अगला, हम एक दृश्य डाटासेट से एक एकाधिक अनुक्रम संरेखण (एमएसए) पैदा करने के लिए आमतौर पर इस्तेमाल किया कार्यक्रमों का वर्णन है, और यह एक दृश्य डाटासेट के लिए विकास की सबसे फिट मॉडल है कि निर्धारित कार्यक्रमों के लिए एक उपयोगकर्ता के गाइड द्वारा पीछा किया जाता है. जातिवृत्तिक पुनर्निर्माण एक सांख्यिकीय समस्या है, और इस वजह से, वंशावली तरीकों एक सांख्यिकीय ढांचे को शामिल करने की जरूरत है. इस सांख्यिकीय ढांचे डाटासेट भीतर अनुक्रम परिवर्तन को शामिल किया गया है कि एक विकासवादी मॉडल बन जाता है. इस विकासवादी मोडेल न्यूक्लियोटाइड या एमिनो एसिड प्रतिस्थापन की प्रक्रिया के बारे में मान्यताओं का एक सेट शामिल है, और एक विशेष डाटासेट के लिए सबसे फिट मॉडल सांख्यिकीय परीक्षण के माध्यम से चुना जा सकता है. विभिन्न मॉडलों के डेटा के लिए फिट संभव वालों में से एक सेट के भीतर सबसे फिट मॉडल का चयन करने के लिए संभावना अनुपात परीक्षण (LRTs) या जानकारी मापदंड के माध्यम से तुलना की जा सकती. दो आम जानकारी मापदंड Akaike जानकारी कसौटी (एआईसी) 2 और Bayesian जानकारी कसौटी (बीआईसी) 3 रहे हैं. एक इष्टतम संरेखण उत्पन्न हो जाने के बाद गठबंधन डेटा से एक फाइलोजेनी बनाने के लिए कई अलग अलग तरीके हैं. विकासवादी रिश्तों inferring के कई तरीके हैं, मोटे तौर पर, वे दो श्रेणियों में बांटा जा सकता है: दूरी आधारित विधियों और अनुक्रम आधारित विधियों. दूरी आधारित विधियों दृश्यों से जोड़ो दूरी की गणना, और फिर पेड़ प्राप्त करने के लिए इन दूरियों का उपयोग करें. अनुक्रम आधारित विधियों सीधे अनुक्रम संरेखण का उपयोग, और आमतौर पर टी खोजएक optimality कसौटी का उपयोग REE अंतरिक्ष. हम वंशावली रिश्तों के पुनर्निर्माण के लिए दो अनुक्रम आधारित विधियों की रूपरेखा तैयार: इन अधिकतम संभावना ढांचे को लागू करता है जो PhyML 4 हैं, और Bayesian मार्कोव चेन मोंटे कार्लो निष्कर्ष का उपयोग करता है जो MrBayes 5. संभावना और Bayesian तरीकों वंशावली पुनर्निर्माण के लिए एक सांख्यिकीय ढांचा प्रदान करते हैं. आमतौर पर इस्तेमाल किया पेड़ निर्माण उपकरणों पर उपयोगकर्ता जानकारी प्रदान करके, हम वंशावली रिश्तों अनुमान करने के लिए आवश्यक आवश्यक डेटा के लिए पाठक परिचय.
इस लेख के लिए हमारी आशा है कि यह Phylogenetics के लिए नए हैं कि शोधकर्ताओं या छात्रों के मार्गदर्शन के लिए एक प्रारंभिक बिंदु के रूप में सेवा करेंगे. जीनोम अनुक्रमण परियोजनाओं पिछले कुछ वर्षों में कम महंगे हो गए…
The authors have nothing to disclose.
हम पांडुलिपि पर टिप्पणियों के लिए O'Halloran प्रयोगशाला के सदस्यों को धन्यवाद. हम डी. O'Halloran के लिए वित्त पोषण के लिए जीव विज्ञान के जॉर्ज वाशिंगटन विश्वविद्यालय के विभाग और कला और विज्ञान के कोलंबियन कॉलेज धन्यवाद.