Nonexperts için Phylogenetics İçin Pratik Kılavuz

Biology

Your institution must subscribe to JoVE's Biology section to access this content.

Fill out the form below to receive a free trial or learn more about access:

 

Summary

Burada nükleotid ya da amino asit dizisi veri setleri güvenilir filogenezlerini üretilmesi için adım adım boru hattını açıklar. Bu kılavuz, araştırmacılar veya filogenetik analize yeni öğrencilere hizmet etmeyi amaçlamaktadır.

Cite this Article

Copy Citation | Download Citations

O'Halloran, D. A Practical Guide to Phylogenetics for Nonexperts. J. Vis. Exp. (84), e50975, doi:10.3791/50975 (2014).

Please note that all translations are automatically generated.

Click here for the english version. For other languages click here.

Abstract

Birçok araştırmacı, inanılmaz farklı odaklar karşısında, araştırma soru (lar) için Phylogenetics uygulamaktayız. Ancak, birçok araştırmacı bu konuya yeni ve bu yüzden doğal sorunları sunuyor. Burada nonexperts için Filogenetikte için pratik giriş derlemek. Biz bir adım-adım şekilde, gen sekansı veri setlerinden güvenilir filogenezlerini üretmek için bir boru hattı anahat. Biz çevrimiçi arayüzleri yanı sıra yerel yürütülebilir yoluyla benzerlik arama araçları için kullanıcı kılavuzu ile başlar. Sonra, evrim iyi uygun modelleri belirlemek için yazılım kullanarak protokolleri takip çoklu dizi hizalamalarını üretmek için programlar keşfedebilirsiniz. Biz sonra maksimum olabilirlik ve Bayes kriterleri aracılığıyla akrabalık ilişkileri yeniden protokolleri anahat ve nihayet filogenetik ağaçlar görselleştirmek için araçları tanımlamak. Herhangi bir filogenetik yaklaşımlar ayrıntılı bir açıklaması yoluyla bu olmasa da, ki bu durum pratik başlangıç ​​informat ile okuyucu sağlamak yaparyaygın phylogeneticists tarafından kullanılan anahtar yazılım uygulamaları iyon. Bu yazı için vizyonu filogenetik çalışmalar başlamadan araştırmacılar için pratik bir eğitim aracı olarak hizmet etmek ve aynı zamanda bir sınıf veya eğitim-laboratuvar içine dahil edilebilir bir eğitim kaynağı olarak hizmet verebilir olacaktır.

Introduction

İki (veya daha fazla) türler gelişmiş anlamak amacıyla, her bir örnekten dizisi ya da morfolojik veriler elde etmek için gerekli olan ilk olarak, bu veriler, evrimsel uzayda ilişkisini ölçmek için kullanabilir miktarlarını temsil eder. (Örneğin mil, inç, mikron) mevcuttur daha fazla veri daha doğru bir ölçüm eşit olacak olan, doğrusal mesafe ölçme zaman olduğu gibi. Ergo, bir araştırmacı evrimsel mesafe anlamak için hassaslığı ile ağır ilişkileri ölçmek için kullanılabilir bilgi veri hacmine etkilenir. Farklı örnekler, farklı oranlarda ve farklı mekanizmalarla gelişmeye çünkü Ayrıca, biz iki takson arasındaki ilişkiyi ölçmek için kullanılan yöntem de doğrudan evrimsel ölçümlerin doğruluğunu etkiler. Bu nedenle, evrimsel ilişkiler doğrudan gözlenemeyen ancak bunun yerine sırası veya morfolojik verilerin, evrimsel çıkarım sorunu yola çıkılarak çünküilişkiler istatistik biri haline gelir. Phylogenetics optimal takson arasındaki evrimsel geçmişini yeniden amacıyla evrim kalıpları istatistiksel modellerini uygulama ile ilgili biyoloji dalıdır. Takson arasındaki bu imar takson ait phylogeny olarak adlandırılır.

Burada dizileri bir dizi filogenezlerini çıkarım için adım boru hattının bir adım tarif moleküler biyologlar ve evrimsel biyologlar arasında uzmanlık köprü yardımcı olmak için. Öncelikle, biz detay web tabanlı arayüz üzerinden ve yerel yürütülebilir kullanarak Basic Local Alignment Search Tool (BLAST 1) algoritması kullanılarak veritabanı sorgulama dahil adımlar, bu genellikle tanımlanamayan bir benzer dizilerin bir listesini elde ilk adımdır Sorgu, bazı araştırmacılar da bu tür Phylota (http://www.phylota.net/) gibi web arayüzleri yoluyla tek bir grup için veri toplama ilginizi çekebilir rağmen. C BLAST algoritmasıdırSorgu sırası benzeyen "hit" aramak için sıralarının bir veritabanına karşı primer amino asit veya nükleotid dizisi verileri omparing. BLAST programı, Stephen Altschul ve arkadaşları tarafından tasarlanmıştır. Ulusal Sağlık Enstitüleri (NIH) 1. BLAST sunucu farklı programlar bir dizi oluşur ve burada en yaygın ŞOK programların bazılarının bir listesi:

i) Nükleotid-BLAST nükleotid (blastn): Bu program, bir DNA dizisi giriş gerektirir ve DNA veritabanından en benzer DNA dizileri döndüren bir kullanıcının belirlediği Spesifik bir organizma için (örneğin,.)

ii) Protein-protein BLAST (blastp): Burada, kullanıcı, bir protein sekansı girer ve program, kullanıcının belirttiği protein veritabanından en benzer protein dizilerini verir.

iii) Pozisyonu Özgü Iterative BLAST (PSI-BLAST) (blastpgp): Kullanıcı girişi bir prote olduğunuyanında yakın ilişkili proteinler, bir dizi döner sırayla ve bu veri kümesi bir muhafaza profili oluşturulur. Sonraki yeni bir sorgu bir protein veritabanını sorgulamak için kullanılır sadece bu korunmuş "motifler" kullanılarak üretilen ve bu korunmuş "motifleri" yeni bir dizi ayıklanır ve sonra bir protein veritabanı kadar sorgulamak için kullanılan hangi proteinlerin daha büyük bir grup döndürür proteinlerin daha büyük bir küme retuned ve başka bir profil oluşturulur ve işlem tekrarlanır. Her adımda sorguya ilgili proteinlerin dahil ederek bu program kullanıcının daha farklı olan dizileri belirlemek için izin verir.

iv) Nükleotid 6-frame çeviri-protein (BLASTX): Burada, kullanıcı, altı çerçeveli kavramsal çeviri ürünleri (yani dönüştürülür bir nükleotid sekansı, girdi sağlamaktadır her iki kol), bir protein sekans veri tabanına karşı..

v) 6-çerçeve çeviri-nükleotidi Nükleotit6-kare için (TBLASTX): Bu program, bir DNA nükleotid sekansı, girdi alır ve onu bir nükleotit sekans veri tabanının altı çerçeveli çevirileri karşı karşılaştırır altı-çerçeveli kavramsal öteleme ürünleri içine girişi anlamına gelmektedir.

vi) Protein-nükleotid 6-kare için (TBLASTN): Bu program, bir nükleotit sekans veri tabanının altı okuma çerçevesi karşılaştırmak için bir protein sekansıdır girişini kullanır.

Sonra, bir dizi veri kümesi bir Çoklu Dizi Hizalama (MSA) üretmek için yaygın olarak kullanılan programları tanımlamak, ve bu bir dizi veri kümesi için evrimin en uygun modelleri belirlemek programlarına bir kullanım kılavuzu ile takip edilmektedir. Filogenetik rekonstrüksiyon istatistiksel bir sorundur, ve bu nedenle, filogenetik yöntemler istatistiksel bir çerçeve dahil etmek gerekir. Bu istatistiki çerçeve kümesi içinde sekans değişikliğini içermektedir evrimsel bir model haline gelir. Bu evrimsel model nükleotid ya da amino asit ikamelerinin süreci hakkında varsayımlar bir dizi oluşur ve belirli bir veri kümesi için en uygun bir model istatistiksel testler yoluyla seçilebilir. Farklı modellerin verilerine uygun mümkün olanlar bir dizi içinde en uygun modeli seçmek için olabilirlik oranı testleri (Likelihood oran) veya bilgi kriterler ile mukayese edilebilir. İki ortak bilgi kriterleri Akaike bilgi kriteri (AIC) 2 ve Bayesian bilgi ölçütü (BIC) 3 vardır. Optimal hizalama üretildiğinde, hizalanmış verilerden soyoluşu oluşturmak için pek çok farklı yöntem vardır. Evrimsel ilişki çıkarım çok sayıda yöntem vardır, genel olarak, iki kategoriye ayrılabilir: mesafeye göre yöntem ve dizi-bazlı yöntem. Uzaklık dayalı yöntemler dizilerden ikili mesafeleri hesaplamak ve sonra ağaç elde etmek için bu mesafeleri. Dizi-bazlı yöntemler, doğrudan sekans hizalama kullanın ve genellikle t aramaBir eniyilik kriter kullanarak ree alanı. Biz akrabalık ilişkileri yeniden inşa için iki dizi-tabanlı yöntemler anahat: Bu maksimum olabilirlik çerçeveyi uygular PhyML 4, ve Bayes Markov Zinciri Monte Carlo çıkarsama kullanır MrBayes 5. Olabilirlik ve Bayes yöntemleri filogenetik rekonstrüksiyonu için istatistiksel bir çerçeve sağlar. Yaygın olarak kullanılan ağaç-yapı araçları üzerinde kullanıcı bilgilerini sunarak, filogenetik ilişkileri anlaması için gerekli gerekli verilere okuyucuya tanıtmak.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1.. Temel Yerel Hizalama Arama Aracı (ŞOK): Çevrimiçi Arayüz

  1. Biyoteknoloji Bilgi Ulusal Merkezi (NCBI) de ŞOK 1 web sunucusunu ziyaret etmek için bu linke tıklayınız. - http://blast.ncbi.nlm.nih.gov/Blast.cgi (Şekil 1).
  2. Sorgu kutusuna girdi bir FASTA'dır biçimlendirilmiş metin dizisi (örneğin bkz. Şekil 2).
  3. Arama kullanmak ve daha sonra "patlama" tıklayın uygun BLAST programı ve ilgili veritabanı veya ilgi bireysel türler tıklayınız.
    Not: FASTA biçimlendirilmiş dizisi, bir ">" işareti ile gösterilen bir açıklama satırı ile başlar. Description ">" işareti, dizisi (yani. Nükleotid veya amino asitler) sonraki satırda açıklamasını izledikten sonra hemen takip etmelidir. BLAST aramanın çıkış HTML, düz metin, XML, ya da vurmak ta olarak görülüyorlen HTML ayarlanmış varsayılan (Şekil 3) ile (Metin veya csv).

2. Temel Yerel Hizalama Arama Aracı (ŞOK): Yerel Çalıştırılabilirler

  1. Bu linkten son BLAST komut satırı ŞOK yürütülebilir indir:
    ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ -
  2. PC kullanıcıları için em>: En son blast win32.exe dosyasını çift tıklatın ve lisans sözleşmesini kabul ve yüklemek için tıklayın.
    Not: NCBI-patlama-2.2.27 +: varsayılan kurulum dizini C.
  3. Aşağıdaki gibi PC çevre değişkeni yapılandırın:
    1. "Start" butonuna ve daha sonra sağ "bilgisayar" tıklayın PC tıklayın
    2. "Özellikler" e tıklayın ve pop-up "gelişmiş" sekmesine tıklayın
    3. "Ortam Değişkenleri düğmesine" tıklayın ve yeni pop-up th altında "yeni" butonuna tıklayınbölümde e "kullanıcı için kullanıcı değişkenleri"
    4. NCBI-patlama-2.2.27 + bin: pop-up değişken adı "Yol" ve değişken değeri "C ekleyin.
      Not: bin dizini çalıştırılabilir (.. Yani blastp, vb) içerir.
  4. Mac kullanıcıları için em>: Terminal uygulamasını açın (bu sadece açık "Finder" yapmak ve "Terminal" arama ve bu "terminal" simgesi gösterilecek). Terminal penceresi türü içine:
    > Ftp ftp.ncbi.nih.gov
    Not: Ayrıca PC için yukarıdaki örnekte kullanılan URL'sini yazabilirsiniz
  5. NCBI ftp sitesi türünü Adı ve Şifre için "anonim", ve sonra yazın erişmek için:
    > Cd blast / yürütülebilir / SON
  6. Yazarak yürütülebilir listeleyin:
    > Ls
  7. Aşağıdaki (veya ne olursa olsun en son sürümü şu anda) yazarak en son sürümünü almak:
    2; NCBI-patlama-2.2.7-macosx.tar.gz olsun
  8. "Exit" yazarak NCBI ftp sunucusu siteyi çıkın.
  9. Yazarak indirilen dosyaların sıkıştırması:
    > Tar-xzf NCBI-patlama-2.2.7-macosx.tar.gz
  10. Yazarak komutları ararken kabuk bu dizinin arama böylece yoluna patlama yürütülebilir ikili dosyaların konumunu ekleyin:
    > PATH = $ PATH: new_folder_location
  11. Bu yazarak yoluna yerini eklendi olmadığını kontrol edin:
    > Echo $ PATH
  12. Buraya tıklayarak (günlük olarak güncellenmektedir) önceden biçimlendirilmiş bir BLAST veritabanları indir:
    ftp://ftp.ncbi.nlm.nih.gov/blast/db/
  13. "Db" klasörünün içine veritabanını yerleştirin.
  14. PC'de em>: ve yazarak NCBI-patlama klasöre dizini değiştirin (bu "Başlat" ve arama çubuğuna "cmd" yazıp yapmak için) bir MS-DOS komut istemini açın:
    C: Users> cd .. [hamlebir klasör yukarı]
    C: > cd NCBI-patlama-2.2.27 +
    Bu dizini değişecektir:
    C: NCBI-patlama-2.2.27 +>
  15. Aşağıdaki "makedb" komutunu kullanarak veritabanı oluşturun:
    > Makedb-db / briggsae.fasta-dbtype prot-out db / briggsae
    Not: Aşağıdaki örnekte (Şekil 4) olarak veritabanı "briggsae" adlı ve organizmadan Caenorhabditis briggsae itibaren bir bağlantı grubu oluşur.
  16. "Db" klasörünün içine bir FASTA'dır biçimlendirilmiş protein metin dizisini takarak "test" adı verilen bir sorgu protein dizisini oluşturun.
  17. Aşağıdaki komutu yazarak bir blastp arama üzerinden veritabanı sorgulayın:
    > Blastp-sorgu db / test.txt-db / briggsae-out text.txt
  18. Bir Mac'te em>: (adım 2.4) ve yukarıdaki talimatlara göre NCBI ftp web sitesine erişerek yerel Blast aramalar için bir veritabanı yüklemekn tipi:
    > Lcd .. / veritabanları /
  19. Yazarak ilgi genomunu ya da dizisini indir:
    > Olsun NC_ [Erişim #]. Fna
    Not: ". Fna" FAŞTA biçimlendirilmiş bir nükleotid diziye işaret eder ve "FAA." FAŞTA biçimlendirilmiş amino asit sekansları anlamına gelir.
  20. Ftp siteyi çıkmak için "çıkın" yazınız.
  21. Yazarak veritabanını olun:
    > Db / mouse.faa-out fare-dbtype prot makeblastdb-in
  22. "Bin" klasörünün içine bir FAST biçimlendirilmiş bir sorgu sırasını yerleştirin ve aşağıdaki komutu ile veritabanı sorgulamak:
    > Blastp-sorgu "senin query.fasta"-db "Veritabanı"-out results.txt

3. Çoklu Dizi Hizalamalarını oluşturuluyor

  1. Yaygın olarak kullanılan Çoklu dizi hizalama (MSA) programları erişmek için bu bağlantıları tıklayın:
    ClustalW 6 http://www.clustal.org/
    Salikorngn 7 http://msa.sbc.su.se/cgi-bin/msa.cgi
    MAFFT 8,9 http://mafft.cbrc.jp/alignment/software/
    KAS 10 http://www.drive5.com/muscle/
    T-Kahve 11 http://www.tcoffee.org/Projects/tcoffee/
    PROBCONS 12 http://toolkit.tuebingen.mpg.de/probcons
  2. - Bu linke tıklayın http://tcoffee.crg.cat/apps/tcoffee/do:regular sorgu kutusuna ve giriş FASTA'dır biçimlendirilmiş dizisi verileri -
    Not: T-Kahve ikinci bir numune çıkışı, Şekil 5'de görülebileceği gibi, benzer artıklar renk kodludur.
  3. Bir komut satırı sürümü (ClustalW) veya bir grafik v olarak Clustal MSA indirinbu linki tıklayarak ersion (ClustalX): http://www.clustal.org/clustal2/ - sonra uygun yürütülebilir tıklayın (yani kazanmak, Linux, Mac OS X).
  4. FASTA biçimlendirilmiş dizisi metin olarak veri yüklemek ve (Şekil 6) hizalamak.

4. Evrim Best-fit Modelleri Belirlenmesi

  1. Prottest 13 programı indirmek için buraya tıklayın:
    http://darwin.uvigo.es/our-software/
  2. Prottest indirildikten sonra ProtTest.jar dosyasına çift tıklayın
  3. Prottest başlatıldıktan sonra, "dosyayı seçin" üzerine tıklayın ve (Şekil 7) dizisi verileri yüklemek.
  4. Ardından "start" ve programı (Şekil 8) başlayacak.
    Not: run (Şekil 8) tamamlandıktan sonra, program kriterlerine göre en iyi modeli gösterir ör "AIC göre en iyi modeli: DEDİKODU + I + G"

5. Maksimum Olabilirlik veya Bayes Çıkarım tarafından Sıra Tabanlı Filogeniler çıkarım

  1. Burada PhyML 4 İndirilme:
    https://code.google.com/p/phyml/
  2. Çift uygun uygulama (yani phyml Windows phyml Linux, vb.) Ve arayüz penceresi (Şekil 9) açılır tıklayarak yürütülebilir başlatın.
  3. Yazarak bir PHYLIP biçimlendirilmiş dizisi olarak giriş sırasını yükleyin:
    > "Dosya adı". Phy
    Not:, dizi formatları arasında dönüştürme mevcut "Readseq" web programını kullanmak için - http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi .
  4. "Y" yazarak programı başlatın.
  5. Burada MrBayes 5 indir:
    rceforge.net / download.php "> http://mrbayes.sourceforge.net/download.php
  6. Yürütülebilir dosya üzerinde programın tıklayın başlamak ve yazarak programa NEXUS biçimlendirilmiş dizisi verileri okumak için:
    > "Dosya adı" yürütmek. Nex
  7. Evrimsel bir model oluşturdu.
  8. Yazarak çalıştırmak için nesillerin sayısını seçin:
    > Mcmcp ngen = 1000000 [1000000 Bu nesillerin sayısını ayarlar]
    > Karter yanıyor = 10000 [Bu 10000 burnin ayarlar]
  9. Yazarak sonuçlar dosyasında şube uzunlukları kaydedin:
    > Mcmcp savebrlens = yes
  10. Yazarak analizi çalıştırın:
    > Mcmc
  11. "SUMT" komutunu kullanarak ağaçları özetler.

6. Filogeniler görselleştirme

  1. Burada ağaç görüntüleyici programların listesini görüntülemek:
    http://www.treedyn.org/overview/editors.html
  2. TreeView 14 progr indirinburadayım:
    http://taxonomy.zoology.gla.ac.uk/rod/treeview.html

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Bir sorguya benzerlikler bulma araştırmacılar yeni dizilere potansiyel bir kimlik atfetmek ve aynı zamanda dizilerinin arasındaki ilişkileri anlaması için izin verir. ŞOK 1 için dosya giriş türü FASTA'dır biçimlendirilmiş bir metin dizisi veya GenBank sayıdır. FASTA biçimlendirilmiş dizisi, bir ">" işareti (Şekil 2) ile gösterilen bir açıklama satırı ile başlar. Description ">" işareti, dizisi (yani. Nükleotid veya amino asitler) sonraki satırda açıklamasını izledikten sonra hemen takip etmelidir. Tasarruf ve düzenleme dizisi dosyaları, bu tür PC veya TextWrangler (bkz. "Not Defteri" gibi bir metin editörü kullanmak en iyisidir http://www.barebones.com/products/textwrangler/ Mac için). BLAST algoritma dizi benzerliğinin kısa menziller için arar "yerel" hizalamalarını, gerçekleştirir. Algoritması tüm olası "stretche baktı sonraSorgu sırası ve maksimum genişletilmiş ikinci s "bu diziler, daha sonra Bu maçı ne kadar iyi anlamak için o önemlidir. her sorgu dizisi çifti için hizalamalarını toplanır ve böylece BLAST (E) bir bekliyoruz değerini içermektedir her hit istatistikleri geçerlidir ve biraz puan. E değeri bir maç için istatistiksel olarak anlamlı bir göstergesidir. E-değeri ne kadar düşükse, o kadar önemli hit, örneğin, 0.05 E-değerine sahip bir sekans hizalama anlamına gelir, bu olasılığı sadece şans eseri meydana maç 100'de 5'tir. bit skor ne kadar iyi uyum olduğunu. daha yüksek bit puan, daha iyi hizalama. patlamanın çevrimiçi sürümüne benzer, orada bir göstergesini sağlamak için özel bir puanlama matris kullanır Yerel BLAST kullanarak yürütülebilir komutlar aracılığıyla ayarlanabilir parametreler bir dizi bu komutları açıklayan kapsamlı bir kaynaktır burada bulabilirsiniz -. http://www.ncbi.nlm.nih.gov/books/ NBK1762 /. Yerel arama çıktısı sadece çevrimiçi ŞOK arayüzünden çıkışı (Şekil 4) gibi bir metin dosyasıdır.

Bir Çoklu dizi hizalama (MSA) amino asitler, DNA veya RNA oluşan üç veya daha fazla primer sekanslarının bir sekans hizalamasıdır. ClustalW 6 1994 yılında yayımlanan, biyologlar için en popüler MSA araçlarından biridir. - Birçok popüler MSA araçları one-stop erişim sağlayan kullanıcı dostu online arayüzü burada EMBL-EBI sunucuda bulunabilir http://www.ebi.ac.uk/Tools/msa . Çok farklı formatlar da kabul rağmen her program için giriş FAŞTA (bkz. Şekil 2) dizisi verileri biçimlendirilmiş olabilir ve her biri için sayısız ayna siteler online olarak bulunabilir. Boşluk cezaları ve çıkış biçimleri gibi çeşitli parametreleri kolayca seçilebilir. MSA T-Kahve ikinci bir örnek çıktı Benzer artıklar işbirliği vardır Şekil 5'te görülebilirlor kodlu. Bazı durumlarda, MSA aracı da indirilebilir ve yerel olarak çalıştırılabilir. - Clustal bu web sitesinden bir komut satırı sürümü (ClustalW) veya bir grafik sürümü (ClustalX) olarak indirebilirsiniz http://www.clustal.org/clustal2/ . Indirmek için, sadece uygun yürütülebilir tıklayın (yani. Kazanmak, Linux, Mac OS X). Windows için program çalıştırılabilir indirmek ve bir pop-up menü "Çalıştır" a tıklayın ve sonra yükleme başlayacaktır kullanıcı gerektirecektir. Program çok sezgisel, diziler NBRF / PIR, FASTA, EMBL / Swiss-Prot, CLUSTAL, GCC / MSF, GCG9 RSF, ve Gde olarak biçimlendirilmiş dizileri içeren bir metin dosyası yüklenebilir. Diziler "hizalama" menüsünden "do tam uyum" tıklayarak hizalanır. ClustalX kullanılarak hizalanmış altı protein sekanslarının bir numunesi hizalama Şekil 6'da görülebilir. Bu tür yazı tipi boyutu ve rengi gibi çeşitli parametreleri kolayca modifiye ve editi olabilirdizilerin ng "Edit" menüsünden tıklayarak yapılır. Elle rafine diziler genellikle tam otomatik yöntemler üstün olduğu ve bu nedenle, MSA aracı geliştirme araştırma çok aktif bir alandır. Bazı yaygın hizalama editörler aşağıdaki bağlantılardan ulaşabilirsiniz: - Se-Al http://tree.bio.ed.ac.uk/software/seal/ ; BSEdit - http://www.bsedit.org/ ; JalView - http://www.jalview.org/ ; SeaView - http://pbil.univ-lyon1.fr/software/seaview.html .

Amino-asit hizalanmalar için program Prottest 13 veri içinde amino asit değiştirmeleri en uygun modelleri seçimi tespit etmek için kullanılır. Prottest küçük Akaike Bilgi Kriteri (AIC), Bayes Informa aday modellerin listeden modelini bularak bu seçimi yapartion Kriter (BIC) puan veya Karar Teorisi Ölçütü (DT). Prottest (sürüm 3.2) son sürüm 120 farklı modelde neden 15 farklı oran matrisi içerir. Kullanıcı Prottest çalıştırmak için kendi sisteminde Java Runtime olmalıdır. Java Runtime burada serbestçe kullanılabilir - http://www.java.com/en/download/chrome.jsp . Diziler PHYLIP veya NEXUS biçimi olarak girilir. , Sırası formatları arasında dönüştürme mevcut "Readseq" web programını kullanmak için - http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi . "Dosyayı seçin" seçeneğini tıklayın ve sekans verileri yüklemek. Ardından "start" ve programı başlayacak. Seçilen modellerin sayısını değiştirmek için, "modeller" butonuna tıklayabilirsiniz. Program başladığında o dibinde bir ilerleme çubuğu görüntüler ve analiz ediliyor gibi modellerini listelemek (Şekil 8 https://code.google.com/p/prottest3/wiki/Background . Sadece sadece dizilerin sınırlı sayıda işleyebilir dışında indirilen versiyonu gibi işlevleri Prottest için bir online web arayüzü de vardır. - Bu web arayüzü buraya tıklayarak ulaşabilirsiniz http://darwin.uvigo.es/software/prottest2_server.html . Nükleotid veri setleri için programı jModelTest 15 AIC, BIC, ve hiyerarşik ve dinamik olabilirlik oranı testi yukarıda da belirtilen DT kriterlerini uygulayarak nükleotid değiştirmelerin en uygun modellerin istatistiksel seçimini incelemek için kullanılırs (hLRT ve dLRT). jModelTest girişi için Mac OS X için optimize edilmiş, çoklu formatları izin verilir. Net bir adım-adım kılavuz burada geliştiriciler tarafından kullanılabilir - http://computing.bio.cam.ac.uk/local/doc/jmodeltest.pdf

PhyML nükleotid veya amino asit sekanslarının ikinci diziler, maksimum olabilirlik tahmin filogenezlerini bir programdır. PhyML ağaç topoloji alanı (Şekil 10) aramak için çeşitli seçenekleri birleştiğinde ikame modeller çok sayıda dahil edecektir. Program iki metin dosyaları içine sonuçlarını kaydeder. İlk dosya kolayca Ağacı görüntüleyici (protokolü 6) kullanılarak görülebilir Newick formatında ML ağacı içerecek, ve diğer dosya istatistikleri içerecektir (dosya adı, modeli, Log-olabilirlik puanları, vb.) Analizi . Tüm parametreler çok kolay menü öğeleri aşağıdaki tarafından belirlenir. Her Menü op Daha detaylı açıklamaları- tion PhyML indirme sayfasında mevcut PhyML kılavuzda açıklanmıştır https://code.google.com/p/phyml/downloads/list . MrBayes 5 filogenetik ilişkiler kurmada evrimsel modeller bir dizi karşısında Bayes MCMC çıkarsama kullanan bir programdır. Program tüm platformlarda aynı şekilde davranır ve bir kez yükleyici yürütülebilir kuracaktır indirildi. Programını başlatmak için, sadece yürütülebilir tıklayın. - Ayarlanabilir ve her model ve komutların detayları burada bulabilirsiniz sayıda model vardır http://mrbayes.sourceforge.net/wiki/index.php/Tutorial . Başka yardım seçeneği "yardım LSet" yazın - bu Model ayarda ayrıntıları sağlayacaktır. Örneğin "pRSET aamodelpr = karışık" wa amino asit örnek olacak "pRSET aamodelpr = sabit (wag)" karışık modelleme veya izin verecektir G modeli. Bir dışgrup kolayca Taxon numarası "dışgrup 30" belirterek ayarlanabilir, program otomatik sayısına göre diziler / takson listeler. Bir dışgrup belirtilmemişse ağaç köksüz olacaktır. Program (Şekil 11) çalışmaya başladıktan sonra ilerleme "printfreq = X" komutunu kullanarak ayarlanabilir belirli aralıklarla görülebilir. Kullanım kılavuzunda bulunabilir analizi (kaç çalıştırmak için nesiller yani.) Durdurmak için zaman hakkında daha fazla ayrıntı. Bir cladogram üzerinde clade değerleri kolaylıkla bir ağaç görüntüleyici (protokolü 6) kullanılarak görülebilir da Newick biçiminde sağlanan bir phylogram yanında sonuçlar verilmektedir.

Filogenetik ağaç oluşturulur sonra, topoloji görüntülenmiştir edilmesi gerekmektedir. Birçok çevrimiçi araçlar ve ağaç topolojileri görselleştirmek için kullanılan indirilebilir uygulamalar vardır. Popüler programlar kısmi listesi burada izlenebilir -ylogenetic_tree_visualization_software">http://en.wikipedia.org/wiki/List_of_phylogenetic_tree_visualization_software , ve daha kapsamlı bir listesini burada bulabilirsiniz - http://www.treedyn.org/overview/editors.html . TreeView 14 ve 16 TreeDyn iki popüler seçimlerdir. Her ikisi de çeşitli seçenekleri ile aşina olmak için çok kullanıcı dostu ve kolay. TreeView hemen hemen aynı arayüzleri kullanarak, Mac ve Windows üzerinde çalışır. Giriş NEXUS, PHYLIP, Hennig86, MEGA, ve ClustalW / X dahil olmak üzere çeşitli biçimlerde biri olabilir TreeView (Şekil 12), aynı zamanda kullanıcı, dalları hareket reroot ağaçlar ve ağaç görünümünü yeniden düzenlemek için izin veren bir ağaç editörü içerir.

Şekil 1
Şekil 1. > NCBI BLAST web sayfası. BLAST web sunucusu ŞOK program paketi içerir ve Biyoteknoloji Bilgi Ulusal Merkezi (NCBI) tarafından barındırılıyor. resmi büyütmek için buraya tıklayın.

Şekil 2,
Şekil 2.. FASTA'dır biçimlendirilmiş dizisi. FAŞTA biçimi ">" ile gösterilen bir açıklama çizgi ile başlar. Description ">" işareti, dizisi (yani. Nükleotid veya amino asitler) sonraki satırda açıklamasını izledikten sonra hemen takip etmelidir. resmi büyütmek için buraya tıklayın.

nt "fo: keep-together.within-page =" always "> Şekil 3,
BLAST gelen Şekil 3.. HTML çıktı. BLAST aramasından çıktı sorgu dizisi içinde kimlik alanlarını gösterir, hem de bit-skorları sağlar, değerleri ve her bir maç ile ikili hizalamalarını bekliyoruz. resmi büyütmek için buraya tıklayın.

Şekil 4,
Şekil 4. Yerel BLAST yürütülebilir aramasından bir örnek çıktı. Bu arama çıkışı, sadece çevrimiçi ŞOK arayüzünden çıkışı gibi bir metin dosyası olduğunu bekliyoruz değerini ve bit puanı yanı sıra, maç açıklamasını içermelidir. resmi büyütmek için buraya tıklayın.

Şekil 5,
T-Kahve kullanarak bir MSA Şekil 5. Çıktı. Çıktı benzer siteleri ve ağırlıkları rengine göre maç vurgulamaktadır. Boşluklar olarak eklenen "-" işaretleri ve kalıntı veya nükleotid konumu her takson için korunur. resmi büyütmek için buraya tıklayın.

ig6.jpg "/>
Şekil 6.. ClustalX kullanan bir örnek hizalama. Benzer karşılaşmalar renk kodlu ve boşluklar olarak eklenen "-" işareti. Menü çubuğu üst-sol görülür. resmi büyütmek için buraya tıklayın.

Şekil 7
Şekil 7. Prottest program arayüzü. resmi büyütmek için buraya tıklayın.

Şekil 8,
FiGüre 8. Prottest konsolu. Prottest konsol bir analizini çalışırken. Ilerleme çubuğu tamamlanmış kaç model gösterir ve ana pencere her model için log olabilirlik skorunu görüntüler. resmi büyütmek için buraya tıklayın.

Şekil 9,
Şekil 9. PhyML arayüz. resmi büyütmek için buraya tıklayın.

Şekil 10,
Şekil 10. PhyML arayüzü menüsü. Dizileri PhyML içine yüklendikten sonra ilk menü görünür, köşeli ayraç içinde harfi veya sembolü yazarak navigasyon olabilir. Alt menüler "+" işareti yazarak ulaşılabilir. resmi büyütmek için buraya tıklayın.

Şekil 11
Şekil 11. MrBayes Arabirimi. MrBayes ilerleme başlatıldığında belirli aralıklarla görülebilir "printfreq = X" komutunu kullanarak ayarlayın. Program çalışması sırasında durdu olamaz rağmen nesillerin belirtilen sayıda hesaplanır sonra daha nesillere çalıştırmak istiyorsanız, kullanıcı istenecektir.www.jove.com/files/ftp_upload/50975/50975fig11highres.jpg "target =" _blank "> büyük resmi görebilmek için buraya tıklayın.

Şekil 12
Şekil 12.. TreeView arayüz. Bu Şekilde TreeView pencere Flybase dan (http://flybase.org/) proteinlerin bir örnek ağaç görüntüler. Dosyaları "açık" seçeneğini tıklayarak, ve uygun bir dosya türünü (örneğin. Newick biçimi) seçerek ithal edilmektedir. resmi büyütmek için buraya tıklayın.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Bu yazı için bizim umudumuz o Filogenetikte için yeni araştırmacıları veya öğrencilere rehberlik etmek için bir başlangıç ​​noktası olarak hizmet verecek olmasıdır. Genom dizileme projeleri son birkaç yıldır daha pahalı hale gelmiştir ve bunun sonucu olarak bu teknoloji için kullanıcı talebi artıyor ve şimdi büyük dizi veri setlerinin üretimi küçük laboratuarlara olağandır. Bu veri kümeleri genellikle işlevini anlamaya başlamak için bir filogenetik çerçeve gerektirir genlerin setleri ile araştırmacılara sunmak. Filogenetik araştırma laboratuarları giderek artan sayıda bir ev bulmak çünkü Dahası, biz de biyolojik araştırma geniş ilgilenen öğrenciler için eğitsel bir araç olarak hizmet etmek, bu yazı için niyetinde. "Neden", "nasıl" ve yaygın olarak kullanılan ağaç oluşturma araçları için, bu uygulamalar ile kendilerini tanıtmak başlamak için okuyucu için bir çerçeve sağlamak "nerede" ve nasıl çalıştıkları hakkında kullanıcı bilgilerini sağlayarak. However, biz çeşitli parametreler dizisi verileri etkileyebilir anlamak amacıyla her bir aracın içindeki tüm ayarları ile oynamak için, ve her durumda platformu ve yazılım arasındaki uyumluluğu sağlamak için okuyucu tavsiye. Yukarıda özetlenen analiz Intel core i7 işlemciye sahip bir Dell OptiPlex 990 ve Intel Core 2 Duo işlemciye sahip bir MacBook dizüstü bilgisayar kullanılarak hesaplanan, ancak, analiz hızı ve ayrıca özel ikili (örn.. 32 bit veya 64 bit) bağlıdır kullanıcının platformunda.

Filogenetikte için bu gibi bir kullanım kılavuzu derleme bir meydan okuma, filogeninin alan ve bir bütün olarak biyoinformatik, daha iyi hizalamalarını, benzerlik tahminler veya filogenetik ağaçlar sağlamayı amaçlayan sürekli yeni yazılım sürümleri araştırma hızla genişleyen alanı olduğunu . Bu sorunu azaltmak için, birkaç yıl için yaklaşık edilmiş ve o hesabın hala popüler programların odaklanmak çalıştıf ne kadar iyi çalışır. İşte biz bu makalede özetlenen ve böylece bu istismar ve bunların analizleri içine birden fazla uygulama dahil okuyucu teşvik gelmiş sorunları çözmek için pek çok diğer araçlar olduğunu işaret etmek istiyorum, dedi.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Biz ifşa hiçbir şey yok.

Acknowledgments

Biz yazının yorumları için O'Halloran laboratuar üyelerine teşekkür. Biz D. O'Halloran fonlanmas için Biyolojik Bilimler George Washington Üniversitesi Bölümü ve Fen Kolomb Koleji teşekkür ederim.

Materials

Name Company Catalog Number Comments
BLAST webpage  http://blast.ncbi.nlm.nih.gov/Blast.cgi
BLAST executables  ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
Preformatted BLAST databases ftp://ftp.ncbi.nlm.nih.gov/blast/db/
Clustal http://www.clustal.org/
Kalign http://msa.sbc.su.se/cgi-bin/msa.cgi
MAFFT http://mafft.cbrc.jp/alignment/software/
MUSCLE http://www.drive5.com/muscle/
T-Coffee http://www.tcoffee.org/Projects/tcoffee/
PROBCONS http://toolkit.tuebingen.mpg.de/probcons 
Se-Al  http://tree.bio.ed.ac.uk/software/seal/
BSEdit  http://www.bsedit.org/
JalView http://www.jalview.org/
SeaView http://pbil.univ-lyon1.fr/software/seaview.html
ProtTest  https://code.google.com/p/prottest3/
Java Runtime  http://www.java.com/en/download/chrome.jsp
Readseq http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi
jModelTest https://code.google.com/p/jmodeltest2/
PhyML https://code.google.com/p/phyml/
MrBayes http://mrbayes.sourceforge.net/download.php
TreeView http://taxonomy.zoology.gla.ac.uk/rod/treeview.html
TreeDyn http://www.treedyn.org/

DOWNLOAD MATERIALS LIST

References

  1. Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207, (4), 647-653 (1989).
  2. Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19, (6), 706-723 (1974).
  3. Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6, (2), 461-464 (1978).
  4. Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52, (5), 696-704 (2003).
  5. Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17, (8), 754-755 (2001).
  6. Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22, (22), 4673-4680 (1994).
  7. Lassmann, T., Sonnhammer, E. L. Kalign--an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
  8. Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33, (2), 511-518 (2005).
  9. Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30, (14), 3059-3066 (2002).
  10. Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32, (5), 1792-1797 (2004).
  11. Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302, (1), 205-217 (2000).
  12. Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15, (2), 330-340 (2005).
  13. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27, (8), 1164-1165 (2011).
  14. Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12, (4), 357-358 (1996).
  15. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9, (8), 772 (2012).
  16. Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).

Comments

0 Comments


    Post a Question / Comment / Request

    You must be signed in to post a comment. Please or create an account.

    Usage Statistics