Biology

En praktisk vejledning til fylogeni for Nonexperts

Published: February 5, 2014 doi: 10.3791/50975

¹Department of Biological Sciences and Institute for Neuroscience, The George Washington University

Summary

Her beskriver vi en trin-for-trin pipeline for at generere pålidelige fylogenier fra nukleotid-eller aminosyresekvens datasæt. Denne vejledning har til formål at tjene forskere eller studerende nye til fylogenetisk analyse.

Abstract

Mange forskere, på tværs utrolig varieret foci, anvender fylogeni til deres forskning (e) spørgsmål. Men mange forskere er ny på dette emne, og så det præsenterer iboende problemer. Her kompilere vi en praktisk introduktion til fylogeni for nonexperts. Vi skitsere i en trin-for-trin måde, en rørledning til at generere pålidelige fylogenier fra gensekvens datasæt. Vi begynder med en brugervenlig vejledning for lighed søgeværktøjer via online grænseflader samt lokale eksekverbare. Dernæst undersøger vi programmer til at generere flere sekvensalignments efterfulgt af protokoller til at bruge software til at bestemme bedst-fit modeller for evolution. Vi derefter skitsere protokoller for at rekonstruere fylogenetiske relationer via maksimal sandsynlighed og Bayesianske kriterier og endelig beskrive værktøjer til at visualisere fylogenetiske træer. Mens dette er ikke på nogen måde en udtømmende beskrivelse af fylogenetiske metoder, den giver læseren med praktiske starter information på centrale software-applikationer ofte anvendes af phylogeneticists. Visionen for denne artikel ville være, at det kan tjene som en praktisk uddannelse for forskere i gang med fylogenetiske studier, og også tjene som en pædagogisk ressource, der kunne indarbejdes i et klasseværelse eller undervisning-lab.

Introduction

For at forstå, hvordan to (eller flere) arter udviklet sig, er det nødvendigt først at indhente sekvens eller morfologiske data fra hver prøve, og disse data repræsenterer mængder, som vi kan bruge til at måle deres forhold gennem evolutionær rum. Ligesom når man måler lineære afstand, at have flere data tilgængelige (f.eks miles, tommer, mikron), vil svare til en mere nøjagtig måling. Ergo, er den nøjagtighed, hvormed en forsker kan udlede evolutionær afstand stærkt påvirket af mængden af informative data til rådighed til at måle relationer. Hertil kommer, fordi forskellige prøver udvikle sig på forskellige satser og ved forskellige mekanismer, den metode, som vi bruger til at måle forholdet mellem to taxa også direkte indflydelse på nøjagtigheden af evolutionære målinger. Derfor, og fordi evolutionære relationer ikke observeres direkte, men i stedet ekstrapoleres fra sekvens eller morfologiske data, problemet med at udlede evolutionærerelationer bliver en af statistik. Fylogeni er den gren af beskæftiger sig med at anvende statistiske modeller til mønstre af evolution for at optimalt rekonstruere den evolutionære historie mellem taxa biologi. Denne rekonstruktion mellem taxa er benævnt taxa s fylogeni.

For at hjælpe bygge bro i ekspertise mellem molekylærbiologer og evolutionære biologer, vi beskriver her en trinvis pipeline for at udlede fylogenier fra et sæt af sekvenser. For det første, vi detalje involveret i databasen forhør ved hjælp af Basic Local Alignment Search Tool (BLAST ¹⁾ algoritme via web-baseret interface og også ved hjælp af lokale eksekverbare skridt, og dette er ofte det første skridt i at opnå en liste over lignende sekvenser til en uidentificeret forespørgsel, selvom nogle forskere også kan være interesseret i at indsamle data for en enkelt gruppe via web grænseflader såsom Phylota (http://www.phylota.net/). BLAST er en algoritme for Comparing primære aminosyre eller nukleotidsekvensdata mod en database af sekvenser for at søge efter "hits", der ligner forespørgslen sekvens. BLAST-program er designet af Stephen Altschul et al. på National Institutes of Health (NIH) ^1.. BLAST-serveren består af en række forskellige programmer, og her er en liste over nogle af de mest almindelige BLAST-programmer:

i) Nukleotid-nukleotid BLAST (BLASTN): Dette program kræver en DNA-sekvens input og returnerer de mest lignende DNA-sekvenser fra DNA-database, som brugeren angiver (f.eks for en specifik organisme).

ii) protein-protein BLAST (BLASTP): Her indlæser brugeren en proteinsekvens og programmet returnerer de tilsvarende proteinsekvenser fra proteinet database, specificerer brugeren.

iii) Position-Specific Iterativ BLAST (PSI-BLAST) (blastpgp): Brugeren indgang er en protei sekvens, som returnerer et sæt nært beslægtede proteiner, og fra dette datasæt en bevaret profil er genereret. Næste en ny forespørgsel er genereret ved hjælp af kun disse konserverede "motiver", som bruges til at afhøre et protein-database, og det returnerer en større gruppe af proteiner, hvorfra et nyt sæt af konserverede "motiver" er udtrukket og derefter brugt til at afhøre et protein-database, indtil en endnu større sæt af proteiner retuned og en anden profil er genereret, og processen gentages. Ved at inkludere beslægtede proteiner i forespørgslen i hvert trin dette program giver brugeren mulighed for at identificere sekvenser, der er mere forskellige.

iv) Nucleotide 6-frame translation-protein (BLASTX): Her bruger tilvejebringer en nukleotidsekvens input, der omdannes til de seks-ramme konceptuelle translationsprodukter (dvs. begge strenge) mod en proteinsekvens-database..

v) nukleotid 6-frame translation-nukleotid6-frame oversættelse (TBLASTX): Dette program tager en DNA-nukleotidsekvens input og oversætter input til alle seks-frame konceptuelle oversættelse produkter, som den sammenligner mod de seks-frame oversættelser af en nukleotidsekvens database.

vi) Protein-nukleotid 6-frame translation (tblastn): Dette program anvender en proteinsekvens input for at sammenligne mod alle seks læserammer en nukleotidsekvens-database.

Dernæst beskriver vi almindeligt anvendte programmer til at generere en Multiple alignment (MSA) fra en sekvens datasæt, og dette efterfølges af en brugervejledning til programmer, der bestemmer bedst-fit modeller af evolution for en sekvens datasæt. Phylogenetisk rekonstruktion er et statistisk problem, og på grund af dette, fylogenetiske metoder nødt til at indarbejde en statistisk ramme. Denne statistiske ramme bliver en evolutionær model, der samler sekvens ændringer inden for datasættet. Denne evolutionære model består af et sæt af forudsætninger om den proces, nukleotid eller aminosyrefenoler udskiftninger, og den bedste-fit model til et bestemt datasæt kan vælges gennem statistisk test. Pasformen til data af forskellige modeller kan sammenlignes via likelihood ratio tests (LRTs) eller kriterier for at vælge den bedst egnede model inden for et sæt af mulige virksomheder. To ensartede kriterier er Akaike information kriterium (AIC) ² og Bayesian information kriterium (BIC) ^3. Når en optimal tilpasning er genereret, er der mange forskellige metoder til at skabe en phylogeny fra de opstillede data. Der er mange metoder til at udlede evolutionære relationer, bredt, kan de opdeles i to kategorier: distance-baserede metoder og sekvens-baserede metoder. Distance-baserede metoder beregne parvise afstande fra sekvenser, og derefter bruge disse afstande for at få træet. Sekvens-baserede metoder bruger sekvensopstillingen direkte, og som regel søge tree plads ved hjælp af en optimalitet kriterium. Vi skitsere to sekvens-baserede metoder til at rekonstruere fylogenetiske relationer: disse er PhyML ^4, som implementerer den maksimale sandsynlighed rammer og MrBayes ⁵ som bruger Bayesian Markov Chain Monte Carlo inferens. Likelihood og Bayesianske metoder giver en statistisk ramme for fylogenetisk rekonstruktion. Ved at give brugeren information om almindeligt anvendte træ-bygning værktøjer, vi introducere læseren til de nødvendige data, der kræves til at udlede fylogenetiske relationer.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1.. Basic Local Alignment Search Tool (BLAST): Online-grænseflade

Klik på dette link for at besøge BLAST ¹ webserver på National Center for Biotechnology Information (NCBI). - http://blast.ncbi.nlm.nih.gov/Blast.cgi (figur 1).
Input et FASTA formateret tekst sekvens (se figur 2 for eksempel) i søgefelt.
Klik på den relevante BLAST programmet og relevante database eller enkelte arter af interesse for at bruge i søgningen og derefter klikke på "BLAST".
Bemærk: FASTA formateret sekvens begynder med en beskrivelse linje angives med et ">" tegn. Beskrivelsen skal følge umiddelbart efter ">" tegn, sekvensen (dvs. nukleotider. Eller aminosyrer) følge beskrivelsen på den næste linje. Outputtet fra BLAST søgningen ses som HTML, almindelig tekst, XML, eller ramt tahavender (Tekst eller csv) med standard indstillet til HTML (Figur 3).

2. Basic Local Alignment Search Tool (BLAST): Lokale Eksekverbare

Download de nyeste BLAST kommandolinjen BLAST eksekverbare fra dette link:
ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ -
em> Til pc-brugere: Dobbeltklik på den seneste blast win32.exe fil og acceptere licensaftalen og klik på Installer.
Bemærk: Den standard installation bibliotek er C: NCBI-blast-2.2.27 +.
Konfigurer variable PC miljø som følger:
1. Klik på PC "Start" knappen, og derefter højreklikke "computer",
2. Klik på "Egenskaber" og i pop-up skal du klikke på fanen "Avanceret"
3. Klik på "Miljøvariabler knappen" og i den nye pop-up på "nye" knappen under the "User variabler for brugeren" sektionen
4. I pop-up tilføjer variabelnavnet "Sti" og variabel værdi "C: NCBI-blast-2.2.27 + bin.
  Bemærk: bin mappe indeholder den eksekverbare (dvs. BLASTP osv.)..
em> Mac-brugere: Åbn Terminal (at gøre dette bare åbne "Finder" og søg "Terminal", og det vil vise "terminal"-ikonet). Ind i terminalen vinduestype:
> Ftp ftp.ncbi.nih.gov
Bemærk: Der kan også skrive URL-adressen bruges ovenfor i eksemplet til PC
For at få adgang NCBI ftp webstedet type "anonym" for Name og Password, og skriv derefter:
> Cd blast / eksekverbare / SENESTE
Liste over de eksekverbare ved at taste:
> ls
Få den nyeste version ved at skrive følgende (eller hvad den nyeste version, der aktuelt er):
2, få NCBI-blast-2.2.7-macosx.tar.gz
Afslut NCBI ftp server hjemmeside ved at skrive "exit".
Dekomprimere de downloadede filer ved at skrive:
> Tar-xzf NCBI-blast-2.2.7-macosx.tar.gz
Føj placeringen af binære filer til eksplosionen eksekverbare til din vej, så skal kan søge gennem denne mappe, når de søger kommandoer ved at skrive:
> PATH = $ PATH: new_folder_location
Tjek om dette tilføjede placering til din vej ved at skrive:
> Echo $ PATH
Download en forudformaterede BLAST databaser (som dagligt aktualiseres) ved at klikke her:
ftp://ftp.ncbi.nlm.nih.gov/blast/db/
Placer databasen i mappen "db".
em> På en pc: Åbn en MS-DOS-prompt (at gøre dette klik på "start" og skrive "cmd" i søgefeltet), og skift til biblioteket NCBI-blast mappe ved at skrive:
C: Brugere> CD .. [flytterop en folder]
C: > cd NCBI-blast-2.2.27 +
Dette vil ændre mappe til:
C: NCBI-blast-2.2.27 +>
Oprette databasen ved hjælp af følgende kommando "makedb":
> Makedb-in db / briggsae.fasta-DBTYPE prot ud db / briggsae
Bemærk: I eksemplet nedenfor (figur 4) hedder databasen "briggsae" og består af en sammenkædning gruppe fra organismen Caenorhabditis briggsae.
Opret en forespørgsel protein sekvens kaldet "test" ved at indsætte en FASTA formateret protein tekst sekvens i mappen "db".
Afhøre databasen via en BLASTP søgning ved at skrive følgende kommando:
> BLASTP-query db / test.txt-db db / briggsae ud text.txt
em> På en Mac: downloade en database for lokale søgninger Blast ved at få adgang NCBI ftp hjemmesiden pr instruktionerne ovenfor (trin 2.4) ogn typen:
> Lcd .. / databaser /
Hent genomet eller sekvens af interesse ved at skrive:
> Få NC_ [tiltrædelse #]. Fna
Note: ". Fna" refererer til FASTA formateret nucleotidsekvensen og "FAA." Henviser til FASTA formateret aminosyresekvenser.
Type "quit" for at afslutte ftp site.
Gøre databasen ved at skrive:
> Makeblastdb-in db / mouse.faa-out muse-DBTYPE prot
Indsæt en FAST formateret query sekvens i mappen "bin" og afhøre databasen med følgende kommando:
> BLASTP-query "din query.fasta"-db "din database" ud results.txt

3. Generering Multiple alignments

Klik på disse links for at få adgang almindeligt anvendte Flere sekvensalignment (MSA) programmer:
ClustalW ⁶ http://www.clustal.org/
Kalign ⁷ http://msa.sbc.su.se/cgi-bin/msa.cgi
MAFFT ^8,9 http://mafft.cbrc.jp/alignment/software/
Muskel ¹⁰ http://www.drive5.com/muscle/
T-Kaffe ¹¹ http://www.tcoffee.org/Projects/tcoffee/
PROBCONS ¹² http://toolkit.tuebingen.mpg.de/probcons
Klik på dette link - http://tcoffee.crg.cat/apps/tcoffee/do:regular - og input FASTA formaterede sekvensdata i søgefelt
Bemærk: En prøve udgang fra T-Coffee kan ses i figur 5, tilsvarende rester er farvekodet.
Download Clustal MSA som en kommandolinje-versionen (ClustalW) eller en grafisk vertering (ClustalX) ved at klikke på dette link: http://www.clustal.org/clustal2/ - klik derefter på den relevante eksekverbare (dvs. sejr, Linux, Mac OS X).
Upload data FASTA formateret sekvens tekst og tilpasse (figur 6).

4.. Bestemmelse af best-fit modeller af Evolution

Klik her for at downloade ProtTest ^13-program:
http://darwin.uvigo.es/our-software/
Når ProtTest er hentet, skal du dobbeltklikke på den ProtTest.jar fil
Når ProtTest er lanceret, skal du klikke på "vælg fil" og indlæse sekvensdata (figur 7).
Klik derefter på "start" og programmet vil begynde (Figur 8).
Bemærk: Efter afslutning af kørslen (figur 8), vil programmet angive den bedste model baseret på kriterier, fx "Bedste model i henhold til AIC: WAG + I + G"

5.. Formode Sequence Baseret fylogenier ved Maximum Likelihood eller Bayesiansk inferens

Downloadede PhyML ⁴ her:
https://code.google.com/p/phyml/
Start eksekverbare ved at dobbeltklikke på det relevante program (dvs. phyml Windows phyml Linux, osv.) Og grænsefladen vindue vil poppe op (Figur 9).
Load input sekvens som en PHYLIP formateret sekvens ved at skrive:
> "Filnavn". Grafi
Bemærk: For at konvertere mellem sequencer-formater, bruge "Readseq" web program til rådighed på - http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi .
Start programmet ved at skrive "Y".
Hent MrBayes ⁵ her:
rceforge.net / download.php "> http://mrbayes.sourceforge.net/download.php
For at starte programmet klik på den eksekverbare fil og læse NEXUS formateret sekvens data i et program ved at skrive:
> Execute "filnavn". Nex
Indstil den evolutionære model.
Vælg antallet af generationer til at køre ved at taste:
> Mcmcp NGEN = 1000000 [dette indstiller det antal generationer 1000000]
> Sump Burnin = 10000 [dette sætter Burnin 10000]
Gem branche længder i resultaterne ved at taste:
> Mcmcp savebrlens = yes
Kør analyse ved at taste:
> Mcmc
Sammenfatte træerne ved hjælp af kommandoen "SUMT".

6.. Visualisering fylogenier

Se en liste over træviseren programmer her:
http://www.treedyn.org/overview/editors.html
Download TreeView ¹⁴ progrer her:
http://taxonomy.zoology.gla.ac.uk/rod/treeview.html

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Finde ligheder til en forespørgsel giver forskerne at tilskrive en potentiel identitet til nye sekvenser og også udlede relationer mellem sekvenser. Filen input type til BLAST ¹ er FASTA formateret tekst sekvens eller GenBank accession nummer. FASTA formateret sekvens begynder med en beskrivelse linje angives med et ">" tegn (Figur 2). Beskrivelsen skal følge umiddelbart efter ">" tegn, sekvensen (dvs. nukleotider. Eller aminosyrer) følge beskrivelsen på den næste linje. Når du gemmer og redigering sekvens-filer, er det bedst at bruge en tekst editor såsom "Notesblok" på pc eller TextWrangler ( http://www.barebones.com/products/textwrangler/ ) til Mac. BLAST algoritmen udfører "lokale" linjeføringer, der søger for korte strækninger af sekvens lighed. Når algoritmen har set op alle mulige "stretches "fra forespørgslen sekvens og maksimalt udvidet disse sekvenser, er det derefter samler alignments for hver forespørgsel sekvens par. Det er da vigtigt at forstå, hvor godt disse kampe er, og så BLAST anvender statistikker for hvert hit som omfatter en forvente værdi (E) og lidt score. E værdi giver en indikation af den statistiske signifikans for en kamp. Jo lavere E-værdi, desto større hit, for eksempel en sekvens-opstilling med en E-værdi på 0,05 betyder, at sandsynligheden for denne match opstår tilfældigt alene 5 i 100. Den bit score bruger en bestemt scoring matrix for at give en indikation af, hvor god tilpasningen er. Jo højere bit score, jo bedre tilpasning. Svarende til den online version af BLAST, der er en række parametre, der kan indstilles via kommandoer ved hjælp af den lokale BLAST eksekverbare En omfattende ressource, der beskriver disse kommandoer kan findes her -. http://www.ncbi.nlm.nih.gov/books/ NBK1762 /. Udgangssignalet fra lokal søgning er en tekstfil, ligesom outputtet fra online BLAST interface (figur 4).

En Multiple Sequence Alignment (MSA) er en sekvens-opstilling af tre eller flere primære sekvenser bestående af aminosyrer, DNA eller RNA. ClustalW ⁶ udgivet i 1994, er en af de mest populære MSA værktøjer til biologer. En brugervenlig online interface, der giver one-stop adgang til flere populære MSA værktøjer kan findes på EMBL-EBI server her - http://www.ebi.ac.uk/Tools/msa . Indgangen til hvert program kan FASTA formateret sekvens data (se figur 2), selv om mange forskellige formater, også godkendes, og talrige spejl-steder for hver kan findes online. Talrige parametre som gap sanktioner og output formater kan let vælges. En prøve output fra MSA T-Coffee kan ses i figur 5, hvor tilsvarende rester er color kodet. I nogle tilfælde kan MSA værktøjet også downloades og udføres lokalt. Clustal kan downloades som en kommandolinje-versionen (ClustalW) eller en grafisk udgave (ClustalX) fra denne hjemmeside - http://www.clustal.org/clustal2/ . For at downloade, skal du blot klikke på det relevante eksekverbare (dvs.. Sejr, Linux, Mac OS X). For Windows eksekverbare program vil hente og en pop-up menu vil kræve, at brugeren til at klikke på "Kør" og derefter installationen vil begynde. Programmet er meget intuitiv, kan sekvenser indlæses fra en tekstfil, der indeholder sekvenser, der er formateret som NBRF / PIR, FASTA, EMBL / Swiss-Prot, Clustal, GCC / MSF, GCG9 RSF, og GDE. Sekvenser er afstemt ved at klikke på "do fuldstændig tilpasning" fra "justering" menuen. En prøve tilpasning af seks proteinsekvenser aligned hjælp ClustalX kan ses i figur 6. Forskellige parametre såsom font størrelse og farve kan let ændres, og editng af sekvenser gøres ved at klikke på "Rediger"-menuen. Manuelt raffinerede justeringer er ofte overlegne fuldautomatiske metoder og på grund af dette, MSA værktøj udvikling er et meget aktivt forskningsområde. Nogle almindelige justering redaktører kan findes på følgende links: Se-Al - http://tree.bio.ed.ac.uk/software/seal/ ; BSEdit - http://www.bsedit.org/ ; jalview - http://www.jalview.org/ ; SeaView - http://pbil.univ-lyon1.fr/software/seaview.html .

For aminosyre-opstillinger programmet ProtTest ¹³ anvendes til at bestemme valget af bedste tilpasning modeller af aminosyreudskiftninger i dataene. ProtTest gør dette valg ved at finde den model fra listen over kandidatlande modeller med de mindste Akaike Information Criterion (AIC), Bayesian Information Kriterium (BIC) score, eller afgørelse Theory Kriterium (DT). Den seneste version af ProtTest (version 3.2) indeholder 15 forskellige kurser matricer, der resulterer i 120 forskellige modeller. Brugeren skal have Java Runtime på deres system til at køre ProtTest. Java Runtime er frit tilgængelig her - http://www.java.com/en/download/chrome.jsp . Sekvenser er indtastet som PHYLIP eller NEXUS format. At konvertere mellem sequencer-formater, bruge "Readseq" web program til rådighed på - http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi . Klik på "vælg fil" og indlæse sequencer-data. Klik derefter på "start", og programmet vil begynde. Hvis du vil ændre antallet af modeller valgt, kan du klikke på knappen "modeller". Når programmet starter, vil vise en statuslinje i bunden og en liste over de modeller, som de er ved at blive analyseret (figur 8 https://code.google.com/p/prottest3/wiki/Background . Der er også en online web interface til ProtTest der fungerer ligesom den overførte version, bortset fra at den kun kan håndtere et begrænset antal sekvenser. Denne web-interface kan tilgås ved at klikke her - http://darwin.uvigo.es/software/prottest2_server.html . For nukleotid datasæt programmet jModelTest ¹⁵ anvendes til at undersøge den statistiske udvælgelse af bedst-fit modeller af nukleotidsubstitutioner ved at gennemføre AIC, BIC og DT ovennævnte kriterier og også hierarkisk og dynamisk sandsynlighed ration tests (hLRT og dLRT). jModelTest er optimeret til Mac OS X. For input, er flere formater tilladt. En klar trin-for-trin vejledning findes af udviklerne her - http://computing.bio.cam.ac.uk/local/doc/jmodeltest.pdf

PhyML er et program, der estimerer maximum likelihood fylogenier fra opstillinger af nukleotid-eller aminosyresekvenser. PhyML vil indarbejde et stort antal substitutions modeller koblet til forskellige muligheder for at søge træ topologi plads (Figur 10). Programmet vil spare resultater i to tekstfiler. Den første fil vil indeholde ML træet i Newick format, som let kan ses ved hjælp af et træ viewer (se protokol 6), og den anden fil vil indeholde statistik (filnavn, model, log-likelihood scoringer osv.) Af analysen . Alle parametre er meget nemt indstille ved at følge menupunkterne. Mere detaljerede beskrivelser af hver menu option er forklaret i PhyML manual findes på PhyML download-side - https://code.google.com/p/phyml/downloads/list . MrBayes ⁵ er et program, der udnytter Bayesian MCMC inferens tværs af en række evolutionære modeller til at rekonstruere fylogenetiske relationer. Programmet fungerer på samme måde på alle platforme, og når downloadet installationsprogrammet vil installere den eksekverbare. For at starte programmet, skal du blot klikke på den eksekverbare. Der er mange modeller, der kan indstilles og detaljer af hver model, og deres kommandoer kan findes her - http://mrbayes.sourceforge.net/wiki/index.php/Tutorial . En anden hjælp mulighed er at skrive "help lset" - dette vil give oplysninger om Model indstilling. For eksempel "pRSET aamodelpr = blandet" vil tillade blandet modellering eller "pRSET aamodelpr = fast (WAG)" vil sætte aminosyren model til WA G-model. En udgruppe kan let indstilles ved at angive Taxon nummer "udgruppe 30", programmet viser automatisk sekvenser / Taxa efter nummer. Hvis en udgruppe ikke angives træet vil være urodede. Når programmet kører (Figur 11) fremskridtene kan ses i bestemte intervaller, der kan indstilles ved hjælp af kommandoen "printfreq = X". Flere detaljer om, hvornår de skal stoppe analysen (dvs.. Hvor mange generationer til at køre efter) kan findes i manualen. Clade værdier på en cladogram leveres i resultaterne sammen med en Fylogram der er også i Newick format, der nemt kan ses ved hjælp af et træ viewer (se protokol 6).

Når et fylogenetisk træ er genereret, skal visualiseres topologi. Der er mange online værktøjer og downloades programmer, der anvendes til at visualisere træ topologier. En delvis liste over populære programmer kan ses her -ylogenetic_tree_visualization_software">http://en.wikipedia.org/wiki/List_of_phylogenetic_tree_visualization_software , og en mere omfattende liste kan findes her - http://www.treedyn.org/overview/editors.html . TreeView ¹⁴ og TreeDyn ¹⁶ er to populære valg. Begge er meget brugervenlig og nem at blive fortrolig med de forskellige muligheder. TreeView kører på Mac og Windows, ved hjælp af næsten identiske grænseflader. Indgangen kan være et af flere formater, herunder NEXUS, Phylip, Hennig86, MEGA, og ClustalW / X. TreeView (fig. 12) indeholder også et træ editor, der tillader brugeren at bevæge grene, reroot træer og omarrangere udseendet af træet.

Figur 1
Figur 1. > NCBI BLAST webside. BLAST webserver indeholder en suite af BLAST-programmer og er hostet af National Center for Biotechnology Information (NCBI). Klik her for at se større billede.

Figur 2
Figur 2. FASTA formateret sekvens. FASTA format begynder med en beskrivelse linje angives med et ">". Beskrivelsen skal følge umiddelbart efter ">" tegn, sekvensen (dvs. nukleotider. Eller aminosyrer) følge beskrivelsen på den næste linje. Klik her for at se større billede.

nt "fo: keep-together.within-side =" altid "> Figur 3

Figur 3.. HTML-output fra en BLAST søgning. Outputtet fra BLAST søgningen illustrerer områderne identitet inden forespørgslen sekvens, og giver også bit-scores, forventer værdier og parvise alignments med hver kamp. Klik her for at se større billede.

Figur 4
Fig. 4. En prøve output fra en lokal BLAST eksekverbar søgning. Resultatet af denne søgning er en tekstfil ligesom outputtet fra online BLAST interface, der omfatte forventer værdi og bit score, samt match beskrivelse. Klik her for at se større billede.

Figur 5
Figur 5.. Udgang fra en MSA bruger T-kaffe. Udgangen fremhæver lignende sites og vægte kampen efter farve. Gaps indsat som "-" tegn og den rest eller nucleotidposition bevares for hver taxon. Klik her for at se større billede.

ig6.jpg "/>
Figur 6.. En prøve justering hjælp ClustalX. Lignende kampe er farvekodede og huller indsættes som et "-" tegn. Menulinjen ses i øverste venstre. Klik her for at se større billede.

Figur 7
Figur 7. Den ProtTest program interface. Klik her for at se større billede.

Figur 8
Figur 8.. Den ProtTest konsol. ProtTest konsol, mens du kører en analyse. Statuslinjen viser, hvor mange modeller er blevet afsluttet, og hovedvinduet viser log sandsynlighed score for hver enkelt model. Klik her for at se større billede.

Figur 9
Figur 9. Den PhyML interface. Klik her for at se større billede.

Figur 10.. Menuen PhyML interface. Når sekvenser indlæses i PhyML den første menu vises, der kan navigeres ved at skrive det bogstav eller symbol på pladsen beslag. Undermenuer kan nås ved at skrive "+" tegnet. Klik her for at se større billede.

Figur 11. MrBayes Interface. Når MrBayes er lanceret fremskridt kan ses i bestemte intervaller indstilles ved hjælp af "printfreq = X" kommando. Selv om programmet ikke kan stoppes under en løbetur, efter det angivne antal generationer er beregnet brugeren vil blive spurgt, om de ønsker at køre flere generationer.www.jove.com/files/ftp_upload/50975/50975fig11highres.jpg "target =" _blank "> Klik her for at se større billede.

Figur 12.. Trævisning interface. I denne figur viser Træstrukturvindue en stikprøve træ af proteiner fra Flybase (http://flybase.org/). Filer importeres ved at klikke på "åben", og vælge en passende filtype (f.eks. Newick format). Klik her for at se større billede.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Vores håb for denne artikel er, at det vil tjene som et udgangspunkt for at vejlede forskere eller studerende, som er nye for fylogeni. Genomsekventering projekter er blevet billigere i løbet af de sidste par år og som en konsekvens af brugernes efterspørgsel efter denne teknologi er stigende, og nu produktion af store sekvens datasæt er hverdagskost i små laboratorier. Disse datasæt ofte give forskerne med sæt af gener, der kræver en fylogenetisk ramme til at begynde at forstå deres funktion. Hertil kommer, fordi fylogeni er at finde et hjem i et stadigt stigende antal af forskningslaboratorier, vi agter også for denne artikel til at tjene som en pædagogisk enhed til studerende interesseret bredt i biologisk forskning. Ved at give brugeren oplysninger om "hvorfor", "hvordan" og "hvor" for almindeligt anvendte træ-bygning værktøjer, vi leverer en ramme for læseren at begynde at gøre sig bekendt med disse ansøgninger, og hvordan de virker. However, anbefaler vi læseren til at lege med alle de indstillinger i hvert værktøj i et forsøg på at forstå, hvordan de forskellige parametre kan påvirke deres sekvens data, og for at sikre kompatibilitet mellem platform og software i hvert enkelt tilfælde. Analysen er skitseret ovenfor blev beregnet ved hjælp af en Dell Optiplex 990 med Intel Core i7 processor og en MacBook bærbar computer med en Intel Core 2 Duo processor, men hastigheden af analyser og også de specifikke binære filer (f.eks. 32-bit eller 64 bit), vil afhænge på brugerens platform.

En udfordring, når der udarbejdes en brugervejledning som denne for fylogeni, er, at området for fylogeni og bioinformatik som helhed, er et hastigt voksende område af forskning, der hele tiden frigiver ny software til formål at yde bedre linjeføringer, lighed forudsigelser eller fylogenetiske træer . For at mindske dette problem, forsøgte vi at fokusere på programmer, der har eksisteret i en årrække og er stadig populære på grund of, hvor godt de virker. Som sagt, vi ønsker at påpege, at der er mange andre værktøjer til rådighed til at løse de problemer, vi har skitseret i denne artikel, og så opfordre læseren til at udnytte dette og indarbejde flere applikationer i deres analyser.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Vi har intet at afsløre.

Acknowledgments

Vi takker medlemmer af O'Halloran lab for kommentarer til manuskriptet. Vi takker George Washington University Biologisk Institut og Columbian College of Arts and Sciences om støtte til D. O'Halloran.

Materials

Name	Company	Catalog Number	Comments
BLAST webpage			http://blast.ncbi.nlm.nih.gov/Blast.cgi
BLAST executables			ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
Preformatted BLAST databases			ftp://ftp.ncbi.nlm.nih.gov/blast/db/
Clustal			http://www.clustal.org/
Kalign			http://msa.sbc.su.se/cgi-bin/msa.cgi
MAFFT			http://mafft.cbrc.jp/alignment/software/
MUSCLE			http://www.drive5.com/muscle/
T-Coffee			http://www.tcoffee.org/Projects/tcoffee/
PROBCONS			http://toolkit.tuebingen.mpg.de/probcons
Se-Al			http://tree.bio.ed.ac.uk/software/seal/
BSEdit			http://www.bsedit.org/
JalView			http://www.jalview.org/
SeaView			http://pbil.univ-lyon1.fr/software/seaview.html
ProtTest			https://code.google.com/p/prottest3/
Java Runtime			http://www.java.com/en/download/chrome.jsp
Readseq			http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi
jModelTest			https://code.google.com/p/jmodeltest2/
PhyML			https://code.google.com/p/phyml/
MrBayes			http://mrbayes.sourceforge.net/download.php
TreeView			http://taxonomy.zoology.gla.ac.uk/rod/treeview.html
TreeDyn			http://www.treedyn.org/

DOWNLOAD MATERIALS LIST

References

Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207 (4), 647-653 (1989).
Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19 (6), 706-723 (1974).
Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6 (2), 461-464 (1978).
Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52 (5), 696-704 (2003).
Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17 (8), 754-755 (2001).
Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22 (22), 4673-4680 (1994).
Lassmann, T., Sonnhammer, E. L. Kalign--an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33 (2), 511-518 (2005).
Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30 (14), 3059-3066 (2002).
Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302 (1), 205-217 (2000).
Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15 (2), 330-340 (2005).
Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27 (8), 1164-1165 (2011).
Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12 (4), 357-358 (1996).
Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9 (8), 772 (2012).
Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).

Biology

En praktisk vejledning til fylogeni for Nonexperts

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.