En praktisk guide til Phylogenetics for Nonexperts

Biology

Your institution must subscribe to JoVE's Biology section to access this content.

Fill out the form below to receive a free trial or learn more about access:

 

Summary

Her beskriver vi en steg-for-steg-rørledningen for å generere pålitelige phylogenies fra nucleotide eller aminosyre sekvens datasett. Denne veiledningen tar sikte på å betjene forskere eller studenter nye til fylogenetisk analyse.

Cite this Article

Copy Citation | Download Citations

O'Halloran, D. A Practical Guide to Phylogenetics for Nonexperts. J. Vis. Exp. (84), e50975, doi:10.3791/50975 (2014).

Please note that all translations are automatically generated.

Click here for the english version. For other languages click here.

Abstract

Mange forskere, tvers utrolig variert foci, søker phylogenetics til deres problemstilling (er). Men mange forskere er ny på dette emnet, og så det presenterer iboende problemer. Her vi samle en praktisk innføring i phylogenetics for nonexperts. Vi skissere i en steg-for-steg måte, en rørledning for å generere pålitelige phylogenies fra gensekvensen datasett. Vi begynner med en bruker-guide for likhetssøkeverktøy via elektroniske grensesnitt samt lokale kjørbare. Neste, vi utforske programmer for å generere flere sekvenssammenstillinger fulgt av protokoller for å bruke programvare for å bestemme best tilpasning modeller av evolusjon. Vi deretter skissere protokoller for å rekonstruere fylogenetiske relasjoner via maximum likelihood og Bayesianske kriterier og til slutt beskrive verktøy for å visualisere fylogenetiske trær. Selv om dette er på ingen måte en uttømmende beskrivelse av fylogenetiske tilnærminger, gjør det gi leseren praktisk starter information på viktige programmer som vanligvis benyttes av phylogeneticists. Visjonen for denne artikkelen vil være at det kan tjene som et praktisk treningsverktøy for forskere fatt på fylogenetiske studier og også tjene som en pedagogisk ressurs som kan bli innlemmet i et klasserom eller undervisning-lab.

Introduction

For å forstå hvordan to (eller flere) arter utviklet seg, er det først nødvendig å oppnå sekvens eller morfologiske data fra hver prøve, og disse data representerer mengdene som vi kan bruke til å måle deres forhold gjennom evolusjonære plass. Akkurat som når man måler lineær avstand, å ha flere data tilgjengelige (f.eks miles, inches, mikron) vil likestille til en mer nøyaktig måling. Ergo, er nøyaktigheten som en forsker kan utlede evolusjonære avstand sterkt påvirket av volumet av informative data tilgjengelig for å måle relasjoner. Videre, fordi forskjellige prøver utvikle seg på forskjellige priser og av ulike mekanismer, den metoden som vi bruker for å måle forholdet mellom to taxa også direkte påvirker nøyaktigheten av evolusjonære målinger. Derfor, fordi evolusjonære relasjonene ikke er observert direkte, men i stedet er ekstrapolert fra sekvens eller morfologiske data, problemet med dedusere evolusjonærrelasjoner blir en av statistikken. Phylogenetics er den grenen av biologi opptatt med å bruke statistiske modeller for å mønstre av evolusjon for å optimalt rekonstruere den evolusjonære historien mellom taxa. Denne rekonstruksjonen mellom taxa er referert til som den taxa er fylogeni.

For å bygge bro over gapet i kompetanse mellom molekylærbiologer og evolusjonsbiologer vi beskriver her en trinnvis rørledning for dedusere phylogenies fra et sett av sekvenser. For det første, vi detalj trinnene involvert i databasen avhør ved hjelp av Basic Local Alignment Search Tool (BLAST 1) algoritme gjennom web-basert grensesnitt og også ved hjelp av lokale kjørbare, og dette er ofte første skritt i å få en liste over lignende sekvenser til en uidentifisert spørring, selv om enkelte forskere kan også være interessert i å samle inn data for en enkelt gruppe via web-grensesnitt som Phylota (http://www.phylota.net/). BLAST er en algoritme for comparing primære aminosyre eller nukleotid sekvens data mot en database av sekvenser for å søke etter "treff" som minner om spørresekvensen. BLAST-programmet ble utviklet av Stephen Altschul et al. ved National Institutes of Health (NIH) en. Den BLAST server består av et antall av forskjellige programmer, og her er en liste over noen av de mest vanlige BLAST program:

i) Nucleotide-nucleotide BLAST (blastn): Dette programmet krever en DNA sekvens innspill og returnerer mest lignende DNA-sekvenser fra DNA-database som brukeren oppgir (f.eks for en bestemt organisme).

ii) Protein-protein BLAST (blastp): Her kan brukeren innganger et protein sekvens og programmet returnerer de mest lignende proteinsekvenser fra protein database som brukeren angir.

iii) Posisjon Spesifikke Iterativ BLAST (PSI-BLAST) (blastpgp): Den brukerundersøkelser er en protei rekkefølge som returnerer et sett av nært beslektede proteiner, og fra dette datasettet en konservert profilen genereres. Neste en ny spørring blir generert ved hjelp av bare disse konserverte "motiver" som blir brukt til å avhøre en database protein, og dette gir en større gruppe av proteiner hvorfra et nytt sett av konserverte "motiver" er trukket ut, og deretter brukt til å avhøre en database protein før et enda større antall proteiner er returnert og andre profiler er generert, og prosessen gjentas. Ved å inkludere relaterte proteiner inn i søket i hvert trinn dette programmet gjør det mulig for brukeren å identifisere sekvenser som er mer sprikende.

iv) Nukleotid 6-ramme translasjons-protein (blastx): Her kan brukeren gir en nukleotidsekvens inngang som omdannes til seksramme konseptuelle translasjonsprodukter (dvs. begge tråder) mot en proteinsekvensdatabase..

v) nukleotid-6-ramme translasjons-nukleotid6-frame oversettelse (tblastx): Dette programmet tar en DNA nukleotidsekvens innspill og oversetter innspill til alle seks-frame konseptuelle oversettings produkter som det kan sammenlignes mot de seks ramme oversettelser av en nukleotidsekvensdatabasen.

vi) Protein-nukleotid-6-ramme oversettelse (tblastn): Dette program anvender en proteinsekvens-inngangen til sammenlignet med alle seks leserammer av en nukleotid-sekvens-database.

Deretter beskriver vi ofte brukte programmer for å generere en flersekvenssammenstilling (MSA) fra en sekvens datasettet, og dette er fulgt av en brukerguide til programmer som bestemmer de best-fit modeller av evolusjon for en sekvens datasett. Fylogenetisk rekonstruksjon er et statistisk problem, og på grunn av dette, fylogenetiske metoder må innlemme en statistisk rammeverk. Denne statistiske rammeverket blir en evolusjonær modell som inkorporerer sekvens endring i datasettet. Denne evolusjonære model består av et sett av antagelser om prosessen med nukleotid-eller amino-syreerstatninger, og den optimale modell for et bestemt datasett kan velges ved hjelp av statistisk testing. Den passer til de data av ulike modeller kan sammenlignes via likelihood ratio tester (LRTs) eller informasjons kriterier for å velge den optimale modellen innenfor et sett av mulige funn. To vanlige informasjons kriterier er Akaike informasjon kriteriet (AIC) 2 og bayesiansk informasjon kriteriet (BIC) tre. Når en optimal justering er generert, er det mange forskjellige metoder for å lage en fylogeni fra de sammenstilte data. Det finnes mange metoder for å dedusere evolusjonære relasjonene, grovt, kan de deles inn i to kategorier: distansebaserte metoder og sekvensbaserte metoder. Distansebaserte metoder beregne parvise avstander fra sekvenser, og deretter bruke disse avstander for å få treet. Sekvensbaserte metoder bruke sekvens justering direkte, og flest søk på tree plass ved hjelp av en optimalitet kriterium. Vi skissere to sekvensbaserte metoder for å rekonstruere fylogenetiske relasjoner: disse er PhyML fire som implementerer den maksimale sannsynligheten rammeverk, og MrBayes fem som bruker bayesiansk Markov Chain Monte Carlo slutning. Sannsynlighet og Bayesianske metoder gir et statistisk rammeverk for fylogenetisk rekonstruksjon. Ved å gi brukeren informasjon om brukte tre-bygningen verktøy, introduserer vi leseren til de nødvendige data som kreves for å antyde fylogenetiske relasjoner.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

En. Basic Local Alignment Search Tool (BLAST): Online-grensesnitt

  1. Klikk på denne linken for å besøke nettserveren ved National Center for Biotechnology Information (NCBI) BLAST en. - http://blast.ncbi.nlm.nih.gov/Blast.cgi (Figur 1).
  2. Input et FASTA formatert tekst sekvens (se Figur 2 for eksempel) i tekstboksen.
  3. Klikk på den aktuelle BLAST programmet og relevant database eller enkeltarter av interesse å bruke i søket, og klikk deretter på "BLAST".
    Merk: FASTA formatert sekvensen begynner med en beskrivelse linje angitt med et ">"-tegnet. Beskrivelsen må følge umiddelbart etter ">"-tegnet, sekvensen (dvs.. Nukleotider eller aminosyrer) følger beskrivelsen på neste linje. Utgangen fra BLAST søk er sett på som HTML, ren tekst, XML, eller treffer TAbles (tekst eller CSV) med standard satt til HTML (figur 3).

2. Basic Local Alignment Search Tool (BLAST): Lokale kjør

  1. Last ned de nyeste BLAST kommandolinje BLAST kjør fra denne linken:
    ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ -
  2. em> For PC-brukere: Dobbeltklikk på den siste eksplosjonen win32.exe fil og godta lisensavtalen, og klikk installer.
    Merk: Standard installasjonsmappen er C: NCBI-blast-2.2.27 +.
  3. Konfigurere PC miljøvariabelen som følger:
    1. Klikk på PC "Start"-knappen, og deretter høyreklikk "datamaskin",
    2. Klikk på "Egenskaper" og i pop-up klikke på "Avansert" fanen
    3. Klikk på "Miljøvariabler knappen", og i den nye pop-up klikker du på "ny"-knappen under the "Bruker variabler for bruker"-delen
    4. I pop-up legge til variabelen navnet "Path" og variabel verdi "C: NCBI-blast-2.2.27 + bin.
      Merk: bin-katalogen inneholder kjørbar (dvs. blastp, etc..).
  4. em> For Mac-brukere: Åpne Terminal-programmet (for å gjøre dette bare åpne "Finder" og søke "Terminal" og dette vil vise "terminal"-ikonet). Til terminalvinduet Type:
    > Ftp ftp.ncbi.nih.gov
    Merk: kan også skrive inn nettadressen som brukes ovenfor i eksempelet til PC
  5. For å få tilgang til NCBI ftp site type "anonym" for navn og passord, og deretter Type:
    > Cd blast / kjør / SISTE
  6. List opp kjørbare ved å skrive:
    > ls
  7. Få den nyeste versjonen ved å skrive følgende (eller hva den nyeste versjonen er for tiden):
    2; få NCBI-blast-2.2.7-macosx.tar.gz
  8. Avslutt NCBI ftp server området ved å skrive "exit".
  9. Dekomprimere nedlastede filer ved å skrive:
    > Tjære-xzf NCBI-blast-2.2.7-macosx.tar.gz
  10. Legg plasseringen av binærfiler for eksplosjonen kjør til din vei, slik at skallet kan søke i denne katalogen når vi leter etter kommandoer ved å skrive:
    > PATH = $ PATH: new_folder_location
  11. Sjekk om dette lagt til posisjonen i banen ved å skrive:
    > Echo $ PATH
  12. Last ned en forhåndsformatert BLAST databaser (som oppdateres daglig) ved å klikke her:
    ftp://ftp.ncbi.nlm.nih.gov/blast/db/
  13. Plasser databasen inn i "db"-mappen.
  14. em> På en PC: åpne en MS-DOS-ledeteksten (for å gjøre dette, klikk "Start" og skriv inn "cmd" i søkefeltet), og bytt katalog til NCBI-blast mappen ved å skrive:
    C: Users> cd .. [trekkopp en mappe]
    C: > cd NCBI-blast-2.2.27 +
    Dette vil endre katalog til:
    C: NCBI-blast-2.2.27 +>
  15. Opprette databasen ved hjelp av følgende "makedb"-kommandoen:
    > Makedb-i db / briggsae.fasta-DBTYPE prot-out db / briggsae
    Merk: I eksempelet nedenfor (figur 4) databasen heter "briggsae" og består av ett leddgruppe fra organismen Caenorhabditis briggsae.
  16. Lag en spørring protein sekvens kalt "test" ved å sette inn en FASTA formatert protein tekstsekvensen i "db"-mappen.
  17. Avhøre database via en blastp søk ved å skrive inn følgende kommando:
    > Blastp-spørring db / test.txt-db db / briggsae-out text.txt
  18. em> På en Mac: laste ned en database for lokale Blast søk ved å gå inn NCBI ftp nettside i henhold til instruksjonene ovenfor (trinn 2,4) ogn Type:
    > Lcd .. / databaser /
  19. Last genomet eller sekvens av interesse ved å skrive:
    > Får NC_ [Tiltredelse #]. Fna
    Bemerk: ". Fna" refererer til FASTA formatert nukleotidsekvens og "faa." Refererer til de FASTA formatert aminosyresekvenser.
  20. Type "slutte" å avslutte ftp-området.
  21. Gjør databasen ved å skrive:
    > Makeblastdb-i db / mouse.faa-out mus-DBTYPE prot
  22. Sett inn en FAST formatert spørresekvensen i "bin"-mappen og avhøre database med følgende kommando:
    > Blastp-søket "din query.fasta"-db "databasen"-out results.txt

Tre. Genererer flersekvenssammenstillinger

  1. Klikk på disse linkene for å få tilgang til ofte brukte flersekvenssammenstilling (MSA) programmer:
    ClustalW 6 http://www.clustal.org/
    Kalign 7 http://msa.sbc.su.se/cgi-bin/msa.cgi
    MAFFT 8,9 http://mafft.cbrc.jp/alignment/software/
    MUSKEL 10 http://www.drive5.com/muscle/
    T-Coffee 11 http://www.tcoffee.org/Projects/tcoffee/
    PROBCONS 12 http://toolkit.tuebingen.mpg.de/probcons
  2. Klikk på denne linken - http://tcoffee.crg.cat/apps/tcoffee/do:regular - og innspill fasta formatert sekvensdata i tekstboksen
    Merk: En prøve sendes ut fra T-kaffe kan sees i figur 5, tilsvarende rester er fargekodet.
  3. Last ned Clustal MSA som en kommandolinje-versjon (ClustalW) eller en grafisk version (ClustalX) ved å klikke på denne linken: http://www.clustal.org/clustal2/ - klikk på den aktuelle kjørbar (dvs. seier, Linux, Mac OS X).
  4. Last opp data som FASTA formatert sekvens tekst og justere (figur 6).

4. Bestemme Best-fit modeller av Evolution

  1. Klikk her for å laste ned ProtTest 13 program:
    http://darwin.uvigo.es/our-software/
  2. Når ProtTest er lastet ned, dobbeltklikker du på ProtTest.jar fil
  3. Når ProtTest startes, klikker du på "velg fil" og laste sekvensdata (figur 7).
  4. Deretter klikker du på "Start" og programmet vil begynne (Figur 8).
    Merk: Etter fullføring av kjøringen (figur 8), vil programmet indikerer den beste modellen basert på kriterier f.eks "Beste modellen i henhold til AIC: VAG + I + G"

5. Dedusere Sequence Basert phylogenies av Maximum Likelihood eller Bayesiansk inferens

  1. Lastet ned PhyML 4 her:
    https://code.google.com/p/phyml/
  2. Lansere den kjørbare ved å dobbeltklikke den aktuelle applikasjonen (dvs. phyml Windows, phyml Linux, etc.) Og grensesnittet vindu vil dukke opp (Figur 9).
  3. Last inn inngangssekvensen som en PHYLIP formatert sekvens ved å skrive:
    > "Filnavn". PHY
    Merk: For å konvertere mellom sekvensformater, bruke "Readseq" web programmet tilgjengelig på - http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi .
  4. Start programmet ved å skrive "Y".
  5. Last ned MrBayes 5 her:
    rceforge.net / download.php "> http://mrbayes.sourceforge.net/download.php
  6. For å starte programmet, klikk på den kjørbare filen og les NEXUS formatert sekvens data inn i programmet ved å skrive:
    > Execute "filnavn". Nex
  7. Sett den evolusjonære modellen.
  8. Velg antall generasjoner til å kjøre ved å skrive:
    > Mcmcp ngen = 1000000 [dette angir hvor mange generasjoner 1000000]
    > Sump burnin = 10000 [dette setter burnin til 10000]
  9. Redd avdelings lengder i resultatene fil ved å skrive:
    > Mcmcp savebrlens = ja
  10. Kjør analysen ved å skrive:
    > MCMC
  11. Oppsummer trærne ved hjelp av "SUMT"-kommandoen.

6. Visualisere phylogenies

  1. Se en liste over tre seer programmer her:
    http://www.treedyn.org/overview/editors.html
  2. Last ned Treeview 14 progrer her:
    http://taxonomy.zoology.gla.ac.uk/rod/treeview.html

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Finne likheter til en spørring tillater forskerne å tilskrive en potensiell identitet til nye sekvenser og også antyde sammenhenger mellom sekvenser. Filen input type for BLAST en er FASTA formatert tekst sekvens eller GenBank sjonsnummer. FASTA formatert sekvensen begynner med en beskrivelse linje angitt med et ">"-tegnet (figur 2). Beskrivelsen må følge umiddelbart etter ">"-tegnet, sekvensen (dvs.. Nukleotider eller aminosyrer) følger beskrivelsen på neste linje. Når du lagrer og redigering sekvensfiler, er det best å bruke et tekstredigeringsprogram, for eksempel "Notisblokk" på PC eller TextWrangler ( http://www.barebones.com/products/textwrangler/ ) for Mac. BLAST-algoritmen utfører "lokale" justeringer, som søker for korte strekninger av sekvenslikhet. Etter at algoritmen har sett opp alt mulig "strekkess "fra spørresekvensen og maksimalt utvidet disse sekvensene, det så setter sammen justeringer for hver spørring sekvens par. Da er det viktig å forstå hvor gode disse kampene er, og så BLAST gjelder statistikk for hvert treff som omfatter en forventer verdi (E) og en bit resultat. The E verdi gir en indikasjon på den statistiske signifikans for en kamp. Jo lavere E-verdien er, desto mer betydelig treffet, for eksempel en sekvens innretting med en E-verdi på 0,05 betyr at sannsynligheten for at denne kamp oppstår ved en tilfeldighet alene er fem i 100. Den bit poengsum bruker en bestemt scoringsmatrise for å gi en indikasjon på hvor god justeringen er. Jo høyere bit poengsum, jo ​​bedre justering. likhet med den elektroniske versjonen av BLAST, er det en rekke parametere som kan angis via kommandoer ved hjelp av lokale BLAST kjør En omfattende ressurs som beskriver disse kommandoene finner du her -. http://www.ncbi.nlm.nih.gov/books/ NBK1762 /. Utgangen av den lokale søk er en tekstfil akkurat som output fra den elektroniske BLAST-grensesnitt (figur 4).

En flersekvenssammenstilling (MSA) er en sekvens justering av tre eller flere primære sekvenser består av aminosyrer, DNA eller RNA. ClustalW 6 utgitt i 1994, er en av de mest populære MSA verktøy for biologer. En brukervennlig webgrensesnitt som gir one-stop tilgang til flere populære MSA verktøy kan bli funnet på EMBL-EBI server her - http://www.ebi.ac.uk/Tools/msa . Inngangen for hvert program kan FASTA formatert sekvensdata (se figur 2) selv om mange forskjellige formater er også akseptert, og mange speil områder for hvert kan bli funnet på nettet. Mange parametere som gap straffer og output formater lett kan velges. En prøve utgangen fra MSA T-kaffe kan sees i figur 5, hvor tilsvarende rester er color kodet. I noen tilfeller kan det MSA verktøyet også lastes ned og kjøres lokalt. Clustal kan lastes ned som en kommandolinje-versjon (ClustalW) eller en grafisk versjon (ClustalX) fra denne nettsiden - http://www.clustal.org/clustal2/ . For å laste ned, klikker du bare på den aktuelle kjørbar (ie. Seier, Linux, Mac OS X). For Windows programmet kjør vil laste ned og en pop-up-meny vil kreve at brukeren til å klikke på "Kjør", og deretter Installasjonen vil starte. Programmet er svært intuitivt, kan sekvenser lastes fra en tekstfil som inneholder sekvenser som er formatert som NBRF / PIR, FASTA, EMBL / Swiss-Prot, Clustal, GCC / Leger Uten Grenser, GCG9 RSF, og GDE. Sekvenser er justert ved å klikke på "do komplett justering" fra "justering"-menyen. En prøve innretting av seks proteinsekvenser innrettede hjelp ClustalX kan sees i figur 6. Ulike parametere som skriftstørrelse og farge kan enkelt endres, og editing av sekvenser gjøres ved å klikke på "Rediger"-menyen. Manuelt raffinert justeringer er ofte bedre enn helautomatisk metoder og på grunn av dette, er MSA verktøy utvikling et meget aktivt forskningsområde. Noen vanlige justerings redaktører kan bli funnet på følgende linker: Se-Al - http://tree.bio.ed.ac.uk/software/seal/ ; BSEdit - http://www.bsedit.org/ ; JalView - http://www.jalview.org/ ; SeaView - http://pbil.univ-lyon1.fr/software/seaview.html .

For aminosyre-justeringer programmet ProtTest 13 er benyttet for å bestemme valg av best tilpasning modeller av aminosyre-erstatninger i dataene. ProtTest gjør dette valget ved å finne den modellen fra listen over kandidat modeller med den minste Akaike Information Criterion (AIC), Bayesiansk Informasjon Criterion (BIC) poengsum, eller Decision Theory Criterion (DT). Den nyeste versjonen av ProtTest (versjon 3.2) omfatter 15 ulike rente matriser som resulterer i 120 forskjellige modeller. Brukeren må ha Java Runtime på deres system for å kjøre ProtTest. Java Runtime er fritt tilgjengelig her - http://www.java.com/en/download/chrome.jsp . Sekvenser er lagt inn som PHYLIP eller NEXUS format. Å konvertere mellom sekvensformater, bruke "Readseq" web programmet tilgjengelig på - http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi . Klikk på "velg fil" og laste sekvensdataene. Deretter klikker du på "Start" og programmet vil begynne. Hvis du vil endre antall modeller valgt, kan du klikke på "modeller"-knappen. Når programmet starter vil det vise en fremdriftslinje nederst og listen over de modellene som de blir analysert (Figur 8 https://code.google.com/p/prottest3/wiki/Background . Det er også en online web-grensesnitt for ProtTest som fungerer akkurat som den nedlastede versjonen, bortsett fra at det kan bare håndtere et begrenset antall sekvenser. Denne web-grensesnitt kan nås ved å klikke her - http://darwin.uvigo.es/software/prottest2_server.html . For nucleotide datasett programmet jModelTest 15 brukes for å undersøke den statistiske utvalg av beste-fit modeller av nucleotide erstatninger ved å implementere den AIC, BIC, og DT kriterier skissert ovenfor, og også hierarkisk og dynamisk sannsynligheten rasjon tests (hLRT og dLRT). jModelTest er optimalisert for Mac OS X. For innspill, er flere formater tillatt. Et klart steg-for-steg guide er tilgjengelig av utviklerne her - http://computing.bio.cam.ac.uk/local/doc/jmodeltest.pdf

PhyML er et program som beregner maksimum likelihood phylogenies fra justeringer av nukleotid-eller aminosyresekvenser. PhyML vil omfatte et stort antall erstatningsmodeller koplet til forskjellige alternativer for å søke etter data topologi plass (fig. 10). Programmet vil spare resultater i to tekstfiler. Den første filen vil inneholde ML treet i Newick format som enkelt kan vises ved hjelp av et tre viewer (se protokoll 6), og den andre filen vil inneholde statistikken (filnavn, modell, log-likelihood score, osv..) Av analysen . Alle parametre er veldig enkelt satt av følgende menyelementer. Mer detaljerte beskrivelser av hver Meny opsjon er forklart i PhyML anvisningen tilgjengelig på PhyML nedlastingssiden - https://code.google.com/p/phyml/downloads/list . MrBayes 5 er et program som utnytter Bayesiansk MCMC slutning over en rekke evolusjonære modeller å rekonstruere fylogenetiske relasjoner. Programmet oppfører seg likt på alle plattformer, og en gang lastet ned installasjonsprogrammet vil installere den kjørbare. For å starte programmet, klikker du bare på den kjørbare. Det er mange modeller som kan stilles og detaljer om hver enkelt modell og deres kommandoer kan bli funnet her - http://mrbayes.sourceforge.net/wiki/index.php/Tutorial . En annen hjelp alternativet er å skrive "hjelp lset" - dette vil gi detaljer om Model innstillingen. For eksempel "Prset aamodelpr = mixed" vil tillate blandet modellering eller "prset aamodelpr = fast (VAG)" vil sette aminosyren modellen til WA G-modellen. En outgroup kan enkelt settes ved å spesifisere Taxon nummer "outgroup 30", programmet viser automatisk sekvenser / Taxa etter nummer. Hvis en outgroup ikke er spesifisert treet vil være unrooted. Når programmet er i gang (Figur 11) fremdriften kan ses i bestemte intervaller som kan stilles ved hjelp av "printfreq = X"-kommandoen. Flere detaljer om når du skal stoppe analysen (dvs.. Hvor mange generasjoner å kjøre for) kan finnes i brukerhåndboken. Clade verdier på en cladogram er gitt i resultatene sammen med en phylogram som også er gitt i Newick format som enkelt kan vises ved hjelp av et tre viewer (se protokoll 6).

Når et fylogenetisk tre genereres, må topologien til å bli visualisert. Det er mange elektroniske verktøy og nedlastbare programmer som brukes til å visualisere tretopologier. En ufullstendig liste over populære programmer kan sees her -ylogenetic_tree_visualization_software">http://en.wikipedia.org/wiki/List_of_phylogenetic_tree_visualization_software , og en mer omfattende liste finner du her - http://www.treedyn.org/overview/editors.html . Treeview 14 og TreeDyn 16 er to populære valg. Begge er svært brukervennlig og lett å bli kjent med de ulike alternativene. Treeview kjører på Mac og Windows, og bruker nesten identiske grensesnitt. Inngangen kan være ett av flere formater, inkludert NEXUS, PHYLIP, Hennig86, MEGA, og ClustalW / X. Treeview (Figur 12) inkluderer også et tre editor som tillater brukeren å flytte grener, reroot trær, og omorganisere utseendet på treet.

Figur 1
Figur 1. > NCBI BLAST web-side. Den BLAST webserveren inneholder en pakke med BLAST programmer og driftes av Nasjonalt Senter for Bioteknologi Information (NCBI). Klikk her for å se større bilde.

Fig. 2
Figur 2. FASTA formatert sekvens. FASTA format begynner med en beskrivelse linje angitt med et ">". Beskrivelsen må følge umiddelbart etter ">"-tegnet, sekvensen (dvs.. Nukleotider eller aminosyrer) følger beskrivelsen på neste linje. Klikk her for å se større bilde.

nt "fo: keep-together.within-page =" always "> Figur 3
Figur 3. HTML output fra en BLAST søk. Utgangen fra BLAST søk illustrerer områdene identitet innenfor spørresekvensen, og også gir bit-poeng, forventer verdier og parvise justeringer med hver kamp. Klikk her for å se større bilde.

Figur 4
Figur 4 En prøve utgang fra en lokal BLAST kjørbar søk.. Utgangen av dette søket er en tekstfil akkurat som output fra den elektroniske BLAST-grensesnitt, som inkludere forventer verdi og bit poengsum, samt matche beskrivelse. Klikk her for å se større bilde.

Figur 5
Figur 5. Utgang av en MSA med T-Coffee. Utgangen hever lignende nettsteder og vekter i kamp etter farge. Gaps er satt inn som "-" tegn og rester eller nukleotidposisjon er bevart for hver taxon. Klikk her for å se større bilde.

ig6.jpg "/>
Figur 6. Et eksempel justering ved hjelp ClustalX. Lignende kamper er fargekodet og hullene er satt som en "-" tegn. Menylinjen er sett i øverste venstre. Klikk her for å se større bilde.

Figur 7
Figur 7. Den ProtTest programmet grensesnittet. Klikk her for å se større bilde.

Figur 8
Figure åtte. Den ProtTest konsollen. ProtTest konsollen mens du kjører en analyse. Fremdriftsindikatoren viser hvor mange modeller har blitt ferdigstilt, og hovedvinduet viser loggen sannsynligheten score for hver modell. Klikk her for å se større bilde.

Figur 9
Figur 9. Den PhyML grensesnitt. Klikk her for å se større bilde.

Fig. 10
Figur 10. Den PhyML grensesnittmenyen. Når sekvenser er lastet inn PhyML den første menyen vises, noe som kan navigeres ved å skrive bokstaven eller symbolet i hakeparentes. Undermenyer kan nås ved å skrive "+" tegn. Klikk her for å se større bilde.

Figur 11
Figur 11. MrBayes Interface. Når MrBayes lanseres fremdriften kan ses i bestemte intervaller satt ved hjelp av "printfreq = X"-kommandoen. Selv om programmet ikke kan stoppes under et løp, etter det angitte antallet generasjoner er beregnet vil brukeren bli spurt om de ønsker å kjøre flere generasjoner.www.jove.com/files/ftp_upload/50975/50975fig11highres.jpg "target =" _blank "> Klikk her for å se større bilde.

Fig. 12
Figur 12. Trevisningskontrollen grensesnitt. I denne figuren Treeview-vinduet viser et eksempel tre av proteiner fra Flybase (http://flybase.org/). Filene er importert ved å klikke på "åpen", og velge en passende filtype (f.eks. Newick format). Klikk her for å se større bilde.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Vårt håp for denne artikkelen er at det vil tjene som et utgangspunkt for å veilede forskere eller studenter som er nye til phylogenetics. Genomsekvense prosjekter har blitt billigere i løpet av de siste årene, og som en konsekvens av bruker etterspørsel etter denne teknologien er økende, og nå produksjon av store sekvens datasett er vanlig i små laboratorier. Disse datasettene ofte gi forskere med sett av gener som krever et fylogenetisk rammeverk for å begynne å forstå deres funksjon. Videre, fordi phylogenetics er å finne et hjem i et stadig økende antall forskningslaboratorier, vi også har tenkt på denne artikkelen for å tjene som en pedagogisk enhet for studenter interessert bredt i biologisk forskning. Ved å gi brukeren informasjon om "hvorfor", "hvordan" og "der" for brukte tre-bygningen verktøy, gir vi et rammeverk for leseren å begynne å gjøre seg kjent med disse programmene og hvordan de fungerer. Hsom fører til, anbefaler vi leseren til å leke seg med alle innstillingene i hvert verktøy i et forsøk på å forstå hvordan de ulike parametrene kan påvirke sine sekvensdata, og for å sikre kompatibilitet mellom plattform og programvare i hvert enkelt tilfelle. Analysen skissert ovenfor ble beregnet ved hjelp av en Dell Optiplex 990 med Intel Core i7-prosessor og en MacBook laptop med en Intel Core 2 Duo-prosessor, men hastigheten på analyse og også de spesifikke binærfiler (f.eks. 32 bit eller 64 bit) vil avhenge på brukerens plattform.

En utfordring når kompilering en brukerveiledning som dette for phylogenetics, er at feltet phylogenetics, og bioinformatikk som helhet, er et raskt voksende område av forskning som stadig lanserer ny programvare som skal gi bedre justeringer, likhets spådommer, eller fylogenetiske trær . For å redusere dette problemet, prøvde vi å fokusere på programmer som har eksistert i en årrekke og er fortsatt populær på grunn of hvor godt de fungerer. Når det er sagt, vi ønsker å påpeke at det finnes mange andre verktøy tilgjengelig for å takle de problemene vi har skissert i denne artikkelen, og så oppfordrer leseren til å utnytte dette og innlemme flere programmer i sine analyser.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Vi har ingenting å avsløre.

Acknowledgments

Vi takker medlemmene av O'Halloran lab for kommentarer til manuskriptet. Vi takker The George Washington University Department of Biological Sciences og Columbian College of Arts and Sciences om midler til D. O'Halloran.

Materials

Name Company Catalog Number Comments
BLAST webpage  http://blast.ncbi.nlm.nih.gov/Blast.cgi
BLAST executables  ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
Preformatted BLAST databases ftp://ftp.ncbi.nlm.nih.gov/blast/db/
Clustal http://www.clustal.org/
Kalign http://msa.sbc.su.se/cgi-bin/msa.cgi
MAFFT http://mafft.cbrc.jp/alignment/software/
MUSCLE http://www.drive5.com/muscle/
T-Coffee http://www.tcoffee.org/Projects/tcoffee/
PROBCONS http://toolkit.tuebingen.mpg.de/probcons 
Se-Al  http://tree.bio.ed.ac.uk/software/seal/
BSEdit  http://www.bsedit.org/
JalView http://www.jalview.org/
SeaView http://pbil.univ-lyon1.fr/software/seaview.html
ProtTest  https://code.google.com/p/prottest3/
Java Runtime  http://www.java.com/en/download/chrome.jsp
Readseq http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi
jModelTest https://code.google.com/p/jmodeltest2/
PhyML https://code.google.com/p/phyml/
MrBayes http://mrbayes.sourceforge.net/download.php
TreeView http://taxonomy.zoology.gla.ac.uk/rod/treeview.html
TreeDyn http://www.treedyn.org/

DOWNLOAD MATERIALS LIST

References

  1. Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207, (4), 647-653 (1989).
  2. Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19, (6), 706-723 (1974).
  3. Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6, (2), 461-464 (1978).
  4. Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52, (5), 696-704 (2003).
  5. Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17, (8), 754-755 (2001).
  6. Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22, (22), 4673-4680 (1994).
  7. Lassmann, T., Sonnhammer, E. L. Kalign--an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
  8. Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33, (2), 511-518 (2005).
  9. Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30, (14), 3059-3066 (2002).
  10. Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32, (5), 1792-1797 (2004).
  11. Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302, (1), 205-217 (2000).
  12. Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15, (2), 330-340 (2005).
  13. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27, (8), 1164-1165 (2011).
  14. Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12, (4), 357-358 (1996).
  15. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9, (8), 772 (2012).
  16. Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).

Comments

0 Comments


    Post a Question / Comment / Request

    You must be signed in to post a comment. Please or create an account.

    Usage Statistics