En praktisk guide till Phylogenetics för Nonexperts

Biology

Your institution must subscribe to JoVE's Biology section to access this content.

Fill out the form below to receive a free trial or learn more about access:

 

Summary

Här beskriver vi en steg-för-steg-rörledning för att generera tillförlitliga fylogenier från nukleotid-eller aminosyrasekvensdatamängder. Denna guide syftar till att betjäna forskare eller studenter nya för fylogenetisk analys.

Cite this Article

Copy Citation | Download Citations

O'Halloran, D. A Practical Guide to Phylogenetics for Nonexperts. J. Vis. Exp. (84), e50975, doi:10.3791/50975 (2014).

Please note that all translations are automatically generated.

Click here for the english version. For other languages click here.

Abstract

Många forskare, över otroligt varierande fokus, tillämpar fylogeni till sin forskningsfråga (s). Men många forskare är ny på detta ämne och det innebär inneboende problem. Här sammanställer vi en praktisk introduktion till fylogeni för nonexperts. Vi skisserar i en steg-för-steg sätt, en rörledning för att generera tillförlitliga fylogenier från genen sekvensdatamängder. Vi börjar med en användarvänlig guide för likhet sökverktyg via online-gränssnitt samt lokala körbara. Därefter utforskar vi program för att generera flera sekvensinpass följt av protokoll för att använda programvara för att bestämma bäst passar modeller av evolution. Vi skisserar sedan protokoll för att rekonstruera fylogenetiska relationer via maximum likelihood och Bayesianska kriterier och slutligen beskriver verktyg för att visualisera fylogenetiska träd. Även om detta är inte på något sätt en uttömmande beskrivning av fylogenetiska metoder, det gör det ge läsaren praktiska börjar information på viktiga program som vanligen används av phylogeneticists. Visionen för den här artikeln skulle vara att det skulle kunna fungera som ett praktiskt utbildningsverktyg för forskare ombord på fylogenetiska studier och även fungera som en pedagogisk resurs som skulle kunna införlivas i ett klassrum eller undervisning-lab.

Introduction

För att förstå hur två (eller flera) arter som utvecklats, är det först nödvändigt att få sekvens eller morfologiska data från varje prov, dessa data representerar kvantiteter som vi kan använda för att mäta deras förhållande genom evolutionära rymden. Precis som vid mätning av linjära avstånd, som har mer data tillgängliga (t.ex. km, tum, mikrometer) kommer att motsvara en mer noggrann mätning. Ergo, den noggrannhet med vilken en forskare kan härleda evolutionära avståndet är starkt påverkad av den volym av informativa data tillgängliga för att mäta relationer. Dessutom, eftersom olika prover utvecklas i olika takt och med olika mekanismer, den metod som vi använder för att mäta förhållandet mellan två taxa också direkt påverkar noggrannheten i evolutionära mätningar. Därför, eftersom evolutionära relationer inte observeras direkt utan extrapoleras från sekvens eller morfologiska uppgifter, problemet med att dra slutsatsen evolutionärarelationer blir en av statistiken. Phylogenetics är den gren av berörda med att tillämpa statistiska modeller för mönster av evolution för att optimalt rekonstruera evolutionära historia mellan taxa biologi. Denna rekonstruktion mellan taxa kallas den taxa s fylogeni.

För att överbrygga klyftan i kompetens mellan molekylärbiologer och evolutionsbiologer som vi beskriver här en steg för steg rörledning för att dra slutsatsen fylogenier från en uppsättning sekvenser. För det första, vi detalj de steg som ingår i databasen förhör med hjälp av grund Local Alignment Search Tool (BLAST 1) algoritmen via det webbaserade gränssnittet och även med hjälp av lokala körbara filer, det är ofta det första steget i att få en lista med liknande sekvenser till en oidentifierad fråga, även om vissa forskare kan också vara intresserad av att samla in data för en enda grupp via webb-gränssnitt som Phylota (http://www.phylota.net/). BLAST är en algoritm för comparing primär aminosyra eller nukleotid-sekvensdata mot en databas av sekvenser för att söka efter "träffar" som liknar frågesekvensen. BLAST-programmet har utformats av Stephen Altschul et al. vid National Institutes of Health (NIH) 1. BLAST-servern består av ett antal olika program, och här är en lista på några av de vanligaste BLAST-program:

i) Nukleotid-nukleotid BLAST (BLASTN): Detta program kräver en DNA-sekvens ingång och returnerar de mest likartade DNA-sekvenser från DNA-databas som användaren anger (t.ex. för en viss organism).

ii) Protein-protein-BLAST (blastp): Här kan användaren inmatar en proteinsekvens, och programmet återvänder de mest likartade proteinsekvenser från proteinet databasen som användaren anger.

iii) Position Specifika Iterativ BLAST (PSI-BLAST) (blastpgp): Användaren indata är en protei sekvens som returnerar en uppsättning av nära besläktade proteiner, och från denna datamängd en konserverad profil genereras. Nästa en ny fråga genereras med användning av endast dessa konserverade "motiv", som används för att utfråga en proteindatabas och detta ger en större grupp av proteiner från vilka en ny uppsättning av konserverade "motiv" extraheras och används därefter för att avfråga en proteindatabas tills en ännu större uppsättning proteiner trimmats och en annan profil genereras och processen upprepas. Genom att inkludera relaterade proteiner i frågan i varje steg här programmet gör det möjligt för användaren att identifiera sekvenser som är mer avvikande.

iv) Nukleotid 6-frame translation-protein (BLASTX): Här användaren ger en nukleotidsekvens ingång som omvandlas till de sex-frame begreppsöversättningsprodukter (dvs. båda strängarna) mot en proteinsekvensdatabas..

v) nukleotid 6-frame översättning-nukleotid6-frame translation (tblastx): Detta program tar en DNA-nukleotidsekvens som indata och översätter den inmatas i alla sex-frame konceptuella translationsprodukter vilka jämfördes mot de sex-frame översättningar av en nukleotidsekvens-databas.

vi) Protein-nukleotid 6-frame translation (TBLASTN): Detta program använder en proteinsekvens ingång för att jämföra mot alla sex läsramar av en nukleotidsekvens-databas.

Därefter beskriver vi ofta använda program för att generera en multipel sekvensinpassning (MSA) från en sekvens datauppsättning, och detta följs av en användarhandbok till program som bestämmer de bäst passar modeller av evolution för en sekvens dataset. Fylogenetisk rekonstruktion är ett statistiskt problem, och på grund av detta, fylogenetiska metoder måste införliva ett statistiskt ramverk. Denna statistiska ramen blir en evolutionär modell som inkorporerar sekvensförändringar i datasetet. Denna evolutionära model består av en uppsättning antaganden om processen med nukleotid eller amino-syrasubstitutioner, och den bäst anpassade modell för en viss datamängd kan väljas genom statistisk testning. Passningen till data av olika modeller kan jämföras via sannolikhet ratio test (LRTs) eller kriterier information för att välja den bäst anpassade modell inom en uppsättning möjliga sådana. Två vanliga informationskriterier är Akaike informationskriterium (AIC) 2 och Bayes informationskriterium (BIC) 3. När väl en optimal inpass genereras, det finns många olika metoder för att skapa en phylogeny från de inriktade data. Det finns många metoder för att dra slutsatsen evolutionära relationer, i stort sett kan de delas in i två kategorier: distansbaserade metoder och sekvensbaserade metoder. Distansbaserade metoder beräkna parvisa avstånd från sekvenser, och sedan använda dessa avstånd för att få trädet. Sekvensbaserade metoder använder sekvensuppställningen direkt, och oftast söka i tree rymden med hjälp av en optimakriterium. Vi skisserar två sekvensbaserade metoder för att rekonstruera fylogenetiska relationer: dessa är PhyML 4 som implementerar den maximala ramen sannolikhet, och mrbayes 5 som använder Bayesian Markov Chain Monte Carlo slutledning. Sannolikhet och Bayesianska metoder ger ett statistiskt ramverk för fylogenetisk rekonstruktion. Genom att ge användaren information om vanligen använda träd bygga verktyg, introducerar vi läsaren till de nödvändiga uppgifter som krävs för att sluta släktskapsförhållanden.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Basic Local Alignment Search Tool (BLAST): Online-gränssnitt

  1. Klicka på länken för att besöka BLAST 1 webbserver vid National Center for Biotechnology Information (NCBI). - http://blast.ncbi.nlm.nih.gov/Blast.cgi (Figur 1).
  2. Ingång en FASTA formaterad text sekvens (se figur 2 till exempel) i frågerutan.
  3. Klicka på lämplig program BLAST och relevant databas eller enskilda arter av intresse för att använda i sökningen och klicka sedan på "BLAST".
    OBS: FASTA formaterad sekvens börjar med en beskrivning linje markeras med en ">"-tecken. Beskrivningen måste följa omedelbart efter ">"-tecken, sekvensen (dvs.. Nukleotider eller aminosyror) följa beskrivningen på nästa rad. Utgången från BLAST-sökning ses som HTML, vanlig text, XML, eller slå TAökn (Text eller csv) med standard inställd på HTML (Figur 3).

2. Basic Local Alignment Search Tool (BLAST): Lokala körbara

  1. Ladda ner den senaste BLAST kommandoradsverktyg BLAST körbara från denna länk:
    ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ -
  2. em> För PC-användare: dubbelklicka på den senaste explosionen win32.exe fil och acceptera licensavtalet och klicka på Installera.
    Obs: Standardinstallationskatalogen är C: NCBI-blast-2.2.27 +.
  3. Konfigurera PC-miljövariabeln enligt följande:
    1. Klicka på PC "start"-knappen, och sedan högerklicka på "dator",
    2. Klicka på "Egenskaper" och i popup-klicka på fliken "Avancerat"
    3. Klicka på "Miljövariabler knappen" och i den nya pop-up Klicka på "nya" under the "Användarvariabler för användare" avsnittet
    4. I pop-up tillvariabelnamnet "Path" och variabelvärde "C: NCBI-blast-2.2.27 + bin.
      Notera: bin katalogen innehåller den körbara (dvs. BLASTP osv..).
  4. em> För Mac-användare: Öppna programmet Terminal (för att göra detta bara öppna "Finder" och sök "Terminal" och detta kommer att visa "terminal"-ikonen). In i terminalfönster:
    > Ftp ftp.ncbi.nih.gov
    OBS: kan också skriva in webbadressen som används ovan i exemplet för PC
  5. För att få tillgång till NCBI ftp site typ "anonym" för namn och lösenord, och sedan typ:
    > Cd blast / körbara / SENASTE
  6. Lista de körbara genom att skriva:
    > ls
  7. Hämta den senaste versionen genom att skriva följande (eller vad den senaste versionen nu är):
    2; få NCBI-blast-2.2.7-macosx.tar.gz
  8. Avsluta NCBI ftp-server webbplats genom att skriva "exit".
  9. Packa de nedladdade filerna genom att skriva:
    > Tar-xzf NCBI-blast-2.2.7-macosx.tar.gz
  10. Lägg till platsen för binärer för spräng körbara att din väg, så att skalet kan söka igenom den här katalogen när du letar efter kommandon genom att skriva:
    > PATH = PATH $: new_folder_location
  11. Kontrollera om detta läggs till platsen i din väg genom att skriva:
    > Echo $ PATH
  12. Ladda ned en förformaterade BLAST databaser (som uppdateras dagligen) genom att klicka här:
    ftp://ftp.ncbi.nlm.nih.gov/blast/db/
  13. Placera databasen i "db"-mappen.
  14. em> På en PC: öppna en MS-DOS-prompt (för att göra detta klicka på "Start" och skriv "cmd" i sökfältet) och ändra katalogen till NCBI-blast-mappen genom att skriva:
    C: Users> cd .. [flyttarupp en mapp]
    C: > cd NCBI-blast-2.2.27 +
    Detta kommer att ändra katalogen till:
    C: NCBI-blast-2.2.27 +>
  15. Skapa databasen med följande "makedb"-kommandot:
    > Makedb in db / briggsae.fasta-dbtype prot-out db / briggsae
    Obs: I exemplet nedan (Figur 4) databasen heter "briggsae" och består av en länkgrupp från organismen Caenorhabditis briggsae.
  16. Skapa en fråga proteinsekvens som kallas "test" genom att sätta in en FASTA formaterad proteintextsekvensen i "db"-mappen.
  17. Förhöra databas via en BLASTP sökning genom att skriva följande kommando:
    > BLASTP-query db / test.txt-db db / briggsae-out text.txt
  18. em> På en Mac: ladda ner en databas för lokala Blast sökningar genom att gå till NCBI ftp webbplats enligt anvisningarna ovan (steg 2,4) ochn typ:
    > Lcd .. / databaser /
  19. Ladda genomet eller sekvens av intresse genom att skriva:
    > Få NC_ [anslutnings #]. Fna
    Anm: ". Fna" avser den FASTA formaterade nukleotidsekvensen och "faa." Hänför sig till de FASTA-formaterade aminosyrasekvenser.
  20. Skriv "quit" för att avsluta ftp-sajt.
  21. Gör databasen genom att skriva:
    > Makeblastdb-i db / mouse.faa-out mus-dbtype prot
  22. Sätt i en FAST formaterad frågesekvensen i "bin"-mappen och förhöra databasen med följande kommando:
    > BLASTP-query "din query.fasta"-db "databasen" ut results.txt

3. Generera Flera sekvensinpassningar

  1. Klicka på dessa länkar för att komma åt ofta använda flera sekvensinpass (MSA) program:
    ClustalW 6 http://www.clustal.org/
    Kalign 7 http://msa.sbc.su.se/cgi-bin/msa.cgi
    MAFFT 8,9 http://mafft.cbrc.jp/alignment/software/
    MUSKEL 10 http://www.drive5.com/muscle/
    T-Coffee 11 http://www.tcoffee.org/Projects/tcoffee/
    Probcons 12 http://toolkit.tuebingen.mpg.de/probcons
  2. Klicka på den här länken - http://tcoffee.crg.cat/apps/tcoffee/do:regular - och input FASTA formaterade sekvensdata i frågerutan
    Notera: Ett prov som matas ut från T-Coffee kan ses i fig. 5, liknande rester är färgkodade.
  3. Hämta Clustal MSA som en kommandorad version (ClustalW) eller en grafisk version (ClustalX) genom att klicka på denna länk: http://www.clustal.org/clustal2/ - klicka sedan på lämplig körbara (dvs. vinna, Linux, Mac OS X).
  4. Ladda upp data som FASTA formaterad sekvens text och rikta (Figur 6).

4. Bestämma Best-fit Modeller av Evolution

  1. Klicka här för att ladda ner ProtTest 13 program:
    http://darwin.uvigo.es/our-software/
  2. När ProtTest har hämtats, dubbelklickar du på ProtTest.jar filen
  3. När ProtTest lanseras, klicka på "välj fil" och läsa in sekvensdata (Figur 7).
  4. Klicka sedan på "start" och programmet börjar (Figur 8).
    OBS: Efter avslutad körning (Figur 8), kommer programmet att ange den bästa modellen som bygger på kriterier, t.ex. "Bästa modellen enligt AIC: WAG + I + G"

5. Att utgå från Sequence Baserad fylogenier från Maximum Likelihood eller Bayesian Slutledning

  1. Nedladdad PhyML 4 här:
    https://code.google.com/p/phyml/
  2. Starta den körbara genom att dubbelklicka på motsvarande tillämpning (dvs. phyml Windows, phyml Linux, osv.) Och gränssnittet fönster visas (Figur 9).
  3. Fyll på inmatningssekvens som PHYLIP formaterad sekvens genom att skriva:
    > "Filnamn". PHY
    OBS: För att konvertera mellan sekvensformat, använd "readseq" webbprogram finns på - http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi .
  4. Starta programmet genom att skriva "Y".
  5. Hämta mrbayes 5 här:
    rceforge.net / download.php "> http://mrbayes.sourceforge.net/download.php
  6. För att starta klick program på den körbara filen och läsa NEXUS formaterad sekvensdata till programmet genom att skriva:
    > Exekvera "filnamn". Nex
  7. Ställ den evolutionära modellen.
  8. Välj antal generationer att köra genom att skriva:
    > Mcmcp ngen = 1000000 [detta ställer in antalet generationer 1000000]
    > Sump burnin = 10000 [detta sätter burnin till 10000]
  9. Spara grenlängderna i resultat-filen genom att skriva:
    > Mcmcp savebrlens = ja
  10. Kör analysen genom att skriva:
    > MCMC
  11. Samman träden med hjälp av "SUMT"-kommandot.

6. Visualisering fylogenier

  1. Visa en lista av träd viewer program här:
    http://www.treedyn.org/overview/editors.html
  2. Hämta Treeview 14 progrär här:
    http://taxonomy.zoology.gla.ac.uk/rod/treeview.html

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Att hitta likheter till en fråga tillåter forskare att tillskriva en potentiell identitet till nya sekvenser och även sluta relationer mellan sekvenser. Filen input typ för BLAST 1 är FASTA formaterad text sekvens eller GenBank tillträdesnummer. FASTA formaterad sekvens börjar med en beskrivning linje markeras med en ">"-tecken (figur 2). Beskrivningen måste följa omedelbart efter ">"-tecken, sekvensen (dvs.. Nukleotider eller aminosyror) följa beskrivningen på nästa rad. När du sparar och redigera sekvensfiler, är det bäst att använda en textredigerare som "Anteckningar" på PC eller Textwrangler ( http://www.barebones.com/products/textwrangler/ ) för Mac. BLAST-algoritmen utför "lokala" anpassningar, som söker för korta sträckor av sekvenslikhet. När algoritmen har sett upp alla möjliga "stretches "från frågesekvensen och maximalt utvidgas dessa sekvenser, det sedan monterar inpassningar för varje frågesekvens par. Det är då viktigt att förstå hur bra dessa överensstämmelser är, och så BLAST applicerar statistik till varje träff vilka innefattar en förvänta värdet (E) och lite poäng. Värdet E ger en indikation om den statistiska signifikansen för en match. Ju lägre E-värde, desto mer betydande träffen, exempelvis en sekvensinpassning med ett E-värde på 0,05 innebär att sannolikheten för att detta match inträffar enbart genom slump är 5 i 100. Biten poäng använder en viss poängmatris för att ge en indikation på hur bra anpassningen är. Ju högre lite poäng, desto bättre anpassning. likhet med online-versionen av BLAST, det finns ett antal parametrar som kan ställas in via kommandon med hjälp av lokala BLAST körbara finns en omfattande resurs som beskriver dessa kommandon här -. http://www.ncbi.nlm.nih.gov/books/ NBK1762 /. Utsignalen från lokal sökning är en textfil precis som utsignalen från nätet BLAST gränssnitt (figur 4).

A Multiple Sequence Alignment (MSA) är en sekvensuppställning av tre eller flera primära sekvenser bestående av aminosyror, DNA, eller RNA. ClustalW 6 släpptes 1994, är en av de mest populära MSA verktyg för biologer. Ett användarvänligt webbaserat gränssnitt som ger en enda tillgång till flera populära MSA-verktygen kan hittas på EMBL-EBI server här - http://www.ebi.ac.uk/Tools/msa . Ingången för varje program kan FASTA formaterade sekvensdata (se figur 2) även om många olika format accepteras också, och många spegelplatser för varje kan hittas på nätet. Många parametrar som spalt straff och utdataformat kan enkelt väljas. Ett prov som matas ut från MSA T-Kaffe kan ses i figur 5, där liknande rester är color kodad. I vissa fall kan det MSA verktyget även hämtas och körs lokalt. Clustal kan laddas ner som en kommandorad version (ClustalW) eller en grafisk version (ClustalX) från denna webbplats - http://www.clustal.org/clustal2/ . För att ladda ner, klicka bara på lämplig körbara (dvs. Vinna, Linux, Mac OS X). För Windows program körbara kommer att ladda ner och en popup-meny kommer att kräva att användaren att klicka på "Kör" och sedan installationen börjar. Programmet är väldigt intuitivt, kan sekvenser laddas från en textfil som innehåller sekvenser som är formaterade som NBRF / PIR, FASTA, EMBL / Swiss-Prot, Clustal, GCC / MSF, GCG9 RSF, och GDE. Sekvenser är i linje genom att klicka på "göra en fullständig anpassning" från menyn "anpassning". Ett prov inriktning av sex proteinsekvenser i linje med hjälp ClustalX kan ses i figur 6. Olika parametrar som teckenstorlek och färg kan lätt ändras, och editing av sekvenser görs genom att klicka på menyn "Redigera". Manuellt raffinerade anpassningar är ofta bättre att helt automatiserade metoder och på grund av detta, är MSA verktygsutveckling ett mycket aktivt forskningsområde. Några vanliga inriktnings redaktörer finns på följande länkar: Se-Al - http://tree.bio.ed.ac.uk/software/seal/ , BSEdit - http://www.bsedit.org/ ; JalView - http://www.jalview.org/ ; SeaView - http://pbil.univ-lyon1.fr/software/seaview.html .

För aminosyrainpass programmet ProtTest 13 används för att bestämma valet av den bäst anpassade modeller av aminosyraersättningar inom datan. ProtTest gör detta val genom att hitta den modell från listan över kandidat modeller med minsta Akaike Information Criterion (AIC), Bayesian Information Kriterium (BIC) poäng, eller beslut Theory Criterion (DT). Den senaste versionen av ProtTest (version 3.2) innehåller 15 olika kurs matriser som resulterar i 120 olika modeller. Användaren måste ha Java Runtime på deras system för att köra ProtTest. Java Runtime är fritt tillgänglig här - http://www.java.com/en/download/chrome.jsp . Sekvenser inmatas som PHYLIP eller NEXUS format. För att konvertera mellan sekvensformat, använd "readseq" webbprogram finns på - http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi . Klicka på "Välj fil" och ladda sekvensdata. Klicka sedan på "start" och programmet startar. Om du vill ändra antalet modeller som väljs, kan du klicka på knappen "modeller". När programmet startar kommer den att visa en förloppsindikator längst ned och lista de modeller som de håller på att analyseras (Figur 8 https://code.google.com/p/prottest3/wiki/Background . Det finns också en online webbgränssnitt för ProtTest som fungerar precis som den nedladdade versionen, förutom att den endast kan hantera ett begränsat antal sekvenser. Denna webbgränssnitt kan nås genom att klicka här - http://darwin.uvigo.es/software/prottest2_server.html . För nukleotid dataset programmet jModelTest 15 används för att undersöka den statistiska urval av bäst-fit modeller av nukleotidsubstitutioner genom att genomföra AIC, BIC, och DT ovanstående kriterier och även hierarkiska och dynamiska sannolikhet ranson testets (hLRT och dLRT). jModelTest är optimerad för Mac OS X. För ingången, är flera format tillåtna. En tydlig steg-för-steg-guide finns av utvecklarna här - http://computing.bio.cam.ac.uk/local/doc/jmodeltest.pdf

PhyML är ett program som beräknar maximala sannolikheten fylogenier från anpassningar av nukleotid-eller aminosyrasekvenser. PhyML kommer att innehålla ett stort antal ersättningsmodeller kopplade till olika alternativ för att söka trädtopologin utrymme (Figur 10). Programmet kommer att spara resultaten i två textfiler. Den första filen innehåller ML träd i Newick format som lätt kan ses med hjälp av ett träd viewer (se protokoll 6), och den andra filen innehåller statistiken (filnamn, modell, Log-sannolikheten poäng, osv.) Av analysen . Alla parametrar är mycket enkelt in genom att följa menyposter. Mer detaljerade beskrivningar av varje meny opningen förklaras i PhyML manualen finns på PhyML nedladdningssida - https://code.google.com/p/phyml/downloads/list . Mrbayes 5 är ett program som använder Bayesiansk MCMC slutledning över ett antal evolutionära modeller för att rekonstruera släktskapsförhållanden. Programmet fungerar på samma sätt på alla plattformar och en gång laddat ner installationsprogrammet kommer att installera den körbara. För att starta programmet, klicka på den körbara. Det finns många modeller som kan ställas in och uppgifter om varje modell och deras kommandon finns här - http://mrbayes.sourceforge.net/wiki/index.php/Tutorial . En annan hjälp alternativ är att skriva "help LSet" - detta kommer att ge information om Model inställning. Till exempel "pRSET aamodelpr = blandad" kommer att tillåta blandad modellering eller "pRSET aamodelpr = fast (WAG)" kommer att ställa aminosyran modellen till WA G modell. En utgrupp kan enkelt ställa genom att ange Taxon nummer "utgrupp 30", programmet visar automatiskt sekvenser / Taxa i antal. Om en utgrupp inte anges trädet blir orotad. När programmet är igång (bild 11) framsteg kan ses i specifika intervall som kan ställas in med hjälp av "printfreq = X"-kommandot. Mer information om när du ska sluta analysen (dvs. Hur många generationer att köra för) finns i bruksanvisningen. Clade värden på en cladogram finns i resultaten vid sidan av en phylogram som också finns i Newick format som lätt kan ses med hjälp av ett träd viewer (se protokoll 6).

En i ett fylogenetiskt träd alstras, behöver topologi som skall visualiseras. Det finns många online-verktyg och nedladdningsbara program som används för att visualisera träd topologier. En ofullständig lista över populära program kan ses här -ylogenetic_tree_visualization_software">http://en.wikipedia.org/wiki/List_of_phylogenetic_tree_visualization_software , och en mer omfattande lista finns här - http://www.treedyn.org/overview/editors.html . Treeview 14 och TreeDyn 16 är två populära val. Båda är mycket användarvänlig och lätt att bekanta sig med de olika alternativen. Treeview körs på Mac och Windows, med nästan identiska gränssnitt. Ingången kan vara en av flera format inklusive NEXUS, PHYLIP, Hennig86, MEGA, och ClustalW / X. Treeview (Figur 12) innehåller också ett träd editor som tillåter användaren att flytta grenar, reroot träd, och ordna utseendet på trädet.

Figur 1
Figur 1. > NCBI BLAST webbsida. BLAST webbserver innehåller en svit av BLAST-program och är värd National Center for Biotechnology Information (NCBI). Klicka här för att visa en större bild.

Figur 2
Figur 2. FASTA formaterad sekvens. FASTA format inleds med en beskrivning linje markeras med en ">". Beskrivningen måste följa omedelbart efter ">"-tecken, sekvensen (dvs.. Nukleotider eller aminosyror) följa beskrivningen på nästa rad. Klicka här för att visa en större bild.

nt "fo: keep-together.within-page =" alltid "> Figur 3
Figur 3. HTML-utdata från en BLAST-sökning. Utgången från BLAST-sökning visar områdena identitet inom frågesekvensen, och även ger bit-poäng, förväntar värderingar och parvisa inriktningar med varje match. Klicka här för att visa en större bild.

Figur 4
Figur 4. Ett exempel på utdata från en lokal BLAST körbar sökning. Utsignalen från denna sökning är en textfil precis som utsignalen från nätet BLAST-gränssnitt, som omfatta förvänta värde och lite poäng, liksom match beskrivning. Klicka här för att visa en större bild.

Figur 5
Figur 5. Produktionen av en MSA med T-kaffe. Utgången lyfter fram liknande sidor och vikter matchen med färgen. Mellanrum infogas som "-" tecken och återstoden eller nukleotidpositionen bevaras för varje taxon. Klicka här för att visa en större bild.

ig6.jpg "/>
Figur 6. Ett prov justering med hjälp ClustalX. Liknande matcher är färgkodade och luckor infogas som ett "-" tecken. Menyraden syns i det övre vänstra. Klicka här för att visa en större bild.

Figur 7
Figur 7. The ProtTest programgränssnittet. Klicka här för att visa en större bild.

Figur 8
FiGure 8. The ProtTest konsolen. ProtTest konsol medan du kör en analys. Förloppsindikatorn visar hur många modeller har slutförts, och huvudfönstret visas logg sannolikheten poäng för varje modell. Klicka här för att visa en större bild.

Figur 9
Figur 9. The PhyML gränssnittet. Klicka här för att visa en större bild.

Figur 10
Figur 10. The PhyML gränssnittsmenyn. När sekvenser laddas in PhyML den första menyn visas, som kan navigeras genom att skriva den bokstav eller symbol på torget fästet. Undermenyer kan nås genom att skriva "+"-tecknet. Klicka här för att visa en större bild.

Figur 11
Figur 11. Mrbayes Interface. När mrbayes lanseras de framsteg kan ses i specifika intervaller in med "printfreq = X"-kommandot. Även om programmet inte kan stoppas under en körning, efter det angivna antalet generationer beräknas användaren kommer att tillfrågas om de vill köra fler generationer.www.jove.com/files/ftp_upload/50975/50975fig11highres.jpg "target =" _blank "> Klicka här för att visa en större bild.

Figur 12
Figur 12. The Treeview-gränssnittet. I denna figur visar Treeview fönstret en provträd av proteiner från Flybase (http://flybase.org/). Filerna importeras genom att klicka på "öppna" alternativ, och välja en lämplig filtyp (t.ex.. Newick format). Klicka här för att visa en större bild.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Vårt hopp för den här artikeln är att det kommer att fungera som en utgångspunkt för att vägleda forskare och studenter som är nya på fylogeni. Genomsekvenseringsprojekt har blivit billigare under de senaste åren och som en följd av efterfrågan på denna teknik användare ökar, och nu produktionen av stora sekvensdatamängder är vanligt i små labb. Dessa datamängder ger ofta forskare med uppsättningar av gener som kräver ett fylogenetiskt ramverk för att börja förstå deras funktion. Dessutom, eftersom fylogeni är att hitta ett hem i ett ständigt ökande antal forskningslaboratorier, vi tänker även för den här artikeln för att fungera som en pedagogisk enhet för studenter intresserade i stort sett i biologisk forskning. Genom att ge användaren information om "varför", "hur" och "där" för vanliga träd bygga verktyg, vi ger en ram för läsaren att börja bekanta sig med dessa program och hur de fungerar. However råder vi läsaren att leka med alla inställningar i varje verktyg i ett försök att förstå hur olika parametrar kan påverka sina sekvensdata, och för att säkerställa kompatibilitet mellan plattform och programvara i varje enskilt fall. Analysen som beskrivs ovan har beräknats med hjälp av en Dell Optiplex 990 med Intel Core i7-processor och en MacBook bärbar dator med en Intel Core 2 Duo-processor, men analyshastigheten och även de särskilda binärer (t.ex.. 32 bitars eller 64 bitars) beror på användarens plattformen.

En utmaning vid sammanställningen av en bruksanvisning som denna för fylogeni, är att området fylogeni, och bioinformatik som helhet, är ett snabbt växande forskningsområde som ständigt släpper ny mjukvara som syftar till att ge bättre väglinjer, likformighets förutsägelser eller fylogenetiska träd . För att minska detta problem, vi har försökt att fokusera på program som har funnits i ett antal år och är fortfarande populär på grund of hur väl de fungerar. Som sagt, vi vill påpeka att det finns många andra verktyg för att ta itu med de problem som vi har beskrivit i den här artikeln, och så uppmuntrar läsaren att utnyttja detta och införliva flera program i sina analyser.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Vi har inget att lämna ut.

Acknowledgments

Vi tackar medlemmar i O'Halloran labbet för kommentarer på manuskriptet. Vi tackar The George Washington University Institutionen för Biological Sciences och Columbian College of Arts and Sciences för Finansiering till D. O'Halloran.

Materials

Name Company Catalog Number Comments
BLAST webpage  http://blast.ncbi.nlm.nih.gov/Blast.cgi
BLAST executables  ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
Preformatted BLAST databases ftp://ftp.ncbi.nlm.nih.gov/blast/db/
Clustal http://www.clustal.org/
Kalign http://msa.sbc.su.se/cgi-bin/msa.cgi
MAFFT http://mafft.cbrc.jp/alignment/software/
MUSCLE http://www.drive5.com/muscle/
T-Coffee http://www.tcoffee.org/Projects/tcoffee/
PROBCONS http://toolkit.tuebingen.mpg.de/probcons 
Se-Al  http://tree.bio.ed.ac.uk/software/seal/
BSEdit  http://www.bsedit.org/
JalView http://www.jalview.org/
SeaView http://pbil.univ-lyon1.fr/software/seaview.html
ProtTest  https://code.google.com/p/prottest3/
Java Runtime  http://www.java.com/en/download/chrome.jsp
Readseq http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi
jModelTest https://code.google.com/p/jmodeltest2/
PhyML https://code.google.com/p/phyml/
MrBayes http://mrbayes.sourceforge.net/download.php
TreeView http://taxonomy.zoology.gla.ac.uk/rod/treeview.html
TreeDyn http://www.treedyn.org/

DOWNLOAD MATERIALS LIST

References

  1. Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207, (4), 647-653 (1989).
  2. Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19, (6), 706-723 (1974).
  3. Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6, (2), 461-464 (1978).
  4. Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52, (5), 696-704 (2003).
  5. Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17, (8), 754-755 (2001).
  6. Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22, (22), 4673-4680 (1994).
  7. Lassmann, T., Sonnhammer, E. L. Kalign--an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
  8. Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33, (2), 511-518 (2005).
  9. Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30, (14), 3059-3066 (2002).
  10. Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32, (5), 1792-1797 (2004).
  11. Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302, (1), 205-217 (2000).
  12. Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15, (2), 330-340 (2005).
  13. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27, (8), 1164-1165 (2011).
  14. Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12, (4), 357-358 (1996).
  15. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9, (8), 772 (2012).
  16. Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).

Comments

0 Comments


    Post a Question / Comment / Request

    You must be signed in to post a comment. Please or create an account.

    Usage Statistics