Een praktische gids voor Phylogenetics voor Nonexperts

Biology

Your institution must subscribe to JoVE's Biology section to access this content.

Fill out the form below to receive a free trial or learn more about access:

 

Summary

Hier beschrijven we een stap-voor-stap pijpleiding genereren betrouwbare fylogenie van nucleotide-of aminozuursequentie datasets. Deze gids is bedoeld om onderzoekers of studenten nieuwe fylogenetische analyse dienen.

Cite this Article

Copy Citation | Download Citations

O'Halloran, D. A Practical Guide to Phylogenetics for Nonexperts. J. Vis. Exp. (84), e50975, doi:10.3791/50975 (2014).

Please note that all translations are automatically generated.

Click here for the english version. For other languages click here.

Abstract

Veel onderzoekers, over ongelooflijk divers foei, solliciteert phylogenetics om hun onderzoeksvraag (s). Echter, veel onderzoekers zijn nieuw voor dit onderwerp en dus presenteert inherente problemen. Een praktische introductie tot fylogenetica voor nonexperts hier compileren we. We schetsen in een stap-voor-stap manier, een pijpleiding voor het genereren betrouwbare fylogenie van gen sequentie datasets. We beginnen met een gebruiksvriendelijke handleiding voor gelijkenis zoekfuncties via online interfaces evenals lokale executables. Vervolgens hebben we programma's voor het genereren van meerdere sequentievergelijkingen gevolgd door protocollen voor het gebruik van software om de best passende modellen van de evolutie bepalen verkennen. Vervolgens hebben we een overzicht van protocollen voor de reconstructie van verwantschappen via maximum likelihood en Bayesiaanse criteria en tenslotte beschrijven tools voor het visualiseren van fylogenetische bomen. Hoewel dit geenszins een uitputtende beschrijving van fylogenetische benaderingen, maar biedt de lezer praktische beginnen information op de belangrijkste software-applicaties gewoonlijk gebruikt door phylogeneticists. De visie voor dit artikel zou zijn dat het kan dienen als een praktische training tool voor onderzoekers aanbreken van fylogenetische studies en ook dienen als een educatief hulpmiddel dat in een klaslokaal of onderwijs-lab zou kunnen worden opgenomen.

Introduction

Om te begrijpen hoe twee (of meer) soorten geëvolueerd, is het eerst nodig om de sequentie of morfologische gegevens te verkrijgen uit elk monster; deze gegevens vertegenwoordigen hoeveelheden die we kunnen gebruiken om hun relatie te meten door evolutionaire ruimte. Net als bij het ​​meten van lineaire afstand, met meer beschikbare gegevens (bijvoorbeeld mijlen, inches, micron) zal neerkomen op een meer accurate meting. Ergo, de nauwkeurigheid waarmee een onderzoeker evolutionaire afstand kunt afleiden is sterk beïnvloed door het volume van de informatieve gegevens beschikbaar om relaties te meten. Bovendien, omdat verschillende monsters evolueren met verschillende snelheden en door verschillende mechanismen, de methode die wij gebruiken om de relatie tussen twee taxa meten ook direct invloed op de nauwkeurigheid van evolutionaire metingen. Daarom, omdat de evolutionaire relaties niet rechtstreeks waargenomen, maar in plaats daarvan worden geëxtrapoleerd uit sequentie of morfologische gegevens, het probleem van het afleiden van evolutionairerelaties wordt een van de statistieken. Phylogenetics is de tak van de betrokken met het toepassen van statistische modellen om patronen van de evolutie om optimaal te reconstrueren de evolutionaire geschiedenis tussen taxa biologie. Deze reconstructie tussen taxa wordt aangeduid als fylogenese de taxa's.

Om u te helpen de kloof in kennis tussen de moleculaire biologen en evolutionaire biologen beschrijven we hier een stap voor stap pijpleiding worden afgeleid fylogenieën uit een set van sequenties. Ten eerste hebben we uitvoerig de stappen die betrokken zijn in de database verhoor met een Basic Local Alignment Search Tool (BLAST 1) algoritme via de webinterface en ook door het gebruik van lokale executables, dit is vaak de eerste stap in het verkrijgen van een lijst met vergelijkbare sequenties aan een onbekende query, hoewel sommige onderzoekers ook geïnteresseerd in het verzamelen van gegevens voor een enkele groep via web interfaces zoals Phylota (http://www.phylota.net/). BLAST is een algoritme voor comparing primaire aminozuur of nucleotide-sequentie data tegen een database van sequenties om te zoeken naar "hits" dat de zoeksequentie lijken. De BLAST programma is ontworpen door Stephen Altschul et al.. bij de National Institutes of Health (NIH) 1. De BLAST server bestaat uit een aantal verschillende programma's, en hier is een lijst van enkele van de meest voorkomende BLAST programma:

i) Nucleotide-nucleotide BLAST (blastn): dit programma is een DNA-sequentie-ingang en geeft de meest vergelijkbare DNA-sequenties van de DNA-databank die de gebruiker opgeeft (bijvoorbeeld voor een bepaald organisme).

ii) eiwit-eiwit BLAST (BLASTP): Hier kan de gebruiker een eiwitsequentie ingangen en het programma keert de meest gelijkende eiwitsequenties van het eiwit database die de gebruiker aangeeft.

iii) Positie-Specifieke Iterative BLAST (PSI-BLAST) (blastpgp): De invoer van de gebruiker is een protein sequentie die een reeks nauw verwante eiwitten keert terug, en vanuit deze dataset een geconserveerd profiel wordt gegenereerd. Vervolgens wordt een nieuwe query gegenereerd met alleen deze geconserveerde "motieven" die wordt gebruikt voor het ondervragen van een eiwit base en dit geeft een grotere groep eiwitten waarvan een nieuwe set geconserveerde "motieven" geëxtraheerd en vervolgens gebruikt voor het ondervragen van een eiwit databank tot een nog grotere groep eiwitten worden opnieuw ingesteld en een ander profiel wordt gegenereerd en het proces herhaald. Door het opnemen van verwante eiwitten in de query in elke stap van dit programma kan de gebruiker sequenties die meer uiteen identificeren.

iv) Nucleotide 6-raamwerktranslatie-eiwit (blastx): Hier de gebruiker een nucleotidesequentie ingang die is omgezet in de zes frame conceptuele translatie producten (beide strengen) tegen een eiwitsequentie databank..

v) Nucleotide 6-raamwerktranslatie nucleotide6-raamwerktranslatie (tblastx): Dit programma duurt een DNA nucleotidesequentie ingang en vertaalt de input in alle zes frames conceptuele vertaling producten die het zich verhoudt ten opzichte van de zes-frame van vertalingen van een nucleotide-sequentie databank.

vi) Eiwit-nucleotide 6-raamwerktranslatie (tblastn): Dit programma maakt gebruik van een eiwitsequentie input vergelijken met alle zes leesramen van een nucleotidesequentie databank.

Vervolgens beschrijven we veelgebruikte programma voor het genereren van een Multiple Sequence Alignment (MSA) een sequentie dataset, en dit wordt gevolgd door een gebruiker een lijst programma's die de best passende modellen evolutie een sequentie dataset te bepalen. Fylogenetische reconstructie is een statistisch probleem, en daardoor moet fylogenetische methoden om een ​​statistisch kader nemen. Deze statistische kader wordt een evolutionair model dat sequentie verandering binnen de dataset bevat. Deze evolutionaire model bestaat uit een set van aannames over het proces van nucleotide of aminozuur substituties, en de best passende model voor een bepaalde gegevensreeks kan worden geselecteerd via statistische testen. De pasvorm van de gegevens van de verschillende modellen kunnen worden vergeleken via likelihood ratio testen (LRTs) of informatie criteria om de best passende model binnen een set van mogelijke degenen te selecteren. Twee veel voorkomende informatie criteria zijn de Akaike informatie criterium (AIC) 2 en de Bayesiaanse informatie criterium (BIC) 3. Zodra een optimale positionering gegenereerd, zijn er veel verschillende methoden om een ​​fylogenie van de uitgelijnde gegevens. Er zijn tal van methoden voor het afleiden van de evolutionaire relaties, in grote lijnen, kunnen ze worden onderverdeeld in twee categorieën: methoden op basis van afstand en sequentie-gebaseerde methoden. Afstand gebaseerde methoden berekenen paarsgewijze afstanden van sequenties, en gebruik vervolgens deze afstanden om de boom te krijgen. Sequentie-gebaseerde methoden te gebruiken de sequence alignment direct, en meestal zoeken in de tree ruimte met behulp van een optimalisatiecriterium. We schetsen twee-sequentie gebaseerde methoden voor de reconstructie van verwantschappen: dit zijn PhyML 4, die de maximum likelihood kader implementeert en MrBayes 5 die Bayesiaanse Markov Chain Monte Carlo gevolgtrekking gebruikt. Waarschijnlijkheid en Bayesiaanse methoden geven een statistisch kader voor fylogenetische reconstructie. Door het verstrekken van informatie voor de gebruiker over de gebruikelijke boom-building tools, introduceren we de lezer om de noodzakelijke gegevens die nodig zijn om verwantschappen afleiden.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Basic Local Alignment Search Tool (BLAST): Online Interface

  1. Klik op deze link om de BLAST 1 web-server bij het ​​National Center for Biotechnology Information (NCBI) bezoeken. - http://blast.ncbi.nlm.nih.gov/Blast.cgi (figuur 1).
  2. Voer een FASTA opgemaakte tekst sequentie (zie figuur 2 bijvoorbeeld) in het zoekvak.
  3. Klikt u op de juiste BLAST het programma en relevante database-of individuele soorten van belang zijn voor gebruik in het zoeken en klik vervolgens op "BLAST".
    Opmerking: FASTA geformatteerd reeks begint met een beschrijving lijn aangegeven door een ">"-teken. De beschrijving moet na de ">"-teken, de reeks (dwz. Nucleotiden of aminozuren) volg dan de beschrijving op de volgende regel onmiddellijk volgen. De output van de BLAST search wordt gezien als HTML, platte tekst, XML, of slaan taBles (tekst of csv) en deze op HTML standaard (figuur 3).

2. Basic Local Alignment Search Tool (BLAST): Lokale Executables

  1. Download de nieuwste BLAST command-line BLAST executables van deze link:
    ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ -
  2. em> Voor pc-gebruikers: dubbelklik op het laatste ontploffing win32.exe bestand en accepteer de licentieovereenkomst en klik op installeren.
    Opmerking: De standaard installatie map is C: ncbi-blast-2.2.27 +.
  3. Configureren van de PC-omgeving variabele als volgt:
    1. Klik op de PC "start" knop, en klik dan rechts op "computer",
    2. Klik op "Eigenschappen" en in de pop-up klikt u op het tabblad "Geavanceerd"
    3. Klik op de "Omgevingsvariabelen knop" en in de nieuwe pop-up klikt u op de "nieuwe" knop onder the "User variabelen voor de gebruiker" sectie
    4. In de pop-up toe te voegen van de variabele naam "Path" en variabele waarde "C: ncbi-blast-2.2.27 + bin.
      Let op: de bin directory bevat het uitvoerbare (dwz BLASTP, enz.)..
  4. em> Voor Mac-gebruikers: Open het programma Terminal (om dit te doen gewoon geopend "Finder" en zoek "Terminal" en dit zal het pictogram "terminal" weer te geven). In de terminal venster type:
    > Ftp ftp.ncbi.nih.gov
    Opmerking: kunt ook de bovenstaande URL in het voorbeeld gebruikte voor PC
  5. Voor toegang tot de NCBI FTPplaats soort "anonieme" om naam en wachtwoord, en vervolgens het type:
    > Cd blast / executables / LAATSTE
  6. Noem de executables door te typen:
    > Ls
  7. Download de laatste versie door het volgende te typen (of wat de laatste versie is op dit moment):
    2, krijgen ncbi-blast-2.2.7-macosx.tar.gz
  8. Verlaat de NCBI ftp server site door het intikken van "exit".
  9. Pak het gedownloade bestanden door te typen:
    > Tar-xzf ncbi-blast-2.2.7-macosx.tar.gz
  10. Voeg de locatie van de binaries voor de ontploffing executable naar je pad, zodat de shell kunt zoeken in deze map bij het zoeken naar commando's door te typen:
    > PATH = $ PATH: new_folder_location
  11. Controleer of dit de locatie toegevoegd aan je pad door te typen:
    > Echo $ PATH
  12. Download een vooraf opgemaakte BLAST databases (die dagelijks worden bijgewerkt) door hier te klikken:
    ftp://ftp.ncbi.nlm.nih.gov/blast/db/
  13. Plaats de database in de "db" map.
  14. em> Op een pc: een MS-DOS-prompt (Klik hiervoor op "start" en typ "cmd" in de zoekbalk) en wijzig de directory naar de map ncbi-blast door te typen openen:
    C: Users> cd .. [moveseen map omhoog]
    C: > cd ncbi-blast-2.2.27 +
    Dit zal de map veranderen in:
    C: ncbi-blast-2.2.27 +>
  15. Maak de database met de volgende "makedb" commando:
    > Makedb-in db / briggsae.fasta-DBTYPE prot-out db / briggsae
    Opmerking: In het volgende voorbeeld (figuur 4) de database naam "briggsae" en bestaat uit een koppelingsgroep van Caenorhabditis briggsae.
  16. Maak een query proteïnesequentie genaamd "test" door het invoegen van een FASTA opgemaakte eiwit tekst sequentie in de "db" map.
  17. Ondervragen de database via een blastp zoeken door het intikken van de volgende opdracht:
    > Blastp-query-db / test.txt-db db / briggsae-out text.txt
  18. em> Op een Mac: het downloaden van een databank voor lokale Blast zoekopdrachten door de toegang tot de NCBI ftp website volgens de bovenstaande instructies (stap 2.4) en deType n:
    > Lcd .. / databases /
  19. Download het genoom of sequentie van belang door te typen:
    > Krijgen NC_ [Toetreding #]. Fna
    Opmerking: ". Fna" verwijst naar de FASTA geformatteerde nucleotidesequentie en "faa." Verwijst naar de FASTA geformatteerde aminozuursequenties.
  20. Type "quit" om de ftp-site te verlaten.
  21. Maak de database door te typen:
    > Makeblastdb-in db / mouse.faa-out muis-DBTYPE prot
  22. Plaats een FAST geformatteerde zoeksequentie in de "bin" map en ondervragen de database met het volgende commando:
    > Blastp-vraag "uw query.fasta"-db "database"-out resultaten.txt

3. Het genereren Meerdere sequentievergelijkingen

  1. Klik op deze links om veelgebruikte Multiple sequence alignment (MSA) programma's:
    ClustalW 6 http://www.clustal.org/
    Kalign 7 http://msa.sbc.su.se/cgi-bin/msa.cgi
    MAFFT 8,9 http://mafft.cbrc.jp/alignment/software/
    SPIER 10 http://www.drive5.com/muscle/
    T-Coffee 11 http://www.tcoffee.org/Projects/tcoffee/
    Probcons 12 http://toolkit.tuebingen.mpg.de/probcons
  2. Klik op deze link - http://tcoffee.crg.cat/apps/tcoffee/do:regular - en input FASTA geformatteerde sequence data in het zoekvak
    Opmerking: Een monster uitvoer van T-Koffie kan worden gezien in figuur 5, dergelijke afvallen kleurcodering.
  3. Download de Clustal MSA als een command line versie (ClustalW) of een grafische version (ClustalX) door te klikken op deze link: http://www.clustal.org/clustal2/ - klik dan op het juiste uitvoerbare (dwz win, Linux, Mac OS X).
  4. Upload gegevens als FASTA opgemaakte reeks tekst en lijn (Figuur 6).

4. Het bepalen van Best-fit Modellen van Evolution

  1. Klik hier om de ProtTest 13 programma te downloaden:
    http://darwin.uvigo.es/our-software/
  2. Zodra ProtTest is gedownload, dubbelklikt u op het bestand ProtTest.jar
  3. Zodra ProtTest wordt gelanceerd, klik op "select file" en laad de sequence data (figuur 7).
  4. Klik vervolgens op "start" en het programma zal (figuur 8) beginnen.
    Opmerking: Na afloop van de run (figuur 8), zal het programma het beste model op basis van criteria blijkt bijvoorbeeld "Beste model op basis van AIC: WAG + I + G"

5. Afleiden sequentie gebaseerde fylogenieën door Maximum Likelihood of Bayesian Inference

  1. Gedownload PhyML 4 hier:
    https://code.google.com/p/phyml/
  2. Start de uitvoerbare door te dubbelklikken op de juiste toepassing (dwz phyml Windows, phyml Linux, enz.) En de interface pop-up venster (Figuur 9).
  3. Laad de ingevoerde sequentie als een PHYLIP geformatteerde volgorde door te typen:
    > "Bestandsnaam". Phy
    Opmerking: Om te converteren tussen sequence-indelingen, gebruik de "readseq" web programma verkrijgbaar bij - http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi .
  4. Start het programma door het intikken van "Y".
  5. Download MrBayes 5 hier:
    rceforge.net / download.php "> http://mrbayes.sourceforge.net/download.php
  6. Om het programma te starten klikt u op het uitvoerbare bestand en lees NEXUS geformatteerde sequence data in het programma door te typen:
    > Execute "bestandsnaam". Nex
  7. Stel het evolutionaire model.
  8. Selecteer het aantal generaties gerund door te typen:
    > Mcmcp ngen = 1000000 [Dit stelt het aantal generaties 1000000]
    > Sump Burnin = 10000 [dit stelt de Burnin tot 10000]
  9. Sla de tak lengtes in het resultaat bestand door te typen:
    > Mcmcp savebrlens = yes
  10. Voer de analyse door te typen:
    > MCMC
  11. Vat de bomen met behulp van de "SUMT" commando.

6. Visualiseren fylogenieën

  1. Bekijk een lijst van de boom kijker programma's hier:
    http://www.treedyn.org/overview/editors.html
  2. Download de TreeView 14 progrben hier:
    http://taxonomy.zoology.gla.ac.uk/rod/treeview.html

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Het vinden van overeenkomsten met een query staat onderzoekers toe om een ​​mogelijke identiteit toeschrijven aan nieuwe sequenties en ook afleiden relaties tussen sequenties. Het bestandstype input voor BLAST 1 is FASTA opgemaakte tekst sequentie of GenBank. FASTA geformatteerd reeks begint met een beschrijving lijn aangegeven door een ">"-teken (figuur 2). De beschrijving moet na de ">"-teken, de reeks (dwz. Nucleotiden of aminozuren) volg dan de beschrijving op de volgende regel onmiddellijk volgen. Bij het ​​opslaan en bewerken van bestanden met reeksen, is het het beste om een teksteditor gebruiken, zoals "Notepad" op de PC of TextWrangler ( http://www.barebones.com/products/textwrangler/ ) voor de Mac. De BLAST algoritme voert "lokale" uitlijningen, die zoekt naar korte stukjes sequentie-overeenkomst. Nadat het algoritme heeft keek op alle mogelijke "stretches "van de query sequentie en maximaal uitgebreid deze sequenties, vervolgens assembleert uitlijning voor elke query sequentie paar. Vervolgens is het belangrijk te begrijpen hoe goed deze lucifers, enzovoort BLAST toepassing statistieken elke treffer die een verwachten waarde omvatten (E) en een beetje score. De E-waarde geeft een indicatie van de statistische significantie voor een wedstrijd. Hoe lager het E-waarde, des te groter de hit, bijvoorbeeld een sequence alignment met een E-waarde van 0,05 betekent dat de kans dat dit wedstrijd door toeval alleen is 5 in 100. Het bit score maakt gebruik van een specifieke scorematrix om een ​​indicatie van hoe goed de uitlijning is. Hoe hoger de bit score, hoe beter de uitlijning. Net als bij de online versie van BLAST, er bieden een aantal parameters die via commando's met behulp van de lokale BLAST executable kan worden ingesteld Een uitgebreide bron beschrijven van deze commando's kunt u hier vinden -. http://www.ncbi.nlm.nih.gov/books/ NBK1762 /. De uitgang van de lokaal zoeken is een tekstbestand net als de uitvoer van de online BLAST interface (Figuur 4).

Multiple Sequence Alignment (MSA) is een sequentie-uitlijning van drie of meer primaire sequenties uit aminozuren, DNA of RNA. ClustalW 6 uitgebracht in 1994, is een van de meest populaire MSA instrumenten voor biologen. Een gebruiksvriendelijke online interface die one-stop toegang tot verschillende populaire MSA gereedschappen biedt is te vinden op de EMBL-EBI server hier - http://www.ebi.ac.uk/Tools/msa . De input voor elk programma kan worden FASTA geformatteerd sequence data (zie figuur 2), hoewel vele verschillende formaten worden ook geaccepteerd, en tal van mirror sites voor elke kan online worden gevonden. Tal van parameters zoals gat-sancties en output formaten kunnen gemakkelijk worden gekozen. Een monster via de MSA T-Koffie kan worden gezien in figuur 5, waar soortgelijke residuen color gecodeerd. In sommige gevallen kan de MSA gereedschap worden gedownload en lokaal uitgevoerd. Clustal kan worden gedownload als een command line versie (ClustalW) of een grafische versie (ClustalX) van deze website - http://www.clustal.org/clustal2/ . Om te downloaden, klikt u op het juiste uitvoerbare (dwz. Winnen, Linux, Mac OS X). Voor Windows zal het programma uitvoerbaar te downloaden en een pop-up menu de gebruiker dwingt om op "Run", en vervolgens de installatie zal beginnen. Het programma is zeer intuïtief, kan sequenties uit een tekstbestand met sequenties geformatteerd als NBRF / PIR, FASTA, EMBL / Swiss-Prot, Clustal, GCC / MSF, GCG9 RSF en GDE worden geladen. Sequenties worden uitgelijnd door te klikken op "do volledige aanpassing" van het menu "alignment". Een monster uitlijning van zes eiwitsequenties uitgelijnd met ClustalX is te zien in figuur 6. Verschillende parameters zoals de grootte en kleur lettertype kan eenvoudig worden aangepast, en editing sequenties wordt gedaan door te klikken op de "Edit" menu. Handmatig geraffineerde uitlijningen vaak beter dan volledig geautomatiseerde methoden en daardoor MSA instrument ontwikkeling is een actief gebied van onderzoek. Enkele veel voorkomende uitlijning redactie is te vinden op de volgende links: Se-Al - http://tree.bio.ed.ac.uk/software/seal/ ; BSEdit - http://www.bsedit.org/ ; JalView - http://www.jalview.org/ ; SeaView - http://pbil.univ-lyon1.fr/software/seaview.html .

Voor aminozuur uitlijningen het programma ProtTest 13 wordt gebruikt om het aantal van de best fit modellen aminozuur vervangingen in de gegevens te bepalen. ProtTest maakt deze selectie door het vinden van het model in de lijst van kandidaat-modellen met de kleinste Akaike Information Criterion (AIC), Bayesiaanse Informatie Criterium (BIC) score, of besluit Theorie Criterium (DT). De nieuwste versie van ProtTest (versie 3.2) bevat 15 verschillende tarief matrices die resulteren in 120 verschillende modellen. De gebruiker moet Java Runtime hebben op hun systeem te ProtTest draaien. Java Runtime is hier vrij beschikbaar - http://www.java.com/en/download/chrome.jsp . Sequenties worden ingevoerd als PHYLIP of NEXUS-formaat. Om te converteren tussen sequence-indelingen, gebruik de "readseq" web programma verkrijgbaar bij - http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi . Klik op "select file" en laad de sequence data. Klik vervolgens op "start" en het programma zal beginnen. Om het aantal modellen geselecteerd te wijzigen, klikt u op de "modellen" knop. Zodra het programma begint zal een voortgangsbalk aan de onderkant weer te geven en een lijst van de modellen als ze worden geanalyseerd (Figuur 8 https://code.google.com/p/prottest3/wiki/Background . Er is ook een online webinterface ProtTest die functioneert net zoals de gedownloade versie uitzondering dat het alleen kan omgaan met een beperkt aantal sequenties. Deze web-interface kan worden benaderd door hier te klikken - http://darwin.uvigo.es/software/prottest2_server.html . Voor nucleotide datasets het programma jModelTest 15 wordt gebruikt om de statistische selectie van de best passende modellen van nucleotidesubstituties onderzoeken door de uitvoering van de AIC, BIC, en DT criteria hierboven beschreven en ook hiërarchische en dynamische waarschijnlijkheid rantsoen-tests (hLRT en dLRT). jModelTest is geoptimaliseerd voor Mac OS X. Voor de ingang, zijn meerdere formaten toegestaan. Een duidelijke stap-voor-stap handleiding is beschikbaar door de ontwikkelaars hier - http://computing.bio.cam.ac.uk/local/doc/jmodeltest.pdf

PhyML is een programma dat maximum likelihood fylogenieën schattingen van de aanpassing van het nucleotide of aminozuur sequenties. PhyML zal een groot aantal van substitutie modellen gekoppeld aan verschillende opties om boomtopologie ruimte (figuur 10) zoeken te nemen. Het programma zal resultaten op te slaan in twee tekstbestanden. Het eerste bestand zal de ML boom in Newick formaat dat gemakkelijk kan worden bekeken met behulp van een Boom viewer (zie protocol 6) bevatten, en het andere bestand zal de statistieken bevatten (bestandsnaam, model, Log-likelihood scores, enz.) Van de analyse . Alle parameters zijn zeer gemakkelijk door de menu-items in te stellen. Meer gedetailleerde beschrijvingen van elk menu optie worden uitgelegd in de PhyML handleiding beschikbaar op de PhyML downloadpagina - https://code.google.com/p/phyml/downloads/list . MrBayes 5 is een programma dat Bayesiaanse MCMC gevolgtrekking maakt gebruik over een aantal evolutionaire modellen om verwantschappen te reconstrueren. Het programma gedraagt ​​zich hetzelfde op alle platformen en eenmaal gedownload zal het installatieprogramma de executable installeren. Om het programma te starten, klikt u op het uitvoerbare bestand. Er zijn tal van modellen die kunnen worden ingesteld en de details van elk model en hun commando's kunt u hier vinden - http://mrbayes.sourceforge.net/wiki/index.php/Tutorial . Een andere optie is hulp te 'helpen lset "typt - zal deze informatie op Model instelling verstrekken. Bijvoorbeeld "pRSET aamodelpr = gemengde" zal gemengde modeling of toestaan ​​"pRSET aamodelpr = vaste (wag)" zal het aminozuur model ingesteld op de WA G model. Een outgroup kunnen gemakkelijk door het specificeren van de Taxon nummer "outgroup 30" worden ingesteld, het programma geeft automatisch de sequenties / taxa op nummer. Indien een outgroup niet is opgegeven zal de boom onbewortelde zijn. Zodra het programma draait (Figuur 11) de vorderingen kunnen worden bekeken in bepaalde tussenpozen die kan worden ingesteld met behulp van het commando "printfreq = X". Meer details over wanneer de analyse (dwz. Hoeveel generaties te lopen voor) is te vinden in de handleiding te stoppen. Clade waarden een cladogram worden in de resultaten naast een phylogram die ook voorzien in Newick formaat dat gemakkelijk kan worden bekeken met een boom viewer (zie protocol 6).

Zodra een fylogenetische boom wordt gegenereerd, de topologie te worden gevisualiseerd. Er zijn veel online tools en downloadbare applicaties gebruikt om boomstructuren te visualiseren. Een gedeeltelijke lijst van populaire programma's kunnen hier worden bekeken -ylogenetic_tree_visualization_software">http://en.wikipedia.org/wiki/List_of_phylogenetic_tree_visualization_software , en een meer uitgebreide lijst is hier te vinden - http://www.treedyn.org/overview/editors.html . TreeView 14 en TreeDyn 16 zijn twee populaire keuzes. Beide zijn zeer gebruiksvriendelijk en eenvoudig om vertrouwd te raken met de verschillende opties te worden. TreeView draait op Mac en Windows, met behulp van vrijwel identieke interfaces. De ingang kan een van de verschillende formaten waaronder NEXUS, PHYLIP, Hennig86, MEGA en ClustalW / X. TreeView (Figuur 12) bevat ook een boom editor waarmee de gebruiker om takken bewegen, Reroot bomen, en de volgorde van de verschijning van de boom.

Figuur 1
Figuur 1. > NCBI BLAST webpagina. De BLAST webserver bevat een suite van BLAST-programma's en wordt gehost door het National Center for Biotechnology Information (NCBI). Klik hier voor grotere afbeelding.

Figuur 2
Figuur 2. FASTA geformatteerd sequentie. FASTA formaat begint met een beschrijving lijn aangegeven door een ">". De beschrijving moet na de ">"-teken, de reeks (dwz. Nucleotiden of aminozuren) volg dan de beschrijving op de volgende regel onmiddellijk volgen. Klik hier voor grotere afbeelding.

nt "fo: keep-together.within-page =" altijd "> Figuur 3
Figuur 3. HTML output van een BLAST search. De output van de BLAST search illustreert het gebied van identiteit binnen de zoeksequentie, en biedt ook bit-scores, verwachten waarden en paarsgewijze uitlijningen met elke wedstrijd. Klik hier voor grotere afbeelding.

Figuur 4
Figuur 4. Een voorbeeld van de uitvoer van een lokale BLAST uitvoerbaar zoeken. De output van deze zoektocht is een tekstbestand, net als de uitvoer van de online BLAST-interface, dat zijn de verwachten waarde en bit score, alsook match omschrijving. Klik hier voor grotere afbeelding.

Figuur 5
Figuur 5. Uitgang van een MSA met behulp van T-Coffee. De output benadrukt vergelijkbare sites en gewichten de wedstrijd op kleur. Hiaten worden ingevoegd als "-" tekens en het residu of nucleotide positie wordt bewaard voor elk taxon. Klik hier voor grotere afbeelding.

ig6.jpg "/>
Figuur 6. Een voorbeeld van de uitlijning met behulp ClustalX. Vergelijkbare resultaten zijn kleur gecodeerd en hiaten worden als een geplaatste "-" teken. De menubalk is te zien in de linkerbovenhoek. Klik hier voor grotere afbeelding.

Figuur 7
Figuur 7. Het ProtTest programma-interface. Klik hier voor grotere afbeelding.

Figuur 8
Figuur 8. De ProtTest console. ProtTest console tijdens het uitvoeren van een analyse. De voortgangsbalk geeft aan hoeveel modellen zijn afgerond, en het hoofdvenster toont de log likelihood score voor elk model. Klik hier voor grotere afbeelding.

Figuur 9
Figuur 9. De PhyML interface. Klik hier voor grotere afbeelding.

Figuur 10
Figuur 10. De PhyML interface menu. Zodra sequenties in PhyML worden geladen het eerste menu verschijnt, die kan worden genavigeerd door het intikken van de letter of symbool in de vierkante haken. Submenu's kan worden bereikt door het intikken van de "+"-teken. Klik hier voor grotere afbeelding.

Figuur 11
Figuur 11. MrBayes Interface. Wanneer MrBayes wordt gelanceerd de vooruitgang in specifieke intervallen bekeken worden ingesteld met behulp van de "printfreq = X" commando. Hoewel het programma niet tijdens een run kan worden gestopt, na het opgegeven aantal generaties worden berekend van de gebruiker wordt gevraagd of ze willen meer generaties lopen.www.jove.com/files/ftp_upload/50975/50975fig11highres.jpg "target =" _blank "> Klik hier voor grotere afbeelding.

Figuur 12
Figuur 12. De TreeView interface. In deze figuur toont het TreeView raam een boom in de steekproef van eiwitten uit Flybase (http://flybase.org/). Bestanden worden geïmporteerd door te klikken op de "open"-optie, en het selecteren van een geschikte bestandstype (bijvoorbeeld. Newick formaat). Klik hier voor grotere afbeelding.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Onze hoop voor dit artikel is dat het zal dienen als een startpunt om onderzoekers of studenten die nieuw phylogenetics zijn begeleiden. Genoom sequencing projecten zijn goedkoper geworden in de afgelopen jaren en als gevolg daarvan de gebruiker vraag naar deze technologie neemt toe, en nu de productie van grote sequentie datasets is gemeengoed in kleine laboratoria. Deze datasets bieden vaak onderzoekers groep van genen die een fylogenetische kader vereisen beginnen hun functie te begrijpen. Bovendien, omdat phylogenetics is het vinden van een huis in een steeds toenemend aantal onderzoekslaboratoria, willen we ook voor dit artikel om te dienen als een educatief apparaat voor studenten die geïnteresseerd zijn in grote lijnen in biologisch onderzoek. Door het verstrekken van informatie voor de gebruiker over het "waarom", "hoe" en "waar" voor de meest gebruikte boom-building tools, bieden we een kader voor de lezer om te beginnen om zich vertrouwd te maken met deze toepassingen en hoe ze werken. However, adviseren wij de lezer om te spelen met alle instellingen binnen elk instrument in een poging om te begrijpen hoe de verschillende parameters hun reeks gegevens kunnen beïnvloeden, en compatibiliteit tussen platform en software in elk geval te garanderen. De analyse hierboven beschreven werd berekend met behulp van een Dell Optiplex 990 met Intel Core i7-processor en een MacBook laptop met een Intel Core 2 Duo-processor, maar de snelheid van de analyse en ook de specifieke binaries (bijvoorbeeld. 32 bit of 64 bit) zal afhangen op het platform van de gebruiker.

Een uitdaging bij het opstellen van een handleiding als deze voor fylogenetica, is dat het gebied van phylogenetics, en bioinformatica als geheel, is een snel groeiende gebied van onderzoek dat voortdurend lanceert nieuwe software gericht op het bieden van betere uitlijning, gelijkenis voorspellingen, of fylogenetische bomen . Om dit probleem te verzachten, hebben we geprobeerd te richten op programma's die zijn er al een aantal jaren en zijn nog steeds populair vanwege of hoe goed ze werken. Dat gezegd hebbende, willen we erop wijzen dat er nog vele andere tools beschikbaar om de problemen die we hebben beschreven in dit artikel, en zo de lezer aan te moedigen om deze te benutten en integreren van meerdere applicaties in hun analyses aan te pakken.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

We hebben niets te onthullen.

Acknowledgments

Wij danken de leden van de O'Halloran lab voor commentaar op het manuscript. Wij danken de George Washington University Department of Biological Sciences en Colombiaanse Hogeschool voor de Kunsten en Wetenschappen voor Financiering van D. O'Halloran.

Materials

Name Company Catalog Number Comments
BLAST webpage  http://blast.ncbi.nlm.nih.gov/Blast.cgi
BLAST executables  ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
Preformatted BLAST databases ftp://ftp.ncbi.nlm.nih.gov/blast/db/
Clustal http://www.clustal.org/
Kalign http://msa.sbc.su.se/cgi-bin/msa.cgi
MAFFT http://mafft.cbrc.jp/alignment/software/
MUSCLE http://www.drive5.com/muscle/
T-Coffee http://www.tcoffee.org/Projects/tcoffee/
PROBCONS http://toolkit.tuebingen.mpg.de/probcons 
Se-Al  http://tree.bio.ed.ac.uk/software/seal/
BSEdit  http://www.bsedit.org/
JalView http://www.jalview.org/
SeaView http://pbil.univ-lyon1.fr/software/seaview.html
ProtTest  https://code.google.com/p/prottest3/
Java Runtime  http://www.java.com/en/download/chrome.jsp
Readseq http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi
jModelTest https://code.google.com/p/jmodeltest2/
PhyML https://code.google.com/p/phyml/
MrBayes http://mrbayes.sourceforge.net/download.php
TreeView http://taxonomy.zoology.gla.ac.uk/rod/treeview.html
TreeDyn http://www.treedyn.org/

DOWNLOAD MATERIALS LIST

References

  1. Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207, (4), 647-653 (1989).
  2. Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19, (6), 706-723 (1974).
  3. Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6, (2), 461-464 (1978).
  4. Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52, (5), 696-704 (2003).
  5. Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17, (8), 754-755 (2001).
  6. Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22, (22), 4673-4680 (1994).
  7. Lassmann, T., Sonnhammer, E. L. Kalign--an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
  8. Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33, (2), 511-518 (2005).
  9. Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30, (14), 3059-3066 (2002).
  10. Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32, (5), 1792-1797 (2004).
  11. Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302, (1), 205-217 (2000).
  12. Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15, (2), 330-340 (2005).
  13. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27, (8), 1164-1165 (2011).
  14. Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12, (4), 357-358 (1996).
  15. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9, (8), 772 (2012).
  16. Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).

Comments

0 Comments


    Post a Question / Comment / Request

    You must be signed in to post a comment. Please or create an account.

    Usage Statistics