Una guida pratica per Phylogenetics per i non esperti

Biology

Your institution must subscribe to JoVE's Biology section to access this content.

Fill out the form below to receive a free trial or learn more about access:

 

Summary

Qui si descrive un oleodotto step-by-step per la generazione di filogenesi affidabili da nucleotidiche o aminoacidiche set di dati di sequenza. Questa guida si propone di servire i ricercatori o studenti nuovi ad analisi filogenetica.

Cite this Article

Copy Citation | Download Citations

O'Halloran, D. A Practical Guide to Phylogenetics for Nonexperts. J. Vis. Exp. (84), e50975, doi:10.3791/50975 (2014).

Please note that all translations are automatically generated.

Click here for the english version. For other languages click here.

Abstract

Molti ricercatori, attraverso foci incredibilmente varia, stanno applicando filogenesi alla loro domanda di ricerca (s). Tuttavia, molti ricercatori sono nuovi a questo tema e quindi presenta problemi inerenti. Qui compiliamo un'introduzione pratica alla filogenesi per non esperti. Abbiamo delineare in maniera step-by-step, un gasdotto per la generazione di filogenesi affidabili da insiemi di dati di sequenza del gene. Iniziamo con una interfaccia user-guida per somiglianza strumenti di ricerca attraverso interfacce online così come eseguibili locali. Avanti, esploriamo i programmi per la generazione di allineamenti multipli di sequenze seguite da protocolli per l'utilizzo di software per determinare i modelli di best-fit dell'evoluzione. Abbiamo poi delineare protocolli per ricostruire le relazioni filogenetiche tramite massima verosimiglianza e criteri bayesiani e, infine, descrive gli strumenti per la visualizzazione di alberi filogenetici. Anche se questo non è affatto una descrizione esaustiva di approcci filogenetici, fornisce al lettore pratico informat di partenzaion su applicazioni software chiave comunemente utilizzati da phylogeneticists. La visione di questo articolo sarebbe che potrebbe servire come strumento di formazione pratica per i ricercatori intraprendono studi filogenetici ed anche servire come risorsa educativa che potrebbe essere inserito in una classe o di insegnamento-lab.

Introduction

Al fine di comprendere come due (o più) delle specie si è evoluta, è prima necessario ottenere sequenza o dati morfologici di ogni campione; questi dati rappresentano quantità che possiamo utilizzare per misurare il loro rapporto attraverso lo spazio evolutivo. Proprio come quando si misura la distanza lineare, avendo più dati disponibili (ad esempio miglia, pollici, micron) saranno equivalere a una misurazione più accurata. Ergo, la precisione con cui un ricercatore può dedurre la distanza evolutiva è fortemente influenzato dal volume di dati informativi disponibili per misurare i rapporti. Inoltre, poiché diversi campioni si evolvono a ritmi diversi e da diversi meccanismi, il metodo che usiamo per misurare la relazione tra due taxa influenza direttamente anche la precisione delle misurazioni evolutivi. Pertanto, poiché le relazioni evolutive non osservati direttamente ma invece sono estrapolate dalla sequenza o dati morfologici, il problema di inferire evolutivorelazioni diventa una delle statistiche. Phylogenetics è la branca della biologia in questione con l'applicazione di modelli statistici a modelli di evoluzione al fine di ricostruire in modo ottimale la storia evolutiva tra i taxa. Questa ricostruzione tra taxa viene indicato come filogenesi della specie.

Per contribuire a colmare il divario di conoscenze tra biologi molecolari e biologi evolutivi che descriviamo qui un passo per passo cantiere per inferire filogenesi da un insieme di sequenze. In primo luogo, abbiamo dettaglio i passaggi necessari per l'interrogazione del database utilizzando la base Local Alignment Search Tool (BLAST 1) algoritmo attraverso l'interfaccia web based e anche utilizzando eseguibili locali, questo è spesso il primo passo per ottenere un elenco di sequenze simili a un non meglio identificato interrogazione, anche se alcuni ricercatori potrebbero anche essere interessati a raccogliere dati per un singolo gruppo tramite interfacce web come Phylota (http://www.phylota.net/). BLAST è un algoritmo per comparing aminoacidica primaria o dati di sequenza nucleotidica con un database di sequenze per la ricerca di "hits" che ricordano la sequenza query. Il programma BLAST è stato progettato da Stephen Altschul et al. presso il National Institutes of Health (NIH) 1. Il server BLAST è costituito da un certo numero di programmi diversi, e qui è un elenco di alcuni dei programmi BLAST più comuni:

i) Nucleotide-nucleotide BLAST (BLASTN): Questo programma richiede un ingresso sequenza di DNA e restituisce le sequenze di DNA più simili dal database del DNA che l'utente specifica (ad esempio, per un organismo specifico).

ii) proteina-proteina BLAST (BLASTP): Qui l'utente immette una sequenza proteica e il programma ritorna sequenze proteiche più simili dal database proteina che l'utente specifica.

iii) BLAST iterativo Position-Specific (PSI-BLAST) (blastpgp): L'input utente è un prin sequenza che restituisce un insieme di proteine ​​strettamente correlate, e da questo insieme di dati viene generato un profilo conservati. Successiva una nuova interrogazione viene generata utilizzando solo questi "motivi" conservati che viene utilizzato per interrogare un database di proteine ​​e questo restituisce un ampio gruppo di proteine ​​da cui una nuova serie di "motivi" conservati sono estratti e poi utilizzato per interrogare un database proteina fino ancora più grande insieme di proteine ​​sono retuned e viene generato un altro profilo e il processo ripetuto. Includendo proteine ​​correlate nella query in ogni passo questo programma permette all'utente di identificare sequenze che sono più divergenti.

iv) Nucleotide 6-frame traduzione in proteine ​​(BLASTX): qui l'utente fornisce un ingresso sequenza nucleotidica che viene convertito nei sei fotogrammi concettuali prodotti di traduzione (cioè entrambi i filamenti) nei confronti di un database di sequenza della proteina..

v) Nucleotide 6-frame traduzione nucleotideTraduzione 6-frame (tblastx): Questo programma richiede un ingresso sequenza nucleotidica del DNA e traduce l'ingresso in tutti i sei fotogrammi prodotti di traduzione concettuali che si confronta contro le traduzioni sei fotogrammi di un database sequenza nucleotidica.

vi) Protein-nucleotide Traduzione 6-frame (TBLASTN): Questo programma utilizza un ingresso sequenza proteica da confrontare con tutte e sei le fasi di lettura di un database sequenza nucleotidica.

Avanti, descriviamo i programmi comunemente utilizzati per generare un allineamento di sequenze multiple (MSA) da un dataset sequenza, e questo è seguito da una guida d'uso di programmi che determinano i modelli di best-fit di evoluzione per un dataset sequenza. Ricostruzione filogenetica è un problema statistico, e per questo, metodi filogenetici necessario incorporare un quadro statistico. Questo quadro statistico diventa un modello evolutivo che incorpora il cambiamento sequenza all'interno del dataset. Questo mo evolutivodel comprende un insieme di ipotesi circa il processo di nucleotide o ammino-acidi sostituzioni, e il modello più adatto per un particolare insieme di dati può essere selezionata tramite test statistico. L'adattamento ai dati di diversi modelli possono essere confrontati con i test del rapporto di verosimiglianza (LRTS) o criteri di informazione per selezionare il modello più adatto all'interno di un insieme di quelli possibili. Due criteri informativi comuni sono l'informazione criterio di Akaike (AIC) 2 e il criterio di informazione bayesiano (BIC) 3. Una volta che un allineamento ottimale è generato, ci sono molti metodi diversi per creare una filogenesi dai dati allineati. Ci sono numerosi metodi di inferenza relazioni evolutive, in generale, possono essere suddivisi in due categorie: metodi basati sulla distanza e metodi basati su sequenza. Metodi Distance-based calcolare le distanze a coppie di sequenze, e quindi utilizzare queste distanze per ottenere l'albero. Metodi basati sequenza-usano l'allineamento di sequenza diretta, e di solito ricerche nel tspazio ree utilizzando un criterio di ottimalità. Noi delineare due metodi basati su sequenza per ricostruire le relazioni filogenetiche: sono PhyML 4 che implementa il quadro di massima verosimiglianza, e MrBayes 5 che utilizza bayesiano Markov Chain Monte Carlo inferenza. Probabilità e metodi bayesiani forniscono un quadro statistico per la ricostruzione filogenetica. Fornendo informazioni utente a comunemente usati strumenti di albero di costruzione, si introduce il lettore ai dati necessari richiesti per dedurre relazioni filogenetiche.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Base Local Alignment Search Tool (BLAST): Interfaccia online

  1. Clicca su questo link per visitare il sito web del server BLAST 1 presso il National Center for Biotechnology Information (NCBI). - http://blast.ncbi.nlm.nih.gov/Blast.cgi (Figura 1).
  2. Immettere una sequenza di testo formattato FASTA (vedi figura 2 per esempio) nella casella di ricerca.
  3. Fare clic sul programma BLAST appropriato e banca dati pertinente o le singole specie di interesse da utilizzare nella ricerca e poi cliccare su "BLAST".
    Nota: sequenza FASTA formattato inizia con una riga di descrizione indicata da un segno ">". La descrizione deve seguire immediatamente dopo il segno ">", la sequenza (ad es. Nucleotidi o amminoacidi) seguire la descrizione sulla riga successiva. L'uscita dalla ricerca BLAST è visto come HTML, testo, XML, o colpire taBles (testo o csv) con il default è impostato su HTML (Figura 3).

2. Base Local Alignment Search Tool (BLAST): eseguibili locali

  1. Scaricare le ultime riga di comando eseguibili BLAST BLAST da questo link:
    ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ -
  2. em> Per gli utenti di PC: fare doppio clic sul file più recente esplosione win32.exe e accettare il contratto di licenza e fare clic su Installa.
    Nota: La directory di installazione predefinita è C: NCBI-blast-2.2.27 +.
  3. Configurare la variabile di ambiente PC come segue:
    1. Clicca sul PC pulsante "start", e quindi fare clic destro "computer",
    2. Fare clic su "Proprietà" e nella finestra pop-up fai clic sulla scheda "avanzate"
    3. Fare clic sul pulsante "Variabili d'ambiente" e nel nuovo popup fare clic sul pulsante "nuovo" sotto °e "Variabili utente per utente" sezione
    4. Nel pop-up aggiungere il nome della variabile "Path" e il valore della variabile "C: NCBI-blast-2.2.27 + bin.
      Nota: la directory bin contiene il file eseguibile (cioè BLASTP, ecc.)..
  4. em> Per gli utenti Mac: Apri l'applicazione Terminale (per farlo basta aprire "Finder" e cercare "Terminal" e questa verrà visualizzata l'icona di "terminale"). Nel tipo di finestra di terminale:
    > Ftp ftp.ncbi.nih.gov
    Nota: può anche digitare l'URL utilizzato sopra nell'esempio per PC
  5. Per accedere al NCBI tipo di sito ftp "anonimo" per nome e password, e poi digitare:
    > Cd abbattitori / eseguibili / ULTIME
  6. Elencare gli eseguibili digitando:
    > LS
  7. Scarica l'ultima versione digitando il seguente (o qualunque sia l'ultima versione è attualmente):
    2; ottenere NCBI-blast-2.2.7-macosx.tar.gz
  8. Uscire dal sito ftp server NCBI digitando "exit".
  9. Decomprimere i file scaricati digitando:
    > Tar-xzf NCBI-blast-2.2.7-macosx.tar.gz
  10. Aggiungere il percorso dei binari per l'eseguibile esplosione al vostro percorso in modo che la shell può cercare attraverso questa directory quando alla ricerca di comandi digitando:
    > PATH = $ PATH: new_folder_location
  11. Verificare se questo aggiunto il percorso al percorso digitando:
    > Echo $ PATH
  12. Scarica un preformattati database BLAST (aggiornati quotidianamente) cliccando qui:
    ftp://ftp.ncbi.nlm.nih.gov/blast/db/
  13. Posizionare il database nella cartella "db".
  14. em> Su un PC: aprire un prompt di MS-DOS (per fare ciò cliccate "start" e digitare "cmd" nella barra di ricerca) e cambiare la directory della cartella NCBI-blast digitando:
    C: Users> cd .. [mossesu una cartella]
    C: > cd NCBI-blast-2.2.27 +
    Questo cambierà la directory:
    C: NCBI-blast-2.2.27 +>
  15. Creare il database utilizzando il comando "makedb" seguente:
    > Makedb-in db / briggsae.fasta-dbtype prot-out db / briggsae
    Nota: Nell'esempio riportato di seguito (Figura 4) il database è denominato "briggsae" ed è composto da un gruppo di linkage dall'organismo Caenorhabditis briggsae.
  16. Creare una sequenza proteica query denominata "test" inserendo una sequenza di testo formattato proteina FASTA nella cartella "db".
  17. Interrogare il database tramite una ricerca BLASTP digitando il seguente comando:
    > BLASTP-query db / test.txt-db db / briggsae-out text.txt
  18. em> Su Mac: scaricare un database per le ricerche Blast locali mediante l'accesso al sito ftp NCBI secondo le istruzioni di cui sopra (punto 2.4) e l'Tipo n:
    > Lcd .. / databases /
  19. Scarica il genoma o la sequenza di interesse digitando:
    > Get NC_ [adesione #]. Fna
    Nota: ". Fna" si riferisce alla sequenza nucleotidica FASTA formattato e "FAA." Si riferisce alle sequenze amminoacidiche FASTA formattata.
  20. Digitare "quit" per uscire dal sito ftp.
  21. Rendere il database digitando:
    > Makeblastdb-in db / mouse.faa-out mouse dbtype prot
  22. Inserire una sequenza di interrogazione VELOCE formattata nella cartella "bin" e interrogare il database con il seguente comando:
    > BLASTP-query "il vostro query.fasta"-db "database"-out results.txt

3. Generazione di allineamenti multipli di sequenza

  1. Clicca su questi link per accedere a più di allineamento (MSA) programmi Sequenza comunemente utilizzati:
    ClustalW 6 http://www.clustal.org/
    Kalign 7 http://msa.sbc.su.se/cgi-bin/msa.cgi
    MAFFT 8,9 http://mafft.cbrc.jp/alignment/software/
    MUSCLE 10 http://www.drive5.com/muscle/
    T-Caffè 11 http://www.tcoffee.org/Projects/tcoffee/
    PROBCONS 12 http://toolkit.tuebingen.mpg.de/probcons
  2. Clicca su questo link - http://tcoffee.crg.cat/apps/tcoffee/do:regular - e l'ingresso FASTA dati di sequenza formattati nella casella di ricerca
    Nota: Un esempio di output T-caffè può essere visto in Figura 5, residui simili sono codificati a colori.
  3. Scarica il Clustal MSA come una versione a riga di comando (ClustalW) o v graficaersione (ClustalX) cliccando questo link: http://www.clustal.org/clustal2/ - poi clicca sul file eseguibile appropriato (cioè win, Linux, Mac OS X).
  4. Carica dati FASTA testo formattato sequenza e allineare (Figura 6).

4. Determinazione modelli best-fit di Evolution

  1. Clicca qui per scaricare il programma ProtTest 13:
    http://darwin.uvigo.es/our-software/
  2. Una volta ProtTest è stato scaricato, fare doppio clic sul file ProtTest.jar
  3. Una volta ProtTest viene lanciato, fate clic su "select file" e caricare i dati di sequenza (Figura 7).
  4. Poi cliccare su "start" e il programma inizierà (Figura 8).
    Nota: Al termine della corsa (figura 8), il programma indicherà il miglior modello basato su criteri es "Miglior modello in base ai AIC: WAG + I + G"

5. La deduzione sequenza in base filogenesi da massima verosimiglianza o inferenza bayesiana

  1. Scaricato PhyML 4 qui:
    https://code.google.com/p/phyml/
  2. Lanciare l'eseguibile con un doppio clic l'applicazione appropriata (cioè phyml di Windows, phyml Linux, ecc.) E la finestra di interfaccia pop-up (Figura 9).
  3. Caricare la sequenza di input come una sequenza PHYLIP formattato digitando:
    > "Nome file". PHY
    Nota: Per la conversione tra formati sequencer, utilizzare il programma "Readseq" web disponibile all'indirizzo - http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi .
  4. Lanciare il programma digitando "Y".
  5. Scarica MrBayes 5 qui:
    rceforge.net / download.php "> http://mrbayes.sourceforge.net/download.php
  6. Per avviare il programma, fare clic sul file eseguibile e leggere NEXUS formattato dati di sequenza nel programma digitando:
    > Execute "nome file". Nex
  7. Impostare il modello evolutivo.
  8. Selezionare il numero di generazioni per eseguire digitando:
    > Mcmcp ngen = 1000000 [imposta il numero di generazioni 1000000]
    > Coppa Burnin = 10000 [imposta il Burnin 10000]
  9. Salvare le lunghezze filiali nel file risultati digitando:
    > Mcmcp savebrlens = yes
  10. Eseguire l'analisi digitando:
    > MCMC
  11. Riassumere gli alberi utilizzando il comando "SUMT".

6. Visualizzazione filogenesi

  1. Visualizzare un elenco di programmi di visualizzazione albero qui:
    http://www.treedyn.org/overview/editors.html
  2. Scarica il TreeView 14 progrsono qui:
    http://taxonomy.zoology.gla.ac.uk/rod/treeview.html

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Trovare analogie a una query consente ai ricercatori di attribuiscono un potenziale identità nuove sequenze e anche deducono le relazioni tra le sequenze. Il tipo di input di file per BLAST 1 è FASTA sequenza di testo formattato o GenBank numero di accesso. Sequenza FASTA formattato inizia con una riga di descrizione indicata da un segno ">" (Figura 2). La descrizione deve seguire immediatamente dopo il segno ">", la sequenza (ad es. Nucleotidi o amminoacidi) seguire la descrizione sulla riga successiva. Quando si salvano e file di sequenze di editing, è meglio usare un editor di testo come "Blocco note" a PC o TextWrangler ( http://www.barebones.com/products/textwrangler/ ) per Mac. L'algoritmo BLAST esegue allineamenti "locali", che cerca per brevi tratti di similarità di sequenza. Dopo che l'algoritmo ha guardato tutti i possibili stretche "s "dalla sequenza query e massimamente estesa queste sequenze, poi assembla allineamenti per ogni coppia sequenza di interrogazione. 'quindi importante capire quanto bene queste partite sono, e così BLAST applica statistiche per ogni colpo che comprendono un valore di aspettare (E) e un punteggio bit. Il valore E fornisce un'indicazione della significatività statistica per una partita. Minore è il valore E, il più significativo il colpo, per esempio un allineamento di sequenza con una E-valore di 0,05 significa che la probabilità di questo partita che si verificano solo per caso è di 5 a 100. Il punteggio bit utilizza una specifica matrice di punteggio per fornire un'indicazione di quanto è buono l'allineamento. Più alto è il punteggio bit, migliore è l'allineamento. Simile alla versione online di BLAST, ci sono una serie di parametri che possono essere impostati tramite comandi utilizzando il file eseguibile BLAST locale Una risorsa completa che descrive questi comandi può essere trovato qui -. http://www.ncbi.nlm.nih.gov/books/ NBK1762 /. L'uscita della ricerca locale è un file di testo come l'uscita dall'interfaccia BLAST linea (Figura 4).

Una sequenza Allineamento multiplo (MSA) è un allineamento di sequenza di tre o più sequenze primarie composte di aminoacidi, DNA o RNA. ClustalW 6 pubblicato nel 1994, è uno dei più popolari strumenti di MSA per i biologi. Un amichevole interfaccia online utente che fornisce l'accesso one-stop di diversi strumenti MSA popolari può essere trovata sul server EMBL-EBI qui - http://www.ebi.ac.uk/Tools/msa . L'ingresso per ogni programma può essere FASTA formattato dati di sequenza (vedi figura 2), anche se molti formati differenti sono accettati anche, e numerosi siti mirror per ogni si possono trovare online. Numerosi parametri come sanzioni gap e formati di output possono essere facilmente scelte. Un esempio di output dal MSA T-caffè può essere visto in Figura 5, dove residui simili sono coLOR codificato. In alcuni casi, lo strumento MSA può essere scaricato ed eseguito localmente. Clustal possono essere scaricati come una versione a riga di comando (ClustalW) o una versione grafica (ClustalX) da questo sito - http://www.clustal.org/clustal2/ . Per scaricare, basta fare clic sul file eseguibile appropriato (ad esempio. Win, Linux, Mac OS X). Per Windows il programma eseguibile scaricherà e un menu pop-up richiederà all'utente di fare clic su "Esegui", e quindi installazione inizierà. Il programma è molto intuitivo, le sequenze possono essere caricati da un file di testo contenente sequenze formattati come NBRF / PIR, FASTA, EMBL / Swiss-Prot, Clustal, GCC / MSF, GCG9 RSF, e GDE. Le sequenze sono allineate cliccando su "non completo allineamento" dal menu "allineamento". L'assetto campione di sei sequenze proteiche allineate usando ClustalX può essere visto in Figura 6. Vari parametri quali la dimensione del carattere e il colore possono essere facilmente modificati, e editing di sequenze è sufficiente cliccare sul menu "Modifica". Allineamenti raffinati manuale sono spesso superiore ai metodi completamente automatizzati e per questo, lo sviluppo strumento MSA è una zona molto attiva della ricerca. Alcuni editor di allineamento comuni possono essere trovati nei seguenti link: Se-Al - http://tree.bio.ed.ac.uk/software/seal/ ; BSEdit - http://www.bsedit.org/ ; jalview - http://www.jalview.org/ ; SeaView - http://pbil.univ-lyon1.fr/software/seaview.html .

Per allineamenti aminoacidi programma ProtTest 13 viene utilizzato per determinare la selezione dei modelli best-fit di sostituzioni amminoacidiche all'interno dei dati. ProtTest rende questa selezione trovando il modello dall'elenco dei modelli candidati con il minimo criterio di informazione di Akaike (AIC), bayesiano Informazione Criterion (BIC) punteggio, o la decisione Theory Criterion (DT). L'ultima versione di ProtTest (versione 3.2) include 15 diverse matrici dei tassi che si traducono in 120 modelli diversi. L'utente deve disporre di Java Runtime sul proprio sistema per eseguire ProtTest. Java Runtime è liberamente disponibile qui - http://www.java.com/en/download/chrome.jsp . Le sequenze vengono immessi in formato NEXUS PHYLIP o. Per la conversione tra formati sequencer, utilizzare il programma "Readseq" web disponibile all'indirizzo - http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi . Clicca su "select file" e caricare i dati di sequenza. Poi cliccare su "start" e il programma inizierà. Per modificare il numero di modelli selezionati, è possibile fare clic sul pulsante "modelli". Una volta che il programma inizia verrà visualizzata una barra di avanzamento nella parte inferiore ed elencare i modelli in quanto sono in fase di analisi (Figura 8 https://code.google.com/p/prottest3/wiki/Background . C'è anche un'interfaccia web online ProtTest che funziona come la versione scaricata differenza che può gestire solo un numero limitato di sequenze. Questa interfaccia web è possibile accedere cliccando qui - http://darwin.uvigo.es/software/prottest2_server.html . Per dataset nucleotidiche il programma jModelTest 15 viene utilizzato per esaminare la selezione statistica dei modelli di best-fit di sostituzioni nucleotidiche implementando l'AIC, BIC, e DT criteri di cui sopra e anche prova razione probabilità gerarchica e dinamicas (hLRT e dLRT). jModelTest è ottimizzato per Mac OS X. Per l'ingresso, più formati sono consentiti. Una guida chiara passo-passo è disponibile dagli sviluppatori qui - http://computing.bio.cam.ac.uk/local/doc/jmodeltest.pdf

PhyML è un programma che stima filogenie massima verosimiglianza da allineamenti di nucleotidi e aminoacidi sequenze. PhyML incorporerà un gran numero di modelli di sostituzione accoppiati a varie opzioni per verificare albero topologia spazio (Figura 10). Il programma salverà i risultati in due file di testo. Il primo file conterrà l'albero ML in formato Newick che può essere facilmente visualizzato utilizzando un visualizzatore albero (vedi protocollo 6), e l'altro file conterrà le statistiche (nome, modello, i punteggi Log-verosimiglianza, ecc.) Dell'analisi . Tutti i parametri sono molto facilmente impostati seguendo le voci del menu. Descrizioni più dettagliate di ogni op Menuzione sono spiegate nel manuale PhyML disponibile nella pagina di download PhyML - https://code.google.com/p/phyml/downloads/list . MrBayes 5 è un programma che utilizza bayesiana MCMC inferenza attraverso una serie di modelli evolutivi per ricostruire le relazioni filogenetiche. Il programma si comporta allo stesso modo su tutte le piattaforme e, una volta scaricato il programma di installazione installerà l'eseguibile. Per avviare il programma, è sufficiente fare clic sul file eseguibile. Ci sono numerosi modelli che possono essere impostati e dettagli di ogni modello ed i relativi comandi possono essere trovati qui - http://mrbayes.sourceforge.net/wiki/index.php/Tutorial . Un'altra opzione di aiuto è quello di digitare "help LSet" - questo fornirà informazioni sulle impostazioni Model. Ad esempio, "pRSET aamodelpr = misto" permetterà di modellazione mista o "pRSET aamodelpr = fisso (WAG)" imposterà il modello aminoacido alla WA Modello G. Un outgroup può essere facilmente impostata specificando il numero Taxon "outgroup 30", il programma elenca automaticamente sequenze / Taxa per numero. Se un outgroup non viene specificato l'albero sarà senza radice. Una volta che il programma è in esecuzione (Figura 11) il progresso può essere visualizzato in intervalli specifici che possono essere impostate mediante il comando "printfreq = X". Maggiori dettagli su quando interrompere l'analisi (per esempio. Quante generazioni a correre per) può essere trovato nel manuale d'uso. Valori clade su una cladogram sono ottenute nei risultati accanto un phylogram anch'esso fornito in formato Newick che può essere facilmente visualizzato utilizzando un visualizzatore albero (vedi protocollo 6).

Una volta generato un albero filogenetico, la topologia deve essere visualizzato. Ci sono molti strumenti online e le applicazioni scaricabili utilizzati per visualizzare ad albero. Un elenco parziale dei programmi popolari può essere vista qui -ylogenetic_tree_visualization_software">http://en.wikipedia.org/wiki/List_of_phylogenetic_tree_visualization_software , e un elenco completo può essere trovato qui - http://www.treedyn.org/overview/editors.html . TreeView 14 e TreeDyn 16 sono due scelte popolari. Entrambi sono molto user friendly e facile da acquisire familiarità con le varie opzioni. TreeView gira su Mac e Windows, utilizzando interfacce quasi identici. L'ingresso può essere uno dei diversi formati tra cui NEXUS, PHYLIP, Hennig86, MEGA, e ClustalW / X. TreeView (Figura 12) include anche un editor di albero che permette all'utente di spostare rami, alberi reroot, e riorganizzare l'aspetto della struttura.

Figura 1
Figura 1. > NCBI BLAST pagina web. Il web server BLAST contiene una suite di programmi BLAST ed è ospitato dal Centro Nazionale for Biotechnology Information (NCBI). Clicca qui per vedere l'immagine ingrandita.

Figura 2
Figura 2. Sequenza FASTA formattato. Formato FASTA inizia con una riga di descrizione indicata dal segno ">". La descrizione deve seguire immediatamente dopo il segno ">", la sequenza (ad es. Nucleotidi o amminoacidi) seguire la descrizione sulla riga successiva. Clicca qui per vedere l'immagine ingrandita.

nt "fo: keep-together.within-page =" always "> Figura 3
Figura 3. Output HTML da una ricerca BLAST. L'uscita dalla ricerca BLAST illustra le aree di identità all'interno della sequenza query e fornisce anche bit-punteggi, si aspettano valori e allineamenti a coppie con ogni incontro. Clicca qui per vedere l'immagine ingrandita.

Figura 4
Figura 4. Un output di esempio da una ricerca eseguibile BLAST locale. L'uscita di questa ricerca è un file di testo come l'uscita dall'interfaccia BLAST online, che includere il valore aspettare e il punteggio bit, così come la descrizione partita. Clicca qui per vedere l'immagine ingrandita.

Figura 5
Figura 5. Emissione di un MSA con T-Caffè. L'uscita evidenzia siti simili e pesi la partita dal colore. Lacune sono inseriti come "-" segni e la posizione residuo o nucleotide è conservato per ogni taxon. Clicca qui per vedere l'immagine ingrandita.

ig6.jpg "/>
Figura 6. L'assetto campione utilizzando ClustalX. Corrispondenze simili sono codificati a colori e le lacune sono inseriti come segno "-". La barra dei menu è visto in alto a sinistra. Clicca qui per vedere l'immagine ingrandita.

Figura 7
Figura 7. L'interfaccia del programma ProtTest. Clicca qui per vedere l'immagine ingrandita.

Figura 8
Figura 8. La console ProtTest. ProtTest console durante l'esecuzione di un'analisi. La barra di avanzamento indica quanti modelli sono stati completati, e la finestra principale visualizza il punteggio log verosimiglianza per ogni modello. Clicca qui per vedere l'immagine ingrandita.

Figura 9
Figura 9. L'interfaccia PhyML. Clicca qui per vedere l'immagine ingrandita.

Figura 10
Figura 10. Il menu PhyML interfaccia. Volta le sequenze vengono caricati nel PhyML appare il primo menu, che può essere navigato digitando la lettera o il simbolo in parentesi quadra. Sottomenu può essere raggiunto digitando il segno "+". Clicca qui per vedere l'immagine ingrandita.

Figura 11
Figura 11. MrBayes Interface. Quando MrBayes viene lanciato il progresso può essere visualizzato in intervalli specifici impostato utilizzando il "printfreq = X" comando. Anche se il programma non può essere fermato durante una corsa, dopo il numero specificato di generazioni vengono calcolati all'utente verrà chiesto se si desidera eseguire più generazioni.www.jove.com/files/ftp_upload/50975/50975fig11highres.jpg "target =" _blank "> Clicca qui per vedere l'immagine ingrandita.

Figura 12
Figura 12. L'interfaccia TreeView. In questa figura la finestra TreeView visualizza un albero campione di proteine ​​da FlyBase (http://flybase.org/). I file vengono importati facendo clic sull'opzione "aperto", e selezionando un tipo di file appropriato (ad es. Formato Newick). Clicca qui per vedere l'immagine ingrandita.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

La nostra speranza per questo articolo è che servirà come punto di partenza per guidare ricercatori o studenti che sono nuovi per filogenesi. Progetti di sequenziamento del genoma sono diventati meno costosi nel corso degli ultimi anni e di conseguenza la domanda degli utenti per questa tecnologia è in aumento, e ora la produzione di grandi quantità di dati di sequenza è comune in piccoli laboratori. Questi dataset spesso forniscono ai ricercatori insiemi di geni che richiedono un quadro filogenetico per iniziare a capire la loro funzione. Inoltre, poiché filogenesi è trovare una casa in un numero sempre crescente di laboratori di ricerca, anche noi intendiamo per questo articolo a servire come un dispositivo educativo per gli studenti interessati ampiamente nella ricerca biologica. Fornendo informazioni utente sul "perché", "come" e "dove" per comunemente usati strumenti tree-building, forniamo un quadro di riferimento per il lettore per cominciare a familiarizzare con queste applicazioni e come funzionano. However, consigliamo il lettore a giocare con tutte le impostazioni all'interno di ogni strumento, nel tentativo di capire come i vari parametri possono influenzare i propri dati di sequenza, e per garantire la compatibilità tra la piattaforma e il software in ogni caso. L'analisi di cui sopra è stato calcolato utilizzando un Dell Optiplex 990 con processore Core i7 di Intel e un computer portatile MacBook con processore Intel Core 2 Duo, tuttavia, la velocità di analisi e anche i binari specifici (ad es. A 32 bit o 64 bit) dipenderanno sulla piattaforma dell'utente.

Una sfida durante la compilazione di una guida d'uso come questo per filogenesi, è che il campo della filogenesi, e bioinformatica nel suo complesso, è un settore in rapida espansione della ricerca che rilascia costantemente nuovo software volto a fornire allineamenti migliori, le previsioni di somiglianza, o alberi filogenetici . Per ovviare a questo problema, abbiamo cercato di concentrarci sui programmi che sono stati intorno per un certo numero di anni e sono ancora popolari in conto of come funzionano. Detto questo, vogliamo sottolineare che ci sono molti altri strumenti disponibili per affrontare i problemi che abbiamo descritte in questo articolo, e quindi incoraggiare il lettore a sfruttare questa e integrare più applicazioni nella loro analisi.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Non abbiamo nulla da rivelare.

Acknowledgments

Ringraziamo i membri del laboratorio O'Halloran per i commenti sul manoscritto. Ringraziamo il Dipartimento dell'Università George Washington di Scienze Biologiche e colombiana Collegio delle Arti e delle Scienze per il finanziamento di D. O'Halloran.

Materials

Name Company Catalog Number Comments
BLAST webpage  http://blast.ncbi.nlm.nih.gov/Blast.cgi
BLAST executables  ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
Preformatted BLAST databases ftp://ftp.ncbi.nlm.nih.gov/blast/db/
Clustal http://www.clustal.org/
Kalign http://msa.sbc.su.se/cgi-bin/msa.cgi
MAFFT http://mafft.cbrc.jp/alignment/software/
MUSCLE http://www.drive5.com/muscle/
T-Coffee http://www.tcoffee.org/Projects/tcoffee/
PROBCONS http://toolkit.tuebingen.mpg.de/probcons 
Se-Al  http://tree.bio.ed.ac.uk/software/seal/
BSEdit  http://www.bsedit.org/
JalView http://www.jalview.org/
SeaView http://pbil.univ-lyon1.fr/software/seaview.html
ProtTest  https://code.google.com/p/prottest3/
Java Runtime  http://www.java.com/en/download/chrome.jsp
Readseq http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi
jModelTest https://code.google.com/p/jmodeltest2/
PhyML https://code.google.com/p/phyml/
MrBayes http://mrbayes.sourceforge.net/download.php
TreeView http://taxonomy.zoology.gla.ac.uk/rod/treeview.html
TreeDyn http://www.treedyn.org/

DOWNLOAD MATERIALS LIST

References

  1. Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207, (4), 647-653 (1989).
  2. Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19, (6), 706-723 (1974).
  3. Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6, (2), 461-464 (1978).
  4. Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52, (5), 696-704 (2003).
  5. Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17, (8), 754-755 (2001).
  6. Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22, (22), 4673-4680 (1994).
  7. Lassmann, T., Sonnhammer, E. L. Kalign--an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
  8. Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33, (2), 511-518 (2005).
  9. Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30, (14), 3059-3066 (2002).
  10. Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32, (5), 1792-1797 (2004).
  11. Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302, (1), 205-217 (2000).
  12. Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15, (2), 330-340 (2005).
  13. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27, (8), 1164-1165 (2011).
  14. Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12, (4), 357-358 (1996).
  15. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9, (8), 772 (2012).
  16. Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).

Comments

0 Comments


    Post a Question / Comment / Request

    You must be signed in to post a comment. Please or create an account.

    Usage Statistics