Un guide pratique pour Phylogenetics pour non-experts

Biology

Your institution must subscribe to JoVE's Biology section to access this content.

Fill out the form below to receive a free trial or learn more about access:

 

Summary

Nous décrivons ici un pipeline étape-par-étape pour générer phylogénies fiables de nucléotides ou d'acides aminés des ensembles de données de séquence. Ce guide vise à servir les chercheurs ou les étudiants nouveaux à l'analyse phylogénétique.

Cite this Article

Copy Citation | Download Citations

O'Halloran, D. A Practical Guide to Phylogenetics for Nonexperts. J. Vis. Exp. (84), e50975, doi:10.3791/50975 (2014).

Please note that all translations are automatically generated.

Click here for the english version. For other languages click here.

Abstract

De nombreux chercheurs, dans des foyers incroyablement diversifiée, appliquent phylogénétique à leur question (s) de recherche. Cependant, de nombreux chercheurs sont de nouveau à ce sujet et il présente des problèmes inhérents. Ici, nous compilons une introduction pratique à la phylogénétique pour non-experts. Nous présentons de façon étape-par-étape, un pipeline pour générer phylogénies fiables de jeux de données de séquences de gènes. Nous commençons avec un guide utilisateur pour les outils de recherche de similarité via des interfaces en ligne ainsi que les exécutables locaux. Ensuite, nous explorons des programmes de génération de multiples alignements de séquences, suivi par des protocoles d'utilisation de logiciel pour déterminer les modèles les mieux adaptées de l'évolution. Nous décrivons ensuite les protocoles pour reconstruire les relations phylogénétiques par maximum de vraisemblance et critères bayésiens et enfin décrire les outils de visualisation des arbres phylogénétiques. Si ce n'est pas par tous les moyens une description exhaustive des approches phylogénétiques, il fournit au lecteur pratique informat départions sur des applications logicielles clés couramment utilisés par les phylogénéticiens. La vision de cet article serait qu'il puisse servir comme un outil de formation pratique pour les chercheurs qui entreprennent des études phylogénétiques et aussi servir comme une ressource éducative qui pourrait être incorporé dans une salle de classe ou un enseignement de laboratoire.

Introduction

Afin de comprendre comment deux (ou plusieurs) espèces ont évolué, il est d'abord nécessaire d'obtenir la séquence ou données morphologiques de chaque échantillon; ces données représentent des quantités que nous pouvons utiliser pour mesurer leur relation dans l'espace évolutif. Tout comme lors de la mesure la distance linéaire, ayant plus de données disponibles (par exemple, mille pouces, microns) seront équivaudrait à une mesure plus précise. Ergo, la précision avec laquelle un chercheur peut en déduire la distance évolutive est fortement influencé par le volume de données d'information disponibles pour mesurer les relations. En outre, parce que les différents échantillons évoluent à des rythmes différents et par des mécanismes différents, la méthode que nous utilisons pour mesurer la relation entre deux taxons influence aussi directement la précision des mesures de l'évolution. Par conséquent, parce que les relations évolutionnaires ne sont pas observés directement mais sont extrapolées à partir de séquence ou des données morphologiques, le problème consistant à déduire l'évolutionrelations devient l'une des statistiques. Phylogénétique est la branche de la biologie concernés par l'application de modèles statistiques à des modèles d'évolution afin de reconstruire l'histoire évolutive de manière optimale entre les taxons. Cette reconstruction entre taxons est considéré comme la phylogénie de taxons.

Pour aider à combler l'écart en matière d'expertise entre les biologistes moléculaires et les biologistes évolutionnaires que nous décrivons ici une étape par étape de pipeline pour inférer des phylogénies à partir d'un ensemble de séquences. Tout d'abord, nous détaillons les étapes interrogation de base de données à l'aide du Local Alignment Search Tool base (BLAST 1) algorithme par l'interface web et également en utilisant des exécutables locaux, ce qui est souvent la première étape dans l'obtention d'une liste de séquences similaires à un inconnu requête, bien que certains chercheurs peuvent également être intéressé par la collecte de données pour un seul groupe via des interfaces Web comme Phylota (http://www.phylota.net/). BLAST est un algorithme de cOMPARAISON primaire d'acides aminés ou des données de séquence nucléotidique à l'encontre d'une base de données pour rechercher des séquences "hits" qui ressemblent à la séquence de requête. Le programme BLAST a été conçu par Stephen Altschul et al. au National Institutes of Health (NIH) 1. Le serveur BLAST se compose d'un certain nombre de programmes, et voici une liste de quelques-uns des programmes les plus communs BLAST:

i) Nucleotide-nucleotide BLAST (blastn): Ce programme nécessite une entrée de séquence d'ADN et retourne séquences d'ADN les plus proches de la base de données d'ADN que l'utilisateur précise (par exemple pour un organisme spécifique).

ii) la protéine-protéine BLAST (blastp): l'utilisateur saisit ici une séquence de protéine et le programme retourne les séquences protéiques les plus similaires à partir de la base de données de protéines que l'utilisateur spécifie.

iii) BLAST itératif position spécifique (PSI-BLAST) (blastpgp): L'entrée de l'utilisateur est un protedans l'ordre qui renvoie un ensemble de protéines étroitement liées, et de cet ensemble de données un profil conservée est généré. Suivant une nouvelle requête est générée en utilisant uniquement ces "motifs" conservées qui sont utilisées pour interroger une base de données de protéines et cela renvoie un plus grand groupe de protéines à partir de laquelle une nouvelle série de "motifs" conservées sont extraits et ensuite utilisé pour interroger une base de données de protéines jusqu'à ce que un nombre encore plus important de protéines sont réglées de nouveau et un autre profil est généré et le processus est répété. En incluant des protéines apparentées à la demande de recherche dans chacune des étapes de ce programme permet à l'utilisateur d'identifier des séquences qui sont plus divergentes.

iv) Nucleotide 6-trame de traduction protéique (blastx): Ici, l'utilisateur fournit une entrée de séquence de nucléotide qui est transformé en les six cadres des produits de traduction conceptuels (à savoir les deux brins) contre une base de données de séquences de protéines..

v) de nucléotides 6-cadre traduction nucléotidesTraduction 6-cadre (tblastx): Ce programme prend une entrée de séquence nucléotidique de l'ADN et traduit l'entrée dans tous les six cadres conceptuels produits de traduction qu'il compare contre les traductions d'une base de données de la séquence nucléotidique six cadres.

vi) 6-trame traduction de protéine-nucléotide (tblastn): Ce programme utilise une entrée de séquence de protéine pour la comparer à l'ensemble des six cadres de lecture d'une base de données de séquences nucléotidiques.

Ensuite, nous décrivons les programmes couramment utilisés pour produire un alignement de séquence multiple (MSA) à partir d'un ensemble de données de séquence, et il est suivi par un mode d'emploi pour des programmes qui déterminent les modèles les mieux adaptées de l'évolution d'un ensemble de données de séquence. Reconstruction phylogénétique est un problème statistique, et de ce fait, les méthodes phylogénétiques ont besoin d'intégrer un cadre statistique. Ce cadre statistique devient un modèle évolutif qui intègre le changement de séquence dans l'ensemble de données. Cette évolution model est composé d'un ensemble d'hypothèses sur le processus de nucléotides ou d'acides aminés substitutions, et le meilleur modèle pour un ensemble de données particulier peut être sélectionnée au moyen de tests statistiques. L'ajustement aux données de modèles différents peuvent être comparés par des tests du rapport de vraisemblance (LRT) ou des critères d'information pour sélectionner le meilleur modèle dans un ensemble de possibles. Deux critères communs d'information sont les informations critère Akaike (AIC) 2 et le critère d'information bayésien (BIC) 3. Une fois un alignement optimal est généré, il existe de nombreuses méthodes différentes pour créer une phylogénie des données alignées. Il existe de nombreuses méthodes de déduire les relations évolutives; généralement, ils peuvent être divisés en deux catégories: les méthodes fondées sur la distance et méthodes basés sur les séquences. Méthodes fondées sur la distance calculent les distances paires de séquences, puis utilisent ces distances pour obtenir l'arbre. Méthodes basés sur les séquences utilisent l'alignement de séquences directement, et la recherche en général le tree espace en utilisant un critère d'optimalité. Nous présentons deux méthodes basés sur les séquences pour reconstruire les relations phylogénétiques: ce sont PhyML 4 qui met en œuvre le cadre du maximum de vraisemblance, et MrBayes 5 qui utilise bayésienne Markov Chain Monte Carlo inférence. Probabilité et méthodes bayésiennes offrent un cadre statistique pour la reconstruction phylogénétique. En fournissant des informations de l'utilisateur sur les outils de renforcement des arbres couramment utilisés, nous introduisons le lecteur aux données nécessaires pour déduire les relations phylogénétiques.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

Une. Local Alignment Search Tool base (BLAST): Interface en ligne

  1. Cliquez sur ce lien pour visiter le serveur BLAST 1 Web du Centre national d'information sur la biotechnologie (NCBI). - http://blast.ncbi.nlm.nih.gov/Blast.cgi (Figure 1).
  2. Entrée une séquence FASTA format de texte (voir la figure 2 par exemple) dans la boîte de recherche.
  3. Cliquez sur le programme BLAST approprié et base de données pertinentes ou les espèces individuelles d'intérêt à utiliser dans la recherche, puis cliquez sur «BLAST».
    Remarque: séquence FASTA formaté commence avec une ligne de description indiquée par un signe ">". La description doit suivre immédiatement après le signe ">", la séquence (c.. Nucléotides ou d'acides aminés) suivre la description sur la ligne suivante. La sortie de la recherche BLAST est considéré comme HTML, texte, XML, ou frapper tables (texte ou csv) avec la configuration par défaut au format HTML (Figure 3).

2. Local Alignment Search Tool base (BLAST): exécutables locaux

  1. Téléchargez les derniers BLAST de ligne de commande exécutables BLAST partir de ce lien:
    ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ -
  2. em> Pour les utilisateurs de PC: double-cliquez sur le dernier fichier explosion de win32.exe et accepter le contrat de licence et cliquez sur Installer.
    Remarque: Le répertoire d'installation par défaut est C: ncbi-haut-2.2.27 +.
  3. Configurer la variable d'environnement de PC comme suit:
    1. Cliquez sur le PC bouton "Démarrer", puis clic droit "ordinateur",
    2. Cliquez sur "Propriétés" et dans le pop-up, cliquez sur l'onglet "avancé"
    3. Cliquez sur le bouton "Variables d'environnement" et dans le nouveau pop-up cliquez sur le bouton "nouveau" sous èmee "variables utilisateur utilisateur pour" section
    4. Dans le pop-up ajouter le nom de la variable "Path" et valeur de la variable "C: ncbi-haut-2.2.27 + bin.
      Remarque: le répertoire bin contient l'exécutable (c'est à dire de blastp, etc.)..
  4. em> Pour les utilisateurs Mac: Ouvrez l'application Terminal (pour ce faire il suffit d'ouvrir "Finder" et la recherche "Terminal" et ceci affichera l'icône "terminal"). Dans le type de fenêtre de terminal:
    > Ftp ftp.ncbi.nih.gov
    Remarque: Vous pouvez taper l'URL utilisée ci-dessus dans l'exemple pour PC
  5. Pour accéder à la NCBI Type "anonyme" pour le nom et mot de passe, puis tapez site ftp:
    > Cd / fourneaux exécutables / DERNIÈRE
  6. Dressez la liste des exécutables en tapant:
    > ls
  7. Obtenir la dernière version en tapant le texte suivant (ou quelle que soit la dernière version est actuellement):
    2; obtenir ncbi-haut-2.2.7-macosx.tar.gz
  8. Quitter le site du serveur ftp NCBI en tapant "exit".
  9. Décompressez les fichiers téléchargés en tapant:
    > Tar-xzf ncbi-haut-2.2.7-macosx.tar.gz
  10. Ajouter l'emplacement des fichiers binaires pour l'exécutable de souffle à votre chemin afin que la coque peut chercher dans ce répertoire lors de la recherche de commandes en tapant:
    > PATH = $ PATH: new_folder_location
  11. Vérifiez si cet ajoute l'emplacement de votre chemin en tapant:
    > Echo $ PATH
  12. Télécharger une bases de données BLAST préformatés (qui sont mises à jour quotidiennement) en cliquant ici:
    ftp://ftp.ncbi.nlm.nih.gov/blast/db/
  13. Placez la base de données dans le dossier "db".
  14. em> Sur un PC: ouvrir une invite de commande MS-DOS (pour ce faire, cliquez sur "Démarrer" et tapez "cmd" dans la barre de recherche) et changer le répertoire dans le dossier ncbi-explosion en tapant:
    C: Users> cd .. [se déplacejusqu'à un dossier]
    C: > cd ncbi-haut-2.2.27 +
    Cela va changer le répertoire:
    C: ncbi-haut-2.2.27 +>
  15. Créer la base de données en utilisant la commande suivante "de makedb":
    > Makedb en db / briggsae.fasta-dbtype prot-out db / briggsae
    Remarque: Dans l'exemple ci-dessous (figure 4) la base de données est appelée "briggsae" et se compose d'un groupe de liaison provenant de l'organisme Caenorhabditis briggsae.
  16. Créer une séquence de protéine de requête appelé "test" par insertion d'une séquence de texte formaté protéines FASTA dans le dossier "db".
  17. Interroger la base de données via une recherche de blastp en tapant la commande suivante:
    > Blastp-query db / test.txt-db db / briggsae-out text.txt
  18. em> Sur un Mac: télécharger une base de données pour les recherches Blast locales par l'accès au site ftp NCBI selon les instructions ci-dessus (étape 2.4) et latype n:
    > Lcd .. / bases de données /
  19. Télécharger le génome ou séquence d'intérêt en tapant:
    > Se NC_ [Accession #]. Fna
    Note: ". Fna" se réfère à la séquence nucléotidique de mise en forme et FASTA "faa." Se réfère aux FASTA formaté séquences d'acides aminés.
  20. Tapez "quitter" pour quitter le site ftp.
  21. Faire la base de données en tapant:
    > Makeblastdb en db / mouse.faa-out souris dbtype prot
  22. Insérez une séquence de requête FAST formatée dans le dossier "bin" et interroger la base de données avec la commande suivante:
    > Blastp-requête "votre query.fasta"-db "votre base de données" Départ results.txt

3. Génération alignements multiples de séquences

  1. Cliquez sur ces liens pour accéder à l'alignement des programmes (MSA) couramment utilisés multiples de séquence:
    ClustalW 6 http://www.clustal.org/
    Kalign 7 http://msa.sbc.su.se/cgi-bin/msa.cgi
    Mafft 8,9 http://mafft.cbrc.jp/alignment/software/
    MUSCLE 10 http://www.drive5.com/muscle/
    T-café 11 http://www.tcoffee.org/Projects/tcoffee/
    Probcons 12 http://toolkit.tuebingen.mpg.de/probcons
  2. Cliquez sur ce lien - http://tcoffee.crg.cat/apps/tcoffee/do:regular - et les séquences au format FASTA entrée dans la boîte de recherche
    Remarque: Un exemple de sortie de T-café peut être vu dans la figure 5, résidus similaires sont codés par couleur.
  3. Télécharger le Clustal MSA comme une version en ligne de commande (ClustalW) ou un graphique version (ClustalX) en cliquant sur ​​ce lien: http://www.clustal.org/clustal2/ - puis cliquez sur l'exécutable approprié (c.-à-gagnant, Linux, Mac OS X).
  4. Télécharger des données sous forme de texte de séquence FASTA formaté et aligner (Figure 6).

4. Déterminer Modèles meilleur ajustement de l'évolution

  1. Cliquez ici pour télécharger le programme ProtTest 13:
    http://darwin.uvigo.es/our-software/
  2. Une fois ProtTest téléchargé, double-cliquez sur le fichier de ProtTest.jar
  3. Une fois ProtTest est lancé, cliquez sur "Sélectionner un fichier" et charger les données de séquence (figure 7).
  4. Puis cliquez sur "Démarrer" et le programme commencera (Figure 8).
    Remarque: Après la fin de la course (figure 8), le programme vous indiquera le meilleur modèle en fonction de critères par exemple "Meilleur modèle selon AIC: WAG + I + G"

5. Inférer séquence basée phylogénies par maximum de vraisemblance ou d'inférence bayésienne

  1. Téléchargé PhyML 4 ici:
    https://code.google.com/p/phyml/
  2. Lancer l'exécutable en double cliquant sur ​​l'application appropriée (c.-à-PhyML Windows, PhyML Linux, etc.) Et la fenêtre d'interface apparaîtra (figure 9).
  3. Chargez la séquence d'entrée comme une séquence PHYLIP formaté en tapant:
    > "Nom de fichier". Phy
    Remarque: Pour convertir des formats de séquence, utilisez le programme "readseq" web disponible à - http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi .
  4. Lancez le programme en tapant "Y".
  5. Télécharger MrBayes 5 ici:
    rceforge.net / download.php "> http://mrbayes.sourceforge.net/download.php
  6. Pour démarrer le programme, cliquez sur le fichier exécutable et lire les données de séquence de NEXUS formatée dans le programme en tapant:
    > Exécuter "nom de fichier". Nex
  7. Réglez le modèle évolutif.
  8. Sélectionnez le nombre de générations à exécuter en tapant:
    > Mcmcp ngen = 1000000 [ce définit le nombre de générations à 1000000]
    > Puisard Burnin = 10000 [cela définit la Burnin 10000]
  9. Enregistrer les longueurs de branches dans le fichier de résultats en tapant:
    > Mcmcp savebrlens = oui
  10. Exécutez l'analyse en tapant:
    > MCMC
  11. Résumer les arbres à l'aide de la commande "SUMT".

6. Visualisation phylogénies

  1. Voir la liste des programmes de visualisation d'arbres ici:
    http://www.treedyn.org/overview/editors.html
  2. Télécharger le TreeView 14 progrsuis ici:
    http://taxonomy.zoology.gla.ac.uk/rod/treeview.html

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Trouver des similitudes avec une requête permet aux chercheurs de attribuent une identité potentielle de nouvelles séquences et également déduire les relations entre les séquences. Le type d'entrée de fichier pour BLAST est une séquence de texte formaté FASTA ou numéro d'accession GenBank. Séquence FASTA formaté commence avec une ligne de description indiquée par un signe «>» (figure 2). La description doit suivre immédiatement après le signe ">", la séquence (c.. Nucléotides ou d'acides aminés) suivre la description sur la ligne suivante. Lors de l'enregistrement et les fichiers de séquence d'édition, il est préférable d'utiliser un éditeur de texte tel que le "Bloc-notes" sur PC ou TextWrangler ( http://www.barebones.com/products/textwrangler/ ) pour Mac. L'algorithme BLAST effectue alignements «locaux», qui recherche pour de courts tronçons de similarité de séquence. Après l'algorithme a regardé possible stretche "s "de la séquence de requête et au maximum étendu ces séquences, il assemble ensuite les alignements pour chaque paire de séquence d'interrogation. Il est donc important de comprendre comment bien ces matchs sont, et ainsi de BLAST s'applique statistiques à chaque coup qui comprennent une valeur s'attendre (E) et un score en bits. L'valeur E donne une indication de la signification statistique d'une correspondance. Plus la valeur E, plus significatif du tube, par exemple un alignement de séquences avec une valeur E de 0,05 signifie que la probabilité de ce rencontre due au hasard seul est de 5 à 100. L'indice de bits utilise une matrice de notation spécifique pour fournir une indication de la qualité de l'alignement est. Plus le score est de peu, la meilleure de l'alignement. similaire à la version en ligne de BLAST, il ya un certain nombre de paramètres qui peuvent être réglés par le biais des commandes en utilisant l'exécutable BLAST locale Une ressource exhaustive de ces commandes peut être trouvé ici -. http://www.ncbi.nlm.nih.gov/books/ NBK1762 /. La sortie de la recherche locale est un fichier texte tout comme la sortie de l'interface en ligne de BLAST (Figure 4).

Un alignement de séquences multiples (MSA) est un alignement de séquences de trois ou plus de séquences primaires d'acides aminés, des ADN, ou ARN. ClustalW 6 sorti en 1994, est l'un des outils MSA les plus populaires pour les biologistes. Une interface en ligne conviviale qui offre un accès à guichet unique à plusieurs outils de MSA populaires peut être trouvé sur le serveur EMBL-EBI ici - http://www.ebi.ac.uk/Tools/msa . L'entrée pour chaque programme peut être FASTA formaté données de séquence (voir la figure 2), bien que de nombreux formats différents sont également acceptées, et de nombreux sites miroirs pour chaque peut être trouvé en ligne. De nombreux paramètres comme les pénalités de brèche et les formats de sortie peuvent être facilement choisis. Un exemple de sortie de la MSA T-Coffee peut être vu sur la figure 5, où des résidus similaires sont color codé. Dans certains cas, l'outil MSA peut également être téléchargé et exécuté localement. Clustal peut être téléchargé en version ligne de commande (ClustalW) ou une version graphique (ClustalX) de ce site - http://www.clustal.org/clustal2/ . Pour télécharger, cliquez sur l'exécutable approprié (c.-à-. Victoire, Linux, Mac OS X). Pour Windows, le programme exécutable sera téléchargé et un menu pop-up, il faudra à l'utilisateur de cliquer sur "Exécuter", puis l'installation commencera. Le programme est très intuitive, les séquences peuvent être chargés à partir d'un fichier texte contenant des séquences formatées comme NBRF / PIR, FASTA, EMBL / Swiss-Prot, Clustal, GCC / MSF, GCG9 RSF, et GDE. Les séquences sont alignées en cliquant sur "ne alignement complet" dans le menu "d'alignement". Un alignement des séquences protéiques six alignées en utilisant ClustalX d'échantillonnage peut être vu sur la figure 6. Différents paramètres tels que la taille de police et la couleur peuvent être facilement modifiés, et editing de séquences se fait en cliquant sur le menu "Edition". Alignements manuellement raffinés sont souvent supérieurs aux méthodes entièrement automatisé et de ce fait, le développement de l'outil MSA est un domaine de recherche très actif. Certains éditeurs d'alignement communs peuvent être trouvés sur les liens suivants: Se-Al - http://tree.bio.ed.ac.uk/software/seal/ ; BSEdit - http://www.bsedit.org/ ; jalview - http://www.jalview.org/ ; SeaView - http://pbil.univ-lyon1.fr/software/seaview.html .

Pour les alignements d'acides aminés du programme ProtTest 13 est utilisée pour déterminer la sélection de modèles de meilleur ajustement des remplacements d'acides aminés à l'intérieur des données. ProtTest fait cette sélection par trouver le modèle dans la liste des modèles candidats avec le plus petit Akaike Information Criterion (AIC), bayésienne Information Criterion (BIC) score, ou théorie de la décision Critère (DT). La dernière version de ProtTest (version 3.2) comprend 15 matrices de taux différents qui entraînent des 120 modèles différents. L'utilisateur doit avoir Java Runtime sur leur système pour exécuter ProtTest. Java Runtime est disponible gratuitement ici - http://www.java.com/en/download/chrome.jsp . Les séquences sont entrés comme PHYLIP ou format de NEXUS. Pour convertir des formats de séquence, utilisez le programme "readseq" web disponible à - http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi . Cliquez sur "Sélectionner un fichier" et charger les données de séquence. Puis cliquez sur "Démarrer" et le programme commencera. Pour modifier le nombre de modèles sélectionnés, vous pouvez cliquer sur le bouton "modèles". Une fois que le programme commence, il affiche une barre de progression au bas et la liste des modèles car ils sont en cours d'analyse (Figure 8 https://code.google.com/p/prottest3/wiki/Background . Il ya aussi une interface web en ligne pour ProtTest qui fonctionne exactement comme la version téléchargée, sauf qu'il ne peut gérer un nombre limité de séquences. Cette interface Web peut être consulté en cliquant ici - http://darwin.uvigo.es/software/prottest2_server.html . Pour des données nucléotidiques programme jModelTest 15 est utilisé pour examiner la sélection statistique des modèles les mieux adaptées de substitutions nucléotidiques par la mise en œuvre de l'AIC, BIC, et les critères décrits ci-dessus DT et également essai probabilité ration hiérarchique et dynamiques (hLRT et dLRT). jModelTest est optimisée pour Mac OS X. Pour l'entrée, plusieurs formats sont autorisés. Un guide clair, étape par étape est disponible par les développeurs ici - http://computing.bio.cam.ac.uk/local/doc/jmodeltest.pdf

PhyML est un programme qui estime phylogénies du maximum de vraisemblance de alignements de séquences de nucléotides ou d'acides aminés. PhyML intégrera un grand nombre de modèles de substitution couplés à différentes options pour rechercher arbre topologie d'espace (figure 10). Le programme enregistrer les résultats dans deux fichiers texte. Le premier fichier contient l'arbre ML au format Newick qui peuvent facilement être consultées en utilisant un visualiseur de l'arbre (voir le protocole 6), et l'autre fichier contiendra les statistiques (nom, modèle, scores log-vraisemblance, etc.) De l'analyse . Tous les paramètres sont très facilement réglés par la suite des éléments de menu. Des descriptions plus détaillées de chaque op Menution sont expliqués dans le manuel PhyML disponible sur la page de téléchargement de PhyML - https://code.google.com/p/phyml/downloads/list . MrBayes 5 est un programme qui utilise l'inférence bayésienne MCMC à travers un certain nombre de modèles évolutifs pour reconstruire les relations phylogénétiques. Le programme comporte de la même sur toutes les plates-formes et une fois téléchargé le programme d'installation va installer l'exécutable. Pour démarrer le programme, il suffit de cliquer sur l'exécutable. Il existe de nombreux modèles qui peuvent être réglés et les détails de chaque modèle et leurs commandes peuvent être trouvés ici - http://mrbayes.sourceforge.net/wiki/index.php/Tutorial . Une autre option d'aide est de taper "aide lset" - ce qui fournira les détails sur le réglage du modèle. Par exemple, "pRSET aamodelpr = mixte» permettra modélisation mixte ou "pRSET aamodelpr = fixe (wag)" va définir le modèle de l'acide aminé de l'Etat de Washington modèle G. Un groupe externe peut être facilement mis en spécifiant le nombre de taxon "de outgroup 30", le programme répertorie automatiquement les séquences / taxons par numéro. Si un groupe externe n'est pas spécifié, l'arbre sera déraciné. Une fois que le programme est en cours d'exécution (Figure 11), le progrès peut être consulté dans des intervalles spécifiques qui peuvent être définies à l'aide de la commande "printfreq = X". Plus de détails sur le moment d'arrêter l'analyse (c.-à-. Combien de générations à courir pour) peut être trouvé dans le manuel de l'utilisateur. valeurs de clade sur un cladogram sont fournis dans les résultats aux côtés d'un phylogramme qui est également disponible en format Newick qui peuvent facilement être consultées en utilisant un visualiseur de l'arbre (voir le protocole 6).

Une fois un arbre phylogénétique est généré, la topologie doit être visualisée. Il existe de nombreux outils en ligne et des applications téléchargeables utilisés pour visualiser les topologies d'arbres. Une liste partielle des programmes populaires peuvent être consultés ici -ylogenetic_tree_visualization_software">http://en.wikipedia.org/wiki/List_of_phylogenetic_tree_visualization_software , et une liste plus complète peut être trouvée ici - http://www.treedyn.org/overview/editors.html . TreeView 14 et 16 TreeDyn deux des choix populaires. Les deux sont très conviviaux et faciles à se familiariser avec les différentes options. TreeView fonctionne sur Mac et Windows, en utilisant des interfaces presque identiques. L'entrée peut être l'un des nombreux formats, y compris NEXUS, PHYLIP, Hennig86, MEGA, et ClustalW / X. TreeView (figure 12) comprend également un éditeur d'arbre qui permet à l'utilisateur de déplacer les branches, les arbres reroot, et réorganiser l'apparition de l'arbre.

Figure 1
Figure 1. > NCBI BLAST page web. Le serveur web pour BLAST contient une suite de programmes BLAST et est hébergé par le National Center for Biotechnology Information (NCBI). Cliquez ici pour agrandir l'image.

Figure 2
Figure 2. Séquence FASTA formaté. Le format FASTA commence par une ligne de description indiquée par un ">". La description doit suivre immédiatement après le signe ">", la séquence (c.. Nucléotides ou d'acides aminés) suivre la description sur la ligne suivante. Cliquez ici pour agrandir l'image.

nt "fo: keep-together.within page =" always "> Figure 3
Sortie HTML Figure 3. Partir d'une recherche BLAST. La sortie de la recherche BLAST illustre les domaines de l'identité au sein de la séquence d'interrogation, et fournit également des bits scores, attendez valeurs et alignements avec chaque match. Cliquez ici pour agrandir l'image.

Figure 4
Figure 4. Un exemple de sortie à partir d'une recherche BLAST exécutable local. La sortie de cette recherche est un fichier texte tout comme la sortie de l'interface de BLAST en ligne, qui inclure la valeur s'attendre et score en bits, ainsi qu'une description de match. Cliquez ici pour agrandir l'image.

Figure 5
Figure 5. Sortie d'un MSA utilisant T-Coffee. La sortie met en évidence des sites similaires et poids du résultat par couleur. Les lacunes sont insérés en tant que "-" des signes et la position de résidu ou nucléotide est conservée pour chaque taxon. Cliquez ici pour agrandir l'image.

ig6.jpg "/>
Figure 6. Un alignement de l'échantillon en utilisant ClustalX. Matchs similaires sont codés par couleur et les lacunes sont insérés comme un signe "-". La barre de menu est visible dans le coin supérieur gauche. Cliquez ici pour agrandir l'image.

Figure 7
Figure 7. L'interface du programme ProtTest. Cliquez ici pour agrandir l'image.

Figure 8
Figure 8. L'console ProtTest. ProtTest console tout en utilisant une analyse. La barre de progression indique le nombre de modèles ont été achevés, et la fenêtre principale affiche le score de vraisemblance logarithmique pour chaque modèle. Cliquez ici pour agrandir l'image.

Figure 9
Figure 9. L'interface PhyML. Cliquez ici pour agrandir l'image.

Figure 10
Figure 10. Le menu PhyML d'interface. Fois que les séquences sont chargés dans PhyML le premier menu apparaît, qui peut être navigué en tapant la lettre ou symbole dans le crochet. Les sous-menus peut être atteint en tapant le signe "+". Cliquez ici pour agrandir l'image.

Figure 11
Figure 11. Interface MrBayes. Quand MrBayes est lancé le progrès peut être vu dans des intervalles spécifiques définie à l'aide de la "printfreq = X" commande. Bien que le programme ne peut pas être arrêté pendant une course, après le nombre spécifié de générations sont calculés, l'utilisateur sera demandé s'ils veulent courir plusieurs générations.www.jove.com/files/ftp_upload/50975/50975fig11highres.jpg "target =" _blank "> Cliquez ici pour agrandir l'image.

Figure 12
Figure 12. L'interface de TreeView. Dans cette figure, la fenêtre TreeView affiche une arborescence de protéines de FlyBase (http://flybase.org/) de l'échantillon. Les fichiers sont importés en cliquant sur ​​l'option "ouverte", et en choisissant un type de fichier approprié (format par exemple. Newick). Cliquez ici pour agrandir l'image.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Notre espoir pour cet article, c'est qu'il servira de point de départ pour guider les chercheurs ou les étudiants qui sont nouveaux pour la phylogénétique. projets de séquençage du génome sont devenus moins coûteux au cours des dernières années et, en conséquence la demande des utilisateurs de cette technologie est de plus en plus, et maintenant la production de grands ensembles de données de séquence est monnaie courante dans les petits laboratoires. Ces ensembles de données sont souvent des chercheurs avec des ensembles de gènes qui nécessitent un cadre phylogénétique de commencer à comprendre leur fonction. En outre, parce que la phylogénétique est de trouver une maison dans un nombre toujours croissant de laboratoires de recherche, nous avons également l'intention de cet article pour servir de dispositif d'enseignement pour les étudiants intéressés largement dans la recherche biologique. En fournissant des informations de l'utilisateur sur le «pourquoi», «comment», et «où» pour des outils de renforcement des arbres couramment utilisés, nous offrons un cadre pour le lecteur de commencer à se familiariser avec ces applications et comment ils fonctionnent. Hependant, nous conseillons au lecteur de jouer avec tous les paramètres de chaque outil dans une tentative de comprendre comment les différents paramètres peuvent influer sur leurs données de séquence, et à assurer la compatibilité entre la plate-forme et le logiciel à chaque fois. L'analyse exposée ci-dessus a été calculé en utilisant un Dell Optiplex 990 avec processeur Core i7 d'Intel et un ordinateur portable MacBook avec un processeur Intel Core 2 Duo, cependant, la vitesse d'analyse ainsi que les binaires spécifiques (par exemple. 32 bits ou 64 bits) dépendront sur la plate-forme de l'utilisateur.

Un défi lors de la compilation d'un mode d'emploi comme celui-ci pour la phylogénie, c'est que le domaine de la phylogénie, et la bio-informatique dans son ensemble, est un domaine en pleine expansion de la recherche qui libère continuellement de nouveaux logiciels visant à fournir de meilleurs alignements, les prévisions de similarité, ou des arbres phylogénétiques . Pour pallier ce problème, nous avons essayé de mettre l'accent sur les programmes qui ont été autour depuis un certain nombre d'années et qui sont encore populaires en raison of comment ils travaillent. Cela dit, nous tenons à souligner qu'il ya beaucoup d'autres outils disponibles pour faire face aux problèmes que nous avons décrites dans cet article, et ainsi encourager le lecteur à exploiter cela et intégrer de multiples applications dans leurs analyses.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Nous n'avons rien à communiquer.

Acknowledgments

Nous remercions les membres du laboratoire O'Halloran des commentaires sur le manuscrit. Nous remercions le ministère de l'Université George Washington des sciences biologiques et Columbian College of Arts and Sciences pour le financement de D. O'Halloran.

Materials

Name Company Catalog Number Comments
BLAST webpage  http://blast.ncbi.nlm.nih.gov/Blast.cgi
BLAST executables  ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
Preformatted BLAST databases ftp://ftp.ncbi.nlm.nih.gov/blast/db/
Clustal http://www.clustal.org/
Kalign http://msa.sbc.su.se/cgi-bin/msa.cgi
MAFFT http://mafft.cbrc.jp/alignment/software/
MUSCLE http://www.drive5.com/muscle/
T-Coffee http://www.tcoffee.org/Projects/tcoffee/
PROBCONS http://toolkit.tuebingen.mpg.de/probcons 
Se-Al  http://tree.bio.ed.ac.uk/software/seal/
BSEdit  http://www.bsedit.org/
JalView http://www.jalview.org/
SeaView http://pbil.univ-lyon1.fr/software/seaview.html
ProtTest  https://code.google.com/p/prottest3/
Java Runtime  http://www.java.com/en/download/chrome.jsp
Readseq http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi
jModelTest https://code.google.com/p/jmodeltest2/
PhyML https://code.google.com/p/phyml/
MrBayes http://mrbayes.sourceforge.net/download.php
TreeView http://taxonomy.zoology.gla.ac.uk/rod/treeview.html
TreeDyn http://www.treedyn.org/

DOWNLOAD MATERIALS LIST

References

  1. Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207, (4), 647-653 (1989).
  2. Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19, (6), 706-723 (1974).
  3. Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6, (2), 461-464 (1978).
  4. Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52, (5), 696-704 (2003).
  5. Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17, (8), 754-755 (2001).
  6. Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22, (22), 4673-4680 (1994).
  7. Lassmann, T., Sonnhammer, E. L. Kalign--an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
  8. Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33, (2), 511-518 (2005).
  9. Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30, (14), 3059-3066 (2002).
  10. Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32, (5), 1792-1797 (2004).
  11. Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302, (1), 205-217 (2000).
  12. Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15, (2), 330-340 (2005).
  13. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27, (8), 1164-1165 (2011).
  14. Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12, (4), 357-358 (1996).
  15. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9, (8), 772 (2012).
  16. Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).

Comments

0 Comments


    Post a Question / Comment / Request

    You must be signed in to post a comment. Please or create an account.

    Usage Statistics