Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Immunology and Infection

À l’aide de l’analyse phylogénétique pour étudier l’origine de gènes eucaryotes

Published: August 14, 2018 doi: 10.3791/56684
* These authors contributed equally

Summary

On décrit une méthode de construction d’un arbre phylogénétique basé sur l’homologie de séquence de bonbons des eucaryotes et des SemiSWEETs de procaryotes. L’analyse phylogénétique est un outil utile pour expliquer le degré de parenté évolutive entre les gènes ou les protéines homologues de groupes d’organismes différents.

Abstract

L’analyse phylogénétique utilise des nucléotides ou de séquences d’acides aminés ou d’autres paramètres, tels que les séquences du domaine et de la structure tridimensionnelle, pour construire un arbre pour montrer la relation évolutive entre les différents taxons (unités de classification) à moléculaire niveau. L’analyse phylogénétique permet également d’enquêter sur les relations de domaine au sein d’un taxon individuel, particulièrement pour les organismes qui ont fait l’objet d’importants changement dans la morphologie et la physiologie, mais pour que les chercheurs n’ont pas les preuves fossiles due à la longue histoire évolutive des organismes ou la rareté de la fossilisation.

Dans ce texte, un protocole détaillé est décrit selon la méthode phylogénétique, notamment l’alignement de séquences d’acides aminés en utilisant Clustal Omega et construction d’arbre phylogénétique ultérieure à l’aide de deux probabilité maximale (ML) de moléculaire génétique évolutive Analyse (MEGA) et Inférence bayésienne via MrBayes. Pour étudier l’origine des gènes eucaryotiques Sucres va finalement être exporté des transporteurs (SWEET), 228 sucreries y compris 35 protéines douces d’eucaryotes unicellulaires et 57 mi-doux de procaryotes ont été analysés. Fait intéressant, les SemiSWEETs ont été trouvés chez les procaryotes, mais sucreries trouvées chez les eucaryotes. Deux arbres phylogénétiques construits à l’aide de méthodes théoriquement distinctes ont toujours suggéré que le premier gène de doux eucaryote pourrait provient de la fusion d’un gène bactérien mi-doux et un gène mi-doux d’archaea. Il est à noter qu’on doit être prudent pour tirer une conclusion fondée uniquement sur l’analyse phylogénétique, bien qu’il soit utile d’expliquer la relation sous-jacente entre taxons différents, ce qui est difficile voire impossible de discerner par le biais de moyens expérimentaux .

Introduction

Séquences d’ADN ou d’ARN transportent l’information génétique pour les phénotypes sous-jacent qui peut être analysé par le biais de méthodes physiologiques et biochimiques ou observés par le biais de preuves morphologiques et fossiles. Dans un sens, l’information génétique est plus fiable qu’évaluation externes phénotypes parce que l’ancien est la base de ce dernier. Dans l’étude de l’évolution, les preuves fossiles est très directe et convaincante. Cependant, beaucoup d’organismes, tels que les micro-organismes, ont peu de chance de former un fossile au cours des âges géologiques depuis longtemps. Par conséquent, informations moléculaires comme des séquences de nucléotides et les séquences d’acides aminés provenant des organismes existants liés sont utiles pour explorer les relations évolutives1. Dans la présente étude, une simple introduction de notions phylogénétique et un protocole facile à apprendre a été fournie pour les nouveaux arrivants qui ont besoin de construire un arbre phylogénétique de leur propre chef.

Peuvent servir pour déduire les relations phylogénétiques entre les gènes homologues, organites ou même les organismes2fois (nucléotides) de l’ADN et les séquences de protéines (acides aminés). Séquences d’ADN sont plus susceptibles d’être affectés par des changements au cours de l’évolution. En revanche, les séquences d’acides aminés sont beaucoup plus stables étant donné que les mutations synonymes dans des séquences de nucléotides ne causent pas de mutations dans les séquences d’acides aminés. Ainsi, des séquences d’ADN sont utiles pour la comparaison des gènes homologues des organismes étroitement liés, alors que les séquences d’acides aminés sont appropriés pour des gènes homologues d’organismes lointainement apparentés3.

Une analyse phylogénétique commence par l’alignement des acides aminés ou de séquences de nucléotides4 provient d’un génome annoté séquençage5 de la base de données listées dans format FASTA, c.-à-d., protéine putative ou exprimée séquences, séquences d’ARN , ou des séquences d’ADN. Il est à noter qu’il est essentiel de recueillir des séquences de haute qualité pour l’analyse, et des séquences homologues seulement peuvent être utilisés pour analyser les relations phylogénétiques. Nombreuses plates-formes comme Clustal W, Clustal X, Muscle, T-café, MAFFT, peut être utilisé pour l’alignement de la séquence. Le plus couramment utilisé est Clustal Omega6,7 (http://www.ebi.ac.uk/Tools/msa/clustalo/), qui peuvent être utilisés en ligne ou peut être téléchargé gratuitement gratuitement. L’outil d’alignement possède de nombreux paramètres que l’utilisateur peut ajuster avant de commencer l’alignement, mais les paramètres par défaut fonctionnent bien dans la plupart des cas. Une fois le processus terminé, les séquences alignées doivent être enregistrés dans un format adapté à l’étape suivante. Ils devraient ensuite être édités ou taillés à l’aide d’un logiciel de retouche, comme BioEdit, car construction d’arbres phylogénétiques de MEGA requiert les séquences de longueur égale (y compris les abréviations d’acides aminés et des traits d’Union. Dans la séquence alignée, n’importe quelle position sans nucléotides ou d’acides aminés est représentée par un trait d’Union «- »). En règle générale, tous les saillie acides aminés ou de nucléotides aux deux extrémités de l’alignement doivent être retiré. En outre, les colonnes contenant des séquences mal alignés dans l’alignement peuvent être supprimés car ils véhiculent des informations précieuses peu et peuvent donner parfois confuses ou fausses informations3. Les colonnes contenant un ou plusieurs traits d’Union peuvent être supprimés en ce moment ou dans l’ultérieurement de la construction de l’arbre. Alternativement, ils peuvent être utilisés pour le calcul phylogénétique. Lorsque l’alignement de séquences et la coupe est terminée, les séquences alignées doivent être enregistrés au format FASTA ou le format désiré, pour une utilisation ultérieure.

Nombreuses plates-formes logicielles fournissent les fonctions de construction arbre à l’aide des algorithmes ou des méthodes différentes. En général, les méthodes peuvent être classés comme méthodes de matrice de distance ou méthodes de données discrètes. Méthodes de matrice de distance sont simples et rapides pour calculer, tandis que les méthodes de données discrètes sont compliqués et fastidieux. Pour les taxons très proches avec un haut degré de partage de l’identité de séquence d’acides aminés ou de nucléotides, une méthode de matrice de distance (Neighbor Joining : NJ ; Méthode de groupe paire non pondérée avec la moyenne arithmétique : UPGMA) est appropriée ; pour les taxons lointainement apparentés, une méthode de données discrètes (Maximum de vraisemblance : ML ; Parcimonie : MP ; Inférence bayésienne) est optimale3,,8. Dans cette étude, les méthodes de ML dans MEGA (6.0.6) et Inférence bayésienne (MrBayes 3.2) ont servi à construire des arbres phylogénétiques9. Idéalement, lorsque le bon modèle et les paramètres sont utilisés, les résultats provenant de différentes méthodes peuvent être compatibles, et ils sont donc plus fiables et plus convaincante.

Pour un arbre phylogénétique de ML, construit à l’aide de MEGA10, le fichier de séquence alignés au format FASTA doit être téléchargé dans le programme. La première étape consiste ensuite à sélectionner le modèle de substitution optimal pour les données téléchargées. Tous les modèles de substitution disponibles sont comparées basé sur les séquences téléchargées, et leurs notes finales seront montrés dans un tableau de résultats. Sélectionnez le modèle le plus petit score de critère BIC (Bayesian Information) (citées en premier dans la table), définir les paramètres de ML selon le modèle recommandé et démarrer le calcul. Le temps de calcul varie de plusieurs minutes à plusieurs jours, en fonction de la complexité des données chargées (longueur des séquences et du nombre de taxons) et les performances de l’ordinateur sur lequel les programmes sont exécutés. Une fois le calcul terminé, un arbre phylogénétique s’affichera dans une nouvelle fenêtre. Enregistrez le fichier sous « FileName.mat ». Après avoir configuré les paramètres pour spécifier l’apparence de l’arbre, sauver une fois de plus. En utilisant cette méthode, MEGA peut générer des chiffres de publication grade arbre phylogénétique.

Pour la construction d’arbre avec MrBayes11, la première étape consiste à transformer la séquence alignée, ce qui est inscrit habituellement au format FASTA, en format de nexus (.nex comme type de fichier). Comment transformer des fichiers FASTA format nexus peut être traitée en MEGA. Ensuite, la séquence alignée sous forme de lien peut être téléchargée en MrBayes. Lorsque le fichier est téléchargé avec succès, spécifiez les paramètres détaillés pour le calcul de l’arbre. Ces paramètres incluent des détails tels que le modèle de substitution d’acides aminés, les taux de variation, nombre de chaîne de Markov chain Monte Carlo (MCMC) couplage, nombre de ngen, moyenne écart-type de répartition des fréquences et ainsi de suite. Après que ces paramètres ont été spécifiés, démarrer le calcul. En fin de compte, deux figures d’arbre en code ASC II, une montrant crédibilité de clade et les autres longueurs de branche montrant, s’affichera sur l’écran.

Le fruit de l’arbre sera automatiquement enregistré comme « FileName.nex.con ». Ce fichier d’arbre peut être ouverts et modifié par FigTree, et le chiffre affiché dans FigTree peut être modifié plus loin pour le rendre plus adapté pour la publication.

Dans cette étude, 228 protéines sucrées, dont 35 bonbons d’eucaryotes unicellulaires et 57 SemiSWEETs de procaryotes, ont été analysés à titre d’exemple. Les bonbons et les SemiSWEETs ont été caractérisées comme le glucose, le fructose ou transporteurs de saccharose à travers les membranes12,13. L’analyse phylogénétique suggère que les deux domaines de MtN3/salive contenant des bonbons pourraient provenir d’une fusion évolutive d’un amer bactérienne et de l' Archéen14.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. alignement de la séquence

  1. Collecter les séquences d’acides aminés de SWEET eucaryote et procaryote amer dans des documents distincts et inscrivez-les au format FASTA. Télécharger des séquences du National Center pour Biotechnology Information (NCBI), laboratoire européen de biologie moléculaire (EMBL) et la Banque de données génétiques des bases de données de Japon (DDBJ) en recherche de similitude avec l’outil de base Local alignement Search Tool (BLAST).
    1. Dans les fichiers d’exemple, recueillir des 228 séquences de protéine douce putative possédant deux domaines MtN3/salive (7 hélices transmembranaires) des eucaryotes et des séquences de protéines mi-doux 57 possédant un seul domaine de MtN3/salive (3 hélices transmembranaires) des procaryotes 13.
    2. Pour simplifier le processus, sélectionnez 35 protéines douces candidat dans des organismes eucaryotes unicellulaires parmi les 228 bonbons putatifs pour construction d’arbres phylogénétiques. Ces séquences sont fixés afin que le lecteur peut pratiquer sur un ensemble de données réel.
  2. Aligner les séquences douces 35 en les introduisant dans Clustal Omega (http://www.ebi.ac.uk/Tools/msa/clustalo/).
    1. Copiez et collez les séquences de protéines au format FASTA dans la zone de saisie ou télécharger un fichier de séquence au format FASTA. Spécifier qu’ils sont la séquence d’acides aminés en cliquant sur l’icône sous le menu déroulant dans la section « étape 1".
    2. Spécifier le format de sortie et d’autres paramètres dans la section « étape 2", si nécessaire. Pour cette étude, définir le format de sortie comme « clustal w/o numéro » et laisser les autres paramètres sur paramètres par défaut. Dans la plupart des cas, les paramètres par défaut fonctionnent bien sans n’importe quelles spécifications.
  3. Présenter et exécuter l’alignement dans la section « étape 3". Elle peut durer de quelques secondes à minutes jusqu'à ce que l’alignement est terminé. Dans le panneau « Sommaire », cliquez-droit sur le lien sous « L’alignement au format CLUSTAL » et enregistrez les séquences alignées sous « 35.clustal » (Figure 1).
  4. Ouvrez le fichier de résultat de l’alignement dans BioEdit.
    1. Sur le panneau principal de BioEdit, cliquez sur « Séquence » et sélectionnez « Modifier l’humeur » dans le premier menu déroulant, puis cliquez sur « Résidus de modifier » dans le sous-menu (Figure 2).
    2. Sélectionner les séquences qui dépasse sur le côté gauche de l’alignement avec le curseur (la séquence sélectionnée apparaîtra en noir), puis cliquez sur l’icône « Supprimer » sous le menu « Edit » pour supprimer les séquences sélectionnées (Figure 3).
    3. Sélectionner et supprimer les séquences qui dépasse sur le côté droit du premier domaine MtN3/salive et conserver les premières séquences parés de domaine de MtN3/salive comme 35-I.fas (Figure 4). De même, supprimer les côtés gauche et droit qui dépassent les séquences du deuxième domaine MtN3/salive et enregistrez-le sous 35-II.fas. Le premier et les deuxième séquences de domaine MtN3/salive peuvent être prédites avec rythme (http://proteinformatics.charite.de/rhythm/inndex.php?site=helix) ou TMHMM (http://www.cbs.dtu.dk/services/TMHMM/) à l’avance.
  5. Ouvrez le fichier 35-I.fas avec MEGA et cliquez sur « align » lorsque vous êtes invité. Sous le menu « Edition », cliquez sur « Sélectionner tout », puis cliquez sur « Sélectionner une » ; On choisira les noms et les séquences des taxons en noir (Figure 5).
    1. Choisissez « Copier » dans le menu « Edit » pour copier les séquences dans le presse-papiers, puis coller les séquences copiées dans un fichier doc.
    2. Dans le fichier doc, remplacez tous les « # » par « > », puis supprimez tous les caractères non apparentés pour les convertir au format FASTA. Ajouter «-I » à la fin de chaque nom de taxon pour les marquer comme les premières séquences de domaine MtN3/salive. Traiter la deuxième séquence de domaine MtN3/salive suivant la même méthode et ajouter «-II » après chaque nom du taxon.
  6. Combiner les premiers et deuxième MtN3/salive domaine des séquences au format FASTA dans un fichier doc.
    1. Charger les séquences combinées dans Clustal Omega à nouveau et aligner les séquences comme décrit ci-dessus. Sauvegardez le résultat comme « 35 realigned.clustal ».
    2. Ouvrez le fichier « 35 realigned.clustal » dans BioEdit, supprimer les résidus d’acides aminés (saillie) inégal aux deux extrémités des séquences alignées et puis enregistrez les séquences comme « 35 realigned.fas ». Cliquez sur « Oui » lorsqu’a averti que certains caractères non standards ne peuvent être sauvés.

2. calcul de l’arbre phylogénétique

  1. Ouvrez « realigned.fas 35 » MEGA.
    1. Cliquez sur le menu « Données » et choisir « Alignement à l’exportation » et conserver l’alignement au format PAUP (nexus) comme « 35.nex » pour une utilisation ultérieure dans MrBayes (Figure 6).
    2. En attendant, cliquez sur l’icône « Modèles » sur le tableau principal de MEGA, choisissez « trouver les meilleures protéines ou l’ADN modèles (ML) » et cliquez sur « OK » dans la fenêtre pop-up. Cliquez « Calculer » pour lancer le modèle de la recherche de processus (Figure 7). Un nouveau panneau de progrès s’ouvrira ; Ce processus dure plusieurs minutes à plusieurs jours, selon la complexité des séquences chargées et performances de l’ordinateur.
      NOTE : Un tableau indiquant que les résultats seront ouvre dès que le processus de recherche de modèle est terminé ( Figure 8). Le plus petit score BIC apparaît tout d’abord, suivie d’une série de différents modèles avec scores BIC en augmentant graduellement. Le premier modèle « LG + G + F » avec le plus petit score BIC est le modèle recommandé pour ML arbre basé sur le fichier « 35 realigned.fas ».
  2. Cliquez sur l’icône « Phylogénie » sur le panneau principal de MEGA, cliquez sur « Construction/Test the Maximum vraisemblance Tree » et puis cliquez sur « Oui » dans le panneau déroulant. Une nouvelle fenêtre s’ouvre montrant différents paramètres doivent être précisés (Figure 9).
    1. Tout d’abord, définissez la valeur « bootstrap » dans le test de la boîte de la phylogénie. 500 ou 1 000 est suffisante dans la plupart des cas. Selon le modèle de substitution, choisissez le type de substitution « acide aminé ». Le but de choisir un modèle de substitution consiste à estimer la vraie différence entre séquences basées sur leurs États présents3.
    2. Sélectionnez « LG avec Freqs. (+F) modèle » (LG + F) dans la zone modèle/méthode. Dans les tarifs et la zone modèle, sélectionnez « Gamma distribuée » (G) pour décrire les variations des taux sur les sites, c’est à dire., donnant plus de poids aux changements à la lente évolution des3sites. Dans la zone sous-ensemble de données, sélectionnez « Terminer la suppression » pour supprimer toutes les colonnes contenant des traits d’Union.
    3. Garder tous les autres paramètres dans leur état par défaut (Figure 9). Après la spécification de ces paramètres, cliquez sur l’icône « Compute » pour démarrer le calcul.

3. présentation de l’arbre phylogénétique

Remarque : Un arbre phylogénétique de ML sera présenté lorsque le calcul à l’aide de MEGA est terminé (Figure 10).

  1. Sous le menu déroulant de l’icône « Dossier » sur le panneau de l’arborescence, choisissez « Save Session en cours » pour sauver le résultat (.mas est le type de fichier par défaut). Dans la présente étude, le résultat a été enregistré comme « 35.mas ». Sur le panneau de l’arborescence, plusieurs paramètres, y compris la longueur du clade, style de l’arbre, arbre topologie, police du nom de taxon, la taille et la couleur, sont affichées et peut être réglé sur différentes options.
  2. Enregistrez le fichier de l’arbre final en cliquant sur l’icône de l’image et enregistrer la figure dans différents formats ou copier l’image comme source pour la retouche photo.

4. analyse de la relation de friandises et de SemiSWEETs à l’aide d’alignement de séquences

Remarque : Cette étape n’a pas peut être nécessaire dans l’analyse des séquences ordinaire.

  1. Aligner les 228 bonbons eucaryotes et 57 SemiSWEETs procaryotes en Clustal oméga comme décrit ci-dessus. Les résultats de l’alignement peuvent être montrées dans Jalview, qui est intégré dans Clustal Omega et copié pour enregistrer dans un éditeur de photo (Figure 11).
    Remarque : Dans l’alignement de l’exemple, quelques SemiSWEETs de α-protéobactéries sont alignées avec le premier domaine MtN3/salive des séquences douces, tandis que SemiSWEETs de méthanobactéries (archaea) sont alignées avec le deuxième domaine de MtN3/salive des séquences douces.

5. phylogénétique Construction avec MrBayes

  1. Pour l’inférence Bayésienne avec MrBayes, ouvrez le fichier exécutable MrBayes et une interface DOS apparaîtra dans une nouvelle fenêtre. La première étape consiste à lire le dossier de données de nexus. Entrée « exécuter le 35.nex » après le prompt (n’oubliez pas d’enregistrer le fichier de nex 35 / dans le même répertoire du fichier exécutable MrBayes, ou indiquer le chemin du fichier avant de le télécharger). Un message de « matrice de lecture réussie » apparaît après la dernière des taxons inscrits aux annexes (Figure 12). Le fichier de nex 35 / déjà été préparé et enregistré dans MEGA (voir 2.1 ci-dessus).
  2. Définissez le modèle évolutionniste.
    1. Après l’invite de commandes, tapez « prset aamodelpr = fixed(lg) ; LSet taux = g ». Le « lg » et « g » correspondant au modèle « LG » et « G » qui se trouve dans MEGA. Une fois la valeur du modèle, tapez « mcmc nchains = ngen 4 = 5 000 000 » après l’invite. L’utilisation de la « nchains = 4 » entrée signifie un nombre total d’une chaîne du froid et de trois chaînes chaudes pour le couplage de la métropole. « ngen = 5 000 000 » signifie pour exécuter des générations 5 000 000 de couplage de la métropole pour la convergence des chaînes froides et chaudes. Dans cette étude, moyenne écart-type de répartition de fréquences inférieures à 0,01 était considéré comme la convergence des chaînes chaudes et froides.
    2. Notez que le nombre de ngen ne peut être prédit avec précision au début du processus et doit généralement être ajustée basée sur la modification de l’écart moyen des fréquences de split. En outre, le numéro de ngen de convergence peut être différent chaque fois quand exécutant le programme basé sur les mêmes données.
  3. Exécuter l’analyse : Cette étape dure de plusieurs minutes à plusieurs jours, en fonction de la complexité des données d’entrée et les performances de l’ordinateur. Après avoir effectué les calculs prédéfinis, une invite vous demandera de « Poursuivre l’analyse (oui/non) ? » Si « non » est tapé après l’invite de commandes, le calcul s’arrête (Figure 13), sinon elle continuera à calculer d’après que le nombre de générations plus loin est introduit. Lorsque le calcul est terminé (avec un écart moyen de split fréquences < 0.01 ou 0.05), arrêter le calcul en tapant « non » après l’invite de l’enquête.
    NOTE : 0,01 est un critère strict, 0,05 est modérée et généralement suffisante.
  4. Résumer les échantillons : Tapez « puisard » après l’invite pour résumer les échantillons des paramètres du modèle (Figure 14). Puis tapez « sumt relburnin = yes burninfrac = 0,25 » après l’invite pour résumer les échantillons de l’arbre. Des informations détaillées sur la construction d’arbres phylogénétiques apparaît comme à la Figure 15, suivie de deux figures de l’arbre qui apparaîtront dans le code ASC II sur l’écran, une montrant crédibilité de clade et les autres longueurs de branche montrant. Dans le même temps, un fichier arbre portant le nom de « 35.nex.con » sera enregistré automatiquement.
  5. Pour une meilleure présentation de l’arbre phylogénétique, ouvrez le fichier « 35.nex.con » d’arbre avec l’outil FigTree (http://tree.bio.ed.ac.uk/software/figtree/), sélectionnez un style ou une taille pour afficher le résultat (Figure 16) ou même la modifier dans un éditeur de photo plus facile à lire.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Les arbres phylogénétiques montrent que tous les domaines de premier MtN3/salive des séquences douces 35 groupés comme un clade et des domaines de deuxième MtN3/salive des séquences douces en cluster comme un autre clade. En outre, l’alignement les bonbons et les SemiSWEETs révèle que certains SemiSWEETs de α-protéobactéries alignement sur le premier domaine MtN3/salive des séquences douces, tandis que la deuxième MtN3/salive SemiSWEETs de méthanobactéries (archaea) domaine des séquences douces. Ensemble, ces résultats suggèrent que les deux domaines de MtN3/salive contenant des bonbons pourraient provenir d’une fusion évolutive d’un amer bactérienne et de l' Archéen14.

Figure 1
Figure 1 : Enregistrer les séquences alignées des 35 bonbons eucaryotes présumés comme « 35.clustal » via Clustal Omega. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 2
Figure 2 : Sélectionnez chemin d’accès dans BioEdit de couper les séquences alignées de « 35.clustal », qui a été préparé en Clustal Omega. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 3
Figure 3 : Sélectionnez et supprimez les séquences inégales sur le côté gauche des premières séquences de domaine MtN3/salive des 35 bonbons eucaryotes putatifs dans BioEdit. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 4
Figure 4 : Les séquences parés du premier domaine MtN3/salive des 35 bonbons eucaryotes putatifs dans BioEdit. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 5
Figure 5 : Sélectionner et copier les premières séquences de domaine MtN3/salive des 35 bonbons eucaryotes putatifs dans MEGA. Les séquences copiés seront collés dans un fichier doc pour l’édition. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 6
Figure 6 : Convertir « 35 realigned.fas » en « 35.nex » (format de PAUP) pour l’inférence Bayésienne ultérieurement. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 7
Figure 7 : Recherchez le modèle de substitution ajusté par MEGA pour la construction d’arbres phylogénétiques de probabilité maximale (ML) basé sur le fichier « 35 realigned.fas ». S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 8
Figure 8 : Un tableau du modèle ajusté substitution calculée pour ML arbre basé sur le fichier « 35 realigned.fas ». S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 9
Figure 9 : Spécifiez les paramètres pour le calcul d’arbre ML basé sur le modèle de substitution ajusté pour « realigned.fas 35 » dans MEGA. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 10
Figure 10 : Un arbre ML original construit par MEGA basé sur « 35 realigned.fas ». À ce stade, de nombreuses options pour la figure de style, taille, couleur, etc.., sont disponibles. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 11
Figure 11 : Alignement de 228 bonbons eucaryotes et 57 SemiSWEETs procaryotes par Clustal Omega. Les résultats ont été présentés dans Jalview, intégré dans Clustal Omega. Dans l’alignement, quelques SemiSWEETs de α-protéobactéries ont été harmonisés avec le premier domaine MtN3/salive des séquences douces, tandis que SemiSWEETs de méthanobactéries (archaea) étaient alignés avec le deuxième domaine de MtN3/salive des séquences douces. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 12
Figure 12 : Charger le fichier « 35.nex » dans MrBayes dans la fenêtre DOS. Afin de montrer les résultats globaux, contenu similaire a été supprimé afin de réduire la longueur de la figure. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 13
Figure 13 : Informations affichées sur l’écran après calcul du fichier « 35.nex » à l’aide de MrBayes. Pour afficher les résultats globaux, contenu similaire a été supprimé afin de réduire la longueur de la figure. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 14
Figure 14 : Résumé des échantillons des paramètres de modèle pour le fichier « 35.nex ». S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 15
Figure 15 : Résumé des échantillons de l’arborescence du fichier « 35.nex ». Pour afficher les résultats globaux, contenu similaire a été supprimé afin de réduire la longueur de la figure. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 16
Figure 16 : L’arbre phylogénétique des « 35.nex.con » affiché par FigTree. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Il devient de plus en plus populaire dans la recherche biologique pour faire un arbre phylogénétique basé sur les séquences de nucléotides ou d’acides aminés séquences8. Généralement, il y a trois étapes critiques de la pratique notamment l’alignement de séquences, évaluation des séquences alignées avec la bonne méthode ou algorithme et la visualisation du calcul résultat comme un arbre phylogénétique. Dans l’étude présentée, trois séries d’alignement de séquences ont été réalisées : tout d’abord, les séquences de protéines sucrées, y compris le premier et le deuxième domaine de MtN3/salive, étaient alignés ; en second lieu, chacune des séquences individuelles MtN3/salive domaine des bonbons comme un taxon indépendant ont été rassemblés et alignés ensemble ; et enfin, mi-doux séquences et séquences douces étaient conjointement alignés. Seul tour d’alignement de séquences est généralement nécessaire pour la construction des arbres phylogéniques.

Dans la phase préliminaire, les séquences homologues peuvent être téléchargés de NCBI ou d’autres bases de données. Ces séquences téléchargés doive subir si elles ne sont pas bien annotées. Dans la première et la deuxième étape, l’alignement et le calcul impossible de démarrer si le format de séquence est incorrect. Par exemple, Clustal Omega rejettera toute dérogation au format FASTA dans le fichier de la séquence. Dans la phase de calcul, Notez que la longueur de séquence, y compris les acides aminés ou de nucléotides et des traits d’Union doivent être égaux avant étant évaluée par méga.

Malgré la richesse des méthodes et modèles pour la construction de l’arbre qui sont disponibles, aucune d'entre elles ne sont infaillible. Des résultats solides et convaincantes sont celles qui sont cohérents entre eux lorsque différents algorithmes ou modèles sont utilisés pour évaluer les données même15. Dans la méthode de ML, la fiabilité de la topologie de l’arborescence dépend en grande partie sur la valeur « bootstrap » de chaque clade ; une valeur « bootstrap » de 70 ou plus est généralement considérée comme fiable. Dans la présente étude, toutes les séquences de domaine MtN3/salive premières mis en cluster comme un clade important avec la valeur « bootstrap » 83. La valeur de l’autre clade contenant toutes les séquences seconde de le domaine MtN3/salive, cependant, était seulement 6 (Figure 10). Pour vérifier l’architecture de l’arbre, MrBayes, qui emploie une méthode complètement différente16 à ML, a servi à analyser la relation des taxons. Les probabilités postérieures16 des clades premier et deuxième domaine provenant de MrBayes étaient respectivement de 100 et 68, (Figure 16).

Une autre limitation de la ML et pour le calcul de MrBayes est que les deux sont fastidieux à exécuter. En utilisant un ordinateur avec les processeurs multi-core et unités de traitement graphique (GPU) est utile pour améliorer les performances de calcul et la vitesse de17,18. Pour l’opération de MrBayes, un ordinateur avec une carte graphique discrète et les pilotes appropriés de CUDA peut accélérer considérablement les calculs de probabilité11.

Sélectionnez le modèle approprié pour le calcul de l’arbre phylogénétique est difficile pour ceux qui ont peu d’expérience. À cet égard, MEGA offre un moyen facile de trouver le meilleur modèle en comparant les scores BIC des modèles. En outre, le récemment mis à jour 6.0 MEGA intègre plusieurs outils alignement séquence tels que MUSCLE et Clustal W10, qui sont très pratiques à utiliser. Il fournit également une modification de la séquence et fonction de construction arbre phylogénétique. Ces caractéristiques expliquent en partie pourquoi ce logiciel est si populaire dans le domaine de calcul évolution moléculaire. Quant à MrBayes, un avantage significatif de cet outil est qu’il peut traiter les types de données mixtes ensemble (p. ex.., les données morphologiques et moléculaires)11et donc les résultats sont plus complets.

En conclusion, cette étude fournit une méthode pour analyser l’origine moléculaire des gènes de protéine-codage qui ont subi des variations complexes tels que fusion après la duplication ou de transfert horizontal de gène (HGT) au cours de l’évolution. Si tout va bien, plus de constatations se révélera avec large application des analyses phylogénétiques dans le domaine de recherche évolutive.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Les auteurs n’ont rien à divulguer.

Acknowledgments

Ce travail a été soutenu par la Fondation nationale des sciences naturelles de Chine (31371596), le centre de recherche de Bio-technologie, Université de Chine Trois Gorges (2016KBC04) et la Fondation des sciences naturelles de la Province de Jiangsu, Chine (BK20151424).

Materials

Name Company Catalog Number Comments
Adobe Illustration a graphical tool developed by Adobe Systems Software Ireland Ltd. Copyright © 2017
BioEdit a biological sequence alignment editor written for Windows 95/98/NT/2000/XP/7. Copyright © Tom Hall
Clustal Omega a package for making multiple sequence alignments of amino acid or nucleotide sequences.  http://www.clustal.org/
CorelDRAW a graphic design software. Copyright © 2017 Corel Corporation
FigTree a graphical viewer of phylogenetic trees designed by the University of Edinburgh
MEGA MolecularEvolutionary Genetics Analysis version6.0 http://www.megasoftware.net/home
MrBayes an Bayesian phylogenetic inference tool
NVIDIA a company designs graphics processing units (GPUs) for the gaming and professional markets. Corporation Copyright © 2017
PAUP Phylogenetic Analysis Using Parsimony. David Swofford's program implements the maximum likelihood method under a number of nucleotide models.
Photoshop a raster graphics editor developed and published by Adobe Systems Software Ireland Ltd. Copyright © 2017
RHYTHM a knowledge based prediction of hekix contacts. Charité Berlin – Protein Formatics Group - Copyright 2007-2009
TMHMM a tool for prediction of transmembrane helices in proteins. http://www.cbs.dtu.dk/services/TMHMM/
Compter 4 GB memory, Core 2 or above CPU. Windows 7, Windows 10

DOWNLOAD MATERIALS LIST

References

  1. Nei, M., Kumar, S. Molecular Evolution and Phylogenetics. , Oxford University Press. Oxford. (2000).
  2. Foth, B. J. Phylogenetic analysis to uncover organellar origins of nuclear-encoded genes. Methods Mol Biol. 390, 467-488 (2007).
  3. Baldauf, S. L. Phylogeny for the faint of heart: a tutorial. Trends Genet. 19, 345-351 (2003).
  4. Feng, D. F., Doolittle, R. F. Progressive sequence alignment as a prerequisite to correct phylogenetic trees. J Mol Evol. 25, 351-360 (1987).
  5. Persson, B. Bioinformatics in protein analysis. EXS. 88, 215-231 (2000).
  6. Sievers, F., et al. Fast, scalable generation of high-quality protein multiple sequence alignments using Clustal Omega. Mol Syst Biol. 7, 539 (2011).
  7. Sievers, F., Higgins, D. G. Clustal omega. Curr Protoc Bioinformatics. 48, 1-16 (2014).
  8. Yang, Z., Rannala, B. Molecular phylogenetics: principles and practice. Nat Rev Genet. 13, 303-314 (2012).
  9. Hall, B. G. Comparison of the accuracies of several phylogenetic methods using protein and DNA sequences. Mol Biol Evol. 22, 792-802 (2005).
  10. Tamura, K., Stecher, G., Peterson, D., Filipski, A., Kumar, S. MEGA6: Molecular Evolutionary Genetics Analysis version 6.0. Mol Biol Evol. 30, 2725-2729 (2013).
  11. Ronquist, F., et al. MrBayes 3.2: efficient Bayesian phylogenetic inference and model choice across a large model space. Syst Biol. 61, 539-542 (2012).
  12. Chen, L. Q., et al. Sugar transporters for intercellular exchange and nutrition of pathogens. Nature. 468, 527-532 (2010).
  13. Xuan, Y., et al. Functional role of oligomerization for bacterial and plant SWEET sugar transporter family. Proc Natl Acad Sci USA. 110, 3685-3694 (2013).
  14. Hu, Y., et al. Phylogenetic evidence for a fusion of archaeal and bacterial SemiSWEETs to form eukaryotic SWEETs and identification of SWEET hexose transporters in the amphibian chytrid pathogen Batrachochytrium dendrobatidis. FASEB J. 30, 3644-3654 (2016).
  15. Holder, M. T., Zwickl, D. J., Dessimoz, C. Evaluating the robustness of phylogenetic methods to among-site variability in substitution processes. Philos Trans R Soc Lond B Biol Sci. 363, 4013-4021 (2008).
  16. Alfaro, M. E., Holder, M. T. The Posterior and the Prior in Bayesian Phylogenetics. Annu Rev Ecol Evol Syst. 37, 19-42 (2006).
  17. Suchard, M., Rambaut, A. Many-core algorithms for statistical phylogenetics. Bioinformatics. 25, 1370-1376 (2009).
  18. Zierke, S., Bakos, J. FPGA acceleration of the phylogenetic likelihood function for Bayesian MCMC inference methods. BMC Bioinformatics. 11, 184 (2010).

Tags

Immunologie et Infection numéro 138 alignement Clustal Omega MEGA MrBayes arbre phylogénétique séquence protéique
À l’aide de l’analyse phylogénétique pour étudier l’origine de gènes eucaryotes
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Zhang, D., Kan, X., Huss, S. E.,More

Zhang, D., Kan, X., Huss, S. E., Jiang, L., Chen, L. Q., Hu, Y. Using Phylogenetic Analysis to Investigate Eukaryotic Gene Origin. J. Vis. Exp. (138), e56684, doi:10.3791/56684 (2018).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter