Biology

La base de données ITS2

Published: March 12, 2012 doi: 10.3791/3806

Benjamin Merget^1,2, Christian Koetschan¹, Thomas Hackl¹, Frank Förster¹, Thomas Dandekar¹, Tobias Müller¹, Jörg Schultz¹, Matthias Wolf¹

¹Department of Bioinformatics, Biocenter, University of Würzburg, ²Institute of Pharmacy and Food Chemistry, University of Würzburg

Summary

La base de données ITS2 est un atelier pour la séquence d'inférence phylogénétique considérant simultanément et de la structure secondaire de l'espaceur interne transcrit 2. Cela comprend la collecte de données avec l'annotation précise, prédiction de la structure, plusieurs séquence-structure d'alignement et de calcul d'arbre rapide. En un mot, ce plan de travail simplifie les analyses phylogénétiques premiers à quelques clics.

Abstract

Le espaceur interne transcrit 2 (ITS2) a été utilisée comme un marqueur phylogénétique pour plus de deux décennies. Comme ITS2 de recherche principalement axée sur la séquence ITS2 très variable, il a limité ce marqueur à faible niveau phylogénétique seulement. Toutefois, la combinaison de la séquence ITS2 et sa structure hautement conservée secondaire améliore la résolution phylogénétique ¹ et permet à l'inférence phylogénétique rangs taxonomiques multiples, y compris la délimitation espèces ^2-8.

La base de données ITS2 ⁹ présente un ensemble de données exhaustive des entretoises internes transcrits 2 séquences du NCBI GenBank ¹¹ précision reannotated ^10. Après une annotation par des modèles de profil Markov Cachés (MMC), la structure secondaire de chaque séquence est prédit. Tout d'abord, on teste si un minimum d'énergie en fonction de pliage ¹² (direct fois) les résultats d'une manière correcte, la conformation de quatre hélices. Si ce n'est pas le cas, la structure estprédit par ¹³ modélisation par homologie. Dans la modélisation par homologie, une structure déjà connue secondaire est transféré à une autre séquence ITS2, dont la structure secondaire n'était pas en mesure de se replier correctement dans un pli directe.

La base de données ITS2 n'est pas seulement une base de données pour le stockage et la récupération de la séquence ITS2-structures. Il fournit également plusieurs outils pour traiter vos propres séquences ITS2, y compris l'annotation, la prédiction de structure, de détection motif et BLAST recherche ¹⁴ sur le combiné séquence-structure de l'information. En outre, il intègre les versions garnis de 4sale ^15,16 et ¹⁷ pour le calcul ProfDistS alignement multiple séquence-structure et de neighbor joining ¹⁸ reconstruction d'arbres. Ensemble, ils forment un pipeline analyse cohérente à partir d'un ensemble initial de séquences d'une phylogénie sur la base de la séquence et la structure secondaire.

En un mot, ce plan de travail simplifie les analyses phylogénétiques premiers à seulementquelques-uns des clics de souris, tout en en outre fournir des outils et de données complètes pour analyses à grande échelle.

Protocol

1. Annotation correcte de la séquence ITS2

Accédez à la base de données établi ITS2 phylogénie ici: http://its2.bioapps.biozentrum.uni-wuerzburg.de
Commencez votre analyse en cliquant sur le "Annoter" icône dans la section "Outils". Ensuite, tapez ou collez votre séquence dans l'éditeur de séquence en haut du site. L'éditeur de séquence vérifie automatiquement, si vos séquences ITS2 sont valables.
Choisissez un modèle HMM adapté à vos séquences (par exemple Viridiplantae pour les plantes).
Démarrer le processus en cliquant sur "Annoter".
En survolant le "s'hybrider" icône, vous pouvez voir une image de la 5.8S et 28S ARNr hybride comme une confirmation de l'exactitude de l'annotation HMM.
Cliquez sur le signe plus vert de l'résultante ITS2 séquence pour sélectionner votre mode de prédiction de structure secondaire: Pour prédire la structure sans templat connuee, cliquez sur "Prédire la structure." Si vous souhaitez utiliser votre propre modèle pour la modélisation par homologie, cliquez sur "Structure du modèle."

2. Prédiction de structure secondaire

Prévoir
1. La séquence ITS2 annotée est automatiquement collé dans l'éditeur de séquence.
2. Pour commencer la prédiction de structure secondaire avec les paramètres par défaut, cliquez sur le "prédire les structures" bouton.
3. Enregistrer la séquence ITS2 obtenu, y compris la structure modélisée secondaire dans le pool de données en cliquant sur le signe plus vert, puis "Ajouter à la piscine." Alternativement, vous pouvez l'ajouter à votre pool de données par glisser-déposer (Figure 1).
4. Si la séquence ne pouvait pas plier directement, les meilleurs résultats de la modélisation par homologie sont représentés. Enregistrer les plus appropriés séquence-structure par glisser-déposer pour le pool de données. Vous pouvez également enregistrer la séquence-structure dans le pool de données avec un clic droit puis un clic sur "Ajouter à la piscine."
Modélisation personnalisé
1. Tapez ou collez les modèles un ou plusieurs (avec la structure connue) dans l'éditeur de séquence supérieure.
2. Séquences de type ou de la pâte une ou plusieurs cibles (sans structure) dans l'éditeur de séquence inférieur.
3. Cliquez sur "Prédire meilleur modèle (s)" pour lancer la modélisation par homologie avec les paramètres par défaut.
4. Les meilleurs modèles-cibles combinaisons sont indiqués dans la liste résultante.
5. Enregistrez le modélisée séquence-structure (s) de votre choix, soit par glisser-déposer à la piscine de données ou par un clic droit et un clic sur "Ajouter à la piscine."

3. Recherche Motif

Tapez ou collez votre séquence requête (s) dans l'éditeur de séquence en haut du site.
Choisissez le modèle HMM correct (par exemple Viridiplantae pour les plantes). 3,3. Cliquez sur "Recherche de motifs" pour démarrer le processus.
ITS2 séquences avec des motifs mis en avant sont illustrationTed au fond du site.
Cliquez sur l'icône à côté de la tête de séquence pour afficher les motifs mis en évidence dans la structure secondaire.

4. Rechercher et explorer les

Rechercher
1. Tapez soit un nom de taxon ou un identificateur de GenBank (GI) dans le champ de recherche en haut du site.
2. Une recherche par nom de taxon est soutenu par une apparition en direct-champ de recherche.
3. Vous pouvez effectuer une recherche multiple en séparant par des virgules vos requêtes.
4. Cliquez sur le bouton "Rechercher" pour lancer la recherche.
5. Vos résultats semblent répertorié dans un nouvel onglet.
6. Cliquez sur un nom de colonne pour trier vos résultats en fonction de la colonne particulière. Vous pouvez également ajouter ou supprimer des colonnes de votre choix avec le menu de la colonne. Le menu de la colonne peut être entré avec un clic sur l'icône flèche qui apparaît dans un nom de colonne.
7. Cliquez sur "Afficher les détails" pour afficher les détails d'une séquence-structure. </ Li>
8. Enregistrer la séquence-structure (s) de votre choix, soit par glisser-déposer à la piscine de données ou par un clic droit et un clic sur "Ajouter à la piscine."
9. Pour enregistrer vos résultats dans un fichier externe, cliquez sur "Enregistrer la sélection" ou "Enregistrer tout."
Parcourir
1. Parcourir la base de données ITS2 en naviguant à travers la structure en forme d'arbre à la gauche du site.
2. Cliquez sur un signe plus pour afficher les taxons à un niveau inférieur.
3. Cliquez sur un nom de taxon pour ouvrir un nouvel onglet contenant chaque séquence-structure du taxon.
4. Cliquez sur "Afficher les détails" pour afficher les détails d'une paire séquence-structure.
5. Enregistrer la séquence-structure (s) de votre choix, soit par glisser-déposer à la piscine de données ou par un clic droit et un clic sur "Ajouter à la piscine."
6. Pour enregistrer vos résultats dans un fichier externe, cliquez sur "Enregistrer la sélection" ou "Enregistrer tout."

5. ITS2 souffle

Tapez ou collez un ou plusieurs séquences de requêtes dans l'éditeur de séquence. Vos séquences peuvent être soit simples séquences nucléotidiques ou séquence-structure paires. Vous pouvez également taper plusieurs structures secondaires ci-dessous une séquence. En cochant la case "Sérialiser séquences XXFASTA" ces structures sont utilisées par la suite que les requêtes individuelles.
Pour commencer BLAST avec les paramètres par défaut, cliquez sur "Blast". Selon la nature de votre requête, soit un BLASTN commun ou l'ITS2 séquence-structure BLAST est effectuée.
Un sous-onglet est ouvert pour chaque séquence d'interrogation dans les onglets figurant "Résultats BLAST," ainsi que d'un aperçu des recherches effectuées.
Cliquez sur "Afficher les alignements" pour afficher les alignements BLAST calculés.
Enregistrer les résultats BLAST de votre choix, soit par glisser-déposer à la piscine de données ou par un clic droit et un clic sur "Ajouter à la piscine."
Pour enregistrer vos résultats dans un fichier externe, cliquez sur "Enregistrer la sélection"Ou" Enregistrer tout. "

6. Multiple séquence-structure d'alignement

Jetez un oeil à votre pool de données en cliquant sur "Gérer les données», puis le symbole loupe juste à côté du nombre de séquences dans votre piscine. Alternativement, vous pouvez cliquer sur le signe pool de données en bas à gauche du site.
Cliquez sur une paire séquence-structure dans votre pool de données pour afficher ses détails.
Pour créer un multiple séquence-structure d'alignement de toutes les paires de séquence-structure dans votre piscine, cliquez sur "Analyser ensemble de données», puis «Séquence et structure."
Maintenant, vous êtes invité à sélectionner le mode graphique de votre alignement. Si votre alignement ne contient que quelques séquences, décliner le mode Slim en cliquant sur "Non" Sinon, choisissez le mode mince graphique en cliquant sur "Oui."
Dans quelques instants, votre alignement est montré dans un nouvel onglet (Figure 2). En outre, il est automatiquement enregistré dans le pool de données.
Pour enregistrer votrel'alignement dans un fichier externe, cliquez sur "Enregistrer l'alignement."

7. Arbre phylogénétique

Pour calculer un voisin séquence-structure basée sur Rejoindre arborescence de votre alignement multiple, cliquez sur "Analyser Dataset" puis "entre voisins."
L'arbre résultant est illustré dans un nouvel onglet (Figure 3).
Faites évoluer votre arbre librement avec la barre de défilement "arbre Zoom."
Reroot votre arbre en cliquant sur un noeud ou feuille de l'arbre, puis "Reroot à ce noeud."
Si vous souhaitez supprimer un taxon à partir de votre pool de données, cliquez sur la feuille et choisissez "Supprimer ce noeud de la piscine." Maintenant, vous pouvez recalculer votre alignement et des arbres de l'échantillonnage taxon réduite.
Cliquez sur "Enregistrer l'arbre" pour sauvegarder votre arbre phylogénétique comme un résultat final de votre analyse dans un fichier externe NEWICK.

8. Logiciels supplémentaires

Cliquez sur "A propos de ce site web" - "Outils" pour trouver plus d'informer lestion sur le 4sale autonome outils et ProfDistS.
A côté de l'alignement et la fonction neighbor joining fournie par l'interface web de base de données ITS2, vous pouvez maintenant accéder à plusieurs fonctions nouvelles, la délimitation des espèces, par exemple en fonction des changements de base compensatoires (CBC).

9. Les résultats représentatifs

Le flux de travail tel que décrit ci-dessus a été appliquée avec succès dans plusieurs enquêtes en libre accès ^3,4. Des exemples peuvent être vues à travers les liens suivants:

Dans ces études à grande échelle, nous étions en mesure de résoudre la phylogénie des Chlorophyta ainsi que Hypnales (Bryophytes) wvec une grande résolution. Dans les deux cas, un échantillonnage exhaustif taxon ont été recueillies à partir de la base de données ITS2 ^9, automatiquement aligné avec 4sale ^15,16 et enfin traitées par ProfDistS ¹⁷ dans un arbre phylogénétique. Dans toutes ces étapes, la séquence et la structure des informations ont été utilisées simultanément. Soutien Bootstrap pour l'épine dorsale phylogénétique a été réalisée en utilisant voisin profil de jonction (PNJ) ^19, qui est disponible dans la version stand-alone de ProfDistS.

Pour un plus petit ensemble de la séquence-structure paires, les chiffres 1 à 3 décrivent les étapes clés de ce flux de travail automatisé ⁵ directement sur le nouveau plan de travail ITS2 Base de données: échantillonnage taxon, le multiple séquence-structure d'alignement et, éventuellement, le calcul arbre phylogénétique.

Figure 1. Taxon échantillonnage par drag and drop. À toutes les séquences temporelles ou séquence-structur paires e peut être ajouté à la piscine de données, par exemple par glisser-déposer. Voici une séquence-structure est ajouté à l'aide de glisser-déposer après la prédiction de structure secondaire. Le ellipse bleue marque la zone où la séquence-structure est tombé dans le pool de données. Cliquez ici pour voir la version pleine grandeur de cette image.

Figure 2. Multiple séquence-structure d'alignement en mode graphique intégral. Pour les quelques séquences dans le pool de données, le mode le graphique a été choisi. Les bases sont de couleur; paires de bases peuvent être mis en évidence avec des cercles rouges en cliquant sur une base ou un support d'une paire de bases. Cliquez ici pour voir la version pleine grandeur de cette image.

3.jpg "alt =" Figure 3 "/>
Figure 3. Séquence-structure neighbor joining arbre. L'arbre évolutif librement calculée d'un sept taxons multiples séquence-structure d'alignement peuvent être sauvegardés dans le format Newick.

Discussion

La base de données ITS2 est un atelier complet et pleinement fonctionnel pour internes transcrits d'écartement 2 séquence-structure-base phylogénétique. Le site web peut être utilisé très rapidement et intuitivement. Alors que d'autres établis phylogénie basés sur le Web comme ARB ²⁰ ou ²¹ sont Mobyle seulement en mesure de travailler sur la séquence et / ou information sur la structure consensus, la base de données ITS2 ⁹ estime séquences individuelles et les structures secondaires pour chaque taxon simultanément. Toutefois, en raison des limitations de la capacité de calcul du serveur web, il est fortement recommandé d'utiliser les outils autonomes pour l'alignement multiple et neighbor joining ¹⁸ calcul, 4sale ^15,16 et ¹⁷ ProfDistS, respectivement, pour grands ensembles de données. A côté de la base de workflow ITS2 phylogénie séquence-structure ^5, ces outils disposent de plusieurs fonctions supplémentaires, comme le calcul de bootstrap, voisin profil de jonction (PNJ) ¹⁹ ou d'espècesdélimitation est basé sur les changements de base compensatoires (CBCS) ^8. Ils peuvent être accédés par l'intermédiaire du "A propos de ce site web" - section «Outils» pour le téléchargement et des informations détaillées. Pour utiliser 4sale et ProfDistS, il est nécessaire de toujours ramener les fichiers dans le format correct. Un taxon d'échantillonnage doit être traitée par 4sale doit avoir la fin. Fasta ou. Txt, alors que l'alignement de séquence-structure comme une entrée pour ProfDistS doit se terminer par. Xfasta.

Nous sommes actuellement à la mise en œuvre des méthodes alternatives pour la reconstruction arbre phylogénétique dans la base de données ITS2 ainsi que dans les outils connexes. Ainsi, des méthodes telles que la séquence-structure-based Maximum Parcimonie ²² et / ou maximum de vraisemblance ²³ sera accessible à l'avenir.

Disclosures

Pas de conflits d'intérêt déclarés.

Acknowledgments

Nous remercie cordialement le groupe ITS2, Biocenter, Université de Würzburg, pour la rétroaction riche et précieuse. Nous remercions également la Deutsche Forschungsgemeinschaft (DFG; subvention Mu-2831/1-1) pour le financement.

Materials

Name	Company	Catalog Number	Comments
Internet access			Preferably high-speed
ITS2 Database⁹	University of Warzburg		Website: http://its2.bioapps.biozentrum.uni-wuerzburg.de
Software: 4SALE^15,16	University of Warzburg		Download: http://4sale.bioapps.biozentrum.uni-wuerzburg.de/
Software: ProfDistS¹⁷	University of Warzburg		Download: http://profdist.bioapps.biozentrum.uni-wuerzburg.de/