Investigating Protein Sequence-structure-dynamics Relationships with Bio3D-web

Shashank Jariwala; Lars Skj&#230;rven; Xin-Qiu Yao; Barry J. Grant

doi:10.3791/55640

JoVE Journal > Biochemistry

Please note that all translations are automatically generated. Click here for the English version.

Biochemistry

Étude de la séquence des protéines - structure-dynamique Relations avec Bio3D-web

Published: July 16, 2017

doi:

10.3791/55640

Shashank Jariwala*¹, Lars Skjærven*², Xin-Qiu Yao, Barry J. Grant

¹Department of Computational Medicine and Bioinformatics,University of Michigan Medical School, ²Department of Biomedicine,University of Bergen

Summary

Un protocole pour l'étude en ligne des relations protéines-structure-structure dynamique utilisant Bio3D-web est présenté.

Abstract

Nous démontrons l'utilisation de Bio3D-web pour l'analyse interactive des données de la structure biomoléculaire. L'application Bio3D-web fournit une fonctionnalité en ligne pour: (1) L'identification des ensembles de structures de protéines connexes aux seuils de similarité spécifiés par l'utilisateur; (2) L'alignement multiple et la superposition de structure; (3) Analyse de conservation de séquences et de structures; (4) Mapping relation interconforme avec l'analyse des composantes principales, et (5) comparaison de la dynamique interne prédite par l'analyse du mode normal d'ensemble. Cette fonctionnalité intégrée fournit un flux de travail en ligne complet pour étudier les relations structure-structure-dynamique dans les familles de protéines et les superfamillies.

Introduction

La banque de données sur les protéines (PDB) contient maintenant plus de 120 000 structures protéiques – dont beaucoup sont de même famille de protéines mais résolus dans différentes conditions expérimentales. Ces structures multiples représentent une ressource précieuse pour comprendre les subtilités de la forme et de la fonction des protéines. Par exemple, la comparaison rigoureuse de ces ensembles de structures peut révéler des mécanismes moléculaires importants ¹ ^, ² ^, ³ et informer sur la dynamique conformationnelle impliquée dans des processus comprenant la liaison du ligand, la catalyse enzymatique et la reconnaissance bi-moléculaire ⁴ ^, ⁵ ^, ⁶ ^, ⁷ . De nouvelles idées peuvent être obtenues à partir de l'analyse détaillée à grande échelle de la séquence, de la structure et de la dynamique des familles de protéines. Cependant, cela nécessite généralement une bioinfection considérableL'expertise ormatique et informatique ainsi que la familiarité avec les systèmes protéiques étudiés. Par exemple, les logiciels tels que Bio3D, ProDy et Maven nécessitent une programmation dans R, Python et Matlab, respectivement ⁸ ^, ⁹ ^, ¹⁰ . À l'inverse, les outils en ligne d'analyse de la flexibilité structurelle sont généralement limités à l'étude des structures individuelles ¹¹ ^, ¹² . Une exception à cet égard est le serveur WebNM @ récemment développé, qui permet de comparer les modèles de flexibilité obtenus à partir de l'analyse en mode normal (NMA) de plusieurs structures précisées par les utilisateurs ¹³ . Cependant, ce serveur manque d'une procédure automatisée pour l'identification de structures à des fins de comparaison, leur alignement ou une analyse ultérieure au-delà de NMA. Une autre contribution récente est la base de données PDBFlex en ligne, qui présente pré-cAnalyse omputative des structures PDB partageant une identité de séquence de 95% ou plus ¹⁴ . Cependant, l'analyse des ensembles de structures plus divers n'est actuellement pas disponible.

Nous avons précédemment présenté Bio3D-web: une application Web facile à utiliser pour l'analyse de la relation protéine-structure-structure-dynamique ¹⁵ . Bio3D-web est unique en fournissant une fonctionnalité intégrée facile à utiliser pour l'identification, la comparaison et l'analyse détaillée des grands ensembles de structures homologues en ligne. Nous présentons ici un protocole détaillé pour l'étude en ligne de la relation protéine-structure-structure dynamique à l'aide de Bio3D-web. Bio3D-web offre une variété de fonctions pour supporter les cinq grandes étapes de l'analyse des données présentées à la figure 1 et discutées en détail ci-dessous. Ces étapes constituent un flux de travail qui s'étend de la séquence de requête ou de l'entrée de la structure, à travers plusieurs niveaux d'analyse séquentielle-structure-dynamique, au résuméEt génération de rapport. Les résultats sont disponibles immédiatement grâce à de vastes fonctionnalités de visualisation et de traçage dans le navigateur, ainsi que par le téléchargement de fichiers de résultats dans les formats couramment utilisés. En plus d'une interface dynamique pratique et facile à utiliser pour explorer les effets des choix de paramètres et de méthodes, Bio3D-web enregistre également l'entrée complète de l'utilisateur et les résultats graphiques ultérieurs de la session d'un utilisateur comme un rapport reproductible pouvant être reproduit dans les formats PDF, DOC et HTML. Les sessions utilisateur peuvent être sauvegardées et rechargées à l'avenir et compléter les résultats téléchargés et interprétés par le paquet Bio3D R sur la machine locale d'un utilisateur.

Bio3D-web est alimenté par le paquet Bio3D R pour l'analyse de la structure biomoléculaire, des séquences et des données de simulation moléculaire ⁸ ^, ¹⁶ . En particulier, les algorithmes Bio3D pour l'identification du noyau rigide ⁸ , superposition, analyse de composante principale(PCA) ⁸ et l'analyse de mode normal d'ensemble (eNMA) ¹⁶ forment la base de l'application. Nous utilisons également des protocoles Bio3D qui dépendent de pHMMER ¹⁷ pour l'identification des structures protéiques apparentées et du MUSCLE ¹⁸ pour l'alignement des séquences multiples. Les annotations de structure et de séquence sont dérivées via les utilitaires Bio3D à partir des bases de données RCSB PDB ¹⁹ et PFAM ²⁰ . Bio3D-web peut être exécuté à partir de notre serveur en ligne ou installé localement sur n'importe quel ordinateur exécutant R. Bio3D-web est ouvert à tous les utilisateurs et est fourni gratuitement sous une licence open-source GPL-3 à partir de: http: // thegrantlab. Org / bio3d / webapps

Protocol

REMARQUE: Une session Bio3D-web typique passe à travers cinq étapes consécutives et dépendantes (voir la figure 1 pour une représentation schématique). Chaque étape est implémentée sous la forme d'un onglet de navigation consécutif de l'application Web, à savoir RECHERCHE, ALIGN, FIT, PCA et eNMA. 1. Recherche et sélection de structure (RECHERCHE) Structure d'entrée Obtenez l'ID PDB de l'adénylate kinase (Adk), par exemple en recherchant la PDB [http://www.rcsb.org/pdb]. En variante, obtenir la séquence d'acides aminés de protéines d'intérêt, par exemple de UniProt [http://uniprot.org]. Entrez l'ID PDB de quatre caractères long pour Adk ( par exemple 1AKE), ou collez une séquence protéique, dans la zone de texte dans le panneau "Entrée structure ou séquence". Sélection de succès Cliquez sur le bouton bleu "Suivant" (Hit selection) dans le premier panneau ou simplement faites défiler vers le bas vers le panneau B) "Hit selection"Pour une analyse plus approfondie. Assurez-vous que le curseur "Limite du nombre total de structures incluses" est réglé sur sa valeur maximale pour inclure toutes les structures au-dessus de la coupure. Abaissez le "Ajustement de la coupure BitScore d'inclusion" pour inclure des coups plus éloignés, ou augmentez-le pour exclure. Filtrage facultatif Cliquez sur le bouton bleu "Suivant" (sélection de sélection) dans le premier panneau ou simplement faites défiler vers le bas vers le panneau C) "Filtrage optionnel des structures apparentées pour une analyse plus approfondie". Assurez-vous que les résultats sélectionnés représentent des structures pertinentes en inspectant les détails du tableau, par exemple le nom PDB, les espèces et les ligands liés. Affinez manuellement le sous-ensemble sélectionné des structures si nécessaire en cliquant sur les lignes de la table. REMARQUE: Les lignes mises en surbrillance avec une couleur bleue représentent les ID PDB sélectionnées pour une analyse plus poussée dans les onglets suivants. 2. Analyse d'alignement de séquences multiples (ALIGN) Cliquez sur l'onglet ALIGN pour effectuer l'alignement des séquences des structures sélectionnées à partir de l'onglet RECHERCHE. Résumé de l'alignement Examinez le résumé d'alignement dans le panneau A) "Sommaire de l'alignement". Assurez-vous que les régions d'intérêt sont alignées et non masquées par des lacunes dans une ou plusieurs structures. Si nécessaire, basculez les options d'affichage "Afficher les options d'édition" et supprimez les ID PDB indésirables, p. Ex . PDB avec les résidus manquants. Analyse d'alignement de séquence Cliquez sur le bouton bleu "Suivant" (Analyse) pour effectuer une analyse de cluster en fonction des séquences des structures collectées. Sélectionnez l'option de tracé Dendrogramme. Ajustez le Cluster dans le curseur K groups pour partitionner les structures en groupes k. En option, modifiez la méthode de clustering si vous le souhaitez en basculant la case à cocher Plus de clustering et d'options de sortie. </oL> Analyse de la conservation des résidus Cliquez sur le bouton bleu "Suivant" (Conservation) pour calculer la conservation des résidus en fonction des colonnes. Sélectionnez les ensembles de structure alignés pour générer un graphique de la conservation des résidus à chaque position d'alignement. Sélectionnez Structures alignées avec l'alignement des graines de PFAM pour montrer la conservation calculée par rapport à l'alignement de graines PFAM associé contenant des membres représentatifs de la famille. Affichage de l'alignement des séquences Cliquez sur le bouton bleu "Suivant" (Alignement) pour afficher l'alignement complet de la séquence avec l'outil de visualisation de l'alignement dans le navigateur. 3. Structure Fitting et Analyse (FIT) Effectuez la superposition de structure en entrant dans l'onglet FIT. Structure de superposition Activez la case à cocher "Afficher les PDB" pour visualiser la protéine alignéeN structures dans le navigateur. Assurez-vous que les structures protéiques sont superposées aux régions correspondantes et pertinentes par des inspections visuelles. Cliquez et faites glisser la souris sur les structures pour faire pivoter, et faites défiler jusqu'au zoom. Ajustez la coloration des structures en cliquant sur "Options de couleur". Les options de coloration incluent la position d'alignement, la variabilité structurelle par position, les groupes de groupes RMSD, les groupes de séquences séquentielles, les régions alignées et la structure secondaire. Téléchargez les structures superposées comme fichiers PDB classiques ou comme un seul fichier de session PyMOL pour la visualisation dans un programme spécialisé de visualisation moléculaire. Analyse de structure Cliquez sur le bouton bleu "Suivant" (Analyse) pour effectuer le regroupement basé sur la structure des structures PDB collectées. Activez le menu déroulant RMSD dans le menu déroulant Options de tracé. Ajustez les options de clustering, y compris la méthode de clustering elle-même, En basculant la case "Plus de clustering et options de sortie". REMARQUE: les données RMSD en paire peuvent également être visualisées sous forme de dendrogramme, d'un histogramme ou d'une carte de chaleur. Fluctuations des résidus Cliquez sur le bouton bleu "Suivant" (RMSF) pour voir la variabilité structurelle de chaque résidu (représentée sous la forme d'une trame RMSF) avec des éléments de structure secondaires majeurs représentés dans les régions marginales de l'axe des abscisses. Activez la case à coque Montrer les facteurs B pour superposer les facteurs cristallographiques B de la structure de référence sur le tracé RMSF. 4. Analyse des composantes principales (PCA) Effectuez l'analyse des composants principaux en entrant dans l'onglet "PCA". Visualisation des principaux composants Activez la case à cocher "Afficher la trajectoire du PC" pour visualiser les mouvements décrits par les PC avec l'outil de visualisation dans le navigateur. Assurez-vous que "PrinCipal Component 1 "est choisi dans le premier menu déroulant. Pour visualiser les mouvements décrits par d'autres PC, choisissez le PC souhaité dans le menu déroulant "Choisir le composant principal". Modifiez la coloration de la trajectoire à partir du menu déroulant "Options de couleur". Choisissez "Variabilité par position" de la "Options de couleur" à la couleur par la grandeur de déplacement. Cliquez sur le bouton "Télécharger la trajectoire PDB" dans le panneau "Visualisation des composants principaux" pour obtenir une vue en trajectoire du mouvement décrit par les PC. Cliquez sur le bouton "Télécharger le fichier de session PyMOL" pour générer un fichier de session PyMOL donnant les mouvements en tant que champ vectoriel. Analyse Conformer Concevez les structures individuelles sur deux PC sélectionnés en cliquant sur le bouton bleu "Suivant" (Plot). Assurez-vous que "PC sur l'axe X" est réglé sur 1, et "PC oN axe Y "à 2. Pour projeter les structures sur d'autres PC, ajustez la numérotation PC en conséquence. Choisissez "Cluster by PC Subspace" pour colorier les structures dans l'intrigue par clustering basé sur PC; "RMSD" pour la couleur par "RMSD-based" clustering; Et "Séquence" à colorier par clustering basé sur la séquence. Cliquez sur les points individuels de l'intrigue pour étiqueter les structures. Alternativement, mettez en surbrillance une ou plusieurs structures dans la table "PCA conformer plot annotation" sous la trame. Faites glisser les PC dans le curseur sous-espace pour inclure des PC plus / moins pour l'algorithme de clustering. Contributions de résidus Calculez les contributions de résidu aux PC individuels en cliquant sur le bouton bleu "Suivant" (Contributions de résidu). Tracez les contributions pour les PC supplémentaires en incluant le numéro de PC dans la zone de texte "Choisir le composant principal". Basculer le "Spread liNes "ne permettent pas de tracer les contributions de résidu les unes sur les autres. Activez la case à cocher "Multiline plot" pour tracer les contributions de résidus dans des parcelles distinctes. Activez "Afficher RMSF" pour inclure les valeurs RMSF (à partir de l'onglet FIT). 5. Ensemble Normal Mode Analysis (eNMA) Cliquez sur l'onglet eNMA pour lancer le calcul des modes normaux (NMs). Structure du filtre Ajustez le nombre de structures en abaissant ou en augmentant le "coupure" pour l'inclusion / exclusion de la structure. Cliquez sur le vert "Run Ensemble NMA" pour démarrer le calcul NMA. Visualisation des modes normaux Faites défiler jusqu'au deuxième panneau de l'onglet eNMA (Visualisation des modes normaux) pour la visualisation des NM. REMARQUE: Par défaut, le NM avec le plus grand chevauchement (similitude) avec PC-1 s'affiche dans le visuelFenêtre de saisie. Pour visualiser les mouvements décrits par d'autres NM ou d'autres structures PDB, choisissez le NM et la structure souhaité dans les menus déroulants "Choisir Mode" et "Afficher NMs pour la structure" , respectivement. Fluctuations des résidus Cliquez sur le bouton bleu "Suivant" (Fluctuations) pour calculer les fluctuations résiduelles des structures sélectionnées pour eNMA. Basculez le "Cluster by RMSD" pour colorier les profils de fluctuation par le clustering basé sur RMSD. Basculez le "Cluster by RMSIP" pour colorier les profils de fluctuation par un clustering basé sur RMSIP. Activez la case à cocher "Spread lines" pour tracer les profils de fluctuation groupés les uns sur les autres. Comparaison de NMA et PCA Cliquez sur le bouton bleu "Suivant" (PCA-vs-NMA) pour calculer la similitude entre les NM individuels et les PC. Sélectionnez un PDB ID dans le menu déroulant "Comparer les NM de la structure" pour calculer la similitude entre les NM de cette structure aux PC calculés dans l'onglet PCA. Analyse de chevauchement Cliquez sur le bouton bleu "Suivant" (analyse de chevauchement) pour calculer le chevauchement entre les NMs calculés et le vecteur de différence de structure entre deux structures sélectionnées. Sélectionnez un ID de référence «référence» dans le menu déroulant «Comparer les NM de la structure» et ou un ou plusieurs ID PDB dans la table de structure pour la comparaison par paire avec l'APB de référence. Analyse de regroupement Cliquez sur le bouton bleu " Suivant" (Clustering) pour effectuer le regroupement de structure en fonction de la ressemblance NM (RMSIP) en paire.

Representative Results

L'adénylate kinase (Adk) est une enzyme omniprésente qui fonctionne pour maintenir l'équilibre entre les nucléotides cytoplasmiques essentiels à de nombreux processus cellulaires. Adk opère en catalysant le transfert réversible d'un groupe phosphoryle de l'ATP à l'AMP. Cette réaction s'accompagne de transitions conformationnelles 3 , 21 . Nous analysons ici toutes les structures Adk actuellement disponibles avec Bio3D-web pour révéler les caractéristiques détaillées et les principes mécanistes de ces transitions essentielles. Nous pouvons commencer notre analyse Bio3D-Web d'Adk en entrant le code RCSB PDB de toute structure Adk connue. Par exemple, l'entrée de PDB ID 1AKE dans le panneau A de l'onglet SEARCH renvoie 167 structures similaires à partir desquelles les top 26 sont automatiquement sélectionnés pour une analyse plus approfondie (voir le panneau B). L'annotation présenteEd dans le panneau C indique que ces structures sélectionnées sont toutes provenant de E. coli, ont été résolus par diffraction des rayons X dans une gamme de groupes spatiaux; Ont une plage de résolution de 1,63 à 2,8 Å, et ont été co-cristallisés avec une gamme de ligands différents (y compris sans ligands, AMP, ADP, MG et l'inhibiteur AP5). Notez que les détails d'annotation supplémentaires peuvent être affichés en cliquant sur l'option "Afficher / Masquer les colonnes" dans le panneau C. L'alignement de plusieurs séquences est effectué lors de l'entrée de l'onglet ALIGN. Le premier panneau de l'onglet ALIGN affiche un résumé de l'alignement fournissant des détails sur le nombre de lignes de séquence (équivalent au nombre de structures PDB), ainsi que le nombre de positions ( c.- à-d. Colonnes d'alignement). Ceci inclut une spécification du nombre d'espaces et de colonnes contenant des espaces non cumulables. La figure du côté droit de la première rangée fournit une représentation schématique de l'alignement des séquences. Ici thLes zones grises représentent des positions sans espace, tandis que les zones blanches dans l'alignement correspondent à des espaces. Une représentation de la conservation de la séquence est indiquée au-dessus de l'alignement avec des zones rouges indiquant des positions bien conservées et un blanc indiquant moins conservé. Notez que les séquences de cette figure sont commandées en fonction de leur similitude fournie par le dendrogramme de cluster sur le côté gauche. Le deuxième panneau de cet onglet facilite en outre le regroupement des PDB sélectionnés en fonction de leur similitude de séquence en paire, qui peut être visualisé sous forme de dendrogramme ou d'une carte de chaleur. Par défaut, un dendrogramme (ou diagramme d'arbre) représentant l'agencement des clusters est affiché. L'axe y du dendrogramme représente la distance (en termes d'identité de séquence) entre les grappes. La superposition de structure est effectuée automatiquement lors de l'entrée dans l'onglet FIT. Les structures superposées, affichées de manière interactive dans le panneau A, indicaLa présence d'une région de noyau relativement rigide (englobant les résidus 1-29, 68-117 et 161-214, voir le panneau "éléments de base optionnels et RMSD" au bas de l'onglet FIT pour plus de détails). Deux autres régions de liaison nucléotidiques variables (résidus 30-67 et 118-167) sont également clairement visibles ( figure 2 ). Le regroupement basé sur RMSD regroupe ces structures en deux conformations distinctes. Le fait de cliquer sur l'onglet PCA montre plus clairement la relation entre les structures en ce qui concerne les déplacements de ces régions qui ferment effectivement les espèces nucléotidiques liées dans les structures apparentées ( figure 2B et 2C ). La majorité des structures sont en forme "fermée" (bleu dans la figure 2C ) et sont associées à un ligand ou à un inhibiteur lié. En revanche, les conformations plus «ouvertes» sont nucléotidiques et sans inhibiteurs. Ceci est conforme àLe vaste ensemble de recherches sur la structure et la dynamique d'Adk indiquant qu'une configuration ouverte de ces régions est nécessaire pour la liaison des nucléotides et une conformation fermée pour un transfert efficace de phosphoryle et une suppression des événements d'hydrolyse néfastes. Il est remarquable qu'un PC unique capture 97% du déplacement carré moyen total dans cet ensemble de structures Adk et fournit une description claire et convaincante de la transition ouverte à fermée avec les contributions de résidu individuelles à ce déplacement fonctionnel (panneau C de l'application Et la figure 2 ). En visitant l'onglet NMA et en augmentant le nombre de structures considérées pour le calcul (par diminution du seuil de filtrage des structures similaires), les structures d'état ouvert affichent une dynamique locale et globale améliorée par rapport aux structures de forme fermées ( Figure 2D et panneau C de l'application) . Comparaison des résultats PCA et NMA pourLes structures individuelles (panneau D) indiquent que le premier mode de toutes les structures ouvertes affiche un chevauchement relativement élevé sur PC1 (avec une valeur moyenne de 0,37 ± 0,04). En revanche, les structures de forme fermée affichent des valeurs inférieures (avec une moyenne de 0,30 ± 0,01). Les valeurs de RMSIP pour les structures ouvertes (0,62 ± 0,003) sont également supérieures à celles des structures fermées (0,56 ± 0,008). En outre, l'analyse de chevauchement montre que les premiers modes de l'état ouvert sont en accord avec le changement conformationnel qui décrit la différence des états ouvert et fermé (panneau E). Le regroupement basé sur les valeurs RMSIP affiche encore un partitionnement cohérent des structures d'état ouvertes et fermées (panneau F). Collectivement, ces résultats indiquent l'existence de deux états conformationnels distincts majeurs pour Adk. Ceux-ci diffèrent par un déplacement collectif de basse fréquence de deux régions de site de liaison aux nucléotides qui présentent une flexibie distincteSur la liaison nucléotidique. Figure 1: Aperçu de Bio3D-web avec des captures d'écran des onglets PCA et NMA. Bio3D-web prend une structure ou une séquence protéique fournie par l'utilisateur comme entrée dans l'onglet RECHERCHE ( 1 ). Le serveur fournit une liste de structures apparentées, qui peuvent être sélectionnées pour une analyse plus approfondie. ( 2 ) L'onglet ALIGN fournit l'alignement des séquences et l'analyse des structures sélectionnées dans l'onglet RECHERCHE. ( 3 ) Dans l'onglet FIT, toutes les structures sont superposées et visualisées en 3D avec les résultats de l'analyse classique de la structure en paire. ( 4 ) L'analyse des composants principaux de l'ensemble de structure est effectuée dans l'onglet PCA pour caractériser les relations interconformité. ( 5 ) L'analyse du mode normal sur chaque structure peut être effectuée dans l'onglet eNMAPour explorer les tendances dynamiques pour les états structurels disponibles. Cliquez ici pour voir une version plus grande de ce chiffre. Figure 2: Résultats de l'analyse bio3D-web de l'adénylate kinase. ( A ) Les structures PDB disponibles de l'adénylate kinase superposées au noyau invariant identifié. Les structures sont colorées en fonction du clustering basé sur RMSD fourni dans l'onglet FIT. ( B ) La visualisation des principaux composants est disponible à partir de l'onglet PCA pour caractériser les principales variations conformationnelles dans le jeu de données. Ici, la trajectoire correspondant au premier composant principal est représentée dans la représentation tubulaire montrant le mouvement de fermeture à grande échelle de la protéine. ( C ) Les structures sont prOnt été jetés sur leurs deux premiers composants principaux dans un graphique conforme qui représente une représentation à faible dimension de la variabilité conformationnelle. Chaque point (ou structure) est coloré selon les critères spécifiés par l'utilisateur, dans ce cas, les résultats de clustering PCA. ( D ) L'analyse de mode normal dans l'onglet eNMA suggère une dynamique locale et globale améliorée pour les structures à l'état ouvert (rouge) par rapport aux structures de forme fermée (bleu). Cliquez ici pour voir une version plus grande de ce chiffre.

Discussion

Bio3D-web peut être utilisé pour explorer et cartographier de manière interactive les états structurels, dynamiques et fonctionnels des protéines à partir des structures cristallographiques disponibles. En outre, les résultats de clustering basés sur NMA et PCA, ainsi que les annotations et l'analyse basée sur la séquence, peuvent être particulièrement utiles pour sélectionner des structures représentatives pour une analyse plus longue, comme des simulations d'ensemble de petites molécules ou des dynamiques moléculaires. Bio3D-web facilite ainsi une analyse de la bioinformatique structurale avancée pour une plus large gamme de chercheurs en réduisant le niveau d'expertise technique requis. La conception actuelle de Bio3D-web met l'accent sur la simplicité au sujet de l'inclusion exhaustive des nombreuses méthodes d'analyse disponibles dans le package bio3D autonome complet. Dans de nombreux cas, il est envisagé que les chercheurs utilisent Bio3D-web pour comprendre les tendances générales de leur famille de protéines ou de leur superfamille d'intérêt, ce qui pourrait ensuite éclairer des analyses plus spécialisées. Bio3D-web est leConçu pour explorer rapidement les ensembles de données de structure biomoléculaire et servir d'outil générateur d'hypothèses. Nous encourageons les utilisateurs à explorer davantage leurs données en fournissant un exemple de code Bio3D dans le rapport reproductible qui stocke également tous les détails de la requête et les résultats de l'analyse.

Dans le protocole d'exemple représentatif ci-dessus, nous montrons la capacité de Bio3D-web à révéler les caractéristiques structurelles des transitions conformationnelles fonctionnelles d'Adk. Les applications supplémentaires de Bio3D-web incluent une analyse structurelle et dynamique des structures PDB chargées par l'utilisateur. Par exemple, l'utilisateur peut télécharger de nouvelles structures ou même des séquences de protéines pour l'analyse. Les étapes d'analyse mentionnées plus tôt, en particulier l'étape de l'eNMA, peuvent révéler les tendances locales et mondiales dans les mouvements de protéines, les mouvements collectifs ayant une signification fonctionnelle. La comparaison avec les structures apo peut également révéler des caractéristiques des transitions conformationnelles non liées aux contraintes. Des exemples supplémentaires d'application àUne gamme de familles de protéines différentes sont fournies en ligne.

Bien que toutes les protéines soient des entités flexibles et dynamiques, toutes les protéines ne possèdent pas de structures de résolution atomique disponibles dans une gamme d'états différents ( p. Ex. États actifs et inactifs). Notre vision de l'espace structure protéique est donc limitée et, par conséquent, l'information obtenue à partir d'outils tels que Bio3D-web est nécessairement également limitée pour certaines protéines. Cependant, avec les progrès technologiques actuels et les nouvelles initiatives pour la génomique structurelle, le protocole présenté ici deviendra de plus en plus un chemin important pour mieux comprendre les relations structure-fonction importantes. Une étape critique, particulièrement importante lors de l'analyse de protéines plus éloignées, est l'apparition potentielle d'erreurs d'alignement dans l'onglet ALIGN. Les erreurs d'alignement se produiront inévitablement lorsque la similitude des séquences baisse en dessous de 30% et que l'utilisateur doit, dans de tels cas, vérifier et corriger l'alignement des séquencesDans l'onglet ALIGN. Les erreurs d'alignement entraîneront éventuellement des structures superposées incorrectes dans l'onglet FIT et masqueront les variations de conformation les plus pertinentes pour la PCA suivante. En outre, l'utilisateur doit être conscient des résidus manquants dans les structures de PDB sélectionnées, comme dans la mise en œuvre actuelle, PCA ne peut être effectué que sur des résidus de protéines dans lesquels toutes les structures ont leur atome alpha de carbone correspondant. Par conséquent, si une PDB sélectionnée a des résidus non résolus pour une région particulière de la protéine, cette région sera omise de PCA.

Bio3D-web est actuellement limité à l'analyse des structures PDB à chaîne unique. Par conséquent, les mouvements fonctionnels se produisant au niveau quaternaire ne peuvent pas être explorés en utilisant le protocole actuel. Bien que nous développions actuellement de nouveaux algorithmes pour inclure une telle analyse dans Bio3D-web, la seule option actuelle est l'utilisation conventionnelle de Bio3D.

Bio3D-web est la seule application en lignePermettant d'interroger et d'identifier des ensembles de structures, d'interpréter leurs schémas de séquence et de leur variabilité structurelle, et d'extraire des informations mécanistes à la fois de l'analyse et de la prédiction de leur plasticité structurale. Une large gamme d'outils de visualisation moléculaire et de serveurs en ligne permettent aux chercheurs d'explorer et d'analyser des structures biomoleculaires individuelles. Cependant, les outils existants pour l'analyse de la séquence, de la structure et de la dynamique des grandes familles de protéines hétérogènes nécessitent souvent une expertise informatique importante et restent généralement accessibles uniquement aux utilisateurs possédant des compétences de programmation pertinentes. Par exemple, le paquet Bio3D nécessite R ⁸ , ProDy nécessite python et Maven requiert le savoir Matlab ⁹ ^, ¹⁰ . Bio3D-web en revanche ne nécessite pas de connaissances de programmation et augmente ainsi l'accessibilité et diminue la barrière d'entrée pour effectuer une séquence comparative avancée, la structure et dyAnalyse de la namique. En outre, la préparation, la conservation, l'annotation et le nettoyage des structures moléculaires souvent nécessaires à une analyse efficace sont inclus dans le service Web Bio3D. De plus, la restriction à l'exécution d'une telle analyse sur des ressources informatiques capables est atténuée par notre instance de serveur qui permet une analyse à grande échelle de nombreuses structures pouvant être initiées et contrôlées à partir de n'importe quel navigateur Web moderne.

Le développement ouvert de Bio3D-web est en cours (voir https://bitbucket.org/Grantlab/bio3d). Nous continuons d'ajouter de nouvelles fonctionnalités d'analyse et d'améliorer les méthodes existantes. Le développement futur se concentrera sur l'ajout de PCA basée sur la matrice de distance et de PCA torsionnelle, des approches de conservation de séquences plus étendues qui incluent un composant phylogénétique, une identification du site de liaison d'ensemble et de nouvelles approches pour l'analyse de réseau dynamique dans les familles de protéines. À cet égard, l'application Web actuelle représente le point de départT pour de nombreux autres workflows d'analyse de la bioinformatique structurale collaborative en permettant des étapes reproductibles et partageables sur des ensembles de structures expérimentales définis par l'utilisateur. Nous prévoyons également le soutien futur des ensembles de coordonnées des unités biologiques reconstruites en plus des chaînes individuelles et multiples de l'unité asymétrique des structures PDB. Les fonctionnalités supplémentaires incluent une sauvegarde et un chargement améliorés des espaces de travail collaboratifs avec une possibilité d'annulation.

Bio3D-web est une application en ligne pour une analyse interactive des données de structure biomoléculaire. Bio3D-web fonctionne sur n'importe quel navigateur Web moderne et fournit des fonctionnalités pour: (1) L'identification des ensembles de structures de protéines connexes aux seuils de similarité spécifiés par l'utilisateur; (2) L'alignement multiple et la superposition de structure; (3) Analyse de conservation de séquences et de structures; (4) Cartographie relationnelle interconformité avec analyse de composante principale, et (5) comparaison de la dynamique interne prédite par l'ensemble niAnalyse de mode mal. Cette fonctionnalité intégrée fournit un flux de travail complet pour l'étude des relations structure-structure-dynamique au sein des familles de protéines et des superfamilles. En plus d'une interface dynamique pratique et facile à utiliser pour explorer les effets des choix de paramètres et de méthodes, Bio3D-web enregistre également l'entrée complète de l'utilisateur et les résultats graphiques ultérieurs de la session d'un utilisateur. Cela permet aux utilisateurs de partager et de reproduire facilement la séquence des étapes d'analyse qui ont créé leurs résultats. Bio3D-web est entièrement implémenté dans le langage R et repose sur les paquets Bio3D et Shiny R. Il peut être exécuté à partir de notre serveur en ligne ou installé localement sur n'importe quel ordinateur exécutant R. Cela inclut l'installation du serveur local pour fournir une instance multi-utilisateur personnalisée avec accès à des ensembles de données structurelles prioritaires tels que ceux communs dans l'industrie pharmaceutique. Le code source complet et la documentation complète sont fournis sous licence GPL-3 à partir de: http://thegrantlab.org/ Bio3d / webapps

Disclosures

The authors have nothing to disclose.

Acknowledgements

Nous remercions le Dr Guido Scarabelli et Hongyang Li pour des tests approfondis tout au long du développement, ainsi que la communauté des utilisateurs Bio3D et les participants à l'atelier de bioinformatique structurale de l'Université de Bergen pour les commentaires et les commentaires qui ont amélioré cette application.

Materials

Bio3D-web
Web-site	http://thegrantlab.org/bio3d-web/
Requirements	Web browser

References

Kornev, A. P., Taylor, S. S. Dynamics-Driven Allostery in Protein Kinases. Trends Biochem. Sci. 40 (11), 628-647 (2015).
Yao, X. -. Q., Grant, B. J. Domain-opening and dynamic coupling in the α-subunit of heterotrimeric G proteins. Biophys. J. 105 (2), L08-L10 (2013).
Henzler-Wildman, K. A., et al. Intrinsic motions along an enzymatic reaction trajectory. Nature. 450 (7171), 838-844 (2007).
Boehr, D., Nussinov, R., Wright, P. The role of dynamic conformational ensembles in biomolecular recognition. Nat. Chem. Biol. 5 (11), 789-796 (2009).
Teilum, K., Olsen, J. G., Kragelund, B. B. Functional aspects of protein flexibility. Cell Mol Life Sci. 66 (14), 2231-2247 (2009).
Henzler-Wildman, K., Kern, D. Dynamic personalities of proteins. Nature. 450 (7172), 964-972 (2007).
Grant, B. J., Gorfe, A. A., McCammon, J. A. Large conformational changes in proteins: signaling and other functions. Curr. Opin. Struct. Biol. 20 (2), 142-147 (2010).
Grant, B. J., Rodrigues, A. P. C., ElSawy, K. M., McCammon, J. A., Caves, L. S. D. Bio3d: an R package for the comparative analysis of protein structures. Bioinformatics. 22 (21), 2695-2696 (2006).
Bakan, A., Meireles, L. M., Bahar, I. ProDy: protein dynamics inferred from theory and experiments. Bioinformatics. 27 (11), 1575-1577 (2011).
Zimmermann, M. T., Kloczkowski, A., Jernigan, R. L. MAVENs: motion analysis and visualization of elastic networks and structural ensembles. BMC Bioinformatics. 12 (1), 264 (2011).
Yang, L. -. W., et al. oGNM: online computation of structural dynamics using the Gaussian Network Model. Nucleic Acids Res. 34, 24-31 (2006).
Suhre, K., Sanejouand, Y. -. H. ElNemo: a normal mode web server for protein movement analysis and the generation of templates for molecular replacement. Nucleic Acids Res. 32, W610-W614 (2004).
Tiwari, S. P., et al. WEBnm@ v2.0: Web server and services for comparing protein flexibility. BMC Bioinformatics. 15 (1), 427 (2014).
Hrabe, T., et al. PDBFlex: exploring flexibility in protein structures. Nucleic Acids Res. 44, D423-D428 (2016).
Skjærven, L., Jariwala, S., Yao, X. -. Q., Grant, B. J. Online interactive analysis of protein structure ensembles with Bio3D-web. Bioinformatics. , (2016).
Skjærven, L., Yao, X., Scarabelli, G., Grant, B. J. Integrating protein structural dynamics and evolutionary analysis with Bio3D. BMC Bioinformatics. 15 (399), 1-11 (2014).
Eddy, S. R. Accelerated Profile HMM Searches. PLoS Comput. Biol. 7 (10), (2011).
Edgar, R. C. MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
Berman, H. M. The Protein Data Bank. Nucleic Acids Res. 28 (1), 235-242 (2000).
Finn, R. D., et al. Pfam: the protein families database. Nucleic Acids Res. 42, D222-D230 (2014).
Kerns, S. J., et al. The energy landscape of adenylate kinase during catalysis. Nat. Struct. Mol. Biol. 22 (2), 124-131 (2015).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

Jariwala, S., Skjærven, L., Yao, X., Grant, B. J. Investigating Protein Sequence-structure-dynamics Relationships with Bio3D-web. J. Vis. Exp. (125), e55640, doi:10.3791/55640 (2017).

Étude de la séquence des protéines - structure-dynamique Relations avec Bio3D-web

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

Étude de la séquence des protéines - structure-dynamique Relations avec Bio3D-web

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

✖

To prove you're not a robot, please enter the text in the image below