August 16th, 2017
Ce protocole vise à développer une référence pour les protéines divergentes dans un groupe qui n’a pas de critères cohérents pour la classification et la nomenclature. Cette référence facilitera l’analyse et la discussion du groupe dans son ensemble et peut être utilisée en plus de noms établis.
L’objectif global de cette procédure est d’utiliser un tableur standard pour développer une référence pour les protéines divergentes dans un groupe qui manque de critères cohérents de nomenclature et de classification. Cette méthode peut aider à clarifier les relations entre les protéines apparentées qui ont une nomenclature déroutante ou incohérente, comme la superfamille alpha-bêta de peptides défensifs stabilisés à la cystéine qui comprend les défenses des invertébrés. Le principal avantage de cette technique est qu’elle permet d’obtenir une représentation visuelle simple des protéines d’intérêt.
Pour commencer, identifiez les caractéristiques déterminantes du groupe de protéines d’intérêt. Par exemple, le pli CS alpha-bêta dans la structure de solution de défense contre les insectes et d’aide de phormia terraenovae définit la superfamille CS alpha-bêta. Ce pli comprend également un motif plus petit appelé hélice stabilisée à la cystéine, qui est identifié par CXXXC en amont d’un CXC.
Les quatre cystéines forment deux liaisons disulfure. Pour compléter le motif CS alpha-bêta, une troisième liaison disulfure est formée par une paire supplémentaire de cystéines. En fin de compte, il est essentiel de connaître au moins certaines caractéristiques importantes liées à la structure ou à la fonction de la protéine.
Sans cela, il n’y a aucune base pour générer une référence. Maintenant, entrez ces caractéristiques déterminantes dans une feuille de calcul. Utilisez des colonnes pour les entités conservées et pour représenter les espaces entre ces entités.
Gardez les colonnes suffisamment larges pour s’adapter aux nombres et donnez-leur une largeur constante. Dans les rangées, décrivez les séquences. Pour indiquer une séquence en tant que caractéristique, remplissez la zone de fonctionnalité avec de la couleur, à l’aide de la fonction de remplissage.
Ensuite, pour indiquer l’espacement entre les caractéristiques, entrez le nombre d’acides aminés dans la case entre les deux. Maintenant, ajoutez des séquences représentatives qui ont été précédemment établies en tant que membres du groupe sur la base de bases de données structurelles et de résultats publiés. Si nécessaire, ajoutez des caractéristiques susceptibles de définir un sous-groupe de séquences, comme une cystéine supplémentaire.
S’il manque des caractéristiques dans une séquence donnée, laissez la case vide et combinez-la avec des cases représentant les acides aminés intermédiaires. Pour ce faire, utilisez la fonction Fusionner et Centrer. Une fois que les séquences représentatives ont été saisies, identifiez les groupes de séquences clairement liées.
Ensuite, résumez les caractéristiques de ces groupes. Lorsque le nombre d’acides aminés entre les caractéristiques varie, utilisez un trait d’union pour indiquer une plage ou des barres obliques pour indiquer quelques nombres spécifiques. Si nécessaire, annotez de manière créative les fonctionnalités qui peuvent être pertinentes ou qui ne sont pas assez courantes pour être incluses dans la référence.
Par exemple, comme les cystéines sont importantes dans la superfamille, la présence de cystéines supplémentaires peut être étiquetée. Parfois, lors de l’ajout de séquences nouvellement identifiées à la feuille de calcul, les séquences d’une espèce tombent dans plusieurs groupes différents de la superfamille, comme pour les tardigrades. Une fois terminé, les lignes de la feuille de calcul peuvent ensuite être triées pour mettre en évidence les variations au sein d’une espèce ou entre les groupes taxonomiques.
Cette démonstration utilise le logiciel MEGA 6 disponible gratuitement. Cependant, d’autres logiciels peuvent être utilisés de la même manière. Pour démarrer un nouvel alignement, sélectionnez Modifier/Construire l’alignement sous l’onglet Aligner.
Sélectionnez ensuite Créer un nouvel alignement, dans la zone qui s’affiche et cliquez sur OK. Sélectionnez ensuite Protéine. Maintenant, sélectionnez Insérer une séquence à partir d’un fichier, dans le menu Édition, pour importer les séquences. Les séquences doivent être au format FATA.
Les couleurs d’arrière-plan reflétant les différents types d’acides aminés sont affichées par défaut et peuvent être désactivées à l’aide d’une bascule, dans le menu Affichage. Une fois toutes les séquences saisies, cliquez sur l’icône du bras flexible, puis sur Aligner la protéine pour aligner les séquences à l’aide de l’algorithme musculaire. Si le message Rien est sélectionné pour l’alignement.
Tout sélectionner ? s’affiche, choisissez OK. Certains paramètres peuvent être modifiés dans la fenêtre contextuelle, mais pour cette démonstration, les valeurs par défaut suffiront. Maintenant, vérifiez l’alignement en fonction des caractéristiques importantes de la superfamille des protéines.
La barre supérieure affiche un astérisque dans toute position dans laquelle l’acide aminé est complètement conservé. L’alignement initial identifie trois des quatre cystéines conservées. Une séquence est clairement mal alignée.
Pour corriger une séquence mal alignée, mettez en surbrillance les tirets et appuyez sur la touche Suppr sans supprimer accidentellement les acides aminés. Ensuite, déplacez les acides aminés dans leur bon alignement en ajoutant des espaces. Après avoir aligné la séquence manuellement, notez que la dernière cystéine du motif CXXXC est conservée tout au long de l’alignement.
Un réglage manuel est souvent nécessaire pour hiérarchiser les caractéristiques les plus importantes des séquences. L’alignement de la superfamille CS alpha-bêta précédemment établie a révélé cinq modèles de base de formation de liaisons. Les séquences de tardigrades nouvellement identifiées se situaient dans le spectre complet de ces motifs.
Ensuite, des analyses phylogénétiques ont été utilisées pour examiner comment ce groupe de protéines a pu évoluer. Cependant, les séquences sont généralement courtes et très divergentes. Ainsi, les arbres résultants étaient mal résolus et offraient peu d’informations.
L’alignement de séquences multiples a été optimisé à l’aide de la référence, mais la résolution de l’analyse du maximum de vraisemblance et de l’analyse phylogénétique bayésienne était encore faible. La plupart des clades n’avaient que de faibles niveaux de soutien. Cependant, cinq petits groupes ont été soutenus dans au moins un des deux arbres.
Les séquences avec des nombres de cystéine différents au sein d’un groupe taxonomique peuvent être plus étroitement apparentées que les séquences avec le même motif provenant de groupes différents. Après avoir regardé cette vidéo, vous devriez avoir une bonne compréhension de la façon d’utiliser un tableur pour générer une visualisation simple des caractéristiques protéiques importantes. Lors de la tentative de cette procédure, il est important de se rappeler que la détermination des caractéristiques les plus pertinentes pour le groupe de protéines est souvent un processus itératif, et qu’une révision de la référence sera probablement nécessaire.
De nouvelles séquences peuvent toujours être ajoutées à une feuille de calcul, et il est facile d’avoir plusieurs versions permettant d’ajouter de nouvelles fonctionnalités qui peuvent être utiles pour la classification et l’analyse. Bien que l’alignement de la feuille de calcul permette de visualiser facilement les caractéristiques structurelles et fonctionnelles, d’autres méthodes telles que l’analyse phylogénétique peuvent être effectuées pour fournir des informations supplémentaires sur les relations évolutives.
View the full transcript and gain access to thousands of scientific videos
Ce protocole vise à créer une référence pour les protéines divergentes au sein d'un groupe qui manque actuellement de nomenclature cohérente et de critères de classification. En clarifiant les relations entre les protéines apparentées, cette référence améliorera les discussions et les analyses du groupe.