RESEARCH
Peer reviewed scientific video journal
Video encyclopedia of advanced research methods
Visualizing science through experiment videos
EDUCATION
Video textbooks for undergraduate courses
Visual demonstrations of key scientific experiments
BUSINESS
Video textbooks for business education
OTHERS
Interactive video based quizzes for formative assessments
Products
RESEARCH
JoVE Journal
Peer reviewed scientific video journal
JoVE Encyclopedia of Experiments
Video encyclopedia of advanced research methods
EDUCATION
JoVE Core
Video textbooks for undergraduates
JoVE Science Education
Visual demonstrations of key scientific experiments
JoVE Lab Manual
Videos of experiments for undergraduate lab courses
BUSINESS
JoVE Business
Video textbooks for business education
Solutions
Language
French
Menu
Menu
Menu
Menu
A subscription to JoVE is required to view this content. Sign in or start your free trial.
Research Article
Héctor Cruz1,2, Alejandro Llanes2,3, Patricia L. Fernández2,3
1Facultad de Ciencias y Tecnología,Universidad Tecnológica de Panamá (UTP), 2Centro de Biología Molecular y Celular de Enfermedades,Instituto de Investigaciones Científicas y Servicios de Alta Tecnología AIP (INDICASAT AIP), 3Sistema Nacional de Investigación de Panamá (SNI)
Please note that some of the translations on this page are AI generated. Click here for the English version.
Erratum Notice
Important: There has been an erratum issued for this article. View Erratum Notice
Retraction Notice
The article Assisted Selection of Biomarkers by Linear Discriminant Analysis Effect Size (LEfSe) in Microbiome Data (10.3791/61715) has been retracted by the journal upon the authors' request due to a conflict regarding the data and methodology. View Retraction Notice
Nous décrivons une méthodologie basée sur la diversification des séquences pour estimer les préférences en acides aminés des sites de liaison multispécifiques dans les interactions protéine-protéine (IPP). Dans cette stratégie, des milliers de ligands peptidiques potentiels sont générés et criblés in silico, surmontant ainsi certaines limites des méthodes expérimentales disponibles.
De nombreuses interactions protéine-protéine impliquent la liaison de courts segments de protéines à des domaines de liaison aux peptides. Habituellement, de telles interactions nécessitent la reconnaissance de motifs linéaires à conservation variable. La combinaison de régions hautement conservées et plus variables dans les mêmes ligands contribue souvent à la multispécificité de la liaison, une propriété commune des enzymes et des protéines de signalisation cellulaire. La caractérisation des préférences en acides aminés des domaines de liaison aux peptides est importante pour la conception de médiateurs des interactions protéine-protéine (IPP). Les méthodes de calcul sont une alternative efficace aux techniques expérimentales souvent coûteuses et lourdes, permettant de concevoir des médiateurs potentiels qui peuvent ensuite être validés dans des expériences en aval. Ici, nous avons décrit une méthodologie utilisant l’application Pepspec du package de modélisation moléculaire Rosetta pour prédire les préférences en acides aminés des domaines de liaison aux peptides. Cette méthodologie est utile lorsque la structure de la protéine réceptrice et la nature du ligand peptidique sont toutes deux connues ou peuvent être déduites. La méthodologie commence par une ancre bien caractérisée du ligand, qui est prolongée par l’ajout aléatoire de résidus d’acides aminés. L’affinité de liaison des peptides générés de cette manière est ensuite évaluée par l’amarrage des peptides de squelette flexible afin de sélectionner les peptides avec les meilleurs scores de liaison prédits. Ces peptides sont ensuite utilisés pour calculer les préférences en acides aminés et pour calculer éventuellement une matrice position-poids (PWM) qui peut être utilisée dans d’autres études. Pour illustrer l’application de cette méthodologie, nous avons utilisé l’interaction entre les sous-unités du facteur de régulation 5 de l’interféron humain (IRF5), précédemment connu pour être multispécifique mais globalement guidé par un motif court conservé appelé pLxIS. Les préférences estimées en acides aminés étaient cohérentes avec les connaissances antérieures sur la surface de liaison d’IRF5. Les positions occupées par les résidus de sérine phosphorylables présentaient une fréquence élevée d’aspartate et de glutamate, probablement parce que leurs chaînes latérales chargées négativement sont similaires à celles de la phosphosérine.
L’interaction entre deux protéines implique souvent la liaison de courts segments d’acides aminés à des domaines de liaison peptidiques, ressemblant à des interfaces protéine-peptide. Les protéines réceptrices impliquées dans de telles interactions protéine-protéine (IPP) ont souvent la capacité de reconnaître un certain ensemble de séquences de ligands qui se chevauchent mais divergent, une propriété connue sous le nom de multispécificité 1,2. La reconnaissance multispécifique est une caractéristique de nombreuses protéines cellulaires, mais elle est particulièrement remarquable dans les enzymes et les protéines de signalisation cellulaire3. Les protéines qui interagissent avec des sites de liaison multispécifiques ont souvent une combinaison de régions plus ou moins conservées dans leur séquence 4,5,6. Dans ce scénario, les motifs de séquence les plus conservés sont impliqués dans des interactions moléculaires strictes. À l’inverse, les séquences les plus variables interagissent avec des surfaces permissives dans le site de liaison du récepteur. Habituellement, ces segments moins conservés mais toujours pertinents sur le plan fonctionnel sont des boucles dépourvues de modèles de structure secondaire définis ou ont des conformations encore plus dynamiques, telles que celles typiques des protéines intrinsèquement désordonnées7.
L’identification de ligands peptidiques potentiels de sites de liaison est généralement la première étape de la conception de médiateurs capables d’interférer avec les IPP correspondants8. Cependant, il est souvent peu probable de trouver un seul résidu d’acide aminé le plus fréquent à la plupart des positions de séquence dans les ligands des sites de liaison multispécifiques. Au lieu de cela, ces sites peuvent avoir des préférences particulières pour une classe spécifique d’acides aminés en fonction de leurs propriétés chimiques, par exemple, les acides aminés acides et chargés négativement tels que l’aspartate ou le glutamate, les acides aminés aromatiques volumineux tels que la phénylalanine ou les résidus plus hydrophobes tels que les acides aminés aliphatiques alanine, valine, leucine ou isoleucine3. Plusieurs méthodes expérimentales peuvent fournir des informations sur les préférences en acides aminés des sites de liaison aux protéines, notamment l’évolution dirigée9, la mutagenèse à balayage multi-codons10 et le balayage mutationnel profond11. Toutes ces méthodes suivent l’approche de la diversification des séquences, qui est basée sur l’introduction de mutations dans les ligands originaux et l’analyse plus approfondie de leur effet sur la fonction de la protéine réceptrice (voir Bratulic et Badran12 pour une revue complète). Cependant, ces méthodes nécessitent souvent l’étude de grandes bibliothèques de séquences, ce qui les rend plus lourdes, plus coûteuses et plus longues.
Les méthodes informatiques permettant de déduire les préférences en acides aminés des sites de liaison multispécifiques ont le potentiel de contourner les limites des méthodes de laboratoire humide. Parmi celles-ci, l’approche de diversification de séquences in silico évalue l’impact énergétique d’une large gamme de remplacements d’acides aminés dans la séquence de ligands afin de caractériser la plasticité structurale de l’IPP13. Cette méthode commence par la structure ou le modèle du ligand peptidique lié au site de liaison du récepteur et introduit ensuite des mutations dans la séquence du ligand. Des fonctions statistiques et de scoring énergétique sont ensuite utilisées pour évaluer l’impact de ces mutations sur la stabilité et l’affinité de liaison. L’ensemble des séquences de ligands les mieux notées résultant de la phase d’évaluation peut ensuite être utilisé pour calculer les préférences en acides aminés. Cette stratégie a le potentiel de traiter un très grand nombre de séquences de ligands de manière efficace. Par conséquent, il peut fournir une inférence plus complète et cohérente des préférences en acides aminés par rapport à celles calculées à partir du nombre plus limité de séquences qui peuvent généralement être traitées dans les approches de laboratoire humide.
L’application Pepspec de la suite de modélisation moléculaireRosetta 14 est un outil qui effectue la diversification des séquences comme une étape clé de son mode de conception peptidique. Cette application nécessite une structure ou un modèle de la protéine réceptrice avec un peptide lié jusqu’à un seul résidu d’acide aminé de longueur, qui est utilisé comme point d’ancrage pour les étapes suivantes. La séquence du peptide lié est ensuite étendue (si nécessaire) et diversifiée pour générer un grand nombre de ligands peptidiques peptidiques présumés. L’affinité de liaison de ces peptides est ensuite évaluée par l’amarrage de peptides de squelette flexible afin de sélectionner ceux dont les scores de liaison sont les mieux prédits. Bien que le principal résultat de cette application soit les meilleurs candidats peptidiques sélectionnés à la fin de la phase de conception, l’ensemble beaucoup plus large de peptides acceptés au cours de cette phase peut également être utilisé pour calculer les préférences en acides aminés du site de liaison cible. Les préférences en acides aminés sont calculées comme la fréquence de chaque résidu d’acide aminé par position de la séquence de ligand, représentée soit par une matrice de poids de position (PWM), soit par un logo de séquence plus visuel.
Dans cet article, nous décrivons un protocole permettant d’estimer les préférences en acides aminés de la surface de liaison d’une protéine réceptrice impliquée dans un IPP. Le protocole se concentre sur les IPP dans lesquels un segment linéaire du ligand protéique est connu pour se lier à la protéine réceptrice, de sorte que le scénario peut être modélisé comme une interface protéine-peptide. Dans ce scénario, les motifs conservés du ligand interagissent généralement avec des poches définies dans le site de liaison du récepteur, bien que l’ensemble du segment du ligand impliqué dans l’IPP puisse contenir des régions moins conservées. La figure 1 présente un organigramme résumant les principales étapes du protocole. Le protocole commence par la structure 3D du complexe protéine-protéine et réduit davantage la protéine ligand au segment potentiel qui interagit le mieux, laissant la protéine réceptrice intacte. Le segment qui interagit le mieux est déduit en utilisant le serveur BUDE Alanine Scan15, qui effectue une mutagenèse computationnelle par balayage de l’alanine pour identifier les résidus de points chauds entre les deux protéines en interaction. Dans cette approche, les résidus du ligand sont remplacés individuellement par l’alanine, et la variation estimée de l’énergie libre ou de la stabilité du complexe (ΔΔG) est ensuite utilisée pour déduire la pertinence du résidu correspondant pour l’IPP cible. Une fois que le segment qui interagit le mieux est déduit, son complexe avec la protéine réceptrice est utilisé comme structure de base soumise à Pepspec pour effectuer la diversification de la séquence.

Figure 1 : Vue d’ensemble des principales étapes du protocole proposé dans ce travail. Les numéros correspondent aux numéros d’étape dans la section protocole. Les figures ont été faites avec le complexe protéine-protéine utilisé comme exemple décrit dans le texte. Dans ce complexe, la chaîne protéique considérée comme le récepteur est représentée en rose, tandis que la chaîne considérée comme le ligand est représentée en bleu clair avec son segment prédit qui interagit le mieux mis en évidence en rouge. Veuillez cliquer ici pour voir une version agrandie de cette figure.
L’une des limites du protocole suggéré est l’exigence d’une structure résolue de l’interface protéine-peptide. Le protocole peut également commencer par un modèle de l’interface protéine-peptide cible, bien que les étapes de modélisation spécifiques ne soient pas décrites dans le présent document. De plus, bien que le protocole puisse être exécuté sur un ordinateur personnel exécutant n’importe quel système d’exploitation, un environnement Linux est nécessaire pour les étapes impliquant les applications Rosetta. Un cluster d’ordinateurs est également fortement recommandé pour l’étape de diversification de séquences en raison du grand nombre d’itérations généralement effectuées par Pepspec.
L’application du protocole suggéré est illustrée par l’estimation des préférences en acides aminés de la surface d’attente d’IRF5, un membre de la famille des facteurs de régulation de l’interféron humain (IRF). Nous avons choisi cette protéine comme exemple car, lors de son activation, deux sous-unités se lient pour former un dimère dont la structure est bien caractérisée16. Dans les dimères IRF, la liaison peut être modélisée comme une interface protéine-peptide dans laquelle une sous-unité fournit la surface de liaison et l’autre interagit à travers une région contenant un court motif conservé appelé pLxIS17,18. De plus, la liaison aux sous-unités IRF est multispécifique ; Par conséquent, ils peuvent former des homodimères, des hétérodimères et des complexes avec d’autres protéines cellulaires appelées coactivateurs18.
1. Préparation initiale de l’interface protéine-peptide

Figure 2 : La page de la banque de données sur les protéines (PDB) pour la structure utilisée comme exemple représentatif dans ce travail. (A) Boîte de recherche pour introduire le code d’accès PDB de la structure cible. (B) Menu pour télécharger la structure en plusieurs formats. (C) Options permettant de télécharger des assemblages biologiques lorsque la structure a été enregistrée en tant qu’unité asymétrique (voir l’étape 1.1.2 pour plus de détails). Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 3 : Sélection du récepteur et du ligand dans le serveur BUDE Alanine Scan. (A) Représentation graphique du complexe protéine-protéine. (B) Zone de texte pour entrer le nom de la tâche sur le serveur. (C) Panel pour sélectionner de manière interactive les chaînes qui seront considérées comme récepteur et ligand (voir l’étape 1.2 pour plus de détails). Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 4 : Page de résultats du serveur BUDE Alanine Scan. Le segment potentiel qui interagit le mieux dans la séquence de ligand est indiqué par une case rouge. Dans le panneau de gauche, le résidu avec la contribution énergétique prévue la plus élevée (Leu433) est surligné en vert. Veuillez cliquer ici pour voir une version agrandie de cette figure.
2. Diversification séquentielle
REMARQUE : dans les étapes suivantes, rosetta_main fait référence au répertoire d’installation principal de Rosetta, qui se trouve généralement dans /opt/rosetta_src_


3. Estimation des préférences en acides aminés

Dans cet article, nous avons décrit un protocole permettant de prédire les préférences en acides aminés de la surface de liaison d’IRF5, membre d’une famille de facteurs de transcription connus sous le nom de facteurs régulateurs de l’interféron humain. Ces protéines sont des régulateurs des réponses immunitaires innées et adaptatives et participent à la différenciation et à l’activation de plusieurs cellules immunitaires. Les sous-unités IRF ont des surfaces de liaison hautement plastiques et multispécifiques, capables de former des homodimères, des hétérodimères et des complexes avec d’autres protéines cellulaires17,18. On pense que la dimérisation est la première étape de l’activation de ces facteurs, et chez la plupart des membres de la famille, elle est déclenchée par la phosphorylation de plusieurs résidus de sérine/thréonine18. Lors de la dimérisation, chaque monomère interagit avec la surface d’appel de l’autre monomère via un motif hautement conservé appelé pLxIS, situé vers la région C-terminale de leur séquence. L’abréviation pLxIS représente partiellement les préférences en acides aminés de la surface de liaison, qui reconnaît séquentiellement un acide aminé polaire ('p'), suivi de deux positions avec une fréquence élevée de leucine ('L') et d’isoleucine ('I'), séparées par une position occupée par n’importe quel acide aminé ('x') et suivie d’un résidu de sérine phosphorylable (Ser436 dans cet exemple). La phosphorylation de plusieurs résidus de sérine, dont celle du motif pLxIS, favorise la courbure du segment C-terminal d’un monomère et son interaction avec la surface de liaison de l’autre monomère19,22.
Le protocole décrit ici a commencé avec une structure 3D du dimèreIRF5 19, dans laquelle l’un des monomères a été arbitrairement considéré comme le récepteur dans l’IPP, tandis que l’autre a été considéré comme le ligand contenant le motif pLxIS. Pour mieux définir le segment du ligand interagissant avec le site de liaison du récepteur, nous avons effectué une mutagenèse computationnelle à balayage de l’alanine (étape 1.2). Le segment prédit était composé de 13 résidus d’acides aminés des positions 424 à 436, le motif pLxIS commençant à Arg432. La structure du dimère d’origine a ensuite été réduite à un complexe peptide-protéine dans lequel la séquence du monomère considéré comme ligand a été recadrée au segment prédit qui interagit le mieux, tandis que l’autre monomère a été laissé intact (étape 1.3). Cette structure a ensuite été utilisée comme entrée pour la stratégie de diversification des séquences (section 2), désignant le résidu leucine du motif pLxIS (Leu433) comme l’ancrage requis par Pepspec. Ce processus a permis d’obtenir plus de 26 000 ligands peptidiques potentiels. Les 20 % supérieurs de ligands potentiels ayant les meilleurs scores énergétiques (5 280) ont été utilisés pour estimer les préférences en acides aminés de la surface de liaison sous la forme d’un PWM (figure 5A) et d’un logo de séquence (figure 5B) (section 3).

Figure 5 : Préférences en acides aminés de la surface de liaison d’IRF3. (A) PWM indiquant la fréquence de chaque résidu d’acide aminé (rangées) par position dans la séquence de ligands peptidiques (colonnes). (B) Logo de séquence représentant visuellement les fréquences d’acides aminés correspondantes. Les positions de la séquence IRF5 d’origine sont indiquées entre parenthèses sous chaque colonne du logo de la séquence. Veuillez cliquer ici pour voir une version agrandie de cette figure.
Dans le PWM, chaque ligne correspond à un résidu d’acide aminé spécifique, tandis que chaque colonne représente une position dans la séquence. Chaque cellule de la matrice contient la fréquence relative de chaque acide aminé à cette position, pondérée par les fréquences de fond globales. Les logos de séquence sont construits en empilant les lettres d’acides aminés de sorte que la hauteur totale de la pile à chaque position indique la conservation de la séquence globale à cette position. À l’inverse, la hauteur des lettres individuelles à l’intérieur de la pile indique la fréquence de l’acide aminé correspondant. Dans cet exemple, le PWM et le logo de la séquence sont cohérents avec les connaissances antérieures concernant la surface de liaison de l’IRF5, avec une préférence plus élevée pour un acide aminé polaire (glutamate) à la position 432 (« p ») et une très forte préférence pour la leucine et l’isoleucine aux positions 433 et 435, respectivement. Remarquablement, les positions 427, 429 et 436 ont toutes été prédites pour avoir une conservation plus élevée de l’aspartate malgré le fait qu’elles soient occupées par la sérine dans la séquence IRF5 originale. Cette découverte met en évidence l’importance de la phosphorylation de ces positions pour la formation du dimère IRF5 puisque la charge négative dans les chaînes latérales de l’aspartate et du glutamate ressemble à celle de la phosphosérine. En fait, une étude antérieure a rapporté qu’un peptide leurre appelé IRF5D, dans lequel ces résidus de sérine étaient remplacés par de l’aspartate, était capable d’inhiber l’activité23 d’IRF5. À l’inverse, il a été prédit que la position 425 aurait une très forte préférence pour la sérine, ce qui suggère que le résidu de sérine dans cette position pourrait participer à l’IPP sous sa forme non phosphorylée. En effet, il a déjà été rapporté pour d’autres IRF que la phosphorylation du résidu de sérine équivalent affecte négativement la dimérisation et la liaison à d’autres coactivateurs16,24.
Les auteurs n’ont rien à divulguer.
Nous décrivons une méthodologie basée sur la diversification des séquences pour estimer les préférences en acides aminés des sites de liaison multispécifiques dans les interactions protéine-protéine (IPP). Dans cette stratégie, des milliers de ligands peptidiques potentiels sont générés et criblés in silico, surmontant ainsi certaines limites des méthodes expérimentales disponibles.
Nous remercions vivement le Sistema Nacional de Investigación (SNI) (subventions SNI-043-2023 et SNI-170-2021), le Secretaría Nacional de Ciencia, le Tecnología e Innovación (SENACYT) du Panama et l’Instituto para la Formación y Aprovechamiento de Recursos Humanos (IFARHU). Les auteurs tiennent à remercier le Dr Miguel Rodríguez pour l’examen minutieux du manuscrit.
| BUDE Alanine Scan Server | Université d’Édimbourg | https://pragmaticproteindesign.bio.ed.ac.uk/balas/ | doi : 10.1021/acschembio.9b00560 |
| Logiciel de modélisation Rosetta | Commons | https://www.rosettacommons.org/software | doi : 10.1002/prot.22851 |
| UCSF Chimera | Université de Californie San Francisco | https://www.cgl.ucsf.edu/chimera/ doi : 10.1002/ JCC.20084 |