Genetics

Détermination du risque de pathogénicité Variant en utilisant l’analyse de Signal-bruit d’acides aminés au niveau de la Variation génétique

Published: January 16, 2019 doi: 10.3791/58907

¹Department of Pediatrics, Baylor College of Medicine, ²Department of Pediatrics, Division of Cardiology, Duke University School of Medicine

Summary

Analyse de signal-bruit au niveau d’acides aminés détermine la prévalence de la variation génétique à une position donnée d’acides aminés normalisée à variation génétique de fond d’une population donnée. Cela permet l’identification des variantes « hotspots » dans une séquence de protéines (signal) qui s’élève au-dessus de la fréquence des variants rares trouvées dans une population (bruit).

Abstract

Avancements dans le coût et la rapidité du séquençage génétique de prochaine génération ont généré une explosion de l’exome toute clinique et tests du génome entier. Alors que cela a conduit à l’identification accrue des mutations pathogènes susceptibles, associées à des syndromes génétiques, il a augmenté considérablement le nombre d’ailleurs trouvé des variantes génétiques d’importance inconnue (VUS). C’est un défi majeur pour les scientifiques et les cliniciens de déterminer la signification clinique de ces variantes. Une approche pour aider à déterminer la probabilité de pathogénicité est analyse de signal-bruit au niveau de séquences de protéines. Ce protocole décrit une méthode pour l’analyse de signal-bruit au niveau d’acides aminés qui exploite une fréquence variant à chaque position d’acides aminés de la protéine avec topologie protéiques connus pour identifier les domaines de la séquence primaire avec une probabilité élevée de variations pathologiques (par rapport à la variation de la population de « fond »). Cette méthode peut identifier l’emplacement de résidus d’acides aminés « points chauds » du signal pathologique élevé, ce qui permet d’affiner le diagnostic poids de VUSs tels que ceux identifiés par dépistage génétique de prochaine génération.

Introduction

L’amélioration rapide des plateformes de séquençage génétique a révolutionné l’accessibilité et le rôle de la génétique en médecine. Une fois limité à un seul gène, ou une poignée de gènes, la réduction des coûts et augmentation de la vitesse de prochaine génération séquençage génétique a conduit le séquençage systématique de la totalité du génome de codage séquence (séquençage de l’exome entier, WES) et le génome entier () le séquençage du génome entier, WGS) en milieu clinique. WES et groupes de travail ont été utilisés fréquemment dans le cadre des nouveau-nés gravement malades et les enfants avec le souci de syndrome génétique où c’est un outil diagnostique qui peut changer la prise en charge clinique¹^,². Alors que cela a conduit à l’identification accrue des mutations pathogènes susceptibles, associées à des syndromes génétiques, il a considérablement augmenté le nombre de variants génétiques trouvées ailleurs, ou des résultats positifs inattendus, de diagnostic inconnu signification (VUS). Tandis que certaines de ces variantes sont ignorées et non publiées, variantes, localisation de gènes associés à des maladies potentiellement mortelles ou très morbides sont souvent signalés. Lignes directrices actuelles recommandent déclaration des variantes accessoires trouvées dans les gènes spécifiques qui peuvent être d’utilité médicale du patient, y compris les gènes associés à l’apparition des maladies de prédisposant à la mort cardiaques soudaines comme les cardiomyopathies et Canalopathies³. Bien que cette recommandation a été conçue pour capturer des personnes présentant un risque d’une maladie prédisposant à la SCD, la sensibilité de détection variante dépasse de loin spécificité. Cela se reflète dans un nombre croissant de VUSs et par ailleurs identifié des variantes avec l’utilitaire de diagnostic difficile qui dépassent de loin la fréquence des maladies dans une population donnée⁴respectifs. Une telle maladie, le syndrome du QT long (SQTL), est un canonique canalopathie cardiaque causée par des mutations, localisation de gènes qui codent des canaux ioniques cardiaques ou canal interaction protéines, aboutissant à retard de repolarisation cardiaque⁵. Cette repolarisation retardée, vue par un intervalle prolongé de QT sur l’électrocardiogramme, de repos se traduit par une prédisposition électrique à des arythmies ventriculaires potentiellement mortelles telles que des torsades de pointes. Alors qu’un certain nombre de gènes ont été associé au développement de cette maladie, les mutations KCNQ1-j’ai codé_Ks potassium channel (KCNQ1, Kv7.1) est la cause du SQTL type 1 et est utilisé comme un exemple inférieur à⁶. Illustrant la complexité dans l’interprétation variant, la présence de variants rares dans les gènes associés à la SQTL, ce qu’on appelés « variation génétique de fond » a été décrite précédemment⁷^,⁸.

En plus de bases de données grand recueil de style des variantes pathogènes connus, plusieurs stratégies existent pour prédire que les variantes différentes effet produira. Certains sont basés sur des algorithmes, tels que les EIPD et Polyphen 2, qui peut filtrer un grand nombre de nouvelles variantes non-synonyme de prédire prohibé⁹^,¹⁰. Malgré une large utilisation de ces outils, faible spécificité limite leur applicabilité lorsqu’il s’agit de « vocation » clinique VUSs¹¹. Analyse de « Signal sur bruit » est un outil qui identifie la probabilité d’une variante étant associée à la maladie basée sur la fréquence de la variation pathologique connue aux loci en question normalisée contre rare variation génétique d’une population. Variantes de localisation au locus génétiques où il y a une forte prévalence des mutations associées à la maladie par rapport à la variation sur la population, un signal sur bruit élevé, sont plus susceptibles d’être associés à la maladie eux-mêmes. En outre, rares variantes trouvées ailleurs localisation d’un gène ayant une fréquence élevée de variantes rares de population par rapport à la fréquence associés à la maladie, un faible signal-bruit, peut être moins susceptibles d’être associés à la maladie. L’utilitaire de diagnostic de l’analyse de signal-bruit a été illustré dans les dernières directives pour des tests génétiques pour les cardiomyopathies et Canalopathies ; Toutefois, il a seulement été utilisé au niveau du gène entier ou spécifiques à un domaine de niveau¹². Récemment, étant donné la disponibilité accrue de variantes pathologiques (maladie bases de données, études de cohortes dans la littérature) et variantes de contrôle axée sur la population (Consortium d’agrégation de l’Exome, ExAC et les bases de données génomiques agrégation, GnomAD¹³), Ceci a été appliqué à la position de chaque acide aminé dans la séquence primaire d’une protéine. Analyse de signal-bruit au niveau d’acides aminés a révélé utile pour catégoriser les variantes d’ailleurs identifiés dans les gènes associés à SQTL comme probablement des variations génétiques « arrière-plan » plutôt que des associés à la maladie. Parmi les trois principaux gènes associés du SQTL, y compris KCNQ1, ces variants identifiés soit dit en passant n’avait pas un ratio signal-bruit significative, suggérant que la fréquence de ces variantes aux positions des acides aminés individuels représentent les rares variation de la population plutôt que des mutations associées à la maladie. En outre, lorsque la topologie de domaine spécifique à la protéine a été superposée contre les zones de forte mutation signal-bruit, pathologique « points chauds » localisés dans les principaux domaines fonctionnels de la protéines¹⁴. Cette méthodologie est prometteuse à déterminer 1) la probabilité d’une variante ou population-associés à la maladie et 2) identifier les nouveaux domaines fonctionnels critiques d’une protéine associée à la maladie humaine.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. identifier le gène et l’isoforme spécifique épissure d’intérêt

NOTE : Ici, nous démontrons l’utilisationdes Ensembl¹⁵ pour identifier la séquence consensus pour le gène d’intérêt qui est associé à la pathogenèse de la maladie d’intérêt (c.-à-d. KCNQ1 de mutations sont associées par SQTL). Alternatives à Ensembl comprennent RefSeq via le National Center for Biotechnology Information (NCBI)¹⁶ et l’Université de Californie, Santa Cruz (UCSC) Human Genome Browser¹⁷ (voir Table des matières).

Dans la page d’accueil de l’Ensembl, sélectionnez l’espèce (c'est-à-dire humain) dans le menu déroulant et entrez le gène de l’acronyme d’intérêt dans le domaine (c'est-à-dire KCNQ1). Cliquez sur « Go »
Cliquez sur le lien correspondant au gène d’intérêt (c.-à-d. « KCNQ1 (gène humain) »
Cliquez sur le lien correspondant à la transcription des ID d’intérêt d’intérêt de la « table de transcription » (p. ex. TranscriptID ENST00000155840.10, NM_000218 [transcrit], NP_000209 [produit protéique d’ARN de transcription]).
NOTE : Revue de la littérature pertinente est nécessaire pour s’assurer que la séquence consensus de la transcription correcte est sélectionnée.
Notez les numéros d’identification transcription spécifique NM et NP pour un usage ultérieur dans la colonne « RefSeq » de la « Table de transcription ».
Cliquez sur le lien associé au numéro d’ID de NP pour ouvrir une nouvelle page Web de la base de données de protéine de NCBI.
Faites défiler jusqu'à la section « Origine » pour obtenir la séquence (primaire) de protéines pour la transcription du gène d’intérêt.
Faites défiler jusqu'à la section « Caractéristiques » pour obtenir une liste des fonctionnalités protéine (domaines fonctionnels, domaines de liaison, sites de modification post-traductionnelle).
NOTE : Cette information peut également être obtenue via la base de données de protéine de NCBI ou de sources primaires dans la littérature. Cela sera examiné à l’étape 5.

2. créer le Experimental Database Variant génétique (le « Signal »)

NOTE : Ici, nous montrent comment créer une base de données des variants associés à la maladie dans le gène d’intérêt avec la fréquence des variants associés à la maladie chez les personnes atteintes de la maladie d’intérêt. Cette base de données peut prendre plusieurs formes et représente le « signal » (phénotype séropositifs variation génétique) qui normaliseront contre la base de données des variantes. Cela peut inclure des variantes 1) associés à la maladie pour la comparaison avec VUSs pour identifier de nouveaux domaines fonctionnels des protéines et/ou 2) VUSs, y compris d’ailleurs identifiés VUSs, à comparer à des variants associés à la maladie afin de déterminer la probabilité de pathogénicité. Des variants associés à la maladie dans KCNQ1 seront présentés à titre d’illustration ; Toutefois, la méthode est la même pour l’analyse de VUSs soit dit en passant-identifiés ou tout autre ensemble de variantes expérimentales.

Identifier cohorte de cas index/proposants sans rapport avec la maladie d’intérêt dont le gène d’intérêt a été génotypé globalement pour tous les proposants (c'est-à-dire une étude identifie 24 proposants indépendants hébergement variantes dans KCNQ1 sur 200 individus avec SQTL qui ont été soumis à un interrogatoire génétique KCNQ1).
Remarque : Ces cohortes peuvent être identifiés de la littérature, de l’analyse génétique expérimentale, ou une combinaison des deux.
1. Exclure les études qui ne sont pas fondées sur une cohorte (c'est-à-dire un rapport de cas décrivant un seul individu de mutation positive) ne fournissent pas le nombre total d’individus génotypés pour le gène d’intérêt, ou analyser pas globalement génétiquement le gène ( c'est-à-dire un dépistage génétique « ciblé » de seulement KCNQ1 exons 2-4) ces empêchent le calcul de la fréquence d’une variante.
2. Inclure les personnes qui sont sans rapport avec proposants et excluent les individus apparentés comme cela peut surestimer les fréquences variant (c'est-à-dire une étude identifie 4 individus non apparentés aux mutations KCNQ1 dans une cohorte de 20 patients avec SQTL. Un des ces proposants appartient à une famille avec 5 autres kindred mutation positive. Exclure tous les membres de la famille et inclure uniquement les 4 proposants indépendants).
Compiler tous les variants génétiques expérimentales dans la cohorte identifiés
1. Assignez la nomenclature qui contient de l’acide aminé de type sauvage, la position d’acides aminés et variant d’acides aminés (c.-à-d. alanine au acide aminé numéro 212 changé en valine, Ala212Val ou A212V). Un tel type de nomenclature est illustré dans la Figure 1.
2. Confirmer que la variante nomenclature de toutes les variantes génétiques expérimentales est basé sur la même transcription de gène de référence tel qu’indiqué dans l’étape 1.4. Si des variantes génétiques expérimentales ne sont pas annotées sur la transcription de gène de référence même, puis reannotate position variant d’une transcription de référence à l’aide d’alignement de la transcription (voir l’étape 1.2)
Exclure les variantes qui ne sont pas applicables en fonction de la question à l’étude.
1. Exclure les variantes localisation de régions non codantes du génome ou de variantes qui ne modifient pas la protéine de séquence comme synonymes, intronic variantes, région non traduite en 5' ou 3' [UTR] et région intergénique variantes (c.-à-d. un déclarés pathologique variante en KCNQ1 qui se localise à la 5' UTR de la région codante serait exclue car il n’est pas prévu de modifier la séquence de la protéine).
2. Exclure les variantes qui ne satisfont pas aux critères d’inclusion pour l’étude. Pour les variantes associés à la maladie, cela comprend les variantes ne sont plus considérées comme pathologiques.
  1. Confirmer que chaque variante est actuellement considéré comme pathogène, probablement pathogène, ou au moins pas bénigne, en renvoyant les variantes avec la base de données ClinVar (voir la Table des matières).
  2. Insérer le gène et la variante d’intérêt dans ClinVar champ de recherche (c.-à-d. KCNQ1-Y111C), sélectionnez « Rechercher »
  3. Identifier la variante d’intérêt sous la colonne « Variation/lieu ».
  4. Notez l’interprétation d’un consensus de pathogénicité sous la colonne « Signification clinique » (c.-à-d. KCNQ1-Y111C est interprété comme « pathogènes »).
  5. Incluent des variantes qui sont « vraisemblablement pathogène » ou « pathogènes ».
  6. Incluent des variantes avec appellations de « interprétations contradictoires de la pathogénicité, » « signification incertaine », ou lorsque aucun document n’est disponible (« ne pas prévu ») si cela est justifié par l’étude.
  7. Exclure variantes désignés comme « probablement bénigne » (c'est-à-dire KCNQ1-A62T).
Calculer la fréquence de l’allèle mineur (CRG) de chaque position variante expérimentale.
1. Calculer comment les allèles étaient positifs pour chaque variante respective (c'est-à-dire si une mutation hétérozygote se trouve à 2 individus non apparentés, le nombre d’allèles positifs variante KCNQ1-Y111C 2).
2. Calculer le nombre total d’allèles séquencé au sein de la cohorte
  1. Notez le nombre total d’individus séquencé dans chaque étude de cohorte (étape 2.1)
  2. Multipliez le nombre total d’individus par 2 pour déterminer le nombre total d’allèles.
    Remarque : Cela suppose des génomes diploïdes par lequel chaque possibilité individuelle 2 de chaque allèle.
3. Calculer le nombre total d’individus variant pour chaque position d’acides aminés (allèles dans 2.4.1/alleles étape à l’étape 2.4.2). Par exemple, si 2 indépendants individus chaque hôte KCNQ1-Y111C des mutations hétérozygotes cohortes de 100 et 200 personnes touchées par le SQTL, respectivement, alors la fréquence des variantes expérimentales à la position de l’acide aminé 111 est 2 variantes/((100+200 individuals ) * 2 allèles/individus) (c.-à-d. en combinaison CRG 0,0033).
4. Calculer cette valeur pour chaque variante comme le CRG respectif de chaque variante expérimentale. Pour plus de détails voir l’étape 4.2.

3. Créez le contrôle génétique Variant de base de données (le « bruit »)

NOTE : Ici, nous montrent comment créer une base de données des variantes de contrôle dans le gène d’intérêt avec une fréquence associée à une population témoin. Cette base de données représente le « bruit » (phénotype-négatif, axée sur la population de la variation génétique) qui est le fond sur lequel la base de données variante expérimentale normaliseront. Ceci est dénommé variation de « contrôle ».

Identifier une cohorte de proposants sain, sans lien avec ou d’utiliser de grandes études populationnelles afin d’identifier des variants rares parmi une population donnée.
NOTE : Cette base de données des Sources sont diverses et comprennent : 1) individus sains et/ou phénotype négatif sinon individus soumis à Sanger séquençage ou bases de données publiquement tenues d’individus basée sur la population pour laquelle la maladie en question est rare en fréquence par exemple 2) 1000 Genome Project (N = 1 094 sujets)¹⁸, 3) National Heart, Lung, and projet de séquençage de l’Exome sang Institut GO (ESP, N = 5 379 sujets)¹⁹, 4) de l’Exome agrégation Consortium (ExAC, N = 60 706 sujets)¹³, ou 5) base de données de génome agrégation (GnomAD, N = 138 632 personnes)¹³ (voir la Table des matières). La base de données GnomAD serviront à titre d’exemple.
1. Entrez le gène d’intérêt dans la zone Rechercher sur la page d’accueil GnomAD (c.-à-d. KCNQ1).
2. Vérifier que le navigateur sélectionné le bon gène et transcription d’intérêt (étape 1.4).
3. Confirmez qu’il existe une couverture appropriée du séquençage du locus en passant en revue « la couverture moyenne » et « tracé de couverture ».
4. Sélectionnez pour le codage génétique variation de séquence en sélectionnant « Faux-sens + LoF. »
5. Sélectionnez « table d’exportation au format CSV, » qui va générer un fichier de TextEdit nommé « Inconnu ».
6. Renommer le fichier et inclut une nouvelle extension « *.csv » (c'est-à-dire « KCNQ1 contrôle Variation.csv »).
7. Ouvrez le fichier à l’aide d’un logiciel approprié pour l’analyse de fichiers *.csv (voir la Table des matières).
Identifier la protéine changeant la variation génétique dans la colonne intitulée « Protéine conséquence. »
S’appliquent même critères d’exclusion pour ces variantes génétiques de contrôle comme les variantes génétiques expérimentales (étape 2.3.1).
Identifier le CRG de chaque version "control".
1. Localisez la colonne « Allèle Count », qui désigne le nombre d’allèles trouvés pour héberger la variante.
2. Localisez la colonne « Numéro de l’allèle », qui désigne le nombre total d’allèles séquencé à cela étant donné la position d’acides amine.
  Remarque : Le nombre total d’allèles séquencé variera selon la couverture à cet endroit. Zones de couverture élevée seront approcheront 2 * nombre total d’individus au sein de GnomAD (c'est-à-dire à 138 632 personnes, couverture complète englobe 277 264 totales allèles génotypés). À l’inverse, les zones de couverture inférieure aura plusieurs allèle total réduit
3. Localiser la variante du CRG est pré calculé dans la colonne « Fréquence », qui représente « Allèle Count » divisé par « Nombre d’allèle ».
  Remarque : Les génomes humains ont deux de chaque allèle (c'est-à-dire 1 objet trouvé pour avoir une variante hétérozygote chez 10 personnes a un MAF de 1/20)
4. Notez le CRG pour chaque variante comme le CRG respectif de chaque version "control".
  Remarque : Variante CRG spécifique pour chaque groupe racial ou ethnique comprenant GnomAD peut être vu dans les colonnes à droite de « Fréquence allélique. »
Appliquer un seuil CRG pour variants rares au-dessus duquel contrôle variantes sont exclus comme « commun ».
1. Définissez le seuil de CRG sur la valeur maximale à laquelle tous vraiment associés à la maladie variantes (voir étape 2) observées également dans la base de données de contrôle sont inclus sous le seuil (c.-à-d., parmi toutes les variantes de KCNQ1 associés à la maladie retrouve dans GnomAD le variante courante plus élevée du CRG est 0,009, alors il convient d’exclure toutes les variantes de GnomAD au-dessus d’un seuil de 0,01).
S’assurer que la nomenclature variante expérimentale est identique au contrôle (voir l’étape 2.2).
Enregistrez le fichier. Dans certains cas, il faudra changer l’extension/type de fichier.

4. cartographie et le calcul de Signal-bruit niveau acides aminés

Calculer un CRG pour chaque position d’acide aminé avec une version "control" (voir Figure 1 contenant des variantes KCNQ1 GnomAD exemple).
1. Dans une feuille graphique compatible, créer une colonne de la position de toutes les variantes expérimentales.
2. Supprimer la variante texte pour laisser seulement la position variant.
  NOTE : Les différentes fonctions/formules peut être utilisés pour supprimer automatiquement ces éléments de texte dans les cellules (Figure 1, la colonne C, voir Table des matières).
3. Trier les variantes en valeur ascendante afin d’identifier qui les postes comportent plus de 1 variante associée (Figure 1, colonne E ; c'est-à-dire l’acide aminé position 10 est répertoriée deux fois dans la colonne E qui indique 2 variantes uniques à la position).
4. Combiner le CRG pour chaque variante associée à une position donnée en prenant la somme de tous les MAFs pour une position donnée (Figure 1, colonne G et H).
Calculer un CRG pour chaque position d’acide aminé avec une variante expérimentale (voir Figure 2 contenant des simulacres KCNQ1 variantes pathologiques).
1. De manière similaire au point 4.1.1, créer une colonne de positions d’acides aminés qui ont des variantes expérimentales (Figure 2, colonne B).
2. Pour chaque poste variant, calculer le CRG de toutes les variantes associées à cette position de l’étape 2.4 (Figure 2, colonne C-G).
Créer un roulement moyen du CRG à la fois expérimentale et variantes de contrôle.
1. Développez les colonnes créées en 4.1 et 4.2 pour inclure les cellules pour les positions d’acides aminés qui n’ont aucune variante comme un CRG = 0. (Figure 3).
  1. Créer une colonne contenant tous les acides aminés postes dans le gène d’intérêt (c.-à-d. 1 à 676 pour KCNQ1, Figure 3, colonne C et I).
  2. Ajouter un MAF de 0 pour tous les postes qui n’ont pas de variantes pour les témoins et les ensembles de données expérimentales.
    Remarque : Ceci peut être fait automatiquement en utilisant la fonction « RECHERCHEV » dans un programme de logiciels couramment utilisés (Figure 3, colonne D et J, voir Table des matières).
2. Créer un enroulement moyenne pour chaque expérimentale et manche de prévalence.
  Remarque : Ceci permet d’inférence de pathogénicité position adjacente et peut être modifié ou même exclu, pour répondre aux besoins de l’étude.
  1. Créer une colonne, ce qui représente une moyenne mobile du CRG pour les deux le contrôle et les ensembles de données expérimentales (Figure 3, colonne E et K).
  2. Dans la colonne moyenne roulante, placez la moyenne du CRG respectif pour les 5 positions de variante variante N-terminale et 5 postes C-terminale à la position donnée.
    Remarque : Cela crée un enroulement moyenne de +/-5. Pour les postes avec moins de 5 résidus d’acide aminé précédents ou suivant, un emplacement moyen glissant (c'est-à-dire l’extrémité N - ou C-terminale), la moyenne mobile seulement prendra en compte ces résidus qui sont présents (c'est-à-dire le roulement moyen à acide aminé position 3 sera une moyenne du CRG aux positions de l’acide aminé 1 bien que 8, calculée comme la somme de ces FMM divisé par 8).
Calculer la fréquence minimale de contrôle en divisant le CRG plus faible roulement par 2.
1. Changer n’importe quelle cellule avec un contrôle du CRG de 0 à la fréquence minimale étant d’éviter la division par 0, lors du calcul d’un ratio signal-bruit.
Calculer le rapport de signal-bruit niveau d’acides aminés (Figure 4).
1. Diviser chaque position d’acides aminés expérimentale moyenne mobile par le contrôle respectif de moyenne mobile.
2. Le graphique de ce ratio (axe y) vs acides aminés position (axe x).

5. superposition de topologie de domaine protéine

Identifiez les emplacements d’acide aminé de consensus des domaines/caractéristiques fonctionnelles ou des zones de modification poteau-de translation, de la protéine d’intérêt (étape 1.7).
Remarque : Un certain nombre de ressources peut être utilisé pour identifier ces domaines. Ces ressources, ainsi que des ressources pour l’identification des domaines putatifs de nouvelles protéines, ont été bien examinées dans la littérature²⁰. Ce protocole décrit la base de données de protéine disponible par le biais de NCBI, qui est largement utilisé et robuste (voir Table des matières).
Identifier les positions de l’acide aminé associées protéine domaines/fonctionnalités.
1. Ouvrez la page Web du NCBI.
2. Entrez le NP de la protéine d’intérêt dans le champ de recherche.
3. Identifient des domaines protéiques connus et fonctionnalités sont catalogues sous « Caractéristiques ».
4. Identifier et noter les positions de nom/type et d’acides aminés du domaine.
5. Cliquez sur le lien correspondant à la fonction de visualiser la région sur la protéine de la séquence primaire d’intérêt.
Créer une colonne qui contient les limites des domaines/fonctionnalités.
1. Créer une colonne à côté de la colonne de signal : bruit, afin que la colonne de position d’acides aminés peut être référencé (Figure 5A, colonne C).
2. Identifier les cellules correspondant à l’aspect N-terminal ou C-terminale de chaque fonctionnalité de domaine/et placer un 1 dans chaque cellule (c'est-à-dire si le domaine N-terminal du domaine transmembranaire S1 de KCNQ1 est acide aminé, poste 122, et le domaine C-terminal est position 142, puis un 1 est placé sur la ligne de position d’acides aminés 122 et 142).
3. Pour le chevauchement des domaines/fonctionnalités, afficher plusieurs domaines en changeant les 1 aux autres valeurs (c'est-à-dire 1,5, 2, 2.5) ; Cela peut aider à distinguer les domaines.
Créer un graphique avec ces limites comme position axe des ordonnées et l’acide aminé sur l’axe des abscisses (Figure 5B).
Le recouvrement de ce graphique avec le signal-bruit graphique créé à l’étape 4.4.
Identifier les corrélations entre protéiques connus domaines/caractéristiques et l’analyse de signal-bruit.

6. variante de Position Overlay

Carte des positions individuelles variant pour superposition de graphiques générés lors des étapes 4,4 et 5,4.
1. Créer une colonne à côté de la colonne/fonctionnalité de domaine tels que les lignes dans la colonne correspondra à des postes d’acides aminés (Figure 5A, colonne D).
2. Placer un 1 dans chaque cellule de la ligne supplémentaire correspondant à une position contenant une variante respectif.
3. Créer un graphique avec cette colonne comme une position axe y et acide aminé sur l’axe des abscisses (Figure 5C).
Overlay ce graphique avec le signal-bruit graphique créé à l’étape 4.4 et le graphique de domaine créé à l’étape 5.4.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Un résultat représentatif pour les acides aminés au niveau de signal à l’analyse du bruit pour KCNQ1 est représenté à la Figure 6. Dans cet exemple, variants rares identifiés dans la cohorte GnomAD (cohorte de contrôle), soit dit en passant-identifiés des variantes de WES (cohorte expérimentale #1) et variantes associées aux cas de SQTL considérés comme probablement associés à la maladie (experimental cohorte #2) est représenté. En outre, l’analyse de signal-bruit en comparant la fréquence variant de WES et SQTL cohorte normalisé contre GnomAD fréquence variant est représenté. SQTL associées aux variantes ont démontré des rapports signal sur bruit élevés dans des domaines correspondant avec le pore du canal, filtre de sélectivité et le domaine de liaison à KCNE1. En comparaison, des variantes d’ailleurs identifiés dans la cohorte de WES ne démontrent pas clairement régions spécifiques de haute altitude de signal-bruit, ce qui suggère que ces variantes reflètent la variation génétique de fond. Cet exemple n’a pas utilisé la variante MAFs tel qu’indiqué ci-dessus ; Cependant, il montre tous les mêmes principes tel que décrit.

Figure 1 : Exemple de base de données variant avec le calcul de la MAF. Colonne A, importés directement GnomAD variants rares de contrôle. Colonne B, de la suppression du texte côté gauche, non liées à la position de la nomenclature variant à l’aide d’une formule d’exemple de suppression de caractères (c'est-à-dire: pour B2 « = droite (A2, LEN (A2) -5 », voir la Table des matières). La colonne C, suppression du texte côté droit, non liées à la position de la nomenclature variant selon une formule connexe (p. ex.: pour C2 « = LEFT(B2,LEN(B2)-3"). Colonne D, résultante non triés postes d’acides aminés. Colonne E, acide aminé postes classés de manière ascendante pour permettre l’identification des positions en double. Colonne F, associés du CRG pour chaque variante importé de GnomAD. Les colonnes G et H, combiné CRG pour une position donnée d’acides aminés (la somme de chaque variante du CRG à une position spécifique). S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 2 : Exemple de base de données variante expérimentale avec le calcul de MAF. Colonne A, une liste des mock SQTL associée à des mutations KCNQ1 représentant une base de données expérimentale de mutation associés à la maladie. Colonne B, position de mutation correspondant à chaque variante. La colonne C, un nombre d’individus de mutation positive au sein de la maquette d’étude 1. Chacun est présumé être porteurs de la mutation hétérozygote. Le nombre total d’individus génotypées dans l’étude est situé au bas de la feuille. Colonne D, comte de mutation positif individu en maquette étude 2. Colonne E, comte de mutation positif individu en maquette étude 3. Colonne F, totales individus mutation hébergement la mutation observée dans l’ensemble de toutes les études. Notez que les mutations distinctes associées à la même position d’acides aminés doivent être combinées. Colonne G, MAF de chaque position de mutation et d’acides aminés à l’aide d’une formule de l’exemple (p. ex.: pour les G2 « =2/(176*2) », voir la Table des matières). Notez que, étant donné que toutes les personnes sont présumées être hétérozygotes et chaque individu censé transporter 2 allèles du locus KCNQ1, les individus totales devraient être multipliés par 2 pour la fréquence de l’allèle. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 3 : Exemple de calcul de la moyenne pour le contrôle et variantes expérimentales de roulement. Colonne A et B, variantes postes de contrôle GnomAD et MAFs respectifs. La colonne C, tous les acides aminés position des KCNQ1 d’acide aminé position au final. Colonne D, variante GnomAD CRG pour toutes les positions avec un MAF de 0 au lieu de postes sans une variante. Ceci peut être effectué automatiquement à l’aide d’une fonction RECHERCHEV (c.-à-d. pour D2, « = IFERROR(VLOOKUP(C2,A:B,2,),0), voir la Table des matières). Colonne E, roulant en moyenne position CRG en utilisant une formule de l’exemple (c.-à-d. pour E2, « = SUM(D2:D7)/6 » et E7, « = SUM(D2:D12)/11"). Les colonnes G et H, variante expérimentale SQTL positionne avec MAFs respectifs. Colonne I, toutes les positions d’acide aminé de KCNQ1. Colonne J, variante du SQTL CRG pour toutes les positions. Colonne K, roulement LQTS MAF. Cellules de remplissage gris sont des exemples d’où CRG valeurs des colonnes B et H sont développées dans la colonne D et J, respectivement, laquelle en corrélation avec des positions respectives dans la colonne C/I. Note qu’il est essentiel que toutes les cellules sont au format « Numéros » pour la formule appropriée fonctionnement. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 4 : Exemple d’analyse de signal-bruit et graphing. Gauche, base de données exemple et les calculs. Colonne A, tous les postes d’acide aminé de KCNQ1. Colonne B, SQTL expérimentale du CRG moyenne mobile pour chaque poste. Colonne C, GnomAD contrôle moyenne mobile du CRG pour chaque poste. D: pour-rapport signal bruit (c'est-à-dire pour D2, « = B2/C2 »). Droite, exemple de graphique du rapport signal-bruit (axe y) par rapport à la position des acides aminés (axe x). S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 5 : Exemple de protéines et de cartographie de position variant. A, base de données exemple et calculs. Colonne A, tous les postes d’acide aminé de KCNQ1. Colonne B, KCNQ1 postes ayant une variante rare de contrôle identifiée dans GnomAD. Colonne C, la colonne de mappage de domaine où les cellules contenant les valeurs correspondent à l’aspect N ou C-terminal d’identifié domaines protéiques KCNQ1 ou caractéristiques. Comme la plupart domaine N-terminal est que le domaine S1 a la limite de N-terminal à acides aminés 122, aucuns valeurs ne sont notées ici. Colonne D, la colonne mappage variante où les cellules contenant un 1 correspondent aux KCNQ1 postes qui localiser variants rares. Cellules de remplissage gris sont deux exemples d’où les postes variant dans la colonne B sont développées dans la colonne D qui sont corrélés à des positions respectives dans la colonne A. s’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 6 : Exemple d’analyse de signal-bruit au niveau d’acides aminés de KCNQ1-codé KCNQ1 (Kv7.1). Postes de haut, variantes sont illustrés avec des lignes verticales, y compris les variantes de la cohorte de GnomAD de rare (noir), soit dit en passant-identifiés variantes dans les renvois de WES (bleus) et les variantes identifiées dans SQTL cases(green). Domaines fonctionnels sont notées. La fréquence relative des variantes affaire SQTL normalisés à GnomAD variantes (ligne verte) est représentée par rapport à WES (ligne bleue). S1-S6, domaines transmembranaires ; SF, filtre de sélectivité ionique ; KCNE1 et AKAP9, domaines de liaison protéique respectifs. Mis à jour l’et réimprimée avec permission du précédent travail¹⁴. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Tests génétiques haut débit a progressé considérablement dans sa demande et la disponibilité durant la dernière décennie. Toutefois, dans de nombreuses maladies avec des fondements génétiques bien établis, comme les cardiomyopathies, essai élargi a échoué à améliorer le rendement diagnostique²¹. En outre, il y a une incertitude importante concernant l’utilitaire de diagnostic de nombreux variants identifiés. Ceci est partiellement dû à un nombre croissant d’ailleurs identifiés variants rares découverts sur WES et groupes de travail, ce qui peut entraîner un mauvais diagnostic²². Analyse du signal-bruit niveau acide aminé est basée sur des stratégies bien établies pour prédire la pathogénicité variante et offre l’avantage de s’appuyant sur des études à grande échelle populationnelle génome pour affiner l’interprétation variant.

Il s’ensuit qu’une des étapes plus cruciales au présent protocole est la sélection des cohortes expérimentales et de contrôle. Plusieurs études accessibles grand génome sont accessibles par le biais de bases de données agrégées comme GnomAD, qui peuvent prévoir représentant des cohortes de contrôle dans le présent protocole être aussi grand que 138 632 personnes à la date actuelle. Bien que pas tous les sujets dans ces cohortes d’agrégats sont apparemment en bonne santés, le grand échantillon dans le cadre de maladie rare fait de cette ressource inestimable et permet un seuil d’exclusion du CRG rigoureux. Exclusion des variations courantes est nécessaire car ils ne risquent pas d’être une cause de maladie mendélienne très pénétrant. Basé sur le travail précédent, un seuil MAF de 0,01 pour les gènes associés à la canalopathie et 0,0001 pour gènes cardiomyopathie peut convenir et a été validé par des groupes indépendants²³^,²⁴. Ce qui est important, compte tenu de l’importance du seuil du CRG, cela devrait être défini et validé indépendamment pour chaque étude. Un seuil de CRG pas nécessaire d’appliquer à une cohorte expérimentale, étant donnée la présence bien établie des mutations fondateur Canalopathies et cardiomyopathies. La taille de la cohorte expérimentale doit être suffisant pour identifier les domaines où les variantes peuvent regrouper ; Cependant, il n’y a aucune taille stricte. En outre, la cohorte expérimentale n’inclue pas les variantes connues pour être bénignes dans la littérature, car cela diminuerait la véracité du signal pathogène.

Choisir correctement les critères d’exclusion est aussi crucial pour l’interprétation et l’applicabilité du résultat. Bien que ce protocole recommande à l’exclusion de certaines catégories de mutation comme variantes synonymes, ce pourraient être faisable inclus pour le processus de la maladie dans laquelle des variantes synonymes délétères ont été identifiées²⁵^,²⁶. En outre, lorsque les différents critères d’exclusion sont appliquées à la fois expérimental et le groupe témoin, il peut permettre pour la stratification du mappage de signal-bruit de sous-classe de mutation (c.-à-d. comparant faux-sens à tronquer les variantes).

Réglage d’une moyenne mobile pour MAFs permettant de conclure à la participation à des acides aminés voisins. Par exemple, si l’acide aminé position 35 contient une variante pathologique et réside dans un domaine protéique critique, puis la position 36 peut avoir un certain degré de pathogénicité lorsqu’une mutation. De même, une portion de la séquence primaire doit avoir une grande quantité de variantes rares de contrôle, puis acides aminés au sein de cette région qui n’hébergent pas de variantes rares peuvent encore avoir une probabilité plus élevée contenant des variantes rares trouvées chez une population de. Alors que la moyenne mobile dans le présent protocole est de +/-5, cette gamme peut être varient selon l’utilisateur du niveau de la résolution du rapport signal-sur-bruit et de la protéine spécifique à l’étude désiré. Dans l’exemple du SQTL, le interrogés KCNQ1-codé KCNQ1 canal possède plusieurs domaines transmembranaires, s’étendant sur environ 10 acides aminés, ce qui incite les auteurs à ajuster leur résolution souhaitée afin de tenir compte des constatations importantes sur cette échelle¹⁴. Pour les protéines avec une séquence primaire de plus et la longueur de la protéine, la durée de la moyenne mobile devrez peut-être être augmenté en raison de grandes travées de séquence de la protéine sans variation de contrôle.

Il y a plusieurs limites à cette méthode. Comme indiqué précédemment, une population suffisante de phénotype positifs hébergement putatives variantes pathologiques doit être identifiée afin de conduire un signal clairement pathologique. En outre, ces variantes pathologiques peuvent avoir une pénétrance variable, donc véritablement pathologiques mutations peuvent manifester pas un phénotype de la maladie ou peuvent autrement être entièrement pénétrant et maladie causant pas. Alors que beaucoup tenus publiquement les bases de données, tels que GnomAD, sont souvent considérés comme « cohortes en bonne santé », la prévalence des maladies génétiques est probablement similaire dans cette base de données comme les études de population. Comme le précise, ce protocole se concentre spécifiquement sur les changements de niveau d’acides aminés résultant de variantes génétiques silenceur portant le code d’acides aminés, qui exclut le rôle que les pathogènes variants d’épissage intronic peuvent jouer dans les maladies monogéniques. Étant donné leur rôle récemment démontrée dans les cardiomyopathies, expansion de la résolution cette approche peut être nécessaire pour identifier intergéniques « hotspots » aussi bien. En outre, l’application d’un seuil MAF peut manquer certains allèles de « risque » que, bien qu’existant dans la population avec un CRG supérieur que de maladie prévalence, peut contribuer à la pathogenèse de la maladie²⁷^,²⁸. Malgré ces limites, cette analyse est adaptable et peut jouer un rôle clé en fournissant des cliniciens appliquée une probabilité relative de la pathogénicité de la maladie lorsque cela est approprié.

Enfin, compte tenu de la prédilection de cette analyse pour identifier des régions critiques au sein d’une protéine, acides aminés au niveau signal-bruit des calculs utilisant les mutations pathologiques offre la possibilité d’identifier de nouveaux domaines fonctionnels des protéines étant a étudié. Compte tenu de l’observation de pathogénicité élevée signal-bruit à des endroits clés des canaux ioniques, tels que le domaine de pore, filtre de sélectivité, S2 domaine transmembranaire et le domaine de liaison à KCNE1 de KCNQ1, identification d’un « sommet de pathogénicité » dans une zone de la protéine sans une fonction connue peut suggérer un nouveau domaine critique. Par exemple, un pic marqué de la pathogénicité du SQTL associée à des mutations a été identifié en localisant à l’acide aminé résidus 912-930 de KCNH2-codé KCNH2 (Kv11.1). Cette région de la protéine n’a aucun domaine fonctionnel identifiable mais montre une propension marquée pour les mutations associées à SQTL¹⁴. Comme la connaissance de la topologie de la protéine se développe, plus sophistiqués protéomique pourrait améliorer facilement la résolution de cette méthode à l’avenir d’analyser le rapport signal-sur-bruit le long de la structure primaire de la protéine d’inscrire son secondaire, tertiaire, ou structure quaternaire. Ajout des sciences computationnelles avancées à cette analyse, tels que l’apprentissage automatique et l’intelligence artificielle, permet d’identifier les nouveaux modèles parmi pathologique par rapport à la variation génétique axée sur la population, si robuste de ces bases de données variantes peuvent être généré²⁹^,³⁰. À son tour, cette méthode pourrait aider à mieux caractériser et à prédire la relation génotype-phénotype des maladies spécifiques et être utilisée en conjonction avec la probabilité pré-test de l’individu de la maladie pour améliorer le rendement diagnostique des tests génétiques. En outre, cette analyse peut découvrir la biologie nouvelle protéine et d’identifier nouveaux loci dans le génome humain qui manifeste avec une maladie altéré.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Les auteurs n’ont rien à divulguer.

Acknowledgments

APL est pris en charge par les instituts nationaux de santé K08-HL136839.

Materials

Name	Company	Catalog Number	Comments
1000 Genome Project	N/A	www.internationalgenome.org
ClinVar	N/A	www.ncbi.nlm.nih.gov/clinvar
Ensembl Genome Browser	N/A	uswest.ensembl.org/index.html
Excel	Microsoft	office.microsoft.com/excel/	Used for all example formulas and functions
Exome Aggregation Consortium	N/A	www.exac.broadinstitute.org
Genome Aggregation Database	N/A	www.gnomad.broadinstitute.org
National Center for Biotechnology Information Domain and Structure Database	N/A	www.ncbi.nlm.nih.gov/guide/domains-structures/
National Center for Biotechnology Information Gene Database	N/A	www.ncbi.nlm.nih.gov/gene/
National Center for Biotechnology Information Protein Database	N/A	www.ncbi.nlm.nih.gov/protein/
National Heart, Lung, and Blood Institute GO Exome Sequencing Project	N/A	www.evs.gs.washington.edu/EVS/
SnapGene	GSL Biotech LCC	www.snapgene.com
University of California, Santa Cruz Human Genome Browser	N/A	www.genome.ucsc.edu