Genetics

Determinar a probabilidade de patogenicidade variante usando análise de sinal-ruído nível de aminoácido da variação genética

Published: January 16, 2019 doi: 10.3791/58907

¹Department of Pediatrics, Baylor College of Medicine, ²Department of Pediatrics, Division of Cardiology, Duke University School of Medicine

Summary

Análise de sinal-ruído nível de aminoácidos determina a prevalência da variação genética em uma posição de determinado aminoácido normalizada a variação genética de fundo de uma dada população. Isto permite a identificação de variantes "hotspots" dentro de uma sequência da proteína (sinal) que se eleva acima da frequência das variantes raras encontradas em uma população (ruído).

Abstract

Avanços no custo e velocidade de sequenciamento genético de próxima geração têm gerado uma explosão de exome toda clínico e testes de genoma inteiro. Enquanto isto conduziu à maior identificação de prováveis mutações patogénicas associado com síndromes genéticas, dramaticamente também aumentou o número de encontrados incidentalmente variantes genéticas de significado desconhecido (VU). Determinar a significância clínica destas variantes é um grande desafio para os cientistas e clínicos. Análise de sinal-ruído a nível de sequência de proteínas é uma abordagem para ajudar a determinar a probabilidade de patogenicidade. Este protocolo descreve um método para a análise de sinal-ruído nível de aminoácido que utiliza frequência variante em cada posição do ácido aminado da proteína com topologia de proteínas conhecidas para identificar áreas da sequência principal com elevada probabilidade de variação patológica (em relação a variação de população "fundo"). Esse método pode identificar a localização de resíduo de aminoácido "hotspots" de alto sinal patológico, que pode ser usado para refinar o diagnóstico peso de VUSs tais como as identificadas por testes genéticos na próxima geração.

Introduction

A melhoria rápida em plataformas de sequenciamento genético tem revolucionado a acessibilidade e o papel da genética na medicina. Uma vez que se limita a um único gene, ou um punhado de genes, a redução de custos e aumento na velocidade da próxima geração de sequenciamento genético levou rotineiro sequenciamento da totalidade do genoma da codificação de sequência (toda exome sequenciamento, WES) e o genoma inteiro ( sequenciamento do genoma inteiro, WGS) na prática clínica. WES e WGS têm sido utilizados com frequência no cenário de neonatos criticamente doentes e crianças com preocupação para síndrome genética onde é uma ferramenta de diagnóstico comprovada que pode mudar o manejo clínico¹^,². Enquanto isto conduziu à maior identificação de prováveis mutações patogénicas associado com síndromes genéticas, dramaticamente também aumentou o número de variantes genéticas encontradas incidentalmente, ou inesperados resultados positivos, de diagnóstico desconhecido significado (VU). Enquanto algumas das variantes são tidas em conta e não relatadas, variantes localizando a genes associados a doenças potencialmente fatais ou altamente mórbidas frequentemente são relatados. As diretrizes atuais recomendam relatórios de incidentais variantes encontradas em genes específicos que podem ser de benefício médico ao paciente, incluindo genes associados com o desenvolvimento de doenças predisponentes de morte cardíacas súbitas como Miocardiopatias e canalopatias³. Embora esta recomendação foi projetada para capturar indivíduos em risco de uma doença SCD-predisponentes, a sensibilidade de detecção de variante excede a especificidade. Isto é refletido em um número crescente de VUSs e aliás identificadas variantes com utilitário de diagnóstico incerto que ultrapassam a frequência das respectivas doenças em uma dada população⁴. Uma tal doença, síndrome QT longo (LQTS), é um canônico channelopathy cardíaca causada por mutações de localização de genes que codificam os canais iônicos cardíacos, ou canal de interação de proteínas, resultando em atraso repolarização cardíaca⁵. Este repolarização retardada, vista por um intervalo QT prolongado no eletrocardiograma, de repouso resulta em uma elétrica predisposição para arritmias ventriculares potencialmente fatais como pointes de torsades de. Enquanto um número de genes têm sido associado ao desenvolvimento desta doença, mutações em KCNQ1-codificado_Ks potássio canal (KCNQ1, Kv7.1) é a causa do LQTS tipo 1 e é utilizado como um exemplo abaixo de⁶. Ilustrando a complexidade na interpretação de variante, a presença de raras variantes em genes associados LQTS, assim chamados "variação genética do fundo" tem sido descrito anteriormente⁷^,⁸.

Compêndio-estilo grandes bases de dados de variantes conhecidas patogênicas, além de várias estratégias existem para predizer que as variantes diferentes do efeito produzirá. Alguns são baseados em algoritmos, tais como SIFT e Polyphen 2, que pode filtrar um grande número de variantes não-sinônimo novela para prever deleteriousness⁹^,¹⁰. Apesar do amplo uso dessas ferramentas, baixa especificidade limita sua aplicabilidade quando se trata de "chamar" clínica VUSs¹¹. Análise de "Sinal-ruído" é uma ferramenta que identifica a probabilidade de uma variante a ser associada com doença, com base na frequência de variação patológica conhecida no locus em questão normalizada contra rara variação genética de uma população. Localizando a loci genéticos de variantes onde existe uma elevada prevalência de mutações associadas a doença em comparação com a variação populacional, um alto sinal-ruído, são mais propensos a ser associada a doença de si mesmos. Além disso, raras variantes encontradas incidentalmente localizando a um gene com uma alta frequência das variantes de população rara em comparação com frequência associada a doença, um baixo sinal-ruído, podem ser menos propensos a ser associada a doença. O utilitário de diagnóstico de análise de sinal-ruído tem sido ilustrado nas mais recentes orientações para testes genéticos para cardiomiopatias e canalopatias; no entanto, isso só tem sido empregado no nível do gene inteiro ou específicas de domínio nível¹². Recentemente, dado o aumento da disponibilidade de variantes patológicas (doença bancos de dados, estudos de coorte na literatura) e variantes de controle populacional (Exome agregação consórcio, exacerbar e banco de dados de agregação do genoma, GnomAD¹³), Isto tem sido aplicado para as posições individuais de aminoácidos na sequência primária de uma proteína. Análise de sinal-ruído nível de aminoácido provou útil em categorizar aliás identificadas variantes em genes associados com LQTS como provável variação genética do "fundo", ao invés de doença associada. Entre os três principais genes associados com LQTS, incluindo KCNQ1, essas variantes identificadas por acaso carecia de uma significativa rácios de sinal-ruído, sugerindo que a frequência dessas variantes em posições de aminoácidos individuais refletem rara variação de população ao invés de mutações associadas a doenças. Além disso, quando a topologia de domínio específico da proteína era revestida contra áreas de alta sinal-ruído, patológica mutação "hotspots" localizadas em domínios-chave funcionais das proteínas¹⁴. Esta metodologia é uma promessa para determinar que 1) a possibilidade de uma variante é associada a doença ou população e 2) identificando romance críticos domínios funcionais de uma proteína associada à doença humana.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. identificar o Gene e a isoforma Splice específicas de interesse

Nota: Aqui, vamos mostrar o uso de Ensembl¹⁵ para identificar a sequência de consenso para o gene de interesse que está associado com a patogênese da doença de interesse (ou seja, KCNQ1 mutações estão associados com LQTS). Alternativas de Ensembl incluem RefSeq através do National Center for Biotechnology Information (NCBI)¹⁶ e da Universidade da Califórnia, Santa Cruz (UCSC) navegador de genoma humano¹⁷ (ver Tabela de materiais).

Na homepage Ensembl, selecionar as espécies (ou seja, humano) no menu suspenso e inserir o gene da sigla de interesse no campo (ou seja, KCNQ1). Clique em "Ir"
Selecione o link correspondente ao gene de interesse (ou seja, "KCNQ1 (Gene humano)"
Selecione o link correspondente para a transcrição da ID de interesse turísticos da tabela"transcrição" (ou seja, TranscriptID ENST00000155840.10, NM_000218 [transcrição do RNA], NP_000209 [produto proteico de transcrição do RNA]).
Nota: Revisão da literatura pertinente é necessária para garantir que a sequência do consenso de transcrição correta está selecionada.
Nota o NM de transcrição específicos e números de identificação de NP para referência futura, encontrado na coluna "RefSeq" da tabela"transcrição".
Selecione o link associado com o número de ID de NP para abrir uma nova página Web da base de dados da proteína de NCBI.
Role para baixo até a seção de "Origem" para obter a sequência (primário) de proteína para a transcrição do gene de interesse.
Role até a seção "Recursos" para obter uma lista das características da proteína (domínios funcionais, domínios de ligação, modificação pós-traducional locais).
Nota: Esta informação também pode ser obtida através de banco de dados da proteína de NCBI ou de fontes primárias na literatura. Isto será discutido na etapa 5.

2. criar banco variante genético Experimental (o "sinal")

Nota: Aqui, vamos demonstrar como criar um banco de dados de variantes associadas a doença no gene de interesse com a frequência das variantes associadas a doença entre os indivíduos com a doença de interesse. Este banco de dados pode assumir muitas formas e representa o "sinal" (variação genética do fenótipo-positivo) que irá ser normalizado contra o banco de dados variante de controle. Isso pode incluir variantes 1) associada a doença por comparação contra VUSs para identificar novos domínios funcional da proteína e/ou 2) VUSs, incluindo incidentalmente identificados VUSs, para comparar com variantes associadas a doença, para determinar a probabilidade de patogenicidade. Variantes associadas a doença em KCNQ1 serão apresentadas para ilustração; no entanto, o método é o mesmo para análise de VUSs aliás identificada ou qualquer outro conjunto de variantes experimentais.

Identificar cohort(s) de casos índice/probandos não relacionados com a doença de interesse para os quais o gene de interesse foi exaustivamente genótipo para todos os probandos (ou seja, um estudo identifica 24 probandos independentes Hospedagem de variantes em KCNQ1 de 200 indivíduos com LQTS que foram submetidos a interrogatório genético KCNQ1).
Nota: Estes grupos podem ser identificados de literatura, de análise genética experimental, ou uma combinação de ambos.
1. Excluir a estudos que não são baseados em coorte (ou seja, um relato de caso descreve um único indivíduo de mutação-positivo), não fornecem o número total de indivíduos de genótipo para o gene de interesse, ou não analisar exaustivamente geneticamente o gene ( ou seja, um "alvo" rastreio genético de exões de KCNQ1 apenas 2-4) estas impedem o cálculo da frequência de uma variante.
2. Incluem indivíduos que são independentes de probandos e excluem os indivíduos relacionados como isto pode superestimar a variantes frequências (ou seja, um estudo identifica 4 indivíduos independentes com KCNQ1 mutações em uma coorte de 20 pacientes com LQTS. Dentre estes probandos é parte de uma família com 5 outros parentes de mutação-positivo. Excluir todos os membros da família e incluir apenas os 4 probandos independentes).
Compilar todas as variantes genéticas experimentais encontradas em cohort(s) identificados
1. Atribua a nomenclatura que contém o selvagem-tipo aminoácido, aminoácido posição e variante aminoácido (ou seja, alanina aminoácido número 212 mudado para valina, Ala212Val ou A212V). Um tal tipo de nomenclatura é demonstrado na Figura 1.
2. Confirme que variante nomenclatura de todas as variantes genéticas experimentais baseia-se a mesma transcrição de gene de referência como observado na etapa 1.4. Se experimental variantes genéticas não são anotadas sobre a transcrição de genes de referência mesmo, então reannotate posição variante de uma transcrição de referência usando o alinhamento de transcrição (consulte a etapa 1.2)
Exclua as variantes que não são aplicáveis dependendo a questão a ser explorada.
1. Variantes de excluir localizando para regiões não-codificantes do genoma ou variantes que não alterem a proteína sequência como sinônimas, intrônicas variantes, região untranslated 5' ou 3' [UTR] e região intergênica variantes (ou seja, um relatado patológica variante em KCNQ1 que localiza aos 5' UTR de região codificante seria excluída como não prevê-se para alterar a sequência da proteína).
2. Exclua as variantes que não satisfazem os critérios de inclusão para o estudo. Para variantes associadas a doença, isso inclui variantes que já não são consideradas patológicas.
  1. Confirmar que cada variante é atualmente considerada patogénica, provavelmente patogênicos, ou pelo menos não benigno, por referência cruzada variantes com Banco de dados ClinVar (ver Tabela de materiais).
  2. Entre o gene e a variante de interesse ClinVar campo de pesquisa (ou seja, KCNQ1-Y111C), selecione "Pesquisar"
  3. Identifica a variante de interesse sob a coluna "Variação/localização".
  4. Observe a interpretação do consenso de patogenicidade na coluna "Significado clínico" (ou seja, KCNQ1-Y111C é interpretado como "patogênicas").
  5. Incluir variantes que são "provável patogenicidade" ou "patogênicos".
  6. Incluir variantes com denominações de "interpretações conflitantes de patogenicidade," "significado incerto", ou quando não há registro disponível ("não fornecido") se justifica pelo estudo.
  7. Excluir as variantes designadas como "provavelmente benigna" (ou seja, KCNQ1-A62T).
Calcule a frequência do alelo menor (MAF) de cada posição variante experimental.
1. Calcule quanto qualquer alelos foram positivos para cada variante respectivo (ou seja, se uma mutação heterozigota é encontrada em 2 indivíduos independentes, o número de alelos variante-positivo-Y111C KCNQ1 é 2).
2. Calcular o número total de alelos sequenciado dentro da coorte
  1. Observe o número total de indivíduos sequenciados em cada estudo de coorte (passo 2.1)
  2. Multiplique o número total de indivíduos por 2 para determinar o número total de alelos.
    Nota: Isto pressupõe genomas diploides pelo qual cada hosts individuais 2 de cada alelo.
3. Calcule o número total de indivíduos positivos variante para cada posição do ácido aminado (alelos no passo 2.4.1/alleles na etapa 2.4.2). Por exemplo, se não relacionado 2 indivíduos cada hospedam heterozigotos KCNQ1-Y111C mutações em coortes de 100 e 200 indivíduos LQTS-aflitos, respectivamente, então a frequência das variantes experimentais na posição do ácido aminado 111 é 2 variantes/((100+200 individuals ) * 2 alelos/indivíduo) (ou seja, combinada a MAF 0,0033).
4. Calcule esse valor para cada variante como o MAF respectivo de cada variante experimental. Para obter detalhes adicionais, consulte Etapa 4.2.

3. criar o controle genético variante de banco de dados (o "ruído")

Nota: Aqui, vamos demonstrar como criar um banco de dados de variantes de controle no gene de interesse com frequência de associados em uma população de controle. Este banco de dados representa o "ruído" (fenótipo-negativo, de base populacional em variação genética) que é o fundo contra o qual o banco de dados variante experimental vai ser normalizado. Isto é referido como variação de "controle".

Identificar um cohort(s) de probandos saudáveis, independentes ou utilizam grandes estudos de base populacional para identificar variantes raras entre uma dada população.
Nota: As fontes para este banco de dados são diversas e incluem: 1) indivíduos saudáveis e/ou caso contrário fenótipo negativo indivíduos sujeitos a Sanger sequenciamento, ou bases de dados abertas de base populacional de indivíduos para que a doença em questão é rara em frequência como 2) projeto genoma de 1000 (N = 1.094 temas)¹⁸, 3) nacional do coração, pulmão e sangue Instituto ir Exome projeto de sequenciamento (ESP, N = 5.379 assuntos)¹⁹, 4) Exome agregação consórcio (exacerbar, N = 60.706 assuntos)¹³, e/ou 5) banco de dados do genoma agregação (GnomAD, N = 138.632 indivíduos)¹³ (ver Tabela de materiais). GnomAD banco de dados será utilizado como um exemplo ilustrativo.
1. Inserir o gene de interesse na caixa de pesquisa na página inicial GnomAD (ou seja, KCNQ1).
2. Verifique se o navegador selecionado o gene correto e transcrição de interesse (etapa 1.4).
3. Confirmar que não há cobertura adequada de sequenciamento do locus revendo "cobertura média" e "trama de cobertura".
4. Selecione para codificação de variação genética sequência selecionando "Missense + LoF."
5. Selecione "tabela de exportação para CSV," que irá gerar um arquivo de editor de texto chamado "Desconhecido".
6. Rotule novamente o arquivo e incluir uma nova extensão "*. csv" (ou seja, "KCNQ1 controle Variation.csv").
7. Abra o arquivo usando um programa de software apropriado para análise de arquivos *. csv (ver Tabela de materiais).
Identificar a proteína mudando a variação genética na coluna rotulada "Proteína consequência."
Aplica critérios de exclusão mesmo para essas variantes genéticas de controle como as variantes genéticas experimentais (passo 2.3.1).
Identifica o MAF de cada variante de controle.
1. Localize a coluna "Alelo contagem", que denota o número de alelos encontrados para abrigar a variante.
2. Localize a coluna "Número de alelos", que denota o número total de alelos sequenciado isto dada a posição de ácido amino.
  Nota: O número total de alelos sequenciado irá variar dependendo da cobertura no local. Áreas de cobertura alta vão abordar 2 * número total de indivíduos dentro de GnomAD (ou seja, para 138.632 indivíduos, cobertura completa envolve 277.264 totais alelos genótipo). Por outro lado, áreas de baixa cobertura terá um número de alelo total reduzido
3. Localize a variante MAF que pre-é calculado na coluna "Frequência do alelo" e representa "Alelo contagem" dividido por "Alelo número."
  Nota: Genomas humanos têm dois de cada alelo (ou seja, 1 assunto encontrado ter uma variante heterozigota em 10 pessoas tem um MAF de 1/20)
4. Observe o MAF para cada variante como o MAF respectivo de cada variante de controle.
  Nota: Variante MAF específica para cada grupo racial/étnico composto por GnomAD pode ser visto nas colunas à direita da "Frequência alélica."
Aplicar um limite MAF para variantes raras acima dos quais variantes de controle são excluídas como "comum".
1. Definir o limite MAF para o valor máximo em que todos os verdadeiramente associada a doença variantes (consulte a etapa 2) também observadas no banco de dados de controle são incluídas abaixo do limiar (isto é, entre todas as doenças associadas KCNQ1 variantes também encontrado em GnomAD o variante comum maior MAF é 0,009, em seguida, devem ser excluídas todas as variantes de GnomAD acima de um limite de 0,01).
Certifique-se de que a nomenclatura variante experimental é idêntica ao controle (consulte a etapa 2.2).
Salve o arquivo. Em alguns casos, isso pode exigir mudando o tipo/extensão de arquivo.

4. mapeamento e cálculo de sinal-ruído nível aminoácido

Calcular uma MAF para cada posição do ácido aminado com uma variante de controle (ver Figura 1 , contendo variantes de GnomAD KCNQ1 exemplo).
1. Em uma folha de cálculo compatível com gráficos, crie uma coluna das posições de todas as variantes experimentais.
2. Remova texto variante para deixar apenas a posição de variante.
  Nota: Várias funções/fórmulas pode ser utilizadas para automaticamente excluir esses elementos de texto dentro das células (Figura 1, coluna C; ver Tabela de materiais).
3. Classificar as variantes no valor ascendente para identificar quais as posições tem mais de 1 variante associado a ele (Figura 1, coluna E; posição de aminoácido ou seja, 10 é listada duas vezes na coluna E que denota 2 variantes exclusivas na posição).
4. Combine o MAF para cada variante associada a uma determinada posição, levando a soma de todas esta para uma determinada posição (Figura 1, coluna G e H).
Calcular uma MAF para cada posição do ácido aminado com uma variante experimental (ver Figura 2 , contendo simulado KCNQ1 patológicas variantes).
1. Em uma forma similar a 4.1.1, crie uma coluna de posições de aminoácidos que possuem variantes experimentais (Figura 2, coluna B).
2. Para cada posição variante, calcule o MAF de todas as variantes associadas com essa posição da etapa 2.4 (Figura 2, coluna C-G).
Criar um rolamento média de MAF para ambos experimental e variantes de controle.
1. Expandir as colunas criadas em 4.1 e 4.2 para incluir células para posições de aminoácidos que não têm nenhuma variante como um MAF = 0. (Figura 3).
  1. Crie uma coluna que contém todas as posições de aminoácidos no gene de interesse (ou seja, 1 para 676 KCNQ1, Figura 3, coluna C e eu).
  2. Adicione um MAF 0 para todas as posições que não possuem variantes para controle e conjuntos de dados experimentais.
    Nota: Isto pode ser feito automaticamente, utilizando a função "PROCV" em um programa de software comumente utilizado (Figura 3, coluna D e J, consulte Tabela de materiais).
2. Criar um rolamento média para cada experimental e coluna de prevalência de controle.
  Nota: Isto permite a inferência de patogenicidade posição adjacente e pode ser modificado ou até mesmo excluído, para atender às necessidades do estudo.
  1. Criar uma coluna que representa uma média de MAF para ambos o para controle e conjuntos de dados experimentais (Figura 3, coluna E e K).
  2. Na coluna média rolamento, coloca a média de MAF respectivo para as 5 posições variantes variant N-terminal e 5 posições C-terminal para posição determinada.
    Observação: Isso cria um rolamento média de + /-5. Para posições com menos de 5 resíduos de aminoácidos anteriores, ou após, um rolamento médio local (ou seja, N - ou C-terminal), a média somente levará em conta os resíduos que estão presentes (ou seja, o rolamento média no posição do ácido aminado 3 será uma média de MAF em posições de aminoácido 1 embora 8, calculada como a soma destes esta dividido por 8).
Calcule a frequência de controle mínimo dividindo o menor rolamento MAF por 2.
1. Altere qualquer célula com um controle MAF de 0 para a frequência mínima para evitar a divisão por 0 ao calcular uma relação sinal-ruído.
Calcule a relação sinal-ruído nível de aminoácidos (Figura 4).
1. Divida cada posição do ácido aminado experimental rolando média pelo respectivo controle rolando média.
2. Gráfico desta relação (eixo y) vs aminoácido posição (eixo x).

5. sobreposição de topologia de domínio de proteína

Identifica os locais de aminoácido de consenso dos domínios/características funcionais, ou áreas de modificação pós-traducional, da proteína de interesse (etapa 1.7).
Nota: Um número de recursos pode ser utilizado para identificar esses domínios. Esses recursos, bem como recursos para a identificação de domínios putativos em novas proteínas, foram bem revisados na literatura²⁰. Este protocolo irá descrever o banco de dados de proteína disponível através do NCBI, que é amplamente utilizado e robusta (ver Tabela de materiais).
Identifica posições de aminoácidos associadas a domínios/características da proteína.
1. Abra a página da Web do NCBI.
2. Entra no campo de pesquisa o NP da proteína de interesse.
3. Identificar domínios da proteína conhecida e características são catálogos em "Recursos".
4. Identificar e observar as posições de domínio nome/tipo e aminoácidos.
5. Selecione o link correspondente para o recurso de visualizar a região sobre a proteína da sequência principal de interesse.
Crie uma coluna contendo as fronteiras dos domínios/recursos.
1. Criar uma coluna ao lado da coluna de sinal: ruído para que a coluna de posição aminoácido pode ser referenciado (Figura 5Acoluna C).
2. Identificar as células correspondentes na face de cada recurso/domínio N-terminal ou C-terminal e coloque um 1 em cada célula (ou seja, se o domínio N-terminal do domínio transmembrana de KCNQ1 S1 é posição do ácido aminado 122 e o domínio C-terminal é a posição 142 e, em seguida, um 1 é colocado na linha de posição do ácido aminado 122 e 142).
3. A sobreposição de domínios/recursos, exibir vários domínios, alterando o 1 para outros valores (ou seja, 1.5, 2, 2.5); Isto pode auxiliar na distinção entre domínios.
Crie um gráfico com esses limites como uma posição do eixo y e aminoácidos no eixo x (Figura 5B).
Sobreposição deste gráfico com o gráfico do sinal-ruído criado na etapa 4.4.
Identifica correlações entre domínios/características de proteínas conhecidas e a análise de sinal-ruído.

6. variante posição sobreposição

Mapa de posições variantes individuais para sobreposição de gráficos produzidos em etapas 4.4 e 5.4.
1. Crie uma coluna ao lado da coluna de recurso/domínio tal que linhas na coluna irão corresponder às posições de aminoácidos (Figura 5Acoluna D).
2. Coloque um 1 em cada célula na linha adicionada correspondentes a uma posição que contém uma variante respectiva.
3. Crie um gráfico com esta coluna como uma posição do eixo y e aminoácidos no eixo x (Figura 5-C).
Sobreposição deste gráfico com o gráfico do sinal-ruído criado na etapa 4.4 e gráfico de domínio criado na etapa 5.4.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Um resultado representativo para o aminoácido-nível de sinal para análise de ruído para KCNQ1 é retratado na Figura 6. Neste exemplo, raras variantes identificadas a coorte de GnomAD (grupo controle), variantes de WES incidentalmente identificada (coorte experimental #1) e LQTS associadas caso variantes considerado provável doença associada (experimental coorte #2) é retratado. Além disso, a análise de sinal-ruído, comparando a frequência de variante de coorte WES e LQTS normalizados contra GnomAD frequência variante é retratada. Variantes associadas LQTS demonstraram elevados rácios de sinal-ruído em domínios correspondente com o poro do canal, filtro de seletividade e o domínio de ligação KCNE1. Em comparação, aliás identificadas variantes a coorte de WES não demonstrou claramente regiões específicas de alta elevação de sinal-ruído, sugerindo que essas variantes refletem a variação genética de fundo. Este exemplo não utilizar variante esta tal como acima referido; no entanto, ele demonstra todos os mesmos princípios descritos.

Figura 1 : Exemplo de banco de dados variante do controle com cálculo de MAF. A coluna, importado diretamente GnomAD variantes raras de controle. Coluna B, a exclusão de texto do lado esquerdo, não relacionadas a posição da nomenclatura variante usando uma fórmula de exemplo para remoção de caracteres (ou seja: para B2 "= direita (A2, LEN (A2) -5", consulte a Tabela de materiais). Coluna C, a exclusão de texto do lado direito, não relacionadas a posição da nomenclatura variante usando uma fórmula relacionada (ou seja: para C2 "= LEFT(B2,LEN(B2)-3"). Coluna D, resultante seleccionadas as posições de aminoácidos. Coluna E, posições de aminoácidos ordenadas de forma ascendente para permitir a identificação de posições duplicadas. Coluna F, associadas ao MAF para cada variante como importados da GnomAD. Coluna G e H, combinado MAF para uma posição de determinado aminoácido (soma de cada variante MAF em uma posição específica). Clique aqui para ver uma versão maior desta figura.

Figura 2 : Exemplo de experimental de dados variante com cálculo de MAF. Coluna A, uma lista de zombar associada LQTS mutações em KCNQ1 representa um banco de dados experimentais de mutação associada a doença. Coluna B, posição de mutação correspondente para cada variante. Coluna C, uma contagem de indivíduos mutação positivos dentro simulado 1 de estudo. Cada são presumivelmente portadores da mutação heterozigoto. O número total de indivíduos de genótipo no estudo está localizado na parte inferior da folha. Coluna D, Conde de mutação-positivo individual no simulado estudo 2. Coluna E, Conde de mutação-positivo individual no simulado estudo 3. Coluna F, totais indivíduos mutação positivos, hospedagem a mutação observada em todos os estudos. Note que devem ser combinadas distintas mutações associadas com a mesma posição do ácido aminado. Coluna G, MAF de cada posição de mutação e aminoácidos usando uma fórmula de exemplo (ou seja: para G2 "=2/(176*2)", consulte Tabela de materiais). Observe que, desde que todos os indivíduos que se presume ser heterozigoto e cada indivíduo presume-se que carregar 2 alelos do locus a KCNQ1, os indivíduos totais devem ser multiplicados por 2 para a frequência do alelo. Clique aqui para ver uma versão maior desta figura.

Figura 3 : Exemplo de cálculo médio para controle e experimentais variantes de rolamento. Coluna A e B, GnomAD controle variantes posições e respectivos esta. Coluna C, todas as posições de aminoácidos de KCNQ1 de aminoácido posicionar-se para a final. Coluna D, GnomAD variante MAF para todas as posições com um MAF de 0 no lugar de posições sem uma variante. Isto pode ser calculado automaticamente usando a função PROCV (ou seja, para D2, "= IFERROR(VLOOKUP(C2,A:B,2,),0), consulte Tabela de materiais). Coluna E, rolando média de posição MAF usando uma fórmula de exemplo (ou seja, para E2, "= SUM(D2:D7)/6" e E7, "= SUM(D2:D12)/11"). Coluna G e H, variante experimental de LQTS posições com esta respectiva. Coluna eu, todas as posições de aminoácidos de KCNQ1. Coluna J, LQTS variante MAF para todas as posições. Coluna K, rolamento LQTS MAF. Células de preenchimento cinza são exemplos de onde valores MAF das colunas B e H são expandidas em coluna D e J, respectivamente, que se correlacionam com respectivas posições na coluna C/I. Note-se que é fundamental que todas as células são formatadas como "Números" para a fórmula adequada funcionamento. Clique aqui para ver uma versão maior desta figura.

Figura 4 : Exemplo de análise de sinal-ruído e gráficos. Esquerda, banco de dados de exemplo e cálculos. Coluna A, todas as posições de aminoácidos de KCNQ1. Coluna B, LQTS experimental MAF média para cada posição. Coluna C, GnomAD média MAF para cada posição de controle. D: sinal-para-ruído (ou seja, para D2, "= B2/C2"). Certo, exemplo de gráfico de relação sinal-ruído (eixo y) contra a posição do ácido aminado (eixo x). Clique aqui para ver uma versão maior desta figura.

Figura 5 : Exemplo de proteína e mapeamento de posição variante. A, banco de dados de exemplo e cálculos. Coluna A, todas as posições de aminoácidos de KCNQ1. Coluna B, KCNQ1 posições que têm uma variante rara de controle identificada em GnomAD. Coluna C, a coluna de mapeamento de domínio onde as células que contêm valores correspondem ao aspecto N ou C-terminal da identificada KCNQ1 proteína domínios ou características. Como o maioria dos domínio N-terminal é que o domínio de S1 tem o limite de N-terminal no aminoácido 122, valores não é anotado aqui. Coluna D, a coluna de mapeamento variante onde células contendo um 1 correspondem a KCNQ1 posições que localizar raras variantes. Células de preenchimento cinza são dois exemplos de onde a variantes posições na coluna B são expandidas em coluna D que correlacionam com as respectivas posições na coluna r. , por favor clique aqui para ver uma versão maior desta figura.

Figura 6 : Exemplo de análise de sinal-ruído nível de aminoácido de KCNQ1-codificado KCNQ1 (Kv7.1). Posições de topo, variantes são demonstradas com linhas verticais, incluindo raras variantes coorte GnomAD (preto), aliás identificada variantes em referências de WES (azuis) e variantes identificadas no LQTS cases(green). Domínios funcionais são anotados. Frequência relativa das variantes de caso LQTS normalizada para variantes de GnomAD (linha verde) é retratada em comparação com WES (linha azul). S1-S6, domínios transmembranares; SF, filtro de seletividade de íons; KCNE1 e AKAP9, domínios de ligação proteína respectivos. Modificado e reimpresso com permissão da anterior trabalho¹⁴. Clique aqui para ver uma versão maior desta figura.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Testes genéticos do elevado-throughput avançou dramaticamente em sua aplicação e disponibilidade durante a última década. No entanto, em muitas doenças com fundamentos de genéticas bem estabelecidas, como cardiomiopatias, expandido teste falhou melhorar o rendimento diagnóstico²¹. Além disso, há uma incerteza significativa sobre o utilitário de diagnóstico de muitas variantes identificadas. Isto é parcialmente devido a um número crescente de aliás identificadas variantes raras descoberto em WES e GTS, que podem levar a diagnóstico errado,²². Análise de sinal-ruído nível aminoácido é baseada em estratégias bem estabelecidas para a estimativa da variante patogenicidade e fornece a vantagem do aproveitamento de estudos do genoma de base populacional em grande escala para refinar a interpretação variante.

Segue-se que um dos passos cruciais para este protocolo é a seleção de controle experimentais coortes. Muitos dos estudos do genoma grande publicamente disponíveis são acessíveis através de bancos de dados agregados, tais como GnomAD, que pode permitir a representante coortes de controle neste protocolo ser tão grande quanto 138.632 indivíduos na presente data. Embora nem todos os temas nestas coortes agregadas são ostensivamente saudáveis, o tamanho de amostra grande no cenário de doença rara faz este recurso inestimável e permite um limite de exclusão de MAF rigoroso. Exclusão de variantes comuns é necessário como têm poucas probabilidades de ser uma causa de doença mendeliana altamente penetrante. Baseado no trabalho anterior, um limiar MAF de 0,01 para genes associados channelopathy e 0,0001 para genes de cardiomiopatia pode ser apropriado e validado por grupos independentes de²³^,²⁴. Importante, dada a importância do limite da MAF, deveria ser definido e validada para cada estudo independente. Um limiar MAF não precisa ser aplicado a uma coorte experimental, dada a presença bem estabelecida de mutações fundador em canalopatias e cardiomiopatias. O tamanho da coorte experimental deve ser suficiente para identificar áreas onde as variantes podem cluster; no entanto, não há nenhum tamanho estrito. Além disso, a coorte experimental não deve incluir variantes conhecidas por serem benignas dentro da literatura, como isso iria diminuir a veracidade do sinal de patogenicidade.

Corretamente selecionar critérios de exclusão também é crucial para a interpretação e aplicação do resultado. Embora este protocolo recomenda excluindo certas classes de mutação como variantes sinónimas, estas viável poderiam ser incluídas para processos de doença em que variantes sinónimas deletérias foram identificados²⁵^,²⁶. Além disso, quando vários critérios de exclusão são aplicados a ambos experimental e grupos de controle, isso pode permitir que para estratificação de mapeamento de sinal-ruído por subclasse de mutação (ou seja, comparando missense para truncar variantes).

Configuração uma média para esta permitem a inferência de envolvimento de aminoácidos vizinhos. Por exemplo, se o aminoácido posição 35 contém uma variante patológica e reside em um domínio da proteína crítica e, em seguida, posição 36 pode ter um grau de patogenicidade quando uma mutação. Da mesma forma, um trecho da sequência principal deve ter uma grande quantidade de variantes de controle raro, então aminoácidos dentro desta região que não hospedam variantes raras ainda pode ter uma probabilidade mais elevada de contendo raras variantes encontradas em uma população. Enquanto a média neste protocolo é + /-5, este intervalo pode ser variar de acordo com o usuário é desejado nível de resolução da relação sinal-ruído e a proteína específica a ser estudado. No exemplo do LQTS, o interrogado KCNQ1-codificado KCNQ1 canal tem vários domínios transmembranares abrangendo ~ 10 aminoácidos, levando os autores a ajustar sua resolução desejada para refletir as conclusões significativas em que escala¹⁴. Para proteínas com mais sequência primária e comprimento de proteína, a extensão da média do rolamento pode precisar ser aumentada devido a maiores vãos de sequência da proteína sem variação de controle.

Existem várias limitações para este método. Como foi referido anteriormente, uma população de fenótipo-positivo suficiente hospedagem putativos variantes patológicas deve ser identificada a fim de conduzir um sinal claro patológico. Além disso, essas variantes patológicas podem ter penetrância variável, assim, verdadeiramente patológicas mutações não podem manifestar um fenótipo de doença ou podem ou não ser totalmente penetrante e doença causando. Enquanto muitos publicamente realizada de bancos de dados, tais como GnomAD, são muitas vezes considerados "coortes saudáveis", a prevalência de doenças genéticas é provavelmente semelhante neste banco de dados, como estudos de população. Conforme detalhado, este protocolo incide especificamente sobre as alterações de nível de aminoácidos resultantes de variantes do gene exônicos esse código para aminoácidos, que exclui o papel que variantes de splicing intrônicas patogénicas podem desempenhar em doenças monogénicas. Dado seu papel recentemente demonstrado em cardiomiopatias, expansão da resolução, esta abordagem pode ser garantida para identificar intergênicas "pontos quentes" também. Além disso, a aplicação de um limiar MAF pode perder certos "alelos de risco" que, embora existente na população com um maior do que da doença de prevalência, pode contribuir para doença patogênese²⁷^,²⁸do MAF. Apesar dessas limitações, esta análise é adaptável e pode desempenhar um papel chave no fornecimento de clínicos aplicada uma probabilidade relativa de patogenia da doença quando apropriado.

Finalmente, dada a predileção desta análise para identificar regiões críticas dentro de uma proteína, aminoácido-nível de sinal-ruído cálculos utilizando mutações patológicas oferece a possibilidade de identificar novos domínios funcionais das proteínas sendo estudou. Dada a observação de alta patogenicidade sinal-ruído em locais-chave de canais iônicos, tais como o domínio dos poros, filtro de seletividade, domínio transmembrana S2 e o domínio de KCNE1-ligação de KCNQ1, identificação de um "pico de patogenicidade" dentro de uma área da proteína sem uma função conhecida pode sugerir um romance domínio crítico. Por exemplo, um pico marcado de patogenicidade de mutações associadas a LQTS foi identificado localizando de aminoácido resíduos 912-930 de KCNH2-codificado KCNH2 (Kv11.1). Esta região da proteína não tem nenhum domínio funcional identificável, no entanto, demonstra uma propensão marcada por mutações associadas a LQTS¹⁴. Como o conhecimento da topologia de proteínas se expande, proteomics mais sofisticados viável poderia melhorar a resolução desse método no futuro, de analisar a relação sinal-ruído ao longo da estrutura primária de uma proteína para incluir o secundário, terciário, ou estrutura quaternária. Adição de Ciências computacionais avançadas para esta análise, tais como aprendizagem de máquina e inteligência artificial, oferece a oportunidade de identificar padrões de romance entre patológica contra variação genética populacional, se robusta destes bancos de dados as variantes podem ser gerados²⁹^,³⁰. Por sua vez, esse método pode auxiliar na melhor caracterização e prevendo a relação genótipo-fenótipo de doenças específicas e ser usado em conjunto com a probabilidade de um indivíduo pré-teste de doença para melhorar o rendimento diagnóstico dos testes genéticos. Além disso, esta análise pode descobrir biologia novela proteína e identificar loci romance dentro do genoma humano, que se manifestam com doença quando alterado.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Os autores não têm nada para divulgar.

Acknowledgments

APL é suportado pelos institutos nacionais de saúde K08-HL136839.

Materials

Name	Company	Catalog Number	Comments
1000 Genome Project	N/A	www.internationalgenome.org
ClinVar	N/A	www.ncbi.nlm.nih.gov/clinvar
Ensembl Genome Browser	N/A	uswest.ensembl.org/index.html
Excel	Microsoft	office.microsoft.com/excel/	Used for all example formulas and functions
Exome Aggregation Consortium	N/A	www.exac.broadinstitute.org
Genome Aggregation Database	N/A	www.gnomad.broadinstitute.org
National Center for Biotechnology Information Domain and Structure Database	N/A	www.ncbi.nlm.nih.gov/guide/domains-structures/
National Center for Biotechnology Information Gene Database	N/A	www.ncbi.nlm.nih.gov/gene/
National Center for Biotechnology Information Protein Database	N/A	www.ncbi.nlm.nih.gov/protein/
National Heart, Lung, and Blood Institute GO Exome Sequencing Project	N/A	www.evs.gs.washington.edu/EVS/
SnapGene	GSL Biotech LCC	www.snapgene.com
University of California, Santa Cruz Human Genome Browser	N/A	www.genome.ucsc.edu