Genetics

Determinar la probabilidad de la variable patogenicidad mediante el análisis de Signal-to-Noise del aminoácido-nivel de variación genética

Published: January 16, 2019 doi: 10.3791/58907

¹Department of Pediatrics, Baylor College of Medicine, ²Department of Pediatrics, Division of Cardiology, Duke University School of Medicine

Summary

Análisis de señal a ruido nivel de aminoácidos determina la prevalencia de la variación genética en una posición dada del aminoácido normalizada para la variación genética de fondo de una determinada población. Esto permite la identificación de la variante "puntos calientes" dentro de una secuencia de la proteína (señal) que se eleva por encima de la frecuencia de variantes raras en una población (ruido).

Abstract

Los avances en el costo y la velocidad de secuenciación genética de próxima generación han generado una explosión de exoma toda clínica y pruebas de todo el genoma. Mientras que esto ha llevado a mayor identificación de las mutaciones patógenas probables asociados a síndromes genéticos, ha también aumentado espectacularmente el número de fortuito encontrado variantes genéticas de la significación desconocida (VUS). Determinar la significación clínica de estas variantes es un gran desafío para los científicos y médicos. Un enfoque para ayudar a determinar la probabilidad de patogenicidad es análisis de señal a ruido en el nivel de secuencia de la proteína. Este protocolo describe un método para el análisis de señal a ruido nivel de aminoácidos que aprovecha la frecuencia variante en cada posición del aminoácido de la proteína con la topología de la proteína conocida para identificar las áreas de la secuencia principal con elevada probabilidad de variación patológica (en relación con la variación de población "fondo"). Este método puede identificar la ubicación de residuos del aminoácido 'hotspots' de alta señal patológica, que se puede utilizar para refinar el peso diagnóstico de VUSs como los identificados por pruebas genéticas de próxima generación.

Introduction

La mejora rápida en plataformas de secuenciación genética ha revolucionado la accesibilidad y el papel de la genética en medicina. Una vez confinado a un solo gen, o un puñado de genes, la reducción de costos y aumento en la velocidad de próxima generación de secuenciación genética ha llevado la secuencia sistemática de la totalidad del genoma de secuencia de codificación (secuenciación del exoma completo, WES) y la totalidad del genoma ( secuenciación del genoma entero, WGS) en el ajuste clínico. WES y WGS han utilizado con frecuencia en el ajuste de los recién nacidos críticamente enfermos y niños con preocupación por síndrome genético que es una probada herramienta de diagnóstico que puede cambiar el manejo clínico¹^,². Mientras que esto ha llevado a mayor identificación de las mutaciones patógenas probables asociados a síndromes genéticos, ha aumentado dramáticamente el número de variantes genéticas por cierto encontradas o resultados positivos inesperados, de diagnóstico desconocido significación (VUS). Mientras que algunas de estas variantes son ignorados y no divulgados, variantes localizar a genes asociados a enfermedades potencialmente mortales o altamente morbosas se divulgan a menudo. Las directrices actuales recomiendan informes incidentales variantes en genes específicos que pueden ser de beneficio médico al paciente, incluyendo genes asociados con el desarrollo de repentinas enfermedades cardíacas predisponentes de muerte como miocardiopatías y canalopatías³. Aunque esta recomendación fue diseñada para capturar a personas en riesgo de una enfermedad predisponente de SCD, la sensibilidad de la detección de variantes supera especificidad. Esto se refleja en un número creciente de VUSs y por cierto identificado variantes con la utilidad de diagnóstico claro que exceden por mucho la frecuencia de las respectivas enfermedades en una población de⁴. Una de esas enfermedades, síndrome de QT largo (SQTL) es una canónica channelopathy cardiaca causada por mutaciones de localizar a los genes que codifican los canales iónicos cardiacos, o canal de interacción de proteínas, dando por resultado retrasa la repolarización cardiaca⁵. Esta repolarización retardada, vista por un intervalo QT prolongado en el electrocardiograma de reposo resulta en una eléctrica predisposición a arritmias ventriculares potencialmente fatales como el de pointes de torsades. Mientras que un número de genes se han relacionado con el desarrollo de esta enfermedad, las mutaciones en KCNQ1-codificado en_Ks potasio canal (KCNQ1, Kv7.1) es la causa del SQTL tipo 1 y es utilizado como un ejemplo a continuación⁶. Ilustrando la complejidad de la interpretación variable, la presencia de variantes raras de genes SQTL asociado, llamados "variación genética de fondo" ha sido descrito previamente⁷^,⁸.

Además de compendio-estilo grande bases de datos de variantes patógenas conocidas varias estrategias existen para la predicción de que las diversas variantes de efecto producirá. Algunos se basan en algoritmos, como SIFT y Polyphen 2, que puede filtrar gran cantidad de nuevas variantes no sinónimo para predecir deleteriousness⁹^,¹⁰. A pesar del amplio uso de estas herramientas, baja especificidad limita su aplicabilidad cuando se trata de "llamando" clínica VUSs¹¹. Análisis de "Signal to noise" es una herramienta que identifica la probabilidad de que una variante se asoció a enfermedad basada en la frecuencia de la conocida variación patológica en el locus en cuestión normalizada contra rara variación genética de una población. Localización de loci genéticos variantes donde hay una alta prevalencia de mutaciones enfermedad-asociadas en comparación con la variación poblacional, un gran señal-ruido, son más propensos a ser asociada a enfermedad de ellos mismos. Variantes más, raras encontrar localizar a un gen con una alta frecuencia de variantes de población rara por cierto comparado con frecuencia asociada a la enfermedad, un baja señal-ruido, puede ser menos probables que asociada a la enfermedad. La utilidad de diagnóstico de análisis de señal a ruido ha sido ilustrada en las últimas guías para las pruebas genéticas para las miocardiopatías y canalopatías; sin embargo, sólo se ha empleado en el nivel del gene entero o nivel específico de dominio¹². Recientemente, dado el aumento de la disponibilidad de variantes patológicas (bases de datos de la enfermedad, estudios de cohortes en la literatura) y variantes de control poblacional (Consorcio de agregación exoma, ExAC y la base de datos de genoma agregación, GnomAD¹³), Esto se ha aplicado a las posiciones de cada aminoácido en la secuencia primaria de una proteína. Análisis de señal a ruido nivel de aminoácidos ha demostrado su utilidad en la categorización por cierto identificadas variantes en los genes asociados con SQTL como probable variación genética del "fondo" en lugar de enfermedad asociados. Entre los tres genes principales asociados con SQTL, incluyendo KCNQ1, estas variantes identificadas por cierto carecían de un significativo cocientes signal-to-noise, lo que sugiere que la frecuencia de estas variantes en las posiciones de aminoácidos individuales reflejan rara variación de la población en lugar de mutaciones asociadas a la enfermedad. Además, cuando la topología de dominio específico de la proteína era overlaid contra áreas de alta señal a ruido, patológica mutación 'hotspots' localizadas a dominios funcionales claves de las proteínas¹⁴. Esta metodología es prometedor para determinar que 1) la probabilidad de una variante está asociada enfermedad o población y 2) identificando nuevos dominios funcionales críticos de una proteína asociada a la enfermedad humana.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. identificar los genes y empalme específica de isoforma de interés

Nota: Aquí, se demuestra el uso de Ensembl¹⁵ para identificar la secuencia de consenso para el gen de interés que se asocia con la patogenia de la enfermedad de interés (es decir, KCNQ1 mutaciones se asocian a LQTS). Alternativas a Ensembl incluyen RefSeq vía el Centro Nacional de información biotecnológica (NCBI)¹⁶ y la Universidad de California, Santa Cruz (UCSC) genoma humano explorador¹⁷ (véase Tabla de materiales).

En la página de Ensembl, seleccionar la especie (es decir, humanos) en el menú desplegable y escriba el gene de siglas de interés en el campo (es decir, KCNQ1). Haga clic en "Go"
Seleccione el vínculo correspondiente al gen de interés (es decir, "KCNQ1 (gen humano)"
Seleccione el vínculo correspondiente a la transcripción del DNI de interés de interés de la "tabla de transcripción" (es decir, TranscriptID ENST00000155840.10, NM_000218 [transcripción de RNA], NP_000209 [producto de la proteína de transcripción RNA]).
Nota: La revisión de la literatura pertinente es necesaria para garantizar que la secuencia de consenso de la transcripción correcta es seleccionada.
Nota el NM de transcripción específicos y números de identificación de NP para futura referencia en la columna "RefSeq" de la "tabla de transcripción".
Seleccione el vínculo asociado con el número de identificación de NP para abrir una nueva página web de la base de datos de la proteína de NCBI.
Desplácese hacia abajo hasta la sección "Origen" para obtener la secuencia de la proteína (primaria) para la transcripción del gen de interés.
Desplácese hasta la sección "Características" para obtener una lista de las características de la proteína (dominios funcionales, dominios de Unión, sitios de modificación poste-de translación).
Nota: Esta información también se puede obtener a través de la base de datos de la proteína de NCBI o de fuentes primarias en la literatura. Esto se discutirá más en el paso 5.

2. crear la genética variante base de datos Experimental (la "señal")

Nota: Aquí se demuestra cómo crear una base de datos de variantes asociadas a la enfermedad en el gen de interés con la frecuencia de las variantes asociadas a la enfermedad entre los individuos con la enfermedad de interés. Esta base de datos puede tomar muchas formas y representa la "señal" (variación genética del fenotipo positivo) que se normalizó la base de datos de variables de control. Esto puede incluir variantes 1) asociada a enfermedad de comparación contra VUSs identificar nuevos dominios funcionales de la proteína o 2) VUSs, incluyendo por cierto identificados VUSs, comparar contra variantes asociadas a la enfermedad para determinar la probabilidad de patogenicidad. Variantes asociadas a enfermedad en KCNQ1 se presentará para la ilustración; sin embargo, el método es el mismo para el análisis de VUSs identificados incidentalmente o cualquier otro conjunto de variantes experimentales.

Identificar cohort(s) de casos índice/probands sin relación con la enfermedad de interés para que el gen de interés era comprensivo genotipado para probands todos (es decir, un estudio identifica 24 probands sin relación hosting variantes en KCNQ1 de 200 individuos con SQTL que fueron sometidos a interrogatorio genético KCNQ1).
Nota: Estas cohortes se pueden identificar de la literatura, de análisis genética experimental, o una combinación de ambos.
1. Excluir estudios que no están basados en la cohorte (es decir, un informe del caso describe un individuo mutación-positivo), no proporciona el número total de individuos de genotipados para el gen de interés, o no analizar exhaustivamente genéticamente el gen ( es decir, un análisis genético "selectivas" de KCNQ1 sólo los exones 2-4) estas imposibilitan el cálculo de la frecuencia de una variante.
2. Son a personas que están sin relación probands y excluyen a individuos emparentados como esto puede sobreestimar las frecuencias variables (es decir, un estudio identifica a 4 individuos no emparentados con las mutaciones KCNQ1 en una cohorte de 20 pacientes con SQTL. Uno de los probands es parte de una familia con 5 otros parientes de mutación-positivo. Excluir a todos los miembros de la familia e incluyen sólo los probands sin relación 4).
Compilar todas las variantes genéticas experimentales encontradas cohort(s) identificado
1. Asignar nomenclatura que contiene el tipo de aminoácido, aminoácido posición y variante del aminoácido (es decir, alanina aminoácido número 212 cambiada a la valina, Ala212Val o A212V). Un tal tipo de nomenclatura se demuestra en la figura 1.
2. Confirmar que la variante nomenclatura de todas las variantes genéticas experimentales se basa en la misma transcripción del gene de la referencia como se indica en el paso 1.4. Si experimentales variantes genéticas no se anotan en la misma transcripción de gen de referencia, entonces reannotate posición variante a una transcripción de referencia mediante alineación de transcripción (véase el paso 1.2)
Excluir las variantes que no son aplicables dependiendo de la pregunta que se está estudiando.
1. Excluir las variantes localizar a regiones no codificantes del genoma o de variantes que no alteran la proteína secuencia como variantes intrónicas, sinónimas, 5' o 3' región sin traducir [NC] y la región intergénica variantes (es decir, un informado patológica variante de KCNQ1 que localiza a los 5' UTR de la región de la codificación sería excluido como no está previsto modificar la secuencia de la proteína).
2. Excluir las variantes que no cumplen criterios de inclusión para el estudio. Para variantes asociadas a la enfermedad, esto incluye variantes que ya no se considerarán patológicas.
  1. Confirman que cada variante es actualmente considerado patógeno, probablemente patógeno, o por lo menos no benigno, por variantes con la base de datos de ClinVar de referencias cruzadas (véase Tabla de materiales).
  2. Entre el gen y variante de interés en ClinVar campo de búsqueda (es decir, KCNQ1-Y111C), seleccione "Buscar"
  3. Identificar la variante de interés bajo la columna "Ubicación de variación".
  4. Tenga en cuenta la interpretación del consenso de patogenicidad bajo la columna de "Significación clínica" (es decir, KCNQ1-Y111C se interpreta como "patógeno").
  5. Incluyen variantes que son "probablemente patógeno" o "patógenos".
  6. Incluyen variantes con las denominaciones de "interpretaciones contradictorias de patogenicidad," "significado incierto", o cuando ningún registro está disponible ("no proporcionado") si se justifica el estudio.
  7. Excluir las variantes designadas como "probablemente benigna" (es decir, KCNQ1-A62T).
Calcular la frecuencia del alelo menor (MAF) de cada posición variante experimental.
1. Calcular cómo cualquier alelos fueron positivos para cada variante respectiva (es decir, si una mutación heterozigótica de se encuentra en 2 individuos no emparentados, el número de alelos variante positiva de KCNQ1-Y111C es 2).
2. Calcular el número total de alelos ordenados dentro de la cohorte
  1. Tenga en cuenta el número total de individuos ordenados en cada estudio de cohortes (paso 2.1)
  2. Multiplica al número total de individuos por 2 para determinar el número total de alelos.
    Nota: Esto presupone genomas diploides que cada hosts individuales 2 de cada alelo.
3. Calcular el número total de individuos de la variante positiva para cada posición del aminoácido (alelos en paso 2.4.1/alleles paso 2.4.2). Por ejemplo, si 2 no relacionado con individuos cada anfitrión KCNQ1-Y111C las mutaciones heterozigóticas en cohortes de individuos afectados de SQTL 100 y 200, respectivamente, entonces la frecuencia de las variantes experimentales del aminoácido posición 111 es 2 variantes/((100+200 individuals ) * 2 alelos/individuo) (es decir, combinar MAF 0.0033).
4. Calcular este valor para cada variante como el MAF respectivo de cada variante experimental. Para obtener más detalles consulte el paso 4.2.

3. crear el Control genético variante base de datos (el "ruido")

Nota: Aquí se demuestra cómo crear una base de datos de variantes en el gen de interés con una frecuencia asociada en una población de control. Esta base de datos representa el "ruido" (fenotipo negativo, basado en la población variación genética) que es el fondo contra el cual se normalizará la base de datos de variable experimental. Esto se conoce como variación de "control".

Identificar un cohort(s) de probands sano, sin relación o utilizar grandes estudios poblacionales para identificar variantes raras en una población dada.
Nota: Las fuentes para esta base de datos son diversas e incluyen: 1) individuos sanos y/o individuos de fenotipo negativo lo contrario sometidos a Sanger secuenciación o bases de datos públicas de personas basado en la población para que la enfermedad en cuestión es raro en frecuencia como 2) proyecto del genoma 1000 (N = 1.094 temas)¹⁸, 3) nacional del corazón, pulmón y sangre ir Instituto proyecto de secuenciación exoma (ESP, N = 5.379 sujetos)¹⁹, 4) exoma Consorcio de agregación (ExAC, N = 60.706 temas)¹³, o 5) base de datos de genoma agregación (GnomAD, N = 138.632 individuos)¹³ (véase Tabla de materiales). La base de datos de GnomAD será utilizado como un ejemplo ilustrativo.
1. Introducir el gen de interés en el cuadro de búsqueda en la Página Web de GnomAD (es decir, KCNQ1).
2. Confirmar que el navegador había seleccionado el gen correcto y transcripción de interés (paso 1.4).
3. Confirme que existe cobertura adecuada de la secuencia del locus revisando "cobertura media" y "trama de la cobertura."
4. Seleccione para la codificación de variación genética de la secuencia seleccionando "Sin sentido" +"LoF".
5. Seleccione "Exportar tabla a CSV," que generará un archivo TextEdit llamado "Desconocido".
6. Cambiarle el archivo e incluyen una nueva extensión "*.csv" (es decir, "KCNQ1 Control Variation.csv").
7. Abra el archivo usando un programa de software apropiado para el análisis de archivos *.csv (véase Tabla de materiales).
Identificar la proteína cambiando la variación genética en la columna etiquetada "Proteína consecuencia."
Mismos criterios de exclusión se aplican a estas variantes genéticas de control como el experimentales variantes genéticas (paso 2.3.1).
Identificar el MAF de cada variante de control.
1. Localizar la columna de "Alelo" conteo", que denota el número de alelos encontrados para la variante del puerto.
2. Localizar la columna "Número de alelos", que denota el número total de alelos secuenciados en este dada la posición de ácido amino.
  Nota: El número total de alelos secuenciadas variará dependiendo de la cobertura en ese lugar. Áreas de cobertura alta aproximará a 2 * número total de individuos dentro de GnomAD (es decir, para los 138.632 individuos, cobertura completa abarca 277.264 total alelos genotipados). Por el contrario, áreas de cobertura más bajada tendrá un número reducido alelo total
3. Localizar la variante MAF que previamente se calcula en la columna "Frecuencia de alelo" y representa "Alelo cuenta" dividido por"alelo."
  Nota: Los genomas humanos tienen dos de cada alelo (es decir, 1 tema encontraron que una variante heterozigótica en 10 personas tiene un MAF del 1 al 20)
4. Tenga en cuenta el MAF para cada variante como el MAF respectivo de cada variante de control.
  Nota: Variante MAF específico para cada grupo racial o étnico compuesto por GnomAD puede verse en las columnas a la derecha de «Frecuencia de alelo.»
Aplicar un umbral MAF para variantes raras que excluyen a variantes como "común".
1. Ajuste del umbral de MAF para el valor máximo en el que todos verdaderamente asociada a enfermedad variantes (ver paso 2) también se observó en la base de datos de control se incluyen por debajo del umbral (es decir, entre todas enfermedades asociadas KCNQ1 las variantes también se encuentra en GnomAD el la variante común más alto MAF es 0.009, deben excluirse todas las variantes de GnomAD encima de un umbral de 0.01).
Asegúrese de que la nomenclatura variante experimental es idéntica al control (vea el paso 2.2).
Guarde el archivo. En algunos casos, esto puede requerir cambiar la extensión del tipo del archivo.

4. asignación y cálculo de señal a ruido nivel aminoácido

Calcular un MAF para cada posición del aminoácido con una variante de control (ver figura 1 que contiene variantes de KCNQ1 GnomAD ejemplo).
1. En una hoja de cálculo compatible con gráficos, crear una columna de las posiciones de todas las variantes experimentales.
2. Eliminar texto variable para dejar sólo la posición variable.
  Nota: Se pueden utilizar diversas funciones/fórmulas para eliminar automáticamente los elementos del texto dentro de las células (figura 1, columna C, véase Tabla de materiales).
3. Ordenar las variantes de valor ascendente a identificar que puestos tienen más de 1 variante asociada (figura 1, columna E; es decir, del aminoácido de posición 10 aparece dos veces en la columna E que denota 2 únicas variantes en la posición).
4. Combinar el MAF para cada variante asociada a una determinada posición al tomar la suma de todos MAFs para una determinada posición (figura 1, columna G y H).
Calcular un MAF para cada posición del aminoácido con una variante experimental (véase la figura 2 que contiene simulacros KCNQ1 variantes patológicas).
1. De manera similar a 4.1.1, crear una columna de posiciones de aminoácidos que tienen variantes experimentales (figura 2, columna B).
2. Para cada posición variable, calcular el MAF de todas las variantes asociadas con esa posición del paso 2.4 (figura 2, columna C-G).
Crear un balanceo medio del MAF para ambos experimental y variantes.
1. Ampliar las columnas creadas en 4.1 y 4.2 para incluir células para posiciones de aminoácidos que no tienen ninguna variante como un MAF = 0. (Figura 3).
  1. Crear una columna que contiene todas las posiciones del aminoácido en el gen de interés (es decir, 1 a 676 para columna de KCNQ1, figura 3, C e I).
  2. Añadir un MAF de 0 para todas las posiciones que no tienen variantes para el control y conjuntos de datos experimentales.
    Nota: Esto puede hacerse automáticamente utilizando la función "BUSCARV" en un programa de software comúnmente utilizadas (figura 3, columna D y J, véase Tabla de materiales).
2. Crear un balanceo promedio para cada uno experimental y control prevalencia columna.
  Nota: Esto permite la inferencia de patogenicidad posición adyacente y puede ser modificado o excluido, para satisfacer las necesidades del estudio.
  1. Crear una columna que representa una media acumulada de MAF tanto para el control y conjuntos de datos experimentales (figura 3, columna E y K).
  2. En la columna promedio rodante, coloque el medio del MAF respectivo para las 5 posiciones variante variante N-terminal y 5 posiciones C-terminal en la posición dada.
    Nota: Esto crea un balanceo medio de +-5. Para posiciones con menos de 5 residuos del aminoácido anteriores, o después, un lugar medio rodante (es decir, la terminal N o C), la media acumulada sólo tendrá en cuenta los residuos que están presentes (es decir, el balanceo promedio en posición del aminoácido 3 será un promedio del MAF en posiciones del aminoácido 1 aunque 8, calculado como la suma de estos MAFs dividido por 8).
Calcular la frecuencia mínima de control dividiendo el menor balanceo MAF 2.
1. Cambia cualquier celda con un control MAF de 0 a la frecuencia mínima para evitar dividir por 0 al calcular una relación señal a ruido.
Calcular la razón de señal a ruido nivel de aminoácidos (figura 4).
1. Dividir cada posición del aminoácido experimental promedio del balanceo por el control respectivo balanceo medio.
2. El gráfico esta posición de relación (eje y) vs aminoácidos (eje x).

5. proteína dominio topología superposición

Identificar las ubicaciones de aminoácido de consenso de dominios/características funcionales o áreas de modificación poste-de translación de la proteína de interés (paso 1.7).
Nota: Un número de recursos puede ser utilizado para identificar estos dominios. Estos recursos, así como recursos para la identificación de dominios putativos en nuevas proteínas, han sido bien revisadas en la literatura²⁰. Este protocolo describe la proteína base de datos a través de NCBI, que es ampliamente utilizado y robusto (véase Tabla de materiales).
Identificar posiciones de aminoácidos asociados a proteína dominios/características.
1. Abra la página web del NCBI.
2. Introduzca el PN de la proteína de interés en el campo de búsqueda.
3. Identificar los dominios de la proteína conocida y características son catálogos bajo "Características."
4. Identificar y observar las posiciones de dominio nombre, tipo y aminoácidos.
5. Seleccione el vínculo correspondiente a la función para visualizar la región de la proteína de secuencia principal de interés.
Crear una columna que contiene los límites de las características de los dominios.
1. Crear una columna al lado de la columna de señal: ruido para que la columna de la posición de aminoácidos puede ser referenciado (figura 5A, columna C).
2. Identificar las células correspondientes en el aspecto de cada función dominio N-terminal o c-terminal y coloque un 1 en cada celda (es decir, si el dominio N-terminal del dominio transmembrana de S1 de KCNQ1 es aminoácido posición 122, y el dominio C-terminal posición 142, luego un 1 se coloca en la fila de la posición del aminoácido 122 y 142).
3. Para la superposición de dominios/características, Mostrar múltiples dominios cambiando el 1 por otros valores (es decir, 1.5, 2, 2.5); Esto puede ayudar en la distinción de dominios.
Crear un gráfico con estos límites como una posición de eje y y del aminoácido en el eje x (figura 5B).
El recubrimiento esta gráfica con la gráfica de señal a ruido creada en el punto 4.4.
Identificar correlaciones entre dominios/características de la proteína conocida y el análisis de señal a ruido.

6. variante de la posición recubrimiento

Mapa de posiciones individuales variante por superposición de gráficos producidos en medidas 4.4 y 5.4.
1. Crear una columna al lado de la columna de función dominio tal que las filas de la columna se corresponden a posiciones de aminoácidos (figura 5A, columna D).
2. Ponga un 1 en cada celda de la fila agregada correspondiente a una posición que contenga una variante respectiva.
3. Crear un gráfico con esta columna como una posición de eje y y del aminoácido en el eje x (figura 5C).
Superponer este gráfico con el gráfico de señal a ruido creado en el punto 4.4 y gráfico de dominio creado en el paso 5.4.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Un resultado representativo para señal de nivel de aminoácidos análisis de ruido de KCNQ1 se representa en la figura 6. En este ejemplo, variantes raras identificadas en la cohorte de GnomAD (cohorte de control), identificado por cierto WES variantes (experimental cohorte #1) y variantes de SQTL asociado caso consideran probable asociada a la enfermedad (experimental cohorte #2) se describe. Además, el análisis de señal a ruido que comparan la frecuencia variante de WES y SQTL cohorte normalizado contra GnomAD frecuencia variante es representado. Variantes asociadas a SQTL demostraron altos cocientes signal-to-noise en dominios correspondientes con el poro del canal, filtro de la selectividad y el dominio obligatorio KCNE1. En comparación, por cierto identificadas variantes en la cohorte de WES no claramente demostró regiones específicas de alta elevación de señal a ruido, sugiriendo que estas variantes reflejan la variación genética de fondo. En este ejemplo no utilizar la variante MAFs como se señaló anteriormente; sin embargo, todos los principios mismo muestra como se describe.

Figura 1 : Ejemplo de base de datos variante control con cálculo MAF. Columna A, directamente importados GnomAD variantes raras. Columna B, borrado de texto de lado izquierdo, no relacionadas con la posición de la variante nomenclatura utilizando una fórmula de ejemplo para el retiro del carácter (es decir: para B2 "= derecha (A2, LEN (A2) -5", véase Tabla de materiales). Columna C, borrado de texto de lado derecho, no relacionadas con la posición de la variante nomenclatura utilizando una fórmula relacionada (es decir: para C2 "= LEFT(B2,LEN(B2)-3"). Columna D, resultante sin clasificar del aminoácido posiciones. Columna E, posiciones de aminoácidos ordenados en forma ascendente para permitir la identificación de posiciones duplicadas. Columna F, asociados MAF para cada variante como importado de GnomAD. Columna G y H, combinado MAF para una posición dada del aminoácido (suma de cada variante de la MAF en una posición específica). Haga clic aquí para ver una versión más grande de esta figura.

Figura 2 : Ejemplo de base de datos variante experimental con cálculo MAF. Se burlan de columna A, una lista de mutaciones asociadas a SQTL en KCNQ1 que representa una base de datos experimental de mutación asociada a la enfermedad. Columna B, posición de la mutación correspondiente a cada variante. Columna C, una cuenta de mutación-positivo personas en simulacro de estudio de 1. Cada presumido para ser portadores de la mutación heterozigótica. El número total de individuos de genotipados en estudio se encuentra en la parte inferior de la hoja. Columna D, Conde de individuo mutación-positivo en simulacro de estudio de 2. Columna E, Conde de individuo mutación-positivo simulacro de estudio de 3. Columna F, total individuos de mutación-positivo anfitrión la mutación observada en todos los estudios. Tenga en cuenta que se deben combinar diferentes mutaciones asociadas a la misma posición del aminoácido. Columna G, MAF de cada posición de la mutación y del aminoácido mediante una fórmula de ejemplo (es decir: para G2 "=2/(176*2)", véase Tabla de materiales). Observe que puesto que todas las personas que se presume que son heterozigóticos y cada individuo presumido para llevar 2 alelos del locus KCNQ1, el total de individuos se debe multiplicar por 2 la frecuencia del alelo. Haga clic aquí para ver una versión más grande de esta figura.

Figura 3 : Ejemplo de cálculo de promedio para el control y las variantes experimentales del balanceo. Columna A y B, GnomAD control variante posiciones y MAFs respectivos. Columna C, todas las posiciones de KCNQ1 del aminoácido aminoácido posición final. Columna D, variante de GnomAD MAF para todas las posiciones con un MAF de 0 en lugar de posiciones sin una variante. Esto puede calcularse automáticamente usando una función BUSCARV (es decir, para D2, "= IFERROR(VLOOKUP(C2,A:B,2,),0), ver Tabla de materiales). Columna E, balanceo promedio de posición MAF utilizando una fórmula ejemplo (es decir, para E2, "= SUM(D2:D7)/6" y E7, "= SUM(D2:D12)/11"). Columna G y H, variante experimental de SQTL posiciones con MAFs respectivos. Columna I, todas las posiciones del aminoácido de KCNQ1. Columna J, variante de SQTL MAF para todas las posiciones. Columna K, balanceo LQTS MAF. Las células de relleno gris son ejemplos de donde se expanden los valores de las columnas B y H MAF en columna D y J, respectivamente, que se correlacionan con la respectivas posiciones de columna C/I. tenga en cuenta que es fundamental que todas las celdas tienen el formato "Números" para la fórmula adecuada funcionamiento. Haga clic aquí para ver una versión más grande de esta figura.

Figura 4 : Ejemplo de análisis de señal a ruido y graficar. Izquierda, base de datos de ejemplo y los cálculos. Columna A, todas las posiciones del aminoácido de KCNQ1. Columna B, media del balanceo del MAF del SQTL experimental para cada posición. Columna C, GnomAD control media acumulada de MAF para cada posición. D: a-relación señal ruido (es decir, para D2, "= B2/C2"). Derecha, ejemplo de gráfico de relación señal a ruido (eje y) versus la posición del aminoácido (eje x). Haga clic aquí para ver una versión más grande de esta figura.

Figura 5 : Ejemplo de proteína y la asignación de la variable posición. A, base de datos de ejemplo y cálculos. Columna A, todas las posiciones del aminoácido de KCNQ1. Columna B, KCNQ1 posiciones que tienen una variante rara de control identificada en GnomAD. Columna C, la columna de asignación de dominio donde las células que contienen los valores corresponden a lo N o C-terminal de identificado KCNQ1 proteína dominios o características. Como el mayoría dominio N-terminal es que el dominio S1 tiene el límite de la N-terminal en el aminoácido 122, no hay valores se observan aquí. Columna D, la columna de asignación variable donde las células que contienen un 1 corresponden a KCNQ1 posiciones que localizar variantes raras. Células de relleno gris son dos ejemplos de donde se expanden variante posiciones en la columna B en la columna D que se correlacionan con las posiciones respectivas en la columna A. haga clic aquí para ver una versión más grande de esta figura.

Figura 6 : Ejemplo de análisis a nivel del aminoácido signal-to-noise de KCNQ1-codificado KCNQ1 (Kv7.1). Posiciones superior, variante se demuestran con líneas verticales, incluyendo variantes de cohorte GnomAD raras (negro), por cierto identificado variantes en las referencias de WES (azul) y las variantes identificadas en el SQTL cases(green). Se observan dominios funcionales. Frecuencia relativa de variantes caso de SQTL normalizado a GnomAD variantes (línea verde) se representa frente a WES (línea azul). S1-S6, dominios transmembrana; SF, filtro de la selectividad del ion; KCNE1 y AKAP9, dominios de unión a la proteína respectiva. Modificado y reimpreso con permiso de trabajo anterior¹⁴. Haga clic aquí para ver una versión más grande de esta figura.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Pruebas genéticas de alto rendimiento ha avanzado considerablemente en su aplicación y la disponibilidad de la última década. Sin embargo, en muchas enfermedades con bases genéticas bien establecidas, como las miocardiopatías, la prueba ampliada ha podido mejorar rendimiento diagnóstico²¹. Además, existe considerable incertidumbre con respecto a la utilidad de diagnóstico de muchas variantes identificadas. Esto es parcialmente debido a un creciente número de variantes raras por cierto identificados descubierto en WES y WGS, que puede conducir a errores de diagnóstico²². Análisis de señal a ruido nivel de aminoácidos está basado en estrategias establecidas para predecir la variable patogenicidad y proporciona la ventaja de aprovechar estudios del genoma a gran escala basado en la población para refinar la interpretación variable.

Se sigue que uno de los pasos más importantes de este protocolo es la selección de control y de cohortes experimentales. Muchos de los estudios del genoma grande públicamente disponibles son accesibles a través de bases de datos agregados, como GnomAD, que pueden permitir representante cohortes de control en este protocolo sea tan grande como 138.632 individuos en momento presente. Aunque no todos los sujetos en estas cohortes agregadas son aparentemente sanos, el tamaño de muestra grande en el marco de enfermedad rara hace que este recurso inestimable y permite un umbral de exclusión estricto de MAF. Exclusión de variantes comunes es necesario ya que están improbable que una causa de enfermedad mendeliana altamente penetrante. Basado en el anterior trabajo, un umbral MAF de 0.01 para genes asociados channelopathy y 0.0001 para los genes de la cardiomiopatía puede ser adecuado y ha sido validado por grupos independientes²³^,²⁴. Importante, dada la importancia del umbral del MAF, esto debe ser establecido y validado independientemente para cada estudio. Un umbral MAF no se necesita aplicar a un grupo experimental, dado la presencia bien establecida de mutaciones fundador en canalopatías y cardiomiopatías. El tamaño de la cohorte experimental debe ser suficiente para identificar las áreas donde pueden agrupar variantes; sin embargo, no hay ningún tamaño terminante. Además, la cohorte experimental no debe incluir variantes conocidas a ser benignos dentro de la literatura, ya que esto disminuiría la veracidad de la señal de patógena.

Seleccionar correctamente los criterios de exclusión también es crucial para la interpretación y aplicabilidad de los resultados. Aunque este protocolo recomienda excluir ciertas clases de mutación como variantes sinónimas, estos pueden ser viable para los procesos de la enfermedad en la que variantes sinónimas nocivas han sido identificados²⁵^,²⁶. Además, cuando varios criterios de exclusión se aplican a ambos experimental y grupos de control, puede permitir para la estratificación de asignación de señal a ruido por subclase de mutación (es decir, comparación sin sentido a truncar las variantes).

Ajuste una media acumulada de MAFs permitir la inferencia de la participación a los vecinos de aminoácidos. Por ejemplo, si 35 la posición del aminoácido contiene una variante patológica y reside en un dominio de la proteína crítica, entonces la posición 36 tenga un grado de patogenicidad cuando mutó. Asimismo, un tramo de secuencia primaria debe tener una gran cantidad de variantes raras, entonces los aminoácidos dentro de esta región que no albergan variantes raras aún pueden tener una mayor probabilidad de contener variantes raras encontradas una población. Mientras que la media acumulada en el presente Protocolo es +-5, este rango puede variar basado en el usuario de nivel de resolución de la relación señal a ruido y la proteína específica de estudio deseado. En el ejemplo del SQTL, el interrogado KCNQ1-codificado KCNQ1 canal tiene varios dominios transmembranales que abarca ~ 10 aminoácidos, lo que los autores a ajustar su resolución deseada para reflejar resultados significativos en esa escala¹⁴. Las proteínas con una secuencia ya primaria y longitud de la proteína, el intervalo del balanceo medio deba aumentarse debido a luces más grandes de la secuencia de la proteína sin variación de control.

Hay varias limitaciones a este método. Como se dijo anteriormente, una población suficiente de fenotipo positivo hosting supuestas variantes patológicas debe ser identificada para conducir una señal claramente patológica. Además, estas variantes patológicas pueden tener penetrancia variable, así las mutaciones realmente patológicas no pueden manifestar un fenotipo de la enfermedad o pueden de lo contrario no ser completamente penetrante y enfermedad causando. Mientras muchos públicamente las bases de datos, como GnomAD, a menudo se consideran "cohortes sanas", la prevalencia de enfermedades genéticas es probablemente similar en esta base de datos como los estudios de población. Como se indica, este protocolo se centra específicamente en cambios de nivel de aminoácidos resultante de variantes exonic genes ese código para aminoácidos, que excluye el papel que pueden jugar variantes patogénicas de empalmes intronic en enfermedades monogénicas. Dado su papel recientemente demostrada en cardiomiopatías, ampliación de la resolución de este enfoque puede justificarse para identificar intergénicas 'hotspots' así. Además, la aplicación de un umbral MAF puede pasar por alto ciertos "alelos de riesgo" que, aunque existentes en la población con un MAF mayor que de la enfermedad prevalencia, puede contribuir a la patogenesia de la enfermedad²⁷^,²⁸. A pesar de estas limitaciones, este análisis es adaptable y puede jugar un papel clave en la prestación de los médicos aplica una probabilidad relativa de la patogenicidad de la enfermedad cuando corresponda.

Por último, dada la predilección de este análisis para identificar regiones críticas dentro de una proteína, aminoácido-nivel señal / ruido cálculos utilizando mutaciones patológicas ofrece la posibilidad de identificar nuevos dominios funcionales de las proteínas que estudió. Dada la observación de patogenicidad alta señal a ruido en lugares clave de los canales iónicos, como el dominio de poro, filtro de selectividad, S2 dominio transmembrana y el dominio KCNE1 obligatorio del KCNQ1, identificación de un "pico de patogenicidad" en una zona de la proteína sin una función conocida puede sugerir un nuevo dominio crítico. Por ejemplo, un marcado pico de patogenicidad de las mutaciones asociadas a SQTL se ha identificado localizar al aminoácido residuos 912-930 de KCNH2-codificado KCNH2 (Kv11.1). Esta región de la proteína no tiene ningún dominio funcional identificable pero demuestra una marcada propensión a mutaciones asociadas a SQTL¹⁴. Como se expande el conocimiento de la topología de la proteína, proteómica más sofisticado viable podría mejorar la resolución de este método en el futuro de análisis de relación señal a ruido a lo largo de la estructura primaria de una proteína con su secundario, terciario, o estructura cuaternaria. Adición de ciencias computacionales avanzadas para este análisis, como el aprender de máquina e inteligencia artificial, brinda la oportunidad de identificar patrones de novela entre patológico versus variación genética poblacional, si robustas bases de datos de estos variantes pueden ser generado²⁹^,³⁰. A su vez, este método puede ayudar a caracterizar mejor y predecir la relación genotipo-fenotipo de enfermedades específicas y ser utilizado en conjunto con la probabilidad de pre-test de un individuo de la enfermedad para mejorar el rendimiento diagnóstico de las pruebas genéticas. Además, este análisis puede descubrir biología nueva proteína e identificar nuevos loci dentro del genoma humano que se manifiestan con enfermedad cuando.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Los autores no tienen nada que revelar.

Acknowledgments

APL es apoyado por el nacional institutos de salud K08-HL136839.

Materials

Name	Company	Catalog Number	Comments
1000 Genome Project	N/A	www.internationalgenome.org
ClinVar	N/A	www.ncbi.nlm.nih.gov/clinvar
Ensembl Genome Browser	N/A	uswest.ensembl.org/index.html
Excel	Microsoft	office.microsoft.com/excel/	Used for all example formulas and functions
Exome Aggregation Consortium	N/A	www.exac.broadinstitute.org
Genome Aggregation Database	N/A	www.gnomad.broadinstitute.org
National Center for Biotechnology Information Domain and Structure Database	N/A	www.ncbi.nlm.nih.gov/guide/domains-structures/
National Center for Biotechnology Information Gene Database	N/A	www.ncbi.nlm.nih.gov/gene/
National Center for Biotechnology Information Protein Database	N/A	www.ncbi.nlm.nih.gov/protein/
National Heart, Lung, and Blood Institute GO Exome Sequencing Project	N/A	www.evs.gs.washington.edu/EVS/
SnapGene	GSL Biotech LCC	www.snapgene.com
University of California, Santa Cruz Human Genome Browser	N/A	www.genome.ucsc.edu