Biology

La detección de raras variantes genómicas de secuenciación agruparon mediante SPLINTER

Published: June 23, 2012 doi: 10.3791/3943

Francesco Vallania¹, Enrique Ramos¹, Sharon Cresci², Robi D. Mitra¹, Todd E. Druley^1,3

¹Center for Genome Sciences and Systems Biology, Department of Genetics, Washington University School of Medicine, ²Department of Internal Medicine, Washington University School of Medicine, ³Department of Pediatrics, Washington University School of Medicine

Summary

La secuenciación del ADN agrupado es una estrategia rápida y rentable para la detección de variantes raras asociadas con fenotipos complejos en grandes cohortes. A continuación se describe el análisis computacional de combinado, secuenciación de próxima generación de los 32 genes relacionados con el cáncer utilizando el paquete de software Splinter. Este método es escalable y aplicable a cualquier fenotipo de interés.

Abstract

Como la tecnología de secuenciación del ADN ha avanzado notablemente en los últimos años ^2, se ha convertido cada vez más evidente que la cantidad de variación genética entre dos individuos es mayor que antes se pensaba ^3. En contraste, la serie basada en la genotipificación no ha identificado una importante contribución de variantes de secuencias comunes a la variabilidad fenotípica de la enfermedad de ^4,5 común. En conjunto, estas observaciones han llevado a la evolución de la enfermedad común / variante rara hipótesis que sugiere que la mayoría de la "herencia perdida" en los fenotipos comunes y complejas es más bien debido al perfil personal de un individuo de variantes de ADN raras o privadas ^6-8 . Sin embargo, la caracterización de cómo la variación afecta rara fenotipos complejos requiere el análisis de muchos individuos afectados en muchos loci del genoma, y está muy bien en comparación con un estudio similar realizado en una cohorte de afectados. A pesar de la secuenciación de alimentación que ofrecen las plataformas de hoy, unencuesta de población de muchos loci del genoma y el posterior análisis computacional requerido sigue siendo prohibitivo para muchos investigadores.

Para satisfacer esta necesidad, hemos desarrollado un enfoque de secuenciación combinado ^1,9 y un paquete de software para la detección de ^una nueva variante de alta precisión poco frecuente de los datos resultantes. La capacidad de los genomas de la piscina de poblaciones enteras de las personas afectadas y de la encuesta el grado de variación genética en varias regiones seleccionadas en una biblioteca de la secuencia única permite un excelente ahorro de costes y tiempo a la metodología tradicional de la secuenciación de una sola muestra. Con una cobertura media por secuenciación del alelo de 25 veces, nuestro algoritmo personalizado, Splinter, utiliza una variante interna de llamar a la estrategia de control para llamar a las inserciones, supresiones y sustituciones hasta cuatro pares de bases de longitud con una alta sensibilidad y especificidad de las piscinas de hasta 1 alelo mutante en 500 individuos. Aquí se describe el método para preparar la s agruparonequencing la biblioteca seguido las instrucciones paso a paso sobre cómo utilizar el paquete para el análisis de la secuenciación SPLINTER combinado ( http://www.ibridgenetwork.org/wustl/splinter ). Se presenta una comparación entre la secuencia combinada de 947 personas, todos los cuales también se sometieron a todo el genoma de matriz, en más de 20kb de la secuenciación por persona. La concordancia entre el genotipado de etiquetado y nuevas variantes de llamadas en el grupo de muestras fueron excelentes. Este método puede ser fácilmente ampliado a cualquier número de loci genómicos y cualquier número de individuos. Mediante la incorporación de los controles internos de amplificación positivas y negativas en proporciones que imitan a la población en estudio, el algoritmo puede ser calibrado para obtener un rendimiento óptimo. Esta estrategia también se puede modificar para su uso con la captura de hibridación o códigos de barras individuales específicos y se puede aplicar a la secuenciación de muestras naturalmente heterogéneos, como el ADN del tumor.

Protocol

Este método fue utilizado en la investigación publicada en Vallania FML y otros de investigación. Genoma de 2010.

1. Ejemplo de la agrupación y la captura de PCR de las poblaciones destinatarias loci del genoma

Combine una cantidad normalizada de ADN genómico de cada individuo en su piscina (s). Usando 0,3 ng de ADN por persona por reacción de PCR se incorporan aproximadamente 50 genomas diploides por persona en cada reacción de PCR, que mejora la probabilidad de amplificación uniforme por alelo en la piscina.
Las secuencias genómicas se pueden obtener de la NCBI ( http://www.ncbi.nlm.nih.gov/ ) o la UCSC Genome Browser ( http://genome.ucsc.edu/index.html ). Asegúrese de utilizar el "RepeatMasker" (marcado con "N") en la obtención de la secuencia para evitar diseñar un cebador en una región repetitiva.
Utilice el Primer3 basado en la web (rimer3/input.htm "target =" _blank "> http://frodo.wi.mit.edu/primer3/input.htm) de utilidad para diseñar cebadores cortando y pegando las regiones genómicas de interés además de algunas secuencias de acompañamiento (amplicones de 600-2000 pb suelen ser ideal) Las condiciones óptimas de diseño de cebadores para el Primer 3 que se utilizarán son ^10: el tamaño mínimo de imprimación = 19, el tamaño óptimo de imprimación = 25, el tamaño máximo de imprimación = 30; mínima Tm = 64 ° C; óptimo Tm. = 70 ° C, máxima Tm = 74 ° C, máxima diferencia de Tm = 5 ° C, mínima de contenido de GC = 45; máximo contenido de GC = 80; Número de volver = 20 (esto es arbitrario); máximo 3 'la estabilidad final = 100 Diseño. cebadores para amplificar todos los loci genómicos de interés. Al recibir los cebadores, los stocks liofilizadas se puede diluir en 10 mM Tris, pH 7,5 + 0,1 mM de EDTA a una concentración final de 100 uM seguido por un adicional 10:01 dilución en ddH ₂ O a 10 um.
Amplificación por PCR: Se recomienda el uso de una ADN polimerasa de alta fidelidad para amplificar genómica a granamplicones debido a la baja tasa de error (10 ^-7) y la generación de productos terminados romos (esto es necesario para la etapa de ligación aguas abajo). Hemos utilizado PfuUltra de alta fidelidad, pero las enzimas con características similares (por ejemplo, Phusion) debe proporcionar resultados comparables. Cada reacción de PCR contiene una concentración final de 2,5 U PfuUltra de alta fidelidad de la polimerasa, 1 M betaína, 400 nM de cada cebador, 200 uM dNTPs, 1x PfuUltra tampón (o una solución tampón que contiene ≥ 2 mM de Mg ^{2 +} con el fin de mantener la fidelidad enzimática) , 5-50 ng de ADN en común en un volumen final de 50 l. Use las siguientes condiciones de PCR: 1. 93-95 ° C durante 2 minutos; 2. 93-95 ° C durante 30 segundos; 3. 58-60 ° C durante 30 segundos; 4. 65-70 ° C durante 60-90 segundos para amplicones de 250-500 pb / minuto 1.5-3 para amplicones 500-1000 pb / 3-5 minutos para amplicones> 1 kb, 5. Repita los pasos 2-4 para los ciclos 25-40, 6. 65 ° C durante 10 minutos; 7. 4 ° C espera. Si es necesario, los resultados de PCR típicamente puede ser mejorada mediante: 1)bajar la temperatura de recocido para amplicones pequeñas, 2) elevar la temperatura de recocido para amplicones grandes; 3. alargar el tiempo de extensión para cualquier amplificación.
Preparación de los controles astilla: Cada experimento SPLINTER requiere la presencia de un control negativo y positivo para obtener una precisión óptima. Un control negativo puede consistir en todas las posiciones de base homocigotos en cualquier individuo, con código de barras muestra que ha sido previamente secuenciados (por ejemplo, una muestra HapMap). El control positivo entonces consistiría en una mezcla de dos o más de dichas muestras. Para este informe, el control negativo es una región de 1934 pb amplificado a partir de la columna vertebral del vector M13mp18 ssDNA. El producto de PCR fue secuenciado Sanger antes de su uso con el fin de confirmar que no existe variación de la secuencia del material de origen o la amplificación por PCR. El control positivo se compone de un panel de pGEM-T Easy vectores con 72 pb clonado insertar diseñado con inserciones, supresiones específicas substitluciones (Tabla 1). Se mezclan los vectores juntos contra un fondo de tipo salvaje en relaciones molares de tal manera que las mutaciones están presentes en la frecuencia de un único alelo en la piscina (es decir, para una piscina 100-alelo, la frecuencia de un único alelo será de 1%). A continuación, amplificar por PCR la plantilla de control mixto utilizando los cebadores M13 sitios de la PUC en pGEM-T Easy, generando un producto final de PCR 355bp tiempo.

2. Fondo Común de PCR y secuenciación Preparación Biblioteca

Producto de PCR puesta en común: Cada producto de PCR se debe limpiar el exceso de cebadores. Se utilizó Qiagen purificación en columna Qiaquick o placas de 96 pocillos con filtro colector de vacío para la limpieza a gran escala. Después de la purificación, cada producto de PCR se cuantificó usando técnicas estándar. Combinar cada producto de PCR (incluyendo los controles) en una piscina normalizado por número molécula como la agrupación de concentración dará lugar a sobrerrepresentación de pequeño OV ampliconeser productos más grandes. Las concentraciones se convierte en el número absoluto de moléculas de ADN por volumen mediante la fórmula: (g / l) x (1 x moles pb / 660 g) x (1 / # pb en amplicón) x (6 x 10 ²³ moléculas / mol 1 moléculas) = / l. A continuación, determinar el volumen de cada reacción necesaria para poner en común un número normalizado de moléculas por amplificación. Este número es arbitrario, puede ser ajustada y realmente depende de tomar volúmenes suficientemente grandes como para mantener la precisión. Nosotros generalmente reúnen a 1-2 x 10 ¹⁰ moléculas de cada uno de amplificación.
La ligación de los productos de PCR: Este paso es necesario para lograr una cobertura uniforme secuenciación como sonicación de pequeñas amplicones PCR se sesgada su representación hacia sus extremos. Para superar esto, ligar los productos agrupados PCR en concatemers grandes (> = 10 Kb) anteriores a la fragmentación. Ultra Pfu polimerasa HF genera extremos romos, lo que lleva a la ligadura de eficiencia (una Taq polimerasa basada en añadirá un 3p "A" pendiente de que no va a unla ligadura de D eje sin previo relleno o embotamiento). Esta reacción se puede escalar 2-3 veces si es necesario. La reacción de ligación contiene 10 U quinasa T4 polinucleótido, 200 U de ligasa T4, polietileno 15% w / v, 1X tampón de ligasa T4, glicol 8000 MW, hasta 2 g de agrupados productos de PCR en un volumen final de 50 l. Las reacciones se incubaron a 22 ° C durante 16 horas seguido de 65 ° C durante 20 minutos y se mantuvo a 4 ° C después. El éxito de este paso se puede comprobar por la carga de 50 ng de muestras en un 1% en gel de agarosa. El éxito de la ligadura se traducirá en una banda presente alto peso molecular en el carril (véase la Figura 2, carril 3).
La fragmentación del ADN: En este punto usted debe tener concatemers grandes (> 10kb) de los productos de PCR. Tenemos una estrategia de tratamiento con ultrasonidos al azar utilizando una muestra de 24 Diagenode sonicador Bioruptor que pueden fragmentar estas concatemers en 25 minutos (40 segundos "en" / 20 segundos "apagado" por minuto). La sonicación se inhibe por la viscosidad introducido por el PEG, por loesto se puede superar mediante la dilución de la muestra 10:1 en Qiagen tampón PB. Los resultados se pueden comprobar en un 2% en gel de agarosa (véase la figura 2, carriles 4 y 5).
La muestra está lista para incorporar directamente en la biblioteca genómica Illumina principio protocolo de Preparación de la muestra con la "reparación final" a paso. Los datos presentados aquí son de una sola lectura de extremos en el Analizador de Illumina Genoma IIx, pero se ha utilizado el HiSeq 2000 y realizado de una o dos al final se lee con resultados comparables. Dada la escala de la biblioteca de creación, también hemos utilizado adaptadores de código de barras con el fin de multiplex múltiples bibliotecas agrupados para acomodar el ancho de banda suministrado por la plataforma HiSeq (datos no presentados). Siga el protocolo del fabricante y las recomendaciones que vienen con el kit. A fin de lograr la sensibilidad y especificidad óptimas para la detección variante, la cobertura de destino de 25 veces o más por alelo se recomienda (Figura 3). Esta estimación es independiente del tamaño de la piscinay el tipo de variante para ser detectado. Si es necesario, varios carriles y se ejecuta se pueden combinar para llegar a una cobertura adecuada.

3. Lecturas de secuenciación y análisis de alineación

La compresión de archivos y formatos: archivos RAW de secuenciación de lectura se debe convertir al formato ya sea una bufanda o comprimido. La compresión es opcional, ya que ahorra tiempo y espacio para el análisis de los pasos posteriores sin perder ninguna información relevante. Esto se logra mediante el uso de la secuencia de comandos RAPGAP_read_compressor_v2.pl incluido con el comando siguiente:
./RAPGAP_read_compressor_v2.pl [Leer archivo]> [Leer archivo comprimido]
Aceptados leer formatos de archivo de entrada son BUFANDA y FASTQ, ya sea o no comprimido con gzip:
Ejemplo de formato BUFANDA:
HWI-EAS440: 7:1:0:316 # 0/1: NTCGATTCACTGCCCAACAACACCAGCTCCTCTCCC: DNWUQSPWWWWUVVPVVWVVVUVVUUPUUWWWWWUW
FASTQ formato de ejemplo:
@ HWI-EAS440_7_1_0_410 # 0/1
NGTGGTTTCTTCTTTGGCTGGGGAGAGGAGCTGGTG
+
Y / 8888888888888888888854588767777666!
Alineación cruda leer: La Lecturas prima ahora se puede alinear con la secuencia FASTA referencia anotado específicos de las regiones específicas incluidas en las reacciones de PCR, así como el positivo y los controles negativos. La alineación se puede realizar utilizando la herramienta de alineación RAPGAPHASH5d incluido. El formato de entrada en este punto tiene que ser BUFANDA o comprimido. El comando de la alineación es:
./RAPGAPHASH5d [Archivo comprimido Leer] [archivo FASTA] [número de ediciones permitido]> [Alineados archivo]
El número de discordancias por lectura que están permitidos en comparación con la secuencia de referencia es un parámetro definido por el usuario. Lecturas que tienen un número excesivo de los desajustes será descartado. Se recomienda permitir que los desajustes de 2 pb 36 Lecturas, 4 desajustes de 76 pb y 5 lee los desajustes de 101 pb lee. Permitir que más desajustes aumentará la probabilidad de errores que permiten el exceso de secuenciación en el aligned datos. En longitudes de lectura continuarán siendo cada vez más, este valor puede incrementarse aún más.
Etiquetado alineados los archivos de la célula de flujo mismo: En este punto, todo el alineado leer el archivo se debe dar un identificador único ("tag") con el fin de identificar los archivos de lectura que pertenecen a la misma secuencia de ejecución (es decir, varios carriles de la célula de flujo mismo se pueden agregar y teniendo en cuenta una sola etiqueta). La etiqueta es necesario porque cada ejecución de la máquina genera un perfil de error único que se puede caracterizar a través de la etiqueta. Una etiqueta es una cadena alfanumérica de caracteres utilizados para distinguir un conjunto de lecturas (el carácter de subrayado "_" no debe ser utilizado para cuestiones de análisis). Etiquetas diferentes se debe utilizar para leer los archivos alineados generados en diferentes celdillas de flujo o de la aplicación de la máquina. Etiquetas pueden ser creadas usando la RAPGAP_alignment_tagger.pl incluido con el siguiente comando:
. / RAPGAP_alignment_tagger.pl [archivo Alineados] [tag]> [Alineados archivo etiquetado]
Después de este punto, alineadoarchivos de la biblioteca misma genera en múltiples celdillas de flujo diferentes pueden combinarse entre sí como sus respectivas etiquetas se mantienen separadas.
Generación de error modelo: Como se mencionó anteriormente, cada ejecución de la máquina genera un perfil único de la secuencia de error que debe ser caracterizado para llamadas variante exacta. Para modelar estos errores para cada serie de la máquina, una secuencia de control interno sabe que carece de variación de la secuencia se incluye en cada biblioteca de muestras colectivas. Desde el archivo alineados etiquetados, un archivo de modelo de error se puede generar mediante el EMGENERATOR4 herramienta incluida con la secuencia de referencia del control negativo. Toda la secuencia de control negativo puede ser utilizado o, alternativamente, sólo un subconjunto de la misma, especificado por el 5 'y 3' en la mayoría de las bases de entrada. Único lee y pseudocounts siempre se debe utilizar:
./EMGENERATOR4 [Archivo Alineados etiquetado] [secuencia de control negativo] [Nombre del archivo] [5 'la mayoría de la base del control negativo a utilizar] [3' la mayor parte de la base deel control negativo a utilizar] [singular incluyen sólo lee? = S] de alineación [ediciones de corte] [enter pseudocounts? = S]
La herramienta EMGENERATOR4 generará 3 archivos con el nombre como el parámetro de salida el nombre de archivo seguido por _0, _1, o _2. Estos archivos corresponden a un 0 ª, 1 ª y el modelo de segundo orden de error, respectivamente. Para la variante llamada con Splinter, el modelo de orden 2 º error se debe utilizar siempre.
Para visualizar el perfil de tasa de error de una ejecución, el error_model_tabler_v4.pl puede utilizarse para generar una trama de error PDF en el archivo de modelo de orden 0 ª de error (Figura 4):
./error_model_tabler_v4.pl [archivo de error del modelo para 0 ª] [nombre del archivo de salida]
El archivo de trazado revelará de ejecución específicos tendencias de error y puede utilizarse para inferir el número máximo de bases leen a ser utilizados para el análisis, que se explica en la siguiente sección.

4. Detección variante rara uso SPLINTER

Variante calling por SPLINTER: El primer paso en el análisis es para ejecutar la herramienta SPLINTER en el archivo alineados utilizando el modelo de error y la secuencia de referencia. El comando para hacerlo es la siguiente:
./SPLINTER6r [Alineados archivo etiquetado] [archivo FASTA] [error segunda orden de archivo de modelo] [número de leer las bases que se utilizarán] [leer las bases o los ciclos que se excluirán] [p-valor de corte = -1,301] [uso exclusivo lee = S] de alineación [ediciones de corte] [tamaño de la agrupación de las opciones disponibles] [imprimir la cobertura absoluta por cada hebra = Y]> [SPLINTER archivo]
El número de bases de leer para ser utilizados varía y debe ser evaluado de acuerdo a cada carrera. Por lo general, recomendamos el uso de los primeros 2/3rds de la lectura, ya que representan los datos de la más alta calidad (las primeras 24 bases de leer una larga 36bp leer, por ejemplo). Soltero bases de leer se puede excluir del análisis en caso de ser defectuoso (por ejemplo, separados por una coma o 5,7,11 N o N). El p-valor de corte dicta la forma rigurosa el análisis de la variante llamada va a ser. Nosotros, ninormalmente iniciar el análisis, al permitir un corte mínimo de -1.301 (correspondiente a un valor de p ≤ 0,05 en la escala log10). La opción de tamaño del grupo de algoritmos optimiza la "relación señal-ruido" discriminación mediante la eliminación de las variantes posibles con las frecuencias alélicas menores menos que la de un único alelo en la piscina real. Por ejemplo, en una piscina de 50 individuos, la menor variante observada se puede esperar a 0,01 frecuencia o 1 en 100 alelos. Por lo tanto, la opción de tamaño de la piscina se debe establecer en el valor más cercano que es mayor que el número real de alelos analizados en el experimento (es decir, si se encuesta a 40 personas, esperamos que 80 alelos por lo que la opción más cercana sería un tamaño de grupo de 100) . Variantes llamados a frecuencias <0,01 va a ser ignorado, como el ruido. Este archivo devuelve todos los resultados que son estadísticamente significativos a través de la muestra, con una descripción de la posición de la variante, el tipo de variante, p-valor por cada hebra de ADN, la frecuencia de la variante y la cobertura total por cada hebra de ADN (
La normalización de la cobertura de las variantes de llamadas: las fluctuaciones de la cobertura a través de la muestra puede generar visitas falsas. Esto puede corregirse mediante la aplicación de la secuencia de comandos splinter_filter_v3.pl como sigue:
./splinter_filter_v3.pl [SPLINTER archivo] [archivo de la lista] [rigor]> [SPLINTER archivo normalizado]
en el archivo de lista es una lista de accesos de control positivo en la forma de un archivo delimitado por tabuladores.
El primer campo indica la amplificación de interés, mientras que el segundo campo indica la posición en que la mutación está presente. N indica que el resto de la secuencia no contiene ninguna mutación.
Determinar el valor óptimo de p-umbrales utilizando los datos de control positivos: Después de la normalización, el análisis del control positivo es indispensable para maximizar la sensibilidad y la especificidad de un análisis de la muestra en particular. Esto puede lograrse mediante la búsqueda de la óptima p-valor de corte utilizando la informaciónción del control positivo. Lo más probable es el p-valor inicial de -1,301 no será lo suficientemente estrictas, que si es así, se traducirá en el llamado de falsos positivos del control positivo o negativo. Todos los análisis SPLINTER mostrará el real valor de p para cada variante llamada (ver columnas 5 y 6 en la Tabla 2), que no se podía prever a priori. Sin embargo, el análisis completo puede repetirse utilizando el menos estricto p-valor que se muestra en la salida inicial de las conocidas posiciones verdaderas bases positivas. Esto servirá para mantener todos los verdaderos positivos, mientras que la mayoría de exclusión, si no todos, los falsos positivos y por lo general tienen los valores de p mucho menos significativa en comparación con los verdaderos positivos. Para automatizar este proceso, el cutoff_tester.pl se puede utilizar cutoff_tester.pl requiere un archivo de salida SPLINTER y una lista de accesos de control positivas en la forma de un archivo delimitado por tabuladores que se utiliza para la normalización.:
. / Cutoff_tester.pl [SPLINTER filtroed archivo] [lista de archivos]
La salida resultante será una lista de puntos de corte que progresivamente alcanzar la óptima (ver Tabla 3). El formato es:
[Distancia máxima de la sensibilidad y la especificidad] [Sensibilidad] [especificidad] [corte]
por ejemplo:
7.76946294170104e-07 un 0.999118554429264 -16.1019999999967
La última línea representa el límite más óptimo para la ejecución y por lo tanto puede ser utilizado para el análisis de datos. El resultado óptimo es lograr la sensibilidad y la especificidad de 1. En caso de que este resultado no se alcanza, el análisis SPLINTER puede repetirse cambiando el número de incorporado leer las bases hasta que la condición más óptima se logra.
Variante final filtrado: El corte final se puede aplicar a los datos mediante escritura cutoff_cut.pl, que se filtran el archivo de salida astilla de golpes por debajo del punto de corte óptimo,
. / Cutoff_cut.pl [SPLINTER archivo filtrado] [corte]> [SPLINTER final dearchivo]
Este paso va a generar el archivo de SPLINTER resultado final, que contendrá los SNPs y indeles presente en la muestra. Tenga en cuenta que la salida de las inserciones es ligeramente diferente a la de sustituciones o eliminaciones (Tabla 2).

5. Los resultados representativos

Se combinaron una población de 947 individuos y dirigido más de 20 kb para la secuenciación. Se aplicaron SPLINTER para la detección de variantes raras siguiendo el protocolo estándar. Cada individuo había tenido previamente genotipificación realizada por todo el genoma genotipo matriz. La concordancia entre el genotipado de etiquetado y nuevas variantes de llamadas en el grupo de muestras fueron excelentes (Figura 6). Tres variantes, dos de ellas (rs3822343 y rs3776110) fueron poco frecuentes en la población, fueron llamados de novo a partir de los resultados de la secuenciación y fueron validadas por pirosecuenciación individual. Las frecuencias de alelos menores (MAF) en el grupo fueron similares a la MAF informó en dbSNP 129 de construcción. La concordancia entre el MAF pirosecuenciación y la secuencia combinada fue excelente (Tabla 3).

Tabla 1
Tabla 1. Secuencias de ADN de oligonucleótidos para el control positivo. Cada secuencia se compone de un fragmento de ADN que difiere de la referencia de tipo salvaje ya sea por dos sustituciones o una inserción y supresión uno. Haga clic aquí para ampliar la imagen .

Tabla 2
Tabla 2. Ejemplo de salida SPLINTER. Las dos primeras filas representan la salida SPLINTER estándar para una sustitución o una deleción (encabezado azul). La última fila es la salida del SPLINTER estándar para una inserción (encabezamiento de color morado).rget = "_blank"> Haga clic aquí para ampliar la imagen.

Tabla 3
Tabla 3. Cinco conocidos y tres nuevas variantes se identificaron a partir de poblaciones grandes y validado por genotipo individual. La validación individual fue realizada por pirosecuenciación (filas 1-3), TaqMan ensayo (filas 4-6) o secuenciación de Sanger (filas 7,8). Para una amplia gama de frecuencias de los alelos y que incluye cinco posiciones con MAF <1%, la concordancia entre la estimación conjunta de secuenciación y genotipado frecuencia de los alelos individuo era fuerte. Posiciones marcados con un asterisco (*) son una adaptación de los datos se informó anteriormente ^9.

Figura 1. Agrupado-secuenciación de ADN y análisis de SPLINTER visión. ADN del paciente se agruparony amplificada en loci seleccionados. Los productos finales de la PCR se agruparon junto con un control positivo y negativo en proporciones equimolares. La mezcla se reunieron a continuación, la secuencia y las lecturas resultante se asignan de nuevo a su referencia. Asignado Lecturas control negativo se utilizan para generar un modelo de error de ejecución específico. SPLINTER entonces se puede utilizar para detectar SNP rara y indeles mediante la incorporación de información desde el modelo de error y el control positivo. [Adaptado de Vallania MFF y otros, de Investigación del Genoma 2010] Haga clic aquí para ampliar la imagen .

Figura 2. Agrupado PCR ligadura amplicón y sonicación. Como una demostración de la ligadura y pasos aleatorios de fragmentación en el protocolo de preparación de biblioteca, el vector pUC19 fue digerido enzimáticamente a los fragmentos se muestran en el carril 2. Estos fragmentos fueron Normalizado por el número molécula, se combinaron y se ligó al azar según el paso 1,7 arriba. Los concatémeros grandes resultantes se muestran en la calle 3. Los concatémeros ligados se dividen por igual y se sometió a sonicación, como se describe en el paso anterior 1,8. El frotis resultante de fragmentos de ADN para cada repetición técnica se muestran en los carriles 4 y 5. El soporte se destaca la gama del tamaño utilizado para la extracción de gel y la creación de bibliotecas de secuenciación.

Figura 3. Precisión como una función de la cobertura de un único alelo en una muestra conjunta. La precisión se calcula como el área bajo la curva (AUC) de una curva operador receptor (ROC), que oscila entre 0,5 (al azar) a 1,0 (con una precisión perfecta). AUC se representa como una función de la cobertura por alelo para la detección de alelos mutantes individuales en piscinas de alelos 200, 500 y 1000 (A). AUC se representa como una función de la cobertura total de sustituciones, inserciones y deletions (B). [Adaptado de Vallania MFF y otros, de Investigación del Genoma de 2010].

Figura 4 4 Figura. Trama error muestra la probabilidad de incorporación de una base errónea en una posición dada. El perfil de error de muestra bajos índices de error con una tendencia creciente hacia el extremo 3 'de la secuencia de lectura. Notablemente, los nucleótidos de referencia diferentes mostrar diferentes probabilidades de error (véase, por ejemplo probabilidad de incorporación de un C dada una G como referencia). [Adaptado de Vallania MFF y otros, de Investigación del Genoma de 2010].

Figura 5. Precisión de la astilla en la estimación de frecuencia de los alelos para las posiciones que tenían una cobertura superior a 25 veces por cada alelo. Basándose en los resultados del Panel A, Figura 3 muestra una sensibilidad óptima para la detección de la variante individual con ≥ 25 veces la cobertura, uncomparación entre las frecuencias de alelos combinado de ADN estimada por SPLINTER con los recuentos de los alelos medidos por los resultados de GWAS en muy alta correlación (r = 0,999). [Adaptado de Vallania MFF y otros, de Investigación del Genoma de 2010].

Figura 6. Comparación entre las frecuencias de alelos medidos por GWAS en comparación con las estimaciones de astilla de la secuencia combinada de 974 personas. Había 19 posiciones comunes entre los loci genotipo y las regiones de secuencias para la comparación. La correlación resultante es muy alta (r = 0,99538). Haga clic aquí para ver más grande la figura .

Discussion

Hay evidencia creciente de que la incidencia y la respuesta terapéutica de los fenotipos comunes, complejos y enfermedades como la obesidad ^{8, 4} hipercolesterolemia, la hipertensión ⁷ y otros pueden ser moderadas por perfiles personales de variación poco frecuente. La identificación de los genes y vías donde estos agregados variantes en las poblaciones afectadas tendrán profundas implicaciones diagnósticas y terapéuticas, pero el análisis de las personas afectadas por separado puede llevar mucho tiempo y el costo prohibitivo. Población basada en el análisis ofrece un método más eficiente para investigar la variación genética en múltiples loci.

Se presenta un nuevo combinado de ADN protocolo de secuenciación se combina con el paquete de software diseñado para identificar SPLINTER este tipo de variación genética entre las poblaciones. Se demuestra la exactitud de este método en la identificación y cuantificación de los alelos de menor importancia dentro de una gran población combinada de 947 personas, incluyendo las variantes raras que eranllamado de novo a partir de la secuenciación agruparon y validado por pirosecuenciación individuo. Nuestra estrategia principalmente difiere de otros protocolos por la incorporación de un positivo y un control negativo en cada experimento. Esto permite SPLINTER para lograr una precisión mucho mayor y la potencia en comparación con otros enfoques ^1. La cobertura óptima de 25-veces por alelo se fija con independencia del tamaño de la piscina, haciendo que el análisis de grandes piscinas practicable que este requisito sólo escalas linealmente con el tamaño de la piscina. Nuestra aproximación es muy flexible y se puede aplicar a cualquier fenotipo de interés, sino también a las muestras que son naturalmente heterogénea, tales como las poblaciones de células mixtas y biopsias tumorales. Dado el interés cada vez mayor en la secuencia combinada de las regiones de destino de gran tamaño como el exoma o genoma, nuestra preparación para la biblioteca y el análisis de SPLINTER es compatible con la costumbre de captura y la secuenciación de todo el exoma, pero la utilidad de alineación en el paquete de SPLINTER no fue diseñado para grandehace referencia a las secuencias. Por lo tanto, hemos utilizado con éxito el alineador de programación dinámica, Novoalign, por todo el genoma alineaciones seguidas por la variante llamada de la muestra conjunta (Ramos et al., Presentado). Por lo tanto, nuestra estrategia combinada de secuenciación se puede ampliar con éxito a las piscinas más grandes con cantidades crecientes de secuencia de destino.

Disclosures

No hay conflictos de interés declarado.

Acknowledgments

Este trabajo fue apoyado por la concesión de los Niños del Discovery Institute MC-II-2006-1 (RDM y TED), el NIH Epigenética Hoja de Ruta de subvención [1R01DA025744-01 y 3R01DA025744 02S1-] (RDM y FLMV), U01AG023746 (SC), el Saigh Fundación (FLMV y TED), 1K08CA140720-01A1 y la limonada de Alex Stand "A" apoyo Premio (TED). Damos las gracias a la Tecnología del Genoma Centro de Acceso en el Departamento de Genética de la Universidad de Washington Escuela de Medicina de la ayuda para el análisis genómico. El Centro está parcialmente financiado por el NCI Cancer Support Center Grant # P30 CA91842 al Centro de Cáncer Siteman y TIC / CTSA Grant # UL1RR024992 de la NationalCenter Recursos para la Investigación (CNRR), un componente de los Institutos Nacionales de Salud (NIH), y NIH Roadmap para la Investigación Médica. Esta publicación es responsabilidad exclusiva de sus autores y no representan necesariamente la opinión oficial de la CNRR o NIH.

Materials

Name	Company	Catalog Number	Comments
PfuUltra High-Fidelity	Agilent	600384	1.4
Betaine	SIGMA	B2629	1.4
M13mp18 ssDNA vector	NEB	N4040S	1.5
pGEM-T Easy	Promega	A1360	1.5
T4 Polynucleotide Kinase	NEB	M0201S	2.2
T4 Ligase	NEB	M0202S	2.2
Polyethylene Glycol 8000 MW	SIGMA	P5413	2.2
Bioruptor sonicator	Diagenode	UCD-200-TS	2.3

DOWNLOAD MATERIALS LIST

References

Vallania, F. L. M., Druley, T. E., Ramos, E., Wang, J., Borecki, I., Province, M., Mitra, R. D. High-throughput discovery of rare insertions and deletions in large cohorts. Genome Research. 20, 1391-1397 (2010).
Shendure, J., Mitra, R., Varma, C., Church, G. M. Advanced Sequencing Technologies: Methods and Goals. Nature Reviews of Genetics. 5, 335-344 (2004).
The 1000 Genomes Project Consortium. A map of human genome variation from population-scale sequencing. Nature. 467, 1061-1073 (2010).
Manolio, T. A., Collins, F. S., Cox, N. J., Goldstein, D. B., Hindorff, L. A., Hunter, D. J., McCarthy, M. I., Ramos, E. M., Cardon, L. R. Finding the missing heritability of complex diseases. Nature. 461, 747-753 (2009).
Reich, D. E., Lander, E. S. On the allelic spectrum of human disease. Trends Genet. 17, 502-510 (2001).
Cohen, J. C., Kiss, R. S., Pertsemlidis, A., Marcel, Y. L., McPherson, R., Hobbs, H. H. Multiple rare alleles contribute to low plasma levels of HDL cholesterol. Science. 305, 869-872 (2004).
Ji, W., Foo, J. N., O'Roak, B. J., Zhao, H., Larson, M. G., Simon, D. B., Newton-Cheh, C., State, M. W., Levy, D., Lifton, R. P. Rare independent mutations in renal salt handling genes contribute to blood pressure variation. Nat. Genet. 40, 592-599 (2008).
Ahituv, N., Kavaslar, N., Schackwitz, W., Ustaszewska, A., Martin, J., Hebert, S., Doelle, H., Ersoy, B., Kryukov, G., Schmidt, S. Medical sequencing at the extremes of human body mass. Am. J. Hum. Genet. 80, 779-791 (2007).
Druley, T. E., Vallania, F. L., Wegner, D. J., Varley, K. E., Knowles, O. L., Bonds, J. A., Robison, S. W., Doniger, S. W., Hamvas, A., Cole, F. S., Fay, J. C., Mitra, R. D. Quantification of rare allelic variants from pooled genomic DNA. Nat. Methods. 6, 263-265 (2009).
Mitra, R. D., Butty, V., Shendure, J., Housman, D., Church, G. M. Digital Genotyping and Haplotyping with Polymerase Colonies. Proc. Natl. Acad. Sci. 100, 5926-5931 (2003).

Biology

La detección de raras variantes genómicas de secuenciación agruparon mediante SPLINTER

Summary

Abstract

Protocol

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Protocol

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.