Genetics

Detección de eventos raros usando ADN Error corregido y secuenciación de ARN

Published: August 3, 2018 doi: 10.3791/57509

Wing H. Wong*^1,2, R. Spencer Tong*^1,2, Andrew L. Young^1,2, Todd E. Druley^1,2

¹Department of Pediatrics, Division of Hematology and Oncology, Washington University School of Medicine, ²Center for Genome Sciences and Systems Biology, Washington University School of Medicine

* These authors contributed equally

Summary

Secuenciación de próxima generación (NGS) es una poderosa herramienta para la caracterización genómica que está limitada por la tasa alta de error de la plataforma (~0.5–2.0%). Describimos nuestros métodos de corrección de error de la secuencia que nos permiten obviar la tasa de error NGS y detectar mutaciones en fracciones de alelo variante tan raros como 0.0001.

Abstract

Técnicas de secuenciación de próxima generación convencional (NGS) han permitido para la caracterización genómica inmenso para más de una década. Específicamente, NGS se ha utilizado para analizar el espectro de mutaciones clonales de malignidad. Aunque mucho más eficiente que los métodos tradicionales de Sanger, NGS luchas con la identificación de mutaciones clonales y subclonal raras debido a su tasa alta de error de ~0.5–2.0%. Por lo tanto, NGS estándar tiene un límite de detección para las mutaciones que son > 0.02 fracción alelo variante (VAF). Mientras que la significación clínica de las mutaciones de este raras en pacientes sin enfermedad conocida sigue siendo confusa, pacientes tratados por leucemia han mejorado significativamente los resultados cuando la enfermedad residual es < 0.0001 por citometría de flujo. Para mitigar este fondo artefactual de NGS, numerosos métodos han sido desarrollados. Aquí se describe un método para corregir Error ADN y ARN secuencia (ECS), que implica la selección de moléculas individuales con un índice aleatorio de 16 bp para corrección de errores y un índice de específico para cada paciente 8 bp multiplexación. Nuestro método puede detectar y rastrear mutaciones clonales en el alelo variante fracciones (VAFs) dos órdenes de magnitud menores que el límite de detección de NGS y tan raras como VAF 0.0001.

Introduction

Como edad, exposición a mutágenos y errores estocásticos durante División de célula resultado de la acumulación de las aberraciones somáticas en el genoma y esto es la base de la patogenia fundamental de transformación maligna, enfermedades neuro-desarrollo, pediatría trastornos del envejecimiento normal y¹^,². Mutaciones somáticas con potencial de manejo de la enfermedad son importantes biomarcadores diagnósticos y pronósticos de la detección temprana y gestión de riesgo³^,⁴^,⁵. Para entender mejor la clonogenesis fisiológica, que informar a la clínica y de investigación las decisiones, la exacta cuantificación y caracterización de estas mutaciones es de primordial importancia. Secuenciación de próxima generación (NGS) se utiliza actualmente para el estudio de mutaciones clonales en heterogéneas muestras de ADN; sin embargo, se limita a la identificación de mutaciones en NGS > 0.02 fracción alelo variante (VAF), debido a la inherente-tasa de error de 0.5-2.0% de la secuencia plataformas⁶^,⁷^,⁸. Como resultado, seguimiento diagnóstico y pronóstico significativas variantes somáticas en VAF más bajo no se puede lograr usando NGS estándar.

Recientemente, se han desarrollado varios métodos para eludir la tasa de error de NGS⁸^,⁹^,¹⁰^,¹¹. Estos métodos utilizan etiquetado molecular, que permite la corrección de errores después de la secuencia. Cada molécula o fragmento genomic de la biblioteca de la secuencia es etiquetado con un aleatorio único Molecular identificador (UMI) que es específico de esa molécula. Se construyen las UMIs permutaciones de una cadena de nucleótidos al azar (N 8 – 16). Un segundo código de barras específico de muestra también se integra en el flujo de trabajo que permite la multiplexación de múltiples muestras en la misma secuencia de NGS ejecutar. Amplificación por PCR se realiza en la biblioteca etiquetada molecularmente, y posteriormente se envía a la biblioteca por secuenciación. Durante la preparación de la biblioteca, se espera que errores se introducirán al azar en el fragmento genomic durante la amplificación por PCR y secuenciación⁸. Para eliminar errores de secuenciación al azar, lee la secuencia cruda se agrupa según la UMI. Artefactos de la secuencia no se espera que esté presente en todas las lecturas con la UMI mismo en la misma posición genómica debido a la naturaleza estocástica de introducción, mientras que una verdadera variante será amplificada y secuenciada en todas las lecturas que comparten el mismo UMI fielmente. Los artefactos son bioinformatically quitado. Aquí, Describimos tres métodos de corrección de Error de secuencia (ECS) optimizado en el laboratorio de ADN identificar variantes de un solo nucleótido (SNVs) y pequeña inserción-deleciones (Indels) y de ARN para facilitar la cuantificación de la expresión génica a continuación la Umbral de error NGS.

El primer método describe una forma de buscarse un acontecimiento somático raro usando las cartillas específicas gen diseñados por los investigadores. Antes de la preparación de la biblioteca, los investigadores deben diseñar cartillas a los fragmentos de interés. Utilizamos el Primer3 web-app (http://bioinfo.ut.ee/primer3-0.4.0/). Amplicones de 200 – 250 bp son ideales para la reacción en cadena de polimerasa (PCR) como estos, una vez que se han incorporado UMIs, genere superposición final emparejado Lee 150 lecturas de extremo apareado de bp. Las condiciones de diseño de primer óptimo a utilizar son: tamaño mínimo del primer = 19; Tamaño cartilla óptimo = 25; Tamaño cartilla máxima = 30; Mínimo Tm = 64 ° C; Óptima Tm = 70 ° C; Máxima Tm = 74 ° C; Máxima diferencia de Tm = 5 ° C; Mínimo contenido de GC = 45; Contenido de GC máximo = 80; Número para enviar = 20; Máximo de 3' final de estabilidad = 100.

En el método 2, se describe un método que combina el protocolo de ECS-ADN con Illumina química encuesta SNVs clonales y pequeño Indels tan raros como 0.0001 VAF usando paneles de gene comercialmente disponibles que incluyen cientos de amplicones. Hemos utilizado el TruSight mieloide secuenciación Panel (Illumina) para nuestro experimento y diseñado un panel ampliado para incluir genes adicionales de interés para enfermedades pediátricas mieloides. Estos paneles no han ofrecido identificadores moleculares únicos (UMIs) que faciliten la corrección de errores, así que hemos añadido nuestra propia estrategia de adaptador para estos paneles. ECS debería funcionar igualmente bien con cualquiera de otros paneles diseñados para enriquecer de genes asociados a diferentes enfermedades. Después de extracción de ADN y posterior cuantificación del tejido o muestra de interés, se recomienda tener al menos 500 ng de stock ADN por muestra. Habitualmente hacemos una biblioteca única secuenciación utilizando 250 ng de ADN para capturar aguas abajo como mucho único fragmento genómico como sea posible para Lee la deduplicación y el cálculo de la VAF. Una biblioteca de secuenciación replicar opcional puede hacerse con los restantes 250 ng de ADN. Siempre hacemos dos bibliotecas réplicas por muestra, y consideramos sólo los eventos detectados independientemente en dos repeticiones como verdaderos positivos. También implementamos un modelo de error binomial de genomic posición específica para aumentar la precisión de la variante llamada⁴^,¹³.

Por último, se describe un método de acoplamiento ECS a secuencia de RNA para la cuantificación de la transcripción mediante paneles QIAseq RNA objetivo estándares (Qiagen). Las UMIs requieren para la desduplicación de corrección de errores se han incorporado en los kits y los investigadores pueden hacer bibliotecas siguiendo las recomendaciones del fabricante. Bioinformatically, los investigadores pueden seguir la tubería para ECS-DNA, que se explica en detalle en la sección de protocolo.

Protocol

1. objetivo corregido Error la secuencia de ADN

Amplificación por PCR de fragmentos genómicos de interés.
1. Uso de una DNA polimerasa de alta fidelidad para amplificar los amplicones (Tabla de materiales, artículo 1). Amplifican la reacción de PCR con las siguientes condiciones en un termociclador: 30 s a 98 ° C; 18 – 40 ciclos de 10 s a 98 ° C, 30 s a 66 ° C y 30 s a 72 ° C; 2 min a 72 ° C; mantener a 4 ° C.
2. Purificar los productos PCR con perlas paramagnéticas (Tabla de materiales, artículo 2). Añadir a la reacción de PCR para los granos en una proporción de 1: 1.8 (volumen de reacción de PCR: volumen del grano) según protocolo del fabricante. Eluir con 20 μl de ddH₂O.
3. Cuantificar la concentración de ADN (Tabla de materiales, tema 3) para determinar la concentración final de ADN.
4. Ejecutar una alícuota de ADN en un gel de agarosa al 2% (Tabla de materiales, punto 4) para confirmar el tamaño de los amplicones.
  Nota: Como alternativa, los investigadores pueden optar por realizar un análisis del equipo Bioanalyzer sobre los productos PCR para determinar el tamaño de los fragmentos genomic amplificadas, así como la concentración de los productos.
Secuenciación adaptador recocido
1. Obtener adaptadores i7 (Tabla de materiales, punto 5). Usarlos como se proporcionan para los pasos posteriores.
2. Comprar adaptadores de i5 16N comercialmente con la siguiente secuencia del oligo (materiales mesa de artículo 6): ACACTCTTTCCCTACACGACGCTCTTCCGATCT AATGATACGGCGACCACCGAGATCTACAC(N1:25252525)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1) (N1)
  Nota: Los adaptadores de i5 16N reemplazan los adaptadores estándar i5 y son adaptadores con una cadena de nucleótidos al azar 16 para facilitar la ECS.
3. Hacer solución de trabajo de adaptador de 16N i5: 40 μl del stock de adaptador de i5 de μm 16N 100 y 10 μl de tampón TE 10 μl de una solución de NaCl 500 μm.
4. Μl de 7.5 alícuotas de la solución de trabajo de i5 preparada en el paso 1.2.3 en pocillos distintos de PCR.
5. Añadir 5 μl de adaptador i7 específica de muestra en los pocillos correspondientes.
6. Incubar a 95 ° C durante 5 minutos y luego enfriar por 1 ° C cada 30 s a 4 ° C en un termociclador.
7. Mantener a 4 ° C.
Final-reparación y dA seguimiento de las bibliotecas
Nota: En paralelo con adaptador recocido, uno puede realizar reparación final y dA seguimiento en los amplicones PCR del paso 1.1. Después de completar estos pasos, se realiza ligadura de recocido adaptadores de paso 1.2 en el extremo reparado y cola dA PCR amplicones. Después de la ligadura de adaptador, la construcción de la biblioteca ECS es completa.
1. Comience con a lo más 1 μg de ADN de partida (mínimo ~ 200 ng)
2. Realizar reparación final y dA cola en amplicones (Tabla de materiales, punto 7).
  1. Agregar 3.0 μL de mezcla de enzima preparación final y 6,5 μl de tampón de reparación final.
  2. Incubar la mezcla durante 30 min a 20 ° C, luego de 30 min a 65 ° C y mantener a 4 ° C.
3. Realizar ligadura en los adaptadores de recocido (Tabla de materiales, punto 8).
  1. Añadir 2,5 μl de los adaptadores de recocido de paso 2, 15 μl del Mastermix de ligasa de Blunt/TA y 1 μl de reforzador de la ligadura.
  2. Incubar la mezcla por 15 min a 20 ° C, luego de 15 min a 37 ° C.
4. Limpiar las bibliotecas con bolas magnéticas (materiales tabla artículo 2): Añadir la reacción de PCR para los granos en una proporción de 1: 0.75 modificado (volumen de reacción de PCR: volumen de grano magnético):
  1. Pipetear 62,6 μl de solución grano magnético en el 83,5 μl de los productos PCR de paso 1.2.7.
  2. Transferir la mezcla a un tubo de unión baja de 1.5 mL.
  3. Mezclar bien mediante pipeteo arriba y abajo por lo menos 10 veces.
  4. Dejar la mezcla a temperatura ambiente durante 5 minutos.
  5. Coloque el tubo sobre un soporte magnético. Incúbelos durante 2 minutos a temperatura ambiente o hasta que el sobrenadante es claro.
  6. Eliminar el sobrenadante.
  7. Lavar los granos con 200 μL de etanol al 70%.
  8. Incubar durante 30 s. etanol de quitar.
  9. Repita el paso de lavado etanol una vez.
  10. Secar los granos.
  11. Eluir con 20 μl de ddH₂O.
    Nota: Esta modificación en la reacción de PCR a proporción de grano magnético preferentemente elimina fragmentos de ADN que son más pequeños que 200 bp.
Cuantificación por gotita PCR digital
Nota: La cuantificación precisa de la mutación requiere cumplimiento estricto del número de moléculas de cada biblioteca que se cargan en el secuenciador. Para lograr esto, cuantificando el número de moléculas para bibliotecas individuales por unidad de volumen se realiza mediante la plataforma digital de PCR (ddPCR) QX200 gota, PCR cuantitativa es una opción alternativa. Tras análisis de ddPCR, la lectura, especificará el número de moléculas por μl por biblioteca.
1. Diluir ECS bibliotecas 1:1,000 diluyendo progresivamente en un factor de 10 en tira-tubos de PCR.
2. Preparar la siguiente mastermix ddPCR en tubo de 1,5 mL: 10 μl de la mezcla de PCR (Tabla de materiales, artículo 9), 0,2 μl de Primer P5, 0,2 μl de la cartilla del P7, 5 μl del producto ECS limpiado-para arriba del paso 1.4.1. y 4.5 μl de ddH₂O.
3. Alícuota de 20 μl del mastermix en cada muestra bien asegurándose de que son múltiplos de 8.
  1. Alícuota de 70 μl de aceite gota de generación (Tabla de materiales, punto 10) en cada pozo de petróleo. Cubra el cartucho con una Junta de goma.
4. Hacer gotitas usando el generador de gota (Tabla de materiales, artículo 11).
5. Usando una pipeta multicanal, cargar las gotitas generadas en el paso 1.4.4 en un placa PCR que garantice que el pipeteado de la muestra se realiza lentamente en un lapso de 5 segundos para evitar el corte del ADN.
6. Amplificar la señal en las gotas para 40 ciclos en un termociclador con las siguientes condiciones: 5 min a 95 ° C; 40 ciclos de 30 s a 95 ° C, 1 min a 63 ° C; 5 min a 4 ° C, 5 minutos a 90 ° C; y mantenga a 4 º C.
7. Preparar ddPCR plantilla gotas lector de la máquina (Tabla de materiales, artículo 11). Garantizar la especificación de parámetros de Cuantificación absoluta y el uso de la QX200 ddPCR Eva verde Supermix.
8. Una vez finalizado el análisis de ddPCR, asegúrese de establecer el mismo umbral de división a través de todas las muestras.
9. Utilizando la lectura de la concentración del lector QX200 gota, alícuota el volumen adecuado para introducir al número de moléculas en paso posterior.
Amplificación por PCR de las bibliotecas para la secuencia
1. Preparar el mastermix siguiente para el número de moléculas de paso 1.4.9: 25 μl del Mastermix Q5 (Tabla de materiales, artículo 1), 2.5 μl de Primer P5 (10 μm), 2.5 μl de Primer P7 (10 μm), X µL de ADN, X 20 μl de ddH₂O.
2. Ampliar las bibliotecas de paso 1.5.1 en un termociclador con las siguientes condiciones: 30 s a 98 ° C; 20 ciclos de 10 s a 98 ° C, 30 s a 63 ° C, 30 s a 72 ° C; 2 min a 72 ° C; y mantenga a 4 º C.
3. Limpiar las bibliotecas con bolas magnéticas (materiales mesa, pos. 2): Añadir a la reacción de PCR a magnético granos en la proporción de 1: 0.75 (volumen de reacción de PCR: volumen de grano magnético).
  1. Pipetee 37.5 μl de solución grano magnético en los productos PCR μl 50 de paso 1.5.2.
  2. Transferir la mezcla a un tubo de unión baja de 1.5 mL.
  3. Mezclar bien mediante pipeteo arriba y abajo por lo menos 10 veces.
  4. Dejar la mezcla a temperatura ambiente durante 5 minutos.
  5. Coloque el tubo sobre un soporte magnético. Incúbelos durante 2 minutos a temperatura ambiente o hasta que el sobrenadante es claro.
  6. Eliminar el sobrenadante.
  7. Lavar los granos con 200 μL de etanol al 70%.
  8. Incubar durante 30 s. etanol de quitar.
  9. Repita el paso de lavado etanol una vez.
  10. Secar los granos.
  11. Eluir con 20 μl de ddH₂O.
4. Ejecutar una alícuota de ADN en un gel de agarosa al 2% para confirmar el tamaño de los amplicones.
5. Cuantificar la concentración de ADN (Tabla de materiales, tema 3) para determinar la concentración de las distintas bibliotecas ECS.
6. Las bibliotecas en cantidades equimolares de la piscina.
  Nota: por ejemplo, los investigadores pueden piscina ocho bibliotecas en un grupo equimolar⁴ con 4 millones a partir de moléculas de secuenciación utilizando una plataforma de secuenciación que lee hasta 400 millones. Conservador, se recomienda utilizar un promedio de diez lecturas raws para corrección de errores por moléculas. Esto llevaría a Lee 360 millones (4 millones de moléculas * 8 Bibliotecas * 10 Lee para corrección de errores). Con 4 millones moléculas únicas por biblioteca, los investigadores pueden esperar un consenso media teórico leer cobertura de 7042 x por amplicon (4 millones/568 amplicones desde el panel de genes).
7. Cuantificar la concentración de ADN (Tabla de materiales, tema 3) para determinar la concentración de los biblioteca ECS.
8. Presentar la biblioteca combinada de la ECS en aproximadamente 4 nM.
9. Proporcionar los siguientes parámetros de la secuencia a plataformas de secuenciación Illumina (MiSeq, HiSeq o NextSeq): Lee 2 x 144 emparejado-final, 16 ciclos índice 2 y 8 ciclos Índice 1.

2. Gene paneles con corrección de Error de la secuencia de ADN

Hibridación de oligos de paneles de gene
Nota: En este paso, una construcción de librerías de secuenciación utilizando un protocolo modificado de Illumina TruSight o TruSeq para incorporar las UMIs (Tabla de materiales, artículo 17).
1. Hibridar oligos en fragmento genomic de siguiendo el protocolo del fabricante. Uso 250 ng de ADN (o cualquier cantidad deseada de material de partida).
2. Quitar oligos siguiendo el protocolo del fabricante.
3. Realizar ligadura de extensión siguiendo el protocolo del fabricante.
  Nota: Modificaciones al protocolo del fabricante empiezan por debajo.
Incorporación de i5 y i7 adaptadores mediante PCR
1. Preparar el mastermix PCR por pipetear los reactivos siguientes en un tubo de tamaño del volumen correspondiente: 37.5 μl del Mastermix Q5 (Tabla de materiales, artículo 1), 6 μl de 10 adaptadores de i5 μm 16N (detallada en método 1, paso 1.2.2), 6 μl de adaptadores i7 (i7 uso de diferentes adaptadores para las muestras separadas para la multiplexación) y 22 μL de solución extensión de la ligadura con los granos en el paso 2.1.3.
  Nota: El Mastermix de Q5 reemplaza el mastermix de polimerasa proporcionado por Illumina. La polimerasa Q5 amplifica el fragmento genómico con mayor fidelidad y menos errores introducidos.
2. Ejecutar programa PCR en un termociclador usando los siguientes parámetros: 30 s a 98 ° C, 4-6 ciclos de 10 s a 98 ° C, 30 s a 66 ° C, 30 s a 72 ° C; 2 min a 72 ° C y luego mantener a 4 ° C.
  Nota: El número de ciclos depende del tamaño del panel. Desde nuestra experiencia, un 4-ciclo PCR es suficiente si el panel de genes tiene unos 1.500 diferentes pares de oligos específicos del gene, mientras que un panel con 500-600 pares de oligos requiere 6 ciclos de PCR.
3. Limpiar las reacciones de PCR con bolas magnéticas (materiales mesa, pos. 2): Añadir a la reacción de PCR a granos magnéticos en una reacción de PCR 1 modificada: 0.75 relación grano magnético:
  1. Pipetear 56.25 μl de solución de la tira magnética en los 75 μl de los productos PCR de paso 2.2.2.
  2. Transferir la mezcla a un tubo de unión baja de 1.5 mL.
  3. Mezclar bien mediante pipeteo arriba y abajo por lo menos 10 veces.
  4. Dejar la mezcla a temperatura ambiente durante 5 minutos.
  5. Coloque el tubo sobre un soporte magnético. Incúbelos durante 2 minutos a temperatura ambiente o hasta que el sobrenadante es claro.
  6. Eliminar el sobrenadante.
  7. Lavar los granos con 200 μL de etanol al 70%.
  8. Incubar durante 30 s. etanol de quitar.
  9. Repita el paso de lavado etanol una vez.
  10. Secar los granos.
  11. Eluir con 20 μl de ddH₂O.
Cuantificar las bibliotecas utilizando la plataforma de ddPCR de QX200.
1. Siga el paso 1.4 en método 1.
  Nota: 4 millones de moléculas se normalizaron por ejemplo library,⁴ en el resultado representativo (figura 2) con el fin de obtener una media teórica de 7.042 moléculas únicamente indexadas (4 millones dividido por 568 oligos específicos del gene).
Amplificar y normalizar las bibliotecas para la secuencia.
1. Ampliar el número de moléculas usando lo siguiente mastermix para la PCR final un total de 50 μl: 25 μl del Mastermix Q5, 2 μl de cebador P5 (1 μm), 2 μl de cebador P7 (1 μm) y 21 μl de moléculas de ADN.
2. Ejecutar programa PCR en un termociclador con el siguiente parámetro: 30 s a 98 ° C; 16 ciclos de 10 s a 98 ° C, 30 s a 66 ° C, 30 s a 72 ° C; 2 min a 72 ° C; y mantenga a 4 º C.
3. Limpiar librerías de secuenciación utilizando granos magnéticos (Tabla de materiales, pos. 2): Añadir a la reacción de PCR a granos magnéticos en una reacción de PCR 1 modificada: 0.75 relación grano magnético:
  1. Pipetee 37.5 μl de solución grano magnético en los productos PCR μl 50 de paso 2.4.2.
  2. Transferir la mezcla a un tubo de unión baja de 1.5 mL.
  3. Mezclar bien mediante pipeteo arriba y abajo por lo menos 10 veces.
  4. Dejar la mezcla a temperatura ambiente durante 5 minutos.
  5. Coloque el tubo sobre un soporte magnético. Incúbelos durante 2 minutos a temperatura ambiente o hasta que el sobrenadante es claro.
  6. Eliminar el sobrenadante.
  7. Lavar los granos con 200 μL de etanol al 70%.
  8. Incubar durante 30 s. etanol de quitar.
  9. Repita el paso de lavado etanol una vez.
  10. Secar los granos.
  11. Eluir con 20 μl de ddH₂O.
4. Ejecutar una alícuota de ADN eluída (aproximadamente 3 μL) en un gel de agarosa al 2% para confirmar el tamaño de los amplicones.
5. Cuantificar la concentración de ADN (Tabla de materiales, tema 3) para determinar la concentración de las distintas bibliotecas ECS.
6. Las bibliotecas en cantidades equimolares de la piscina. Consulte el paso 1 del método 1.5.6. y también la discusión para más detalles sobre la puesta en común.
7. Presentar la biblioteca combinada de la ECS en aproximadamente 4 nM.
8. Proporcionar los siguientes parámetros de la secuencia a plataformas de secuenciación Illumina (MiSeq, HiSeq o NextSeq): Lee 2 x 144 emparejado-final, 16 ciclos índice 2 y 8 ciclos Índice 1.
Análisis y procesamiento de Bioinformática ECS
1. Obtener la muestra demultiplexan lee desde el secuenciador o realizar Demultiplexado de Lee secuencia cruda en diferentes muestras con i7 adaptador secuencias bioinformatically de una secuencia de comandos personalizada.
2. Recorte de los primeros 30 nucleótidos de cada lectura demultiplexed quitar oligo secuencias desde el panel de genes.
3. Alinear dice que comparten el mismo UMIs a uno otro para formar familias leerlas.
  Nota: Los investigadores pueden utilizar el software de UMI-aware como MAGERI¹³ para extraer las familias leerlas. No hay distancia hamming fue permitido dentro de la secuencia de la UMI en este experimento para aumentar la especificidad del método.
4. Llevar a cabo la desduplicación y corrección de errores mediante los siguientes parámetros se recomienda.
  1. Uso ≥5 leer leer de pares de la misma familia. Se recomienda un mínimo de tres pares de leer.
  2. Comparar nucleótido en cada posición a través de todas las lecturas de la misma familia lectura y generar un nucleótido de consenso si hay al menos 90% concordancia entre las lecturas para el nucleótido particular. Llame a un N si hay menos de 90% de concordancia para la posición del nucleótido.
  3. Deseche Lee de consenso que tienen > 10% del número total de nucleótidos consenso siendo llamado como N.
5. Alinee todas las lecturas de consenso retenida localmente a genoma humano de referencia hg19 o hg38 usando aligner(s) preferido de los investigadores como Bowtie2 y BWA.
6. Proceso alineado Lee con Mpileup utilizando los parámetros – BQ0 – d 10,000,000,000,000 para quitar los umbrales de cobertura para asegurar la salida de un cacharro adecuado independientemente de la VAF.
7. Filtro de posiciones con menos de 1000 consenso x leer la cobertura.
  Nota: El investigador determina la cobertura mínima para cada posición del nucleótido arbitrariamente, se recomienda tener al menos 500 consenso x leer cobertura para análisis posteriores.
8. Usar distribución binomial para llamar a variantes de un solo nucleótido (SNPs) en datos retenidos de paso 2.5.7 con los siguientes parámetros. La estadística binomial se basará en un modelo de error de posición específica genómica. Cada posición genómica es modelado independientemente la suma de las tasas de error de todas las muestras de esa posición en particular. Siguiendo el ejemplo:
  Probabilidad del perfil de nucleótidos en una determinada posición genómica, p
  RF2 variante de ∑ ∑ Total RFs
  = 26/255505
  = 0.000101759
  Probabilidad binomial de variante 24 RFs de 35911 RFs total, P(X ≥ x) en la muestra K
  = 1 - binomial(24, 35911, 0.000101759)
  = 2.26485E-13
  Nota: Para cada posición genómica consultado, habría tres posibles cambios mutacionales (es decir,A > T, A > C, A > G), y cada una de ellas estaría representada como artefacto de fondo. Se mantienen eventos somáticos que son significativamente diferentes del fondo después de la corrección de Bonferroni. En el ejemplo mostrado en la tabla 1, el número de pruebas realizadas fue de 11, por lo tanto un Bonferroni corregido p-≤0.00454545 de valor (0.05/11) era necesario llamar a un evento como estadísticamente significativo.
9. Eventos somáticos están obligados a estar presentes en dos repeticiones de la misma muestra; de lo contrario, los consideran como falsos positivos.

Table 1
Tabla 1: Ejemplo que muestra la forma de construir un modelo de error binomial posición específica.

3. corrección de error de la secuencia de ARN

Además de evaluar para las mutaciones a nivel de ADN, integrar ECS con varios paneles de secuencia RNA específicos para detectar transcripción abundancia rara o baja en el nivel de ARN. Mediante la combinación de ECS con los paneles estándares de secuencia ARN de Qiagen, demostramos cuantificación digital de la expresión génica de las transcripciones con tan sólo diez copias sin necesidad de normalización contra un gen de la limpieza. UMIs requeridos para corrección de errores se han integrado en el panel.
1. Realizar extracción de RNA total (Tabla de materiales, artículo 20).
2. Llevar a cabo preparación de biblioteca ECS-RNA según protocolo del fabricante (Tabla de materiales, artículo 19).
3. Realizar pipeline bioinformática según paso 2.5.1–2.5.6. Método 2 descrito en la sección anterior. Después paso 2.5.6, el número de lecturas de consenso alineado por gene representa el nivel de expresión del gen sin la necesidad de normalización de la longitud de gene.

Representative Results

Con Targeted Error-Corrected de secuenciación de ADN, hemos realizado una prueba del experimento principio diluir a paciente mutante ADN en ADN genómico comercial. El paciente tenía una mutación de GATA1 (chrX:48650264, C > G) con VAF original de 0,19. Se demuestra en la figura 1 que el ECS es cuantitativo a un nivel de 1: 10,000 para la variante de un solo nucleótido.

Figura 1: serie de diluciones de GATA1 SNV demostrando que el ECS es cuantitativa el nivel de 1: 10,000. Haga clic aquí para ver una versión más grande de esta figura.

También mostramos que el ECS-ADN detecta confiablemente raras mutaciones clonales en genes de forma recurrente en adultos leucemia mieloide aguda (AML) en individuos ancianos sanos⁴. Se obtuvieron muestras de la capa anteada de 20 individuos sanos en salud estudio de la enfermera bancarizados aproximadamente ~ 10 años de diferencia. Se aplicó el protocolo de grupo ECS-DNA en estas muestras. Para este experimento, adaptado el Illumina TruSight mieloide secuenciación Panel que consta de 568 amplicones (más información en lista de gene https://www.illumina.com/products/by-type/clinical-research-products/trusight-myeloid.html) y secuenciado 80 bibliotecas de 20 individuos (2 colecciones en diferentes puntos temporales, 2 repeticiones por individuo por tiempo punto) utilizando la plataforma Illumina NextSeq, que generó un promedio de 47,7 millones de extremo apareado de Lee y un promedio de 3,4 millones corregido error secuencias de consenso por biblioteca⁴. La cobertura promedio de nucleótidos por biblioteca era aproximadamente 6.000 x (3.4 millones divididos por 568). Para cada muestra, se construyó un perfil de error de posición específica utilizando bibliotecas de secuenciadas que no son de la misma muestra. Se encontraron 109 mutaciones somáticas clonales que estaban presentes en ambos réplicas de momento al menos una colección. Estas mutaciones tienen desde 0.0003 – 0.1451 VAF. Se seleccionaron 21 mutaciones con representaciones cósmicas conocidas y validadas todas 21 mutaciones en uno o dos puntos de tiempo colección usando ddPCR (n = 34, figura 2, adaptado de joven et al 2016⁴).

Figura 2: mutaciones identificadas por ECS fueron verificadas a través de ddPCR con VAFs altamente concordantes. (n = 34, modificado de joven et al 2016⁴). Haga clic aquí para ver una versión más grande de esta figura.

Con respecto al nivel de expresión corregida de error utilizando el protocolo de ECS-RNA, hemos modificado para requisitos particulares un panel de genes utilizando química QIAseq que consta de 416 genes sabidos para ser asociado con varios tipos de cáncer (adaptados del transcriptoma de cáncer humano QIAseq panel) y amplificación del exón más comúnmente expresado de un gen determinado (lista de gen 1 Material complementario). Ordenamos las bibliotecas usando plataforma Illumina MiSeq en formato final emparejado que dio un promedio de 8,3 millones de lecturas por biblioteca, y logramos captar un promedio de secuencias consenso corregido error 0,417 millones. Demostramos que la expresión a nivel de transcripción de baja abundancia (< transcripción 1.000 cuenta en 50 ng de ARN total) es altamente reproducible entre repeticiones (punto de datos n = 300, figura 3). Validación de ddPCR (seis genes seleccionados de diversos grados de expresión) demostró que el nivel de expresión de los genes había sido capturado correctamente por el protocolo ECS sin la necesidad de normalización.

Figura 3: alto, correlación de transcripción cuenta por ECS-ARN entre repeticiones de la misma muestra (n = 300). Fondo, transcripción de cuenta identificado por ECS fueron verificado por ddPCR (n = 6). Haga clic aquí para ver una versión más grande de esta figura.

Discussion

Aquí, demostramos una suite de protocolos de corrección de error de la secuencia que pueden ser fácilmente implementadas para estudiar las mutaciones con baja VAFs en diferentes enfermedades. El factor más importante es la incorporación de UMIs con cada molécula antes de la secuencia ya que permiten la corrección de errores de lecturas raws. Los métodos aquí descritos permiten a los investigadores incorporar UMIs personalizados paneles de genes disponibles en el mercado y diseñado oligos específicos del gene.

Protocolo estándar de NGS impide la detección de mutaciones con VAF por debajo del 2% debido a la tasa de error de la secuencia, y esto limita la aplicación de NGS en estudios donde es crucial la detección de variantes raras. Por eludir la tasa de error estándar de NGS, ECS permite la detección sensible de estas variantes crudas. Por ejemplo, la detección de las mutaciones patógenas cuando estas mutaciones surgen en primer lugar (por lo tanto con baja VAF) es imprescindible para informar a la intervención temprana de la enfermedad¹⁴^,¹⁵. En la investigación de la leucemia, la detección de residual mínima enfermedad (células leucémicas residuales después del tratamiento) informa a estratificación de riesgo y podría ser utilizada para informar las opciones de tratamiento de manera que las evaluaciones de citometría de flujo binario no se pueden. Además, la ECS es aplicable para detectar circulación de ácido nucleico tumor y para evaluar el potencial metastático en pacientes con tumores sólidos mediante la evaluación de la presencia/ausencia, así como la carga variable de ciertas mutaciones que son características de la primaria tumor de¹⁶.

Como se muestra en la tabla 1, el poder de usar modelo de error de posición específica basada en la distribución binomial para llamar variantes depende en gran medida el número de secuenciadas bibliotecas así como la profundidad de la secuencia utilizada para construir el modelo de error. La robustez del modelo de error aumenta con la mayor cantidad de muestras y más profundidad de la secuencia. Se recomienda utilizar al menos 10 muestras secuenciadas con un promedio de cobertura Lea-corregido error de x 3000 por ejemplo para construir un perfil de error para cada muestra. El enfoque de la posición específica es similar a MAGERI, pero en lugar de utilizar una tasa de error global para todo tipo de sustitución diferente seis (A > C/T > G, A > G/T > C, A > T/T > A, C > A/G > T, C > G/G > C C > T/G > A)¹³, modelo de cada sustitución independientemente en cada posición. Por ejemplo, una tasa de error de C > T en una determinada posición genómica es diferente a otra posición. Nuestro enfoque también toma en cuenta un efecto de la secuencia por lotes, como la tasa de substitución baja observada en una secuencia de la carrera podría ser diferente de otra carrera. Por lo tanto, es importante modelar cada posición para todo tipo de sustitución especialmente cuando las muestras de pistas de secuencia diferentes se combinaron para construir el modelo.

Una consideración importante al diseñar un experimento ECS es el umbral de detección deseada. La belleza de los estudios NGS es que pueden escalar fácilmente en términos de genes/objetivos de interés, umbral de detección (dictado por la profundidad de la secuencia) y número de personas consultadas. Por ejemplo, si los investigadores están interesados en encontrar mutaciones raras en dos amplicones con un umbral de detección de 0.0001, piscina máximo 75 muestras en una sola secuencia ejecutar utilizando química MiSeq V2 que lee hasta 15 millones (2 amplicons * 10.000 moléculas * 10 Lee para corrección de errores * 75 muestras = 15 millones de la secuencia de lecturas). Los investigadores pueden variar el número de moléculas en la secuencia o el número de muestras agrupadas en una sola secuencia para ajustar el umbral de detección. En nuestros estudios, decidimos encontrar mutaciones con un umbral de detección de VAF 0.0001 (1:10, 000) utilizando el panel de genes Illumina. Rutinariamente utilizamos 250 ng de a partir de ADN para asegurar que suficientes moléculas son capturadas para alcanzar el umbral de detección ya mencionado. Los investigadores pueden optar por iniciar con la menor cantidad de ADN (50 ng recomienda) si el límite de detección deseado es > 0.001 VAF.

Como se añaden las UMIs en los índices de i5, ajustes de la secuencia deben modificarse en consecuencia. Por ejemplo, utilizamos UMIs N 16, y la configuración de la secuencia final pares 2 x 144 lecturas, 8 ciclos de índice 1 y 16 ciclos de índice 2 a diferencia de los habituales 8 ciclos de índice 2. El aumento en el índice 2 ciclo es compensado por una disminución en el número total de ciclos a la Lee. Si los investigadores optan por utilizar 12N UMIs¹⁰^,¹⁷, debe cambiarse la configuración a 12 ciclos de índice 2.

Este método de secuenciación basada en UMI está optimizado para corregir errores de secuenciación. Sigue siendo subóptima en el trato con jackpotting PCR, que es un tema para todo método basado en amplificación. Se realizaron rondas de la secuencia y validación post-bioinformática usando ddPCR, y apenas detectamos cualquier falsos positivos debido a jackpotting PCR. No obstante, se recomienda que los investigadores llevar a cabo los experimentos con polimerasa de alta fidelidad para garantizar errores de amplificación baja.

Disclosures

Los autores no tienen nada que revelar.

Acknowledgments

Agradecemos a los participantes en el estudio de los niños Oncología grupo AAML1531 y de salud estudio las enfermeras por sus contribuciones en la forma de las muestras del paciente. Este trabajo fue financiado por los institutos nacionales de salud (CA186107 UM1, CA49449 to1 y CA149445 to1), Discovery Institute de Washington University infantil de St. Louis los niños Hospital (MC-II-2015-461) y Eli Seth Matthews leucemia Fundación.

Materials

Name	Company	Catalog Number	Comments
Q5 High Fidelity Hot Start Master Mix	New England BioLabs	M0492S
Agencourt AMPure XP	Beckman Coulter	A63880
Qubit dsDNA HS Assay Kit	Thermo Fisher Scientific	Q32854
SYBR Safe DNA Gel Stain	Thermo Fisher Scientific	S33102
Truseq Custom Amplicon Index Kit	Illumina	FC-130-1003
UMI i5 adapter sequences	Integrated DNA Technologies	-
NEBNext Ultra End Repair/dA-Tailing Module	New England BioLabs	E7442S
NEBNext Ultra II Ligation Module	New England BioLabs	E7595S
QX200 ddPCR EvaGreen Supermix	Bio-Rad	1864034
QX200 Droplet Generation Oil for EvaGreen	Bio-Rad	1864005
QX200 Droplet Digital PCR System	Bio-Rad	1864001
ddPCR 96-Well Plates	Bio-Rad	12001925
DG8 Cartridges for QX200/QX100 Droplet Generator	Bio-Rad	1864008
DG8 Gaskets for QX200/QX100 Droplet Generator	Bio-Rad	1863009
Bioanalyzer	Agilent Genomics	G2939BA
TapeStation	Agilent Genomics	G2991AA
TruSight Myeloid Sequencing Panel	Illumina	FC-130-1010
Bowtie 2	Johns Hopkins University	-
Customized QIAseq Targeted RNA Panel	Qiagen	-
Rneasy Plus Mini Kit (50)	Qiagen	74134