Secuenciación de próxima generación dirigido es un método tiempo y costo-eficiente que se está haciendo cada vez más popular en la investigación de la enfermedad y diagnóstico clínico. El protocolo descrito aquí presenta el complejo flujo de trabajo necesarios para la secuencia y el proceso de bioinformática para identificar variantes genéticas que contribuyen a la enfermedad.
Secuenciación de próxima generación (NGS) está revolucionando rápidamente cómo se realiza la investigación sobre los determinantes genéticos de la enfermedad constitucional. La técnica es muy eficiente con millones de lecturas de secuenciación se producen en un corto plazo y a un costo relativamente bajo. Específicamente, NGS específicas es capaz de investigaciones de enfoque a regiones genómicas de interés particular basado en la enfermedad de estudio. No sólo hace esto más reducir costos y aumentar la velocidad del proceso, pero disminuye la carga computacional que a menudo acompaña NGS. Aunque NGS dirigida está restringido a ciertas regiones del genoma, prevención de identificación de potenciales nuevos loci de interés, puede ser una técnica excelente cuando se enfrentan con una enfermedad genética y fenotípicamente heterogénea, que hay asociaciones genéticas previamente conocidas. Debido a la complejidad de la técnica de secuenciación, es importante adherirse estrechamente a protocolos y metodologías para lograr lecturas de secuenciación de alta cobertura y calidad. Además, una vez que se lee de la secuencia, se utiliza un flujo de trabajo sofisticada bioinformática para asignar con precisión Lee a un genoma de referencia, a llamar variantes y para que pasan de las variantes métricas de calidad. Variantes también deben ser anotadas y comisariadas basado en su significación clínica, que puede ser estandarizado mediante la aplicación de Colegio Americano de genética médica y de la genómica patogenicidad. Los métodos presentados en este documento muestra los pasos involucrados en la generación y análisis de datos NGS de un panel de secuenciación específica, utilizando el panel de enfermedades neurodegenerativas ONDRISeq como modelo, para identificar las variantes que pueden tener significación clínica.
Como definir los determinantes genéticos de varias condiciones toma una mayor prioridad en la investigación y en la clínica, secuenciación de próxima generación (NGS) está demostrando para ser una herramienta de alto rendimiento y rentable para lograr estas metas1,2 ,3. Durante casi 40 años, Sanger secuenciación ha sido el estándar de oro para la identificación de variantes genéticas4; sin embargo, para enfermedades con heterogeneidad genética o desconocida etiología genética, muchos genes de posible candidato deberán ser evaluados, a menudo simultáneamente. En este contexto, Sanger secuenciación se hace costoso y desperdiciador de tiempo. Sin embargo, NGS implica secuenciación masiva en paralelo de millones de fragmentos de ADN, lo que permite una técnica eficiente costo y tiempo detectar simultáneamente una amplia gama de la variación genética a través de varias regiones del genoma.
Hay tres tipos de NGS para secuenciación de ADN: secuencia 1) todo el genoma (WGS), 2) exoma de toda la secuencia (WES) y 3) objetivo de la secuencia5. WGS evalúa todo el contenido genómico de un individuo, mientras que WES implica secuenciación sólo las regiones codificadoras de proteínas del genoma6. Secuencia específica, en cambio, se centra en regiones específicas del genoma basado en relativamente pocos genes específicos ligados por mecanismos patológicos comunes o conocidos fenotipo clínico. Los exones o intrones o regiones intergénicas de un gen o un grupo específico de genes se pueden especificar utilizando este enfoque. Por lo tanto, la secuencia específica puede ser un excelente enfoque cuando ya hay una base de genes candidatos conocidos por estar asociados con la enfermedad de interés. Dirigidos a regiones específicas del genoma permite la eliminación de la variación genética superflua e irrelevante en la nube o distraer de interpretación clínica. Mientras grupos y WES producen una gran cantidad de datos de alta calidad, la cantidad de datos puede ser abrumadora. No sólo este gran cantidad de datos requiere análisis bioinformáticos de cómputo intensivo y almacenamiento de datos con frecuencia puede presentar problemas7. Este desafío de almacenamiento de datos también agrega costos adicionales a WGS y WES, que a menudo no se considera inicialmente al calcular el costo de la secuencia. Además, aunque está disminuyendo, el costo de WGS y WES siguen siendo relativamente altos. Específicas de la secuencia puede ser una opción más costo-eficiente, particularmente cuando se requiere la secuenciación de un gran número de individuos.
El Ontario Neurodegenerative enfermedad investigación iniciativa (ONDRI) es un estudio de cohorte de múltiples plataformas, toda la provincial, observacional caracterización de cinco enfermedades de neurodegenerative, incluyendo: 1) la enfermedad de Alzheimer y deterioro cognitivo leve, 2). esclerosis amiotrófica lateral, 3) la demencia frontotemporal, 4) la enfermedad de Parkinson y 5) de deterioro cognitivo vascular8. El subgrupo de genómica ONDRI pretende dilucidar como parte de la caracterización inicial de esta cohorte el paisaje genético a menudo descuento, pero extremadamente importante de estas enfermedades genéticamente y fenotípicamente heterogéneas. Las enfermedades neurodegenerativas son candidatos apropiados para las metodologías de NGS y secuenciación específica en particular.
Nosotros hemos diseñado un panel dirigido de NGS, ONDRISeq, a la secuencia de 528 participantes en ONDRI para las regiones de la proteína-codificación de 80 genes que han sido previamente asociadas con las cinco enfermedades de interés. Con esta metodología, que son capaces de aprovechar los datos NGS de alta calidad de manera focalizada y eficiente. Diseño y validación del panel de ONDRISeq con múltiples estudios de concordancia se ha descrito previamente, para que el grupo de ONDRISeq pudo identificar novela, variantes raras de posible significación clínica en 72,2% de los 216 casos utilizados para la validación del panel 9. NGS aunque la tecnología ha avanzado rápidamente y notablemente en los últimos años, muchos investigadores un desafío cuando se procesan los datos en bruto en una lista de variantes utilizable, anotado10. Además, la interpretación de las variantes puede ser compleja, especialmente cuando se enfrentan con muchos de los que son raros o novela11.
Aquí, describimos de una manera paso a paso, la metodología de NGS dirigida y el flujo de trabajo asociado bioinformática para resecuenciación, variante llamada y de la variante anotación mediante la ONDRISeq de estudio como un ejemplo. Después de la generación de datos NGS, archivos de secuencia de la materia prima deben estar alineados al genoma humano de referencia para llamar con precisión las variantes. Variantes deben anotarse a continuación para realizar la posterior curación variante. También explicaremos nuestra implementación del Colegio Americano de genética médica estándares y pautas para clasificar con precisión variable patogenicidad.
En la ruta de extracción de muestra de ADN para la identificación de variantes que pueden ser de interés cuando se considera un paciente diagnóstico, progresión de la enfermedad y posibles opciones de tratamiento, es importante reconocer la naturaleza heterogénea de la metodología necesaria para la secuencia y procesamiento de datos adecuado. El protocolo descrito aquí es un ejemplo de la utilización de NGS dirigida y bioinformáticos posteriores análisis esencial para identificar variantes raras de importancia clínica potencial. Específicamente, se presenta el enfoque adoptado por el subgrupo de genómica ONDRI cuando utilice el panel NGS ONDRISeq personalizados.
Se reconoce que estos métodos fueron desarrollados en base a una plataforma específica de NGS y que hay otras plataformas de secuenciación y kits de enriquecimiento objetivo que pueden ser utilizados. Sin embargo, el instrumento de escritorio y plataforma NGS (Tabla de materiales) fue elegido en base a sus principios nos alimento y droga Administration (FDA) aprobación46. Esta autorización refleja la secuencia de alta calidad que se puede realizar con los protocolos NGS de elección y la confiabilidad que se puede colocar en el Lee de la secuencia.
Aunque obtener lecturas de secuenciación exacta con la profundidad de la cobertura es muy importante, el procesamiento de bioinformática para la variante rara definitiva es vital y puede ser de cómputo intensivo. Debido a las muchas fuentes de errores que pueden ocurrir en el proceso de secuenciación, un pipeline robusto bioinformática debe corregir para las varias imprecisiones que pueden introducirse. Ellos pueden surgir de desajustes en el proceso de asignación, el sesgo de amplificación introducido por amplificación de la polimerización en cadena en la preparación de la biblioteca y la tecnología de producción de artefactos de secuenciación47. Sin importar el software utilizado para realizar la asignación de lectura y variante llamada, hay formas comunes para reducir estos errores incluyendo reajuste local, eliminación de duplicados lecturas asignadas y establecer parámetros adecuados para el control de calidad cuando se llama a variantes. Además, los parámetros elegidos durante la llamada variante pueden variar en base a lo que es más apropiado para el estudio en mano11. La cobertura mínima y la puntuación de calidad de una variante y los nucleótidos circundantes que se aplicaron en este documento fueron elegidos como para crear un equilibrio entre sensibilidad y especificidad adecuada. Estos parámetros han sido validados para el panel de ONDRISeq basado en la variante llamada concordancia con tres diferentes técnicas genéticas, como se describió anteriormente, incluyendo: 1) genotipificación basada en el chip; 2) ensayo de discriminación alélica; y 3) de secuenciación de Sanger9.
Después de llamar variante exacta, para determinar aquellos de significación clínica potencial, anotación y la curaduría son esenciales. Debido a su plataforma de acceso abierto, ANNOVAR es una excelente herramienta para anotación y proyección variante preliminar o eliminación. Más allá de ser fácilmente accesible, ANNOVAR se puede aplicar a cualquier archivo VCF, no importa qué plataforma de secuenciación se utiliza, y es personalizable basado en las necesidades de la investigación26.
Después de la anotación, variantes deben interpretarse para determinar si debe ser considerados de importancia clínica. No sólo este proceso se hace complejo, pero a menudo es propensa a la subjetividad y el error humano. Por esta razón, la ACMG ha establecido directrices para evaluar las pruebas de patogenicidad de cualquier variante. Aplicamos un enfoque no sinónimo, rara variante base manual conservación, que se construye en base a estos lineamientos y protegida mediante la evaluación individual de cada variante que pueda pasar a través de la tubería con un diseño personalizado de Python script que clasifica las variantes basadas en las directrices. De esta manera, cada variante se le asigna un rango de patógenos, probable significación patógena, incierto, probablemente benigna, o benigno, y que son capaces de añadir transparencia y estandarización en el proceso de curación variante. Es importante reconocer que las características específicas de curación variante, más allá del pipeline bioinformática, serán individualizadas basado en las necesidades de la investigación y por lo tanto, más allá del alcance de las metodologías presentadas.
Aunque los métodos presentados aquí son específicos a ONDRI, los pasos descritos pueden traducirse al considerar un gran número de enfermedades constitucionales de interés. Como aumenta el número de asociaciones de gene para muchos fenotipos, NGS específicas permite una hipótesis por el enfoque que puede capitalizar la investigación anterior que se ha hecho en el campo. Sin embargo, existen limitaciones para NGS específicos y la metodología presentada. Centrándose solamente en regiones específicas del genoma, las áreas de descubrimiento se limitan a nuevos alelos de interés. Por lo tanto, nuevos genes u otros lugares geométricos genomic más allá de los cubrieron por los objetivos de la secuencia, que podrían ser revelados con WGS o WES enfoques, no se identificará. También hay regiones dentro del genoma que puede ser difícil de precisa secuencia con enfoques NGS, incluyendo aquellos con un alto grado de secuencias repetidas48 o aquellos que son ricos en contenido de GC49. Afortunadamente, al utilizar NGS dirigidas, allí es a priori un alto grado de familiaridad con las regiones genómicas que están ordenados, y si éstos podrían representar desafíos técnicos. Finalmente, la detección de variantes de número de copia de datos NGS en la actualidad no es estandarizado50. Sin embargo, pueden ser soluciones bioinformáticas a estas preocupaciones en el horizonte; nuevas herramientas computacionales pueden ayudar a analizar estas formas adicionales de la variación en los pacientes ONDRI.
A pesar de sus limitaciones, es capaz de obtener datos de alta calidad, dentro de un enfoque basado en hipótesis, sin dejar de ser menos costoso que sus contrapartes WGS y WES NGS dirigida. No sólo es esta metodología apropiada de investigación eficiente y dirigida, la aplicación clínica de NGS dirigida está creciendo exponencialmente. Esta tecnología se utiliza para responder a muchas preguntas diferentes sobre las vías moleculares de diferentes enfermedades. También está siendo desarrollado en una herramienta de diagnóstico exacta a un costo relativamente bajo cuando se opuso a WES y WGS. Incluso en comparación con el estándar de oro Sanger secuenciación, dirigidos NGS puede desbancar en su tiempo y costo-eficacia. Por estas razones, es importante para un científico o clínico que recibe y utiliza datos NGS, por ejemplo, como texto en un laboratorio o clínico, para comprender el complejo “caja negra” que es la base de los resultados. Los métodos presentados en este documento deben ayudar a los usuarios a entender el proceso subyacente a la generación e interpretación de datos NGS.
The authors have nothing to disclose.
Nos gustaría agradecer a todos los participantes ONDRI para su consentimiento y la cooperación con nuestro estudio. Gracias a los investigadores ONDRI (www. ONDRI.ca/people), incluyendo nuestro investigador principal (MJS) y el ONDRI Consejo comités: el Comité Ejecutivo, Comité Directivo, Comité de publicación, Comité de reclutamiento, plataformas de evaluación y gerencia de proyecto. Agradecemos también el Centro Regional de genómica de London para sus conocimientos técnicos. DAA es apoyado por la sociedad de Alzheimer de Londres y Middlesex maestros graduados beca de investigación. SMKF es apoyado por el ALS Canadá Tim E. Noël Postdoctoral Fellowship.
4 ml EDTA K2 tubes | Fisher Scientific | 02-689-4 | |
1 M Tris Buffer | Bio Basic Canada Inc. | SD8141 | |
Gentra Puregene Blood Kit | Qiagen | 158389 | 1000 mL Kit. This is the blood extraction kit, referred to in step 1.3. |
NanoDrop-1000 Spectrophotometer | Thermo Fisher Scientific | ND-2000 | Replaced by the NanoDrop-2000 Spectrophotometer. This is the full-spectrum spectrophotometer, referred to in steps 1.4 and 2.1.2. |
Qubit 2.0 fluorometer | Invitrogen | Q32866 | This is a fluorometer appropriate for the quantification of DNA, referred to in steps 2.1.4, 2.1.6, 2.2.3, and 3.1.3. |
Nextera Rapid Custom Capture Enrichment Kit | Illumina, Inc. | FC-140-1009 | Specifically designed for the ONDRISeq panel, sequencing the exons of 80 genes, resulting in 971,388 base pairs of sequence in paired-end reads of 150 bases in length; 288 samples per kit. This is the target enrichment kit, referred to in steps 2.2, 2.2.2, 2.2.3, 3.1.5, 3.1.6, 3.4.1, and the Discussion. |
2100 BioAnalyzer | Agilent Technologies | G2939BA | This is a automated electrophoresis system, referred to in step 3.1.4. |
High Sensitivity DNA Reagent Kit | Agilent Technologies | 5067-4626 | 110 Samples per kit; This is a DNA quality analysis kit, referred to in step 3.1.4. |
MiSeq Reagent Kit v3 | Illumina, Inc. | MS-102-3003 | 600 Cycle Kit; This is the NGS desktop instrument reagent kit, referred to in step 3.1. |
MiSeq Personal Genome Sequencer | Illumina, Inc. | SY-410-1003 | This is a NGS desktop instrument, referred to in steps 2.2.1, 3.1, 3.1.1, 3.1.2, 3.1.8, 3.2, 4.2.6, the Representative Results, and the Discussion. |
Experiment Manager | Illumina, Inc. | This is NGS technology software, referred to in step 3.1.1 and Figure 1. https://support.illumina.com/sequencing/sequencing_software/experiment_manager/downloads.html | |
BaseSpace | Illumina, Inc. | SW-410-1000 | This is a cloud-based computing environment, referred to in steps 3.1.2, 3.2, 3.3, 3.3.1, 3.3.2, 3.4, 3.4.1, 3.4.2 and 3.4.3. https://basespace.illumina.com/ |
CLC Genomics Workbench 10.1.1 | Qiagen | 832000 | Open source options for data pre-processing are also available that can model the workflow used in this protocol. This is the software used for data pre-processing, referred to throughout step 4 and in Figure 2. |
Annotate Variation | http://annovar.openbioinformatics.org/en/latest/user-guide/download/ | ||
RefSeq | National Center for Biotechnology Information | https://www.ncbi.nlm.nih.gov/refseq/ | |
dbSNP138 | National Center for Biotechnology Information | https://www.ncbi.nlm.nih.gov/projects/SNP/snp_summary.cgi?view+summary=view+summary&build_id=138 | |
Exome Aggregation Consortium | Broad Institute | http://exac.broadinstitute.org/ | |
National Heart, Lung, and Blood Institute Exome Sequencing Project European Cohort | University of Washington and the Broad Institute | http://evs.gs.washington.edu/EVS/ | |
ClinVar | National Center for Biotechnology Information | https://www.ncbi.nlm.nih.gov/clinvar/ | |
Combined Annotation Dependent Depletion | University of Washington and Hudson-Alpha Institute for Biotechnology | http://cadd.gs.washington.edu/ | |
Sorting Intolerant from Tolerant | J. Craig Venter Instutite | http://sift.jcvi.org/ | |
PolyPhen-2 | Brigham and Women's Hospital, Harvard Medical School | http://genetics.bwh.harvard.edu/pph2/ | |
Human Gene Mutation Database | Qiagen | 834050 | This is a disease mutation database, referred to in step 5.2 and the Representative Results. https://portal.biobase-international.com/cgi-bin/portal/login.cgi?redirect_url=/hgmd/pro/start.php |
Splicing-based Analysis of Variants | Frey lab, University of Toronto | http://tools.genes.toronto.edu/ | |
Human Splicing Finder | Aix Marseille Université | http://www.umd.be/HSF3/HSF.shtml | |
Other materials | |||
Centrifuge | |||
Disposable transfer pipets |