Targeted Next-generation Sequencing and Bioinformatics Pipeline to Evaluate Genetic Determinants of Constitutional Disease

Allison A. Dilliott; Sali M.K. Farhan; Mahdi Ghani; Christine Sato; Eric Liang; Ming Zhang; Adam D. McIntyre; Henian Cao; Lemuel Racacho; John F. Robinson; Michael J. Strong; Mario Masellis; Dennis E. Bulman; Ekaterina Rogaeva; Anthony Lang; Carmela Tartaglia; Elizabeth Finger; Lorne Zinman; John Turnbull; Morris Freedman; Rick Swartz; Sandra E. Black; Robert A. Hegele

doi:10.3791/57266

JoVE Journal > Genetics

Please note that all translations are automatically generated. Click here for the English version.

Genetics

Dirigida tubería de Bioinformática y secuenciación de próxima generación para evaluar determinantes genéticos de la enfermedad constitucional

Published: April 04, 2018

doi:

10.3791/57266

Allison A. Dilliott², Sali M.K. Farhan, Mahdi Ghani, Christine Sato, Eric Liang, Ming Zhang, Adam D. McIntyre, Henian Cao, Lemuel Racacho⁷, John F. Robinson, Michael J. Strong⁸, Mario Masellis¹⁰, Dennis E. Bulman⁷, Ekaterina Rogaeva, Anthony Lang¹¹, Carmela Tartaglia¹⁰, Elizabeth Finger¹³, Lorne Zinman, John Turnbull, Morris Freedman¹⁵, Rick Swartz, Sandra E. Black¹⁶, Robert A. Hegele²

¹Robarts Research Institute, Schulich School of Medicine and Dentistry,Western University, ²Department of Biochemistry, Schulich School of Medicine and Dentistry,Western University, ³Analytic and Translational Genetics Unit, Center for Genomic Medicine,Harvard Medical School, Massachusetts General Hospital, Stanley Centre for Psychiatric Research, Broad Institute of MIT and Harvard, ⁴Tanz Centre for Research in Neurodegenerative Diseases,University of Toronto, ⁵School of Medicine, Faculty of Health Sciences,Queen’s University, ⁶Faculty of Medicine, Department of Biochemistry, Microbiology and Immunology,University of Ottawa, ⁷CHEO Research Institute, Faculty of Medicine,University of Ottawa, ⁸Department of Clinical Neurological Sciences,Western University, ⁹Division of Neurology, Department of Medicine, Sunnybrook Health Sciences Centre,University of Toronto, ¹⁰Division of Neurology, Department of Medicine,University of Toronto, ¹¹Morton and Gloria Shulman Movement Disorders Centre,Toronto Western Hospital, ¹²Department of Clinical Neurological Sciences, Schulich School of Medicine and Dentistry,Western University, ¹³Parkwood Institute,St. Joseph’s Health Care, ¹⁴Department of Medicine, Division of Neurology,McMaster University, ¹⁵Division of Neurology, Department of Medicine,Baycrest Health Sciences, ¹⁶Canadian Partnership for Stroke Recovery Sunnybrook Site, Sunnybrook Health Science Centre,University of Toronto

Summary

Secuenciación de próxima generación dirigido es un método tiempo y costo-eficiente que se está haciendo cada vez más popular en la investigación de la enfermedad y diagnóstico clínico. El protocolo descrito aquí presenta el complejo flujo de trabajo necesarios para la secuencia y el proceso de bioinformática para identificar variantes genéticas que contribuyen a la enfermedad.

Abstract

Secuenciación de próxima generación (NGS) está revolucionando rápidamente cómo se realiza la investigación sobre los determinantes genéticos de la enfermedad constitucional. La técnica es muy eficiente con millones de lecturas de secuenciación se producen en un corto plazo y a un costo relativamente bajo. Específicamente, NGS específicas es capaz de investigaciones de enfoque a regiones genómicas de interés particular basado en la enfermedad de estudio. No sólo hace esto más reducir costos y aumentar la velocidad del proceso, pero disminuye la carga computacional que a menudo acompaña NGS. Aunque NGS dirigida está restringido a ciertas regiones del genoma, prevención de identificación de potenciales nuevos loci de interés, puede ser una técnica excelente cuando se enfrentan con una enfermedad genética y fenotípicamente heterogénea, que hay asociaciones genéticas previamente conocidas. Debido a la complejidad de la técnica de secuenciación, es importante adherirse estrechamente a protocolos y metodologías para lograr lecturas de secuenciación de alta cobertura y calidad. Además, una vez que se lee de la secuencia, se utiliza un flujo de trabajo sofisticada bioinformática para asignar con precisión Lee a un genoma de referencia, a llamar variantes y para que pasan de las variantes métricas de calidad. Variantes también deben ser anotadas y comisariadas basado en su significación clínica, que puede ser estandarizado mediante la aplicación de Colegio Americano de genética médica y de la genómica patogenicidad. Los métodos presentados en este documento muestra los pasos involucrados en la generación y análisis de datos NGS de un panel de secuenciación específica, utilizando el panel de enfermedades neurodegenerativas ONDRISeq como modelo, para identificar las variantes que pueden tener significación clínica.

Introduction

Como definir los determinantes genéticos de varias condiciones toma una mayor prioridad en la investigación y en la clínica, secuenciación de próxima generación (NGS) está demostrando para ser una herramienta de alto rendimiento y rentable para lograr estas metas¹^,² ^,³. Durante casi 40 años, Sanger secuenciación ha sido el estándar de oro para la identificación de variantes genéticas⁴; sin embargo, para enfermedades con heterogeneidad genética o desconocida etiología genética, muchos genes de posible candidato deberán ser evaluados, a menudo simultáneamente. En este contexto, Sanger secuenciación se hace costoso y desperdiciador de tiempo. Sin embargo, NGS implica secuenciación masiva en paralelo de millones de fragmentos de ADN, lo que permite una técnica eficiente costo y tiempo detectar simultáneamente una amplia gama de la variación genética a través de varias regiones del genoma.

Hay tres tipos de NGS para secuenciación de ADN: secuencia 1) todo el genoma (WGS), 2) exoma de toda la secuencia (WES) y 3) objetivo de la secuencia⁵. WGS evalúa todo el contenido genómico de un individuo, mientras que WES implica secuenciación sólo las regiones codificadoras de proteínas del genoma⁶. Secuencia específica, en cambio, se centra en regiones específicas del genoma basado en relativamente pocos genes específicos ligados por mecanismos patológicos comunes o conocidos fenotipo clínico. Los exones o intrones o regiones intergénicas de un gen o un grupo específico de genes se pueden especificar utilizando este enfoque. Por lo tanto, la secuencia específica puede ser un excelente enfoque cuando ya hay una base de genes candidatos conocidos por estar asociados con la enfermedad de interés. Dirigidos a regiones específicas del genoma permite la eliminación de la variación genética superflua e irrelevante en la nube o distraer de interpretación clínica. Mientras grupos y WES producen una gran cantidad de datos de alta calidad, la cantidad de datos puede ser abrumadora. No sólo este gran cantidad de datos requiere análisis bioinformáticos de cómputo intensivo y almacenamiento de datos con frecuencia puede presentar problemas⁷. Este desafío de almacenamiento de datos también agrega costos adicionales a WGS y WES, que a menudo no se considera inicialmente al calcular el costo de la secuencia. Además, aunque está disminuyendo, el costo de WGS y WES siguen siendo relativamente altos. Específicas de la secuencia puede ser una opción más costo-eficiente, particularmente cuando se requiere la secuenciación de un gran número de individuos.

El Ontario Neurodegenerative enfermedad investigación iniciativa (ONDRI) es un estudio de cohorte de múltiples plataformas, toda la provincial, observacional caracterización de cinco enfermedades de neurodegenerative, incluyendo: 1) la enfermedad de Alzheimer y deterioro cognitivo leve, 2). esclerosis amiotrófica lateral, 3) la demencia frontotemporal, 4) la enfermedad de Parkinson y 5) de deterioro cognitivo vascular⁸. El subgrupo de genómica ONDRI pretende dilucidar como parte de la caracterización inicial de esta cohorte el paisaje genético a menudo descuento, pero extremadamente importante de estas enfermedades genéticamente y fenotípicamente heterogéneas. Las enfermedades neurodegenerativas son candidatos apropiados para las metodologías de NGS y secuenciación específica en particular.

Nosotros hemos diseñado un panel dirigido de NGS, ONDRISeq, a la secuencia de 528 participantes en ONDRI para las regiones de la proteína-codificación de 80 genes que han sido previamente asociadas con las cinco enfermedades de interés. Con esta metodología, que son capaces de aprovechar los datos NGS de alta calidad de manera focalizada y eficiente. Diseño y validación del panel de ONDRISeq con múltiples estudios de concordancia se ha descrito previamente, para que el grupo de ONDRISeq pudo identificar novela, variantes raras de posible significación clínica en 72,2% de los 216 casos utilizados para la validación del panel ⁹. NGS aunque la tecnología ha avanzado rápidamente y notablemente en los últimos años, muchos investigadores un desafío cuando se procesan los datos en bruto en una lista de variantes utilizable, anotado¹⁰. Además, la interpretación de las variantes puede ser compleja, especialmente cuando se enfrentan con muchos de los que son raros o novela¹¹.

Aquí, describimos de una manera paso a paso, la metodología de NGS dirigida y el flujo de trabajo asociado bioinformática para resecuenciación, variante llamada y de la variante anotación mediante la ONDRISeq de estudio como un ejemplo. Después de la generación de datos NGS, archivos de secuencia de la materia prima deben estar alineados al genoma humano de referencia para llamar con precisión las variantes. Variantes deben anotarse a continuación para realizar la posterior curación variante. También explicaremos nuestra implementación del Colegio Americano de genética médica estándares y pautas para clasificar con precisión variable patogenicidad.

Protocol

Para los efectos de ONDRI, protocolos de ética y consentimiento informado se obtuvieron basado en los consejos de ética de investigación en centro Baycrest de atención geriátrica (Toronto, Ontario, Canadá); Centro de adicción y Salud Mental (Toronto, Ontario, Canadá); Elizabeth Bruyère Hospital (Ottawa, Ontario, Canadá); Hospital General de Hamilton (Hamilton, Ontario, Canadá); Centro de Ciencias de la salud de Londres (London, Ontario, Canadá); McMaster (Hamilton, Ontario, Canadá); El Hospital de Ottawa (Ottawa, Ontario, Canadá); Parkwood Hospital (London, Ontario, Canadá); Hospital de San Miguel (Toronto, Ontario, Canadá); Sunnybrook Health Sciences Centre (Toronto, Ontario, Canadá); y Universidad salud red-Toronto Western Hospital (Toronto, Ontario, Canadá). 1. ADN aislado de muestras de sangre humana Recoger muestras de los participantes la secuencia conforme a protocolos de ética adecuada y consentimiento informado. Para obtener ADN de alta calidad, extraer muestras de sangre a los efectos de la extracción.Nota: Puede también se extrajo ADN de saliva o de células bucales, asegurando que se utiliza un kit de extracción de ADN adecuado. Si la extracción de sangre, para obtener un alto rendimiento de ADN, recolectar la muestra en tres tubos de 4 mL de EDTA K2, proporcionando una muestra de volumen total ~ 12 ml. Centrifugar las muestras de sangre por 20 min a x 750 g a la fracción en una fase superior de plasma, fina, fase media de leucocitos y una fase inferior de eritrocitos. Retire el plasma de la muestra de sangre mediante pipeteo de la parte superior de la muestra con una pipeta de transferencia desechable. Adecuado descartar el plasma o dispensar en múltiples partes alícuotas de 500 μL para el almacenamiento a-80 ° C para futuros análisis bioquímicos. Asegurar que se utiliza una pipeta nueva y estéril por cada muestra. Extraer el ADN de la muestra de sangre con sangre extracción kit12 (Tabla de materiales) según las instrucciones del fabricante.Nota: Si se obtiene una muestra del volumen descrito anteriormente, se obtendrá ~ 3 mL de leucocitos para uso en la extracción de ADN. Medir la concentración inicial de ADN en ng/μl utilizando un espectrofotómetro de espectro completo13 (Tabla de materiales), según las instrucciones del fabricante. Proceder directamente al paso 2. También puede almacenar ADN a 4 º C. 2. secuencia biblioteca elaboración Realizar diluciones seriadas de las muestras de ADN a lo largo de tres días para obtener una concentración final de 5.0 ± 1.0 ng/μl. Diluir 1 M Tris buffer pH 8.5 a 10 μm con agua desionizada.Nota: El volumen diluido dependerá el número de muestras de ADN que tendrá que ser diluido en los pasos posteriores. Si se realiza la dilución de ADN directamente tras el paso 1.4, proceder al paso siguiente. Si no el mismo día, medir la concentración de ADN como se hizo en el paso 1.4. Basado en la concentración medida, diluir 40 μl del ADN a ~ 10 ng/μL usando 10 μm tampón Tris, pH 8.5 y permitir que la muestra permanezca durante la noche a 4 ° C. Medir la concentración de ADN con un fluorómetro14 apropiado para la cuantificación de ADN (Tabla de materiales), según las instrucciones del fabricante.Nota: La concentración de la muestra debe ser > 10 ng/μl debido a la menor sensibilidad del espectrofotómetro utilizado previamente. Basado en la concentración medida, diluir 20 μl del DNA a 10 ng/μL usando 10 μm tampón Tris, pH 8.5 y permitir que la muestra permanezca durante la noche a 4 ° C. Medir la concentración de ADN con el fluorómetro14, según las instrucciones del fabricante. Basado en la concentración medida, diluir 10 μl del ADN a 5 ng/μL usando 10 μm Tris-HCl, pH 8.5 y permitir que la muestra permanezca durante la noche a 4 ° C. Preparar la biblioteca de secuencia según las instrucciones del fabricante del grupo NGS objetivo objetivo apropiado enriquecimiento kit15 (tabla de materiales). Asegúrese de que el kit de enriquecimiento es apropiado para la plataforma NGS se utiliza. Seguir instrucciones16 sobre el está y puesta en común de las bibliotecas del fabricante.Nota: Para ONDRISeq, las bibliotecas se componen de 12 muestras de ADN, agrupadas en conjuntos de dos y ejecutan en el instrumento de sobremesa NGS (Tabla de materiales). El número de muestras que se pueden ejecutar en una sola reacción dependerá en el kit de secuenciación y la plataforma utilizada. Para obtener más datos de la secuencia de calidad, realizar el paso opcional para validar la calidad de la biblioteca de ADN después de tagmentation, que se describe en las instrucciones del fabricante del enriquecimiento objetivo kit15. Analizar cada biblioteca por triplicado para asegurar la calidad de la producción de la biblioteca. Si la agrupación de las bibliotecas, medir la concentración de ADN con el fluorómetro14, según las instrucciones del fabricante. Utilizar esta concentración para determinar el volumen de cada biblioteca de ADN a la piscina para obtener las proporciones equimolares recomendadas el kit de enriquecimiento objetivo siendo utilizado. 3. generación de la secuencia La secuencia de la biblioteca según instrucciones17,18 (tabla de materiales el NGS sobremesa de reactivo kit del fabricante). Preparar una hoja de muestra según el las instrucciones18 el apropiado software de tecnología NGS (Tabla de materiales), que se importarán en flujo de trabajo del instrumento sobremesa NGS fabricante.Nota: Para efectos de la ONDRISeq, la opción de aplicación elegida ‘otro’, es con sólo los FASTQ archivos solicitados (figura 1). Los pasos posteriores procesarán estos archivos FASTQ, para permitir la personalización completa de alineación y parámetros de calidad. Sin embargo, si se elige la secuencia objetivo, algunos instrumentos NGS son capaces de procesar los datos de la secuencia en archivos VCF. Las instrucciones18 el fabricante puede consultarse para una completa selección de opciones. Si utiliza un basado en la nube informática medio ambiente19 (Tabla de materiales), sesión cuando se configura la secuencia de funcionamiento. Hacer esto después de hacer clic “Secuencia” en la página NGS sobremesa instrumento. Después de la desnaturalización de biblioteca18 según las instrucciones del fabricante, medir la concentración de biblioteca de ADN con el fluorómetro14. Validar la calidad de la biblioteca de ADN usando un sistema apropiado de electroforesis automatizada y ADN calidad análisis kit20 (Tabla de materiales), según las instrucciones del fabricante. Para convertir la concentración de ADN de ng/μl a nM, utilice la siguiente fórmula16Nota: Tamaño promedio de la biblioteca será específico para kit de enriquecimiento objetivo se utiliza y puede obtenerse en el rastro de electroforesis observado en paso 3.1.4. Diluir la biblioteca de la secuencia a una concentración final de 6-20 h, según corresponda y el volumen de 600 μL, según instrucciones de fabricante21.Nota: La concentración exacta necesaria depende en el kit de secuenciación utilizado. Consulte con el fabricante del kit de enriquecimiento para determinar la concentración de la carga adecuada. Diluir, desnaturalizar e incluye un control positivo la secuencia biblioteca21, según las instrucciones del fabricante. Mantener un registro de cada funcionamiento, que incluye la concentración de biblioteca de ADN cargado (pM), el porcentaje de control positivo añadido, reactivo cartucho código de barras, aplicación elegida en el paso 3.1.1, número de índice Lee, kit de enriquecimiento utilizado, la secuencia Lee dónde y el nombre de la hoja de muestra.Nota: El tiempo de ejecución del instrumento de sobremesa NGS dependen del instrumento, kit de enriquecimiento y leer la longitud elegida (4 – 56 h para el secuenciador utilizado en este experimento22). Sobre la terminación de la ejecución de la secuencia, a la “ejecutar carpeta”, que incluye todas las salidas, navegando por la página NGS instrumento escritorio y haciendo clic en “Administrar archivos”. Mover los archivos a una unidad local para tener acceso más adelante. Para una opción independiente, en un equipo, busque los archivos en el entorno informático basado en la nube19 seleccione “Carreras” en el panel de navegación. Seleccione la secuencia apropiada para navegar a la página Resumen de funcionamiento. Seleccione “Descargar” para obtener los datos de la nube. El cuadro de diálogo que aparece, seleccione los archivos FASTQ como el tipo de archivo a descargar y haga clic en “Descargar”. Desde la página de Resumen de funcionamiento de la basados en cloud computing entorno19,23, desplácese hasta “Tablas” para analizar la calidad de la secuencia con varias figuras producidas por el entorno informático. Consulte las instrucciones23 para más detalles sobre cada figura producida el fabricante. Desde la página de ejecutar cartas, encontrar la figura con la etiqueta “Datos por ciclo”. En tabla, seleccione “Intensidad” y en Canal Seleccione “Todos los canales”. Asegúrese de que esta parcela de intensidad de la señal producida es similar a la producida mediante la secuenciación de carreras realizadas en el pasado con el mismo kit de enriquecimiento y el instrumento de sobremesa NGS.Nota: Esto refleja el porcentaje de intensidad que se muestra por cada base en todos los ciclos de 150. La figura puede variar ampliamente dependiendo el kit de enriquecimiento utilizado, razón por la cual se debe comparar con últimos funcionamientos de la secuencia del mismo panel. Seleccione la ficha “Índice del control de calidad” en el panel de funcionamiento navegación para encontrar el histograma indexación de control de calidad (QC), que se encuentra en la parte derecha de la página. Asegurar que se observa una distribución relativamente uniforme de % Lee identificado (PF) a través de todas las muestras.Nota: Si las muestras tienen un mucho más bajo % Lee identificado (PF) que el resto de las muestras, tenga en cuenta que puede verse afectada la calidad de los datos de la secuencia. Desde la página de Resumen de funcionamiento del ambiente de computación en la nube, desplácese hasta las métricas de calidad haciendo clic en “Indicadores” en el panel de navegación de ejecución.Nota: Mediciones cortes dependerá del kit de plataforma y enriquecimiento de la secuencia se utiliza. Hay muchas métricas que pueden ser utilizados partiendo instrucciones23, del fabricante con los siguientes pasos destacar tres que son muy recomendables para el control de calidad. Bajo “Densidad (K/m2)” asegurar la densidad de clúster está dentro del rango recomendado por el equipo de enriquecimiento se utiliza (en este caso K 1.200 – 1.400/mm2). Bajo total “% ≥Q30” asegurar que el valor es ≥85%, lo que refleja la calidad de las lecturas de secuenciación.Nota: Si es inferior a este umbral de 85%, cuenta que la calidad de la secuencia puede verse comprometida. Bajo “Alineado (%)” garantizar que el valor es similar al % del control positivo que se incluyó en la secuencia de funcionamiento.Nota: Esto actúa como medida de control positivo, tal que sólo este porcentaje de lecturas totales fueron encontrados para alinear al genoma de control positivo. Si se utiliza el control positivo de 1% se espera que el alineado (%) sería ~ 1-5%. Figura 1: captura de pantalla del software NGS de tecnología (tabla de materiales) de la muestra opciones de la aplicación de la hoja creador. Para los efectos de ONDRISeq, se utiliza la aplicación sólo FASTQ. Sin embargo, si el usuario desea otros archivos, como archivos VCF, es aconsejable que se utiliza una aplicación dentro de la categoría resequencing específica. Haga clic aquí para ver una versión más grande de esta figura. 4. resecuenciación y variante llamada Para preprocesamiento de datos, seleccione el software adecuado para alinear los archivos crudos de FASTQ al genoma humano de referencia y llamar a variantes (Tabla de materiales). Importar FASTQ Lee de la secuencia en el software de preprocesamiento de datos.Nota: Para efectos de la ONDRISeq, los 48 archivos FASTQ producidos a partir de un funcionamiento de la secuencia única de 24 muestras son importados y procesados a través del software. El número de muestras procesadas al mismo tiempo puede variar dependiendo de las necesidades del investigador y el tamaño del panel NGS. Dentro de la “zona de navegación”, clic derecho y seleccione “Nueva carpeta”. Nombre de la carpeta que hay claridad en cuanto a la secuencia de la corrida que se realizó. En la barra de herramientas en la parte superior, seleccione “Importar”. De la lista desplegable lista de plataformas de secuenciación que se muestra eligió la plataforma con la cual se realizó la secuenciación.Nota: Para los efectos de ONDRISeq, “Illumina” es elegido. Sin embargo, si utiliza una consulta de la plataforma de secuenciación diferentes las instrucciones del fabricante para el resto de la importación de FASTQ pasos24. En el cuadro de diálogo y seleccione el FASTQ los archivos de la secuencia ejecute que se está procesando. Garantizar que los archivos que se están importados son almacenados en e importados desde el disco, si utiliza un equipo con varios servidores. Las “Opciones generales” del cuadro de diálogo, haga clic en la casilla junto a “Paired Lee” si la secuencia utiliza químicos finales emparejados.Nota: en este caso, también habría dos muestras FASTQ importadas para cada muestra – un delantero y un revés. Los acoplados leer la información del cuadro de diálogo, seleccione “Paired-end (adelante-atrás)” si el delantero Lee fichero FASTQ aparece antes de la lectura inversa en la lista de archivos. Si los archivos aparecen en orden inverso, seleccione “Mate-par (atrás-adelante)”. Establecer la distancia mínima lectura vinculado a 1 y distancia máxima a 1000, para permitir la detección de los cambios estructurales a pequeña escala dentro de las secuencias muestra. En las “opciones de Illumina” del cuadro de diálogo, seleccione “Quitar no lee”, para quitar la dice que no la secuencia. Si el instrumento de sobremesa NGS de multiplexar los datos antes de exportar los archivos FASTQ no active la casilla “MiSeq que demultiplexa”. “Cuenta de la calidad del” la lista desplegable, seleccione la tubería NGS fue utilizada para la secuencia. Seleccione “Siguiente” en la parte inferior del cuadro de diálogo.Nota: La tubería utilizada afectará el formato de las puntuaciones de calidad de fichero FASTQ. Para obtener más información acerca de qué tubería a seleccionar, consulte con las instrucciones24 el fabricante. Del cuadro de diálogo nuevo, seleccione “guardar” y “crear subcarpetas por unidad de baño para poner archivos de FASTQ de cada muestra en su propia carpeta individual. Seleccione “Siguiente” en la parte inferior del cuadro de diálogo. En el cuadro de diálogo nuevo, seleccione la carpeta que creó en el paso 4.2.1. Se trata de donde se importarán los archivos FASTQ. Seleccione “Finalizar” en la parte inferior del cuadro de diálogo y espere hasta que se importarán los archivos FASTQ. Haga clic en la pestaña “Procesos” para ver el estado de la importación de archivos. Diseño de un flujo de trabajo dentro del software para realizar la resecuenciación y variante llamada, según instrucciones del fabricante.Nota: Este flujo de trabajo puede variar dependiendo de las necesidades del investigador, pero los siguientes pasos abarcan lo que se incluye a efectos de la ONDRISeq (figura 2). Los pasos de este flujo de trabajo pueden aplicarse a otros NGS resecuenciación y variante llamada software según corresponda. Todos bioinformática procesamiento a los fines de ONDRI se realiza en referencia al genoma humano de referencia GRCH37/hg19, para consistencia de datos procesamiento y análisis. Mapa del Lee de la secuencia el genoma de referencia. Al configurar, elija el genoma de referencia según sea el caso, asegurando que es el mismo genoma de referencia que se utiliza para todos los pasos de Bioinformática. En el modo de enmascarar lista desplegable no seleccione “adhesiva” para que no las regiones de la secuencia de referencia están enmascaradas. Usar la predeterminada de asignación de opciones asignados por el software. Revisión de las instrucciones del fabricante de la24 para comprobar que esto es aceptable basado en los propósitos de la investigación. Incluir en el reajuste local de flujo de trabajo para el genoma humano de referencia para resolver cualquier lectura asignación de errores, particularmente alrededor de variantes de inserción-deleción. Utilice las opciones de reajuste local predeterminado asignadas por el software. Revisión de las instrucciones del fabricante de la24 para comprobar que esto es aceptable basado en los propósitos de la investigación. Quitar duplicados lecturas asignadas producidos por PCR dentro del protocolo NGS para reducir el efecto de la parcialidad de amplificación de PCR, que puede producir falsos positivos25. Establecer la “máxima representación de secuencia (%) de la minoría”, basada en las necesidades de la investigación.Nota: Un entorno flexible, según lo utilizado para los propósitos de ONDRISeq, es del 5%; sin embargo, el software es más estrictas 20%. Cuando dos lecturas son muy similares, este ajuste determina si se debe considerar la secuencia con cuentas leerlas menos un error de secuencia de la parcialidad de amplificación de PCR. Por lo tanto, un ajuste de 5%, la minoría Lee cuenta debe ser ≤ 5% de la mayoría Lee cuenta que corregir para ser idéntico a la mayoría de leer. Exportar las estadísticas de las regiones de destino en la forma de un archivo de texto Resumen de la cobertura de las pistas de lectura generadas en el paso 4.3.3. Ignorar no específicos acerca de los partidos y parejas rotas en la configuración. Elija un destino en el disco para estos archivos. Exportar un archivo de mapa (BAM) alineamiento de secuencia binaria para cada muestra de las pistas de lectura generadas en el paso 4.3.3. Contiene datos de alineamiento de secuencia, si es necesario en un futuro análisis. Elija un destino en el disco para estos archivos. Elija un método de detección de variantes para llamar variantes dentro de la secuencia.Nota: Cuando pueden hacer suposiciones sobre la ploidía de las muestras, se recomienda que se utiliza un algoritmo de detección de variantes ploidía fijo, como se utiliza los fines de ONDRISeq. Si esta hipótesis no se puede hacer, consulte las instrucciones24 para determinar el mejor algoritmo para los propósitos de la investigación el fabricante. Cuando se configura, de ploidía fija parámetros variant opciones establecer la ploidía como apropiado para el organismo muestra. Establecer la “probabilidad variante requerida”, o la probabilidad de que una variante se ha llamado correctamente en orden para que pueda sujetarse al 90,0%. Utilice los siguientes recomendados para los filtros general: “Mínima cobertura” de 10 x, “Recuento de mínimo” 2, “Mínimo frecuencia de la lectura” del 20%, “Ignore roto pares”, ignorar no específico acerca de los partidos basado en “Lee” y “Mínimo Lee longitud” de 20.Nota: Estos parámetros se basan en los efectos de la ONDRISeq. Consulte las instrucciones24 para asegurarse de que son apropiados para la investigación que está haga el fabricante. Utilice los siguientes recomendados para los filtros de ruido: “Base de filtros de calidad” con un “radio vecindad” asignación de puntuación de calidad de 5, “mínimo central calidad” asignación de puntuación de 20 y “Calidad de barrio mínimo” mapeo de 15; un “filtro de dirección de lectura” de 5.0%; y “pariente filtro de dirección” de 1.0% de significancia.Nota: Estos parámetros se basan en los efectos de la ONDRISeq. Consulte las instrucciones24 para asegurarse de que son apropiados para la investigación que está haga el fabricante. Filtro de las variantes que han sido llamadas basadas en su solape con la destino regiones del grupo objetivo según lo especificado por el archivo de datos Extensible navegador (cama), permitiendo solamente las variantes que ocurren dentro de las regiones genómicas seleccionadas para que el panel NGS específico que retenido.Nota: El archivo de cama será único para el panel NGS específico que está siendo utilizado, basada en las regiones del genoma que el panel es capaz de cubrir. Exportar un informe variable en un archivo de formato (VCF) llamada variante de la vía variante producida en el paso 4.3.7. Elija un destino en el disco para estos archivos. Guardar e instalar el flujo de trabajo según las instrucciones del fabricante24para que esté disponible en “Caja de herramientas” del software. Asegurar que el flujo de trabajo es el nombre que sea claro en el futuro qué panel NGS es apropiado para. En el cuadro de diálogo con las opciones de “Exportar datos de referencia” durante la instalación, establezca todas las opciones de “Paquete”. En el cuadro de diálogo con las opciones de “Ubicación de instalación” durante la instalación, haga clic en “Instalar el flujo de trabajo en el equipo local”. Ejecutar importado FASTQ secuenciación leemos archivos a través del flujo de trabajo de Bioinformática personalizado diseñado en el paso 4.3, según instrucciones de fabricante24. Identificar el flujo de trabajo diseñado en el paso 4.3 “Caja de herramientas” del software y haga doble clic. En el cuadro de diálogo que aparece, busque las carpetas de archivos FASTQ que fueron importados en el paso 4.2 dentro de la “zona de navegación”. Destacar todas las carpetas mediante la selección dentro de la “zona de navegación” y haga clic en la casilla junto a “Batch”. Utilice la flecha derecha para mover los archivos a “Elementos seleccionados”. Haga clic en “Siguiente” en la parte inferior del cuadro de diálogo. En el cuadro de diálogo revisar el “Resumen de lote” para asegurar los archivos correctos FASTQ fueron seleccionados y haga clic en “Siguiente”. Revisión se seleccionaron los siguientes pasos del flujo de trabajo dentro de la caja de diálogo para asegurar los archivos correctos y lugares de exportación al diseñar el flujo de trabajo en el paso 4.3: “Lee a referencia cartográfica”; Quitar duplicados lecturas asignadas”; “Crear estadísticas para las regiones de destino”; “BAM”a la exportación; “Exportación delimitado por tabulaciones texto”; “Filtro basado en superposición”; y “Exportar VCF” En el paso final en el cuadro de diálogo-“resultado manejo” – seleccione la opción “guardar en carpeta de entrada”. Haga clic en “Finalizar” en la parte inferior del cuadro de diálogo.Nota: Esto significa que los archivos producidos para cada muestra se colocará en la misma carpeta que almacena el fichero FASTQ dentro de los datos pre-software de procesamiento. Figura 2: flujo de trabajo para la resecuenciación y llamado variante de FASTQ archivos dentro de la informática el software (tabla de materiales) modificado para requisitos particulares para los fines de ONDRISeq. Los pasos del flujo de trabajo pueden ser aplicados a otros resecuenciación de NGS y variante llamada software basado en las necesidades del investigador. Haga clic aquí para ver una versión más grande de esta figura. 5. variante anotación Descargar y personalizar el script de26 anotar variación (ANNOVAR) para realizar la anotación variante sobre el archivo VCF de cada muestra. Descargar las bases de datos de ANNOVAR para ser incluido como anotaciones: 1) RefSeq27 (actualización agosto de 2015); 2) dbSNP13828 (actualización septiembre de 2014); 3) Consorcio de agregación exoma29 (ExAC, versión 0.3 noviembre de 2015 actualización); 4) el nacional del corazón, pulmón y sangre Instituto exoma secuenciación proyecto europeo cohorte30 (ESP, actualización de marzo de 2015); 5) los 1000 genomas proyecto cohorte Europea31 (1KGP, actualización de agosto de 2015); 6) ClinVar32 (actualización de marzo de 2016); y 7) combinado anotación dependiente agotamiento33 (CADD), clasificación intolerante de tolerante34 (SIFT) y PolyPhen-235.Nota: Genoma coordina y las bases de datos al que hace referencia ANNOVAR se refirió a la construcción del genoma humano GRCh37/hg19. Además, las versiones de base de datos enumeradas son los que se utilizan para los propósitos de ONDRISeq, cuando descarga de las bases de datos utiliza las versiones más recientes disponibles. Si lo desea, modifique para requisitos particulares ANNOVAR para la lista completa de variantes anotadas, así como una recopilación reducida de anotado con las variantes de salida–filtro de operación26.Nota: La lista reducida puede modificar para requisitos particulares basado en las necesidades del investigador. Para efectos de la ONDRISeq, la reducida lista de variantes anotadas no incluye variantes que ocurren más allá de 15 bases del exón más cercano o las variantes con una frecuencia del alelo menor (MAF) > 3% en cualquiera de las tres bases de datos: 1) ExAC; 2) ESP; y 3) 1KGP. Este paso es muy recomendable. Si lo desea, modifique para requisitos particulares ANNOVAR a solo llamadas de alelo específico basado en las necesidades del investigador26.Nota: Para los efectos de ONDRISeq, ANNOVAR evalúa las llamadas de secuencia para la rs429358 de alelos APOE riesgo (C > T):p.C130R y rs7412 (C > T):p.R176C para el genotipo APOE total, de los cuales hay seis posibles de salida combinaciones, incluyendo: 1) E2/E2; 2) E3/E2; 3) E4/E2; 4) E3/E3; 5) E4/E3; 6) E4/E4. De estos seis posibles genotipos APOE , E4/E4 es el factor de riesgo genético más comúnmente aceptado para el desarrollo de enfermedad de Alzheimer de aparición tardía36. Consulta de bases de datos de mutación de la enfermedad (tabla de materiales) para determinar si las variantes han sido previamente asociadas con la enfermedad, con evidencia razonable. Considerar las variantes que no se han divulgado previamente como una variante nueva. Evaluar las anotaciones de ANNOVAR de ClinVar, que incluyen las variantes asociadas a la enfermedad de cualquier clasificado como probable patógeno o patógeno. Proceso de empalme variantes a través de la predicción en silico herramientas análisis basado en el empalme de variantes37 (SPANR) y buscador de empalme humano38 (HSF, versión 3.0). Si procesa un gran número de muestras, comparar las llamadas variantes dentro de cada muestra para determinar qué variantes son compartidos por varias muestras. Hacer esto manualmente o con un guión diseñado, lo que permite la detección de eventos de contaminación y posible Secuenciación artefactos.Nota: Para los efectos de ONDRI, una secuencia de comandos personalizada se utiliza para anotar los archivos de salida ANNOVAR, comparándolas entre sí. El script incorpora una anotación, por variante, con el ID de objeto de otras muestras de que la misma variante, otra forma denominada historia de la variante en la cohorte de estudio. Clasificar las variantes basadas en el Colegio Americano de genética médica (ACMG) patogenicidad directrices39, asignando a cada variante una clasificación como uno de los siguientes: 1) patógenos; 2) probablemente patógeno; 3) variante de significado incierto; 4) probablemente benigna; o 5) benigna.Nota: Para efectos de ONDRI, un script en Python diseñado in-House se utiliza para realizar clasificación ACMG de forma semiautomática. Aunque no utilizó para este estudio, InterVar40 es una herramienta igualmente diseñada que puede ser utilizada de una manera análoga. Las variantes con una cobertura de la secuencia de la secuencia de Sanger 10% de la cohorte de estudio para validar que no son secuencia artefactos41.

Representative Results

Las metodologías descritas se aplicaron a 528 participantes muestras de ADN de individuos que han sido inscritos en ONDRI. Las muestras se corrieron en el panel de ONDRISeq en 22 series de 24 muestras por ejecutar. En general, datos de la secuencia estaban decididos a ser de alta calidad con una cobertura media de la muestra de 78 ± 13 x y todas las ejecuciones individuales expresan una cobertura media de la muestra > 30 x. Además, en promedio, el 94% de todas las regiones de destino fueron cubierto por lo menos 20 x (tabla 1). Una media 95.6% de Lee fueron asignados a la secuencia de referencia y ONDRISeq todo funciona había > 90% de lecturas asignadas (cuadro 1). De las lecturas asignadas, 92.0% tenían un Phred puntaje ≥Q30, con una sola ejecución tener < 80% de lecturas asignadas cumpliendo esta métrica de calidad. Sin embargo, esta carrera siguen mostrando una cobertura media del x 79 y 93% de destino eran regiones cubiertas por lo menos 20 x. Parámetro Media (±sd) Mejor rendimiento Rendimiento más pobre Densidad de cluster (x 103/mm2) 1424 (±269) 1347 1835 Total de lecturas (106) 43.1 (±6.0) 48.7 47.4 Asignar lecturas (106) 40.1 (±6.0) 47.1 25.7 Lecturas asignadas (%) 95.6 (±1.3) 96,8 92.6 PHRED calidad puntuación ≥Q30 (%) 92,0 (±6.0) 92 68.3 Cobertura de la muestra (x) 78 (±13) 99 51 Tabla 1: Secuencias métricas de calidad de 22 carreras en ONDRISeq. Estudio de caso: Identificación de variantes raras en un paciente de PD. Para demostrar la utilidad de nuestro flujo de trabajo dirigida de NGS, presentamos el ejemplo de un paciente de 68 años, hombre, la enfermedad de Parkinson. La muestra de ADN se ha ejecutado en el instrumento de sobremesa NGS (Tabla de materiales) mediante el panel de ONDRISeq junto a otros 23 muestras ONDRI. La ejecución muestra una densidad de cluster de 1.555 x 103/mm2. Muestra particular de la paciente muestra una cobertura promedio de 76 x, con 93.9 por ciento de la meta, regiones cubiertas por lo menos 20 x. Después de realizar la llamada variante y anotación con el flujo de trabajo personalizado de la bioinformática, la paciente fue encontrado para Puerto 1351 variantes dentro de los exones y alrededores 250 bp de los 80 genes incluidos en el panel de ONDRISeq. Sin embargo, la tubería ANNOVAR fue capaz de reducir el número de variantes por considerar la ontología de la variante de la secuencia y MAF, como se describe anteriormente. Esto produjo una lista de siete variantes que experimentó curación manual (figura 3). De estas siete variantes, dos fueron identificados como teniendo significación clínica posible. Este proceso es específico a las necesidades de ONDRI y se realizó mediante la identificación de aquellos que son relativamente raros en la población general y son nonsynonymous en ontología causando un cambio en la proteína. Si la variante había sido previamente asociada con la enfermedad, las predicciones en silico de deleteriousness a la proteína y la clasificación de patogenicidad ACMG de las variantes también se utilizan en este proceso. El primero identificado en la lista reducida era una variante heterozigótica, es decir, LRRK2: c.T3939A, dando por resultado el p.C1313* variante del absurdo. LRRK2 codifica la proteína rica en leucina repetir quinasa 2, que posee actividad de GTPasa y cinasa de42. Además, mutaciones en este gen se saben que entre las principales causas de la enfermedad de Parkinson familiar43. Esta variante introduce un codón de parada prematuro dentro de LRRK2, perdiendo residuos de aminoácidos 1.314 – 2, 527. Esto evita que la traducción de Ras la proteína de proteínas complejas (Roc), C-terminal de Roc (COR) y dominios de cinasa de proteínas, que participan en el funcionamiento como un anormal Rho GTPasa proteína de unión a GTP y proteína quinasa, respectivamente y fue predichos a ser perjudicial por el análisis de silico de CADD (CADD Phred = 36). Esta variante es también rara con un MAF de 0,004% y 0,01% en ExAC y ESP, respectivamente y está ausente de la base de datos de 1000G. Además, éste es el único paciente de 528 todo secuenciado que lleva esta variante, que es novela ya que no se ha descrito previamente en bases de datos de mutación de la enfermedad (Tabla de materiales). La confianza de la llamada variante fue confirmada por su cobertura profunda de x 109. Por último, la variante se evaluó con la AMCG normas y directrices para la patogenicidad y fue clasificada como patógenos. El paciente llevó también una segunda variante heterozigótica, NR4A2: c.C755A, dando por resultado el p.P252Q de cambio sin sentido. La proteína codificada por NR4A2, Nuclear Receptor subfamilia 4 Grupo A miembro 2, es un factor de transcripción implicado en la generación de neuronas dopaminérgicas44 y mutaciones en este gen han sido previamente asociadas con enfermedad de Parkinson de la enfermedad45. La substitución de la prolina no polares a la glutamina polar fue predicha para ser perjudicial por el análisis de predicción en silico de CADD (CADD Phred = 21,1), pero no por el análisis generado por SIFT o PolyPhen-2. La variante es rara, con un MAF de 0.004% en ExAC y ausencia de ESP y 1000G. La variante también fue identificada en un participante ONDRI diagnosticado con deterioro cognitivo vascular, pero no se ha descrito previamente en bases de datos de mutación la enfermedad. Esta variante tuvo cobertura de 18 x, sin embargo, Sanger secuenciación se realizará con el fin de garantizar su validez dentro de la secuencia. Por último, la variante fue determinada para ser de significado incierto cuando se evaluó con la ACMG normas y directrices de patogenicidad. La tubería de panel y bioinformática de ONDRISeq también es capaz de determinar el genotipo APOE de cada muestra. Este paciente se determinó que el genotipo APOE E3/E3. Figura 3: ejemplo de una salida reducida de ANNOVAR Mostrar manualmente comisariados, anotado variantes. La salida reducida de ANNOVAR desde el estudio de caso de un paciente de 68 año de edad, masculino, con la enfermedad de Parkinson. Las variantes anotadas son curadas para identificar aquellos que son más probable ser de significación clínica, como por las cajas rojas. Haga clic aquí para ver una versión más grande de esta figura.

Discussion

En la ruta de extracción de muestra de ADN para la identificación de variantes que pueden ser de interés cuando se considera un paciente diagnóstico, progresión de la enfermedad y posibles opciones de tratamiento, es importante reconocer la naturaleza heterogénea de la metodología necesaria para la secuencia y procesamiento de datos adecuado. El protocolo descrito aquí es un ejemplo de la utilización de NGS dirigida y bioinformáticos posteriores análisis esencial para identificar variantes raras de importancia clínica potencial. Específicamente, se presenta el enfoque adoptado por el subgrupo de genómica ONDRI cuando utilice el panel NGS ONDRISeq personalizados.

Se reconoce que estos métodos fueron desarrollados en base a una plataforma específica de NGS y que hay otras plataformas de secuenciación y kits de enriquecimiento objetivo que pueden ser utilizados. Sin embargo, el instrumento de escritorio y plataforma NGS (Tabla de materiales) fue elegido en base a sus principios nos alimento y droga Administration (FDA) aprobación⁴⁶. Esta autorización refleja la secuencia de alta calidad que se puede realizar con los protocolos NGS de elección y la confiabilidad que se puede colocar en el Lee de la secuencia.

Aunque obtener lecturas de secuenciación exacta con la profundidad de la cobertura es muy importante, el procesamiento de bioinformática para la variante rara definitiva es vital y puede ser de cómputo intensivo. Debido a las muchas fuentes de errores que pueden ocurrir en el proceso de secuenciación, un pipeline robusto bioinformática debe corregir para las varias imprecisiones que pueden introducirse. Ellos pueden surgir de desajustes en el proceso de asignación, el sesgo de amplificación introducido por amplificación de la polimerización en cadena en la preparación de la biblioteca y la tecnología de producción de artefactos de secuenciación⁴⁷. Sin importar el software utilizado para realizar la asignación de lectura y variante llamada, hay formas comunes para reducir estos errores incluyendo reajuste local, eliminación de duplicados lecturas asignadas y establecer parámetros adecuados para el control de calidad cuando se llama a variantes. Además, los parámetros elegidos durante la llamada variante pueden variar en base a lo que es más apropiado para el estudio en mano¹¹. La cobertura mínima y la puntuación de calidad de una variante y los nucleótidos circundantes que se aplicaron en este documento fueron elegidos como para crear un equilibrio entre sensibilidad y especificidad adecuada. Estos parámetros han sido validados para el panel de ONDRISeq basado en la variante llamada concordancia con tres diferentes técnicas genéticas, como se describió anteriormente, incluyendo: 1) genotipificación basada en el chip; 2) ensayo de discriminación alélica; y 3) de secuenciación de Sanger⁹.

Después de llamar variante exacta, para determinar aquellos de significación clínica potencial, anotación y la curaduría son esenciales. Debido a su plataforma de acceso abierto, ANNOVAR es una excelente herramienta para anotación y proyección variante preliminar o eliminación. Más allá de ser fácilmente accesible, ANNOVAR se puede aplicar a cualquier archivo VCF, no importa qué plataforma de secuenciación se utiliza, y es personalizable basado en las necesidades de la investigación²⁶.

Después de la anotación, variantes deben interpretarse para determinar si debe ser considerados de importancia clínica. No sólo este proceso se hace complejo, pero a menudo es propensa a la subjetividad y el error humano. Por esta razón, la ACMG ha establecido directrices para evaluar las pruebas de patogenicidad de cualquier variante. Aplicamos un enfoque no sinónimo, rara variante base manual conservación, que se construye en base a estos lineamientos y protegida mediante la evaluación individual de cada variante que pueda pasar a través de la tubería con un diseño personalizado de Python script que clasifica las variantes basadas en las directrices. De esta manera, cada variante se le asigna un rango de patógenos, probable significación patógena, incierto, probablemente benigna, o benigno, y que son capaces de añadir transparencia y estandarización en el proceso de curación variante. Es importante reconocer que las características específicas de curación variante, más allá del pipeline bioinformática, serán individualizadas basado en las necesidades de la investigación y por lo tanto, más allá del alcance de las metodologías presentadas.

Aunque los métodos presentados aquí son específicos a ONDRI, los pasos descritos pueden traducirse al considerar un gran número de enfermedades constitucionales de interés. Como aumenta el número de asociaciones de gene para muchos fenotipos, NGS específicas permite una hipótesis por el enfoque que puede capitalizar la investigación anterior que se ha hecho en el campo. Sin embargo, existen limitaciones para NGS específicos y la metodología presentada. Centrándose solamente en regiones específicas del genoma, las áreas de descubrimiento se limitan a nuevos alelos de interés. Por lo tanto, nuevos genes u otros lugares geométricos genomic más allá de los cubrieron por los objetivos de la secuencia, que podrían ser revelados con WGS o WES enfoques, no se identificará. También hay regiones dentro del genoma que puede ser difícil de precisa secuencia con enfoques NGS, incluyendo aquellos con un alto grado de secuencias repetidas⁴⁸ o aquellos que son ricos en contenido de GC⁴⁹. Afortunadamente, al utilizar NGS dirigidas, allí es a priori un alto grado de familiaridad con las regiones genómicas que están ordenados, y si éstos podrían representar desafíos técnicos. Finalmente, la detección de variantes de número de copia de datos NGS en la actualidad no es estandarizado⁵⁰. Sin embargo, pueden ser soluciones bioinformáticas a estas preocupaciones en el horizonte; nuevas herramientas computacionales pueden ayudar a analizar estas formas adicionales de la variación en los pacientes ONDRI.

A pesar de sus limitaciones, es capaz de obtener datos de alta calidad, dentro de un enfoque basado en hipótesis, sin dejar de ser menos costoso que sus contrapartes WGS y WES NGS dirigida. No sólo es esta metodología apropiada de investigación eficiente y dirigida, la aplicación clínica de NGS dirigida está creciendo exponencialmente. Esta tecnología se utiliza para responder a muchas preguntas diferentes sobre las vías moleculares de diferentes enfermedades. También está siendo desarrollado en una herramienta de diagnóstico exacta a un costo relativamente bajo cuando se opuso a WES y WGS. Incluso en comparación con el estándar de oro Sanger secuenciación, dirigidos NGS puede desbancar en su tiempo y costo-eficacia. Por estas razones, es importante para un científico o clínico que recibe y utiliza datos NGS, por ejemplo, como texto en un laboratorio o clínico, para comprender el complejo “caja negra” que es la base de los resultados. Los métodos presentados en este documento deben ayudar a los usuarios a entender el proceso subyacente a la generación e interpretación de datos NGS.

Disclosures

The authors have nothing to disclose.

Acknowledgements

Nos gustaría agradecer a todos los participantes ONDRI para su consentimiento y la cooperación con nuestro estudio. Gracias a los investigadores ONDRI (www. ONDRI.ca/people), incluyendo nuestro investigador principal (MJS) y el ONDRI Consejo comités: el Comité Ejecutivo, Comité Directivo, Comité de publicación, Comité de reclutamiento, plataformas de evaluación y gerencia de proyecto. Agradecemos también el Centro Regional de genómica de London para sus conocimientos técnicos. DAA es apoyado por la sociedad de Alzheimer de Londres y Middlesex maestros graduados beca de investigación. SMKF es apoyado por el ALS Canadá Tim E. Noël Postdoctoral Fellowship.

Materials

4 ml EDTA K2 tubes	Fisher Scientific	02-689-4
1 M Tris Buffer	Bio Basic Canada Inc.	SD8141
Gentra Puregene Blood Kit	Qiagen	158389	1000 mL Kit. This is the blood extraction kit, referred to in step 1.3.
NanoDrop-1000 Spectrophotometer	Thermo Fisher Scientific	ND-2000	Replaced by the NanoDrop-2000 Spectrophotometer. This is the full-spectrum spectrophotometer, referred to in steps 1.4 and 2.1.2.
Qubit 2.0 fluorometer	Invitrogen	Q32866	This is a fluorometer appropriate for the quantification of DNA, referred to in steps 2.1.4, 2.1.6, 2.2.3, and 3.1.3.
Nextera Rapid Custom Capture Enrichment Kit	Illumina, Inc.	FC-140-1009	Specifically designed for the ONDRISeq panel, sequencing the exons of 80 genes, resulting in 971,388 base pairs of sequence in paired-end reads of 150 bases in length; 288 samples per kit. This is the target enrichment kit, referred to in steps 2.2, 2.2.2, 2.2.3, 3.1.5, 3.1.6, 3.4.1, and the Discussion.
2100 BioAnalyzer	Agilent Technologies	G2939BA	This is a automated electrophoresis system, referred to in step 3.1.4.
High Sensitivity DNA Reagent Kit	Agilent Technologies	5067-4626	110 Samples per kit; This is a DNA quality analysis kit, referred to in step 3.1.4.
MiSeq Reagent Kit v3	Illumina, Inc.	MS-102-3003	600 Cycle Kit; This is the NGS desktop instrument reagent kit, referred to in step 3.1.
MiSeq Personal Genome Sequencer	Illumina, Inc.	SY-410-1003	This is a NGS desktop instrument, referred to in steps 2.2.1, 3.1, 3.1.1, 3.1.2, 3.1.8, 3.2, 4.2.6, the Representative Results, and the Discussion.
Experiment Manager	Illumina, Inc.		This is NGS technology software, referred to in step 3.1.1 and Figure 1. https://support.illumina.com/sequencing/sequencing_software/experiment_manager/downloads.html
BaseSpace	Illumina, Inc.	SW-410-1000	This is a cloud-based computing environment, referred to in steps 3.1.2, 3.2, 3.3, 3.3.1, 3.3.2, 3.4, 3.4.1, 3.4.2 and 3.4.3. https://basespace.illumina.com/
CLC Genomics Workbench 10.1.1	Qiagen	832000	Open source options for data pre-processing are also available that can model the workflow used in this protocol. This is the software used for data pre-processing, referred to throughout step 4 and in Figure 2.
Annotate Variation			http://annovar.openbioinformatics.org/en/latest/user-guide/download/
RefSeq	National Center for Biotechnology Information		https://www.ncbi.nlm.nih.gov/refseq/
dbSNP138	National Center for Biotechnology Information		https://www.ncbi.nlm.nih.gov/projects/SNP/snp_summary.cgi?view+summary=view+summary&build_id=138
Exome Aggregation Consortium	Broad Institute		http://exac.broadinstitute.org/
National Heart, Lung, and Blood Institute Exome Sequencing Project European Cohort	University of Washington and the Broad Institute		http://evs.gs.washington.edu/EVS/
ClinVar	National Center for Biotechnology Information		https://www.ncbi.nlm.nih.gov/clinvar/
Combined Annotation Dependent Depletion	University of Washington and Hudson-Alpha Institute for Biotechnology		http://cadd.gs.washington.edu/
Sorting Intolerant from Tolerant	J. Craig Venter Instutite		http://sift.jcvi.org/
PolyPhen-2	Brigham and Women's Hospital, Harvard Medical School		http://genetics.bwh.harvard.edu/pph2/
Human Gene Mutation Database	Qiagen	834050	This is a disease mutation database, referred to in step 5.2 and the Representative Results. https://portal.biobase-international.com/cgi-bin/portal/login.cgi?redirect_url=/hgmd/pro/start.php
Splicing-based Analysis of Variants	Frey lab, University of Toronto		http://tools.genes.toronto.edu/
Human Splicing Finder	Aix Marseille Université		http://www.umd.be/HSF3/HSF.shtml
Other materials
Centrifuge
Disposable transfer pipets

References

Metzker, M. L. Sequencing technologies – the next generation. Nat Rev Genet. 11 (1), 31-46 (2010).
Mardis, E. R. Next-generation DNA sequencing methods. Annu Rev Genomics Hum Genet. 9, 387-402 (2008).
Shendure, J., Ji, H. Next-generation DNA sequencing. Nat Biotechnol. 26 (10), 1135-1145 (2008).
Sanger, F., Nicklen, S., Coulson, A. R. DNA sequencing with chain-terminating inhibitors. Proc Natl Acad Sci U S A. 74 (12), 5463-5467 (1977).
Farhan, S. M. K., Hegele, R. A. Exome Sequencing: New Insights into Lipoprotein Disorders. Current Cardiology Reports. 16 (7), (2014).
Choi, M., et al. Genetic diagnosis by whole exome capture and massively parallel DNA sequencing. Proc Natl Acad Sci U S A. 106 (45), 19096-19101 (2009).
Mardis, E. R. DNA sequencing technologies: 2006-2016. Nat Protoc. 12 (2), 213-218 (2017).
Farhan, S. M., et al. The Ontario Neurodegenerative Disease Research Initiative (ONDRI). Can J Neurol Sci. 44 (2), 196-202 (2017).
Farhan, S. M. K., et al. The ONDRISeq panel: custom-designed next-generation sequencing of genes related to neurodegeneration. NPJ Genom Med. (16032), 1-11 (2016).
El-Metwally, S., Hamza, T., Zakaria, M., Helmy, M. Next-generation sequence assembly: four stages of data processing and computational challenges. PLoS Comput Biol. 9 (12), e1003345 (2013).
Yohe, S., Thyagarajan, B. Review of Clinical Next-Generation Sequencing. Arch Pathol Lab Med. , (2017).
Qiagen. . Gentra Puregene Handbook. , (2014).
NanoDrop Technologies, Inc. . Spectrophotometer V3.5 User’s Manual. , (2007).
Invitrogen by Life Technologies. . Qubit 2.0 Fluorometer User Manual. Vol. Q32866. , (2010).
Illumina, Inc. . Nextera Rapid Capture Enrichment Guide. , (2016).
Illumina, Inc. . Nextera Rapid Capture Enrichment Reference Guide. , (2016).
Rev. B. Illumina, Inc. . MiSeq Reagent Kit v3 Reagent Preparation Guide. , (2013).
Illumina, Inc. . MiSeq System Guide. , (2015).
. BaseSpace Sequence Hub Available from: https://basespace.illumina.com/dashboard (2017)
Rev. B. Agilent Technologies. . Agilent High Sensitivity DNA Kit Guide. , (2013).
Illumina, Inc. . MiSeq System Denature and Dilute Libraries Guide. , (2016).
Illumina, Inc. . System Specification Sheet: MiSeq System. , (2016).
. BaseSpace Sequence Hub Help Center Available from: https://help.basespace.illumina.com/ (2017)
Qiagen. . Genomics Workbench 10.1.1 User Manual. , (2017).
Ebbert, M. T., et al. Evaluating the necessity of PCR duplicate removal from next-generation sequencing data and a comparison of approaches. BMC Bioinformatics. 17, 239 (2016).
Wang, K., Li, M., Hakonarson, H. ANNOVAR: functional annotation of genetic variants from high-throughput sequencing data. Nucleic Acids Res. 38 (16), e164 (2010).
Leary, N. A., et al. Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. Nucleic Acids Res. 44 (D1), D733-D745 (2016).
Kitts, A., Phan, L., Ward, M., Bradley Holmes, J. . The Database of Short Genetic Variation (dbSNP). , (2013).
Lek, M., et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. 536 (7616), 285-291 (2016).
Auton, A., et al. A global reference for human genetic variation. Nature. 526 (7571), 68-74 (2015).
Landrum, M. J., et al. ClinVar: public archive of interpretations of clinically relevant variants. Nucleic Acids Res. 44 (D1), D862-D868 (2016).
Kircher, M., et al. A general framework for estimating the relative pathogenicity of human genetic variants. Nat Genet. 46 (3), 310-315 (2014).
Kumar, P., Henikoff, S., Ng, P. C. Predicting the effects of coding non-synonymous variants on protein function using the SIFT algorithm. Nat Protoc. 4 (7), 1073-1081 (2009).
Adzhubei, I. A., et al. A method and server for predicting damaging missense mutations. Nat Methods. 7 (4), 248-249 (2010).
Bertram, L., McQueen, M. B., Mullin, K., Blacker, D., Tanzi, R. E. Systematic meta-analyses of Alzheimer disease genetic association studies: the AlzGene database. Nat Genet. 39 (1), 17-23 (2007).
Xiong, H. Y., et al. The human splicing code reveals new insights into the genetic determinants of disease. Science. 347 (6218), (2015).
Desmet, F. O., et al. Human Splicing Finder: an online bioinformatics tool to predict splicing signals. Nucleic Acids Res. 37 (9), e67 (2009).
Richards, S., et al. Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology. Genet Med. 17 (5), 405-424 (2015).
Li, Q., Wang, K. InterVar: Clinical Interpretation of Genetic Variants by the 2015 ACMG-AMP Guidelines. Am J Hum Genet. 100 (2), 267-280 (2017).
Yang, Z. L., Sun, G. L. High-frequency, low-coverage "false positives" mutations may be true in GS Junior sequencing studies. Scientific Reports. 7, (2017).
Gandhi, P. N., Wang, X., Zhu, X., Chen, S. G., Wilson-Delfosse, A. L. The Roc domain of leucine-rich repeat kinase 2 is sufficient for interaction with microtubules. J Neurosci Res. 86 (8), 1711-1720 (2008).
Goldwurm, S., et al. The G6055A (G2019S) mutation in LRRK2 is frequent in both early and late onset Parkinson’s disease and originates from a common ancestor. J Med Genet. 42 (11), e65 (2005).
Caiazzo, M., et al. Direct generation of functional dopaminergic neurons from mouse and human fibroblasts. Nature. 476 (7359), 224-227 (2011).
Grimes, D. A., et al. Translated mutation in the Nurr1 gene as a cause for Parkinson’s disease. Mov Disord. 21 (7), 906-909 (2006).
Collins, F. S., Hamburg, M. A. First FDA authorization for next-generation sequencer. N Engl J Med. 369 (25), 2369-2371 (2013).
Van der Auwera, G. A., et al. From FastQ data to high confidence variant calls: the Genome Analysis Toolkit best practices pipeline. Curr Protoc Bioinformatics. 43, 11-33 (2013).
Treangen, T. J., Salzberg, S. L. Repetitive DNA and next-generation sequencing: computational challenges and solutions. Nat Rev Genet. 13 (1), 36-46 (2011).
Shin, S., Park, J. Characterization of sequence-specific errors in various next-generation sequencing systems. Mol Biosyst. 12 (3), 914-922 (2016).
Povysil, G., et al. panelcn.MOPS: Copy-number detection in targeted NGS panel data for clinical diagnostics. Hum Mutat. 38 (7), 889-897 (2017).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

Dilliott, A. A., Farhan, S. M., Ghani, M., Sato, C., Liang, E., Zhang, M., McIntyre, A. D., Cao, H., Racacho, L., Robinson, J. F., Strong, M. J., Masellis, M., Bulman, D. E., Rogaeva, E., Lang, A., Tartaglia, C., Finger, E., Zinman, L., Turnbull, J., Freedman, M., Swartz, R., Black, S. E., Hegele, R. A. Targeted Next-generation Sequencing and Bioinformatics Pipeline to Evaluate Genetic Determinants of Constitutional Disease. J. Vis. Exp. (134), e57266, doi:10.3791/57266 (2018).

Dirigida tubería de Bioinformática y secuenciación de próxima generación para evaluar determinantes genéticos de la enfermedad constitucional

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

Dirigida tubería de Bioinformática y secuenciación de próxima generación para evaluar determinantes genéticos de la enfermedad constitucional

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

✖

To prove you're not a robot, please enter the text in the image below