Genetics

Direcionado a próxima geração sequenciamento e bioinformática da Pipeline para avaliar determinantes genéticos da doença constitucional

Published: April 4, 2018 doi: 10.3791/57266

Allison A. Dilliott^1,2, Sali M.K. Farhan³, Mahdi Ghani⁴, Christine Sato⁴, Eric Liang⁵, Ming Zhang⁴, Adam D. McIntyre¹, Henian Cao¹, Lemuel Racacho^6,7, John F. Robinson¹, Michael J. Strong^1,8, Mario Masellis^9,10, Dennis E. Bulman^6,7, Ekaterina Rogaeva⁴, Anthony Lang^10,11, Carmela Tartaglia^4,10, Elizabeth Finger^12,13, Lorne Zinman⁹, John Turnbull¹⁴, Morris Freedman^10,15, Rick Swartz⁹, Sandra E. Black^9,16, Robert A. Hegele^1,2

¹Robarts Research Institute, Schulich School of Medicine and Dentistry, Western University, ²Department of Biochemistry, Schulich School of Medicine and Dentistry, Western University, ³Analytic and Translational Genetics Unit, Center for Genomic Medicine, Harvard Medical School, Massachusetts General Hospital, Stanley Centre for Psychiatric Research, Broad Institute of MIT and Harvard, ⁴Tanz Centre for Research in Neurodegenerative Diseases, University of Toronto, ⁵School of Medicine, Faculty of Health Sciences, Queen's University, ⁶Faculty of Medicine, Department of Biochemistry, Microbiology and Immunology, University of Ottawa, ⁷CHEO Research Institute, Faculty of Medicine, University of Ottawa, ⁸Department of Clinical Neurological Sciences, Western University, ⁹Division of Neurology, Department of Medicine, Sunnybrook Health Sciences Centre, University of Toronto, ¹⁰Division of Neurology, Department of Medicine, University of Toronto, ¹¹Morton and Gloria Shulman Movement Disorders Centre, Toronto Western Hospital, ¹²Department of Clinical Neurological Sciences, Schulich School of Medicine and Dentistry, Western University, ¹³Parkwood Institute, St. Joseph's Health Care, ¹⁴Department of Medicine, Division of Neurology, McMaster University, ¹⁵Division of Neurology, Department of Medicine, Baycrest Health Sciences, ¹⁶Canadian Partnership for Stroke Recovery Sunnybrook Site, Sunnybrook Health Science Centre, University of Toronto

Summary

Alvo da próxima geração sequenciamento é uma abordagem de tempo e custo-eficiente que está se tornando cada vez mais popular na pesquisa da doença e diagnóstico clínico. O protocolo descrito aqui apresenta o fluxo de trabalho complexo necessário para sequenciamento e bioinformática processo usado para identificar variantes genéticas que contribuem para a doença.

Abstract

Sequenciamento de próxima geração (NGS) está revolucionando rapidamente como é realizada a investigação sobre os determinantes genéticos da doença constitucional. A técnica é altamente eficiente, com milhões de leituras de sequenciamento, sendo produzidas em um curto espaço de tempo e a um custo relativamente baixo. Especificamente, a NGS alvo é capaz de investigações de foco para regiões genômicas de particular interesse, com base na doença de estudo. Não só faz isto ainda reduzir os custos e aumentar a velocidade do processo, mas diminui a carga computacional que muitas vezes acompanha NGS. Embora alvo NGS é restrita a determinadas regiões do genoma, impedindo a identificação dos potenciais novos loci de interesse, pode ser uma excelente técnica quando confrontado com uma doença fenotipicamente e geneticamente heterogênea, para os quais existem anteriormente associações genéticas conhecidas. Devido à natureza complexa da técnica de sequenciamento, é importante aderir intimamente para protocolos e metodologias para realizar leituras de sequenciamento de alta cobertura e qualidade. Além disso, uma vez que são obtidas leituras de sequenciamento, um fluxo de trabalho sofisticado de Bioinformática é utilizado para mapear com precisão lê um genoma de referência, para chamar variantes e para garantir que as variantes passam métricas de qualidade. Variantes também devem ser anotadas e curadas com base na sua importância clínica, que pode ser padronizada, aplicando o colégio americano de genética médica e genómica patogenicidade orientações. Os métodos apresentados neste documento exibirá as etapas envolvidas em gerar e analisar dados NGS de um painel de sequenciamento alvo, usando o painel de doenças neurodegenerativas ONDRISeq como modelo, para identificar variantes que podem ser de significância clínica.

Introduction

Como definindo os determinantes genéticos de várias condições assume uma prioridade maior na pesquisa e na clínica, sequenciamento de próxima geração (NGS) está provando para ser uma ferramenta de alto rendimento e baixo custo para alcançar esses objetivos¹^,² ^,³. Há quase 40 anos, Sanger sequenciamento tinha sido o padrão-ouro para a identificação de variantes genéticas⁴; no entanto, para doenças com heterogeneidade genética ou etiologia genética desconhecida, muitos genes possível candidato devem ser avaliados, muitas vezes simultaneamente. Neste contexto, Sanger sequenciamento torna-se caro e demorado. No entanto, NGS envolve sequenciamento paralelo maciço de milhões de fragmentos de DNA, permitindo uma técnica eficiente de custo e tempo simultaneamente detectar uma ampla gama de variação genética em várias regiões do genoma.

Existem três tipos de NGS para sequenciamento de DNA: 1) do inteiro-genoma sequenciamento (WGS), sequenciamento 2) todo-exome (WES) e sequenciamento 3) alvo⁵. GTS avalia todo o conteúdo de genoma de um indivíduo, enquanto WES envolve apenas as regiões codificantes de proteínas do genoma⁶de sequenciamento. Alvo de sequenciamento, em contraste, centra-se em regiões específicas do genoma, com base em relativamente poucos genes específicos ligados por mecanismos patológicos comuns ou conhecido fenótipo clínico. Os exões ou os intrões ou quaisquer regiões intergênicas de um gene ou grupo específico de genes podem ser especificadas usando esta abordagem. Portanto, alvo de sequenciamento pode ser uma excelente abordagem quando já existe uma base de genes candidatos conhecido para ser associado com a doença de interesse. Como alvo regiões específicas do genoma permite a eliminação do supérflua e irrelevante variação genética que pode nublar ou distrair da interpretação clínica. Enquanto WGS e WES ambos produzem uma grande quantidade de dados de alta qualidade, a quantidade de dados pode ser esmagadora. Não só esta grande quantidade de dados requer análise bioinformática computacionalmente intensivas, mas de armazenamento de dados com frequência pode apresentar problemas⁷. Este desafio de armazenamento de dados também adiciona custos adicionais a GTS e WES, que muitas vezes não é considerado inicialmente ao calcular a despesa de sequenciamento. Além disso, embora ele está diminuindo, o custo do GTS e WES continuam relativamente altas. Sequenciamento de alvo pode ser uma opção mais custo-eficiente, particularmente quando o sequenciamento de um grande número de indivíduos é necessário.

O Ontário neurodegenerativas doença pesquisa iniciativa (ONDRI) é um estudo de coorte de multi-plataforma, toda a provincial, observacional caracterizando cinco doenças neurodegenerativas, incluindo: 1) a doença de Alzheimer e transtorno cognitivo leve, 2). esclerose lateral amiotrófica, 3) demência frontotemporal, 4) a doença de Parkinson e 5) transtorno cognitivo vascular⁸. O subgrupo de genómica ONDRI é com o objetivo de elucidar como parte da caracterização nesta coorte de base a muitas vezes com desconto, no entanto, extremamente importante paisagem genética destas doenças fenotipicamente e geneticamente heterogêneas. Doenças neurodegenerativas, portanto, são candidatos apropriados para metodologias NGS e sequenciamento alvo em particular.

Personalizado-desenhamos um painel NGS alvo, ONDRISeq, sequenciar 528 participantes envolvidos em ONDRI para as regiões codificantes de proteínas de 80 genes que foram anteriormente associadas com as cinco doenças de interesse. Com esta metodologia, somos capazes de aproveitar os dados NGS de alta qualidade de forma focada e eficiente. O design e a validação do painel ONDRISeq com vários estudos de concordância tem sido descrito anteriormente, para que o painel de ONDRISeq foi capaz de identificar o romance, variantes raras de possível significado clínico em 72,2% dos 216 casos usados para validação de painel ⁹. embora NGS tecnologia tem avançado rapidamente e notavelmente nos últimos anos, muitos pesquisadores enfrentam um desafio ao processar os dados brutos em uma lista de variantes utilizável, anotado,¹⁰. Além disso, interpretação das variantes pode ser complexa, especialmente quando confrontada com muitos que são raros ou romance¹¹.

Aqui, descrevemos de forma passo a passo, a metodologia de NGS alvo e o fluxo de trabalho associado bioinformática necessários para resequencing, variante chamada e variante anotação usando o ONDRISeq estuda como exemplo. Após a geração de dados NGS, arquivos de sequenciamento bruto devem ser alinhados para o genoma humano de referência para chamar com precisão variantes. Variantes, então, devem ser anotadas para realizar a curadoria variante subsequente. Também vamos explicar nossa implementação do colégio americano dos genética médica padrões e diretrizes para classificar com precisão variante patogenicidade.

Protocol

Para efeitos de ONDRI, protocolos de ética e consentimento informado foram obtidos com base nas placas de ética de pesquisa Baycrest Centre for cuidados geriátricos (Toronto, Ontário, Canadá); Centro para vício e Saúde Mental (Toronto, Ontário, Canadá); Elizabeth Bruyère Hospital (Ottawa, Ontário, Canadá); Hospital Geral de Hamilton (Hamilton, Ontário, Canadá); Centro de Ciências de saúde de Londres (London, Ontário, Canadá); McMaster (Hamilton, Ontário, Canadá); O Hospital de Ottawa (Ottawa, Ontário, Canadá); Parkwood Hospital (Londres, Ontário, Canadá); Hospital de St. Michael (Toronto, Ontário, Canadá); Centro de Ciências da saúde de Sunnybrook (Toronto, Ontário, Canadá); e Universidade saúde rede-Toronto Western Hospital (Toronto, Ontário, Canadá).

1. DNA isolamento de amostras de sangue humano

Colete amostras de participantes de sequenciamento em conformidade com os protocolos adequados de ética e consentimento informado.
1. Para obter o DNA de alta qualidade, tirar amostras de sangue para fins de extração.
  Nota: DNA pode também ser extraído de saliva ou células bucais, garantindo que um kit de extração de DNA apropriado é usado.
2. Se a extração de sangue, para obter um alto rendimento de DNA, coletar a amostra em três tubos de EDTA K2 4 mL, fornecendo uma amostra de volume total ~ 12 ml.
3. Centrifugar as amostras de sangue por 20 min a 750 x g, a fração em uma fase superior de plasma, fina, fase intermediária de leucócitos e uma fase inferior de eritrócitos.
Remova o plasma de amostra de sangue pipetando-lo fora do topo da amostra com uma pipeta de transferência descartável. Apropriadamente, descartar o plasma ou dispensar em múltiplas 500 alíquotas de µ l para armazenamento a-80 ° C para futuras análises bioquímicas. Certifique-se de que uma pipeta estéril, nova é usada para cada amostra.
Extrai DNA de amostra de sangue com um sangue extração kit¹² (Tabela de materiais) de acordo com as instruções do fabricante.
Nota: Se uma amostra do volume descrito acima é obtida, ~ 3 mL de leucócitos será obtido para usar na extração do DNA.
Medir a concentração de DNA inicial em ng / µ l, usando um Espectrofotômetro de espectro total¹³ (Tabela de materiais), de acordo com as instruções do fabricante.
Vá direto ao passo 2. Alternativamente, armazene o DNA a 4 ° C.

2. sequenciamento biblioteca preparação

Realizar diluições em série sobre as amostras de DNA ao longo de três dias para obter uma concentração final de 5,0 ± 1,0 ng / µ l.
1. Dilua 1 M Tris tampão pH 8,5 a 10 µM com água desionizada.
  Nota: O volume diluído dependerá do número de amostras de DNA que precisam ser diluídas nas etapas subsequentes.
2. Se realizar a diluição de DNA diretamente após a etapa 1.4, prossiga para a etapa seguinte. Se não for no mesmo dia, medir a concentração de DNA, como foi feito na etapa 1.4.
3. Com base na concentração medida, diluir a 40 µ l do DNA para ~ 10 ng / µ l usando 10 µM Tris tampão de pH 8,5 e permitir que a amostra se sentar durante a noite a 4 ° C.
4. Medir a concentração de DNA com dados¹⁴ adequado para a quantificação de DNA (Tabela de materiais), de acordo com as instruções do fabricante.
  Nota: A concentração da amostra deve ser > 10 ng / µ l por causa da baixa sensibilidade do espectrofotómetro utilizado anteriormente.
5. Com base na concentração medida, diluir 20 µ l do DNA a 10 ng / µ l usando 10 µM Tris tampão de pH 8,5 e permitir que a amostra se sentar durante a noite a 4 ° C.
6. Medir a concentração de DNA com o de dados¹⁴, de acordo com as instruções do fabricante.
7. Com base na concentração medida, diluir 10 µ l do DNA a 5 ng / µ l com pH de Tris-HCl 10 µM 8.5 e permitir que a amostra se sentar durante a noite a 4 ° C.
Prepare a biblioteca de sequenciamento de acordo com as instruções do fabricante com destino apropriado enriquecimento kit¹⁵ (tabela de materiais o alvo do painel NGS). Certifique-se de que o kit do enriquecimento é apropriado para a plataforma NGS sendo usada.
1. Siga instruções¹⁶ sobre a complexidade e o pool de bibliotecas do fabricante.
  Nota: Para ONDRISeq, as bibliotecas são compostas de 12 amostras de DNA, agrupadas em conjuntos de dois e executar no instrumento desktop NGS (Tabela de materiais). O número de amostras que podem ser executados em uma única reação vai depender do kit de sequenciamento e plataforma usada.
2. Para obter dados de sequenciamento de qualidade superiores, execute a etapa opcional para validar a qualidade de biblioteca de DNA tagmentation, descrito nas instruções do fabricante do kit enriquecimento alvo¹⁵a seguir.
  1. Analise cada biblioteca em triplicado para garantir a qualidade do rendimento da biblioteca.
3. Se o pooling de bibliotecas, medir a concentração de DNA com os dados de¹⁴, de acordo com as instruções do fabricante. Use esta concentração para determinar o volume de cada biblioteca de DNA para piscina para obter as relações equimolar recomendadas pelo kit enriquecimento alvo sendo usado.

3. geração sequenciamento

Sequência da biblioteca de acordo com o instruções¹⁷^,¹⁸ (tabela de materiais do fabricante do kit reagente do instrumento desktop NGS).
1. Prepare uma folha de amostra de acordo com o instruções¹⁸ usando o NGS tecnologia software apropriado (Tabela de materiais), que será importado para o fluxo de trabalho do instrumento desktop NGS do fabricante.
  Nota: Para efeitos de ONDRISeq, a opção de aplicação escolhida 'outro', está com apenas os FASTQ os arquivos solicitados (Figura 1). As etapas subsequentes processará esses arquivos FASTQ, para permitir a total personalização dos parâmetros de qualidade e alinhamento. No entanto, se alvo sequenciamento é escolhido, alguns instrumentos NGS são capazes de processar os dados de sequenciamento em próprios arquivos VCF. De instruções do fabricante¹⁸ pode ser consultado para uma seleção completa de opções.
2. Se usando um baseada em nuvem computação ambiente¹⁹ (Tabela de materiais), logar ao configurar o sequenciamento de executar. Fazer isso depois de clicar "em sequência" na home page da NGS instrumento desktop.
3. Biblioteca da desnaturação¹⁸ de acordo com as instruções do fabricante, na sequência de medir concentração de biblioteca de DNA com o de dados¹⁴.
4. Valide a qualidade de biblioteca de DNA usando um sistema de electroforese automatizado adequado e DNA qualidade análise kit²⁰ (Tabela de materiais), conforme as instruções do fabricante.
5. Para converter a concentração de DNA do ng / µ l nM, use a seguinte fórmula¹⁶
  
  Nota: Tamanho médio biblioteca será específico para o kit de enriquecimento de destino sendo usado e pode ser obtido o rastreamento de electroforese observado na etapa 3.1.4.
6. Diluir a biblioteca de sequenciamento para uma concentração final de 6-20 pM, conforme o caso e o volume de 600 μL, de acordo com as instruções de^{21 do fabricante}.
  Nota: A concentração exacta necessária é dependente o sequenciamento kit usado. Consulte o fabricante do kit de enriquecimento para determinar a concentração de carga adequada.
7. Diluir, desnaturar e incluir um controle positivo sequenciamento biblioteca²¹, de acordo com as instruções do fabricante.
8. Manter um log de cada sequenciamento executar, que inclui a concentração de biblioteca de DNA carregado (pM), a percentagem de controlo positivo adicionado, reagente cartucho de código de barras, aplicativo escolhido na etapa 3.1.1, número de leituras do índice, kit de enriquecimento usado, leia o comprimento ou Lmin e o nome da folha de amostra.
  Nota: O tempo de execução do instrumento desktop NGS dependerá do instrumento, kit de enriquecimento e ler comprimentos escolhidos (4 – 56 h para o sequencer usado no presente experimento²²).
Após a conclusão da execução de sequenciamento, acesse o "executar pasta", que inclui todas as saídas, navegando para a área de trabalho do instrumento NGS home page e clicar em "Gerenciar arquivos". Mova os arquivos para uma unidade local para posterior acesso. Para uma opção separada, em um computador, encontre os arquivos dentro de ambiente computacional baseado em nuvem¹⁹ selecionando "Runs" no painel de navegação. Selecione o sequenciamento adequado executar para navegar para a página de Resumo de executar. Selecione "Download" para obter dados de nuvem. Na caixa de diálogo que aparece, selecione os arquivos FASTQ como o tipo de arquivo para download e clique em "Download".
Na página Resumo de executar o baseada em nuvem computação ambiente¹⁹^,²³, navegue até "Charts" para analisar a qualidade do sequenciamento de executar com as várias figuras produzidas pelo ambiente de computação. Referir-se de instruções do fabricante²³ para obter detalhes sobre cada figura produzido.
1. Na página executar gráficos, encontre a figura rotulada "Dados pelo ciclo". Em gráfico, selecione "Intensidade" e em canal, selecione "Todos os canais". Certifique-se de que este lote de intensidade do sinal produzido é semelhante ao produzido por sequenciamento execuções realizadas no passado com o mesmo kit de enriquecimento e instrumento desktop NGS.
  Nota: Isto reflete o percentual de intensidade mostrado por cada base em todos os ciclos de 150. A figura pode variar amplamente dependendo do kit de enriquecimento usado, é por isso que deve ser comparado ao passado corre de sequenciamento do painel mesmo.
2. Selecione a guia "Indexação QC" dentro do painel de navegação execução encontrar o histograma indexação de controle de qualidade (QC), que é do lado direito da página. Certifique-se que uma distribuição relativamente uniforme de % lê identificado (PF) é observada em todas as amostras.
  Nota: Se qualquer amostras têm um muito menor % lê identificado (PF) do que o resto das amostras, nota que a qualidade dos dados de sequenciamento pode ser afectada.
A página Resumo executar o ambiente de computação baseado em nuvem, navegue até as métricas de qualidade, clicando em "Métricas" dentro do painel de navegação de execução.
Nota: Cortes de métricas dependerá o kit de plataforma e enriquecimento de sequenciamento sendo usado. Existem muitas métricas que podem ser utilizadas com base em instruções de²³, do fabricante com as etapas a seguir destacar três que são altamente recomendados para controle de qualidade.
1. Sob a "Densidade" (K/MM²) garantir a densidade do aglomerado está dentro do intervalo recomendado pelo kit enriquecimento sendo usado (neste caso de 1.200-1.400 K/mm²).
2. Sob o total "% ≥Q30" Certifique-se de que o valor é ≥ 85%, refletindo a qualidade de leituras o sequenciamento.
  Nota: Se inferior a esse limite de 85%, nota que a qualidade do sequenciamento pode ser comprometida.
3. Sob "Alinhado (%)" Certifique-se de que o valor é semelhante a % de controlo positivo que foi incluído em executar o sequenciamento.
  Nota: Esta age como uma medida de controle positivo, tal que apenas essa percentagem do totais leituras foram encontrados para alinhar o genoma de controle positivo. Se o controlo positivo de 1% foi usado seria de esperar que o alinhado (%) seria ~ 1 – 5%.

Figura 1: opções de aplicação de criador de folha da amostra Screenshot de NGS tecnologia do software (tabela de materiais). Para efeitos de ONDRISeq, a única aplicação de FASTQ é usada. No entanto, se o usuário deseja que outros arquivos produzidos, tais como arquivos VCF, recomenda-se que um aplicativo dentro da categoria de resequencing alvo é usado. Clique aqui para ver uma versão maior desta figura.

4. resequencing e variante ligando

Para pré-processamento de dados, selecione o software adequado para alinhar os arquivos raw de FASTQ para o genoma de referência humana e chamam variantes (Tabela de materiais).
Importe FASTQ sequenciamento leituras para o software de pré-processamento de dados.
Nota: Para efeitos de ONDRISeq, os 48 arquivos FASTQ produzidos a partir de uma corrida única sequenciamento de 24 amostras são importados e processados através do software. O número de amostras processadas ao mesmo tempo pode variar dependendo do tamanho do painel NGS e as necessidades do pesquisador.
1. Dentro da "área de navegação", clique direito e selecione "Nova pasta". Nomeie a pasta tal que não há clareza quanto a sequência que foi realizada.
2. Na barra de ferramentas na parte superior, selecione "Importar". Na lista suspensa lista de plataformas de sequenciamento mostrado escolheu a plataforma com o qual realizou-se o sequenciamento.
  Nota: Para efeitos de ONDRISeq, "Illumina" é escolhido. No entanto, se utilizar uma consulta de plataforma de sequenciamento de diferentes as instruções do fabricante para o restante da parte importadora FASTQ passos²⁴.
3. Na caixa de diálogo, navegue para e selecione o FASTQ arquivos a partir do sequenciamento executar que está sendo processado. Assegurar que os arquivos importados são armazenados em importados da unidade local, se utilizar um computador com vários servidores.
4. Das "opções gerais" da caixa de diálogo, clique na caixa ao lado de "Leituras de cobertura" se sequenciamento usado químicas final emparelhados.
  Nota: neste caso, também deverá haver duas amostras FASTQ importadas para cada amostra - uma frente e uma ré.
5. A cobertura de ler as informações da caixa de diálogo, selecione "Cobertura-final (frente reverso)" se avançar a ler FASTQ arquivo aparece antes da leitura inversa na lista de arquivos. Se os arquivos aparecem na ordem oposta, selecione "Mate-par (reverso panorâmico)". Defina o emparelhados Leia distância mínima de 1 e a distância máxima de 1000, para permitir a detecção de rearranjos estruturais de pequena escala dentro as sequências de amostra.
6. As "opções de Illumina" da caixa de diálogo, selecione "Remover falha leituras", para remover as leituras que falhou o sequenciamento. Se o instrumento de desktop NGS de multiplexado os dados antes de exportar os arquivos FASTQ não marque a caixa "MiSeq de-multiplexing".
7. "Score de qualidade" na lista suspensa, selecione o NGS Pipeline que foi utilizada para o sequenciamento. Selecione "Next" na parte inferior da caixa de diálogo.
  Nota: O encanamento usado afetará o formato dos escores de qualidade de arquivo FASTQ. Para obter mais informações sobre qual oleoduto para selecionar, consulte instruções^{24 do fabricante}.
8. Da nova caixa de diálogo, selecione "Save" e "criar subpastas por unidade de banho para colocar arquivos FASTQ de cada amostra em sua própria pasta individual. Selecione "Next" na parte inferior da caixa de diálogo.
9. A nova caixa de diálogo, escolha a pasta que foi criada no passo 4.2.1. Isto é onde os arquivos FASTQ serão importados. Selecione "Concluir" na parte inferior da caixa de diálogo e esperar até que os arquivos FASTQ são importados. Clique na guia "Processos" para ver o status de importar o arquivo.
Projete um fluxo de trabalho dentro do software para executar resequencing e variante chamada, de acordo com as instruções do fabricante.
Nota: Este fluxo de trabalho pode variar de acordo com as necessidades do pesquisador, mas as etapas a seguir abrangem o que está incluído para fins de ONDRISeq (Figura 2). As etapas no fluxo de trabalho podem ser aplicadas a outros NGS resequencing e variante software chamada conforme apropriado. Bioinformática todo processamento para fins de ONDRI é executada em referência ao genoma humano referência GRCH37/hg19, para a consistência de processamento de dados e análise.
1. Mapear as leituras de sequenciamento do genoma de referência.
  1. Ao configurar, escolha o genoma de referência conforme o caso, garantindo que é o mesmo genoma de referência que é usado para todas as etapas de Bioinformática.
  2. O modo de máscara lista drop-down selecione "Sem máscara" para que não há regiões da sequência de referência são mascaradas.
  3. Use o padrão de mapeamento de opções atribuídas pelo software. Revisão de instruções do fabricante²⁴ para verificar se este é aceitável com base em efeitos da pesquisa.
2. Incluem o realinhamento de locais de fluxo de trabalho para o genoma humano de referência para resolver qualquer leitura, mapeamento de erros, particularmente em torno variantes de inserção-exclusão.
  1. Use as opções de realinhamento local padrão atribuídas pelo software. Revisão de instruções do fabricante²⁴ para verificar se este é aceitável com base em efeitos da pesquisa.
3. Remova duplicadas leituras mapeadas produzidas pelo PCR, no âmbito do protocolo NGS para reduzir o efeito de viés de amplificação da PCR, que podem produzir falsos positivos²⁵.
  1. Defina a "máxima representação de sequência de minoria (%)", com base nas necessidades da pesquisa.
    Nota: Uma configuração branda, como usado para fins de ONDRISeq, é de 5%; no entanto, a configuração do padrão do software é mais rigorosas 20%. Quando as duas leituras são muito semelhantes, essa configuração determina se a sequência com menos contagens de leitura deve ser considerada um erro de sequenciamento de viés de amplificação da PCR. Portanto, por definição 5%, a minoria li contagem deve ser ≤ 5% da maioria ler a contagem a ser corrigido para ser idêntico ao ler a maioria.
4. Exporte as estatísticas para as regiões de destino, sob a forma de um arquivo de texto do Resumo de cobertura das faixas de leitura geradas na etapa 4.3.3. Ignore partidas não-específica e pares quebrados nas configurações. Escolha um destino na unidade local para esses arquivos.
5. Exporte um arquivo de mapa (BAM) de alinhamento de sequência binária para cada amostra das faixas de leitura geradas na etapa 4.3.3. Contém dados de alinhamento da sequência, se necessário, no futuro, análises. Escolha um destino na unidade local para esses arquivos.
6. Escolha um método de detecção de variante de chamar variantes dentro da sequência.
  Nota: Quando podem ser feitas suposições sobre a ploidia das amostras, é recomendável que um algoritmo de detecção de variantes de ploidia fixo ser usado, como é usado para fins de ONDRISeq. Se esta hipótese não pode ser feita, consulte de instruções do fabricante²⁴ para determinar o melhor algoritmo para fins de pesquisa.
  1. Ao configurar, desde a ploidia fixa parâmetros variante opções definidas a ploidia conforme apropriado para o organismo de amostra. Defina a "probabilidade variante necessária", ou a probabilidade que uma variante foi chamada corretamente em ordem para que possa ser mantido, em 90.0%.
  2. Use as seguintes configurações para os filtros gerais recomendadas: "Mínimo cobertura" de 10 x, "Count mínimo" 2, "Mínimo ler frequência" de 20%, "Ignore quebrado pares", ignorar inespecíficas correspondências com base na "Leituras", e "Mínimo ler comprimento" de 20.
    Nota: Estes parâmetros são baseados em efeitos de ONDRISeq. Referir-se de instruções do fabricante²⁴ para garantir que eles são adequados para a pesquisa que está sendo feita.
  3. Use as seguintes configurações para os filtros de ruído recomendadas: "Base de filtros de qualidade" com um "raio de vizinhança" mapeamento do índice de qualidade de 5, "mínimo central qualidade" mapeamento de Pontuação de 20 e pontuação de mapeamento de "Qualidade de vizinhança mínimo" de 15 anos; um "filtro de direção de leitura" de 5,0%; e "Parente ler filtro direção" de 1,0% de significância.
    Nota: Estes parâmetros são baseados em efeitos de ONDRISeq. Referir-se de instruções do fabricante²⁴ para garantir que eles são adequados para a pesquisa que está sendo feita.
7. Filtrar as variantes que têm sido chamadas com base na sua sobreposição com regiões-alvo do painel alvo como especificado pelo arquivo de dados extensível navegador (cama), permitindo apenas variantes que ocorrem dentro das regiões genômicas selecionadas para o painel NGS direcionado para ser retidas.
  Nota: O arquivo de cama será exclusivo para o painel NGS alvo que está sendo utilizado, com base em regiões do genoma que o painel é capaz de cobrir.
8. Exporte um relatório variante em um arquivo de formato (FCR) chamada variante da trilha variante produzida na etapa 4.3.7. Escolha um destino na unidade local para esses arquivos.
9. Salvar e instalar o fluxo de trabalho de acordo com as instruções do fabricante²⁴para torná-lo disponível no "Toolbox" do software. Garantir que o fluxo de trabalho é chamado de tal que é claro no futuro que painel NGS é apropriada para.
  1. Na caixa de diálogo com as opções "Exportar dados de referência" durante a instalação, defina todas as opções de "Pacote".
  2. Na caixa de diálogo com as opções "Local de instalação" durante a instalação, clique em "Instalar o fluxo de trabalho no computador local".
Execute FASTQ sequenciamento Leia os arquivos importados através do fluxo de trabalho personalizado bioinformática projetado na etapa 4.3, de acordo com instruções^{24 a fabricante}.
1. Identificar o fluxo de trabalho projetado na etapa 4.3 "Caixa de ferramentas" do software e clique duas vezes nele.
2. Caixa de diálogo que aparece, localize as pastas de arquivos FASTQ que foram importados na etapa 4.2 dentro da área de"navegação". Destacar todas as pastas, selecionando-os dentro da área de"navegação" e, em seguida, clique na caixa ao lado de "Lote". Use a seta para a direita para mover os arquivos para "Elementos de Selected". Clique em "Next" na parte inferior da caixa de diálogo.
3. Dentro da caixa de diálogo, rever a visão"Batch" para garantir que os arquivos corretos do FASTQ foram selecionados e clique em "Avançar".
4. Revisão as seguintes etapas do fluxo de trabalho dentro da caixa de diálogo para assegurar os arquivos corretos e locais de exportação foram selecionadas ao projetar o fluxo de trabalho na etapa 4.3: "Mapa lê a referência"; Remover duplicadas leituras mapeadas"; "Criar estatísticas para regiões-alvo"; "BAM"de exportação; "Exportação delimitado por tabulação texto"; "Filtro com base na sobreposição"; e "Exportar VCF"
5. Na etapa final na caixa de diálogo-"manipulação de resultado" - Selecione a opção "salvar na pasta entrada." Clique em "Concluir" na parte inferior da caixa de diálogo.
  Nota: Isto significa que os arquivos produzidos para cada amostra será colocada na mesma pasta que armazena o arquivo FASTQ dentro os pre-software de processamento de dados.

Figura 2: fluxo de trabalho para a variante chamada de FASTQ e resequencing arquivos dentro os dados pré-processamento software (tabela de materiais) personalizado para fins de ONDRISeq. As etapas do fluxo de trabalho podem ser aplicadas a outros resequencing NGS e variante chamada software baseado nas necessidades do pesquisador. Clique aqui para ver uma versão maior desta figura.

5. variante anotação

Faça o download e personalizar o script de²⁶ anotar variação (ANNOVAR) para executar a variante anotação sobre o arquivo VCF de cada amostra.
1. Baixar os seguintes bancos de dados do ANNOVAR para ser incluído como anotações: 1) RefSeq²⁷ (atualização de agosto de 2015); 2) dbSNP138²⁸ (actualização de setembro de 2014); 3) o consórcio de agregação Exome²⁹ (exacerbar, versão 0.3 novembro de 2015 update); 4) o nacional coração, pulmão e sangue Instituto Exome sequenciamento projeto europeu coorte³⁰ (ESP, atualização março de 2015); 5) a 1000 genomas projeto coorte Europeu³¹ (1KGP, atualização de agosto de 2015); 6) ClinVar³² (atualização março de 2016); e 7) combinado anotação depleção dependente³³ (CADD), classificação intolerante de tolerante³⁴ (PENEIRE) e PolyPhen-2³⁵.
  Nota: Genoma coordena e todos os bancos de dados referenciados por ANNOVAR referida compilação genoma humano GRCh37/hg19. Além disso, as versões de banco de dados listadas são aqueles utilizados para fins de ONDRISeq, quando baixar os bancos de dados usa as versões mais atualizadas disponíveis.
2. Se desejado, personalizar ANNOVAR para dar saída a lista completa de variantes anotadas, bem como uma compilação reduzida de variantes anotadas usando o... de operação do filtro²⁶.
  Nota: A lista reduzida pode ser personalizada com base nas necessidades do pesquisador. Para efeitos de ONDRISeq, a reduzida lista de variantes anotadas não inclui variantes que ocorrem mais do que 15 bases do mais próximo exon ou quaisquer variantes com uma frequência do alelo menor (MAF) > 3% em qualquer um dos três bancos de dados: 1) exacerbar; 2) ESP; e 3) 1KGP. Esta etapa é altamente recomendada.
3. Se desejado, personalize ANNOVAR de destacar chamadas de alelo específico com base nas necessidades do pesquisador²⁶.
  Nota: Para efeitos de ONDRISeq, ANNOVAR avalia as chamadas de sequenciamento, feitas para o rs429358 de alelos de risco APOE (C > T):p.C130R e rs7412 (C > T):p.R176C fim de saída o genótipo APOE global, dos quais existem seis possíveis combinações, incluindo: 1) E2/E2; 2) E2/E3; 3) E4/E2; 4) E3/E3; 5) E3/E4; 6) E4/E4. Estes seis genótipos possíveis de APOE , E4/E4 é o fator de risco genético mais comumente aceitado para o desenvolvimento da doença de Alzheimer de início tardio³⁶.
Consulta a bancos de dados de mutação de doença (tabela de materiais) para determinar se as variantes foram anteriormente associadas com doença, com provas razoáveis. Considere quaisquer variantes que não foram anteriormente relatados como uma variante do romance.
1. Avaliar as anotações de ANNOVAR de ClinVar, tal que as variantes associadas a doença incluem quaisquer classificadas como provável patogenicidade ou patogenicidade.
Processo de splicing variantes através da previsão em silico ferramentas emenda com base em análise de variantes³⁷ (SPANR) e humana Splicing Finder³⁸ (HSF, versão 3.0).
Se processando um grande número de amostras, compare as chamadas variantes dentro de cada amostra para determinar que as variantes são compartilhadas por várias amostras. Fazer isso manualmente ou com um script personalizados, permitindo a detecção de possíveis sequenciamento artefatos e eventos de contaminação.
Nota: Para efeitos de ONDRI, um script personalizado é usado para anotar os arquivos de saída ANNOVAR, comparando-os um ao outro. O script incorpora uma anotação, por variante, com o ID de objecto de qualquer outras amostras, abrigando a mesma variante, caso contrário, denominada história da variante a coorte de estudo.
Classificar variantes baseadas no colégio americano de genética médica (ACMG) patogenicidade diretrizes³⁹, atribuindo cada variante uma classificação como um dos seguintes: 1) patogénicos; 2) provavelmente patogénicos; 3) variante de significado incerto; 4) provavelmente benigno; ou 5) benigno.
Nota: Para efeitos de ONDRI, um script de Python projetado in-house é usado para executar a classificação ACMG de forma semi-automática. Embora não usado para este estudo, InterVar⁴⁰ é uma ferramenta projetada da mesma forma que pode ser utilizada de forma análoga.
Sanger sequenciar quaisquer variantes com uma cobertura de sequenciamento de < 30 x e/ou variantes que foram identificadas em > 10% da coorte estudo para validar que eles não são sequenciamento artefatos⁴¹.

Representative Results

As metodologias aqui descritas foram aplicadas a 528 participantes amostras de DNA de indivíduos que tenham sido matriculados em ONDRI. As amostras foram executadas no painel de ONDRISeq em 22 corridas de 24 amostras por execução. Em geral, dados de sequenciamento estavam determinados a ser de alta qualidade com uma cobertura de amostra média de 78 ± 13 x e todas as execuções individuais expressaram uma cobertura da amostra média > 30 x. Além disso, em média, 94% de todas as regiões-alvo foram cobertos pelo menos 20 x (tabela 1).

Uma média de 95,6% das leituras foram mapeados para a sequência de referência e todos os ONDRISeq é executado tinha > 90% de leituras mapeado (tabela 1). Das leituras mapeadas, 92,0% tinha um PQV partitura ≥Q30, com apenas um correr tendo < 80% de leituras mapeadas reunião essa métrica de qualidade. No entanto, esta execução ainda exibido uma cobertura média de x 79 e 93% da meta regiões foram cobertos pelo menos 20 x.

Parâmetro	Quer dizer (±sd)	Melhor desempenho	Desempenho mais pobre
Densidade do aglomerado (x 10³²/mm)	1424 (±269)	1347	1835
Total de leituras (10⁶)	43,1 (±6.0)	48,7	47,4
Mapeado leituras (10⁶)	40,1 (±6.0)	47.1	25,7
Lê mapeada (%)	95.6 (±1.3)	96.8	92,6
Qualidade de PQV Pontuação ≥Q30 (%)	92,0 (±6.0)	92	68,3
Cobertura de amostra (x)	78 (±13)	99	51

Tabela 1: Métricas de qualidade para 22 de sequenciamento é executado em ONDRISeq.

Estudo de caso: Identificação de variantes raras em um paciente de PD.

Para demonstrar a utilidade do nosso fluxo de trabalho NGS alvejado, apresentamos o exemplo de uma paciente de 68 anos, do sexo masculino, a doença de Parkinson. A amostra de DNA estava sendo executada o instrumento NGS desktop usando o painel de ONDRISeq ao lado de outros 23 amostras ONDRI (Tabela de materiais). A gerência exibido uma densidade do aglomerado de 1.555 x 10³/mm². Determinada amostra do paciente exibido uma cobertura média de 76 x, com 93,9% do destino de regiões cobertas pelo menos 20 x.

Depois de executar a chamada variante e anotação com o fluxo de trabalho personalizado da bioinformática, o paciente foi encontrado para harbor 1351 variantes dentro os exões e circundante 250 bp dos 80 genes incluído no painel ONDRISeq. No entanto, o pipeline ANNOVAR foi capaz de reduzir o número de variantes, considerando a sequência variante ontologia e MAF, conforme descrito acima. Isto produziu uma lista de sete variantes que foram submetidos a curadoria manual (Figura 3). De sete variantes, dois foram identificados como tendo significância clínica possível. Este processo é específico para as necessidades de ONDRI e foi feito por identificar aqueles que são relativamente raras na população geral e são nonsynonymous na ontologia, causando uma mudança na proteína. Se a variante tinha sido previamente associada com a doença, as previsões em silico de deleteriousness para a proteína e a classificação de patogenicidade ACMG das variantes também foram utilizados neste processo.

O primeiro identificado na lista reduzida foi uma variante heterozigota, ou seja, LRRK2: c.T3939A, tendo por resultado o p.C1313* variante do absurdo. LRRK2 codifica a proteína rica em leucina repetir quinase 2, que possui tanto de GTPase e quinase atividade⁴². Além disso, mutações dentro deste gene são conhecidas para estar entre as principais causas de doença de Parkinson familiar⁴³. Esta variante apresenta um códon de parada prematuro dentro LRRK2, perdendo assim o amino-ácido resíduos 1.314 – 2, 527. Isso impede que a tradução Ras da proteína de proteínas complexas (Roc), C-terminal da Roc (CR) e de domínios da proteína quinase, que estão envolvidas no funcionamento como um atípico de GTPase, GTP proteína e proteína quinase, respectivamente e foi previstos ser prejudicial pela análise em silico gerada pelo CADD (CADD PQV = 36). Esta variante também é rara com um MAF de 0,004% e 0,01% em exacerbar e ESP, respectivamente e está ausente do banco de dados de 1000G. Além disso, este é o único paciente fora todos os 528 sequenciado que carrega esta variante, que é o romance, já que não foi previamente descrito em bancos de dados de mutação de doença (Tabela de materiais). A confiança da variante chamada foi confirmada por sua profunda cobertura de 109 x. Finalmente, a variante foi avaliada com a AMCG normas e diretrizes para a patogenicidade e foi classificada como sendo patogênicos.

O paciente também carregava uma segunda variante heterozigota, NR4A2: c.C755A, resultando em p.P252Q de mudança do missense. A proteína codificada pelo NR4A2, Nuclear Receptor subfamília 4 grupo A membro 2, é um fator de transcrição envolvido na geração de de neurônios dopaminérgicos⁴⁴ e mutações dentro deste gene tem sido previamente associadas com a doença de Parkinson doença de⁴⁵. A substituição da prolina não-polar para a polar glutamina foi prevista para ser prejudicial em silico previsão análise gerada pelo CADD (CADD PQV = 21,1), mas não pela análise gerada pelo SIFT ou PolyPhen-2. A variante é rara, com um MAF de 0,004% em exacerbar e ausência de ESP e 1000G. A variante também foi identificada em um participante ONDRI diagnosticado com transtorno cognitivo vascular, mas não tem sido descrita anteriormente em bancos de dados de mutação de doença. Este variant tinha cobertura de apenas 18 x, entretanto, Sanger sequenciamento será executado para garantir a sua validade dentro da sequência. Finalmente, a variante foi determinada como sendo de significado incerto quando avaliados com o ACMG normas e diretrizes para a patogenicidade.

O pipeline de painel e bioinformática do ONDRISeq também é capaz de determinar o genótipo APOE de cada amostra. Este paciente estava determinada a ter o genótipo APOE E3/E3.

Figura 3: exemplo de uma saída reduzida de ANNOVAR exibindo manualmente com curadoria, anotado variantes. A saída ANNOVAR reduzida desde o estudo de caso de uma paciente de 68 ano de idade, do sexo masculino, com doença de Parkinson. Anotado as variantes são curadoria para identificar aqueles que são mais provável ser de significância clínica, como indicado por caixas de vermelho. Clique aqui para ver uma versão maior desta figura.

Discussion

No caminho de extração de amostra de DNA para identificar variantes que possam ser de interesse quando se considera de um paciente diagnóstico, progressão da doença e opções de tratamento possível, é importante reconhecer a natureza variada da metodologia necessária para processamento de dados apropriados e sequenciamento. O protocolo descrito neste documento é um exemplo da utilização de NGS alvo e subsequente bioinformatic análise essencial para identificar variantes raras de significância clínica potencial. Especificamente, nós apresentamos a abordagem adoptada pelo subgrupo de genómica ONDRI ao usar o painel NGS ONDRISeq personalizados.

É reconhecido que esses métodos foram desenvolvidos com base em uma plataforma específica de NGS e que existem outras plataformas de sequenciamento e kits de enriquecimento de destino que podem ser usados. No entanto, o instrumento de plataforma e desktop NGS (Tabela de materiais) foi escolhido com base no seu início E.U. Food and Drug Administration (FDA) aprovação⁴⁶. Esta autorização reflete o sequenciamento de alta qualidade que pode ser executado com os protocolos NGS de escolha e a confiabilidade que pode ser colocada sobre as leituras de sequenciamento.

Apesar de obter leituras precisas de sequenciamento com a profundidade da cobertura é muito importante, o processamento de Bioinformática necessário para análise final de variante rara é vital e pode ser computacionalmente intensivo. Devido a muitas fontes de erros que podem ocorrer dentro do processo de sequenciamento, um gasoduto de Bioinformática robusto deve corrigir para as várias imprecisões que podem ser introduzidas. Eles podem surgir de desalinhamentos no processo de mapeamento, viés de amplificação introduzida por amplificação por PCR em preparação a biblioteca e a tecnologia de produção de artefatos de sequenciamento⁴⁷. Não importa o software utilizado para realizar mapeamento leitura e variante chamada, existem maneiras comuns para reduzir esses erros, incluindo local realinhamento, remoção de duplicados leituras mapeadas e definir parâmetros adequados para controle de qualidade, ao chamar variantes. Além disso, os parâmetros escolhidos durante a chamada variante podem variar com base no que é mais adequado para o estudo em mão de¹¹. A cobertura mínima e índice de qualidade de uma variante e os nucleotídeos adjacentes que foram aplicados neste documento foram escolhidos como para criar um equilíbrio entre a sensibilidade e especificidade adequada. Estes parâmetros foram validados para o painel de ONDRISeq com base na variante chamada concordância com três distintas genéticas técnicas, conforme descrito anteriormente, incluindo: 1) baseada no chip de genotipagem; 2) ensaio alélica discriminação; e 3) de sequenciamento Sanger⁹.

Após chamar variante precisos, a fim de determinar aqueles de significância clínica potencial, anotação e curadoria são essenciais. Devido à sua plataforma de acesso aberto, ANNOVAR é uma excelente ferramenta tanto para anotação e triagem preliminar de variante ou eliminação. Além de ser facilmente acessível, ANNOVAR pode ser aplicado a qualquer arquivo de FCR, não importa que plataforma de sequenciamento é usada, e é personalizável baseado nas necessidades de pesquisa²⁶.

Após a anotação, variantes devem ser interpretadas para determinar se eles devem ser considerados de significância clínica. Não só este processo se torna complexo, mas muitas vezes é propenso a subjetividade e erro humano. Por esta razão, o ACMG estabeleceu diretrizes para avaliar a evidência para a patogenicidade de qualquer variante. Aplicamos uma abordagem curadoria de manual baseado na variante não-sinónimas, rara, que é construída baseado nestas orientações e salvaguardada avaliando individualmente cada variante que é capaz de passar através do encanamento com um design personalizado Python script que classifica as variantes baseadas nas orientações. Desta forma, cada variante é atribuída uma classificação de patogenicidade, provável significado patogénico, incerto, provavelmente benigno, ou benigno, e somos capazes de adicionar a padronização e transparência ao processo de curadoria de variante. É importante reconhecer que as especificidades de curadoria variante, além o pipeline de bioinformática, irão ser individualizadas com base nas necessidades da pesquisa e foi, portanto, para além do âmbito das metodologias apresentadas.

Embora os métodos apresentados aqui são específicos para ONDRI, as etapas descritas podem ser traduzidas quando se considera um grande número de doenças constitucionais de interesse. Como o número de associações de gene aumenta para muitos fenótipos, NGS alvo permite uma hipótese que pode capitalizar sobre as pesquisas anteriores que tem sido feita no campo de abordagem centrada. No entanto, existem limitações a NGS alvo e a metodologia apresentada. Concentrando-se apenas em regiões específicas do genoma, as áreas de descoberta são limitadas a novo alelos de interesse. Portanto, novos genes ou outros loci genômicos além daqueles abrangidos pelos alvos de sequenciamento, que podem ser revelados com GTS ou WES abordagens, não serão identificados. Há também regiões dentro do genoma que podem ser difíceis de sequência com precisão com abordagens NGS, incluindo aqueles com um alto grau de sequências repetidas⁴⁸ ou aqueles que são ricos em conteúdo de GC⁴⁹. Felizmente, quando utilizando NGS alvo, há uma priori um alto grau de familiaridade com as regiões genômicas sendo sequenciado, e se estas podem representar desafios técnicos. Finalmente, a detecção de variantes números de cópia de dados NGS actualmente não é padronizada⁵⁰. No entanto, bioinformática soluções para estas preocupações podem estar no horizonte; novas ferramentas computacionais podem ajudar a analisar estas formas adicionais de variação em pacientes ONDRI.

Apesar de suas limitações, NGS alvo é capaz de obter dados de alta qualidade, dentro de uma abordagem orientada por hipótese, mantendo-se menos caro do que suas contrapartes WGS e WES. Não é só esta metodologia apropriada para investigação eficiente e orientada, a aplicação clínica da NGS alvo está a crescer exponencialmente. Esta tecnologia está sendo usada para responder a muitas perguntas diferentes sobre as vias moleculares de várias doenças. Também está sendo desenvolvido em uma ferramenta de diagnóstica precisa a um custo relativamente baixo quando se opôs a WES e WGS. Mesmo quando comparado com o padrão-ouro Sanger sequenciamento, alvo NGS pode outcompete em seu tempo e custo-eficiência. Por estas razões, é importante para um cientista ou médico que recebe e utiliza dados NGS, por exemplo, entregados como texto em um laboratório ou um relatório clínico, para entender o complexo "caixa preta" que sustenta os resultados. Os métodos apresentados neste documento devem ajudar os usuários a entender o processo subjacente a geração e interpretação de dados NGS.

Disclosures

Os autores não têm nada para divulgar.

Acknowledgments

Gostaríamos de agradecer a todos os participantes do ONDRI para o consentimento e a colaboração com nosso estudo. Obrigado para os investigadores ONDRI (www. ONDRI.ca/people), incluindo nosso investigador (MJS) e o ONDRI que regem comitês: o Comitê Executivo, Comitê Gestor, Comitê de publicações, Comissão de recrutamento, plataformas de avaliação e equipe de gerenciamento de projeto. Agradecemos também a London Regional Genomics Centre por seus conhecimentos técnicos. Agra é suportada pela sociedade de Londres e bolsa de pós-graduação pesquisa Middlesex mestres de Alzheimer. SMKF é suportado pelo ALS Canadá Tim E. Noël Postdoctoral Fellowship.

Materials

Name	Company	Catalog Number	Comments
4 mL EDTA K2 tubes	Fisher Scientific	02-689-4
1 M Tris Buffer	Bio Basic Canada Inc.	SD8141
Gentra Puregene Blood Kit	Qiagen	158389	1,000 mL Kit. This is the blood extraction kit, referred to in step 1.3.
NanoDrop-1000 Spectrophotometer	Thermo Fisher Scientific	ND-2000	Replaced by the NanoDrop-2000 Spectrophotometer. This is the full-spectrum spectrophotometer, referred to in steps 1.4 and 2.1.2.
Qubit 2.0 fluorometer	Invitrogen	Q32866	This is a fluorometer appropriate for the quantification of DNA, referred to in steps 2.1.4, 2.1.6, 2.2.3, and 3.1.3.
Nextera Rapid Custom Capture Enrichment Kit	Illumina, Inc.	FC-140-1009	Specifically designed for the ONDRISeq panel, sequencing the exons of 80 genes, resulting in 971,388 base pairs of sequence in paired-end reads of 150 bases in length; 288 samples per kit. This is the target enrichment kit, referred to in steps 2.2, 2.2.2, 2.2.3, 3.1.5, 3.1.6, 3.4.1, and the Discussion.
2100 BioAnalyzer	Agilent Technologies	G2939BA	This is a automated electrophoresis system, referred to in step 3.1.4.
High Sensitivity DNA Reagent Kit	Agilent Technologies	5067-4626	110 Samples per kit; This is a DNA quality analysis kit, referred to in step 3.1.4.
MiSeq Reagent Kit v3	Illumina, Inc.	MS-102-3003	600 Cycle Kit; This is the NGS desktop instrument reagent kit, referred to in step 3.1.
MiSeq Personal Genome Sequencer	Illumina, Inc.	SY-410-1003	This is a NGS desktop instrument, referred to in steps 2.2.1, 3.1, 3.1.1, 3.1.2, 3.1.8, 3.2, 4.2.6, the Representative Results, and the Discussion.
Experiment Manager	Illumina, Inc.		This is NGS technology software, referred to in step 3.1.1 and Figure 1. https://support.illumina.com/sequencing/sequencing_software/experiment_manager/downloads.html
BaseSpace	Illumina, Inc.	SW-410-1000	This is a cloud-based computing environment, referred to in steps 3.1.2, 3.2, 3.3, 3.3.1, 3.3.2, 3.4, 3.4.1, 3.4.2 and 3.4.3. https://basespace.illumina.com/
CLC Genomics Workbench 10.1.1	Qiagen	832000	Open source options for data pre-processing are also available that can model the workflow used in this protocol. This is the software used for data pre-processing, referred to throughout step 4 and in Figure 2.
Annotate Variation			http://annovar.openbioinformatics.org/en/latest/user-guide/download/
RefSeq	National Center for Biotechnology Information		https://www.ncbi.nlm.nih.gov/refseq/
dbSNP138	National Center for Biotechnology Information		https://www.ncbi.nlm.nih.gov/projects/SNP/snp_summary.cgi?view+summary=view+summary&build_id=138
Exome Aggregation Consortium	Broad Institute		http://exac.broadinstitute.org/
National Heart, Lung, and Blood Institute Exome Sequencing Project European Cohort	University of Washington and the Broad Institute		http://evs.gs.washington.edu/EVS/
ClinVar	National Center for Biotechnology Information		https://www.ncbi.nlm.nih.gov/clinvar/
Combined Annotation Dependent Depletion	University of Washington and Hudson-Alpha Institute for Biotechnology		http://cadd.gs.washington.edu/
Sorting Intolerant from Tolerant	J. Craig Venter Instutite		http://sift.jcvi.org/
PolyPhen-2	Brigham and Women's Hospital, Harvard Medical School		http://genetics.bwh.harvard.edu/pph2/
Human Gene Mutation Database	Qiagen	834050	This is a disease mutation database, referred to in step 5.2 and the Representative Results. https://portal.biobase-international.com/cgi-bin/portal/login.cgi?redirect_url=/hgmd/pro/start.php
Splicing-based Analysis of Variants	Frey lab, University of Toronto		http://tools.genes.toronto.edu/
Human Splicing Finder	Aix Marseille Université		http://www.umd.be/HSF3/HSF.shtml
Other materials
Centrifuge
Disposable transfer pipets

DOWNLOAD MATERIALS LIST

References

Metzker, M. L. Sequencing technologies - the next generation. Nat Rev Genet. 11 (1), 31-46 (2010).
Mardis, E. R. Next-generation DNA sequencing methods. Annu Rev Genomics Hum Genet. 9, 387-402 (2008).
Shendure, J., Ji, H. Next-generation DNA sequencing. Nat Biotechnol. 26 (10), 1135-1145 (2008).
Sanger, F., Nicklen, S., Coulson, A. R. DNA sequencing with chain-terminating inhibitors. Proc Natl Acad Sci U S A. 74 (12), 5463-5467 (1977).
Farhan, S. M. K., Hegele, R. A. Exome Sequencing: New Insights into Lipoprotein Disorders. Current Cardiology Reports. 16 (7), (2014).
Choi, M., et al. Genetic diagnosis by whole exome capture and massively parallel DNA sequencing. Proc Natl Acad Sci U S A. 106 (45), 19096-19101 (2009).
Mardis, E. R. DNA sequencing technologies: 2006-2016. Nat Protoc. 12 (2), 213-218 (2017).
Farhan, S. M., et al. The Ontario Neurodegenerative Disease Research Initiative (ONDRI). Can J Neurol Sci. 44 (2), 196-202 (2017).
Farhan, S. M. K., et al. The ONDRISeq panel: custom-designed next-generation sequencing of genes related to neurodegeneration. NPJ Genom Med. (16032), 1-11 (2016).
El-Metwally, S., Hamza, T., Zakaria, M., Helmy, M. Next-generation sequence assembly: four stages of data processing and computational challenges. PLoS Comput Biol. 9 (12), e1003345 (2013).
Yohe, S., Thyagarajan, B. Review of Clinical Next-Generation Sequencing. Arch Pathol Lab Med. , (2017).
Qiagen. Gentra Puregene Handbook. , 4th edn, (2014).
NanoDrop Technologies, Inc. Spectrophotometer V3.5 User's Manual. , (2007).
Invitrogen by Life Technologies. Qubit 2.0 Fluorometer User Manual. Vol. Q32866. , (2010).
Illumina, Inc. Nextera Rapid Capture Enrichment Guide. , Vol. 15037436 v01 (2016).
Illumina, Inc. Nextera Rapid Capture Enrichment Reference Guide. , Vol. 15037436 v01 (2016).
Rev. B. Illumina, Inc. MiSeq Reagent Kit v3 Reagent Preparation Guide. , Vol. 15044932 Rev. B (2013).
Illumina, Inc. MiSeq System Guide. , Vol. 15027617 v01 (2015).
BaseSpace Sequence Hub. , https://basespace.illumina.com/dashboard (2017).
Rev. B. Agilent Technologies. Agilent High Sensitivity DNA Kit Guide. , Vol. G2938-90321 (2013).
Illumina, Inc. MiSeq System Denature and Dilute Libraries Guide. , Vol. 15039740 v01 (2016).
Illumina, Inc. System Specification Sheet: MiSeq System. , (2016).
BaseSpace Sequence Hub Help Center. , Available from: https://help.basespace.illumina.com/ (2017).
Qiagen. Genomics Workbench 10.1.1 User Manual. , (2017).
Ebbert, M. T., et al. Evaluating the necessity of PCR duplicate removal from next-generation sequencing data and a comparison of approaches. BMC Bioinformatics. 17, Suppl 7. 239 (2016).
Wang, K., Li, M., Hakonarson, H. ANNOVAR: functional annotation of genetic variants from high-throughput sequencing data. Nucleic Acids Res. 38 (16), e164 (2010).
Leary, N. A., et al. Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. Nucleic Acids Res. 44 (D1), D733-D745 (2016).
Kitts, A., Phan, L., Ward, M., Bradley Holmes, J. The Database of Short Genetic Variation (dbSNP). , National Center for Biotechnology Information. Bethesda, MD. (2013).
Lek, M., et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. 536 (7616), 285-291 (2016).
Exome Variant Server, NHLBI GO Exome Sequencing Project (ESP). , http://evs.gs.washington.edu/EVS/ (2017).
Auton, A., et al. A global reference for human genetic variation. Nature. 526 (7571), 68-74 (2015).
Landrum, M. J., et al. ClinVar: public archive of interpretations of clinically relevant variants. Nucleic Acids Res. 44 (D1), D862-D868 (2016).
Kircher, M., et al. A general framework for estimating the relative pathogenicity of human genetic variants. Nat Genet. 46 (3), 310-315 (2014).
Kumar, P., Henikoff, S., Ng, P. C. Predicting the effects of coding non-synonymous variants on protein function using the SIFT algorithm. Nat Protoc. 4 (7), 1073-1081 (2009).
Adzhubei, I. A., et al. A method and server for predicting damaging missense mutations. Nat Methods. 7 (4), 248-249 (2010).
Bertram, L., McQueen, M. B., Mullin, K., Blacker, D., Tanzi, R. E. Systematic meta-analyses of Alzheimer disease genetic association studies: the AlzGene database. Nat Genet. 39 (1), 17-23 (2007).
Xiong, H. Y., et al. The human splicing code reveals new insights into the genetic determinants of disease. Science. 347 (6218), (2015).
Desmet, F. O., et al. Human Splicing Finder: an online bioinformatics tool to predict splicing signals. Nucleic Acids Res. 37 (9), e67 (2009).
Richards, S., et al. Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology. Genet Med. 17 (5), 405-424 (2015).
Li, Q., Wang, K. InterVar: Clinical Interpretation of Genetic Variants by the 2015 ACMG-AMP Guidelines. Am J Hum Genet. 100 (2), 267-280 (2017).
Yang, Z. L., Sun, G. L. High-frequency, low-coverage "false positives" mutations may be true in GS Junior sequencing studies. Scientific Reports. 7, (2017).
Gandhi, P. N., Wang, X., Zhu, X., Chen, S. G., Wilson-Delfosse, A. L. The Roc domain of leucine-rich repeat kinase 2 is sufficient for interaction with microtubules. J Neurosci Res. 86 (8), 1711-1720 (2008).
Goldwurm, S., et al. The G6055A (G2019S) mutation in LRRK2 is frequent in both early and late onset Parkinson's disease and originates from a common ancestor. J Med Genet. 42 (11), e65 (2005).
Caiazzo, M., et al. Direct generation of functional dopaminergic neurons from mouse and human fibroblasts. Nature. 476 (7359), 224-227 (2011).
Grimes, D. A., et al. Translated mutation in the Nurr1 gene as a cause for Parkinson's disease. Mov Disord. 21 (7), 906-909 (2006).
Collins, F. S., Hamburg, M. A. First FDA authorization for next-generation sequencer. N Engl J Med. 369 (25), 2369-2371 (2013).
Van der Auwera, G. A., et al. From FastQ data to high confidence variant calls: the Genome Analysis Toolkit best practices pipeline. Curr Protoc Bioinformatics. 43, 11-33 (2013).
Treangen, T. J., Salzberg, S. L. Repetitive DNA and next-generation sequencing: computational challenges and solutions. Nat Rev Genet. 13 (1), 36-46 (2011).
Shin, S., Park, J. Characterization of sequence-specific errors in various next-generation sequencing systems. Mol Biosyst. 12 (3), 914-922 (2016).
Povysil, G., et al. panelcn.MOPS: Copy-number detection in targeted NGS panel data for clinical diagnostics. Hum Mutat. 38 (7), 889-897 (2017).

Genetics

Direcionado a próxima geração sequenciamento e bioinformática da Pipeline para avaliar determinantes genéticos da doença constitucional

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.