Genetics

Deteção de evento raro usando o DNA de correção de erro e a sequenciação do ARN

Published: August 3, 2018 doi: 10.3791/57509

Wing H. Wong*^1,2, R. Spencer Tong*^1,2, Andrew L. Young^1,2, Todd E. Druley^1,2

¹Department of Pediatrics, Division of Hematology and Oncology, Washington University School of Medicine, ²Center for Genome Sciences and Systems Biology, Washington University School of Medicine

* These authors contributed equally

Summary

Sequenciamento de próxima geração (NGS) é uma poderosa ferramenta para a caracterização do genoma que é limitada pela taxa de erro elevada da plataforma (~0.5–2.0%). Descrevemos os nossos métodos de sequenciamento de correção de erro que permitam obviar a taxa de erro NGS e detectar mutações em fracções de alelo variante tão raras como 0,0001.

Abstract

Técnicas convencionais sequenciamento de próxima geração (NGS) permitiram imensa caracterização genômica para mais de uma década. Especificamente, NGS tem sido usado para analisar o espectro de mutações clonais em malignidade. Embora muito mais eficiente do que os tradicionais métodos de Sanger, NGS lutas com identificação de raras mutações clonais e subclonal devido a sua taxa de erro elevada de ~0.5–2.0%. Assim, a NGS padrão tem um limite de detecção de mutações que são > 0,02 fração variante alélica (VAF). Enquanto o significado clínico de mutações raras em pacientes sem doença conhecida permanece obscura, pacientes tratados para leucemia têm melhorado significativamente os resultados quando doença residual é < 0,0001 por citometria de fluxo. Para mitigar este fundo artefactual de NGS, inúmeros métodos têm sido desenvolvidos. Aqui nós descrevemos um método para correção de erro de DNA e RNA Sequencing (ECS), que envolve as moléculas individuais com um índice de bp 16 aleatório para correção de erros e um índice de paciente específico bp 8 para multiplexação de marcação. Nosso método pode detectar e rastrear mutações clonais na variante alélica fracções (VAFs) duas ordens de grandeza menores do que o limite de detecção da NGS e tão raras quanto 0,0001 VAF.

Introduction

Como nós idade, exposição a agentes mutagénicos e estocásticos erros durante a divisão celular resultado na acumulação de aberrações somáticas no genoma e isto está subjacente a patogênese fundamental de transformação maligna, doenças neuro-desenvolvente, pediátricas doenças e envelhecimento normal¹^,². Mutações somáticas com potencial de doença de condução são importantes biomarcadores de diagnósticos e prognósticos para a detecção precoce e de gestão de risco a³^,⁴^,⁵. A fim de entender melhor clonogenesis fisiológica, que irá informar clínica e pesquisa de decisões, a exata quantificação e caracterização destas mutações é de primordial importância. Sequenciamento de próxima geração (NGS) é atualmente usado para estudar mutações clonais em amostras de DNA heterogêneas; no entanto, NGS é limitado para identificar mutações em > 0,02 fração variante alélica (VAF) — devido a taxa de erro inerente de 0.5-2.0% do sequenciamento plataformas⁶^,⁷^,⁸. Como resultado, rastreamento para diagnóstico e prognóstico significativas variantes somáticas no VAF inferior não podem ser alcançadas usando padrão NGS.

Recentemente, vários métodos foram desenvolvidos a fim de contornar a taxa de erro de NGS⁸^,⁹^,¹⁰^,¹¹. Estes métodos utilizam a marcação molecular, que permite a correção de erro após o sequenciamento. Cada molécula ou fragmento genômico na biblioteca de sequenciamento é marcado com um aleatório exclusivo Molecular identificador (UMI) que é específico para aquela molécula. Os UMIs são construídos por permutações de uma sequência de nucleotídeos randomizados (N. 8-16). Um segundo amostra específicos código de barras é integrado também o fluxo de trabalho que permite a multiplexação de várias amostras para o sequenciamento de NGS mesmo correr. Amplificação por PCR é realizada na biblioteca molecularmente etiquetada, e posteriormente a biblioteca é enviada para o sequenciamento. Durante a preparação da biblioteca, espera-se que erros serão aleatoriamente introduzidos para o fragmento genômico durante a amplificação por PCR e sequenciamento⁸. Para remover erros aleatórios de sequenciamento, sequenciamento bruto leituras são agrupadas de acordo com o UMI. Artefatos de sequenciamento não deverão estar presentes em todas as leituras com a mesma UMI na mesma posição genômica devido à natureza estocástica da introdução, Considerando que uma verdadeira variante será fielmente amplificada e sequenciada em todas as leituras que compartilham o mesmo UMI. Os artefatos são bioinformatically removido. Aqui, descrevemos três métodos de correção de erro de sequenciamento (ECS) otimizado no laboratório de DNA identificar variantes de nucleotídeo único (SNVs) e a pequenas inserção-exclusões (puntuais) e para o RNA facilitar a quantificação da expressão gênica abaixo o Limite de erro NGS.

O primeiro método descreve uma maneira de olhar para o raro evento somático utilizando primers específicos de gene desenhados por pesquisadores. Antes da preparação da biblioteca, pesquisadores devem projetar primers para direcionar os fragmentos de interesse. Usamos o Primer3 web-app (http://bioinfo.ut.ee/primer3-0.4.0/). Amplicons de 200 – 250 bp são ideais para reação em cadeia da polimerase (PCR), assim como estes, uma vez que foram incorporadas UMIs, gerar sobreposição leituras final emparelhado com 150 leituras emparelhado-fim de bp. As condições de projeto da primeira demão ideal para ser usado são: tamanho de primeira demão mínimo = 19; Tamanho ideal da primeira demão = 25; Tamanho máximo da primeira demão = 30; Mínimo Tm = 64 ° C; Ideal Tm = 70 ° C; Máxima Tm = 74 ° C; Diferença máxima de Tm = 5 ° C; Teor mínimo de GC = 45; Teor máximo de GC = 80; Número de retorno = 20; Máximo 3' estabilidade final = 100.

No método 2, descrevemos um método combinando o protocolo ECS-DNA com Illumina química para o inquérito sobre a SNVs clonais e tão raros quanto 0,0001 VAF usando painéis de gene comercialmente disponíveis que incluem centenas de amplicons pequeno puntuais. Nós temos usado o painel TruSight de sequenciamento mieloide (Illumina) para a nossa experiência e projetado um painel expandido para incluir genes adicionais de interesse pediátrica doenças mieloides. Estes painéis não ofereceram identificadores moleculares (UMIs) que facilitam a correção de erros, então nós adicionamos nossa própria estratégia de adaptador para estes painéis. ECS deve funcionar igualmente bem com qualquer um dos outros painéis projetados para enriquecer para genes associados com doenças diferentes. Após o isolamento de DNA e posterior quantificação do tecido ou amostra de interesse, é recomendável ter pelo menos 500 ng de DNA de estoque por espécime. Nós rotineiramente fazer uma biblioteca de sequenciamento simples usando 250 ng de DNA a fim de capturar como muito único fragmento genômico quanto possível para a jusante lê duplicação e cálculo do VAF. Uma biblioteca de sequenciamento de replicar opcional pode ser feita com os restantes 250 ng de DNA. Nós sempre fazemos duas bibliotecas replicar por espécime, e consideramos somente os eventos detectados independentemente em ambas as réplicas como verdadeiros positivos. Também implementamos um modelo de erro binomial de genômica posição específica para aumentar a precisão da variante ligando⁴^,¹³.

Por fim, descrevemos um método de acoplamento ECS para a sequenciação do ARN para quantificação de transcrição usando painéis de QIAseq alvo RNA prateleira (Qiagen). As UMIs necessária para eliminação de duplicação e correção de erro foram incorporadas nos kits, e pesquisadores podem tornar as bibliotecas seguindo as recomendações do fabricante. Bioinformatically, os pesquisadores podem acompanhar o pipeline delineado para ECS-DNA, que será explicado em detalhes na seção de protocolo.

Protocol

1. alvo Corrigido erro de sequenciamento de DNA

Amplificação por PCR de fragmentos genômicos de interesse.
1. Use uma alta fidelidade DNA polimerase para amplificar os amplicons (Tabela de materiais, Item 1). Amplificar a reação de PCR com as seguintes condições em um termociclador: 30 s a 98 ° C; 18 – 40 ciclos de 10 s a 98 ° C, 30 s 66 ° c e 30 s a 72 ° C; 2 min a 72 ° C; manter a 4 ° C.
2. Purifica os produtos PCR com grânulos paramagnéticos (Tabela de materiais, Item 2). Adicionar a reação de PCR para os grânulos na proporção de 1: 1,8 (volume de reação de PCR: volume de esferas) de acordo com o protocolo do fabricante. Eluir com 20 µ l de DDQ₂O.
3. Quantificar a concentração de DNA (Tabela de materiais, Item 3) para determinar a concentração final de DNA.
4. Execute uma alíquota de DNA em um gel de agarose 2% (Tabela de materiais, Item 4) para confirmar o tamanho da amplicons.
  Nota: Como alternativa, os pesquisadores podem optar por realizar uma análise Bioanalyzer sobre os produtos PCR para determinar o tamanho de fragmentos amplificados genômicos, bem como a concentração dos produtos.
Adaptador de recozimento de sequenciamento
1. Obter adaptadores i7 (Tabela de materiais, Item 5). Usá-los como eles são fornecidos para as etapas subsequentes.
2. Comprar adaptadores de i5 16N comercialmente com a seguinte sequência de oligo (materiais tabela Item 6): ACACTCTTTCCCTACACGACGCTCTTCCGATCT AATGATACGGCGACCACCGAGATCTACAC(N1:25252525)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1) (N1)
  Nota: Os adaptadores de i5 16N substituir os adaptadores padrão i5 e eles são adaptadores com uma sequência de caracteres de 16 aleatório-nucleotide para facilitar ECS.
3. Fazer a solução de trabalho de adaptador 16N i5: 40 µ l de 100 ações de adaptador µM 16N i5, 10 µ l de tampão TE e 10 µ l de solução de NaCl 500 µM.
4. Alíquota 7,5 µ l da solução de trabalho de i5 preparada na etapa 1.2.3 em separado poços PCR.
5. Adicione 5 µ l de amostra específica i7 adaptador para poços correspondentes.
6. Incubar a 95 ° C por 5 min, em seguida, esfriar em 1 ° C a cada 30 s a 4 ° C em um termociclador.
7. Manter a 4 ° C.
Final-reparação & dA-tailing de bibliotecas
Nota: Em paralelo com adaptador recozimento, um pode executar reparação final e dA-tailing sobre o PCR amplicons de passo 1.1. Após a conclusão dessas etapas, é realizada a ligadura dos adaptadores recozidos de etapa 1.2 no final reparado e cauda dA PCR amplicons. Após ligadura do adaptador, a construção de biblioteca ECS está completa.
1. Comece no máximo de 1 µ g de DNA a começar (mínimo ~ 200 ng)
2. Execute reparação final e dA cauda em amplicons (Tabela de materiais, Item 7).
  1. Adicione 3,0 µ l do Mix de enzima preparação final e 6,5 µ l de tampão de reparação final.
  2. Incubar a mistura durante 30 minutos a 20 ° C, depois de 30 minutos a 65 ° C e mantenha a 4 ° C.
3. Realize a ligadura nos adaptadores de recozido (Tabela de materiais, Item 8).
  1. Adicione 2,5 µ l dos adaptadores recozidos da etapa 2, 15 µ l de Blunt/TA Ligase Mastermix e 1 µ l de potenciador da ligadura.
  2. Incubar a mistura por 15 min a 20 ° C, depois de 15 min a 37 ° C.
4. Limpar as bibliotecas com grânulos magnéticos (materiais tabela Item 2): Adicione a reação de PCR para grânulos na proporção de 1: 0.75 modificados (volume de reação de PCR: volume do grânulo magnético):
  1. Pipete 62,6 µ l da solução de grânulo magnético para a 83,5 µ l de produtos do PCR da etapa 1.2.7.
  2. Transfira a mistura para um tubo de ligação baixa 1,5 mL.
  3. Homogeneiza pipetando para cima e para baixo pelo menos 10 vezes.
  4. Deixe a mistura repousar à temperatura ambiente por 5 minutos.
  5. Coloque o tubo sobre um suporte magnético. Incubar durante 2 minutos à temperatura ambiente ou até o líquido sobrenadante é claro.
  6. Remova o sobrenadante.
  7. Lave os grânulos com 200 µ l de etanol 70%.
  8. Incube durante 30 s. remover etanol.
  9. Repeti a etapa de lavagem do etanol uma vez.
  10. Secar ao ar livre os grânulos.
  11. Eluir com 20 µ l de DDQ₂O.
    Nota: Esta alteração na reação de PCR à relação Magnética do grânulo preferencialmente irá remover fragmentos de DNA que são menores do que 200 bp.
Quantificação por gotículas PCR digital
Nota: Quantificação exacta mutação exige estrita observância do número de moléculas de cada biblioteca que são carregados do sequencer. Para conseguir isso, quantificar o número de moléculas para bibliotecas individuais por unidade de volume é executada usando a plataforma PCR (ddPCR) digital QX200 da gota — PCR quantitativo é uma opção alternativa. Após análise de ddPCR, a leitura irá especificar o número de moléculas por µ l por biblioteca.
1. Dilua o ECS bibliotecas 1:1,000 diluindo incrementalmente por um fator de 10 em tira-tubos de PCR.
2. Preparar o mastermix seguir para ddPCR no tubo de 1,5 mL: 10 µ l de mistura de PCR (Tabela de materiais, Item 9), 0,2 µ l de Primer P5, 0,2 µ l de Primer P7, 5 µ l de produto de limpa-up ECS da etapa 1.4.1. e 4,5 µ l de DDQ₂O.
3. Alíquotas de 20 µ l do mastermix em cada amostra bem certificando-se que existem múltiplos de 8.
  1. Alíquota de 70 µ l de óleo de geração de gotículas (Tabela de materiais, Item 10) em cada poço de petróleo. Cubra a gaveta com uma junta de borracha.
4. Fazer as gotas usando o gerador de gotículas (Tabela de materiais, Item 11).
5. Usando uma pipeta multicanal, carrega as gotas geradas na etapa 1.4.4 em um prato PCR que garanta que a pipetagem da amostra é feito lentamente em um período de 5 segundos para evitar a distorção do DNA.
6. Amplificar o sinal nas gotas para 40 ciclos em um termociclador usando as seguintes condições: 5 min a 95 ° C; 40 ciclos de 30 s a 95 ° C, a 1 min a 63 ° C; 5 min a 4 ° C, 5 min a 90 ° C; e mantenha a 4 ° C.
7. Prepare a máquina de leitor de ddPCR modelo da gota (Tabela de materiais, Item 11). Certifique-se de especificação de parâmetros para Quantificação absoluta e usando o ddPCR QX200 Eva Green Supermix.
8. Uma vez concluída a análise ddPCR, certifique-se de definir o limite divisório mesmo em todas as amostras.
9. Usando a leitura da concentração do leitor QX200 da gota, alíquota o volume apropriado para introduzir o número desejado de moléculas na etapa subsequente.
Amplificação por PCR das bibliotecas para sequenciamento
1. Preparar o mastermix seguir para o número desejado de moléculas da etapa 1.4.9: 25 µ l de Mastermix Q5 (Tabela de materiais, Item 1), 2,5 µ l de Primer P5 (10 µM), 2,5 µ l de Primer P7 (10 µM), X µL do DNA, 20-X µ l de DDQ₂O.
2. Amplificar as bibliotecas da etapa 1.5.1 em um termociclador usando as seguintes condições: 30 s a 98 ° C; 20 ciclos de 10 s a 98 ° C, 30 s a 63 ° C, 30 s a 72 ° C; 2 min a 72 ° C; e mantenha a 4 ° C.
3. Limpar as bibliotecas com grânulos magnéticos (tabela de materiais, Item 2): Adicione a reação de PCR para magnético grânulos em um modificado rácio 1: 0.75 (volume de reação de PCR: volume do grânulo magnético).
  1. Pipete 37,5 µ l da solução de grânulo magnético para os produtos PCR 50 µ l da etapa 1.5.2.
  2. Transfira a mistura para um tubo de ligação baixa 1,5 mL.
  3. Homogeneiza pipetando para cima e para baixo pelo menos 10 vezes.
  4. Deixe a mistura repousar 5 min à temperatura ambiente.
  5. Coloque o tubo sobre um suporte magnético. Incubar durante 2 minutos à temperatura ambiente ou até o líquido sobrenadante é claro.
  6. Remova o sobrenadante.
  7. Lave os grânulos com 200 µ l de etanol 70%.
  8. Incube durante 30 s. remover etanol.
  9. Repeti a etapa de lavagem do etanol uma vez.
  10. Secar ao ar livre os grânulos.
  11. Eluir com 20 µ l de DDQ₂O.
4. Execute uma alíquota de DNA em um gel de agarose 2% para confirmar o tamanho da amplicons.
5. Quantificar a concentração de DNA (Tabela de materiais, Item 3) para determinar a concentração das bibliotecas ECS separadas.
6. As bibliotecas em montantes equimolar da piscina.
  Nota: por exemplo, os pesquisadores podem pool oito bibliotecas num grupo equimolar⁴ com 4 milhões a partir de moléculas para sequenciamento utilizando uma plataforma de sequenciamento que produz leituras até 400 milhões. Conservadoramente, recomenda-se usar uma média de dez leituras crus para correção de erros por moléculas. Isso pegaria leituras 360 milhões (4 milhões de moléculas * 8 bibliotecas * 10 lê para correção de erros). Com 4 milhões de moléculas exclusivos por biblioteca, pesquisadores podem esperar obter consenso teórico significa ler a cobertura do x 7042 por amplicons (4 milhões/568 amplicons do painel de gene).
7. Quantificar a concentração de DNA (Tabela de materiais, Item 3) para determinar a concentração de biblioteca em pool de ECS.
8. Apresentar a biblioteca ECS em pool em aproximadamente 4 nM.
9. Fornecer as seguintes configurações de sequenciamento para plataformas de sequenciamento Illumina (MiSeq, HiSeq ou NextSeq): 2 x 144 emparelhado-final lê, 8 ciclos de índice 1 e 16 ciclos de índice 2.

2. Gene painéis com correção de erro de sequenciamento de DNA

Hibridização de oligos de painéis do gene
Nota: Nesta etapa, um construir bibliotecas de sequenciamento, usando um protocolo modificado de Illumina TruSight ou TruSeq para incorporar os UMIs (Tabela de materiais, Item 17).
1. Cruzar os oligos no fragmento genômico, seguindo o protocolo do fabricante. Uso 250 ng de DNA (ou qualquer quantidade desejada de material começar).
2. Remova os oligos desacoplados, seguindo o protocolo do fabricante.
3. Executar a extensão-ligadura seguindo o protocolo do fabricante.
  Nota: As modificações ao protocolo do fabricante começam abaixo.
Incorporação de adaptadores i5 e i7 através de PCR
1. Preparar o PCR mastermix pipetando os seguintes reagentes em um tubo de tamanho apropriado volume: 37,5 µ l de Mastermix Q5 (Tabela de materiais, Item 1), 6 µ l de 10 adaptadores de i5 µM 16N (detalhado no método 1, etapa 1.2.2), 6 µ l de adaptadores i7 (i7 diferentes de uso adaptadores para amostras separadas para multiplexação) e 22 µ l da solução de extensão-ligadura com grânulos da etapa 2.1.3.
  Nota: O Q5 Mastermix substitui o mastermix polimerase fornecida pelo Illumina. O polymerase Q5 amplifica o fragmento genômico com maior fidelidade e menos erros introduzidos.
2. Executar programa de PCR em um termociclador usando os seguintes parâmetros: 30 s a 98 ° C, 4-6 ciclos de 10 s a 98 ° C, 30 s 66 ° c, 30 s a 72 ° C; 2 min a 72 ° C e mantenha a 4 ° C.
  Nota: O número de ciclos depende do tamanho do painel. De nossa experiência, um 4-ciclo PCR é suficiente se o painel de gene tem cerca de 1.500 pares diferentes de genes específicos oligos, Considerando que um painel com 500 – 600 pares de oligos requer 6 ciclos de PCR.
3. Limpar as reações de PCR com grânulos magnéticos (tabela de materiais, Item 2): Adicione a reação de PCR para grânulos magnéticos em uma reação de PCR 1 modificada: 0,75 relação Magnética do grânulo:
  1. Pipete 56.25 µ l da solução de grânulo magnético para o 75 µ l de produtos do PCR da etapa 2.2.2.
  2. Transfira a mistura para um tubo de ligação baixa 1,5 mL.
  3. Homogeneiza pipetando para cima e para baixo pelo menos 10 vezes.
  4. Deixe a mistura repousar 5 min à temperatura ambiente.
  5. Coloque o tubo sobre um suporte magnético. Incubar durante 2 min à temperatura ambiente ou até o líquido sobrenadante é claro.
  6. Remova o sobrenadante.
  7. Lave os grânulos com 200 µ l de etanol 70%.
  8. Incube durante 30 s. remover etanol.
  9. Repeti a etapa de lavagem do etanol uma vez.
  10. Secar ao ar livre os grânulos.
  11. Eluir com 20 µ l de DDQ₂O.
Bibliotecas usando QX200 ddPCR plataforma de quantificar.
1. Siga o passo 1.4 no método 1.
  Nota: 4 milhões de moléculas foram normalizados por exemplo biblioteca⁴ no resultado representativo (Figura 2), a fim de obter uma média teórica de 7.042 moléculas exclusivamente indexadas (4 milhões dividido por 568 oligos gene-específico).
Amplificar e normalizar as bibliotecas para sequenciamento.
1. Amplificar o número desejado de moléculas usando o mastermix seguir para o final do PCR totalizando 50 µ l: 25 µ l de Mastermix Q5, 2 µ l de Primer P5 (1 µM), 2 µ l de Primer P7 (1 µM) e 21 µ l de moléculas de DNA.
2. Executar programa de PCR em um termociclador usando o seguinte parâmetro: 30 s a 98 ° C; 16 ciclos de 10 s a 98 ° C, 30 s 66 ° c, 30 s a 72 ° C; 2 min a 72 ° C; e mantenha a 4 ° C.
3. Limpar o sequenciamento de bibliotecas usando esferas magnéticas (Tabela de materiais, Item 2): Adicione a reação de PCR para grânulos magnéticos em uma reação de PCR 1 modificada: 0,75 relação Magnética do grânulo:
  1. Pipete 37,5 µ l da solução de grânulo magnético para os produtos PCR 50 µ l da etapa 2.4.2.
  2. Transfira a mistura para um tubo de ligação baixa 1,5 mL.
  3. Homogeneiza pipetando para cima e para baixo pelo menos 10 vezes.
  4. Deixe a mistura repousar 5 min à temperatura ambiente.
  5. Coloque o tubo sobre um suporte magnético. Incubar durante 2 min à temperatura ambiente ou até o líquido sobrenadante é claro.
  6. Remova o sobrenadante.
  7. Lave os grânulos com 200 µ l de etanol 70%.
  8. Incube durante 30 s. remover etanol.
  9. Repeti a etapa de lavagem do etanol uma vez.
  10. Secar ao ar livre os grânulos.
  11. Eluir com 20 µ l de DDQ₂O.
4. Executar uma alíquota de DNA eluted (~ 3 µ l) em um gel de agarose 2% para confirmar o tamanho da amplicons.
5. Quantificar a concentração de DNA (Tabela de materiais, Item 3) para determinar a concentração das bibliotecas ECS separadas.
6. As bibliotecas em montantes equimolar da piscina. Consulte a etapa método 1 1.5.6. e também a discussão para mais detalhes sobre o pool.
7. Apresentar a biblioteca ECS em pool em aproximadamente 4 nM.
8. Fornecer as seguintes configurações de sequenciamento para plataformas de sequenciamento Illumina (MiSeq, HiSeq ou NextSeq): 2 x 144 emparelhado-final lê, 8 ciclos de índice 1 e 16 ciclos de índice 2.
Análise e processamento de Bioinformatic ECS
1. Obter as amostra-demultiplexed leituras do sequenciador ou executar demultiplexação de sequência primas leituras em diferentes amostras usando i7 adaptador sequências bioinformatically com um script personalizado.
2. Retire os primeiro 30 nucleotides de cada leitura demultiplexed remover oligo sequências a partir do painel de gene.
3. Alinhe a leituras que compartilham os mesmos UMIs um ao outro para formar famílias de leitura.
  Nota: Os pesquisadores podem usar software de reconhecimento de UMI como MAGERI¹³ para extrair Leia as famílias. Nenhuma distância hamming foi permitida dentro da sequência UMI neste experimento para aumentar a especificidade do método.
4. Realize a eliminação de duplicação e correção de erros usando o seguinte parâmetros recomendado.
  1. ≥ 5 uso ler ler de pares da mesma família. É recomendado um mínimo de três pares de leitura.
  2. Comparar o nucleotídeo em cada posição entre todas as leituras da mesma família de leitura e gerar um nucleotídeo de consenso, se há pelo menos 90% concordância entre as leituras para o nucleotídeo específico. Chame um N se há menos de 90% de concordância para a posição de nucleotídeo.
  3. Leituras de consenso que têm de descartar > 10% do número total de nucleotídeos de consenso, sendo chamado como N.
5. Alinhe todas as leituras de consenso retido localmente para hg19 ou hg38 genoma humano referência usando preferencial aligner(s) do pesquisador como Bowtie2 e BWA.
6. Processo alinhado leituras com Mpileup usando parâmetros – BQ0 – d 10,000,000,000,000 para remover os limites de cobertura para garantir uma saída adequada engavetamento independentemente do VAF.
7. Filtre-se posições com menos de 1000 x consenso Leia cobertura.
  Nota: O pesquisador determina a cobertura mínima para cada posição do nucleotídeo arbitrariamente, é recomendável ter pelo menos 500 consenso de x Leia cobertura para análise a jusante.
8. Use a distribuição binomial para chamar variantes de nucleotídeo único (SNPs) em dados armazenados da etapa 2.5.7 com os seguintes parâmetros. A estatística binomial se baseará em um modelo de genômica erro de posição-específicos. Cada posição genômica é modelada independente somando-se as taxas de erro de todas as amostras para aquela posição particular. O exemplo a seguir:
  Probabilidade de perfil de nucleotídeos em uma determinada posição genômica, p
  ∑ sobre RF2 variante ∑ sobre Total RFs
  = 26/255505
  = 0.000101759
  Probabilidade binomial da variante 24 RFs fora 35911 totais RFs, P(X ≥ x) na amostra K
  = 1 - binomial(24, 35911, 0.000101759)
  = 2.26485E-13
  Nota: Para cada posição genômica consultada, haveria três possíveis alterações mutacional (ou seja,A > T, A > C, A > G), e cada um dos quais seria representado como artefato de fundo. Eventos somáticos que são significativamente diferentes do fundo após a correção de Bonferroni são retidos. No exemplo mostrado na tabela 1, o número de testes realizados foi 11, daí um Bonferroni corrigidos p-valor ≤0.00454545 (0.05/11) foi necessário para chamar um evento como estatisticamente significativo.
9. Eventos somáticos são obrigados a estar presente em ambas as réplicas do mesmo espécime; caso contrário, considerá-los como falsos positivos.

Table 1
Tabela 1: Exemplo demonstrando a maneira de construir um modelo binomial erro de posição-específicos.

3.-Corrigido erro de sequenciamento do RNA

Avaliação de mutações no nível do DNA, além de integrar ECS com vários painéis de sequenciamento de RNA alvo para detectar transcrição abundância rara ou de baixa no nível do RNA. Combinando a ECS com os painéis de sequenciamento de RNA Qiagen prateleira, demonstrámos digital quantificação da expressão gênica para transcrições com apenas dez cópias sem a necessidade de normalização contra um gene das tarefas domésticas. Os UMIs necessários para correção de erros foram integrados ao painel.
1. Realize a extração de RNA total (Tabela de materiais, Item 20).
2. Realize preparação de biblioteca ECS-RNA de acordo com o protocolo do fabricante (Tabela de materiais, Item 19).
3. Execute o pipeline de bioinformática, de acordo com a etapa 2.5.1–2.5.6. do método 2 descritos na seção anterior. Após a etapa 2.5.6, o número de leituras de consenso alinhados por gene representa o nível de expressão do gene sem a necessidade de normalização de comprimento do gene.

Representative Results

Com Targeted Error-Corrected de sequenciamento de DNA, que temos realizado uma prova do experimento de princípio diluindo mutante paciente DNA no DNA genômico comercial. O paciente teve uma mutação em GATA1 (chrX:48650264, C > G) com VAF original de 0,19. Demonstramos na Figura 1 que a ECS é quantitativa para um nível de 1:10,000 para a variante de nucleotídeo único.

Figura 1: série de diluição do SNV GATA1 demonstrando que a ECS é quantitativa para o nível de 1:10,000. Clique aqui para ver uma versão maior desta figura.

Também mostramos que o ECS-DNA confiantemente detecta raras clonais mutações em genes recorrentemente em adulto leucemia mieloide aguda (LMA) em indivíduos idosos saudáveis⁴. Obtivemos a amostras de buffy casaco de 20 indivíduos saudáveis no estudo da saúde da enfermeira bancados aproximadamente ~ 10 anos de diferença. Nós aplicamos o protocolo de painel ECS-DNA destas amostras. Para este experimento, temos adaptado a Illumina TruSight mieloide sequenciamento painel que consiste de 568 amplicons (mais informações na lista de gene no https://www.illumina.com/products/by-type/clinical-research-products/trusight-myeloid.html) e sequenciado 80 bibliotecas de 20 indivíduos (2 coleções em pontos de tempo diferentes, 2 repetições por indivíduo por tempo ponto) usando plataforma Illumina NextSeq, o que gerou uma média de 47,7 milhões de emparelhado-fim de leituras e uma média de 3,4 milhões Corrigido erro sequências de consenso por biblioteca⁴. A cobertura média nucleotídeo por biblioteca foi aproximadamente 6.000 x (3,4 milhões divididos por 568). Para cada amostra, nós construímos um perfil de erro de posição-específicos usando sequenciadas bibliotecas que não são da mesma amostra. Encontramos 109 mutações somáticas clonais que estavam presentes em ambas as réplicas de pelo menos uma hora de recolha. Estas mutações têm VAF variando de 0.0003 – 0.1451. Selecionamos 21 mutações com representações cósmicas e validado todos os 21 mutações em um ou dois pontos de tempo de coleta usando ddPCR (n = 34, Figura 2, adaptada de jovem et al . 2016⁴).

Figura 2: mutações identificadas pelo ECS foram verificadas através de ddPCR com altamente concordantes VAFs. (n = 34, modificado do jovem et al . 2016⁴). Clique aqui para ver uma versão maior desta figura.

Em relação ao nível de expressão de correção de erro usando o protocolo ECS-RNA, personalizamos um painel de gene usando química de QIAseq que consiste de 416 genes conhecidos para ser associado a vários cancros (adaptados de QIAseq humano câncer Transcriptome painel) e nós amplificou o exon mais comumente expressado de um determinado gene (lista de Gene no Material complementar 1). Nós sequenciado as bibliotecas usando plataforma Illumina MiSeq em formato de emparelhado-final que deu uma média de 8,3 milhões de leituras por biblioteca, e conseguimos capturar uma média de 0,417 milhões sequências consenso de correção de erro. Nós mostramos que o nível de expressão de transcrição de baixa abundância (< 1.000 transcrição contagem em 50 ng do RNA total) é altamente reprodutível entre repetições (dados ponto n = 300, Figura 3). Validação por ddPCR (seis genes selecionados de graus variados de expressão) demonstrou que o nível de expressão dos genes tinha sido corretamente capturado pelo protocolo de ECS, sem a necessidade de normalização.

Figura 3: Top, correlação de transcrição conta ECS-RNA entre repetições da mesma amostra (n = 300). Fundo, transcrição contagens identificadas pelo ECS foram verificadas por ddPCR (n = 6). Clique aqui para ver uma versão maior desta figura.

Discussion

Aqui, vamos demonstrar um conjunto de protocolos de sequenciamento de correção de erro que podem ser facilmente implementados para estudar mutações com baixas VAFs em diferentes doenças. O fator mais importante é a incorporação de UMIs com cada molécula antes de sequenciamento que possibilitam a correção de erros de leituras a cru. Os métodos descritos aqui permitem aos investigadores incorporam UMIs personalizados para painéis de gene comercialmente disponíveis e auto-concebidos oligos gene-específico.

Protocolo padrão de NGS impede a detecção de mutações com VAF inferior a 2% devido a taxa de erro de sequenciamento, e isto limita a aplicação de NGS em estudos onde a detecção de variantes raras é crucial. Contornando a taxa de erro padrão NGS, ECS permite detecção sensível dessas variantes crus. Por exemplo, a detecção de mutações patogénicas quando estas mutações surgem primeiro (portanto, ter baixa VAF) é imperativa para informar a intervenção precoce da doença¹⁴^,¹⁵. Na pesquisa de leucemia, a detecção de residual mínima doença (pós-tratamento de células leucêmicas residuais) informa a estratificação de risco e poderia ser usada para informar as opções de tratamento, de forma que não podem as avaliações cytometric do fluxo binário. Além disso, a ECS é aplicável para detectar tumor circulantes de ácidos nucleicos e avaliar potencial metastático em pacientes de tumor sólido, avaliando a presença/ausência, bem como os encargos variante de certas mutações que são características das primárias tumor de¹⁶.

Conforme demonstrado na tabela 1, o poder de usar o modelo de erro de posição-específicos baseados na distribuição binomial para chamar variantes depende em grande parte o número de bibliotecas sequenciados, bem como a profundidade de sequenciamento usado para construir o modelo de erro. A robustez do modelo de erro aumenta com o maior número de amostras e mais profundidade de sequenciamento. É recomendável usar pelo menos 10 amostras sequenciadas com uma média de correção de erro Leia cobertura de 3000 x por amostra para construir um perfil de erro para cada amostra. A posição específica abordagem é semelhante ao MAGERI, mas em vez de usar uma taxa de erro agregado seis tipos diferentes de substituição (A > C/T > G, um > G/T > C, um > T/T > A, C > A/G > T, C > G/G > C C > T/G > A)¹³, usamos modelos de cada substituição independentemente em cada posição. Por exemplo, uma taxa de erro de C > T em uma determinada posição genômica é diferente de outra posição. Nossa abordagem também leva em conta um efeito de lote de sequenciamento, como a taxa de substituição de base observada em um sequenciamento de execução pode ser diferente da outra vez. Portanto, é importante modelar cada posição para todos os tipos de substituição, especialmente quando amostras de sequenciamento diferentes execuções são agrupadas para criar o modelo.

Uma consideração importante ao projetar um experimento ECS é o limite de deteção desejado. A beleza de estudos NGS é que eles podem ser facilmente dimensionados em termos de genes/alvos de interesse, deteccao de threshold (ditada pela profundidade de sequenciamento) e número de indivíduos consultados. Por exemplo, se os pesquisadores estão interessados em encontrar raras mutações em dois amplicons com um limite de deteção de 0,0001, eles podem pool màxima 75 amostras em um único sequenciamento executado usando química MiSeq V2 que produz leituras até 15 milhões (2 amplicons * 10.000 moléculas * 10 lê para correção de erros * 75 amostras = 15 milhões de sequenciamento de leituras). Pesquisadores podem variar o número de moléculas em sequenciamento ou o número de amostras combinadas em um único sequenciamento para ajustar o limite de deteção. Em nossos estudos, tivemos como objetivo encontrar mutações com um limite de deteção de 0,0001 VAF (01:10, 000) usando o painel de gene Illumina. Rotineiramente usamos 250 ng de começar o DNA para garantir que as moléculas suficientes são capturadas para atingir o limite de deteção acima mencionados. Pesquisadores podem optar por começar com a menor quantidade de DNA (50 ng é recomendado) se o limite de detecção desejada é > VAF 0,001.

Como os UMIs são acrescentados para os índices de i5, configurações de sequenciamento terá de ser alterada em conformidade. Por exemplo, nós usamos 16 UMIs N, e as configurações de sequenciamento foram emparelhados final 2 x 144 leituras, 8 ciclos de índice 1 e 16 ciclos de índice 2, ao contrário do habituais 8 ciclos de índice 2. O aumento no índice 2 ciclo é compensado por uma diminuição do número total de ciclos alocada para o lê. Se os pesquisadores optam para usar 12N UMIs¹⁰^,¹⁷, as configurações devem ser alteradas para 12 ciclos de índice 2.

Este método de sequenciamento baseado no UMI é otimizado para corrigir erros de sequenciamento. Continua a ser subótimos em lidar com warAre PCR, que é um problema para todos os método baseado em amplificação. Foram realizadas rodadas de post-sequenciamento e post-bioinformática validação usando ddPCR, e dificilmente detectarmos qualquer falsos positivos devido a warAre PCR. No entanto, é recomendável que pesquisadores realizar os experimentos utilizando polymerase de alta fidelidade para garantir erros de amplificação de baixo.

Disclosures

Os autores não têm nada para divulgar.

Acknowledgments

Agradecemos os participantes no estudo de AAML1531 do grupo de oncologia infantil e estudo de sanidade das enfermeiras para suas contribuições sob a forma de amostras de doentes. Este trabalho foi financiado pelo National Institutes of Health (CA186107 UM1, RO1 CA49449 e RO1 CA149445), Discovery Institute de Washington University das crianças e St. Louis infantil Hospital (MC-II-2015-461) e Eli Seth Matthews leucemia Fundação.

Materials

Name	Company	Catalog Number	Comments
Q5 High Fidelity Hot Start Master Mix	New England BioLabs	M0492S
Agencourt AMPure XP	Beckman Coulter	A63880
Qubit dsDNA HS Assay Kit	Thermo Fisher Scientific	Q32854
SYBR Safe DNA Gel Stain	Thermo Fisher Scientific	S33102
Truseq Custom Amplicon Index Kit	Illumina	FC-130-1003
UMI i5 adapter sequences	Integrated DNA Technologies	-
NEBNext Ultra End Repair/dA-Tailing Module	New England BioLabs	E7442S
NEBNext Ultra II Ligation Module	New England BioLabs	E7595S
QX200 ddPCR EvaGreen Supermix	Bio-Rad	1864034
QX200 Droplet Generation Oil for EvaGreen	Bio-Rad	1864005
QX200 Droplet Digital PCR System	Bio-Rad	1864001
ddPCR 96-Well Plates	Bio-Rad	12001925
DG8 Cartridges for QX200/QX100 Droplet Generator	Bio-Rad	1864008
DG8 Gaskets for QX200/QX100 Droplet Generator	Bio-Rad	1863009
Bioanalyzer	Agilent Genomics	G2939BA
TapeStation	Agilent Genomics	G2991AA
TruSight Myeloid Sequencing Panel	Illumina	FC-130-1010
Bowtie 2	Johns Hopkins University	-
Customized QIAseq Targeted RNA Panel	Qiagen	-
Rneasy Plus Mini Kit (50)	Qiagen	74134