Biology

Detecção de variantes raras genômico de Seqüenciamento combinados usando SPLINTER

Published: June 23, 2012 doi: 10.3791/3943

Francesco Vallania¹, Enrique Ramos¹, Sharon Cresci², Robi D. Mitra¹, Todd E. Druley^1,3

¹Center for Genome Sciences and Systems Biology, Department of Genetics, Washington University School of Medicine, ²Department of Internal Medicine, Washington University School of Medicine, ³Department of Pediatrics, Washington University School of Medicine

Summary

Seqüenciamento de DNA pool é uma estratégia rápida e de custo eficaz para detectar variantes raras associadas com fenótipos complexos em grandes grupos. Aqui descrevemos a análise computacional de pool, o seqüenciamento da próxima geração de 32 genes relacionados ao câncer, utilizando o pacote de software SPLINTER. Este método é escalável, e aplicável a qualquer fenótipo de interesse.

Abstract

Como tecnologia de seqüenciamento de DNA foi marcadamente avançou nos últimos anos ^2, tornou-se cada vez mais evidente que a quantidade de variação genética entre dois indivíduos é maior do que se pensava anteriormente ^3. Em contraste, uma matriz baseada em genotipagem falhou para identificar uma contribuição significativa de variantes da sequência de comuns para a variabilidade fenotípica de doença comum ^4,5. Tomados em conjunto, essas observações levaram à evolução da doença comum / variante rara hipótese sugerindo que a maioria da "herdabilidade perdido" em fenótipos comuns e complexas, em vez disso, devido ao perfil pessoal de um indivíduo de variantes raras de DNA ou privada ^6-8 . No entanto, caracterizando como rara variação impacta fenótipos complexos requer a análise de muitos indivíduos afetados em muitos loci genômicos, e está idealmente comparado a uma pesquisa similar em uma coorte afetados. Apesar do poder de sequenciação oferecida pelas plataformas de hoje, umainquérito de base populacional de loci genômicos muitos e posterior análise computacional requerido continua proibitivo para muitos investigadores.

Para atender a essa necessidade, desenvolvemos uma abordagem conjunta seqüenciamento ^1,9 e um pacote de software para a detecção de ^um romance variante de alta precisão rara a partir dos dados resultantes. A capacidade de genomas piscina de populações inteiras de indivíduos afetados e levantamento do grau de variação genética em várias regiões-alvo em uma biblioteca de sequenciamento único proporciona excelentes economias em custo e tempo com a metodologia tradicional seqüenciamento amostra única. Com uma cobertura média por sequenciação do alelo de 25 vezes, o algoritmo personalizado, lasca, utiliza uma variante interna estratégia de controlo de chamada para chamar inserções, deleções e substituições até quatro pares de bases de comprimento, com elevada sensibilidade e especificidade de pools de até 1 alelo mutante em 500 indivíduos. Descrevemos aqui o método para a preparação do s reunidasequencing biblioteca seguido passo-a-passo sobre como usar o pacote SPLINTER para análise da sequenciação agrupada ( http://www.ibridgenetwork.org/wustl/splinter ). Nós mostramos uma comparação entre sequenciamento combinada de 947 indivíduos, os quais também foram submetidos genome-wide array, em mais de 20kb de seqüenciamento por pessoa. Concordância entre genotipagem de marcado e novas variantes chamadas na amostra composta foram excelentes. Este método pode ser facilmente dimensionada para qualquer número de loci genómicas e qualquer número de indivíduos. Ao incorporar os controles internos amplicon positivos e negativos em proporções que imitam a população em estudo, o algoritmo pode ser calibrado para um ótimo desempenho. Esta estratégia pode também ser modificados para utilização com captura de hibridação ou indivíduo específicos códigos de barras e pode ser aplicado para a sequenciação de amostras naturalmente heterogéneos, tais como o DNA do tumor.

Protocol

Este método foi utilizado em investigação relatada em Vallania FML et al. Genome Research 2010.

1. Exemplo de Pooling e PCR Captura de Alvo Loci genômicos

Combinar uma quantidade normalizada de DNA genómico de cada indivíduo em sua piscina (s). Usando 0,3 ng de DNA por pessoa, por reacção de PCR irá incorporar cerca de 50 genomas diplóides por pessoa em cada reacção de PCR, o que melhora a probabilidade de amplificação uniforme por alelo na piscina.
As seqüências genômicas podem ser obtidas no NCBI ( http://www.ncbi.nlm.nih.gov/ ) ou Navegador UCSC Genoma ( http://genome.ucsc.edu/index.html ). Certifique-se de usar o "RepeatMasker" (marcado com "N") ao obter a sequência para evitar projetar um primer em uma região repetitiva.
Use o Primer3 web-based (rimer3/input.htm "target =" _blank utilitário "> http://frodo.wi.mit.edu/primer3/input.htm) para projetar primers recortando e colando as regiões genômicas de interesse, bem como algumas sequências flanqueadoras (amplicons de 600-2000 pb são tipicamente ideal) As condições ótimas de primers de design para Primer 3, para serem utilizados são ^10: tamanho mínimo primário = 19; tamanho cartilha Optimum = 25; tamanho cartilha máxima = 30; Tm mínima = 64 ° C; Tm Optimum. = 70 ° C; máxima Tm = 74 ° C; máxima Tm = diferença de 5 ° C; conteúdo mínimo GC = 45; conteúdo GC máxima = 80; Número de voltar = 20 (esta é arbitrária), 3 Máximo "estabilidade final = 100 primers. Design para amplificar todos os loci de DNA genômico de interesse. Ao receber os iniciadores, os estoques liofilizadas podem ser diluídos em 10 mM de Tris, pH 7,5 + 0,1 mM de EDTA para uma concentração final de 100 uM seguido por uma diluição adicional 10:01 em DDQ ₂ O para 10 uM.
Amplificação por PCR: Sugerimos a utilização de uma polimerase de DNA de alta-fidelidade para amplificar genómico grandeamplicons devido à baixa taxa de erro (10 ^-7) e geração de produtos rombas terminou (isto é necessário para o passo de ligação a jusante). Temos usado PfuUltra alta-fidelidade, mas as enzimas com características semelhantes (como Phusion) deve fornecer resultados comparáveis. Cada reacção de PCR contém uma concentração final de 2,5 U de polimerase PfuUltra alta fidelidade, 1 betaína M, 400 nM de cada iniciador, 200 iM dNTPs, 1x PfuUltra tampão (ou um tampão contendo ≥ 2 mM Mg ^{2 +,} a fim de manter a fidelidade enzimática) , 5-50 ng de DNA reunidos num volume final de 50 uL. Use as seguintes condições de PCR: 1. 93-95 ° C durante 2 minutos; 2. 93-95 ° C durante 30 segundos; 3. 58-60 ° C durante 30 segundos; 4. 65-70 ° C durante 60-90 segundos para amplicões de 250-500 pb / 1,5-3 minutos para amplicões 500-1000 pb / 3-5 minutos para amplicões> 1 kb; 5. Repita os passos 2-4 para 25-40 ciclos; 6. 65 ° C durante 10 minutos; 7. 4 ° C espera. Se necessário, a PCR pode tipicamente ser melhorada através de: 1)abaixamento da temperatura de recozimento para amplicões pequenas, 2) o aumento da temperatura de recozimento para amplicões grandes; 3. alongamento do tempo de extensão para qualquer fragmento amplificado.
Preparação de controlos Splinter: Cada experiência SPLINTER requer a presença de um controlo negativo e positivo para se obter precisão óptima. Um controle negativo pode consistir em todas as posições de base homozigotas em qualquer indivíduo, com código de barras amostra que foi anteriormente sequenciadas (por exemplo, uma amostra HapMap). O controlo positivo, então, consistir de uma mistura de dois ou mais dessas amostras. Para este relatório, o controle negativo é uma região de 1.934 pb amplificado a partir do backbone do vetor ssDNA M13mp18. O produto de PCR foi sequenciado Sanger antes da sua utilização, a fim de confirmar que não existe variação de sequência a partir do material de fonte ou a amplificação por PCR. O controlo positivo é constituído por um painel de pGEM-T vectores fáceis com uma 72 pb clonados inserir fabricado de acordo com inserções, deleções, específicos substitutions (Tabela 1). Nós misturar os vectores em conjunto contra um fundo de tipo selvagem em proporções molares de tal modo que as mutações estão presentes na frequência de um único alelo no pool (ou seja, para um pool de 100 alelo-, a frequência de um único alelo será de 1%). Em seguida, PCR amplificar o modelo de controle misto utilizando os primers M13 sites da PUC, em pGEM-T Easy, gerando uma final 355bp produto de PCR tempo.

2. Preparação Biblioteca Pooled PCR e Sequenciamento

Produto de PCR pooling: Cada produto de PCR devem ser limpos de iniciadores em excesso. Usamos Qiagen purificação em coluna QIAquick ou placas de 96 poços de filtro com tubo de vácuo em larga escala de limpeza. Após purificação, cada produto de PCR devem ser quantificados utilizando técnicas padrão. Combinar cada produto de PCR (incluindo os controlos) para um pool de normalizados pelo número molécula como agrupamento por concentração irá resultar em sobre-representação de pequena amplicões over produtos maiores. As concentrações são convertidos para o número absoluto de moléculas de DNA por volume utilizando a fórmula: (g / mL) x (1 mol x pb / 660 g) x (1 / # pb em amplicon) x (6 x 10 ²³ moléculas / 1 mol ) = moléculas / uL. Em seguida, determinar o volume de cada reacção necessário para uma piscina número normalizado de moléculas por amplicon. Este número é arbitrária, pode ser ajustada e realmente depende pipetagem grandes volumes suficiente para manter a precisão. Nós tipicamente juntam 1-2 x ¹⁰ 10 moléculas de cada fragmento amplificado.
Ligadura de produtos de PCR: Este passo é necessário para conseguir uma cobertura uniforme como seqüenciamento de amplicons sonicação pequenas PCR será tendenciosa a sua representação para seus fins. Para superar isso, ligadura dos produtos combinados de PCR em concatemers grandes (> = 10 Kb) anteriores à fragmentação. Pfu Ultra Polimerase HF gera extremidades sem corte, levando a ligação eficiente (a Taq polimerase baseada irá adicionar um excesso de 3p "A" que não será umligadura GUARDE sem antes preencher ou embotamento). Esta reacção pode ser aumentado 2-3 vezes se necessário. A reacção de ligação contém 10 U quinase de polinucleótido T4, 200 U de ligase de T4, 15% de polietileno w / v, 1X tampão de ligase de T4, o glicol 8000 MW, até 2 ug de pooled produtos de PCR num volume final de 50 uL. As reacções são incubadas a 22 ° C durante 16 horas seguido por 65 ° C durante 20 minutos e mantida a 4 ° C em seguida. O sucesso deste passo pode ser verificado através do carregamento de 50 ng de amostras em um gel de agarose a 1%. A ligadura de sucesso vai resultar num presente banda alto peso molecular na pista (ver Figura 2, pista 3).
Fragmentação do DNA: Neste ponto você deve ter concatemers grandes (> 10kb) de produtos de PCR. Temos uma estratégia de sonicação, utilizando uma amostra aleatória-24 Diagenode sonicador Bioruptor que pode fragmentar essas concatemers em 25 minutos (40 segundos "on" / 20 seg "off" por minuto). Sonicação é inibida pela viscosidade introduzido pelo PEG, de modoisto pode ser superado através da diluição da amostra 10:01 em Qiagen tampão PB. Os resultados podem ser verificados em um gel de agarose a 2% (ver Figura 2, pistas 4 e 5).
A amostra está pronta para incorporar diretamente na Biblioteca Genômica Illumina Amostra início protocolo de preparação, com o "End Reparação" passo. Os dados aqui apresentados são de ponta única lê sobre o Genoma Illumina Analyzer IIx, mas temos utilizado a HiSeq 2000 e realizada único ou combinado fim-lê com resultados comparáveis. Dada a escala da biblioteca criado, também utilizado personalizados adaptadores com código de barras a fim de multiplex várias bibliotecas combinadas para acomodar a largura de banda fornecido pela plataforma HiSeq (dados não mostrados). Siga o protocolo do fabricante e as recomendações que vêm com o kit. A fim de alcançar a sensibilidade e especificidade óptima para a detecção de variante, a cobertura alvo de 25 vezes ou mais por alelo é recomendada (Figura 3). Esta estimativa é independente do tamanho da piscinaeo tipo de variante a ser detectado. Se necessário pistas múltiplas e os funcionamentos podem ser combinados para alcançar uma cobertura adequada.

3. Seqüenciamento Lê Alinhamento e Análise

A compressão de arquivos e formatação: arquivos de leitura primas sequenciamento deve ser ou convertidos para o formato LENÇO ou comprimido. A compressão é opcional, pois economiza tempo e espaço para as etapas subseqüentes de análise sem perder nenhuma informação relevante. Isto é conseguido usando o RAPGAP_read_compressor_v2.pl script incluído com o comando seguinte:
./RAPGAP_read_compressor_v2.pl [Arquivo Read]> [comprimido Ler arquivo]
Formatos de entrada aceites ler arquivos são cachecol e FASTQ, seja compactado ou descompactado:
Exemplo formato LENÇO:
HWI-EAS440: 7:1:0:316 # 0/1: NTCGATTCACTGCCCAACAACACCAGCTCCTCTCCC: DNWUQSPWWWWUVVPVVWVVVUVVUUPUUWWWWWUW
FASTQ formato exemplo:
@ HWI-EAS440_7_1_0_410 # 0/1
NGTGGTTTCTTCTTTGGCTGGGGAGAGGAGCTGGTG
+
& / 8888888888888888888854588767777666!
Alinhamento ler-prima: O leituras em bruto pode agora ser alinhada com a sequência anotada FASTA referência específica às regiões alvo, incluídas nas reacções de PCR, bem como o positivos e os controlos negativos. O alinhamento pode ser realizada utilizando o RAPGAPHASH5d ferramenta incluída alinhamento. O formato de entrada, neste ponto tem de ser lenço ou comprimido. O comando para o alinhamento é o seguinte:
./RAPGAPHASH5d [Arquivo compactado Read] [arquivo FASTA] [número de edições permitido]> [Alinhados arquivo]
O número de desfasamentos por leitura que são permitidos em comparação com a sequência de referência é um parâmetro definido pelo utilizador. Lê-se que têm um número excessivo de problemas serão descartados. Recomendamos permitindo 2 descasamentos de 36 pb leituras, 4 descasamentos de 76 pb lê e 5 incompatibilidades para 101 pb lê. Permitindo inadequações mais vai aumentar a probabilidade de erros permitindo que o excesso de seqüenciamento para o aligned dados. Como comprimentos de leitura continuar a tornar-se mais, este valor pode ser ainda aumentada.
Tagging alinhado arquivos da célula de fluxo mesmo: Neste ponto, a todo alinhado ler o arquivo deve ser dado um identificador único ("tag"), a fim de identificar os arquivos de leitura pertencentes ao longo seqüenciamento mesmo (ou seja, várias pistas a partir da célula de fluxo mesmo podem ser agregados e dado uma única marca). A marca é necessário porque cada execução máquina gera um perfil de erro única que pode ser caracterizado através da etiqueta. Uma tag é uma seqüência alfanumérica de caracteres usado para distinguir um conjunto de leituras (o caractere de sublinhado "_" não deve ser usado para questões de análise). Tags diferentes deve ser usado para arquivos de leitura alinhados gerados em células de fluxo diferentes ou corridas de máquina. Etiquetas podem ser adicionadas usando o RAPGAP_alignment_tagger.pl incluído com o seguinte comando:
. / RAPGAP_alignment_tagger.pl [arquivo Alinhados] [TAG]> [Alinhados arquivo marcado]
Após este ponto, alinhadoarquivos da biblioteca mesmo gerado em várias células de fluxo diferentes podem ser combinadas como as suas respectivas marcas irá mantê-los separados.
Geração de erro modelo: Como mencionado acima, cada corrida máquina gera um perfil único de erro de sequenciação que precisa de ser caracterizada para a chamada variante precisas. Para modelar esses erros para cada execução da máquina, uma seqüência de controle interno conhecido por ser desprovido de variação da seqüência é incluído em cada biblioteca amostra colectiva. A partir do arquivo alinhado marcado, um ficheiro de modelo de erro pode ser gerado usando o EMGENERATOR4 ferramenta incluída com a sequência de controlo negativo de referência. Todos a sequência de controlo negativo pode ser usado ou, alternativamente, apenas um subconjunto de la, especificado pelo 5 'e 3' a maioria das bases em entrada. Único lê e pseudocounts deve sempre ser usado:
./EMGENERATOR4 [Arquivo Alinhados marcado] [seqüência de controle negativo] [nome do arquivo de saída] [5 'mais base do controle negativo a ser usado] [3' base mais deo controle negativo a ser usado] [include única lê apenas? = Y] alinhamento [edições de corte] [entrar pseudocounts? Y =]
A ferramenta EMGENERATOR4 irá gerar 3 arquivos nomeados como o parâmetro de nome de arquivo de saída seguido de _0, _1 ou _2. Esses arquivos correspondem a um 0, 1 e modelo de erro de 2 ª ordem, respectivamente. Para variante chamada com Splinter, o modelo de erro de 2 ª ordem deve ser sempre utilizado.
Para visualizar o perfil de taxa de erro de uma execução, o error_model_tabler_v4.pl pode ser usado para gerar uma trama de erro PDF no ficheiro de 0 modelo de ordem de erro (Figura 4):
./error_model_tabler_v4.pl [Erro modelo de arquivo de ordem 0] [nome do arquivo de saída]
O ficheiro de trama irá revelar as tendências de execução específicas de erro e pode ser usado para inferir o número máximo de bases de leitura para ser utilizados para a análise, o que é explicado na secção seguinte.

4. Detecção de variante rara Usando SPLINTER

Variant calling por SPLINTER: O primeiro passo na análise é para executar a ferramenta SPLINTER no ficheiro alinhado com o modelo de erro ea sequência de referência. O comando para fazer isso é:
./SPLINTER6r [Alinhados arquivo marcado] [arquivo FASTA] [2 ª ordem arquivo de modelo de erro] [número de ler bases a serem usadas] [ler bases ou ciclos a serem excluídos] [corte p = -1,301] [uso exclusivo lê = Y] alinhamento [edições de corte] [size piscina entre as opções disponíveis] [imprimir a cobertura absoluta por fio = Y]> [arquivo SPLINTER]
O número de bases de leitura para ser utilizada varia e deve ser avaliado de acordo com cada ensaio. Em geral, recomendam a utilização dos primeiros 2/3rds da leitura uma vez que representam os dados mais alta qualidade (a 24 primeiro lido bases de um longo 36bp ler, por exemplo). Individuais bases de leitura podem ser excluídos da análise, se for encontrado para ser defeituoso (separados por uma vírgula por exemplo, ou N 5,7,11 ou N). O ponto de corte p-valor determina como a análise rigorosa chamado variante vai ser. Nós nemmalmente iniciar a análise, permitindo que um corte mínimo de -1,301 (correspondente a um valor de p ≤ 0,05 em log10 escala). A opção de tamanho do conjunto de algoritmos optimiza o "sinal-ruído" discriminação, eliminando variantes possíveis com frequências alélicas menores menos do que a de um único alelo no pool real. Por exemplo, num tanque de 50 indivíduos, a mais baixa variante observada pode ser esperado a 0,01 frequência ou 1 em 100 alelos. Assim, a opção de tamanho de piscina deve ser ajustado para o valor mais próximo que é maior que o número real de alelos analisados no ensaio (isto é, se 40 pessoas são pesquisadas, esperamos 80 alelos de modo que o mais próximo opção seria um tamanho da piscina de 100) . Variantes chamados em freqüências <0,01, então, ser ignorado como ruído. Este arquivo retorna todos os hits que são estatisticamente significativos em toda a amostra, com uma descrição da posição da variante, o tipo de variante, p valor por fita de DNA, a freqüência da variante e cobertura total por cadeia de DNA (
Normalizar a cobertura para as variantes chamadas: flutuações de cobertura em toda a amostra pode gerar visitas falsas. Isto pode ser corrigido através da aplicação do script splinter_filter_v3.pl como se segue:
./splinter_filter_v3.pl [arquivo SPLINTER] [arquivo da lista] [rigor]> [SPLINTER arquivo normalizado]
onde o arquivo é uma lista de visitas de controlo positivo na forma de um arquivo delimitado por tabulação.
O primeiro campo indica o amplicão de interesse, enquanto que o segundo campo indica a posição em que a mutação está presente. N indica que o resto da sequência não contém qualquer mutação.
Determinação das óptimas p-valor limiares utilizando os dados de controlo positivo: Após a normalização, a análise do controlo positivo é indispensável para maximizar a sensibilidade e especificidade de análise de uma amostra particular. Isto pode ser conseguido por encontrar o ponto de corte valor de p-óptima utilizando a informaçãoção a partir do controlo positivo. Muito provavelmente, a inicial valor de p de -1,301 não será suficientemente rigorosas, o que em caso afirmativo, irá resultar no chamado de falsos positivos a partir do controlo positivo ou negativo. Cada análise SPLINTER irá mostrar o real valor de p para cada variante chamada (ver colunas 5 e 6 na Tabela 2), que não podia ser previsto a priori. No entanto, toda a análise pode ser repetido usando a, pelo menos rigorosas valor de p exibido na saída inicial para os conhecidos verdadeiros posições base positivos. Isto servirá para reter todos os verdadeiros positivos, enquanto a maioria excluindo, se não todos, os falsos positivos e eles normalmente têm p-valores muito menos significativa em comparação com verdadeiros positivos. Para automatizar este processo, o cutoff_tester.pl pode ser usado cutoff_tester.pl requer um ficheiro de saída lascar e uma lista de ocorrências de controlo positivo, na forma de um ficheiro de guia delimitado como o utilizado para a normalização.:
. / Cutoff_tester.pl filtro SPLINTER [arquivo ed] [lista de arquivos]
A saída resultante será uma lista de pontos de corte que progressivamente atingem a um óptimo (ver Tabela 3). O formato é:
[Distância máxima sensibilidade e especificidade] [sensibilidade] [especificidade] [corte]
por exemplo:
7.76946294170104e-07 1 0,999118554429264 -16,1019999999967
A última linha representa o corte mais óptima para a execução e pode, portanto, ser utilizado para análise de dados. O resultado óptimo é conseguir a sensibilidade e especificidade de 1. No caso de este resultado não é atingido, a análise SPLINTER pode ser repetido, alterando o número de incorporado ler bases até que a condição mais óptima é conseguida.
Variante final filtragem: O ponto de corte final pode ser aplicada aos dados usando script cutoff_cut.pl, que irão filtrar o ficheiro de saída lasca de acessos abaixo do corte,
. / Cutoff_cut.pl [SPLINTER arquivo filtrada] [corte]> SPLINTER [finalarquivo]
Este passo irá gerar o ficheiro de saída final lasca, que conterá SNPs e Indels presente na amostra. Note que a saída para as inserções é ligeiramente diferente do que para as substituições ou deleções (Tabela 2).

5. Os resultados representativos

Nós reunidas uma população de 947 indivíduos e orientados ao longo de 20 kb para sequenciação. Foram aplicados SPLINTER para a detecção de variantes raras seguindo nosso protocolo padrão. Cada indivíduo tinha anteriormente tinha genotipagem realizada por genome-wide genotipagem matriz. A concordância entre genotipagem de marcados e novas variantes chamados na amostra combinada foram excelentes (Figura 6). Três variantes, dois dos quais (rs3822343 e rs3776110) eram raros na população, foram chamados de novo a partir dos resultados de sequenciamento e foram validados por pyrosequencing individual. Freqüências alélicas Menores (FAM) no pool foram semelhantes aos do MAF relatado em dbSNP compilação 129. A concordância entre MAF pyrosequencing e seqüenciamento pool foi excelente (Tabela 3).

A Tabela 1. Sequências de oligonucleótidos de DNA para o controlo positivo. Cada seqüência consiste em um fragmento de DNA diferente da referência de tipo selvagem tanto por duas substituições ou uma inserção e outra de eliminação. Clique aqui para ver a imagem ampliada .

Tabela 2. Exemplo de saída SPLINTER. As duas primeiras linhas representam a saída SPLINTER padrão para uma substituição ou uma eliminação (cabeçalho azul). A última linha representa a saída SPLINTER padrão para uma inserção (cabeçalho roxo).rPegue = "_blank"> Clique aqui para ver a imagem ampliada.

Tabela 3. Cinco conhecido e três novas variantes foram identificadas a partir de grandes populações e validado por genotipagem individual. Validação individual foi realizada por pyrosequencing (linhas 1-3), ensaio de TaqMan (linhas 4-6), ou sequenciação de Sanger (linhas 7,8). Para uma ampla gama de freqüências alélicas e incluindo cinco posições com MAF <1%, a concordância entre a estimativa combinada seqüenciamento freqüência de alelos e genotipagem individual era forte. Posições marcados com um asterisco (*) estão adaptadas a partir dos dados previamente relatados ^9.

A Figura 1
Figura 1. Pooled DNA de seqüenciamento e análise panorâmica SPLINTER. DNA do paciente é agrupadae amplificado em loci seleccionados. Os produtos finais de PCR são reunidas em conjunto com um controlo positivo e negativo em proporções equimolares. A mistura é então combinada seqüenciados e as leituras resultante são mapeados de volta para sua referência. Mapeado controlo negativo leituras são usados para gerar um modelo de erro de execução específica. SPLINTER pode então ser usado para detectar SNPs rara e indels através da incorporação de informações a partir do modelo de erro eo controlo positivo. [Adaptado de Vallania FLM et al, Genome Research 2010] Clique aqui para ver a imagem ampliada .

A Figura 2
Figura 2. Ligadura amplicon Pooled PCR e sonicação. Como uma demonstração da ligadura e passos de fragmentação aleatórias no protocolo de preparação da biblioteca, vector pUC19 foi digerido enzimaticamente para os fragmentos mostrados na pista 2. Estes fragmentos foram normazados em número molécula, combinadas e aleatoriamente ligado acordo com o passo 1.7 acima. Os concatamers resultantes grandes são mostrados na pista 3. Os concatamers ligadura foram igualmente divididas e submetido a sonicação como descrito no passo 1,8 acima. O esfregaço resultante de fragmentos de DNA para cada repetição técnica são mostrados nas pistas 4 e 5. O suporte de destaca o intervalo de tamanho utilizado para a extracção de gel e de criação de biblioteca sequenciação.

A Figura 3
Figura 3. Precisão como uma função de cobertura para um único alelo numa amostra combinada. A precisão é estimada como a área sob a curva (AUC) de uma curva Receiver Operator (ROC), que varia de 0,5 (aleatório) para 1,0 (perfeita exatidão). AUC é traçado como uma função da cobertura por alelo para a detecção de alelos mutantes individuais em piscinas de 200, 500 e 1000 alelos (A). AUC é traçado como uma função para a cobertura total substituições, inserções e deletions (B). [Adaptado de Vallania FLM et al, Genome Research 2010].

A Figura 4 4 Figura. Lote de erro mostra a probabilidade de incorporar uma base de errónea em uma determinada posição. O perfil de erro mostra as taxas de erro baixas com uma tendência crescente em direção a extremidade 3 'do seqüenciamento ler. Notavelmente, os nucleótidos de referência diferentes exibir probabilidades de erro diferentes (ver, por exemplo probabilidade de um determinado C incorporando um G como referência). [Adaptado de Vallania FLM et al, Genome Research 2010].

A Figura 5
Figura 5. Precisão de SPLINTER na estimativa de freqüência do alelo para as posições que tinham cobertura superior a 25 vezes por alelo. Com base nos resultados no Painel A, Figura 3 mostrando a sensibilidade óptima para a detecção única variante com ≥ cobertura 25 vezes, umacomparação entre as freqüências alélicas pool de DNA-estimados pelo SPLINTER com contagens de alelos medidos pelos resultados GWAS em correlação muito alta (r = 0,999). [Adaptado de Vallania FLM et al, Genome Research 2010].

A Figura 6
Figura 6. Comparação entre as freqüências alélicas medidos por GWAS em comparação com estimativas lasca de sequenciamento combinada de 974 indivíduos. Havia 19 posições comuns entre os loci genotipados e as regiões de seqüência para comparação. A correlação resultante é muito alta (r = 0,99538). Clique aqui para ver maior figura .

Discussion

Existe uma evidência crescente que a incidência e resposta terapêutica de comuns, fenótipos complexos e doenças tais como a obesidade ^8, hipercolesterolemia ^4, hipertensão ⁷ e outros podem ser moderadas por perfis pessoais de variação rara. Identificar os genes e as vias onde essas variantes agregadas em populações afetadas terão profundas implicações diagnósticas e terapêuticas, mas analisando separadamente os indivíduos afetados pode ser o tempo e custo proibitivo. De base populacional análise oferece um método mais eficiente para o levantamento da variação genética em locos múltiplos.

Apresentamos um novo reunidas DNA-protocolo sequenciação emparelhado com o pacote de software SPLINTER desenhados para identificar este tipo de variação genética através de populações. Demonstramos a precisão deste método na identificação e quantificação alelos menores dentro de uma grande população combinada de 947 indivíduos, incluindo as variantes raras que eramchamado de novo a partir da sequência reunidas e validado por pyrosequencing individual. A nossa estratégia principalmente difere de outros protocolos pela incorporação de um positivo e um controlo negativo dentro de cada experiência. Isso permite que SPLINTER para conseguir uma precisão muito maior e de energia em comparação com outras abordagens ^1. A cobertura óptima de 25 vezes por alelo é fixado de forma independente do tamanho da piscina, tornando a análise de agrupamentos de grandes viável como este requisito apenas as escalas linearmente com o tamanho da piscina. A nossa abordagem é muito flexível e pode ser aplicado a qualquer fenótipo de interesse, mas também para amostras que são naturalmente heterogénea, tais como as populações de células mistas e biópsias de tumores. Dado o interesse cada vez maior na seqüência combinada de regiões-alvo de grande porte como o exome ou genoma, a nossa biblioteca de preparação e análise SPLINTER é compatível com o costume de captura e de todo o exome seqüenciamento, mas o utilitário de alinhamento no pacote SPLINTER não foi projetado para grandesequências de referências. Portanto, temos utilizado com sucesso o alinhador de programação dinâmica, Novoalign, para genome-wide alinhamentos seguido de variante ligando a amostra conjunta (Ramos et al., Submetido). Assim, nossa estratégia de seqüenciamento de pool pode escalar com sucesso para piscinas maiores, com quantidades crescentes de sequência alvo.

Disclosures

Não há conflitos de interesse declarados.

Acknowledgments

Este trabalho foi financiado pelo Discovery das Crianças Instituto concessão MC-II-2006-1 (RDM e TED), o NIH Epigenetics Roteiro concessão [1R01DA025744-01 e 3R01DA025744-02S1] (RDM e FLMV), U01AG023746 (SC), o Saigh Foundation (FLMV e TED), 1K08CA140720-01A1 e Alex Lemonade Stand "A" apoio Award (TED). Agradecemos ao Centro do Genoma Acesso à Tecnologia do Departamento de Genética da Washington University School of Medicine de ajuda com a análise genômica. O Centro é parcialmente financiado pelo NCI Cancer Support Center Grant P30 CA91842 # para o Centro de Câncer Siteman e pela ICTS / CTSA Grant # UL1RR024992 do National Center for Research Resources (NCRR), um componente do National Institutes of Health (NIH), e NIH Roadmap for Medical Research. Esta publicação é da exclusiva responsabilidade dos autores e não representam necessariamente a posição oficial do NCRR ou NIH.

Materials

Name	Company	Catalog Number	Comments
PfuUltra High-Fidelity	Agilent	600384	1.4
Betaine	SIGMA	B2629	1.4
M13mp18 ssDNA vector	NEB	N4040S	1.5
pGEM-T Easy	Promega	A1360	1.5
T4 Polynucleotide Kinase	NEB	M0201S	2.2
T4 Ligase	NEB	M0202S	2.2
Polyethylene Glycol 8000 MW	SIGMA	P5413	2.2
Bioruptor sonicator	Diagenode	UCD-200-TS	2.3

DOWNLOAD MATERIALS LIST

References

Vallania, F. L. M., Druley, T. E., Ramos, E., Wang, J., Borecki, I., Province, M., Mitra, R. D. High-throughput discovery of rare insertions and deletions in large cohorts. Genome Research. 20, 1391-1397 (2010).
Shendure, J., Mitra, R., Varma, C., Church, G. M. Advanced Sequencing Technologies: Methods and Goals. Nature Reviews of Genetics. 5, 335-344 (2004).
The 1000 Genomes Project Consortium. A map of human genome variation from population-scale sequencing. Nature. 467, 1061-1073 (2010).
Manolio, T. A., Collins, F. S., Cox, N. J., Goldstein, D. B., Hindorff, L. A., Hunter, D. J., McCarthy, M. I., Ramos, E. M., Cardon, L. R. Finding the missing heritability of complex diseases. Nature. 461, 747-753 (2009).
Reich, D. E., Lander, E. S. On the allelic spectrum of human disease. Trends Genet. 17, 502-510 (2001).
Cohen, J. C., Kiss, R. S., Pertsemlidis, A., Marcel, Y. L., McPherson, R., Hobbs, H. H. Multiple rare alleles contribute to low plasma levels of HDL cholesterol. Science. 305, 869-872 (2004).
Ji, W., Foo, J. N., O'Roak, B. J., Zhao, H., Larson, M. G., Simon, D. B., Newton-Cheh, C., State, M. W., Levy, D., Lifton, R. P. Rare independent mutations in renal salt handling genes contribute to blood pressure variation. Nat. Genet. 40, 592-599 (2008).
Ahituv, N., Kavaslar, N., Schackwitz, W., Ustaszewska, A., Martin, J., Hebert, S., Doelle, H., Ersoy, B., Kryukov, G., Schmidt, S. Medical sequencing at the extremes of human body mass. Am. J. Hum. Genet. 80, 779-791 (2007).
Druley, T. E., Vallania, F. L., Wegner, D. J., Varley, K. E., Knowles, O. L., Bonds, J. A., Robison, S. W., Doniger, S. W., Hamvas, A., Cole, F. S., Fay, J. C., Mitra, R. D. Quantification of rare allelic variants from pooled genomic DNA. Nat. Methods. 6, 263-265 (2009).
Mitra, R. D., Butty, V., Shendure, J., Housman, D., Church, G. M. Digital Genotyping and Haplotyping with Polymerase Colonies. Proc. Natl. Acad. Sci. 100, 5926-5931 (2003).