Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Sequência de romance descoberta pela genômica subtrativa

Published: January 25, 2019 doi: 10.3791/58877

Summary

O propósito do presente protocolo é usar uma combinação de computacional e pesquisa do banco para encontrar romance sequências que não podem ser separadas facilmente uma sequência co purificante, que pode ser apenas parcialmente conhecida.

Abstract

Genómica subtrativa pode ser usada em qualquer pesquisa onde o objetivo é identificar a sequência de um gene, proteína ou região geral que está incorporado em um contexto maior genoma. Genómica subtrativa permite que um pesquisador isolar uma sequência do alvo do interesse (T) sequenciamento abrangente e subtraindo elementos genéticos conhecidos (referência, R). O método pode ser usado para identificar sequências de romance como mitocôndrias, cloroplastos, vírus, ou germline restrito de cromossomos e é particularmente útil quando T não pode ser facilmente isolado de R. começando com os dados completos de genômicos (R + T), o método usa base Local alinhamento pesquisa ferramenta (explosão) contra uma sequência de referência, ou sequências, para remover as sequências conhecidas correspondentes (R), deixando para trás o alvo (T). Para subtração funcionar melhor, R deve ser um projecto relativamente completo que está faltando T. Desde sequências restantes após subtração são testados através de quantitativos Polymerase Chain Reaction (qPCR), R não precisa ser completa para o método de trabalho. Aqui temos link passos computacionais com etapas experimentais em um ciclo que pode ser iterado conforme necessário, sequencialmente, removendo várias sequências de referência e refinar a busca por T. A vantagem da genómica subtrativa é que uma sequência totalmente inédita do alvo pode ser identificada mesmo nos casos em que a purificação física é caro, difícil ou impossível. Uma desvantagem do método é encontrar uma referência adequada para subtração e obtenção de T-positivo e negativo de amostras para testes de qPCR. Descrevemos nossa implementação do método na identificação do primeiro gene cromossomo germline restrito de zebra finch. Nesse caso a filtragem computacional envolveu três referências (R), removidas sequencialmente em três ciclos: um assembly genômica incompleto, dados brutos de genômicos e transcriptomic dados.

Introduction

A finalidade desse método é identificar uma alvo romance (T) sequência genômica, ou DNA ou RNA, de um contexto genômico, ou uma referência (R) (Figura 1). O método é mais útil se o destino não pode ser separado fisicamente, ou que seria caro para fazê-lo. Somente alguns organismos perfeitamente terminar de genomas para subtração, então uma inovação chave do nosso método é a combinação de computacionais e métodos de banco em um ciclo, possibilitando que os pesquisadores isolar sequências de destino quando a referência é imperfeita, ou um projecto genoma de um organismo não-modelo. No final de um ciclo, qPCR teste é usado para determinar se é necessário mais subtração. Uma sequência de candidato validado T mostrará a deteção estatisticamente maior em amostras de T-positivas conhecidas por qPCR.

Encarnações do método têm sido implementadas na descoberta de novos alvos de drogas bacteriana que não têm acolhimento homologs1,2,3,4 e identificação de novos vírus de hospedeiros infectados 5,6. Além da identificação de T, o método pode melhorar r: recentemente usamos o método para identificar 936 faltando genes do genoma de referência de zebra finch e um novo gene de um cromossomo apenas germline (T)7. Genómica subtrativa é particularmente valiosa quando T é provável ser extremamente divergentes de sequências conhecidas, ou quando a identidade de T é amplamente indefinida, como a zebra finch restrito germline cromossoma7.

Por não exigir uma identificação positiva de T previamente, a principal vantagem da genómica subtrativa é que é imparcial. Em um estudo recente, Readhead et al analisou a relação entre a doença de Alzheimer e abundância viral em quatro regiões do cérebro. Para identificação viral, Readhead et al criou um banco de dados de 515 vírus8, limitando severamente as agentes virais que seu estudo poderia identificar. Genómica subtrativa poderia ter sido usada para comparar o saudável e genomas de Alzheimer para isolar possíveis novos vírus associados com a doença, independentemente de sua semelhança com os agentes infecciosos conhecidos. Enquanto existem 263 vírus multiplataforma em humanos conhecidos, estima-se que existem aproximadamente 1,67 milhões por descobrir espécies virais, com 631.000-827.000 deles tendo um potencial de infectar seres humanos9.

Isolamento de vírus romance é uma área na qual subtrativa genómica é particularmente eficaz, mas alguns estudos podem não precisar de um método tão rigoroso. Por exemplo, estudos de identificação de novos vírus utilizaram imparcial sequenciamento do elevado-throughput seguido por transcrição reversa e BLASTx para sequências viral5 ou enriquecimento de viral de ácidos nucleicos para extrair e reverter transcrevem sequências virais 6. enquanto estes estudos empregado novo de sequenciamento e montagem, subtração não foi usada porque as sequências de destino foram positivamente identificadas através da explosão. Se o vírus estavam totalmente inédita e não relacionados (ou distantemente relacionados) para outros vírus, genômica subtrativa teria sido uma técnica útil. O benefício da genómica subtrativa é que sequências que são completamente novas podem ser obtidas. Se o genoma do organismo é conhecida, pode ser subtraída para fora para deixar qualquer sequências virais. Por exemplo, em nosso estudo publicado isolamos uma sequência viral romance de zebra finch através de genómica subtrativa, embora não fosse nossa intenção original7.

Genómica subtrativa também provou ser útil na identificação de alvos de vacina bacteriana, motivados pelo aumento dramático da resistência aos antibióticos,1,2,3,4. Para minimizar o risco de reação auto-imune, pesquisadores reduziu os possíveis alvos de vacina subtraindo quaisquer proteínas que têm homologs no hospedeiro humano. Um estudo particular, olhando pseudotuberculosis Corynebacterium, realizada a subtração de genomas de vertebrados anfitrião de vários genomas bacterianas para garantir que alvos possíveis drogas não afectaria as proteínas nos anfitriões levando a efeitos colaterais 1. o fluxo de trabalho básico desses estudos é baixar o proteome bacteriano, determinar as proteínas vitais, remover proteínas redundantes, use BLASTp para isolar as proteínas essenciais e BLASTp contra o anfitrião proteome para remover qualquer proteínas com homologs do anfitrião 1 , 2 , 3 , 4. neste caso, genómica subtrativa certifique-se de que as vacinas desenvolvidas não terá quaisquer efeitos fora do alvo no anfitrião1,2,3,4.

Costumávamos subtrativa genomics identificar o primeiro gene codificantes de proteínas restrito germline cromossomo (GRC) (no caso, T), que é encontrado em germlines mas não somático tecido de ambos os sexos10. Antes deste estudo, as informações genômicas só que era conhecidas sobre o GRC eram uma região repetitiva11. Montagem de novo foi a RNA sequenciado do ovário e teste os tecidos (R + T) de adultos zebra finches. A eliminação computacional de sequências foi realizada utilizando publicado somáticas (músculo) genoma sequência (R1)12, seu bruto (Sanger) ler dados (R2) e um de transcriptoma (R3) somática (cérebro)13. O uso sequencial de três referências foi guiado pelo qPCR teste na etapa 5 de cada ciclo (Figura 2A), mostrando que a filtragem adicional era necessária. O gene de α-SNAP a descoberta foi confirmado através de qPCR de DNA e RNA e clonagem e sequenciamento. Mostramos em nosso exemplo que este método seja flexível: não é dependente de correspondência de ácidos nucleicos (DNA versus RNA) e a subtração pode ser realizada com referências (R) que são compostas de módulos (assemblies) ou leituras crus.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. montar começando sequência de novo

Nota: Os dados de sequência de próxima geração (NGS) podem ser usados, enquanto um assembly pode ser produzido a partir desses dados. Dados de entrada apropriados incluem Illumina, PacBio, ou Nanopore de Oxford lê montado em um arquivo fasta. Para a concretude, esta seção descreve um assembly Illumina-baseado transcriptomic específicas para o estudo de zebra finch foram realizadas7; no entanto, esteja ciente de que as especificações variam de acordo com o projeto. Para o nosso projeto de exemplo, dados brutos foram derivados de um MiSeq e lê aproximadamente 10 milhões de pares foram obtidos de cada amostra.

  1. Use Trimmomatic 0.3214 para remover adaptadores Illumina e bases de baixa qualidade. Na linha de comando, digite:
    Java-jar PE trimmomatic-0.32.jar-phred33 forward.fq.gz reverse.fq.gz - baseout quality_and_adaptor_trimmed ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 líder: 3 direita: 3 SLIDINGWINDOW:4:20 MINLEN:40
  2. Use pera15 v 0.9.6 para criar alta qualidade mescladas leituras de trimmomatic saída emparelhada leituras, usando parâmetros padrão. Na linha de comando, digite:
    pera -f < quality_and_adaptor_trimmed_1P.fastq > - r < quality_and_adaptor_trimmed_2P.fastq >
  3. Réptil de uso v. 1.116 erro-corrigir o lê produzido através de pera. Siga o passo a passo protocolo descrito no17.
  4. Use a Trinity v 2.4.018 no modo padrão para montar as sequências corrigidas. Para bibliotecas de vertente específica, use o parâmetro SS_lib_type. A saída é um arquivo fasta (your_assembly.fasta). Na linha de comando, digite:
    Trindade - seqType fq..--SS_lib_type FR-max_memory 10g – Trinity_output..--deixada quality_and_adaptor_trimmed_forward_paired_reads.fq de saída – direito quality_and_adaptor_trimmed_reverse_paired_reads.fq – CPU 10
    Nota: A saída será colocada em um novo diretório, Trinity_output, e o assembly será denominado 'Trinity.fasta', que pode ser renomeado como Your_assembly.fasta, se desejado. Consulte o site da Trindade para mais detalhes: https://github.com/trinityrnaseq/trinityrnaseq/wiki/Running-Trinity.

2. explosão conjunto contra a sequência de referência

Nota: Uso esta etapa quando a referência é um conjunto ou longo lê como Sanger; Se ele é composto de Illumina-prima lê, consulte a etapa 3 abaixo para mapeamento de leituras para a consulta. Todas as etapas de explosão foram concluídas com versão 2.2.29+ embora os comandos devem funcionar em qualquer versão recente de explosão.

  1. Fazer um banco de dados de explosão da sequência de referência (nucleotide_reference.fasta) na linha de comando. Entra em linha de comando a seguir:
    makeblastdb - dbtype nucl-em nucleotide_reference.fasta-se nucleotide_reference.db
  2. EXPLOSÃO-fósforo (gerado na etapa 1) o conjunto de consulta ao banco de dados de referência. Para obter um arquivo de saída, use [-se BLAST_results.txt] e para gerar a saída tabular (necessária para etapas de processamento subsequentes com scripts Python), use [-outfmt 6]. Essas opções podem ser combinadas em qualquer ordem, para obter um exemplo concluir comando é [blastn-your_assembly.fasta - db nucleotide_reference.db de consulta-por BLAST_results.txt - outfmt 6]. Se uma configuração de valor e é desejada, use a opção - evalue com um número adequado, por exemplo [evalue-1e-6]. Esteja ciente no entanto que o ciclo subtrativo efetivamente inverte o evalue definindo conforme descrito na discussão.
  3. Para maior rigor, use sequências de proteínas do assembly como a consulta de explosão com traduzido do nucleotide BLAST (tBLASTn), que realiza a tradução de 6 vias de banco de dados (nucleotídeo). Este método é recomendado para a maioria dos sistemas não-modelo, evitando o problema de anotações de proteína incompleta.
    1. Garantir o correto código genético está selecionado para o organismo sendo estudado, usando o - opção de db_gencode. Para obter sequências de proteínas para a consulta, execute o comando TransDecoder.LongOrfs (do pacote de TransDecoder v. 3.0.1) para identificar os quadros de mais longa leitura aberta de sequências de consulta montada. O comando é [TransDecoder.LongOrfs -t your_assembly.fasta]; a saída será colocada no diretório chamado 'transcripts.transdecoder_dir' e irá conter um arquivo chamado longest_orfs.pep que contém as sequências de maior proteína predita de cada sequência em your_assembly.fasta.
    2. Para usar tBLASTn, execute o comando [tblastn-longest_orfs.pep - db nucleotide_reference.db de consulta-por BLAST_results.txt - outfmt 6]. Se uma referência de proteína de alta qualidade está disponível, use correspondência com BLASTp, ao invés de tBLASTn da proteína-proteína.
    3. Fazer um banco de dados de explosão da referência da proteína [makeblastdb - dbtype prot-em protein_reference.fasta-fora protein_reference.db] e depois [blastp-longest_orfs.pep - db protein_reference.db de consulta-fora BLAST_results.txt - outfmt 6]. Certifique-se de salvar os resultados como um arquivo para processamento a jusante e usar tabular (outfmt 6) para garantir que os scripts de Python podem analisá-los corretamente.

3. mapa lê para o Assembly

Nota: Este método pode ser usado se o conjunto de dados de referência consiste de leituras de genômicas crus, ao invés de sequências montadas ou sequências de Sanger, em qual caso uso BLAST (passo 2.1).

  1. Usando o BWA-MEM v. 0.7.1219 ou bowtie220, mapear o baixado lê cru (raw_reads.fastq) para a montagem de consulta. A saída será formato de Sam. Comandos são os seguintes: primeiro índice do assembly: [bwa índice your_assembly.fasta] e mapeie o lê [bwa mem your_assembly.fasta raw_reads.fastq > mapped.sam]. (Nota do ' >' símbolo aqui não é um maior-do que assinar; em vez disso, ele instrui a saída para ir para o arquivo mapped.sam).

4. usar Python Script para remover quaisquer sequências de correspondência

Nota: Dotado de trabalho de scripts Python 2.7.

  1. Após a etapa 2, use subtrativa script Python usando o comando [./Non-matching_sequences.py your_assembly.fasta BLAST_results.txt]. Antes de executar o script, certifique-se de que o arquivo de saída de explosão é no formato 6 (tabular). O script de saída será um arquivo com sequências não-correspondentes em formato fasta chamado your_assembly.fasta_non-matching_sequences_BLAST_results.txt.fasta e também a correspondência de sequências para registros, como your_assembly.fasta_matching_sequences_BLAST_ arquivo Results.txt.FASTA. A não-correspondência será o mais importante, como uma fonte de potenciais sequências de T para o teste e mais ciclos de genómica subtrativa.
  2. Após a etapa 3, execute o removeUnmapped.py de script Python para tomar como entrada o Sam da etapa 3.1 e identifica os nomes de sequências de consulta, sem qualquer correspondência lê e salva-los para um novo arquivo de texto. Use o comando [./removeUnmapped.py mapped.sam] e a saída será mapped.sam_contigs_with_no_reads.txt. (O programa irá gerar um arquivo de sam enxuta com leituras tudo desmapeadas removidas; este ficheiro pode ser ignorado para fins do presente protocolo, mas pode ser útil para outras análises).
  3. Como a saída da etapa anterior é uma lista de nomes de sequência em um arquivo de texto chamado mapped.sam_contigs_with_no_reads.txt, extrair um arquivo fasta com essas sequências: [./getContig.py your_assembly.fasta mapped.sam_contigs_with_no_reads.txt]. A saída será um arquivo chamado mapped.sam_contigs_with_no_reads.txt.fasta.

5. projetar Primers para a sequência que permanece

Nota: neste momento há um arquivo fasta contendo sequências de candidato T. Esta seção descreve qPCR experimentalmente teste se provêm de T ou de regiões desconhecidas do R. Se a subtração na etapa 4 removido todas as sequências, então a montagem inicial falhou incluir T ou subtração pode ter sido muito rigorosa.

  1. Use o Geneious21 para determinar sequências ideal da primeira demão manualmente.
    1. Destaca-se uma sequência de candidato de 21-28 bp para o primer para a frente. Evite execuções de 4 ou mais de qualquer base. Tente uma região com uma combinação razoavelmente uniforme de todos os basepairs de destino. Um único G ou C na extremidade 3' é benéfica, ajudando a ancorar o primer.
    2. Clique na guia estatísticas no lado direito da tela para ver os que a sequência estimado temperatura de fusão (Tm) como a região do candidato é realçada. Olhar para obter uma temperatura de fusão entre 55-60 ° C, evitando repetições e corridas longas de G/C.
    3. Siga as etapas 5.1.1. e 5.1.2 escolher um primer reverso, situado a 150-250 pares de bases 3' do primer para a frente. Enquanto os comprimentos de primeira demão não precisa corresponder, o Tm previsto deve ser tão próximo quanto possível para o Tm do primer para a frente. Não se esqueça de inverter a sequência de complemento (se o botão direito do mouse em Geneious enquanto a sequência é realçada é uma opção do menu).
  2. Use a função de Primer Design , que se encontra na barra de ferramentas superior na janela de sequência.
    1. Clique no botão de Projeto da primeira demão . Inserir a região para amplificar sob a Região de destino.
    2. Sob a guia de características , insira o tamanho desejado, temperatura de fusão (Tm) e % GC (consulte a etapa 5.1.1.).
    3. Clique em Okey para ter as primeiras demão geradas. Encomendar os primers através de um serviço personalizado de oligo.
  3. Valide as primeiras demão com DNA de controle (codificação tanto T e R) para otimizar o tempo Tm e extensão. Uso regular Taq e eletroforese em gel para ver o tamanho da banda, mas otimização também pode ser realizada com qPCR seguindo os métodos na etapa 6.
    1. Fazer 10 diluições X de primers para diante e reversos para que os primers têm uma concentração de 10 μM.
    2. Use uma mistura PCR de 0,5 μL de dNTP, 0,5 μL de primer para a frente, 0,5 μL de primer reverso, 0,1 μL da Taq polimerase, 2 μL de modelo, 0,75 μL de magnésio, 2,5 μL de tampão e 18.15 μL de água para que haja 25 μL por modelo, com uma concentração de 5 ng / ΜL.
    3. Teste os primers em diferentes temperaturas de fusão no programa do PCR. Geralmente o desempenho ideal é derreter observadas temperaturas ligeiramente abaixo do predito Tm dos primers, mas não geralmente acima de 60 ° C. Também testar a extensão ideal vezes usando este guia: 1 min por 1000 bp (assim, geralmente de 10 a 30 segundos dependendo do comprimento do amplicon).
    4. Realize a eletroforese em gel de ponto de extremidade para confirmar que os primers amplificam a sequência esperada. Corra 25 μL do produto qPCR misturado com 5 μL de 6 X tintura de glicerol em um gel de agarose 2% TAE a 200 V por 20 min.

6. qPCR validação da sequência restantes

Nota: Este passo requer primers validados e condições do PCR estabelecidas na etapa 5.

  1. Executar cada modelo em triplicado com a seguinte mistura; 12,5 μL de mistura de mestre PowerSYBR Green, 0,5 μL de primer para a frente com uma concentração de 10 μM, 0,5 μL de primer reverso com uma concentração de 10 μM, 10.5 μL de água e 1 μL de DNA de modelo (em uma concentração de 2 ng/μL) , para que cada um contém bem 25 μL de volume total.
  2. Execute um programa de qPCR informado pelo validado temperatura e tempo de extensão da etapa 4. Projetamos e validado todos os primers para ser compatível com um ciclo de dois estágios, 95 ° C por 10 min iniciais derreter, em seguida, 40 ciclos de 95 ° C por 30 s e 60 ° C por 1 min. No entanto, um programa de três estágios (derreter-recoze-estender) pode ser o mais ideal para as primeiras demão e deve ser adaptado, se necessário. Recomendamos que curvas de desnaturação finais ser gerado pelo menos a primeira vez que os primers são empregados de qPCR para validar a amplificação de um único produto de DNA.
  3. Medida qPCR/SYBR Green sinaliza em relação a actina (ou qualquer outro controle adequado 'R') por CT. para todos os casos de calcular a média e o desvio padrão de 2-(gene Ct - Ct β-actina).
  4. (Opcional) Realize a eletroforese em gel de ponto de extremidade para confirmar a deteção do tamanho correto do produto por qPCR. Aqui, correr 25 μL do produto qPCR misturado com 5 μL de 6 x tintura de glicerol em um gel de agarose 2% TAE a 200 V por 20 min.

7. repita com uma nova referência para Pare os dados.

Nota: Se o passo 6 validado as sequências identificadas de T, termina o ciclo aqui(Figura 2). No entanto, uma série de considerações pode motivar uma continuação do ciclo, por exemplo, se muitas sequências R permanecem no arquivo ou se nenhuma das sequências candidato T foram validadas por qPCR na etapa 6.

  1. Obter uma nova referência. Esta etapa permite uma nova iteração do ciclo e pode incluir dados brutos de genômicos, dados brutos de RNA-seq ou outros conjuntos de dados montados. Recursos valiosos para dados de referência incluem o banco de dados do genoma no National Center for Biotechnology Information (https://www.ncbi.nlm.nih.gov/genome) que armazena montado genomas acessíveis através de FTP (ftp://ftp.ncbi.nlm.nih.gov/genomes/), e a expressão do Gene Omnibus (https://www.ncbi.nlm.nih.gov/geo/) onde lê a sequência de geração primas são armazenados. Projetos de genoma podem fornecer seus dados de sequência primas através de outros sites de projeto-associado e bancos de dados.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Após a explosão de execução, o arquivo de saída terá uma lista de sequências de consulta que correspondem ao banco de dados. Após a subtração de Python, um número de sequências não correspondentes será obtido e testado por qPCR. Os resultados do presente e próximos passos, são discutidos abaixo.

Resultado negativo. Há dois possíveis resultados negativos que podem ser vistos depois da explosão para a sequência de referência. Não pode haver nenhum resultado de explosão, significando que a sequência total não tem qualquer sequências similares à referência. Isto pode ser um erro em selecionar a sequência de referência certa para a amostra sequenciada. Outra possibilidade é que não há nenhum sequências únicas na montagem inicial (tudo é subtraído fora), portanto não há genes encontram-se para a sequência de interesse. Verificar de onde veio a referência e certifique-se de que não é o mesmo tecido do conjunto de módulos de consulta.

Após a filtragem computacional, qPCR pode produzir um resultado negativo, para exemplos, ver Figura 3A, 3B, C em que lá não houve diferença na deteção em tecidos de pássaro. Aos painéis através de C são genes representativos de ciclos diferentes de subtração, quais iterações do ciclo subtrativa adicional motivado e o desenvolvimento do método (Figura 2A, 2B).

Resultado positivo. Um resultado positivo..--a identificação de uma sequência do alvo verdadeiro..--é confirmada quando qPCR de DNA genômico mostra deteção estatisticamente maior no tecido / amostra de interesse em relação a referência (Figura 3-D). O projeto subtrativo, neste caso, começou com sequenciamento do RNA do tecido de germline de masculino e feminino adulto zebra finch, obtenção de 10 milhões de pares leitura de cada sexo. Por questões de brevidade, descreveremos o processamento da sequência de ovário só, em que 167.929 transcrições foram obtidas por montagem de novo . O método subtrativo genômica (BLASTn) foi usado para eliminar qualquer sequências que combinasse o genoma somático publicado12, que deixou 5.060 transcrições correspondentes a 598 proteínas únicas, indicando que muitas das transcrições eram não-codificante. A Sanger leituras crus usadas para gerar o assembly foram então usados para o próximo nível de subtração por tBLASTn, rendendo 78 proteínas. Uma subtração final foi realizada utilizando RNA-seq cru lê do lóbulo auditivo13, que deixou oito proteínas. Quando estas proteínas foram executadas através de nr NCBI BLAST, seis das proteínas foram viral, um era uma região repetitiva em aves, e o último foi um α-SNAP é germline restringida7 (Figura 2B). Durante este processo, 935 genes somáticos que anteriormente não foram incluídos na anotação do genoma inteiro foram identificados; vários mostraram amplificação qPCR uniforme através de tecidos (Figura 3A, 3B, 3C). O gene da α-SNAP foi validado para ser germline restringida usando qPCR, porque ele estava esgotado em tecidos somáticos, em relação ao testículo DNA onde esteve presente em níveis equivalentes de actina (Figura 3D).

o que poderia dar errado. O principal problema que deve ser superado quando usar este método consiste em garantir que a sequência de referência apropriado é usada. Encapsula a melhor sequência de referência, em sentido lato, a complexidade genômica na qual a sequência de interesse (T) é incorporada. Isto pode significar que sequências de formas diferentes; transcriptoma, montagem, dados brutos ou dados de vários estudos precisam ser utilizadas como referências (Figura 1). No estudo de zebra finch, desenvolvemos cartilhas de dados de sequenciamento de RNA; no entanto, as primeiras demão não sempre funcionou devido à presença de intrões entre ou dentro de sítios de ligação da primeira demão no DNA. Testamos cada cartilha definida por PCR do DNA genômico de testículo de DNA, que codifica tanto o alvo (T) e a referência (R), tornando-se um adequado controlo positivo. Falha de cartilha nesta fase necessita de concepção e ensaio de novas cartilhas até um conjunto adequado é identificado. Aplicam armadilhas padrão dos métodos baseados em PCR: condições de amplificação devem ser otimizadas, especificidade de amplificação confirmada testando e/ou controles de clonagem e o modelo não devem ser incluídos em todos os experimentos. Para obter mais informações sobre os ensaios de qPCR, consulte22.

Figure 1
Figura 1 . A abordagem subtrativa iterativamente pode remover várias referências (R) para recuperar apenas a sequência de destino de interesse (T) do total de dados genômicos. As sequências de referência de projetos individuais não podem sobrepor-se precisamente dessa forma e podem incluir conjuntos de dados não indicados na figura. Clique aqui para ver uma versão maior desta figura.

Figure 2
Figura 2Métodos visuais. (A) diagrama esquemático do ciclo subtrativas. O ciclo pode ser iterado tantas vezes quanto necessário, cada vez utilizando sequências de referência distintas, para obter os melhores resultados. (B) exemplo específico do ciclo subtrativo de etapas realizadas em Biederman et al 7, com etapas numeradas como em A e com o número de sequências restantes em cada estágio mostrado. Clique aqui para ver uma versão maior desta figura.

Figure 3
Figura 3 . Dados de exemplo da qPCR resultados incluindo resultados negativos e positivos. (A) genomic DNA qPCR de CHD8, um resultado negativo. (B) genomic DNA qPCR de DNMT1, um resultado negativo. QPCR de DNA genómico (C) de CHD7, um resultado negativo. (D) genomic DNA qPCR de NAPAG, confirmando a presença especificamente em amostras de testículo e depleção do fígado e do ovário em relação a actina, um resultado positivo. Todos os painéis indicam média +-desvio padrão das três medições. Clique aqui para ver uma versão maior desta figura.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Enquanto subtrativa genómica é poderosa, não é uma abordagem do bolinho-cortador, que exigem personalização em diversas etapas-chave e a seleção cuidadosa de sequências de referência e amostras de teste. Se o assembly de consulta é de má qualidade, etapas de filtragem pode isolar apenas artefatos de montagem. Portanto, é importante validar completamente novo de assembly usando um protocolo de validação adequada para o projeto específico. Para RNA-seq, orientações são fornecidas sobre o Trinity site18 e de DNA, uma ferramenta como REAPR23 pode ser usado. Outro passo crítico quando usar explosão é a seleção de e-valor adequado, que determinará se a subtração será relaxada ou rigorosos. No entanto, uma inversão ocorre no método: uma correspondência mais rigorosa para referência é na verdade uma subtração menos rígidas, como sequências não-correspondentes não são subtraídas. Portanto, um maior valor (menos rigoroso) e deve ser usado na explosão de uma subtração mais rigorosa. A última etapa essencial do protocolo é seleção de referência. Para maior eficiência, a referência deve ser tão completa quanto possível; no entanto, ele não precisa ser perfeito porque qPCR teste confirma se as sequências restantes são de T ou R, e se mais filtragem é necessário. Durante a implementação do protocolo, novas referências podem ser usado para diminuir os genes em baixo para ser validado. Notamos que às vezes o método correspondente pode mudar: para a última etapa subtrativa, usamos o algoritmo BWA para mapear leituras crus para as sequências de consulta e usado personalizado python scripts para identificar sequências de consulta com nenhuma correspondência lê (Figura 2B).

Limitações do método incluem a disponibilidade de uma sequência de referência. Por exemplo, Meyer et al. avaliado o genoma mitocondrial de um novo hominídeo; Eles usaram humana e Denisovan sondas para capturar o DNA mitocondrial, que foi sequenciado e mapeado para uma referência humana24. Neste caso, não havia nenhum dados de referência de genoma nuclear existente que os pesquisadores poderiam ter subtraído contra para obter o genoma mitocondrial, necessitando a estratégia alternativa de leitura-mapeamento24. Quaisquer regiões extensivamente divergente da mitocôndria romance em relação a referência mitocondrial humana estaria perdidos pelo mapeamento de leitura. Genómica subtrativa oferece uma abordagem menos preconceituosos do que o mapeamento de leitura, mas não é sempre aplicável consoante a pergunta de pesquisa, e neste caso, os baixos níveis de DNA antigo impediam o tipo de cobertura de sequência necessária para novo de montagem ( etapa 1 da genómica subtrativa).

Purificação física fornece outro método alternativo para genômica subtrativas. Purificação de DNA ou RNA é usada frequentemente no cloroplasto toda de sequenciamento e genomas mitocondriais porque estes genomas organellar são muito menores do que os genomas nucleares25,26,,27,28. Humanas e outras menores mitocondriais genomas podem ser isoladas para sequenciamento através de amplificação utilizando dois conjuntos de cartilha, seguidos de purificação25. No entanto, subtrativa genómica pode ser útil para casos em que os genomas mitocondriais são invulgarmente grandes, os sítios de ligação da primeira demão são divergentes ou não resultará no genoma completo. Um exemplo disto é em ciliados, que têm grandes, divergentes, linear genomas mitocondrial29. Mapeamento de um genoma de referência não é uma opção viável para ciliados devido a alta divergência entre espécies e falta de homologs mesmo através de gêneros30. Usando genômica subtrativa, ciliado genoma mitocondrial pode ser isolado e analisado, minimizando o potencial de segmentos ausentes do genoma. Da mesma forma, enquanto uma abordagem de montagem de novo foi usada na Assembleia de genoma do cloroplasto abeto Sitka, abertura-fechamento envolvido comparativo ler mapeamento contra o abeto branco, introduzindo potencialmente viés nesses sites31.

Dependendo do projeto, subtrativa genómica pode oferecer tempo e custo de vantagens em relação à purificação ou mapeamento de abordagens, oferecendo menos preconceito no processo de descoberta. Em algumas situações, a sequência de destino não pode ser facilmente isolada porque é completamente desconhecido, é vital para a sobrevivência da pilha (mitocôndrias), ou muito grande para separar por eletroforese em gel de padrão. Baseado no tamanho de purificação eletroforética é lenta e exige significativa matéria-prima (que pode ser caro), otimizando as condições ao longo de várias tentativas. Eletroforese em gel de pulso-campo (PFGE) permite a separação de fragmentos de DNA até 107 bp (10 Mb), mas leva 2-3 dias, grandes quantidades de material e equipamento especializado às vezes que não é disponível comercialmente32. Em Biederman et al, a única sequência que era conhecida desde o cromossomo germline restrito foi uma repetição não codificante7. Como este cromossomo é a maior ave, mais de 100 Mb em comprimento10, purificação teria sido impossível; Portanto, subtrativa genómica foi capaz de fazer o que outros métodos não consegui. Na era genômica é muitas vezes mais barato e mais rápido para a sequência agora e filtrar por computador mais tarde. Habilitar a descoberta de sequências totalmente inéditas, genómica subtrativa utiliza uma combinação de abordagens para isolar as sequências de romance mesmo sem uma sequência de referência perfeita.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Os autores não têm nada para divulgar.

Acknowledgments

Os autores reconhecem Michelle Biederman, Alyssa Pedersen e Colin J. Saldanha por sua ajuda com o projeto de genômica zebra finch em várias fases. Também reconhecemos Evgeny Bisk para computação de administração do sistema de cluster e NIH grant 1K22CA184297 (para J.R.B.) e NIH NS 042767 (para C.J.S).

Materials

Name Company Catalog Number Comments
Accustart II Taq DNA Polymerase Quanta Bio 95141
Blasic Local Alignment Search Tool (BLAST) https://github.com/trinityrnaseq/trinityrnaseq/wiki/Transcriptome-Assembly-Quality-Assessment
Bowtie 2 https://www.python.org/download/releases/2.7/
BWA-MEM v. 0.7.12 https://github.com/BenLangmead/bowtie2
Geneious https://blast.ncbi.nlm.nih.gov/Blast.cgi
PEAR v. 0.9.6 http://www.mybiosoftware.com/reptile-1-1-short-read-error-correction.html
Personal Computer Biomatters http://www.geneious.com/
PowerSYBR qPCR mix ThermoFisher 4367659
Python v. 2.7 https://sco.h-its.org/exelixis/web/software/pear/
Reptile v.1.1 https://alurulab.cc.gatech.edu/reptile
Stratagene Mx3005P Agilent Technologies 401456
TransDecoder v. 3.0.1 https://sourceforge.net/projects/bio-bwa/files/
Trinity v. 2.4.0 https://github.com/TransDecoder/TransDecoder/wiki

DOWNLOAD MATERIALS LIST

References

  1. Barh, D., et al. A Novel Comparative Genomics Analysis for Common Drug and Vaccine Targets in Corynebacterium pseudotuberculosis and other CMN Group of Human Pathogens. Chemical Biology & Drug Design. 78 (1), 73-84 (2011).
  2. Sarangi, A. N., Aggarwal, R., Rahman, Q., Trivedi, N. Subtractive Genomics Approach for in Silico Identification and Characterization of Novel Drug Targets in Neisseria Meningitides Serogroup B. Journal of Computer Science & Systems Biology. 2 (5), (2009).
  3. Kaur, N., et al. Identification of Druggable Targets for Acinetobacter baumannii Via Subtractive Genomics and Plausible Inhibitors for MurA and MurB. Applied Biochemistry and Biotechnology. 171 (2), 417-436 (2013).
  4. Rathi, B., Sarangi, A. N., Trivedi, N. Genome subtraction for novel target definition in Salmonella typhi. Bioinformation. 4 (4), 143-150 (2009).
  5. Epstein, J. H., et al. Identification of GBV-D, a Novel GB-like Flavivirus from Old World Frugivorous Bats (Pteropus giganteus) in Bangladesh. PLoS Pathogens. 6 (7), (2010).
  6. Kapoor, A., et al. Identification of Rodent Homologs of Hepatitis C Virus and Pegiviruses. MBio. 4 (2), (2013).
  7. Biederman, M. K., et al. Discovery of the First Germline-Restricted Gene by Subtractive Transcriptomic Analysis in the Zebra Finch, Taeniopygia guttata. Current Biology. 28 (10), 1620-1627 (2018).
  8. Readhead, B., et al. Multiscale Analysis of Independent Alzheimer's Cohorts Finds Disruption of Molecular, Genetic, and Clinical Networks by Human Herpesvirus. Neuron. 99, 1-19 (2018).
  9. Carroll, D., et al. The global virome project. Science. 359 (6378), 872-874 (2016).
  10. Pigozzi, M. I., Solari, A. J. Germ cell restriction and regular transmission of an accessory chromosome that mimics a sex body in the zebra finch. Taeniopygia guttata. Chromosome Research. 6, 105-113 (1998).
  11. Itoh, Y., Kampf, K., Pigozzi, M. I., Arnold, A. P. Molecular cloning and characterization of the germline-restricted chromosome sequence in the zebra finch. Chromosoma. 118, 527-536 (2009).
  12. Warren, W. C., et al. The genome of a songbird. Nature. 464, 757-762 (2010).
  13. Balakrishnan, C. N., Lin, Y. C., London, S. E., Clayton, D. F. RNAseq transcriptome analysis of male and female zebra finch cell lines. Genomics. 100, 363-369 (2012).
  14. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  15. Zhang, J., Kobert, K., Flouri, T., Stamatakis, A. PEAR: a fast and accurate Illumina Paired-End reAd mergeR. Bioinformatics. 30, 614-620 (2014).
  16. Yang, X., Dorman, K. S., Aluru, S. Reptile: representative tiling for short read error correction. Bioinformatics. 26, 2526-2533 (2010).
  17. MacManes, M. D., Eisen, M. B. Improving transcriptome assembly through error correction of high-throughput sequence reads. PeerJ. 1 (113), (2013).
  18. Grabherr, M. G., et al. Full-length transcriptome assembly from RNA-seq data without a reference genome. Nature Biotechnology. 29, 644-652 (2011).
  19. Li, H. Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. arXiv. , (2013).
  20. Langmead, B., Salzberg, S. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9, 357-359 (2012).
  21. Kearse, M., et al. Geneious Basic: an integrated and extendable desktop software platform for the organization and analysis of sequence data. Bioinformatics. 28 (12), 1647-1649 (2012).
  22. Peirson, S. N., Butler, J. N. Quantitative polymerase chain reaction. Methods in Molecular Biology. 362, 349-362 (2007).
  23. Hunt, M., Kikuchi, T., Sanders, M., Newbold, C., Berriman, M., Otto, T. D. REAPR citation: REAPR: a universal tool for genome assembly evaluation. Genome Biology. 14 (5), (2013).
  24. Meyer, M., et al. A mitochondrial genome sequence of a hominin from Sima de los Huesos. Nature. 505 (7483), 403-406 (2013).
  25. Gunnarsdóttir, E. D., Li, M., Bauchet, M., Finstermeier, K., Stoneking, M. High-throughput sequencing of complete human mtDNA genomes from the Philippines. Genome Research. 21 (1), 1-11 (2010).
  26. King, J. L., et al. High-quality and high-throughput massively parallel sequencing of the human mitochondrial genome using the Illumina MiSeq. Forensic Science International: Genetics. 12, 128-135 (2014).
  27. Yao, X., et al. The First Complete Chloroplast Genome Sequences in Actinidiaceae: Genome Structure and Comparative Analysis. Plos One. 10 (6), (2015).
  28. Zhang, Y., et al. The Complete Chloroplast Genome Sequences of Five Epimedium Species: Lights into Phylogenetic and Taxonomic Analyses. Frontiers in Plant Science. 7, (2016).
  29. Swart, E. C., et al. The Oxytricha trifallax Mitochondrial Genome. Genome Biologyogy and Evolution. 4 (2), 136-154 (2011).
  30. Barth, D., Berendonk, T. U. The mitochondrial genome sequence of the ciliate Paramecium caudatum reveals a shift in nucleotide composition and codon usage within the genus Paramecium. BMC Genomics. 12 (1), (2011).
  31. Coombe, L., et al. Assembly of the Complete Sitka Spruce Chloroplast Genome Using 10X Genomics' GemCode Sequencing Data. Plos One. 11 (9), (2016).
  32. Herschleb, J., Ananiev, G., Schwartz, D. C. Pulsed-field gel electrophoresis. Nature Protocols. 2 (3), 677-684 (2007).

Tags

Genética edição 143 subtração Genomic qPCR explosão Python leitura mapeamento montagem De novo projeto da primeira demão
Sequência de romance descoberta pela genômica subtrativa
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Asalone, K. C., Nelson, M. M.,More

Asalone, K. C., Nelson, M. M., Bracht, J. R. Novel Sequence Discovery by Subtractive Genomics. J. Vis. Exp. (143), e58877, doi:10.3791/58877 (2019).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter