Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Análise informática de dados da sequência do lote levedura híbrida-2 telas

Published: June 28, 2018 doi: 10.3791/57802

Summary

Sequenciamento profundo das populações de leveduras selecionadas para interações de 2-híbrido de levedura positivos potencialmente produz uma riqueza de informações sobre interação proteínas do parceiro. Aqui, descrevemos o funcionamento das ferramentas de Bioinformática específicos e software atualizado personalizado para analisar os dados de sequência de tais telas.

Abstract

Adaptámos o ensaio 2-híbrido de levedura para descobrir simultaneamente dezenas de interações proteína transitória e estático dentro de um único ecrã utilizando o sequenciamento de DNA do elevado-throughput curto-leitura. Os conjuntos de dados sequência resultante podem não só acompanhar que genes em uma população que são enriquecidos durante a selecção para interações de 2-híbrido de levedura positivas, mas também fornecem informações detalhadas sobre os subdomínios relevantes de proteínas suficientes para interação. Aqui, descrevemos um conjunto completo de programas de software stand-alone que permitem que não-especialistas para executar todas as bioinformática e estatísticos passos para processar e analisar arquivos de fastq de sequência de DNA de um ensaio de 2-híbrido do fermento de lote. As etapas de processamento abrangidas por estes programas incluem: 1) mapeamento e contagem leituras sequência correspondente a cada proteína candidato codificada dentro de uma biblioteca de rapina 2-híbrido do fermento; 2) um programa de análise estatística que avalia os perfis de enriquecimento; e 3) ferramentas para examinar o quadro translacional e posição dentro da região de codificação de cada enriquecido plasmídeo que codifica as proteínas interagindo de interesse.

Introduction

Uma abordagem para descobrir as interações da proteína é o ensaio (Y2H) 2-híbrido do fermento, quais façanhas engenharia de células de levedura que crescem somente quando uma proteína de interesse vincula-se a um fragmento de uma interação sócio1. Deteção de múltiplas interações Y2H agora pode ser feita com a ajuda de sequenciamento de elevado-throughput maciço paralelo. Vários formatos foram descritas2,3,4,5 , incluindo uma que desenvolvemos onde as populações são cultivadas no lote sob condições que seleciona para levedura, que contém plasmídeos que produzem um positivos da interação do Y2H6. O fluxo de trabalho desenvolvido, denominado DEEPN (enriquecimento dinâmico para avaliação de redes de proteína), identifica o diferencial interactomes das bibliotecas de rapina mesmo para identificar as proteínas que interagem com uma proteína (ou domínio) vs. outra proteína ou um domínio mutante conformationally distinto. Um dos passos importantes para este fluxo de trabalho é adequado processamento e análise dos dados de sequenciamento de DNA. Algumas informações podem ser recolhidas contando apenas o número de leituras para cada gene antes e depois da seleção de interações Y2H de forma análoga a um experimento de RNA-seq. No entanto, informações muito mais detalhadas podem ser extraídas desses conjuntos de dados, incluindo informações sobre o subdomínio de uma determinada proteína que é capaz de produzir uma interação Y2H. Além disso, Considerando que a abordagem DEEPN é valiosa, analisar muitas repetições de amostra pode ser complicado e caro. Este problema é aliviado usando um modelo estatístico que foi desenvolvido especificamente para conjuntos de dados DEEPN onde o número de repetições é limitada6. Para fazer processamento e análise de conjuntos de dados de sequenciamento de DNA confiável, completo, robusto e acessível para os investigadores sem especialização bioinformática, desenvolvemos um conjunto de programas de software que cobrem todas as etapas de análise.

Esta suite de programas de software stand-alone que são executados em computadores desktop inclui MAPster, DEEPN e Stat_Maker. MAPster é uma interface gráfica de usuário que permite que cada arquivo de fastq na fila para mapear o genoma usando o programa HISAT27, produzindo um arquivo Sam padrão para uso em aplicações a jusante. DEEPN tem vários módulos. Ele atribui e conta leituras correspondentes a determinado gene semelhante a uma quantificação de RNA-seq tipo usando o módulo 'Gene contagem'. Também extrai as sequências correspondentes a junção entre o domínio transcriptional Gal4 e a sequência de rapina e agrupa a posição desses cruzamentos para permitir a sua inspecção pelos quadros comparativos e gráficos (usando o módulo 'Junction_Make') O módulo 'Blast_Query' permite fácil inspeção, quantificação e comparação de sequências de junção de Gal4 de junção. Stat_Maker avalia as leituras por dados de enriquecimento gene estatisticamente como uma maneira de priorizar provável Y2H sucessos. Aqui, descrevemos como usar esses programas de software e totalmente analisar dados de um Y2H DEEPN experimentar a sequência de DNA. Versões do DEEPN estão disponíveis para rodar em sistemas Linux, Mac e PC. Outros programas, como o programa de mapeamento MAPster e o módulo de estatísticas DEEPN Stat_Maker dependem de sub-rotinas que executado sob Unix e estão disponíveis apenas em sistemas Mac e linux.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. mapeamento de arquivos de Fastq

Nota: DEEPN software, bem como muitos programas de Bioinformática usam dados de sequência de DNA onde cada sequência ler foi mapeada para a sua posição em referência DNA. Uma variedade de programas de mapeamento pode ser usada para esta incluindo a interface MAPster aqui que usa o programa HISTAT2 para produzir arquivos Sam usados em etapas subsequentes.

  1. Mapear os dados de sequência para a versão correta do genoma. Para bibliotecas de Y2H de origem do mouse, use o genoma de mm10 UCSC; para aqueles que utilizam os genes humanos, uso o genoma de referência UCSC hg38, para genes de Saccharomyces cerevisiae , o genoma de referência de UCSC SacCer3.
  2. Instale o MAPster.
    1. Baixar software MAPster e instalar. O software pode ser encontrado usando um navegador da web para o seguinte: https://github.com/emptyewer/MAPster/releases. HISAT2 é executado em sistemas baseados em Unix como um Apple Macintosh. Por causa disso, o programa MAPster só vai funcionar em sistemas compatíveis, como o Apple Macintosh e linux.
      Nota: Requisitos do sistema para um Mac da Apple são: OSX 10,10 +, > 4 Gb de RAM, > 500 Gb de espaço em disco e acesso à internet para download de genomas de referência. Os usuários podem precisar de o consultar com um institucional pessoa se sua empresa tem protocolos de segurança Restringindo permissões e direitos de administrador.
  3. Insira arquivos necessários e parâmetros através da guia "Main" (Figura 1). Selecione o botão "Pairwise" apropriado para inserir arquivos ou como pares ou não pareado com FASTQ como o formato de arquivo padrão.
    1. Para análise DEEPN, ativar a opção de "Pairwise" para "Off" para ser executado em um único formato de leitura.
    2. Carregar arquivos em MAPster bastando arrastar-e-soltar para a janela apropriada.
    3. Selecione uma fonte de DNA/genoma que corresponde à fonte das pastilhas Y2H rapina biblioteca de referência. Indexado genomas de diversos organismos modelo são listadas na caixa "Genoma" e podem ser automaticamente baixadas da Johns Hopkins University Center for Computational Biology. Genomas de referência serão armazenadas localmente para uso posterior.
    4. Indica o número de processos do computador para ser dedicado ao programa de mapeamento sob a caixa de "Threads", desde HISAT2 suporta multi-threading. MAPster irá Pesquisar o computador e sugerir o número máximo de processadores disponíveis por padrão.
    5. Especifique um nome de arquivo de saída. Este nome de arquivo será usado durante todo o processo DEEPN então recomenda-se um nome curto mas descritivo sem espaço ou caracteres especiais. Especifique uma pasta para os arquivos mapeados usando o botão "Abrir pasta de saida" de saída.
    6. Uma vez que os arquivos apropriados e parâmetros foram selecionados, adicione o trabalho de mapeamento para a fila de trabalhos usando o botão "Adicionar a fila". Os nomes de arquivo na janela principal podem ser eliminados e substituídos com os arquivos correspondentes a uma nova amostra e podem ser adicionados para a fila depois de fornecer um nome de arquivo de saída correspondente.
    7. Clique no botão "Executar fila", uma vez que todos os trabalhos são inseridos na fila de trabalho.
      Nota: Uma vez que um trabalho de mapeamento foi colocado na fila, selecionar esse trabalho faz com que as configurações de parâmetro a ser exibido na janela "Parâmetros de trabalho" e a instrução de linha de comando com todos os argumentos para ser exibido na janela do "Comando de trabalho". As opções de saída incluem dirigindo-se a manter leituras que não conseguem alinhar e especificando o número de alinhamentos primários permitidos para cada leitura. O arquivo de saída padrão de MAPster é em formato de SAM (por exemplo, um arquivo de 'Sam'). Ele conterá todas as leituras de sequência de arquivos fastq especificado para aquela amostra, incluindo aqueles que foram (mapeado) e não foram mapeadas com sucesso para o especificado geome (desmapeadas).

2. Bioinformatic processamento usando Software DEEPN

Nota: Software de DEEPN atualmente é compilado para uso com bibliotecas de rapina contendo sequências de cDNA de rato, sequências de cDNA humano ou sequências de DNA genômicas de S. cerevisiae . DEEPN aceita o formato de arquivo padrão Sam e pode aceitar um arquivo SAM (Sam) contendo leituras mapeadas e não mapeadas ou arquivos separados para cada um do lê não mapeado e mapeado.

  1. Download de software DEEPN e instalar. O software pode ser encontrado usando um navegador da web para o seguinte: https://github.com/emptyewer/DEEPN/releases. Selecione qual versão corresponde a plataforma de computação e o descarregamento. Para instalar, abra o pacote de instalação baixado.
    Nota: As versões do DEEPN estão disponíveis para PC, Mac e Linux sysrems. Devem ter sistemas Mac e PC > espaço no disco rígido de 500 Gb e > 4 Gb de RAM.
  2. Abra o software DEEPN. Selecione as informações de biblioteca de rapina correspondente da caixa de seleção superior a janela principal (Figura 2). Selecione uma pasta onde os arquivos processados podem ir clicando no botão "Pasta de trabalho" e navegando para a pasta/diretório. Uma pessoa pode criar um novo pasta/diretório se necessário. Uma vez que uma "pasta de trabalho" está selecionada, DEEPN criará três subpastas, intitulado unmapped_sam_files, mapped_sam_files e sam_files.
    1. Se usando arquivos Sam contendo leituras mapeadas e não mapeadas, tais como aqueles produzidos com as configurações padrão do programa MAPster, coloque-os na pasta 'sam_files'. Caso contrário coloque arquivos Sam no unmapped_sam_files e mapped_sam_files em conformidade.
  3. Inicie o processamento clicando no botão "Gene Count + junção fazer".
    Nota: O processamento começará com o módulo de contagem de Gene que usará as posições de mapeamento para contar quantas leituras correspondem a cada gene. Make de junção, em seguida, extrair sequências de junção (as sequências fundiram diretamente a jusante do domínio de Gal4-ativação) do lê e identificá-los usando o algoritmo de explosão. Isto irá criar um conjunto de pastas retratado na Figura 3. Tempo de processamento depende do tamanho e número de sequência de arquivos de dados e velocidade de processamento do computador usado. Lê vezes típicas variam de 12 a 30 h para um conjunto de dados experimental de 250 milhões. O procedimento de Gene contagem e o procedimento Junction_Make podem ser iniciados individualmente clicando no botão "Gene contagem" ou o botão "Fazer junção".
  4. Baixe e instale o Stat_Maker (https://github.com/emptyewer/DEEPN/releases). Este é um pacote de análise estatística, projetado para conjuntos de dados DEEPN que atualmente só funciona em sistemas Unix Mac.
    1. Abra Stat_Maker e clique no botão "Verificar a instalação" (Figura 4). Se executando pela primeira vez, Stat_Maker instalará automaticamente R, JAGS e Bioconductor puxando esses recursos da internet. Uma vez que R e JAGS Bioconductor são detectados, Stat_Maker se tornará ativo e permitir a entrada do usuário.
    2. Clique no botão "Escolher pasta" para navegar até a pasta de trabalho que DEEPN processado. Stat_Maker automaticamente encontrar e listar os arquivos para a análise estatística na janela.
    3. Arraste e solte os arquivos apropriados da janela de lista de arquivo acima no windows arquivo abaixo para cada conjunto de dados vetoriais e isca e para cada condições de crescimento: não selecionado (a + mídia) e selecionado (a mídia). Importante, Stat_Maker requer conjuntos de dados duplicados para vazio vector em paz, duas amostras de populações não selecionadas e duas amostras de selecionado. Isto dá uma estimativa de variabilidade dentro do experimento.
    4. Clique no botão "Executar". Dependendo da velocidade do computador, computação levará entre 5 a 15 min.
  5. Rever os resultados da saída do Stat_Maker, que são colocados em uma nova subpasta dentro da pasta de trabalho principal rotulada "Stat_Maker resultados".
    Nota: Os resultados são encontrados em um arquivo CSV (valores separados por vírgula) que pode ser aberto, em comum, programas de planilha eletrônica. Stat_Maker irá classificar hits de gene que são susceptíveis de ser diferencialmente enriquecida em seleção com a isca de interesse sobre o vazio pTEF-GBD (Figura 5). Também tabulados é a percentagem de leituras para cada conjunto de dados onde a inserção do gene encontra-se a montante, a jusante, ou dentro do frame de leitura aberto e se o gene também é encontrado dentro do quadro de leitura correta de translação. Muitas vezes, DEEPN irá capturar robustas interações Y2H de uma isca com porções de um cDNA dado que são fora do quadro de leitura adequada da proteína correspondente ou a uma parte do cDNA que está a jusante do seu quadro de leitura aberta correspondente. A saída combinada de Stat_Maker de digitalização agiliza deteção e eliminação destes sucessos irrelevantes.
  6. Para rever os dados sobre cada candidato em potencial, abra o software DEEPN, selecione as informações de biblioteca de rapina correspondente e, em seguida, a pasta de trabalho correto usando a "pasta de trabalho".
    1. Clique no botão "Consulta de explosão". Isso carrega uma nova janela (Figura 6). Na caixa de texto superior, digite o nome do gene ou o número do GenBank NM para selecionar o gene candidato de interesse. Esses nomes de gene correspondem aos nomes listados no arquivo de saída de StatMaker. Tipo entrar ou retornar, que inicia a recuperação do gene de interesse.
    2. Selecione quais conjuntos de dados serão utilizados para a análise usando os menus "Selecione Dataset". Normalmente, estes incluem o vetor somente e isca amostras crescidas sob condições não-seletivo e a amostra de isca cultivadas sob condições de seleção. Inicialmente, os conjuntos de dados irão levar alguns momentos para carregar, no entanto, a consulta subsequentes dos mesmos conjuntos de dados com genes diferentes vai rapidamente. Blast_Query irá exibir os pontos de fusão junto a sequência de interesse e abundante como cada ponto de fusão é. Isto pode ser exibido em um formato gráfico usando a guia de "Conspiração" ou um formato de tabela, usando a guia "Resultados". Estes resultados podem ser exportados para um arquivo. csv, clicando no botão "Salvar. csv" no canto superior direito.

3. verificação de candidatos identificados por DEEPN

Nota: O propósito de DEEPN e Stat_Maker é identificar genes candidatos que dão uma interação positiva de Y2H. Verificar tais interações de Y2H pode ser feito usando um formato tradicional de Y2H binário usando o plasmídeo isca de interesse emparelhado com o plasmídeo de rapina' domínio' Gal4-ativação vazio bem como emparelhado com o plasmídeo de rapina carregando o fragmento do gene/do cDNA de interesse. Não é viável para isolar o plasmídeo real de interesse dentro da mistura de DNA isolado da população de leveduras submetida a seleção Y2H. No entanto, um pode computacionalmente reconstruir o que o fragmento do gene/cDNA é que produz a interação Y2H, projetar primers para a 5' e 3' extremidades desse fragmento e amplificar o fragmento de DNA isolado da população de leveduras. Esta seção descreve como localizar a extremidade 5' e 3' do fragmento de rapina do candidato.

  1. Abra o software DEEPN e escolher os parâmetros "Parâmetro Select" e a pasta de trabalho "Selecione trabalho pasta" correspondente ao projeto. Lançar o módulo Blast_Query clicando no botão "Consulta de explosão".
  2. Digite o nome do gene de interesse ou sua GenBank "NM" número na caixa de texto superior. Selecione o menu pull-down do conjunto de dados que corresponde à população levedura selecionada para a isca de interesse para recuperar a tabela de posições da junção na aba 'Resultados'. Por padrão, Blast_Query requisitará as diferentes posições de acordo com a sua abundância no dataset, quantificada pelo ppm do número total dos cruzamentos encontrados dentro do banco de dados.
    1. Encontrar uma posição da mais abundante, que é "no ORF" e "no quadro". O valor de posição corresponde à posição de nucleotídeos do gene com a sequência de referência NCBI (número de 'NM') encontrada na caixa de texto superior. Essa sequência pode ser Obtida de GenBank (https://www.ncbi.nlm.nih.gov/nuccore/) ou copiada da caixa de texto inferior na janela Blast_Query.
      Nota: Um exemplo pode ser encontrado na Figura 6, painel do meio. No centro conjunto de dados, os 'resultados' mostraram como a junção de mais abundante: 'Posição': 867; '#Junctions': 20033.821; 'Início da consulta', 1; CDS: No ORF; e 'Frame': no quadro. 867 de nucleótidos da sequência de referência NCBI GenBank NM_019648 é o início do fragmento de rapina.
  3. Se começar a consulta for 1, desenha a extremidade 5' do primer para incluir o nucleotídeo correspondente ao número de posição e estender 25 nucleotídeos a jusante da posição (Figura 7). Se começar a consulta é mais do que 1, indica que há nucleotídeos extras entre o domínio de activação de Gal4 e a sequência de presas de interesse e que a primeira demão deve começar mais a jusante de acordo com o valor do início da consulta.
  4. Da janela DEEPN clique no botão de "Profundidade de leitura" sob "Analisar dados". Uma vez que a janela de leitura de profundidade é aberta, digite o NCBI referência sequência (NM) número ou gene nome na caixa de texto superior. Use o menu pull-down para selecionar o conjunto de dados relevante que contém o gene enriquecido de interesse. Utilize a tabela do lado esquerdo e os gráficos exibir à direita para determinar quantas leituras foram encontradas nos dados que correspondem ao gene de interesse (Figura 7-B).
  5. Desenha uma cartilha da extremidade 3' que irá capturar a sequência do fragmento do gene calculado pela profundidade de leitura. Se a abundância de leituras ultrapassa a ORF e pare de códon, desenha a primeira demão para que inclui o códon de parada e a região só montante do códon de parada. Se as sequências do gene não ultrapassam o codão stop, use a tabela de resultados para localizar a região 3' mais distante que pode ser detectada e use esta posição como o mais distante 3' posição para colocar o primer.
    Nota: O programa de leitura de profundidade verifica em intervalos para encontrar as sequências que correspondem o especificado gene/do cDNA de interesse. Isto ajuda a prever onde o final 5' e 3' do fragmento de rapina mais abundante é para esse gene na amostra. Flutuações na profundidade ao longo do comprimento da sequência de leitura são normais, como pode ser visto na Figura 7. Se a profundidade de leitura é claramente passado o códon de parada, ele indica que o fragmento de rapina se estende além do códon de parada e, portanto, o 3' primer pode simplesmente correspondem a região em torno do códon de parada.
  6. Realize uma reação de PCR de 50 µ l por gene. Cada reação contém 25 pmol de cada primer frente e verso, combinando o plasmídeo de rapina-biblioteca (ver tabela de materiais). Reações também contem 25 µ l de alta-fidelidade 2 x PCR Master Mix, 5 µ g de amostra de DNA e a água até 50 µ l.
    1. Amplificar as reações para 25 ciclos com tempos de extensão de 3 min a 72 ° C, recozimento a temperatura de 55 ° C por 30 s e desnaturando a 98 ° C, durante 10 s. Precede a bicicleta por uma desnaturação s 30 a 98 ° C e siga com uma incubação de 5 min a 72 ° C.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Mapeamento de dados de fastq: o primeiro passo
Em praticamente todas as aplicações de NGS incluindo DEEPN a saída inicial é um arquivo de leituras de pequena sequência deve ser mapeada pelo alinhamento de genômica, transcriptomic, ou outra referência de DNA8. Recentemente, o programa de alinhamento de HISAT2 foi desenvolvido que usa algoritmos de indexação de estado-da-arte para aumentar drasticamente a velocidade de mapeamento7,9. HISAT2 executa eficientemente em um computador desktop e um tamanho tipicamente mapa ler arquivo em minutos. Isso nos permitiu envolver HISAT2 em uma interface gráfica de usuário chamada MAPster que pode mapear fastq arquivos localmente, permitindo que os usuários a evitar depender de clusters de computador remoto de alto desempenho que normalmente operam com linguagem de linha de comando (Figura 1). Características importantes de MAPster incluem a presença de parâmetros predefinidos para RNA-seq e experimentos de mapeamento do genoma, a capacidade de vários trabalhos na fila e o acesso a um conjunto completo de parâmetros de HISAT2 facilmente ajustáveis para usuários experientes e para personalizado aplicações. Para ilustrar a funcionalidade do MAPster, um arquivo de dados publicamente disponíveis ueliton célula RNA-seq foi mapeado para a referência de genoma além de transcrição do Ensemble GRChg38 DNA. O arquivo FASTQ ueliton A11 replicar 1 foi baixado do arquivo de leitura de sequência do NCBI e continha leituras 38,3 milhões. MAPster foi executado em um Apple iMac com processador 3,5 GHz Intel Core i7 usando padrão RNA-seq parâmetros para o arquivo de leitura da marcação sem paridade. O mapeamento foi concluído em menos de cinco minutos. A taxa global de alinhamento foi 96.6%. Resultados semelhantes são encontrados com datasets DEEPN típica de leituras/amostra 15 milhões, embora a taxa global de alinhamento é menor devido à presença da sequência de vetor do plasmídeo de rapina a Y2H.

Encontrar hits do candidato com a ajuda de Stat_Maker.
O programa de StatMaker produz um arquivo do excel visível que resume a maioria das informações pertinentes necessárias para identificar as proteínas interação do candidato. Porque Stat_Maker faz uso de subrotinas baseados em unix, ele será executado em um Mac (OS10.10 +) mas não de PC. Primeiro, ele resume o lê em ppm para cada gene para controle do vetor e populações de isca e também produz uma probabilidade de classificação se o enriquecimento de um determinado gene quando selecionado para a interação do Y2H com a isca de interesse é realmente maior do que o enriquecimento desse gene quando selecionado para a interação com o controle somente vector (Figura 5). Em segundo lugar, o StatMaker executa os cálculos de módulo BlastQuery em cada gene avaliada e Tabula a percentagem de leituras de junção que constam do quadro translacional correto e a sequência de código que seria necessária para um genuíno biologicamente relevante interactor. Esta saída combinada torna possível aos candidatos rapidamente classificar e filtrar para identificar aqueles que podem ser olhados de perto por BlastQuery. Com esta saída, um pode classificar primeiro para os candidatos com a mais alta probabily de ser enriquecido durante a selecção para interação Y2H na isca proteína de interesse e não quando selecionado para a interação sobre o plasmídeo vetor sozinho. Na prática, nós encontramos que P > 0,95 funciona bem. Então os candidatos podem ser classificados para aqueles que têm as maioria das leituras de junção que estão na região da codificação e no quadro de leitura usando uma simples função de classificação. Aqui, candidatos com > 85% dos cruzamentos que estão no quadro correto translacional e são encontrados também dentro ao ar livre leitura quadro/proteína codificação região (ORF) ou que apenas começam a montante do códon de início (montante). Este último filtro elimina 60-80% dos candidatos que têm um valor aceitável de P, produzindo uma lista que é muito mais biologicamente relevantes e gerenciável para inspeção ainda mais.

O software DEEPN.
O núcleo de software de DEEPN agrupa vários módulos computacionais juntos para integrar todas as etapas de Bioinformática usando arquivos de SAM. Gene_Count fornece o número de leituras por gene, realizando um cálculo semelhante a uma quantificação de RNA-seq. Outros programas que realizam este tipo de cálculo podem ser usados também, no entanto, o formato de arquivo teria que ser alterado para ser compatível com outros módulos DEEPN e o programa de Stat_Maker. Como alternativa, o módulo de Gene_Count poderia ser usado para quantificar as experiências de RNAseq, no entanto, outros pacotes integrado com programas de estatísticas específicas foram desenvolvidos10. O processo de correspondência de uma leitura particular mapeada com seu correspondente gene de interesse foi melhorado desde o software DEEPN inicial usando uma estrutura de árvore de dados para atribuição de gene. O efeito disto foi grandemente acelerar a velocidade de processamento de tal forma que um típico dataset contendo 10 milhões mapeado leituras leva 5-10 min no computador desktop com requisitos mínimos de sistema. Outras análises, em especial a análise de leituras de junção que abrangem o domínio Gal4-ativação e o candidato interagindo de interesse, são independentes. Eles são embalados com a explosão alogorithm que é executado localmente e têm procedimentos corretamente reunir tudo o que lê a junção e suas posições para todos os genes determinados de análise. Uma das desvantagens do software DEEPN é que ele faz uso de bases de dados especiais formatados que definem quais exões nos genomas de referência são usados para definir os cDNAs ou regiões codificantes e formatado de bancos de dados que especificam a sequência e iniciar translacional e paradas de cada cDNA/genes usados. Nós achamos que era difícil recuperar todas as informações de banco de dados que DEEPN requer em um formato confiável que faltava alguns dos erros espúrios que encontramos com a indexação de genes específicos. Assim, agregamos novos bancos de dados que nós qualidade controlada e eles incorporado o software DEEPN para referência interna consistente. Atualmente, rato, humano e Y2H de S. cerevisiae presa bibliotecas são suportadas pelos bancos de dados incluídos desde que os arquivos de fastq de DNA são mapeados contra o mm10, hg38 ou SacCer3 referência os bancos de dados disponíveis de UCSC. Y2H bibliotecas de diferentes organismos podem ser processadas por DEEPN desde que bancos de dados semelhantes são construídos e colocados no software DEEPN. Em geral, no entanto, a embalagem independente de todos os módulos DEEPN, bancos de dados e outros programas fazer essas análises de bioinformatic acessíveis aos investigadores em todos os níveis de especialização.

Figure 1
Figura 1 : Interface do MAPster. Captura de tela da janela principal do MAPster. As caixas para inserir formatos e arquivos necessários são mostradas. Desliga para tratar arquivos de sequência como único-extremidade lê "Pairwise" (A). O genoma de referência é selecionado com o menu 'Genoma' bar (B). O número de processadores usados por HISAT2 é selecionado com o menu de "Threads" (C). O novo nome da amostra pode ser digitado na janela de texto "Nome do arquivo de saída" (D). O diretório para os arquivos de saída pode ser designado em (E). Abaixo está uma janela mostrando as filas de single-end, ler arquivos. Depois que amostra foi adicionada para a fila, mapeamento pode ser iniciado com o botão "Executar fila" (F). Clique aqui para ver uma versão maior desta figura.

Figure 2
Figura 2 : Interface de DEEPN. Imagens da interface gráfica de usuário usado para operar os módulos DEEPN. Clique aqui para ver uma versão maior desta figura.

Figure 3
Figura 3 : Conclusão do processamento. Uma vez que DEEPN processa dados, as seguintes subpastas são criadas. Estas podem ser olhadas, mas a jusante processos requerem que estas subpastas permanecem dentro da pasta de trabalho principal e que conservem seus conteúdos e nomes. Clique aqui para ver uma versão maior desta figura.

Figure 4
Figura 4 : Análise de Stat_Maker. Imagens da interface gráfica de usuário para Stat_Maker, que foi carregado com os arquivos apropriados para permitir o processamento. Top mostra a exibição inicial do Stat_Maker. Uma vez que a presença de dados subjacentes de apoio foram verificados clicando no botão "Verificar a instalação" e a pasta de trabalho adequada identificados após clicar no botão "Escolher pasta", o GUI vai se tornar ativo, permitindo para carregar arquivos. Clique aqui para ver uma versão maior desta figura.

Figure 5
Figura 5 : Trecho da saída de Stat_Maker. Parte da saída de Stat_Maker comparando o enriquecimento dos candidatos presa numa proteína única isca para vector sozinho (vazio pTEF-GBD). Também mostrado é a correspondente análise de se o plasmídeo correspondente ao candidato presa contêm o quadro aberto-leitura adequado. Cada gene avaliada tem vários valores: Base, Vec, isca e Enr. A 'Base' é a proporção média de leituras (ppm) que foram observadas para o gene dentro os 2 conjuntos de dados correspondente às populações duplicadas contendo apenas vector sozinho e cresceu em condições não-seletivo. "Vec" refere-se à proporção média de leituras (ppm) que foram observadas para o gene dentro os 2 conjuntos de dados correspondente às populações duplicadas contendo apenas vector sozinho e cultivadas sob condições seletivas (por exemplo,-o). 'Isca' refere-se a proporção de leituras (ppm) que foram observados para o gene dentro os 2 conjuntos de dados correspondente as 2 populações contendo o plasmídeo de isca e cultivado sob condições seletivas (por exemplo,-o). "Enr" (enrichement) é log2 ((Bs/Bn) / (Vs/Vn)) onde Bs é o lê para isca sob seleção, Bn é leituras para isca sob não selecção, Vs é vetor sozinho sob seleção e Vn é vetor sozinho sob seleção. Clique aqui para ver uma versão maior desta figura.

Figure 6
Figura 6 : Exibição de Blast_Query. Saída de Blast_Query de 3 diferentes pontos de vista. Top é a visão inicial de Stat_Maker antes que os conjuntos de dados de candidatos são selecionados. O painel central é uma vista do exemplo da tabela de dados, exibir informações sobre um determinado candidato para dois diferentes conjuntos de dados. Parte inferior mostra uma exibição gráfica dos dados tabulares, plotar o número de pontos de junção específica ao longo do gene/cDNA de interesse. Clique aqui para ver uma versão maior desta figura.

Figure 7
Figura 7 : Encontrar os 5' e 3' primers para amplificar. (A) mostra uma hipotética sequência e como projetar o oligo 5' para capturar o quadro correto e fusão de ponto entre o domínio de Gal4-ativação e a sequência de presas de interesse. No exemplo 1, a posição do ponto de fusão é no nucleotídeoth 10 com um começo de Q de 1. Usando o deslocamento acima tabela, 0 nucleotídeos são para ser adicionado a encontrar os 5' começar a posição da primeira demão. O ponto de fusão de plasmídeo reconstruído presa mostra que o domínio de ativação Gal4 é fundido diretamente para a presa no nucleotídeo 10. No exemplo 2, iniciar a consulta é 3, que exige um deslocamento de 1 nucleotídeo a fim de capturar o ponto de partida correto e quadro da inserção da presa. O esquema das presas reconstruído mostra que existem 2 nucleotídeos entre o domínio de activação de Gal4 e a posição conhecida da inserção da presa que deve ser contabilizada. (B) mostra a janela de leitura de profundidade. A caixa de texto na parte superior é usada para inserir o número de sequência de referência NCBI e o menu pull-down sob 'Sam selecione Arquivo' é usado para selecionar os dados para a amostra contendo o gene interagindo enriquecido se interesse. Profundidade de leitura mostra quantas sequências (eixo Y) foram encontradas nos dados que correspondem às posições nucleótidos da sequência de interesse (eixo x). Clique aqui para ver uma versão maior desta figura.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

O pacote de software aqui descrito permite completamente processar e analisar dados de sequenciamento de DNA de alto throughput de uma experiência de DEEPN. O primeiro programa usado é o MAPster, que leva as leituras de sequência de DNA em arquivos padrão fastq e mapas de sua posição para uma referência de DNA para processamento a jusante, por uma série de programas de informática, incluindo o software DEEPN. O utilitário da interface MAPster e sua capacidade de enfileirar vários trabalhos, combinar arquivos de entrada, saída de nome coveniently arquivos, juntamente com a velocidade da HISAT2 subjacente programa7 controla fornece um mapeamento de ferramenta easy-to-use para uma variedade de aplicativos além do DEEPN. MAPster pode acessar vários parâmetros do programa de HISAT2 que são adequados para outros tipos de análise de dados, além de DEEPN. Alguns desses recursos incluem parâmetros predefinidos para RNA-seq e experimentos de mapeamento do genoma inteiro e acessem a um conjunto completo de parâmetros de HISAT2 facilmente ajustáveis para usuários experientes e para aplicações personalizadas. Por exemplo, o botão de RNA-seq adiciona formatação que facilitaria a montagem de transcrição. O alinhamento de blocos de botão CRISPR para strand como complemento reversa seria apropriado para um arquivo de referência DNA derivado de sequências de RNA guia. Os parâmetros opcionais são encontrados em quatro guias rotuladas, "Entrada, alinhamento, pontuação e saída". As opções de entrada incluem a capacidade para alterar os formatos de arquivo de entrada e especificar opções de ajuste de leitura básica. O alinhamento e pontuação guias incluem as opções para selecionar apenas uma vertente sobre a referência de DNA e para definir as sanções gap e incompatibilidade para o golo de alinhamento. A capacidade de vários trabalhos de mapeamento, que cada um com a configuração de parâmetro distinto deve fazer MAPster de interesse para usuários especialistas e não-especialista buscando aplicativos complexos NGS convenientemente na fila.

Os programas DEEPN e Stat_Maker são dedicados à análise de dados específicos de Bioinformática de telas do lote Y2H. Isto é acessível a um vasto leque de investigadores e constitui um pacote de software de bioinformatic contíguo executar através de uma interface gráfica de usuário. Este pacote foi ainda mais otimizado e integrado de sua original Descrição6 para que corre mais rápido e análise de acertos do candidato é racionalizada. Todas as etapas de Bioinformática podem ser executadas em um computador desktop. A toma de software principal DEEPN que estas mapeiam as posições para calcular quantos lê corresponde a cada formando assim a base para como um determinado gene é enriquecido com seleção de gene. Este software também encontra a 'junção' sequências que correspondem a inserção de interesse que é fundido no domínio de ativação transcricional de plasmídeo a presa e Tabula estes resultados para que se possa visualizar todas as parcelas diferentes de um particular ORF ou do cDNA que é suficiente para a interação. Além disso, isso também fornece informações para verificar o quadro de leitura de cada inserção. O terceiro braço do software bioinformatic é Stat_Maker, que usa arquivos de saída processados por DEEPN para calcular a relevância estatística dos avanços de gene resultantes de interacções com uma proteína determinada isca vs o vetor de domínio Gal4-DNA-ligando sozinho ( pTEF vazia-GBD). Uma recente melhoria é que Stat_Maker não só fornece um ranking estatístico de cada candidato, mas também Tabula as informações correspondentes extraídas as sequências de junção correspondente, tornando-os disponíveis em um único arquivo, facilitando muito para os investigadores para levantamento e análise dos resultados.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Os autores não têm nada a divulgar

Acknowledgments

Este trabalho foi financiado pelo National Institutes of Health: R21 NIH EB021870-01A1 e pelo NSF Grant de projeto de pesquisa: 1517110.

Materials

Name Company Catalog Number Comments
Mapster https://github.com/emptyewer/MAPster/releases
DEEPN software https://github.com/emptyewer/DEEPN/releases
Statmaker https://github.com/emptyewer/DEEPN/releases
Minimum computer system Apple Mac Intel Core i5 or better
- 4 Gb RAM or better
- 500 Gb Disk spce or better
- OS 10.10 or higher
Dell Intel i5-7400 or better
- 4 Gb RAM or better
- 500 Gb Disk spce or better
- Windows 7 or higher

DOWNLOAD MATERIALS LIST

References

  1. Fields, S., Song, O. A novel genetic system to detect protein-protein interactions. Nature. 340 (6230), 245-246 (1989).
  2. Rajagopala, S. V. Mapping the Protein-Protein Interactome Networks Using Yeast Two-Hybrid Screens. Advances in Experimental Medicine and Biology. 883, 187-214 (2015).
  3. Weimann, M., et al. A Y2H-seq approach defines the human protein methyltransferase interactome. Nature Methods. 10 (4), 339-342 (2013).
  4. Yachie, N., et al. Pooled-matrix protein interaction screens using Barcode Fusion Genetics. Molecular Systems Biology. 12 (4), 863 (2016).
  5. Trigg, S. A., et al. CrY2H-seq: a massively multiplexed assay for deep-coverage interactome mapping. Nature Methods. , (2017).
  6. Pashkova, N., et al. DEEPN as an Approach for Batch Processing of Yeast 2-Hybrid Interactions. Cell Reports. 17 (1), 303-315 (2016).
  7. Kim, D., Langmead, B., Salzberg, S. L. HISAT: a fast spliced aligner with low memory requirements. Nature Methods. 12 (4), 357-360 (2015).
  8. Reinert, K., Langmead, B., Weese, D., Evers, D. J. Alignment of Next-Generation Sequencing Reads. Annual Review of Genomics and Human Genetics. 16, 133-151 (2015).
  9. Pertea, M., Kim, D., Pertea, G. M., Leek, J. T., Salzberg, S. L. Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown. Nature Protocols. 11 (9), 1650-1667 (2016).
  10. Conesa, A., et al. A survey of best practices for RNA-seq data analysis. Genome Biology. 17, 13 (2016).

Tags

Genética edição 136 interação proteína próxima geração de sequenciamento análise de sequências de DNA fermento 2-híbrido
Análise informática de dados da sequência do lote levedura híbrida-2 telas
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Krishnamani, V., Peterson, T. A.,More

Krishnamani, V., Peterson, T. A., Piper, R. C., Stamnes, M. A. Informatic Analysis of Sequence Data from Batch Yeast 2-Hybrid Screens. J. Vis. Exp. (136), e57802, doi:10.3791/57802 (2018).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter