Waiting
Processando Login

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

Um protocolo para o uso de Gene definir análise de enriquecimento para identificar o modelo Animal adequado para investigação de translação

Published: August 16, 2017 doi: 10.3791/55768

Summary

Nós fornecemos um protocolo padronizado para a utilização da análise de enriquecimento conjunto do gene do transcriptomic de dados para identificar um modelo de mouse ideal para investigação de translação.
Este protocolo pode ser usado com DNA microarray e dados de sequenciamento de RNA e mais pode ser estendido a outros dados omics se dados estão disponíveis.

Abstract

Estudos recentes que comparado transcriptomic conjuntos de dados de doenças humanas com conjuntos de dados de modelos de rato usando técnicas tradicionais de gene-a-gene de comparação resultaram em conclusões contraditórias sobre a relevância de modelos animais para translação pesquisa. Das principais razões para as discrepâncias entre as análises de expressão de gene diferente é a filtragem arbitrário de genes diferencialmente expressos. Além disso, a comparação do único genes entre espécies diferentes e plataformas muitas vezes é limitada pela variância técnica, levando a interpretações erradas da con/discordância entre dados de modelos humanos e animais. Assim, são necessárias abordagens padronizadas para análise sistemática dos dados. Para superar gene subjetiva filtragem e comparações de gene-a-gene ineficazes, demonstramos recentemente que a análise de enriquecimento conjunto do gene (GSEA) tem o potencial para evitar estes problemas. Portanto, nós desenvolvemos um protocolo padronizado para o uso de GSEA para distinguir entre adequado e inadequados de modelos animais para pesquisa translacional. Este protocolo não é adequado para prever como projetar sistemas de modelo novo uma priori, que requer dados experimentais omics existentes. No entanto, o protocolo descreve como interpretar dados existentes de forma padronizada, a fim de selecionar o modelo animal mais adequado, evitando desnecessárias as experiências com animais e enganosa estudos translacionais.

Introduction

Modelos animais são amplamente utilizados para estudar doenças humanas, por causa de sua suposta semelhança com os humanos em termos de genética, anatomia e fisiologia. Além disso, modelos animais, muitas vezes servem como guardiões para terapias clínicas e podem ter um enorme impacto sobre o sucesso da investigação de translação. A seleção cuidadosa do modelo animal ideal pode reduzir o número de estudos com animais enganosos. Recentemente, a relevância de modelos animais para investigação de translação foi controversamente discutida, particularmente porque analisar os mesmos conjuntos de dados obtidos de doenças inflamatórias humanas e modelos de mouse relacionados levou a conclusões contraditórias 1,2. Esta discussão revelou um problema fundamental durante a análise de dados omics: padronizadas para a análise sistemática dos dados são necessárias abordagens para reduzir a seleção de gene tendenciosa e aumentar a robustez de comparações entre espécies 3.

Tradicionalmente, a análise de dados transcriptomics (e outros dados de omics) é feita a nível de single-gene e inclui uma etapa inicial de seleção de gene com base em parâmetros rigorosos de corte (por exemplo, mudança de dobra > 2.0, valor de p < 0,05). No entanto, a configuração dos parâmetros de corte inicial muitas vezes é subjetiva, arbitrária e não biologicamente justificado e pode mesmo levar à oposta conclusões1,2. Além disso, a seleção de gene inicial geralmente restringe a análise de alguns altamente - up e ativador genes e, portanto, não é sensível o suficiente para incluir a maioria dos genes diferencialmente expressas em menor grau.

Com o surgimento da era genômica no início de 2000 e o conhecimento crescente das vias biológicas e contextos, métodos estatísticos alternativos foram desenvolvidos que permitiu contornar as limitações das análises de nível único-gene. Gene conjunto enriquecimento análise (GSEA)4, que é um dos métodos amplamente aceitos para a análise dos dados transcriptomics, faz uso de grupos definido a priori de genes (por exemplo, sinalização de vias, localização proximal em um cromossomo, etc.). GSEA primeiro mapeia todos detectados genes não filtrados para os conjuntos de gene pretendido (por exemplo, caminhos), independentemente da sua mudança individual de expressão. Assim, essa abordagem inclui também moderadamente regulamentados genes que seriam perdidos com análises de nível único-gene. A aditiva mudança na expressão dentro de conjuntos de genes é realizada posteriormente utilizando estatísticas de execução soma.

Apesar de sua ampla utilização na investigação médica, GSEA e abordagens de enriquecimento conjunto relacionados não são evidentemente tidos em conta para a análise de dados complexos omics. Aqui, descrevemos um protocolo para comparar dados omics de amostras humanas com as dos modelos do rato para identificar o modelo ideal para estudos de translação. Vamos demonstrar a aplicabilidade do protocolo baseado em uma coleção de modelos de rato que são usadas para imitar humanos disorders inflammatory. No entanto, este gasoduto de análise não está restrito a comparações de humanos-mouse e pesquisa alteráveis para mais perguntas.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. download do Software GSEA e o banco de dados de assinaturas moleculares

  1. acesse o site oficial do Instituto amplo GSEA (http://software.broadinstitute.org/gsea/index.jsp) e se registrar para ter acesso ao software de GSEA ferramenta e o banco de dados de assinaturas moleculares (MSigDB).
  2. Baixar o aplicativo de desktop javaGSEA ou uma opção alternativa de software (por exemplo, o script de R).
    Nota: Todas as opções aplicar exatamente o mesmo algoritmo. O software GSEA está disponível gratuitamente para os indivíduos na academia e indústria para fins de investigação interna.
  3. Para mais detalhes sobre o software GSEA vão para o site de documentação (http://software.broadinstitute.org/cancer/software/gsea/wiki/index.php/Main_Page) e o guia do usuário GSEA (http://software.broadinstitute.org/gsea/doc/ GSEAUserGuideFrame.html).
  4. Download banco de assinaturas moleculares (MSigDB) do site para ter acesso ao conjunto coleções individuais gene GSEA.
    Nota: O MSigDB é uma coleção de conjuntos de genes anotados para uso com o software GSEA ou outros fins. Conjuntos de genes podem ser divididos de acordo com a sinalização de caminhos, termos de gene ontology, motivos cis-regulatórios, assinaturas experimentais e outros. Genes da MSigDB sempre são nomeados por seu símbolo oficial do gene HUGO (organização do genoma humano). Para a comparação do Regulamento do caminho entre um determinado distúrbio humano e mouse diferente modela-lo, recomenda-se fazer o download do ' todos os caminhos canônicos, símbolos de gene ' arquivo (c2.cp.v5.2.symbols.gmt). Este arquivo é composto por conjuntos de genes que foram anotados e organizados em vias de sinalização por KEGG 5 , 6, Reactome 7 , 8 e BioCarta 9. a sequência de caracteres ' v 5.2 ' representa as informações de versão da coleção. Certifique-se de baixar a versão mais recente dos arquivos. O MSigDB está disponível gratuitamente para os indivíduos na academia e indústria para fins de investigação interna. Não é necessário baixar o MSigDB, se a conexão de internet é fornecido durante a análise. Neste caso o MSigDB diretamente pode ser escolhida dentro da interface do usuário GSEA.
  5. DNA baixar chip arquivos de anotações (matriz) no site da GSEA para traduzir identificadores específicos matriz sonda geral símbolos HUGO gene (por exemplo, Mouse430_2.chip).
    Nota: Não é necessário baixar as anotações de chip de DNA, se a conexão de internet é fornecido durante a análise. Neste caso, as anotações de chip de DNA diretamente podem ser escolhidas dentro da interface do usuário GSEA. O protocolo também pode ser usado com dados de sequenciamento de RNA. Neste caso, não é necessário fazer o download de arquivos de anotação. Em vez disso, use a ferramenta de preranked de GSEA para analisar os dados de expressão do gene (consulte a etapa 4.12).

2. Baixar dados experimentais da expressão do Gene para a doença humana e modelos adequados de Animal

  1. identificar estudos de expressão (transcriptomics) gene experimental para a desordem humana de escolha (por exemplo, perfis de expressão de gene de leucócitos, derivado de pacientes com distúrbio séptico, GSE9960).
  2. Da mesma forma, busca de animal vários modelos que devem ser comparados com os estudos em humanos (por exemplo, perfis de expressão genética das células do sangue derivadas de ratos após a injeção de Staphylococcus aureus (S. aureus), GSE20524). Neste passo, utilizar o conhecimento prévio para a pré-selecção de modelos animais, o que pode ser apropriado para imitar a situação humana.
  3. Para esta finalidade referem-se à literatura e bancos de dados tais como o Gene Expression Omnibus (GEO) 10 ou ArrayExpress 11 do banco de dados e baixar os dados do transcriptomics normalizado de interesse. Salve os dados como arquivos de texto no disco rígido local. Para o banco de dados GEO, recomenda-se o download de arquivos de texto delimitado por tabulação série matrix. Também tome nota da plataforma (tipo de matriz) utilizada para esse estudo, uma vez que esta informação é necessária para traduzir os identificadores específicos matriz sonda para símbolos de gene gerais HUGO.
    Nota: Certifique-se de memória suficiente para o armazenamento de dados, como conjuntos de dados transcriptomics geralmente compreendem várias centenas de MB.

3. Dados, manipulação e formatação de

  1. antes de importar dados da expressão do gene experimental para a ferramenta de software GSEA, considere a estrutura de dados necessários. Para cada estudo manualmente criar dois arquivos diferentes: 1) um arquivo de dados de expressão do gene que contém valores de medição para vários genes e amostras e 2) um arquivo de fenótipo que contém rótulos de amostra para agrupar amostras individuais (por exemplo, para grupos de tratamento).
    Para mais detalhes e dados estrutura opções, vá para a página de formato de dados GSEA (http://software.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats).
    Nota: Em geral, todas as formas de dados transcriptomics são compatíveis com o protocolo, incluindo experimentos de microarray de DNA, RNA-seq ou estudos de ChIP-seq. No caso de utilizar experimentos de microarray de DNA, o arquivo de dados de expressão do gene deve conter identificador sonda matriz específica ou símbolos de gene HUGO para cada gene (sonda identificadores serão traduzidos para símbolos de gene HUGO durante a análise, consulte as etapas 1.5 e 4.10). No caso de utilizar dados de RNA-seq ou ChIP-seq, métricas de grupo manualmente calculada para dados da expressão do gene (por exemplo, grupo média proporção) devem ser usadas em vez de dados de amostra individual. Essas métricas de grupo devem ser analisadas com a ferramenta preranked GSEA (consulte a etapa 4.12). Dados da expressão do gene precisam ser normalizada, como de costume, antes de importar para o software GSEA. O tipo de normalização (por exemplo, quartil ou spline cúbica) é geralmente deixado ao pesquisador.
  2. Arquivo de
  3. dados da expressão do Gene: Use o formato de arquivo (*. txt) de texto delimitado por tabulação para descrever um conjunto de dados de expressão, como ilustrado na figura 1A. Consulte também o arquivo de exemplo com suporte GSE20524_expression.txt.
    Nota: O arquivo de dados de expressão do gene contém valores de expressão para todos os genes detectável (ou sondas), também para os genes que não podem ser diferencialmente expressos. O arquivo, portanto, normalmente é composto por muitos milhares de genes. É organizado como está representada na figura 1A. A primeira linha contém o nome de rótulo (por exemplo, o gene do símbolo ou sonda ID) seguido pelo identificador para cada amostra no conjunto de dados (por exemplo, amostra 1, amostra 2 etc.). O restante do arquivo contém valores de expressão de cada um dos genes e para cada amostra no dataset. A ferramenta de software GSEA realiza cálculos de métricas de grupo (por exemplo, proporção média de grupo ou para-relação sinal ruído), portanto, é aconselhável incluir dados para cada amostra individual. Alternativamente, é possível usar o grupo externamente calculadas métricas de dados da expressão do gene (ver figura 1B).
  4. Arquivo
  5. fenótipo: criar um arquivo separado para definir e rotular grupos que compreendem amostras individuais, como retratado no < classe forte= "xfig" > Figura 2. Use espaços ou tabulações para separar os campos. Salve-o em um formato de arquivo CLS (definição de classe do C++). Consulte também o arquivo de exemplo com suporte GSE20524_pheno_infection.cls.
    Nota: A primeira linha contém o número total de amostras e ainda mais o número de grupos ( Figura 2). Enquanto o número de amostras deve corresponder ao arquivo de dados de expressão de gene (ver 3.2), o número de grupos varia de acordo com o desenho do estudo. O terceiro campo da primeira linha é sempre ' 1 '.
    A segunda linha em um arquivo CLS contém o nome de cada grupo. A linha deve começar com um sinal de libra (#) seguido por um espaço ( Figura 2).
    A terceira linha contém um rótulo de grupo para cada amostra. O rótulo de grupo pode ser um número arbitrário ou texto. É apenas a ordem das etiquetas que determina a associação de cada amostra para os grupos: O primeiro rótulo usado é atribuído para o primeiro grupo na segunda linha; o segundo rótulo exclusivo é atribuído ao segundo grupo e assim por diante. Certifique-se que cada amostra do mesmo grupo tem o mesmo rótulo a este passo, e que o número de etiquetas é o mesmo que o número de amostras especificado na primeira linha. Finalmente, salve o arquivo como arquivo de texto delimitado por tabulação (. txt) e alterar manualmente a extensão de nome de arquivo para (*.cls).
  6. arquivos de banco de dados conjunto Gene (opcionais): definir conjuntos de gene personalizado. Use o formato de arquivo delimitado por tabulação GMT (Gene matriz transposta) para conjuntos de genes, conforme representado na Figura 3. Consulte também o arquivo de exemplo com suporte Gene_sets_Inflammation_BIOCARTA_KEGG_REACTOME.gmt.
    Nota: Definir conjuntos personalizados de gene pode ser útil por exemplo para restringir o gene definir análise de enriquecimento para percursos de interesse especial (por exemplo, imunologia, sinalização para estudos de sepse), ou para de novo, definindo o próprio gene conjuntos (por exemplo, ativado e inibido de genes em estudos que têm que ser comparados). O arquivo é organizado como está representada na Figura 3. No formato GMT, cada linha representa um conjunto de genes ( Figura 3). Cada conjunto de gene é descrito por um nome e uma descrição dos genes no conjunto de genes. A primeira coluna contém nomes de conjunto único gene. A segunda linha, opcionalmente, pode conter uma descrição do conjunto de genes. As seguintes colunas contêm os nomes de gene (símbolos de gene de HUGO oficiais) do conjunto de gene correspondente. Finalmente, salve o arquivo como arquivo de texto delimitado guia (*. txt) e alterar manualmente a extensão de nome de arquivo para (* .gmt).

4. Executando o GSEA

  1. abrir a ferramenta de software GSEA (ver 1.2).
  2. Clique o ' carregar dados ' botão no lado esquerdo da janela principal ( Figura 4A). Uma nova aba abrirá para importar os arquivos de dados necessários ( Figura 4B). Procure na aba nova para o arquivo de dados (*. txt) de expressão do gene (ver 3.2), o arquivo de fenótipo (*.cls) (ver 3.3) e, opcionalmente, para os conjuntos personalizados de gene (* .gmt) arquivo ( Figura 4B).
    1. No caso de GSEA não pode se conectar à internet, também carregar o MSigDB baixado (* .gmt) arquivos (por exemplo, c2.cp.v5.2.symbols.gmt para caminhos, ver 1.4) e o DNA da microplaqueta anotações (matriz) (* .chip) arquivos (por exemplo, Mouse430_2.chip, Ver 1.5). Constam dados importados com êxito o ' carregar dados ' seção ( Figura 4).
      Nota: Cada estudo de expressão do gene deve ser analisado com GSEA individualmente. A comparação entre os dois estudos (por exemplo, transtorno de humano vs modelo do rato) será realizada no passo 5.
  3. Clique o ' GSEA executar ' botão no lado esquerdo da janela principal. Uma nova guia será aberta a fim de definir os parâmetros para a análise ( Figura 4). O guia é subdividido em três partes: os campos obrigatórios, campos básicos e avançados campos.
  4. Nos campos obrigatórios, primeiro escolha a expressão dataset carregado na etapa 4.2 ( Figura 4).
  5. Escolher o gene define o banco de dados, a partir do site conectado ou do arquivo de conjunto de gene importado manualmente ( Figura 4).
  6. Editar os Rótulos de fenótipo para selecionar os grupos de amostras que devem ser comparados entre si (por exemplo, S. aureus tratamento vs controle saudável) ( Figura 4).
  7. Colapso dataset para símbolos de gene (= verdadeiro) para traduzir os identificadores de sonda no dataset expressão oficial HUGO gene símbolos usados na base de dados de conjuntos de genes. Selecione falso, se o conjunto de dados de expressão já contém símbolos de gene de HUGO ( Figura 4).
  8. Definir a configuração padrão do número de permutações para em 1.000 ( Figura 4).
    Nota: Para os números mais altos o tempo de computação aumentará consideravelmente.
  9. Alterar o tipo de permutação de ' conjunto do gene ', desde que a permutação de fenótipo só é recomendada quando há mais de sete amostras em cada fenótipo ( Figura 4).
  10. Finalmente, selecione a plataforma de chip usada para gerar os dados da expressão do gene, a partir do site conectado ou de DNA manualmente importado chip arquivo de anotações (matriz) ( Figura 4).
    Nota: Este passo só é necessário, se sonda identificadores são usados na expressão inserida dataset.
  11. Nos campos básicos pelo menos editar a seção de análise nome e salvar os resultados nesta pasta para encontrar novamente o arquivo de resultados ( Figura 4). Além disso, ainda mais parâmetros estatísticos podem ser alterados. Para mais detalhes sobre os parâmetros e a seção de campos avançados por favor vão para o guia do usuário GSEA (http://software.broadinstitute.org/gsea/doc/GSEAUserGuideFrame.html).
  12. (Opcional): nas caso métricas de grupo externamente calculada para dados (por exemplo, proporção média de grupo) tem que ser usado em vez de dados de amostra individual de expressão gênica, use a ferramenta de preranked de GSEA. A análise será em seguida conduzida com base em uma simples lista de genes atribuído com métricas de grupo pré-calculados que são utilizadas para classificar os genes. Após carregar o arquivo de expressão do gene alternativa vá à barra de navegação principal e clique em Ferramentas/GseaPreranked. Da mesma forma, uma nova aba abrirá para definir os parâmetros para a análise ( Figura 4E).
    Nota: Usando a ferramenta preranked GSEA é recomendada para estudos que não têm dados da expressão do gene de amostra específicas individuais. Isso poderia ser o caso se estatísticas especiais ou procedimentos de normalização foram executados nos dados levando a valores médios de grupo em vez de dados de amostra individual. Usando a ferramenta preranked GSEA é recomendada para dados de sequenciamento de RNA. Normalizar os dados de expressão de sequenciamento de RNA e calcular métricas de grupo para as amostras (por exemplo, log de alteração de dobra), que podem ser usadas para classificar os genes de acordo com sua expressão.
  13. Clique no ' executar ' botão na parte inferior direita da janela.
    Nota: A análise então pode demorar até vários minutos dependendo da velocidade de computação. Siga o progresso da análise na seção de relatórios GSEA na parte inferior esquerda da janela. Depois de terminar a análise, o status ' sucesso ' aparece na seção de relatórios GSEA.
  14. Análise de
  15. clique sobre o sucedido na seção para abrir os resultados da análise de relatórios GSEA.
    Nota: Um novo menu de navegação abrirá em uma janela do navegador que resume todos os resultados e as configurações de parâmetro ( Figura 5). Compõem as superiores duas seções do menu de navegação Gene definir resultados de enriquecimento para os grupos definidos (por exemplo, o enriquecimento em amostras de S. aureus tratados ou amostras de controle saudável). As primeiras linhas de ambas as seções mostram um resumo dos resultados da estatística. Conjuntos de genes que são significativamente enriquecidos a uma taxa de falso-descoberta (FDR) inferior a 25% são considerados como enriquecido na seguinte interpretação. Mais detalhes sobre a interpretação da análise podem ser encontradas no guia de usuário GSEA (http://software.broadinstitute.org/gsea/doc/GSEAUserGuideFrame.html).
  16. Clique sobre os resultados detalhados de enriquecimento em formato de excel para exportar os resultados para uma planilha ( figura 6A). Exportar os resultados detalhados de enriquecimento em excel separadamente para ambos os fenótipos ( Figura 5) e Junte-se a dados de resultados em um arquivo de planilha. Para posterior comparação entre os dados da expressão do gene de vários estudos, pelo menos manter o nome do conjunto de genes (A coluna), o enriquecimento normalizado marcar (NES) (coluna F) e seu valor FDR (taxa de falsa descoberta) (coluna H) ( Figura 6B ).
    Nota: O arquivo de planilha contém dados enormes para cada um do analisados gene definido, incluindo o nome do conjunto de genes (coluna A), seu tamanho (ou seja, o número de genes detectados nos dados de expressão de gene, coluna D), seu NES (uma medida quantitativa da direção e medida em que o enriquecimento, a coluna F), seu valor nominal p (não corrigida, coluna G) e seu valor FDR (corrigida para a hipótese de vários testes, coluna H). Para mais detalhes sobre a interpretação, consulte o guia do usuário GSEA (http://software.broadinstitute.org/gsea/doc/GSEAUserGuideFrame.html).
  17. Repetir que o gene definir análise de enriquecimento (etapas 4.1 para 4.15) para o segundo estudo (por exemplo, S. aureus GSE9960) e para todos os estudos que deveriam ser comparados uns aos outros. Incluir como muitos estudos clínicos em humanos e modelos de mouse diferente quanto possível para identificar o modelo do mouse ideal para a pergunta de pesquisa translacional.

5. Comparando os resultados de GSEA

  1. para identificar o modelo animal ideal para imitar a situação humana compare os resultados GSEA de todos os estudos para o outro. Usar as pontuações de enriquecimento e os valores do FDR para classificar as vias (conjuntos de gene) como ativado (NES > 0, FDR < 25%), inibida (NES < 0, FDR < 25%) ou nenhum dos dois (FDR > 25%). Para cada comparação de dois estudos, contar o número de realizações das nove combinações possíveis de regulamento caminho conforme indicado por uma tabela de contingência de 3 x 3 ( Figura 7A).
  2. Avaliar a correlação entre dois estudos pelo cálculo do valor preditivo positivo (ppv) e o valor preditivo negativo (npv), que é, por definição, a parte das vias que mostram o mesmo Regulamento (ativado ou inibido) em dois estudos .
    1. Calcular ppv e VPL de acordo com as seguintes fórmulas (1) e (2):
      (1) Equation 1
      (2) Equation 2
      Nota: Desde que a sobreposição pode ser pura coincidência, o ppv e o VPL tem que ser ainda mais em comparação com os valores esperados por acaso. Esta abordagem permite a estimativa da quantidade de informação que pode ser adquirida a partir de um estudo para prever os efeitos em outro estudo. Por exemplo, se os processos de regulamento em dois modelos eram independentes um do outro (e somente se sobrepõem por acaso), e se no primeiro modelo de 10% das vias eram upregulated, do que o ppv para o segundo modelo também seria de 10% e não havia sem adicional ganho de inf informação. Do outro lado, se ambos os modelos estavam ligados por mecanismos de regulação comum, então o ppv (e VPL) seria significativamente maiores do que o esperado por acaso. Por exemplo, para a previsão de mudanças de expressão de gene, durante a sepse humana (GSE9960) de efeitos em um S. aureus injeção modelo murino (GSE20524), o ppv é de 43% (6/(6+8+0)) e o npv é de 61% (11/(0+7+11)). Em outras palavras, 43% das vias ativadas no S. aureus injeção modelo murino (GSE20524) também são ativadas durante a sepse humana (GSE9960). Da mesma forma, 61% das vias inibidas no S. aureus injeção modelo murino (GSE20524) também são inibidos durante sepse humana (GSE9960) ( Figura 7B). PPV e VPL também podem ser determinados para a constelação inversa (que significa previsão de estudo 1 para estudar 2).
  3. Para calcular a sobreposição por acaso, consulte a tabela de contingência de 3 x 3 ( Figura 7) e calcular o ppvchance e npvchance de acordo com as seguintes fórmulas (3) e (4):
    (3) < img alt = "Equação 3" src = "/files/ ftp_upload/55768/55768eq3.jpg"/ >
    (4) Equation 4
    Nota: por exemplo, para a previsão de mudanças de expressão do gene durante a sepse humana (GSE9960) de efeitos em um murino S. aureus modelo de injeção (GSE20524) o ppvchance é de 13% (8/64) e o npvchance é e 22% (14/64).
  4. Calcular o ganho do ppv vs oportunidade subtraindo ppvchance de ppv. Calcular-se adequadamente para o npv:
    (5) Equation 5
    (6) Equation
    Nota: por exemplo, para a previsão do gene expressão muda durante a sepse humana (GSE9960) de efeitos em um S. aureus injeção modelo murino (GSE20524) a mudança no ppv e VPL versus hipótese é + 30% (43% - 13%) e + 39% 61% - 22%, respectivamente.
  5. Calcular o ganho da informação que pode ser obtido de estudo 2 respeito estudo 1 calculando a média ppvgain e npvgain:
    (7) Equation
  6. usar a tabela de contingência definida na etapa 5.1 de um par de estudos (study1.pathway, study2.pathway) para calcular o valor de p por um teste Chi-quadrado
    Armazenar os dados da tabela de contingência numa matriz X. Execute o teste de qui-quadrado, por exemplo, pelo uso da R função chisq.test.
    Nota: por exemplo, comparando o estudo selecionado sepse humana (GSE9960) com um murino S. aureus injeção modelo (GSE20524) mostra uma sobreposição significativa estatisticamente no Regulamento via inflamatória:
    > chisq.test(X,simulate.p.value=F)$ p.Value
    3.82e-07

6. Identificar o modelo ideal de Animal

  1. Compare o GSEA resultados para todas as combinações dos estudos que foram selecionados para a análise.
    Nota: Também é aconselhável comparar os estudos humanos (semelhantes) para um outro, bem como os estudos em animais diferentes para o outro. Esta comparação pode fornecer a introspecção a variância intraspecies de estudos clínicos (ou distúrbios) e os diferentes modelos animais. Espera-se que os estudos clínicos devem mostrar que uma sobreposição aceitável e uma informação significativa ganho, porque caso contrário, os estudos clínicos podem ser muito heterogêneos para encontrar um modelo animal que pode simular a situação humana. Neste caso, é aconselhável incluir apenas os estudos humanos que são semelhantes entre si para a identificação de modelos animais apropriados.
  2. Classificar todas as combinações pelo ganho de informações (passo 5.5). Para a comparação de vários conjuntos de dados, usar uma matriz e visualizar os resultados pelo uso de um heatmap colorido ou semelhante ( Figura 8).
  3. Selecione o modelo animal com o maior ganho de informações. A fim de avaliar a importância do ganho de informação, também considerar o teste qui-quadrado (etapa 5.6).
    Nota: Modelos animais só devem ser considerados como apropriado se o ganho de informações é substancial e se o valor de p do teste qui-quadrado está abaixo do nível de significância. User-defined limites geralmente dependerá de vários fatores: 1) o conhecimento do estudo preliminar sobre a possibilidade de transferência dos resultados do modelo animal para os seres humanos (por exemplo, fisiologia semelhante), 2) os benefícios esperados para os seres humanos por um presumível sucesso, 3) e o prático aplicabilidade do experimento animal e 4) a esperada de dor, sofrimento ou dano infligido ao laboratórioanimais de oratório.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

O fluxo de trabalho GSEA e screenshots do exemplares dados são demonstrados. A Figura 1 mostra o arquivo de dados de expressão do gene que contém os dados de transcriptomic de interesse. Para cada estudo um arquivo descritivo fenótipo é necessário, que é mostrado na Figura 2. Conjuntos de genes anotados (por exemplo, caminhos) são definidos no arquivo de banco de dados conjunto de gene (Figura 3). A Figura 4 mostra um protocolo passo a passo para o uso da ferramenta de software GSEA. Um relatório de resultado exemplar é dado na Figura 5. Resultados detalhados de enriquecimento GSEA estão resumidos na Figura 6. Para a comparação de estudos de expressão de genes diferentes, nomeadamente humano vs. estudos de rato, uma tabela de contingência é necessária (Figura 7). Para a visualização dos resultados, a Figura 8 mostra uma matriz de correlação de comparações de caminho entre humanos e estudos de rato.

Figure 1
Figura 1: arquivo de dados de expressão de Gene GSEA. O arquivo contém valores de expressão para todos os genes detectável (ou sondas), também para os genes que não podem ser diferencialmente expressos. O arquivo, portanto, normalmente é composto por muitos milhares de genes. (A), o arquivo de dados de expressão do gene inclui dados para cada amostra individual. A primeira linha contém o nome de rótulos (aqui: sonda ID) seguido por uma descrição opcional e nomes do amostra individual (aqui: GSM515585, GSM515586, etc.). O restante do arquivo contém valores de expressão de cada um dos genes e para cada amostra no dataset. Formato de dados expressão de gene alternativa (B). Externamente, calculadas métricas de grupo (aqui: rácio médio) pode ser usado para a ferramenta preranked GSEA se não estão disponíveis dados de amostra individual. Clique aqui para ver uma versão maior desta figura.

Figure 2
Figura 2: GSEA fenótipo arquivo. O arquivo combina amostras individuais para grupos e rótulos os grupos nesse sentido. A primeira linha contém o número total de amostras e mais o número de grupos. O terceiro campo da primeira linha sempre é '1'. A segunda linha contém o nome de cada grupo. A linha começa com um sinal de libra (#) seguido por um espaço. A terceira linha contém um rótulo de grupo para cada amostra (aqui: 0 ou 1). Clique aqui para ver uma versão maior desta figura.

Figure 3
Figura 3: Gene GSEA definir o arquivo de banco de dados. O arquivo define conjuntos de genes que são atribuídos a certos processos biológicos ou categorias (aqui: vias inflamatórias). No formato GMT, cada linha representa um conjunto de genes, que é definido por um nome, uma descrição e os genes incluídos (símbolos oficiais gene de HUGO). Clique aqui para ver uma versão maior desta figura.

Figure 4
Figura 4: configurações de Software GSEA. A ferramenta de software GSEA foi baixada do site do Instituto Broad como um aplicativo de área de trabalho java. (A) menu iniciar. O lado esquerdo contém o menu de navegação, enquanto a seção correta (em casa) dá um breve resumo do fluxo de trabalho GSEA. Clique no botão carregar dados irá abrir uma nova aba para importação de arquivos. (B) dados de carga seção antes de importar dados. Arquivos necessários podem ser importados através do navegador de arquivos. (C) dados de carga seção após a importação de dados. Dados importados arquivos estão listados no cache objeto e são organizados para conjuntos de dados (arquivo obrigatório), fenótipos (arquivo obrigatório), gene definir bancos de dados (opcional, se a conexão de internet fornecido) e chip de arquivos (opcional, se a conexão de internet fornecido). Clicar no botão Executar GSEA irá abrir uma nova guia para definir os parâmetros de análise. (D) Executar GSEA seção. Guia para definir os parâmetros de análise é dividido em campos obrigatórios, campos básicos e avançados. Clique no botão executar no na parte inferior direita da janela vai começar a análise. O progresso da análise será visível na seção de relatórios GSEA na parte inferior esquerda da janela. Depois de terminar a análise, o sucesso' status' aparece no GSEA relata seção. (E) GSEA preranked ferramenta. Expressão gênica, arquivos de dados que contém o grupo externamente calculadas métricas em vez de dados de amostra individual podem ser analisados através da barra de navegação principal. Clique aqui para ver uma versão maior desta figura.

Figure 5
Figura 5: relatório GSEA. O relatório GSEA será aberto em uma janela do navegador que resume todos os resultados e parâmetros selecionados. As duas seções superiores do menu de navegação compõem gene enriquecimento conjunto de resultados para os grupos definidos (por exemplo, enriquecimento em amostras de S. aureus tratados ou amostras de controle saudável). Esse exemplo, 42 dos 65 conjuntos de gene (percursos) são ativados em ratos de S. aureus tratados, enquanto 14 deles são significativamente enriquecido com um FDR abaixo de 25%. Da mesma forma, 23 dos 65 conjuntos de gene (percursos) são inibidas em ratos de S. aureus tratados, enquanto 18 deles são significativamente enriquecido com um FDR abaixo de 25%. Clicando sobre os resultados detalhados de enriquecimento abre um html ou excel arquivo para exportar os dados de análise necessários para uma comparação de estudos de expressão de genes diferentes. Clique aqui para ver uma versão maior desta figura.

Figure 6
Figura 6: detalhada enriquecimento resultados. (A) exportados arquivo de planilha contendo os resultados da análise detalhada para conjuntos de gene (caminhos) que foram ativados em S. aureus tratados de ratos. O arquivo de planilha contém dados enormes para cada conjunto de genes analisados, incluindo o nome do conjunto de gene, seu tamanho, sua pontuação normalizada de enriquecimento, seu valor nominal p (não corrigida) e seu valor FDR. (B) simplificado planilha arquivoSó contém informações necessárias para comparar estudos de expressão de genes diferentes. Clique aqui para ver uma versão maior desta figura.

Figure 7
Figura 7:3 x 3 tabela de contingência dos resultados GSEA. (A) formato de tabela de contingência comum de comparação de 2 estudos. (B) números exemplares das vias regulamentadas para a comparação de um estudo de sepse humana (GSE9960) com um murino modelo de injeção de S. aureus (GSE20524). Clique aqui para ver uma versão maior desta figura.

Figure 8
Figura 8: matriz de correlação da Pathway comparações entre humanos e estudos de Mouse. A sobreposição do Regulamento de caminho é mostrada como o ganho da informação que pode ser obtido de um estudo (rato) para prever os efeitos em outro estudo (humano) (azul, diminuição, baixa correlação; vermelho, aumento, alta correlação). Esse exemplo, a comparação do humano com datasets murino revelou um subgrupo de modelos experimentais de murino que eram altamente correlativo para estudos clínicos humanos (estudos 10 e 11, linha pontilhada), indicando que estes modelos de mouse são seridos melhor para imitar a situação humana. Em contraste, os estudos, 7, 8 e 9 não mostraram nenhuma correlação com os estudos de doenças humanas. Clique aqui para ver uma versão maior desta figura.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Modelos animais há muito tempo tem sido aplicados para a investigação dos mecanismos da doença e o desenvolvimento de novas estratégias terapêuticas. Entretanto, o ceticismo sobre a previsibilidade de modelos animais começou a espalhar após fracasso de ensaios clínicos de12. Além disso, controversas discussões sobre estratégias apropriadas para análise e interpretação de dados de grande omics de ensaios pré-clínicos foram levantadas pelo oposto as conclusões a partir dos dados mesmos após a aplicação de diferentes estratégias de análise de dados1 ,2. Consequentemente, há uma alta demanda para mais técnicas de Bioinformática robusta para a análise de dados complexos omics sistematicamente, definir o modelo animal ideal para uma determinada doença humana. Aplicar o melhor modelo disponível não só melhora a pesquisa translacional mas contribui para o bem-estar animal, evitando as experiências com animais que podem não corresponder com a situação humana.

O protocolo apresentado descreve uma abordagem padronizada para comparar sistematicamente omics dados de espécies diferentes, com o objetivo de identificar o ideal de modelos animais e protocolos de tratamento para uma determinada doença humana. Pelo uso de GSEA em vez de um único gene análise, este protocolo evita todos os problemas associados à configuração subjetiva dos limiares de expressão de gene e gene filtragem. Permite o foco sobre caminhos selecionados mais especificamente endereço o (patho) processo fisiológico da doença/condição em questão (por exemplo, inflamação). Claro, a precisão dos resultados GSEA depende a qualidade da atual anotações conjunto do gene e se os mecanismos de regulação são conservados entre as espécies. No entanto, nós hypothesize que em geral a conservação é superior ao nível de percurso do que no nível único gene. Além disso, são mais robustas para comparações de transcriptomic dados entre diferentes plataformas e modelos experimentais ou coortes clínicas do que single-gene analisa13abordagens de enriquecimento conjunto.

Em vez de usar conjuntos de gene pré-definidos como vias, a abordagem apresentada também permite para definir conjuntos personalizados de gene. Em particular, dados experimentais de expressão podem ser usados para identificar genes relevantes que são ativados ou inibidos em uma condição (por exemplo, a sobreposição de genes humanos regulamentados em coortes clínicas). O novo de definidos pelo gene moda então pode ser usada para testar para o enriquecimento de dados de diferentes modelos animais. Esta abordagem alternativa evita o 'desvio' de usar caminhos anotados. Além disso, o protocolo não está restrito à comparação dos dados de transcriptomic, mas é transferível para qualquer dados omics incluindo proteómica e metabolómica. Apesar de tudo, um tem que ter em mente que essa abordagem é limitada aos dados existentes omics com os humanos e modelos de rato, e que ele não indica como desenvolver novos modelos de animais. No entanto, ele representa uma abordagem eficaz para a interpretação padronizada de dados existentes, que podem facilitar a seleção cuidadosa do modelo animal ideal e, assim, evitar estudos translacionais desnecessários e enganosos.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Os autores declaram que eles têm não tem interesses financeiro concorrente.

Acknowledgments

Este trabalho foi financiado pelo Instituto Federal alemão de avaliação de riscos (BfR).

Materials

Name Company Catalog Number Comments
Excel Microsoft Corporation

DOWNLOAD MATERIALS LIST

References

  1. Seok, J., et al. Genomic responses in mouse models poorly mimic human inflammatory diseases. Proc Natl Acad Sci U S A. 110 (9), 3507-3512 (2013).
  2. Takao, K., Miyakawa, T. Genomic responses in mouse models greatly mimic human inflammatory diseases. Proc Natl Acad Sci U S A. 112 (4), 1167-1172 (2015).
  3. Weidner, C., Steinfath, M., Opitz, E., Oelgeschläger, M., Schönfelder, G. Defining the optimal animal model for translational research using gene set enrichment analysis. EMBO Mol Med. 8 (8), 831-838 (2016).
  4. Subramanian, A., et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proc Natl Acad Sci U S A. 102 (43), 15545-15550 (2005).
  5. Kanehisa, M., Sato, Y., Kawashima, M., Furumichi, M., Tanabe, M. KEGG as a reference resource for gene and protein annotation. Nucleic Acids Res. 44 (D1), D457-D462 (2016).
  6. Kanehisa, M., Goto, S. KEGG: kyoto encyclopedia of genes and genomes. Nucleic Acids Res. 28 (1), 27-30 (2000).
  7. Fabregat, A., et al. The Reactome pathway Knowledgebase. Nucleic Acids Res. 44 (D1), D481-D487 (2016).
  8. Croft, D., et al. The Reactome pathway knowledgebase. Nucleic Acids Res. 42 (Database issue), D472-D477 (2014).
  9. Nishimura, D. BioCarta. Biotech Software & Internet Report. 2 (3), 117-120 (2001).
  10. Edgar, R., Domrachev, M., Lash, A. E. Gene Expression Omnibus: NCBI gene expression and hybridization array data repository. Nucleic Acids Res. 30 (1), 207-210 (2002).
  11. Kolesnikov, N., et al. ArrayExpress update--simplifying data submissions. Nucleic Acids Res. 43 (Database issue), D1113-D1116 (2015).
  12. Cohen, J., et al. Sepsis: a roadmap for future research. Lancet Infect Dis. 15 (5), 581-614 (2015).
  13. Spinelli, L., Carpentier, S., Montanana Sanchis, F., Dalod, M., Vu Manh, T. P. BubbleGUM: automatic extraction of phenotype molecular signatures and comprehensive visualization of multiple Gene Set Enrichment Analyses. BMC Genomics. 16 (1), 814 (2015).

Tags

Protocolo básico edição 126 modelo Animal modelo de Mouse pesquisa translacional a biologia de sistemas Transcriptomics GSEA
Um protocolo para o uso de Gene definir análise de enriquecimento para identificar o modelo Animal adequado para investigação de translação
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Weidner, C., Steinfath, M., Wistorf, More

Weidner, C., Steinfath, M., Wistorf, E., Oelgeschläger, M., Schneider, M. R., Schönfelder, G. A Protocol for Using Gene Set Enrichment Analysis to Identify the Appropriate Animal Model for Translational Research. J. Vis. Exp. (126), e55768, doi:10.3791/55768 (2017).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter