Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Navegando MARRVEL, uma ferramenta baseada na Web que integra genômica humana e modelo organismo genética informações

Published: August 15, 2019 doi: 10.3791/59542

Summary

Aqui, apresentamos um protocolo para acessar e analisar muitas bases de dados de organismos humanos e modelo de forma eficiente. Este protocolo demonstra o uso de MARRVEL para analisar variantes causadoras de doenças candidatas identificadas a partir de esforços de sequenciamento de próxima geração.

Abstract

Com o sequenciamento de todo-exome/genoma, os geneticistas humanos identificam variantes raras que segregar com fenótipos de doença. Para avaliar se uma variante específica é patogênica, deve-se consultar muitos bancos de dados para determinar se o gene de interesse está vinculado a uma doença genética, se a variante específica foi relatada antes, e quais dados funcionais estão disponíveis no organismo modelo bases de dados que podem fornecer pistas sobre a função do gene em humanos. MARRVEL (organismo modelo recursos agregados para exploração variante rara) é uma ferramenta de coleta de dados One-stop para genes humanos e variantes e seus genes ortológicos em sete organismos modelo, incluindo no rato, rato, zebrafish, mosca da fruta, verme nematódeo, fissão levedura, e levedura brotamento. Neste protocolo, fornecemos uma visão geral do que MARRVEL pode ser usado e discutimos como diferentes conjuntos de dados podem ser usados para avaliar se uma variante de significância desconhecida (VUS) em um gene causador de doença conhecido ou uma variante em um gene de significância incerta (GUS) pode ser Patogénicas. Este protocolo guiará um usuário através da busca de bases de dados humanas múltiplas simultaneamente começando com um gene humano com ou sem uma variação do interesse. Também discutimos como utilizar dados de OMIM, ExAC/gnomAD, ClinVar, Geno2MP, DGV e DECHIPHER. Além disso, nós ilustramos como interpretar uma lista de genes do candidato do ortólogo, de testes padrões da expressão, e de termos do Go em organismos modelo associados com cada gene humano. Além disso, discutimos as anotações de domínio estrutural de proteínas de valor fornecidas e explicamos como usar o recurso de alinhamento de proteínas de várias espécies para avaliar se uma variante de interesse afeta um domínio evolutivamente conservado ou aminoácido. Finalmente, discutiremos três casos de uso diferentes deste site. MARRVEL é um site de acesso aberto facilmente acessível projetado para pesquisadores clínicos e básicos e serve como um ponto de partida para projetar experimentos para estudos funcionais.

Introduction

O uso da tecnologia de sequenciamento de próxima geração está se expandindo tanto na pesquisa quanto nos laboratórios genéticos clínicos1. Todo-exome (WES) e as análises de sequenciamento do inteiro-genoma (WGS) revelam as variações raras numerosas do significado desconhecido (VUS) em genes doença-causando conhecidos assim como Variants nos genes que são ainda ser associados com uma doença de Mendelian (GUS: genes de incerto significativo). Apresentado com uma lista de genes e de variants em um relatório clínico da seqüência, os geneticistas médicos devem manualmente visitar recursos em linha múltiplos para obter mais informação para avaliar que variação pode ser responsável para um determinado phenotype visto no paciente do interesse . Esse processo consome muito tempo, e sua eficácia é altamente dependente da expertise do indivíduo. Embora vários artigos de diretriz tenham sido publicados2,3, a interpretação de Wes e WGS requer Curaçãomanual, umavez que ainda há uma metodologia padronizada para análise de variantes. Para a interpretação de VUS, o conhecimento na relação previamente relatada do genótipo-phenotype, na modalidade da herança, e nas freqüências do alelo na população geral torna-se valioso. Além disso, o conhecimento sobre se a variante afeta um domínio protéico crítico, ou um resíduo evolutivamente conservado pode aumentar ou diminuir a probabilidade de patogenicidade. Para reunir todas essas informações, um normalmente precisa navegar através de 10-20 bases de dados de organismos humanos e modelo, uma vez que a informação é dispersa através da World Wide Web.

Da mesma forma, os cientistas do organismo modelo que trabalham em genes e caminhos específicos estão frequentemente interessados em conectar seus achados a mecanismos de doenças humanas e desejam aproveitar o conhecimento que está sendo gerado no campo da genômica humana. No entanto, devido à rápida expansão e evolução dos conjuntos de dados referentes ao genoma humano, tem sido desafiador identificar bancos de dados que forneçam informações úteis. Além disso, uma vez que a maioria dos bancos de dados de organismos modelo são projetados para pesquisadores que trabalham com o organismo específico em uma base diária, é muito difícil, por exemplo, para um pesquisador de mouse para procurar informações específicas em um banco de dados de Drosophila e vice versa. Semelhante às pesquisas de interpretação variante realizadas por geneticistas médicos, a identificação de informações úteis sobre o organismo humano e outro modelo é demorada e fortemente dependente do fundo do pesquisador de organismos modelo. MARRVEL (organismo modelo recursos agregados para exploração variante rara)4 é uma ferramenta projetada para ambos os grupos de usuários para agilizar seu fluxo de trabalho.

MARRVEL (http://marrvel.org) foi projetado como um motor de busca centralizado que recolhe dados sistematicamente de forma eficiente e consistente para os médicos e pesquisadores. Com informações de 20 ou mais bancos de dados disponíveis publicamente, este programa permite aos usuários coletar rapidamente informações e acessar um grande número de bancos de dados de organismos humanos e modelo sem pesquisas reiterativas. As páginas de resultados de pesquisa também contêm hiperlinks para as fontes originais de informações, permitindo que os indivíduos acessem os dados brutos e coletem informações adicionais fornecidas pelas fontes.

Em contraste com muitas das ferramentas de priorização de variantes que exigem grande entrada de dados de sequenciamento na forma de arquivos VCF ou BAM e instalações de software frequentemente proprietário/comercial, MARRVEL opera em qualquer navegador Web. Ele pode ser usado sem nenhum custo e compatível com dispositivos portáteis (por exemplo, smartphones, tablets), desde que um esteja conectado à Internet. Nós escolhemos este formato, uma vez que muitos médicos e pesquisadores normalmente precisam procurar um ou alguns genes e variantes de cada vez. Observe que estamos desenvolvendo recursos de download em lote e API (interface de programação de aplicativos) para marrvel para eventualmente permitir que os usuários cura centenas de genes e variantes de cada vez através de ferramentas de consulta personalizadas, se necessário.

Devido à ampla gama de aplicações, neste protocolo, vamos descrever uma abordagem abrangente sobre como navegar através de diferentes conjuntos de dados que MARRVEL exibe. Exemplos mais direcionados que são adaptados para necessidades específicas dos usuários serão descritos na seção resultados representativos. É importante notar que a saída de MARRVEL ainda requer um certo nível de conhecimento de fundo em genética humana ou organismos modelo para extrair informações valiosas. Remetemos os leitores para a tabela que lista os artigos primários que descrevem a função de cada um dos bancos de dados originais que são curadoria de MARRVEL (tabela 1). O seguinte protocolo é dividido em três seções: (1) como começar uma busca, (2) como interpretar MARRVEL saídas genéticas humanas, e (3) como fazer uso de dados do modelo de organismo em MARRVEL. Na seção resultados representativos, abordagens mais focalizadas e específicas são descritas. MARRVEL está sendo atualizado ativamente, por favor consulte a página de FAQ do site atual para obter detalhes sobre fontes de dados. Recomendamos vivamente que os utilizadores da MARRVEL se inscrevamos para receber notificações de atualização através do formulário de envio de e-mail na parte inferior da página inicial do MARRVEL.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. como iniciar uma pesquisa

  1. Para o gene humano e a busca variante-baseada, vá aos passos 1.1.1.-1.1.2. Para pesquisa baseada em genes humanos (sem entrada variante), avance para o passo 1,2. Para a pesquisa baseada em genes do organismo modelo, consulte as etapas 1.3.1.-1.3.2.
    1. Vá para a página inicial do MARRVEL4 em http://marrvel.org/. Comece introduzindo um símbolo humano do gene. Verifique se os nomes dos genes candidatos estão listados abaixo da caixa de entrada com cada entrada de caractere. Se a pesquisa voltar negativa, certifique-se de que o símbolo genético utilizado está atualizado usando o site da Comissão de nomenclatura do gene HUGO5 (hgnc; https://www.genenames.org/).
    2. Insira uma variante humana. A barra de pesquisa é compatível com dois tipos de nomenclatura variante: localização do genoma semelhante a como as variantes são exibidas no ExAC e GnomAD6 e na nomenclatura baseada em transcrição de acordo com as diretrizes do HGVs. Exemplos de tais formatos são mostrados em texto cinza dentro da caixa de pesquisa. Para a nomenclatura de localização genômica, use as coordenadas de acordo com hg19/GRCh37. Avance para o passo 2.
      Nota: se uma pesquisa devolve um erro, os problemas mais comuns são ou o símbolo de gene não está actualizado ou a nomenclatura variante está incorrecta. Nesses casos, os sites do HGNC (https://www.genenames.org/), Mutalyzer7 (https://www.mutalyzer.nl/) e transvar8 (https://Bioinformatics.mdanderson.org/transvar/) são ótimos recursos para corrigir o erro. HGNC fornece símbolos oficiais do gene e seus pseudônimos para todos os genes humanos.
    3. Se ainda encontrando mensagens de erro depois de confirmar o nome do gene está atualizado, use Mutalyzer e TransVar para verificar e converter a nomenclatura variante.
    4. Em algumas situações, como uma mudança de símbolo de gene muito recente no HGNC, tente usar um sinônimo para o gene e entre em contato com a equipe de operação MARRVEL usando a guia "feedback" para atualizar os dados de origem, como MARRVEL não pode fornecer as informações corretas devido a um lag em dados até Data.
  2. Insira um símbolo de gene humano e deixe a barra de pesquisa variante humana em branco. Se um erro for encontrado, vá para HGNC (https://www.genenames.org/) para verificar o símbolo do gene oficial ou tente um símbolo de gene mais antigo.
    1. Clique na guia pesquisa de organismos do modelo na faixa superior (Figura 1) ou acesse http://marrvel.org/Model. Selecione o organismo modelo da escolha e incorpore um símbolo do gene do organismo modelo. Clique no símbolo do gene como o nome é preenchidos automaticamente e, em seguida, clique em Pesquisar. Se o resultado da pesquisa for negativo, verifique o símbolo do gene oficial utilizado nas bases de dados do organismo modelo (tabela 1).
    2. Se o resultado da pesquisa ainda for negativo, acesse DIOPT (ferramenta de predição de Ortolog Integrativa do DRSC, https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl) e HCOP (https://www.genenames.org/tools/hcop/) para avaliar se não há ortologas preditas boas para o gene do interesse. DIOPT é um motor de busca ortolog previsão executado pelo DRSC (Drosophila RNAi screening Center) e hcop é um conjunto semelhante desenvolvido pela HGNC.
      Observação: pesquisas adicionais usando BLAST (https://blast.ncbi.nlm.nih.gov/Blast.cgi) podem permitir que os usuários encontrem ortologas que podem ser perdidas por algoritmos de previsão usados em DIOPT e HCOP.
    3. Estale sobre o marrvel ele na parte inferior para o ortólogo humano previsto da escolha. Verifique a Pontuação Diopt9 e a melhor pontuação do gene humano para modelar o organismo? para a seleção do gene humano. Avance para o passo 2.
      Nota: Diopt Pontuação9 (https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl) é um valor de quantos algoritmos de predição ortolog prever um par de genes em dois organismos para ser ortologous um ao outro. Para obter mais informações sobre esses valores e os algoritmos específicos usados para calcular essa pontuação, consulte Hu et al9. Quando melhor pontuação do gene humano para modelar o organismo? é Sim, indica que o gene humano é mais provável um verdadeiro ortólogos humanos do gene do interesse mas poderia haver umas exceções, especial quando os genes humanos múltiplos são ortóloga a genes modelo múltiplos do organismo devido aos eventos da duplicação do gene durante a evolução. Se o gene de interesse é um membro de uma família de genes complexos que sofreram evolução divergente em várias espécies, os usuários devem identificar uma publicação que realizou uma extensa análise filogenética da família de genes de interesse para identificar o mais provável gene candidato a ortolog.

2. como interpretar as saídas de genética humana MARRVEL para uma pesquisa de genes e variantes

Observação: na página de resultados, há sete bancos de dados humanos que são exibidos (tabela 1, Figura 1). Para cada caixa de saída, há um botão de link externo (caixa pequena com uma seta diagonal) no canto superior direito que irá vincular ao banco de dados original para obter mais detalhes.

  1. Clique em OMIM (online Mendelian inheritance in Man, https://www.OMIM.org/)10, o primeiro banco de dados que é exibido.
    Nota: OMIM é um banco de dados manualmente curadoria que agrega e resume informações sobre doenças genéticas e traços no ser humano.
    1. Use a caixa de Descrição do gene humano de OMIM para um sumário curto do que é sabido sobre o gene e o produto do gene.
    2. Use a caixa das relações do gene-phenotype para determinar se este gene é um gene doença-causando conhecido ou não. Esta caixa fornece associações conhecidas manualmente curadoria da doença ou do phenotype com o gene do interesse.
    3. Use os alelos relatados da caixa OMIM para obter uma lista de variantes patogênicas com curadoria do OMIM.
      Nota: uma vez que a Curação manual de uma publicação sobre uma nova descoberta genética da doença é necessária para que qualquer associação gene-doença apareça no OMIM, algum atraso de tempo e/ou publicações perdidas podem levar a equívocos. Recomenda-se que os usuários realizem buscas de PubMed (https://www.ncbi.nlm.nih.gov/pubmed/) para olhar na literatura recente também (Veja 4.1.2.). Para obter informações adicionais com curadoria em OMIM, consulte Amberger10,11.
  2. CliqueExAC(Consórcio exome Aggregation, http://exac.broadinstitute.org/)6e gnomAD(banco de dados de agregação de genoma, http://gnomad.broadinstitute.org/), grandes bases de dados de genômica populacional baseadas em WES e WGS de pessoas que são selecionadas para excluir doenças pediátricas severas.
    Nota: ExAC contém ~ 60.000 WES enquanto gnomAD contém ~ 120.000 WES e ~ 15.000 WGS. Tanto o ExAC como o gnomAD podem ser usados como um banco de dados de controle populacional, especialmente para transtornos pediátricos graves, mas sua interpretação requer algum grau de cautela. Em geral, gnomAD pode ser considerado como uma versão atualizada e expandida do ExAC, uma vez que a maioria dos coortes que estão incluídos no ExAC também está incluído no gnomAD. No entanto, uma vez que existem algumas exceções (ver informações de coorte em http://exac.broadinstitute.org/about e http://gnomad.broadinstitute.org/about, respectivamente), MARRVEL exibe dados de ambas as fontes.
    1. Use a caixa Resumo do gene da população de controle para obter estatísticas de nível de Gene, como a probabilidade de encontrar os alelos de perda de função (LOF) na população geral. Isso é chamado de pLI (probabilidade de intolerância LOF) Pontuação no ExAC e pode ser usado para inferir como provável uma única cópia de um alelo LOF para um gene específico pode causar uma doença dominante através de mecanismos haplo-insuficientes.
      Nota: olhar para a pontuação de pLI de um gene tem valor, especialmente quando se lida com distúrbios dominantes que se apresentam como doenças pediátricas graves associadas com variantes de novo . Se um gene tem uma contagem de pLI de 0, 0, significa que é altamente tolerante de variações de LOF assim a doença improvável da causa do gene através de um mecanismo dominante do haploinsuficiência. No entanto, isso não exclui necessariamente outros ganhos dominantes de função (GOF) ou mecanismos mediados negativos dominantes podem causar doenças. Além disso, os genes que causam as doenças recessivas podem ter escores baixos de pLI, pois espera-se que as carreiras sejam encontradas na população geral. Por outro lado, se um gene tem uma pontuação de pLI de 1, 0, é possível que a perda de uma cópia desse gene seja prejudicial para a saúde humana. Pesquisas adicionais em sites como o DOMINO (https://wwwfbm.unil.ch/domino/) também podem ser usadas em combinação para avaliar a probabilidade de uma variante em um gene específico causando uma desordem dominante.
    2. Use as duas caixas seguintes para obter as frequências alélicas da variante de interesse em ExAC e gnomAD, respectivamente para ajudar a interpretar se a variante pode ser patogênica dependendo se o paciente tem a doença dominante ou recessiva. Esta caixa só será exibida quando o usuário insere informações de variante ao iniciar a pesquisa.
      Nota: se um supor um cenário recessive da doença e a contagem de pLI do gene do interesse for baixa, uma deve prestar atenção à freqüência do alelo alistada aqui. Alguns geneticistas podem estabelecer um ponto de corte de 0, 5 a 0, 1 como a freqüência máxima do alelo para as variações patogénicas que podem causar uma doença recessively herdada severa2. Por outro lado, se uma hipótese de um cenário de doença dominante, é menos provável encontrar a variante idêntica ou semelhante em uma população de controle. Mais uma vez, isso requer cautela porque indivíduos com transtornos de início tardio, doenças com apresentação leve, transtornos psiquiátricos ou doenças não rastreadas pelos pesquisadores do ExAC/gnomAD podem ainda ser incluídos e a variante ainda pode ser uma patogênica dominante Variante. Além disso, houve alguns casos de variantes ligadas às condições pediátricas encontradas em alguns indivíduos nessas bases de dados12,13,14, potencialmentedevido à penetrância incompleta ou mosaicismo somático13 , 15 anos de , 16. Além disso, embora exac e gnomad irá exibir variantes que são encontrados em um estado homozygous, ele não irá indicar se qualquer uma das variantes são encontrados em um estado heterozygous composto. Finalmente, algumas variantes encontradas nessas bases de dados são marcadas como baixa confiança devido a desafios técnicos em sequenciamento (por exemplo, baixa sequência de cobertura, sequência repetitiva). Para olhar com mais cuidado para esses conjuntos de dados, os usuários são recomendados para usar o botão de link externo para visitar os sites originais exac e gnomad para obter informações adicionais.
  3. Clique em Geno2MP (genótipo para Mendelian phenotype browser, http://geno2mp.GS.Washington.edu/Geno2MP/), uma coleção de dados baseados em Wes da Universidade de Washington Center for Mendelian Genetics. Contém cerca de 9.600 exomas (a partir de 1/18/2019) de indivíduos afetados e parentes não afetados com algumas descrições fenotípicas (Figura 1).
    1. Use a caixa da população da doença para obter a freqüência do alelo da variação do interesse nesta coorte.
    2. Use a caixa das relações do gene-phenotype para obter o HPO (Ontology humano do phenotype)17 termos para os indivíduos com a variação do interesse. Esta é uma das muitas maneiras para que um procure pacientes que podem ter a mesma doença.
      Observação: se houver suspeita de um gene de interesse associado à doença de um paciente e houver correspondências encontradas em Geno2MP, informações importantes adicionais podem estar presentes na fonte de dados além do que é exibido.
      1. Clique no botão de link externo para a página específica do gene em Geno2MP, filtro para mutações que são semelhantes às do paciente (por exemplo, missense, LOF), e rever cuidadosamente as listas de variantes. Anote as variantes com altas pontuações CADD18 e clique nos perfis HPO. Por exemplo, pontuações CADD superiores a 20 estão dentro do Top 1% de todas as variantes previstas para ser deletério, pontuações CADD que são maiores do que 10 estão dentro do Top 10%. Os termos de HPO fornecem uma descrição padronizada de fenótipos humanos. Aqui, certifique-se de verificar se a variante foi identificada em um indivíduo afetado ou em um parente.
      2. Se forem encontradas variantes em pacientes afetados no mesmo sistema de órgãos do paciente, considere o uso do formulário de e-mail para entrar em contato com o médico que submeteu esses casos a Geno2MP usando o recurso fornecido no site do Geno2MP.
        Nota: nem todos os médicos respondem a tais consultas, portanto, deve-se explorar outras avenidas de matchmaking paciente. Outras formas de reunir uma coorte de pacientes afetados pelas mesmas doenças é usar ferramentas como genematcher19 (https://www.genematcher.org/) e outras bases de dados que fazem parte do Matchmaker Exchange19,20( https://www.matchmakerexchange.org/). Consulte o artigo do JoVE que acompanha para obter mais informações sobre matchmaking21.
  4. Use o banco de dados Clinvar (https://www.NCBI.nlm.nih.gov/clinvar/)22 , apoiado pelos institutos nacionais de saúde (NIH), onde pesquisadores e clínicos apresentam variantes com ou sem determinação de patogenicidade, para verificar variantes de nucleotídeo único (SNV), pequenos indelos e maiores variações de número de cópia (CNV).
    1. Use a linha superior para revisar um resumo do número de cada tipo de variantes relatado no ClinVar (Figura 1).
    2. Verifique a lista de variantes abaixo na caixa relatada alleles de ClinVar.
      Nota: se uma variante foi incluída na pesquisa inicial, as variantes destacadas em Teal são todas variantes que incluem a localização genômica da variante de interesse [incluindo grandes CNVs, que muitas vezes são rotulados como; coordenada genômica... X1 (supressão) e... X3 (duplicação)].
  5. Use DGV23 (banco de dados de variantes genómicas, http://DGV.TCAG.ca/DGV/app/Home) e Decipher24 (banco de dados de variação genômica e fenótipo em seres humanos usando os recursos de Ensemble, https://Decipher.Sanger.AC.uk/), tanto coleções de CNVs. DGV é a maior coleção de acesso público de variantes estruturais de mais de 54.000 indivíduos. Este banco de dados inclui amostras de indivíduos supostamente saudáveis, no momento da apuramento, de até 72 estudos diferentes. Da mesma forma, os dados exibidos de DECIPHER incluem variantes comuns da população de controle.
    Nota: desde MARRVEL não tem permissão para exibir dados derivados do paciente de DECIPHIER, os usuários são incentivados a visitar diretamente o site DECIPHER para acessar informações potencialmente patogênicas CNV.
    1. Clique na caixa copiar número variação na população de controle (banco de dados DGV) para obter variantes que contenham o gene de interesse. Informações como o tamanho, subtipo e referência da variação de número de cópia podem ser encontradas na mesma caixa.
    2. Clique na caixa comum copiar número variantes (banco de dados DECIPHER) para obter variantes que contenham a localização genômica da variante de interesse. Essas informações podem ajudar a determinar se o gene é duplicado ou excluído nos indivíduos controle.
      Nota: se o gene de interesse é suprimido em muitos indivíduos na população de controle, significa que este gene é provável ser altamente tolerante de variações de LOF. Como baixas contagens de pLI, esta sugere que uma única perda da cópia deste gene seja menos provável causar uma doença severa através de um mecanismo do haploinsuficiência. No entanto, isso não exclui necessariamente outros ganhos dominantes de função ou mecanismos negativos dominantes (por exemplo, alelos antimórficos, hipermórficos e neomórficos) causados por alelos específicos de missense e truncamento.  As limitações possíveis a estes dados incluem a variação na fonte e o método dos dados adquiridos, a falta da informação a respeito da penetrância incompleta de CNVs patogénicos, e se os indivíduos desenvolveram determinadas doenças após a coleta de dados.

3. como usar os dados do organismo modelo em MARRVEL

  1. Use a tabela da função do gene para obter a seguinte informação para oito organismos modelo que incluem o ser humano (humano, rato, rato, zebrafish, Drosophila, elegans de C, fermento de brotamento e fermento da fissão):
    1. Nome do gene: desde que cada nome do gene é hiperlink às páginas do gene em bases de dados respectivas do organismo modelo, estale sobre estas ligações para encontrar mais sobre a informação e os recursos fenotípicos disponíveis para cada organismo modelo. Por exemplo, no FlyBase25 (http://FlyBase.org/), haverá uma lista de todos os alelos que foram gerados, seus respectivos fenótipos e a disponibilidade de cada alelo de centros de ações públicas.
    2. Link PubMed : clique no link PubMed para ir para uma lista de publicações que se relaciona com o gene de interesse em cada organismo. Sem usar esses links, procurar o gene humano diretamente no PubMed pode levar a faltar algumas publicações que usaram um velho gene alias para se referir ao gene humano. Similarmente, os nomes do gene do organismo modelo podem ter flutuado historicamente.
    3. Diopt 9 Pontuação: verifique esta coluna para obter uma pontuação de quantos algoritmos de predição ortolog prever o gene é susceptível de ser um ortolog do gene humano de interesse. Um pode usar uma contagem de diopt de 3 ou acima como um Cut-off razoável para identificar candidatos contínuos do ortólogo. No entanto, há casos em que ortologas genuínas só têm um escore de DIOPT de 1 devido a homologia limitada. Na parte superior da tabela de função gênica, marque a caixa "mostrar apenas o melhor gene de Pontuação DIOPT" para exibir todos os candidatos que normalmente incluem genes homólogos que não são necessariamente ortologas.
    4. Expressão: Marque esta coluna para a lista dos tecidos onde o gene ou a proteína de interesse foi relatado para ser expressado em bases de dados humanas ou modelo do organismo. Os dados da expressão do gene humano e da proteína são de Gtex26 (https://gtexportal.org/) e Atlas humano27 da proteína (https://www.proteinatlas.org/), respectivamente. Alguns têm um botão com links pop-up, como para o ser humano e para a mosca que exibem o padrão de expressão usando um mapa de calor, enquanto outros são hipervinculados às respectivas páginas de bases de dados do organismo modelo.
    5. Ontologia genética 28 termos (GO): filtrar por códigos de evidência experimental e obter de bases de dados de organismos humanos ou modelo respectivos. Os termos GO baseados em "códigos de evidência de análise computacional" e "códigos de evidência de anotação eletrônica" (previsões) não são exibidos. Visite por favor cada Web site modelo do organismo para recolher esta informação se necessário.
    6. Outros links como o Monarch Initiative29 (https://monarchinitiative.org/) e o impc30 (http://www.mousephenotype.org/): Use o hiperlink da iniciativa Monarch para navegar até a página do phenogrid para o gene humano específico, um gráfico que fornece uma comparação rápida entre os fenótipos associados com o gene do interesse às doenças humanas conhecidas e aos mutantes modelo do organismo que têm sobreposições fenotípicas. Se um rato gene tem um mouse nocaute feito ou planejado pelo International mouse Phenotyping Consortium (IMPC), o "IMPC" links para a página que detalha o fenótipo do mouse Knockout e sua disponibilidade de centros de ações públicas.
  2. Humanos Domínios proteicos: Use a caixa dos domínios da proteína do gene humano para obter domínios de proteína previstos do gene humano. Os dados são derivados de Diopt, que usa o pfam (https://Pfam.xfam.org/) e o CCD (conservou o banco de dados dos domínios, https://www.NCBI.nlm.nih.gov/Structure/CDD/CDD.shtml). Um único resíduo talvez anotado mais de uma vez devido a alguma sobreposição em domínios anotados nas duas fontes.
  3. Use a caixa múltipla do alinhamento da proteína para obter o alinhamento múltiplo do ácido aminado gerado por diopt9 que inclui o ser humano (HS), o rato (RN), o rato (milímetro), o zebrafish (Dr.), a mosca da fruta (DM), o sem-fim (CE), e as leveduras (SC e SP). Para destacar o aminoácido de interesse, role para baixo até a parte inferior da caixa e digite os números de aminoácidos abaixo e os aminoácidos de interesse serão destacados em Teal. O alinhamento é fornecido pela diopt e usa o alinhador MAFFT (programa de alinhamento múltiplo para sequências de aminoácidos ou nucleotídeo, https://MAFFT.CBRC.jp/Alignment/software/31).
    Nota: se o aminoácido realçado com base no número não for o esperado, pode ser devido a diferentes isoformas de splicing usados para o alinhamento. Em princípio, DIOPT usa o isoforma o mais longo a indicar nesta caixa. Além disso, para segmentos de genes que não são bem conservados, o alinhamento de sequências multiespécies usando parâmetros padrão pode não ser ideal. Recomendamos o uso de outros sites e softwares como CLUSTAL Omega e ClustalW/X (http://www.clustal.org/)32 para otimizar os parâmetros de alinhamento e matrizes de acordo.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Os geneticistas humanos e os cientistas modelo do organismo cada um usam MARRVEL em maneiras distintas, cada um com resultados desejados diferentes. Abaixo estão três vinhetas de possíveis usos para MARRVEL.

Avaliando a patogenicidade de uma variante em uma doença dominante
A maioria dos usuários que visitam MARRVEL usar este site para analisar a probabilidade de que uma variante humana rara pode causar uma determinada doença. Por exemplo, um missense (17:59477596 G > A, p. R20Q) Variant em TBX2 foi encontrado para segregar em uma maneira dominante autosomal em uma família pequena com características dysmorphic e o palato do cleft, defeitos cardíacos, anomalias esqueletais e do dígito, tiróide-relacionado fenótipos e defeitos imunes12. A mãe e as duas crianças afetadas com estes sintomas carreg a variação, visto que o pai não fêz. O filho dos anos de idade 9 teve o phenotype o mais severo, visto que a mãe dos anos de idade 36 e a filha dos anos de idade 6 tiveram umas formas mais suaves desta doença. Para avaliar se esta variante é provavelmente patogênica, pode-se iniciar uma pesquisa MARRVEL inserindo o gene e variantes na página inicial em http://MARRVEL.org. Note que a barra de pesquisa variante requer a remoção de Chr na frente da variante, se este é listado no relatório clínico original para indicar "cromossomo". Na altura do estudo original, a página dos resultados mostrou que não há nenhum phenotype de OMIM associado com este gene, e esta variação é encontrada somente uma vez em gnomAD mas não em ExAC, em ClinVar, ou em Geno2MP. Pode-se pensar que essa identificação de um indivíduo pode ser evidência contra p. R20Q sendo uma variante patogênica, mas é importante notar que a mãe da família exibiu uma forma leve da doença. Uma variante encontrada em 1/~ 150000 indivíduo é de fato uma variante muito rara e a identificação de um indivíduo com a variante idêntica pode ser explicada por expressividade reduzida ou penetrância. Na tabela função gênica, muitas vezes é útil verificar se o gene é expresso em tecidos relevantes em seres humanos (via GTEx e protein Atlas) em referência aos fenótipos do paciente. Neste caso, o teste padrão da expressão combina desde que o paciente tem fenótipos em tecidos múltiplos e o gene é expressado igualmente extensamente, incluindo cardíaco, e órgãos imune-relacionados.

Baseado na informação modelo do organismo indicada em MARRVEL, uma pode rapidamente ver que o gene é conservado de C. elegans e de Drosophila ao ser humano e ao aminoácido do interesse, p. R20 é conservado igualmente altamente durante todo a evolução como mostrado em Figura 2 (note que o rato Tbx2 não se alinha bem nesta região, provavelmente devido à transcrição que é usada para o alinhamento). A informação fenotípica no rato e no zebrafish indica que este gene afeta o desenvolvimento ou a função de um número de tecidos que incluem o sistema cardiovascular, craniofacial/palato, e dígitos. Em suma, esses dados sugerem que esta variante é possivelmente patogênica e um estudo mais funcional é valioso. Considerando que o gene e a variante são conservados em organismos como C. elegans e Drosophila, estudos funcionais em animais invertebrados serão mais rápidos e mais baratos em comparação com a realização do mesmo experimento em organismos modelo vertebrados como zebrafish, rato e rato. Por favor, veja o artigo de acompanhamento de Harnish et al.21 sobre como projetamos e realizamos ensaios funcionais para este caso12. A participação deste gene/Variant nesta família ' a doença de s foi reforçada mais pela identificação de um paciente masculino não relacionado dos anos de idade 8 com os fenótipos de sobreposição com uma variação de missense de de novo no mesmo gene que usa genematcher. As variações nas duas famílias foram encontradas para ser funcionais usando experimentos em Drosophila, apoiando mais a patogenicidade das variantes raras em TBX2. A doença foi curadoria recentemente como ' anomalias vertebrais e disfunção endócrina e de célula T variável (VETD, OMIM #618223) ' em OMIM. Veja A Figura 3 para A saída inteira para TBX2 17:59477596 G > A.

Avaliando a patogenicidade de uma variante em uma doença recessiva
Há diferenças significativas entre a análise de variantes humanas em doenças dominantes e recessivas. Por exemplo, a pontuação de pLI, a frequência do alelo menor e a presença de deleções na população de controle tornam-se menos importantes porque dois alelos são necessários para revelar qualquer fenótipo.

Um exemplo de análise de uma doença recessiva é detalhado em Yoon et al33 e Wang et al4 , que é resumido aqui. Uma menina dos anos de idade 15 exibiu o atraso desenvolvente, microcephaly, ataxia, prejuízo do motor, hypotonia, deficiências da língua, anomalias do cérebro, e hipoplasia do corpo caloso do corpus33. O proband, seus pais não afetados, e um irmão não afetado receberam WES. Após a filtração para as variações que eram originais ao proband e raro na população, as variações em 13 genes diferentes permaneceram. A filtragem manual e a análise dos 13 candidatos, seguindo o protocolo aqui descrito, resultaram na priorização de uma variante específica na OGDHL como um bom candidato para estudos funcionais. As principais informações que levaram à priorização de p. S778L em OGDHL (10:50946295 G > A) sobre outras variantes incluem: (1) nenhuma associação de doença prévia em OMIM, (2) variante não encontrada em populações de controle, (3) ontologia gênica associada à Microtúbulo e mitocôndria, dois sistemas que têm muitos elos a distúrbios neurológicos34,35, (4) altamente expressos em cerebelo humano, um tecido gravemente afetado neste paciente, e (5) a variante de interesse que afeta um altamente ácido aminado conservado (do fermento ao ser humano) e localizado dentro do domínio catalítico4. a contagem de pLI para este gene é 0, 0 mas esta não afeta a priorização desta variante/gene para este caso desde que nós estamos suspeitando um modo recessive da herança e que os portadores de variações deletérias neste gene possam apresentar na população geral. Veja A Figura 4 para A saída Marrvel para OGDHL 10:50946295 G > A.

Os estudos modelo do organismo executados paralelamente mostraram que a perda de ogdh (igualmente referida como Nc73EF), o ortólogo de Drosophila de OGDHL, no sistema nervoso exibe um phenotype neurodegenerativas consistente com o desordem neurológica do proband33. Os estudos funcionais em Drosophila mostraram que a variação do interesse (p. S778L) afeta a função da proteína, fazendo a este um gene forte do candidato para esta doença. Desde então, esta informação sobre uma variante patogénica potencial em OGDHL lig a uma desordem neurológica nova foi incorporada em omim (https://www.OMIM.org/entry/617513) muito recentemente mas ainda não foi atribuída uma doença-phenotype número, pois apenas um caso foi relatado em janeiro de 2019.

É o ortólogo humano de um gene modelo do organismo do interesse associado com as doenças genéticas?
Muitos investigadores modelo do organismo podem estar interessados ver se o ortólogo humano de seu gene do interesse pode ter ligações às doenças genéticas. Neste exemplo, nós procuraremos se o ortholog humano (s) do gene do entalhe da mosca (N) tem alguma relevância às doenças genéticas. Para fazer isso, vamos começar com a realização de uma "pesquisa de organismos modelo (1.3.1.-1.3.2.)" e selecione "Drosophila melanogaster" como o nome da espécie e "N" como o nome do gene do organismo modelo. Os quatro ortólogos humanos previstos para este gene da mosca serão indicados na janela dos resultados como NOTCH1, NOTCH2, NOTCH3, e NOTCH4. Os quatro genes têm escores DIOPT diferentes (10/12 para NOTCH1, 8/12 para NOTCH2 e NOTCH3, 5/12 para NOTCH4) devido ao grau de homologia entre a mosca N e cada gene humano. Considerando a "melhor pontuação do gene humano para voar" é listado como "Sim" para todos os quatro genes, a busca reversa de cada gene humano pega a mosca N gene como o candidato ortolog mais provável. De fato, os quatro genes de entalhe humano são pensados para ter surgido de um único gene de entalhe durante as duas rodadas de eventos de duplicação de genoma inteiros que aconteceram na linhagem de vertebrados após a separação da linhagem de invertebrados36. Ao clicar nos botões "MARRVEL it" para cada gene humano, pode-se obter as saídas baseadas em genes humanos para NOTCH1-4.  Na página de resultados de cada gene, as caixas superiores para OMIM indicam que enquanto NOTCH1, 2 e 3 estão associados com doenças genéticas, NOTCH4 atualmente não está associada a nenhuma doença humana. Note-se que houve debates sobre se as variantes em NOTCH4 estão associadas à esquizofrenia com base em estudos de associação genômica-ampla (gwas)37,38. Uma vez que OMIM geralmente não curam dados GWAS com algumas exceções (por exemplo , APOE, PTPN22), esta informação não está disponível a partir da janela OMIM. Da mesma forma, como o OMIM geralmente não curam informações de mutação somática associadas ao câncer, informações sobre se as mutações somáticas nesses genes estão associadas a certos tipos de câncer não serão listadas com algumas exceções (por exemplo, TP53, RB1, BRCA1). Ao clicar na caixa PubMed ou Monarch , pode-se identificar alguns papéis relacionados à doença que não são curadoria no OMIM. Veja Figura 5 para a saída inteira de marrvel para o gene da mosca N e gene humano NOTCH4.

Figure 1
Figura 1 . Uma saída representativa de uma pesquisa MARRVEL. Este exemplo específico está mostrando uma pesquisa genética/variante para "TBX2/17:59477596 G > A" (http://marrvel.org/search/pair/TBX2/17:59477596%20G%3EA). A barra lateral à esquerda suporta navegações através da saída de dados. Observe que os sinais de "link externo" aqui fornecem links para as páginas apropriadas do navegador do genoma UCSC (https://genome.ucsc.edu/). As abas na parte superior permitem que um realize buscas gene-baseadas do modelo do organismo, obtenha a informação adicional sobre MARRVEL e forneça feedbacks do usuário. Os painéis ' resultados da pesquisa ' exibem informações de genes e variantes das fontes indicadas na imagem. Por favor clique aqui para ver uma versão maior desta figura.

Figure 2
Figura 2 . Sumário da tabela do ortólogo do organismo modelo e do alinhamento da multi-espécie para TBX2. A ) marrvel seleciona o candidato de ortolog superior para cada espécie com base na ferramenta diopt. Por exemplo, uma pontuação DIOPT de 10/12 mostrada para o gene Drosophila bi significa 10 de 12 programas de predição Ortodontia usados por diopt previu que o bi é o ortolog mais provável da mosca do TBX2humano. Desde que 25% dos genes são duplicados em zebrafish comparado ao ser humano, marrvel indica dois genes trypsinogen (neste caso tbx2a e tbx2b) quando este é aplicável. B) instantâneo da janela de alinhamento de várias espécies. Selecionando um organismo específico [neste caso humano (HS)] e entrando no aminoácido de interesse, pode-se destacar o aminoácido específico em cerceta. Neste exemplo, p. R20 do TBX2 humano parece ser conservado no rato (MM1), ambos os ortólogos do zebrafish (DR1 e DR2), Drosophila (DM1) e C. elegans (CE1). Rat Tbx2 não parece alinhar bem em comparação com outras espécies, provavelmente devido à isoforma usada pelo DIOPT para realizar o alinhamento de várias espécies. Por favor clique aqui para ver uma versão maior desta figura.

Figure 3
Figura 3 : Saída inteira para TBX2 17:59477596 G ≫ A. Por favor, clique aqui para baixar este arquivo.

Figure 4
Figura 4 : Saída Marrvel para ogdhl 10:50946295 G > A. Por favor, clique aqui para baixar este arquivo.

Figure 5
Figura 5 : Marrvel Output para o gene N da mosca e gene humano NOTCH4. Por favor, clique aqui para baixar este arquivo.

Tipo de banco de dados Nome do banco de dados URL/link para o banco de dados Fundamentos para inclusão em MARRVEL Referência (PMID)
Genética humana E https://www.ncbi.nlm.nih.gov/clinvar/ ClinVar é um arquivo público de relatos das relações entre as variações humanas e fenótipos, com evidências de apoio. Variantes com interpretações relatadas por pesquisadores e clínicos são valiosas para analisar a probabilidade de uma variante ser patogênica. PMID: 29165669
Genética humana Decifrar https://decipher.sanger.ac.uk/ Os dados DECIPHER exibidos no MARRVEL incluem variantes comuns da população de controle. Os dados exibidos incluem variantes estruturais que cobrem a localização genômica da variante de entrada. DECIPHER também contém informações variantes e fenotípicas para indivíduos afetados, mas só pode ser acessado diretamente através de seu site. PMID: 19344873
Genética humana DGV http://dgv.tcag.ca/dgv/app/home A nosso conhecimento, DGV é a coleção a maior do público-acesso de variants estruturais de mais de 54.000 indivíduos. O banco de dados inclui amostras de indivíduos supostamente saudáveis, no momento da apuramento, de até 72 estudos diferentes. As limitações possíveis a estes dados incluem a variação na fonte e o método dos dados adquiriu a falta da informação a respeito da penetrância incompleta de CNVs patogénicos, e se os indivíduos desenvolverão doenças associadas após a coleta de dados. PMID: 24174537
Previsão Ortodontia O DIOPT https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl Diopt forneceu o alinhamento múltiplo da seqüência da proteína dos melhores ortólogos previstos em seis organismos modelo de encontro à seqüência da proteína do gene humano do interesse. O alinhamento fornecerá informações sobre a conservação de aminoácidos específicos, bem como domínios proteicos funcionais. PMID: 21880147
Nomenclatura do gene humano/transcrição Ensembl https://useast.ensembl.org/ Os IDs de genes do Ensemble BL são usados para vincular os diferentes bancos de dados. PMID: 29155950
Genética humana ExAC http://exac.broadinstitute.org/ Exac contem mais de 60.000 exomas e é, à excepção de gnomad (http://gnomad.broadinstitute.org/), a coleção pública a maior dos exomas que foram selecionados de encontro aos indivíduos com phenotypes Mendelian severos do cedo-início. Para os propósitos de MARRVEL, o ExAC e o gnomAD servem como o melhor conjunto de dados de controle populacional para calcular a frequência de alelo menor. Nós fornecemos dois conjuntos de saídas de ExAC. A primeira saída é a visão geral centrada no gene do número esperado versus observado de missense e perda de alelos de função (LOF). Uma métrica chamada pLI (probabilidade de intolerância de LOF) varia entre 0, 0 e 1, 0 reflete a pressão seletiva em certas variantes antes da idade reprodutiva. a contagem de pLI de 1, 0 significa que este gene é muito intolerante de todas as variações de LOF e o haploinsuficiência deste gene pode causar a doença no ser humano. A segunda saída é os dados do ExAC que pertence à variante específica. Se a variante idêntica for observada no ExAC, MARRVEL exibirá a frequência de alelo menor. PMID: 27535533
Bases de dados do organismo modelo primário FlyBase (Drosophila) http://flybase.org MARRVEL coleta e exibe dados de vários bancos de dados de organismos modelo. Nós fornecemos um resumo da função molecular, celular e biológica do gene usando termos GO. O ortólogo mais provável é derivado por diopt. PMID: 26467478
Ferramentas de integração de banco de dados modelo organismo Gene2Function http://www.gene2function.org/search/ MARRVEL colabora com DIOPT e Gene2Function para fornecer o recurso "modelo de pesquisa de organismo". O hiperlink é fornecido para que os usuários acessem seu site que integra um número de bancos de dados de MO e os exibe em um estilo diferente de como o MARREL faz. PMID: 28663344
Genética humana Geno2MP http://geno2mp.gs.washington.edu/Geno2MP/ Geno2MP é uma coleção de amostras do centro da Universidade de Washington para a genética mendeliana. Ele contém ~ 9.650 exomas de indivíduos afetados e parentes não afetados. Este banco de dados vincula o fenotípico, bem como o modo de informações de herança para alelos específicos. Para o phenotype, comparando o sistema afetado do órgão do paciente do interesse aos indivíduos afetados em Geno2MP, um pode encontrar fósforos potenciais. Um fósforo no alelo, modalidade da herança, e o phenotype fornecem uma probabilidade aumentada que a variação patogénico provável. No entanto, devido ao pequeno tamanho amostral, uma associação negativa não diminui necessariamente a prioridade patogênica de uma variante. Um mecanismo para contatar o médico preliminar de um paciente do interesse é fornecido na fonte original. N/A
Genética humana gnomAD http://gnomad.broadinstitute.org/ gnomad contem um total de 123.136 seqüências do exoma e 15.496 seqüências do inteiro-genoma dos indivíduos não relacionados seqüenciados como parte de vários estudos genéticos doença-específicos e da população. Parte significativa dos dados ExAC é integrada no gnomAD. Em MARRVEL Nós exibimos atualmente as freqüências da população que pertence à variação específica. PMID: 27535533
Ontologia genética GO central http://www.geneontology.org/ MARRVEL exibe apenas os termos de ontologia genética (GO) (função molecular, componente celular e processo biológico) derivados de evidências experimentais para cada gene. Eles são filtrados por "códigos de evidências experimentais" e termos GO baseados em "códigos de evidência de análise computacional" e "códigos de evidência de anotação eletrônica" (previsões) são evitados. PMID: 10802651, 25428369
Expressão de gene/proteína humana GTEx https://gtexportal.org/home/ MARRVEL apresenta tanto o mRNA como o padrão de expressão protéica em tecidos humanos de cada gene. O teste padrão da expressão pode adicionar a introspecção nos fenótipos observados nos pacientes e/ou nos organismos modelo. PMID: 29019975, 23715323
Nomenclatura genética humana CURTOS https://www.genenames.org/ Os símbolos oficiais do gene de HGNC são usados para buscas de MARRVEL. PMID: 27799471
Bases de dados do organismo modelo primário IMPC (mouse) http://www.mousephenotype.org/ Marrvel fornece um hiperlink para corespondente páginas de genes do mouse no site do impc. Se houve um rato knock-out feito pelo IMPC, uma lista exaustiva dos ensaios e seus resultados são disponibilizados publicamente e podem fornecer a introspecção no phenotype quando um gene é perdido. Algumas informações são curadoria em MGI, mas talvez haja um atraso de tempo. PMID: 27626380
Bases de dados do organismo modelo primário MGI (mouse) http://www.informatics.jax.org/ MARRVEL coleta e exibe dados de vários bancos de dados de organismos modelo. Nós fornecemos um resumo da função molecular, celular e biológica do gene usando termos GO. O ortólogo mais provável é derivado por diopt. PMID: 25348401
Ferramentas de integração de banco de dados modelo organismo Iniciativa Monarch https://monarchinitiative.org/ MARRVEL fornece um link para o Phenogrid de um gene humano na iniciativa Monarch. Esta grade fornece comparações entre o phenotype de organismos modelo e de doenças humanas conhecidas. PMID: 27899636
Nomenclatura variante humana Mutalyzer https://mutalyzer.nl/ MARRVEL usa a API do Mutalyzer para converter diferentes nomenclaturas variantes para a localização genômica. PMID: 18000842
Genética humana OMIM https://omim.org/ As três principais peças de informação que extraem do OMIM são: função gênica, fenótipos associados e alelos relatados. É útil saber se um gene está associado a um fenótipo mendeliana conhecido (# entradas) cuja base molecular é conhecida. Os genes sem este conhecimento são candidatos para a descoberta nova do gene. Para os genes que são esta categoria, se o patient ' o phenotype de s não coincide com a doença e o phenotype relatados assim como aqueles dos pacientes na literatura, a seguir isto aumenta a oportunidade de fornecer uma expansão fenotípica para o gene do interesse. PMID: 28654725
Bases de dados do organismo modelo primário PomBase (levedura de fissão) https://www.pombase.org/ MARRVEL coleta e exibe dados de vários bancos de dados de organismos modelo. Nós fornecemos um resumo da função molecular, celular e biológica do gene usando termos GO. O ortólogo mais provável é derivado por diopt. PMID: 22039153
Literatura Pubmed https://www.ncbi.nlm.nih.gov/pubmed/ MARRVEL fornece uma hiperligação para a pesquisa PubMed baseada em "Gene". Clicar neste link permitirá que uma pesquisa de documentos biomédicos que se refere ao gene de interesse com base em nomes de genes anteriores e símbolos. N/A
Bases de dados do organismo modelo primário RGD (rato) https://rgd.mcw.edu/ MARRVEL coleta e exibe dados de vários bancos de dados de organismos modelo. Nós fornecemos um resumo da função molecular, celular e biológica do gene usando termos GO. O ortólogo mais provável é derivado por diopt. PMID: 25355511
Bases de dados do organismo modelo primário SGD (fermento de brotamento) https://www.yeastgenome.org/ MARRVEL coleta e exibe dados de vários bancos de dados de organismos modelo. Nós fornecemos um resumo da função molecular, celular e biológica do gene usando termos GO. O ortólogo mais provável é derivado por diopt. PMID: 22110037
Expressão de gene/proteína humana O Atlas da proteína humana https://www.proteinatlas.org/ MARRVEL apresenta tanto o mRNA como o padrão de expressão protéica em tecidos humanos de cada gene. O teste padrão da expressão pode adicionar a introspecção nos fenótipos observados nos pacientes e/ou nos organismos modelo. PMID: 21752111
Bases de dados do organismo modelo primário WormBase (C. elegans) http://wormbase.org MARRVEL coleta e exibe dados de vários bancos de dados de organismos modelo. Nós fornecemos um resumo da função molecular, celular e biológica do gene usando termos GO. O ortólogo mais provável é derivado por diopt. PMID: 26578572
Bases de dados do organismo modelo primário ZFIN (zebrafish) https://zfin.org/ MARRVEL coleta e exibe dados de vários bancos de dados de organismos modelo. Nós fornecemos um resumo da função molecular, celular e biológica do gene usando termos GO. O ortólogo mais provável é derivado por diopt. PMID: 26097180

Tabela 1. Lista de fontes de dados para MARRVEL. Todos os bancos de dados nos quais o MARRVEL Obtém informações estão listados nesta tabela. Para cada banco de dados, listamos o tipo de banco de dados, URL/link, justificativa para incluir no MARRVEL e referências primárias.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

As etapas críticas neste protocolo incluem a entrada inicial (etapas 1.1-1.3) e a interpretação subseqüente da saída. A razão mais comum por que os resultados da pesquisa são negativos é por causa das muitas maneiras que um gene e/ou variante pode ser descrita. Enquanto MARRVEL é atualizado em uma base agendada, essas atualizações podem causar desconexões entre os diferentes bancos de dados que MARRVEL links para. Assim, a primeira etapa na solução de problemas é invariavelmente verificando se nomes alternativos do gene ou variante conduzirão a um resultado de pesquisa bem-sucedido. Se ele ainda não pode ser resolvido, por favor, envie uma mensagem para a equipe de desenvolvimento usando o formulário de comentários em http://marrvel.org/message.

Uma limitação a MARRVEL é que ainda não inclui todas as bases de dados úteis necessárias para a análise do gene e da variante. Por exemplo, algoritmos de predição de patogenicidade como CADD18 não são fornecidos atualmente. Da mesma forma, informações de estrutura proteica e informações de interação proteína-proteína que também podem fornecer links estruturais e funcionais para variantes causadoras de doenças conhecidas em genes não são exibidas atualmente em MARRVEL. Em nossa próxima grande atualização, planejamos integrar essas informações no MARRVEL, além de incorporar informações mais fenotípicas de websites de organismos modelo, IMPC, iniciativa Monarch e Alliance of genoma Resources (AGR, https://www.alliancegenome.org/). Desde que MARRVEL foi projetado facilitar a pesquisa rara da doença, o programa centra-se atualmente em variações do germline e não fornece o acesso à informação variante somática. Não são integradas bases de dados relacionadas com a genética do cancro a partir da publicação deste protocolo. Como MARRVEL está ativamente sendo desenvolvido e atualizado, agradecemos muito feedback, e incentivar fortemente os usuários existentes para se inscrever para newsletters em http://marrvel.org/message para quaisquer futuras bases de dados adicionais que se tornam integrados.

Embora os dados de MARRVEL possam ser usados para priorizar variantes que podem ser patogênicas. No entanto, para demonstrar a patogenicidade, é necessário identificar outros pacientes com genótipos e fenótipos semelhantes ou realizar estudos funcionais para fornecer evidências sólidas de que a variante de interesse tem conseqüências funcionais que são relevantes para a condição da doença. Para obter mais informações sobre informações adicionais fora de MARRVEL que podem ser úteis para julgar se uma variante vale a pena investigar experimentalmente no organismo modelo, por favor, consulte o artigo de acompanhamento Harnish et al21. A fim de dar os próximos passos no uso de organismos modelo para estudar variantes humanas, geneticistas humanos e pesquisadores do organismo modelo devem ser capazes de se conectar e colaborar. GeneMatcher e outros consórcios genômico que fazem parte do consórcio Matchmaker Exchange são recursos que facilitam essa próxima etapa. Se os usuários residem em Canadá, um pode igualmente registrar na rede rara dos modelos e dos mecanismos da doença (RDMM, http://www.rare-diseases-catalyst-network.ca/) para identificar clínicos e/ou os investigadores modelo do organismo que estão dispostos colaborar39 . Japão (J-RDMM, https://irudbeyond.nig.ac.jp/en/index.html), Europa (RDMM-Europe, http://solve-rd.eu/rdmm-europe/) e Austrália (rede de genômica funcional australiana: https://www.functionalgenomics.org.au/) adotaram recentemente a Modelo canadense de RDMM para facilitar colaborações semelhantes dentro de seus países/regiões. Além disso, usando ferramentas como a BioLitMine (https://www.flyrnai.org/tools/biolitmine/web/) pode-se procurar colaboradores potenciais entre os investigadores principais que trabalharam previamente no gene do interesse.

Por último, além de MARRVEL, há uma série de outras ferramentas de mineração de dados entre espécies disponíveis, incluindo Gene2Function40 (http://www.gene2function.org/), Monarch Initiative29 (https://monarchinitiative.org/) e Alliance of Recursos do genoma (AGR, https://www.alliancegenome.org/). Enquanto Gene2Function fornece acesso a dados de espécies cruzadas e Monarch Initiative fornece comparações fenotípicas, MARRVEL tem uma ênfase maior em variantes humanas e ligando dados genóricos humanos com organismos modelo. A AGR é uma iniciativa que envolve seis bases de dados de organismos modelo e o consórcio de ontologia genética que integra dados de diferentes bases de dados de forma uniforme para aumentar a acessibilidade dos dados acumulados por cada base de dados. Estes recursos são complementares, e os usuários devem entender os pontos fortes de cada banco de dados para navegar a vasta quantidade de conhecimento que tem sido acumulada por pesquisadores nas comunidades. Como o desenvolvimento de MARRVEL continua, planejamos incluir mais bancos de dados que são relevantes para o estudo de variantes humanas em organismos modelo. O objetivo geral de MARRVEL é fornecer uma maneira facilmente acessível para que os clínicos e os investigadores igualmente analisem genes e variants humanos para um estudo mais adicional integrando a informação útil ao manter a relação tão simples como nós podemos.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Os autores não têm nada a revelar.

Acknowledgments

Agradecemos a Drs. Rami Al-Ouran, Seon-Young Kim, Yanhui (Claire) Hu, Ying-Wooi Wan, Naveen Manoharan, Sasidhar Pasupuleti, Aram Comjean, Dongxue Mao, Michael Wangler, Hsiao-Tuan Chao, Stephanie Mohr, e Norbert Perrimon por seu apoio no desenvolvimento e manutenção de MARRVEL. Agradecemos a Samantha L. Deal e J. Michael Harnish por sua contribuição neste manuscrito.

O desenvolvimento inicial de MARRVEL foi apoiado em parte pelo centro de triagem de organismos de rede de doenças não diagnosticadas por meio do NIH Commonfund (U54NS093793) e pelo escritório de programas de infraestrutura de pesquisa (ORIP) da NIH (R24OD022005). JW é apoiado pelo NIH Eunice Kennedy Shriver Instituto Nacional de saúde da criança & desenvolvimento humano (F30HD094503) e o Robert e Janice McNair Fundação McNair MD/doutorado estudante acadêmico programa na BCM. HJB é apoiado ainda pelo NIH National Institute of General Medical Sciences (R01GM067858) e é um investigador do Howard Hughes Medical Institute. ZL é apoiado pelo NIH National Institute of General Medical Science (R01GM120033), Instituto Nacional de envelhecimento (R01AG057339), e da Fundação Huffington. SY recebeu apoio adicional do Instituto Nacional NIH sobre surdez e outros distúrbios da comunicação (R01DC014932), a Fundação Simons (SFARI Award: 368479), a associação de Alzheimer (novo investigador Research Grant: 15-364099), família naman Fundo para a pesquisa básica e o fundo da lei de Caroline Wiess para a pesquisa na medicina molecular.

Materials

Name Company Catalog Number Comments
Human Genetics ClinVar PMID: 29165669 https://www.ncbi.nlm.nih.gov/clinvar/
Human Genetics DECIPHER PMID: 19344873  https://decipher.sanger.ac.uk/
Human Genetics DGV PMID: 24174537 http://dgv.tcag.ca/dgv/app/home
Orthology Prediction DIOPT PMID: 21880147  https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl
Human Gene/Transcript Nomenclature Ensembl PMID: 29155950  https://useast.ensembl.org/
Human Genetics ExAC  PMID: 27535533 http://exac.broadinstitute.org/
Primary Model Organism Databases FlyBase (Drosophila) PMID:26467478 http://flybase.org
Model Organism Database Integration Tools Gene2Function PMID: 28663344 http://www.gene2function.org/search/
Human Genetics Geno2MP N/A http://geno2mp.gs.washington.edu/Geno2MP/
Human Genetics gnomAD PMID: 27535533 http://gnomad.broadinstitute.org/
Gene Ontology GO Central PMID: 10802651, 25428369  http://www.geneontology.org/
Human Gene/Protein Expression GTEx PMID: 29019975, 23715323  https://gtexportal.org/home/
Human Gene Nomenclature HGNC PMID: 27799471  https://www.genenames.org/
Primary Model Organism Databases IMPC (mouse) PMID: 27626380 http://www.mousephenotype.org/
Primary Model Organism Databases MGI (mouse) PMID:25348401 http://www.informatics.jax.org/
Model Organism Database Integration Tools Monarch Initiative PMID: 27899636 https://monarchinitiative.org/
Human Variant Nomenclature Mutalyzer PMID: 18000842  https://mutalyzer.nl/
Human Genetics OMIM PMID: 28654725 https://omim.org/
Primary Model Organism Databases PomBase (fission yeast) PMID:22039153 https://www.pombase.org/
Literature PubMed N/A https://www.ncbi.nlm.nih.gov/pubmed/
Primary Model Organism Databases RGD (rat) PMID:25355511 https://rgd.mcw.edu/
Primary Model Organism Databases SGD (budding yeast) PMID: 22110037 https://www.yeastgenome.org/
Human Gene/Protein Expression The Human Protein Atlas PMID: 21752111 https://www.proteinatlas.org/
Primary Model Organism Databases WormBase (C. elegans) PMID:26578572 http://wormbase.org
Primary Model Organism Databases ZFIN (zebrafish) PMID:26097180 https://zfin.org/

DOWNLOAD MATERIALS LIST

References

  1. Yang, Y., et al. Clinical whole-exome sequencing for the diagnosis of mendelian disorders. New England Journal of Medicine. 369 (16), 1502-1511 (2013).
  2. Richards, S., et al. Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology. Genetics in Medicine. 17 (5), 405-424 (2015).
  3. MacArthur, D. G., et al. Guidelines for investigating causality of sequence variants in human disease. Nature. 508 (7497), 469-476 (2014).
  4. Wang, J., et al. MARRVEL: Integration of Human and Model Organism Genetic Resources to Facilitate Functional Annotation of the Human Genome. American Journal of Human Genetics. 100 (6), 843-853 (2017).
  5. Povey, S., et al. The HUGO Gene Nomenclature Committee (HGNC). Human Genetics. 109 (6), 678-680 (2001).
  6. Lek, M., et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. 536 (7616), 285-291 (2016).
  7. Wildeman, M., van Ophuizen, E., den Dunnen, J. T., Taschner, P. E. Improving sequence variant descriptions in mutation databases and literature using the Mutalyzer sequence variation nomenclature checker. Human Mutation. 29 (1), 6-13 (2008).
  8. Zhou, W., et al. TransVar: a multilevel variant annotator for precision genomics. Nature Methods. 12 (11), 1002-1003 (2015).
  9. Hu, Y., et al. An integrative approach to ortholog prediction for disease-focused and other functional studies. BMC Bioinformatics. 12, 357 (2011).
  10. Amberger, J. S., Hamosh, A. Searching Online Mendelian Inheritance in Man (OMIM): A Knowledgebase of Human Genes and Genetic Phenotypes. Current Protocols in Bioinformatics. 58, 1 (2017).
  11. Amberger, J. S., Bocchini, C. A., Scott, A. F., Hamosh, A. OMIM.org: leveraging knowledge across phenotype-gene relationships. Nucleic Acids Research. 47, 1038-1043 (2019).
  12. Liu, N., et al. Functional variants in TBX2 are associated with a syndromic cardiovascular and skeletal developmental disorder. Human Molecular Genetics. 27 (14), 2454-2465 (2018).
  13. Ropers, H. H., Wienker, T. Penetrance of pathogenic mutations in haploinsufficient genes for intellectual disability and related disorders. European Journal of Medical Genetics. 58 (12), 715-718 (2015).
  14. Shashi, V., et al. De Novo Truncating Variants in ASXL2 Are Associated with a Unique and Recognizable Clinical Phenotype. American Journal of Human Genetics. 100 (1), 179 (2017).
  15. Chen, R., et al. Analysis of 589,306 genomes identifies individuals resilient to severe Mendelian childhood diseases. Nature Biotechnology. 34 (5), 531-538 (2016).
  16. Halvorsen, M., et al. Mosaic mutations in early-onset genetic diseases. Genetics in Medicine. 18 (7), 746-749 (2016).
  17. Kohler, S., et al. The Human Phenotype Ontology in 2017. Nucleic Acids Research. 45 (1), 865-876 (2017).
  18. Rentzsch, P., Witten, D., Cooper, G. M., Shendure, J., Kircher, M. CADD: predicting the deleteriousness of variants throughout the human genome. Nucleic Acids Research. 47 (1), 886-894 (2019).
  19. Sobreira, N., Schiettecatte, F., Valle, D., Hamosh, A. GeneMatcher: a matching tool for connecting investigators with an interest in the same gene. Human Mutation. 36 (10), 928-930 (2015).
  20. Sobreira, N. L. M., et al. Matchmaker Exchange. Current Protocols in Human Genetics. 95 (9), 31-39 (2017).
  21. Harnish, M., Deal, S., Wangler, M., Yamamoto, S. In vivo functional study of disease-associated rare human variants using Drosophila. Journal of Visualized Experiments. , (2019).
  22. Harrison, S. M., et al. Using ClinVar as a Resource to Support Variant Interpretation. Current Protocols in Human Genetics. 89, 11-18 (2016).
  23. MacDonald, J. R., Ziman, R., Yuen, R. K., Feuk, L., Scherer, S. W. The Database of Genomic Variants: a curated collection of structural variation in the human genome. Nucleic Acids Research. 42, Database issue 986-992 (2014).
  24. Firth, H. V., et al. DECIPHER: Database of Chromosomal Imbalance and Phenotype in Humans Using Ensembl Resources. American Journal of Human Genetics. 84 (4), 524-533 (2009).
  25. Thurmond, J., et al. FlyBase 2.0: the next generation. Nucleic Acids Research. 47, 759-765 (2019).
  26. Consortium, G. T. Human genomics. The Genotype-Tissue Expression (GTEx) pilot analysis: multitissue gene regulation in humans. Science. 348 (6235), 648-660 (2015).
  27. Ponten, F., Jirstrom, K., Uhlen, M. The Human Protein Atlas--a tool for pathology. Journal of Pathology. 216 (4), 387-393 (2008).
  28. The Gene Ontology, C. The Gene Ontology Resource: 20 years and still GOing strong. Nucleic Acids Research. , (2018).
  29. Mungall, C. J., et al. The Monarch Initiative: an integrative data and analytic platform connecting phenotypes to genotypes across species. Nucleic Acids Research. 45 (1), 712-722 (2017).
  30. Meehan, T. F., et al. Disease model discovery from 3,328 gene knockouts by The International Mouse Phenotyping Consortium. Nature Genetics. 49 (8), 1231-1238 (2017).
  31. Katoh, K., Rozewicki, J., Yamada, K. D. MAFFT online service: multiple sequence alignment, interactive sequence choice and visualization. Brief Bioinform. , (2017).
  32. Sievers, F., Higgins, D. G. Clustal Omega for making accurate alignments of many protein sequences. Protein Science. 27 (1), 135-145 (2018).
  33. Yoon, W. H., et al. Loss of Nardilysin, a Mitochondrial Co-chaperone for alpha-Ketoglutarate Dehydrogenase, Promotes mTORC1 Activation and Neurodegeneration. Neuron. 93 (1), 115-131 (2017).
  34. Deal, S., Yamamoto, S. Unraveling novel mechanisms of neurodegeneration through a large-scale forward genetic screen in Drosophila. Frontiers in Genetics. 9, (2019).
  35. Matamoros, A. J., Baas, P. W. Microtubules in health and degenerative disease of the nervous system. Brain Research Bulletin. 126, Pt 3 217-225 (2016).
  36. Theodosiou, A., Arhondakis, S., Baumann, M., Kossida, S. Evolutionary scenarios of Notch proteins. Molecular Biology and Evolution. 26 (7), 1631-1640 (2009).
  37. Shayevitz, C., Cohen, O. S., Faraone, S. V., Glatt, S. J. A re-review of the association between the NOTCH4 locus and schizophrenia. American Journal of Medical Genetics. Part B: Neuropsychiatric Genetics. 159 (5), 477-483 (2012).
  38. Wang, Z., et al. A review and re-evaluation of an association between the NOTCH4 locus and schizophrenia. American Journal of Medical Genetics. Part B: Neuropsychiatric Genetics. 141 (8), 902-906 (2006).
  39. Oriel, C., Lasko, P. Recent Developments in Using Drosophila as a Model for Human Genetic Disease. International Journal of Molecular Sciences. 19 (7), (2018).
  40. Hu, Y., Comjean, A., Mohr, S. E., FlyBase, C., Perrimon, N. Gene2Function: An Integrated Online Resource for Gene Function Discovery. G3. 7 (8), Bethesda. 2855-2858 (2017).

Tags

Genética edição 150 genômica humana priorização de variantes organismos modelo genética doenças raras e não diagnosticadas genômica funcional integração de banco de dados pesquisa translacional diagnóstico médico variante de significância desconhecida Gene de significado incerto ferramenta baseada na Web
Navegando MARRVEL, uma ferramenta baseada na Web que integra genômica humana e modelo organismo genética informações
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Wang, J., Liu, Z., Bellen, H. J.,More

Wang, J., Liu, Z., Bellen, H. J., Yamamoto, S. Navigating MARRVEL, a Web-Based Tool that Integrates Human Genomics and Model Organism Genetics Information. J. Vis. Exp. (150), e59542, doi:10.3791/59542 (2019).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter