Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Navegando por MARRVEL, una herramienta basada en la Web que integra la genómica humana y la información genética de organismos modelo

Published: August 15, 2019 doi: 10.3791/59542

Summary

Aquí, presentamos un protocolo para acceder y analizar muchas bases de datos de organismos humanos y modelo de manera eficiente. Este protocolo demuestra el uso de MARRVEL para analizar las variantes que causan la enfermedad candidata identificadas a partir de los esfuerzos de secuenciación de próxima generación.

Abstract

A través de la secuenciación de todo el exoma/genoma, los genetistas humanos identifican variantes raras que se separan con fenotipos de enfermedad. Para evaluar si una variante específica es patógena, se deben consultar muchas bases de datos para determinar si el gen de interés está vinculado a una enfermedad genética, si la variante específica se ha notificado antes y qué datos funcionales están disponibles en el organismo modelo bases de datos que pueden proporcionar pistas sobre la función del gen en el ser humano. MARRVEL (Modelo de organismo Recursos Agregados para La Explosión de Variantes Raras) es una herramienta integral de recopilación de datos para genes y variantes humanas y sus genes ortográficos en siete organismos modelo, incluyendo en ratón, rata, pez cebra, mosca de la fruta, gusano nematodos, fisión levadura, y levadura en ciernes. En este Protocolo, proporcionamos una visión general de para qué se puede utilizar MARRVEL y analizamos cómo se pueden utilizar diferentes conjuntos de datos para evaluar si una variante de significación desconocida (VUS) en un gen conocido causante de enfermedades o una variante en un gen de importancia incierta (GUS) puede ser Patógenos. Este protocolo guiará a un usuario a través de la búsqueda de múltiples bases de datos humanas simultáneamente a partir de un gen humano con o sin una variante de interés. También analizamos cómo utilizar datos de OMIM, ExAC/gnomAD, ClinVar, Geno2MP, DGV y DECHIPHER. Además, ilustramos cómo interpretar una lista de genes candidatos a ortología, patrones de expresión y términos GO en organismos modelo asociados a cada gen humano. Además, analizamos las anotaciones de dominio estructural de proteínas de valor proporcionadas y explicamos cómo utilizar la función de alineación de proteínas de múltiples especies para evaluar si una variante de interés afecta a un dominio o aminoácido evolutivamente conservado. Por último, discutiremos tres casos de uso diferentes de este sitio web. MARRVEL es un sitio web de acceso abierto de fácil acceso diseñado para investigadores clínicos y básicos y sirve como punto de partida para diseñar experimentos para estudios funcionales.

Introduction

El uso de la tecnología de secuenciación de próxima generación se está expandiendo tanto en la investigación como en los laboratorios genéticos clínicos1. Los análisis de secuenciación de todo el exómico (WES) y del genoma completo (WGS) revelan numerosas variantes raras de importancia desconocida (VUS) en genes conocidos que causan enfermedades, así como variantes en genes que aún no están asociados con una enfermedad mendeliana (GUS: genes de incierto importancia). Presentado con una lista de genes y variantes en un informe de secuencia clínica, los genetistas médicos deben visitar manualmente múltiples recursos en línea para obtener más información para evaluar qué variante puede ser responsable de un determinado fenotipo observado en el paciente de interés . Este proceso requiere mucho tiempo, y su eficacia depende en gran medida de la experiencia del individuo. Aunque se han publicado variosdocumentos orientativos 2,3, la interpretación de WES y WGS requiere una curación manual, ya que todavía no hay una metodología estandarizada para el análisis de variantes. Para la interpretación de VUS, el conocimiento sobre la relación genotipo-fenotipo previamente reportada, el modo de herencia y las frecuencias de alelo en la población general se vuelven valiosos. Además, el conocimiento sobre si la variante afecta a un dominio de proteína crítico, o un residuo evolutivamente conservado puede aumentar o disminuir la probabilidad de patogenicidad. Para recopilar toda esta información, normalmente se necesita navegar a través de 10-20 bases de datos de organismos humanos y modelo, ya que la información está dispersa a través de la World Wide Web.

Del mismo modo, los científicos de organismos modelo que trabajan en genes y vías específicas a menudo están interesados en conectar sus hallazgos con los mecanismos de enfermedades humanas y desean aprovechar el conocimiento que se está generando en el campo de la genómica humana. Sin embargo, debido a la rápida expansión y evolución de los conjuntos de datos relacionados con el genoma humano, ha sido difícil identificar bases de datos que proporcionen información útil. Además, dado que la mayoría de las bases de datos de organismos modelo están diseñadas para investigadores que trabajan con el organismo específico a diario, es muy difícil, por ejemplo, que un investigador de ratones busque información específica en una base de datos Drosophila y viceversa. Similar a las búsquedas de interpretación de variantes realizadas por genetistas médicos, la identificación de información útil del cuerpo humano y otros organismos modelo es lenta y depende en gran medida del trasfondo del investigador del organismo modelo. MARRVEL (Modelo de organismo Recursos Agregados para La Explosión de Variantes Raras)4 es una herramienta diseñada para que ambos grupos de usuarios agilicen su flujo de trabajo.

MARRVEL (http://marrvel.org) fue diseñado como un motor de búsqueda centralizado que recopila datos sistemáticamente de manera eficiente y consistente para médicos e investigadores. Con información de 20 o más bases de datos disponibles públicamente, este programa permite a los usuarios recopilar rápidamente información y acceder a un gran número de bases de datos de organismos humanos y modelos sin búsquedas reiterativas. Las páginas de resultados de búsqueda también contienen hipervínculos a las fuentes originales de información, lo que permite a los individuos acceder a los datos sin procesar y recopilar información adicional proporcionada por las fuentes.

A diferencia de muchas de las herramientas de priorización de variantes que requieren una gran secuenciación de datos en forma de archivos VCF o BAM e instalaciones de software a menudo propietario/comercial, MARRVEL opera en cualquier navegador web. Se puede utilizar sin costo y compatible con dispositivos portátiles (por ejemplo, teléfonos inteligentes, tabletas) siempre y cuando uno esté conectado a Internet. Elegimos este formato ya que muchos médicos e investigadores normalmente necesitan buscar uno o algunos genes y variantes a la vez. Tenga en cuenta que estamos desarrollando características de descarga por lotes y API (interfaz de programación de aplicaciones) para QUE MARRVEL eventualmente permita a los usuarios seleccionar cientos de genes y variantes a la vez a través de herramientas de consulta personalizadas si es necesario.

Debido a la amplia gama de aplicaciones, en este protocolo, describiremos un enfoque ampliamente amplio sobre cómo navegar a través de diferentes conjuntos de datos que MARRVEL muestra. En la sección Resultados representativos se describirán ejemplos más específicos que se adapten a las necesidades específicas de los usuarios. Es importante señalar que la producción de MARRVEL todavía requiere un cierto nivel de conocimiento de fondo en genética humana o organismos modelo para extraer información valiosa. Remitimos a los lectores a la tabla que enumera los documentos principales que describen la función de cada una de las bases de datos originales que son seleccionadas por MARRVEL (Tabla 1). El siguiente protocolo se divide en tres secciones: (1) Cómo iniciar una búsqueda, (2) cómo interpretar los resultados de genética humana MARRVEL, y (3) cómo hacer uso de los datos del organismo modelo en MARRVEL. En la sección Resultados del Representante, se describen enfoques más centrados y específicos. MARRVEL se está actualizando activamente, así que consulte la página de preguntas frecuentes del sitio web actual para obtener más información sobre las fuentes de datos. Recomendamos encarecidamente a los usuarios de MARRVEL que se registren para recibir notificaciones de actualización a través del formulario de envío de correo electrónico en la parte inferior de la página de inicio de MARRVEL.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Cómo comenzar una búsqueda

  1. Para la búsqueda basada en variantes y genes humanos, vaya a los pasos 1.1.1.-1.1.2. Para la búsqueda basada en genes humanos (sin entrada de variantes), vaya al paso 1.2. Para la búsqueda basada en genes del organismo modelo, consulte los pasos 1.3.1.-1.3.2.
    1. Vaya a la página de inicio de MARRVEL4 en http://marrvel.org/. Comience por entrar en un símbolo de gen humano. Asegúrese de que los nombres de los genes candidatos se enumeran debajo del cuadro de entrada con cada entrada de carácter. Si la búsqueda vuelve negativa, asegúrese de que el símbolo genético utilizado esté actualizado utilizando el sitio web del Comité de Nomenclatura Genética de HUGO5 (HGNC; https://www.genenames.org/).
    2. Introduzca una variante humana. La barra de búsqueda es compatible con dos tipos de nomenclatura variante: ubicación del genoma similar a cómo se muestran las variantes en ExAC y GnomAD6 y nomenclatura basada en transcripción de acuerdo con las directrices de HGVS. Ejemplos de estos formatos se muestran en texto gris dentro del cuadro de búsqueda. Para la nomenclatura de ubicación genómica, utilice las coordenadas según hg19/GRCh37. Proceda al paso 2.
      NOTA: Si una búsqueda devuelve un error, los problemas más comunes son que el símbolo del gen no está actualizado o la nomenclatura de variantes es incorrecta. En esos casos, los sitios web HGNC (https://www.genenames.org/), Mutalyzer7 (https://www.mutalyzer.nl/) y TransVar8 (https://bioinformatics.mdanderson.org/transvar/) son excelentes recursos para corregir el error. HGNC proporciona símbolos genéticos oficiales y sus alias para todos los genes humanos.
    3. Si sigue apareciendo mensajes de error después de confirmar que el nombre del gen está actualizado, utilice Mutalyzer y TransVar para comprobar y convertir la nomenclatura de variantes.
    4. En algunas situaciones, como un cambio de símbolo genético muy reciente en HGNC, intente usar un sinónimo de gen y póngase en contacto con el equipo operativo de MARRVEL utilizando la pestaña "Comentarios" para actualizar los datos de origen, ya que MARRVEL puede no proporcionar la información correcta debido a un retraso en los datos Fecha.
  2. Introduzca un símbolo de gen humano y deje la barra de búsqueda de variantes humanas en blanco. Si se encuentra un error, vaya a HGNC (https://www.genenames.org/) para comprobar si hay el símbolo del gen oficial o pruebe un símbolo genético más antiguo.
    1. Haga clic en la pestaña Búsqueda de organismos modelo en el banner superior (Figura1) o vaya a http://marrvel.org/model. Seleccione el organismo modelo de su elección e introduzca un símbolo del gen del organismo modelo. Haga clic en el símbolo del gen ya que el nombre se ha completado automáticamente y, a continuación, haga clic en Buscar. Si el resultado de la búsqueda es negativo, compruebe el símbolo genético oficial que se utiliza en las bases de datos de organismos modelo (Tabla 1).
    2. Si el resultado de la búsqueda sigue siendo negativo, acceda a DIOPT (DRSC Integrative Ortholog Prediction Tool, https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl) y HCOP (https://www.genenames.org/tools/hcop/) para evaluar si no hay buenos ortologs predichos para el gen del interés. DIOPT es un motor de búsqueda de predicción ortolog dirigido por la DRSC (Drosophila RNAi Screening Center) y HCOP es una suite similar desarrollada por HGNC.
      NOTA: Las búsquedas adicionales con BLAST (https://blast.ncbi.nlm.nih.gov/Blast.cgi) pueden permitir a los usuarios encontrar ortologs que pueden perderse por los algoritmos de predicción utilizados en DIOPT y HCOP.
    3. Haga clic en el MARRVEL en la parte inferior para el ortolog humano predicho de elección. Compruebe la puntuación DIOPT9 y la mejor puntuación del gen humano al organismo modelo? para la selección del gen humano. Continúe con el paso 2.
      NOTA: La puntuación DIOPT9 (https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl) es un valor de cuántos algoritmos de predicción de ortología predicen que un par de genes en dos organismos son ortologos entre sí. Para obtener más información sobre estos valores y los algoritmos específicos utilizados para calcular esta puntuación, consulte Hu et al9. Cuando la mejor puntuación del gen humano al organismo modelo? es Sí,indica que el gen humano es más probable que sea un verdadero ortologs humanos del gen de interés, pero podría haber excepciones, especialmente cuando múltiples genes humanos son ortologos múltiples genes del organismo modelo debido a eventos de duplicación de genes durante la evolución. Si el gen de interés es un miembro de una familia de genes complejos que han experimentado una evolución divergente en múltiples especies, los usuarios deben identificar una publicación que haya realizado un análisis filogenético extensivo de la familia genética de interés para identificar la gen candidato a ortología probable.

2. Cómo interpretar los resultados de genética humana MARRVEL para una búsqueda de genes y variantes

NOTA: En la página de resultados, se muestran siete bases de datos humanas (Tabla1, Figura 1). Para cada cuadro de salida, hay un botón de enlace externo (cuadropequeño con una flechadiagonal) en la esquina superior derecha que se vinculará a la base de datos original para obtener más detalles.

  1. Haga clic en OMIM (Online Mendelian Inheritance in Man, https://www.omim.org/)10, la primera base de datos que se muestra.
    NOTA: OMIM es una base de datos seleccionada manualmente que agrega y resume información sobre enfermedades genéticas y rasgos en humanos.
    1. Utilice el cuadro Descripción del gen humano de OMIM para obtener un breve resumen de lo que se sabe sobre el gen y el producto genético.
    2. Utilice la caja Relaciones entre genytipo para determinar si este gen es un gen conocido que causa enfermedades o no. Esta caja proporciona asociaciones de enfermedades conocidas o fenotipos seleccionadas manualmente con el gen de interés.
    3. Utilice el cuadro Alelos reportados de OMIM para obtener una lista de variantes patógenas seleccionadas por OMIM.
      NOTA: Dado que la curación manual de una publicación relativa al descubrimiento de genes de una nueva enfermedad es necesaria para que cualquier asociación de enfermedades genéticas aparezca en la OMIM, algún retraso de tiempo y/o publicaciones perdidas pueden dar lugar a una idea errónea. Se recomienda que los usuarios realicen búsquedas PubMed (https://www.ncbi.nlm.nih.gov/pubmed/) para examinar la literatura reciente también (Ver 4.1.2.). Para obtener más información seleccionada en OMIM, consulte Amberger10,11.
  2. Haga clicExAC(Exome Aggregation Consortium, http://exac.broadinstitute.org/)6y gnomAD(Base de datos de agregación del genoma, http://gnomad.broadinstitute.org/), grandes bases de datos de genómica de la población basadas en el SAVE y el WGS de personas seleccionadas para excluir enfermedades pediátricas graves.
    NOTA: ExAC contiene 60.000 WES, mientras que gnomAD contiene 120.000 WES y 15.000 WGS. ExAC y gnomAD se pueden utilizar como una base de datos de población de control, especialmente para trastornos pediátricos graves, pero su interpretación requiere cierto grado de precaución. En general, gnomAD se puede considerar como una versión actualizada y ampliada de ExAC ya que la mayoría de las cohortes que se incluyen en ExAC también se incluyen en gnomAD. Sin embargo, dado que hay algunas excepciones (véase la información de la cohorte en http://exac.broadinstitute.org/about y http://gnomad.broadinstitute.org/about, respectivamente), MARRVEL muestra los datos de ambas fuentes.
    1. Utilice el cuadro Resumen del gen de la población de control para obtener estadísticas a nivel de genes, como la probabilidad de encontrar los alelos de pérdida de función (LOF) en la población general. Esto se denomina puntuación pLI (probabilidad de intolerancia LOF) en ExAC y se puede utilizar para inferir la probabilidad de que una sola copia de un alelo LOF para un gen específico pueda causar una enfermedad dominante a través de mecanismos de haplo-insuficientes.
      NOTA: Observar la puntuación pLI de un gen tiene valor, especialmente cuando se trata de trastornos dominantes que se presentan como enfermedades pediátricas graves asociadas con variantes de novo. Si un gen tiene una puntuación pLI de 0,00, significa que es altamente tolerante a las variantes LOF por lo tanto, el gen improbable causa enfermedad a través de un mecanismo dominante de haploinsuficiencia. Sin embargo, esto no excluye necesariamente otra ganancia dominante de la función (GOF) o los mecanismos mediados negativos dominantes pueden causar enfermedades. Además, los genes que causan las enfermedades recesivas pueden tener puntuaciones bajas de pLI, ya que se espera que las carreras se encuentren en la población general. Por otro lado, si un gen tiene una puntuación pLI de 1,00, es posible que la pérdida de una copia de este gen sea perjudicial para la salud humana. También se pueden utilizar búsquedas adicionales en sitios web como DOMINO (https://wwwfbm.unil.ch/domino/) en combinación para evaluar la probabilidad de una variante en un gen específico que causa un trastorno dominante.
    2. Utilice las dos cajas siguientes para obtener las frecuencias de alelos de la variante de interés en ExAC y gnomAD, respectivamente para ayudar a interpretar si la variante puede ser patógena dependiendo de si el paciente tiene la enfermedad dominante o recesiva. Este cuadro solo se mostrará cuando el usuario ingrese información de variantes al iniciar la búsqueda.
      NOTA: Si se presume un escenario de enfermedad recesiva y la puntuación pLI del gen de interés es baja, se debe prestar atención a la frecuencia de aleela que se indica aquí. Algunos genetistas pueden establecer un punto de corte de 0.005 a 0.0001 como la frecuencia máxima de alelo para variantes patógenas que pueden causar una enfermedad hereditaria recesiva grave2. Por otro lado, si se hipoteta un escenario de enfermedad dominante, es menos probable que encuentre la variante idéntica o similar en una población de control. Una vez más, esto requiere precaución porque las personas con trastornos de aparición tardía, enfermedades con presentación leve, trastornos psiquiátricos o enfermedades no examinadas por los investigadores ExAC / gnomAD pueden seguir siendo incluidos y la variante todavía puede ser un patógeno dominante Variante. Además, ha habido algunos casos de variantes vinculadas a condiciones pediátricas encontradas en algunos individuos en estas bases de datos12,13,14,potencialmente debido a la penetrancia incompleta o mosaico somático13 , 15 , 16. Además, aunque ExAC y gnomAD mostrarán variantes que se encuentran en un estado homocigoto, no indicará si alguna de las variantes se encuentra en un estado heterocigoto compuesto. Por último, algunas variantes que se encuentran en estas bases de datos se etiquetan como de baja confianza debido a los desafíos técnicos en la secuenciación (por ejemplo, baja cobertura de secuencia, secuencia repetitiva). Para examinar con más cuidado estos conjuntos de datos, se recomienda a los usuarios utilizar el botón de enlace externo para visitar los sitios web originales de ExAC y gnomAD para obtener información adicional.
  3. Haga clic en Geno2MP (Genotipo a Mendelian Phenotype Browser, http://geno2mp.gs.washington.edu/Geno2MP/), una colección de datos basados en WES del University of Washington Center for Mendelian Genetics. Contiene alrededor de 9.600 exomas (a partir del 1/18/2019) de individuos afectados y parientes no afectados con algunas descripciones fenotípicas (Figura1).
    1. Utilice el cuadro Población de enfermedades para obtener la frecuencia de alelos de la variante de interés en esta cohorte.
    2. Utilice el cuadro Relaciones entre gennotipos para obtener HPO (ontología de fenotipos humanos)17 términos para los individuos con la variante de interés. Esta es una de las muchas maneras para que uno busque pacientes que puedan tener la misma enfermedad.
      NOTA: Si se sospecha que un gen de interés está asociado con la enfermedad de un paciente y hay coincidencias encontradas en Geno2MP, es posible que haya información importante adicional en la fuente de datos más allá de lo que se muestra.
      1. Haga clic en el botón de enlace externo a la página específica del gen en Geno2MP, filtre las mutaciones similares a las del paciente (por ejemplo, missense, LOF) y revise cuidadosamente las listas de variantes. Tome nota de las variantes con altas puntuaciones CADD18 y haga clic en los perfiles HPO. Por ejemplo, las puntuaciones de CADD superiores a 20 están dentro del 1% superior de todas las variantes que se prevé que sean perjudiciales, las puntuaciones de CADD superiores a 10 están dentro del 10% superior. Los términos de HPO proporcionan una descripción estandarizada de los fenotipos humanos. Aquí, asegúrese de comprobar si la variante se identificó en un individuo afectado o en un pariente.
      2. Si se encuentran variantes en pacientes que se ven afectados en el mismo sistema de órganos que el paciente, considere el uso del formulario de correo electrónico para ponerse en contacto con el médico que envió estos casos a Geno2MP utilizando la función proporcionada en el sitio web de Geno2MP.
        NOTA: No todos los médicos responden a tales consultas, por lo que uno debe explorar otras vías de emparejamiento del paciente. Otras formas de reunir a una cohorte de pacientes afectados por las mismas enfermedades es utilizar herramientas como GeneMatcher19 (https://www.genematcher.org/) y otras bases de datos que forman parte de Matchmaker Exchange19,20 ( https://www.matchmakerexchange.org/). Consulte el artículo adjunto de JoVE para obtener más información sobre el emparejamiento21.
  4. Utilizar la base de datos ClinVar (https://www.ncbi.nlm.nih.gov/clinvar/)22, apoyada por los Institutos Nacionales de Salud (NIH), donde investigadores y médicos presentan variantes con o sin determinación de patogenicidad, para variantes de nucleótidos individuales (SNV), pequeños indels y mayores variaciones de número de copia (CNV).
    1. Utilice la fila superior para revisar un resumen del número de cada tipo de variantes notificadas en ClinVar (Figura 1).
    2. Compruebe la lista de variantes a continuación en la casilla Alelos reportados de ClinVar.
      NOTA: Si se incluyó una variante en la búsqueda inicial, las variantes resaltadas en el azulado son todas variantes que incluyen la ubicación genómica de la variante de interés [incluidos los CNV grandes, que a menudo se etiquetan como; coordenada genómica... x1 (eliminación) y ... x3 (duplicación)].
  5. Utilice DGV23 (Base de datos de variantes genómicas, http://dgv.tcag.ca/dgv/app/home) y DECIPHER24 (DatabasE de genomiCina y Fenotipo en humanos utilizando Ensembl Resources, https://decipher.sanger.ac.uk/), ambos DGV es la mayor colección de acceso público de variantes estructurales de más de 54.000 individuos. Esta base de datos incluye muestras de individuos sanos, en el momento de la determinación, de hasta 72 estudios diferentes. Del mismo modo, los datos mostrados desde DECIPHER incluyen variantes comunes de la población de control.
    NOTA: Dado que MARRVEL no tiene permiso para mostrar los datos derivados del paciente de DECIPHIER, se recomienda a los usuarios que visiten directamente el sitio web de DECIPHER para acceder a información de CNV potencialmente patógena.
    1. Haga clic en el cuadro Copiar variación de número en la población de control (base de datos DGV) para obtener variantes que contengan el gen de interés. La información como el tamaño, el subtipo y la referencia de la variación del número de copia se pueden encontrar en el mismo cuadro.
    2. Haga clic en el cuadro Variantes de número de copia común (base de datos DECIPHER) para obtener variantes que contengan la ubicación genómica de la variante de interés. Esta información puede ayudar a determinar si el gen se duplica o se elimina en las personas de control.
      NOTA: Si el gen de interés se elimina en muchos individuos de la población de control, significa que es probable que este gen sea altamente tolerante con las variantes LOF. Al igual que las puntuaciones bajas de pLI, esto sugiere que una sola copia de este gen es menos probable que cause una enfermedad grave a través de un mecanismo de haploinsuficiencia. Sin embargo, esto no descarta necesariamente otra ganancia dominante de la función o los mecanismos negativos dominantes (por ejemplo, alelos antimórficos, hipermórficos y neomórficos) causados por alelos específicos de mal sentido y truncamiento.  Las posibles limitaciones a estos datos incluyen la variación en la fuente y el método de los datos adquiridos, la falta de información sobre la penetración incompleta de los CNV patógenos y si las personas desarrollaron ciertas enfermedades posteriores a la recopilación de datos.

3. Cómo utilizar los datos del organismo modelo en MARRVEL

  1. Utilice la tabla de funciones genéticas para obtener la siguiente información para ocho organismos modelo, incluidos humanos (humanos, ratas, ratones, peces cebra, Drosophila, C elegans,levadura en ciernes y levadura de fesión):
    1. Nombre genético: Dado que cada nombre genético está enlazado a páginas genéticas en las respectivas bases de datos de organismos modelo, haga clic en estos enlaces para obtener más información sobre la información fenotípica y los recursos disponibles para cada organismo modelo. Por ejemplo en FlyBase25 (http://flybase.org/), habrá una lista de todos los alelos que se han generado, sus respectivos fenotipos y la disponibilidad de cada alelo de los centros de stock públicos.
    2. Enlace PubMed: Haga clic en el enlace PubMed para ir a una lista de publicaciones relacionadas con el gen de interés en cada organismo. Sin usar estos enlaces, la búsqueda del gen humano directamente en PubMed puede llevar a la falta de algunas publicaciones que utilizaron un alias genético antiguo para referirse al gen humano. Del mismo modo, los nombres de genes de organismos modelo pueden haber fluctuado históricamente.
    3. DIOPT Puntuación 9: Compruebe esta columna para obtener una puntuación de cuántos algoritmos de predicción de ortología predicen que es probable que el gen sea un ortolog del gen humano de interés. Uno puede utilizar una puntuación DIOPT de 3 o superior como un corte razonable para identificar candidatos ortologólogos sólidos. Sin embargo, hay casos en los que los ortologs genuinos sólo tienen una puntuación DIOPT de 1 debido a la homología limitada. En la parte superior de la tabla de funciones genéticas, desactive la casilla "Mostrar solo el mejor gen de puntuación DIOPT" para mostrar todos los candidatos que normalmente incluyen genes homólogos que no son necesariamente ortologos.
    4. Expresión: Compruebe esta columna para ver la lista de los tejidos en los que se ha notificado que el gen o la proteína de interés se expresan en bases de datos de organismos humanos o modelo. Los datos de expresión de genes y proteínas humanas provienen de GTEx26 (https://gtexportal.org/) y Atlas de proteínas humanas27 (https://www.proteinatlas.org/), respectivamente. Algunos tienen un botón con enlaces emergentes, como para humanos y para moscas que muestran el patrón de expresión mediante un mapa de calor, mientras que otros están enlazados a las respectivas páginas de bases de datos de organismos modelo.
    5. Ontología genética Términos 28 (GO): Filtrar por códigos de evidencia experimentales y obtener de las respectivas bases de datos de organismos humanos o modelo. No se muestran términos GO basados en "códigos de evidencia de análisis computacional" y "códigos de evidencia de anotación electrónica" (predicciones). Por favor, visite cada sitio web del organismo modelo para recopilar esta información si es necesario.
    6. Otros enlaces como Monarch Initiative29 (https://monarchinitiative.org/) e IMPC30 (http://www.mousephenotype.org/): Utilice el hipervínculo Monarch Initiative para navegar a la página Phenogrid para el gen humano específico, un gráfico que proporciona una comparación rápida entre los fenotipos asociados con el gen de interés a enfermedades humanas conocidas y mutantes de organismos modelo que tienen superposiciones fenotípicas. Si un gen de ratón tiene un ratón knockout hecho o planeado por el International Mouse Phenotyping Consortium (IMPC), el "IMPC" enlaza a la página que detalla el fenotipo del ratón knockout y su disponibilidad de los centros de valores públicos.
  2. Humano Dominios proteicos: Utilice la caja de dominios de proteínas genéticas humanas para obtener dominios proteicos previstos del gen humano. Los datos se derivan de DIOPT, que utiliza Pfam (https://pfam.xfam.org/) y CCD (Base de datos de dominios conservados, https://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml). Un solo residuo tal vez anotado más de una vez debido a alguna superposición en los dominios anotados en las dos fuentes.
  3. Utilice la caja Alineación de proteínas múltiples para obtener la alineación múltiple de aminoácidos generada por DIOPT9 que incluye humano (hs), rata (rn), ratón (mm), pez cebra (dr), mosca de la fruta (dm), gusano (ce) y levaduras (sc y sp). Para resaltar el aminoácido de interés, desplácese hacia abajo hasta la parte inferior de la caja e introduzca los números de aminoácidos a continuación y los aminoácidos de interés se resaltarán en azulado. La alineación es proporcionada por DIOPT y utiliza el alineador MAFFT (Programa de alineación múltiple para secuencias de aminoácidos o nucleótidos, https://mafft.cbrc.jp/alignment/software/31).
    NOTA: Si el aminoácido que se resalta en función del número no es el esperado, puede deberse a diferentes isoformas de empalme utilizadas para la alineación. En principio, DIOPT utiliza la isoforma más larga para mostrar en este cuadro. Además, para los segmentos de genes que no están bien conservados, la alineación de secuencias multiespecie utilizando parámetros predeterminados puede no ser óptima. Recomendamos utilizar otros sitios web y software como Clustal Omega y ClustalW/X (http://www.clustal.org/)32 para optimizar los parámetros de alineación y matrices en consecuencia.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Los genetistas humanos y los científicos de organismos modelo utilizan CADA uno MARRVEL de maneras distintas, cada una con diferentes resultados deseados. A continuación se presentan tres viñetas de posibles usos para MARRVEL.

Evaluar la patogenicidad de una variante en una enfermedad dominante
La mayoría de los usuarios que visitan MARRVEL utilizan este sitio web para analizar la probabilidad de que una variante humana rara pueda causar una determinada enfermedad. Por ejemplo, se encontró que una variante de missense (17:59477596 G>A, p.R20Q) en TBX2 se segregó de manera autosómica dominante en una familia pequeña con rasgos dismórficos y paladar hendido, defectos cardíacos, anomalías esqueléticas y digitales, fenotipos y defectos inmunológicos12. La madre y dos niños afectados con estos síntomas llevaban la variante, mientras que el padre no. El hijo de 9 años tenía el fenotipo más grave, mientras que la madre de 36 años y la hija de 6 años tenían formas más leves de esta enfermedad. Para evaluar si esta variante es probablemente patógena, se puede iniciar una búsqueda MARRVEL entrando en el gen y las variantes en la página de inicio en http://MARRVEL.org. Tenga en cuenta que la barra de búsqueda de variantes requiere la eliminación de Chr delante de la variante si se muestra en el informe clínico original para indicar "Cromosoma". En el momento del estudio original, la página de resultados mostró que no hay fenotipo OMIM asociado con este gen, y esta variante se encuentra sólo una vez en gnomAD, pero no en ExAC, ClinVar, o Geno2MP. Uno puede pensar que esta identificación de un individuo puede ser evidencia contra p.R20Q siendo una variante patógena, pero es importante tener en cuenta que la madre de la familia exhibió una forma leve de la enfermedad. Una variante que se encuentra en 1 / 150,000 individuo es de hecho una variante muy rara y la identificación de un individuo con la misma variante puede explicarse por la menor expresividad o penetrancia. En la tabla Función genética, a menudo es útil comprobar si el gen se expresa en tejidos relevantes en humanos (a través de GTEx y Protein Atlas) en referencia a los fenotipos del paciente. En este caso, el patrón de expresión coincide ya que el paciente tiene fenotipos en múltiples tejidos y el gen también se expresa ampliamente, incluyendo órganos cardíacos y relacionados con el sistema inmunitario.

Basándose en la información del organismo modelo mostrada en MARRVEL, se puede ver rápidamente que el gen se conserva de C. elegans y Drosophila a humano y el aminoácido de interés, p.R20 también se conserva altamente a lo largo de la evolución como se muestra en Figura 2 (tenga en cuenta que la rata Tbx2 no se alinea bien en esta región, probablemente debido a la transcripción que se utiliza para la alineación). La información fenotípica en ratón y pez cebra indica que este gen afecta el desarrollo o la función de una serie de tejidos, incluyendo el sistema cardiovascular, craneofacial/paladar, y dígitos. En resumen, estos datos sugieren que esta variante es posiblemente patógena y estudio funcional adicional es valioso. Teniendo en cuenta que el gen y la variante se conservan en organismos como C. elegans y Drosophila,los estudios funcionales en animales invertebrados serán más rápidos y baratos en comparación con realizar el mismo experimento en organismos modelo vertebrados como el pez cebra, el ratón y la rata. Por favor, vea el artículo adjunto de Harnish et al.21 sobre cómo diseñamos y realizamos ensayos funcionales para este caso12. La participación de este gen/variante en la enfermedad de esta familia se fortaleció aún más mediante la identificación de un paciente masculino no relacionado de 8 años con fenotipos superpuestos con una variante de novo missense en el mismo gen utilizando GeneMatcher. Las variantes en las dos familias se encontraron funcionales utilizando experimentos en Drosophila,apoyando aún más la patogenicidad de las variantes raras en TBX2. La enfermedad ha sido comisariada recientemente como 'Anomalías vertebrales y disfunción endocrina y de células T variables (VETD, OMIM #618223)' en OMIM. Vea la figura 3 para la salida completa para TBX2 17:59477596 G>A.

Evaluar la patogenicidad de una variante en una enfermedad recesiva
Hay diferencias significativas entre el análisis de variantes humanas en enfermedades dominantes y recesivas. Por ejemplo, la puntuación pLI, la frecuencia de alelos menores y la presencia de eliminaciones en la población de control se vuelven menos importantes porque se hacen dos alelos necesarios para revelar cualquier fenotipo.

Un ejemplo de análisis de una enfermedad recesiva se detalla en Yoon et al33 y Wang et al4 que se resume aquí. Una niña de 15 años mostró retraso en el desarrollo, microcefalia, ataxia, deterioro motor, hipotonía, deficiencias del lenguaje, anomalías cerebrales e hipoplasia del cuerpo calloso33. La probanda, sus padres no afectados y un hermano no afectado recibieron WES. Después de filtrar para variantes que eran a la vez únicas para la probanda y raras en la población, las variantes en 13 genes diferentes permanecieron. El filtrado y análisis manual de los 13 candidatos siguiendo el protocolo descrito aquí dio lugar a la priorización de una variante específica en OGDHL como un buen candidato para estudios funcionales. Las piezas clave de información que llevaron a priorizar p.S778L en OGDHL (10:50946295 G>A) sobre otras variantes incluyen: (1) ninguna asociación previa de la enfermedad en OMIM, (2) variante no encontrada en las poblaciones de control, (3) ontología genética asociada con microtúbulos y mitocondrias, dos sistemas que tienen muchos vínculos con trastornos neurológicos34,35, (4) altamente expresados en cerebelo humano, un tejido gravemente afectado en este paciente, y (5) la variante de interés que afecta a un aminoácido conservado (de levadura a humano) y ubicado dentro del dominio catalítico4. La puntuación pLI para este gen es 0,00 pero esto no afecta a la priorización de esta variante/gen para este caso ya que estamos sospechando de un modo recesivo de herencia y que los portadores de variantes perjudiciales en este gen pueden presentarse en la población general. Vea el cuadro 4 para la salida MARRVEL para OGDHL 10:50946295 G>A.

Los estudios de organismos modelo realizados en paralelo mostraron que la pérdida de Ogdh(también conocida como Nc73EF),el ortolog drosophila de OGDHL, en el sistema nervioso presenta un fenotipo neurodegenerativo consistente con el trastorno neurológico de la probanda33. Estudios funcionales en Drosophila mostraron que la variante de interés (p.S778L) afecta la función proteica, lo que lo convierte en un gen candidato fuerte para esta enfermedad. Desde entonces, esta información sobre una posible variante patógena en OGDHL vinculada a un nuevo trastorno neurológico se ha incorporado al OMIM (https://www.omim.org/entry/617513) muy recientemente, pero aún no se le ha asignado un fenotipo de enfermedad porque sólo se ha notificado un caso en enero de 2019.

¿El ortolog humano de un organismo modelo es de interés asociado con enfermedades genéticas?
Muchos investigadores de organismos modelo pueden estar interesados en ver si el ortolog humano de su gen de interés puede tener vínculos con enfermedades genéticas. En este ejemplo, buscaremos si el ortolog(es) humano del gen Notch (N) de la mosca tiene alguna relevancia para las enfermedades genéticas. Para ello, comenzaremos con la realización de una "Búsqueda de Organismos Modelo (1.3.1.-1.3.2.)" y seleccionaremos"Drosophila melanogaster" como el nombre de la especie y"N" como el nombre del gen del organismo modelo. Los cuatro ortologos humanos previstos para este gen de mosca se mostrarán en la ventana de resultados como NOTCH1, NOTCH2, NOTCH3 y NOTCH4. Los cuatro genes tienen diferentes puntuaciones DIOPT (10/12 para NOTCH1, 8/12 para NOTCH2 y NOTCH3, 5/12 para NOTCH4) debido al grado de homología entre la mosca N y cada gen humano. Teniendo en cuenta la "Mejor puntuación del gen humano a la mosca" está listada como "Sí" para los cuatro genes, la búsqueda inversa de cada gen humano recoge el gen N de la mosca como el candidato ortolog más probable. De hecho, se cree que los cuatro genes NOTCH humanos surgieron de un solo gen Notch durante las dos rondas de eventos de duplicación del genoma completo que ocurrieron en el linaje de vertebrados después de separarse del linaje de invertebrados36. Al hacer clic en los botones "MARRVEL it" para cada gen humano, se pueden obtener las salidas basadas en genes humanos para NOTCH1-4.  En la página de resultados de cada gen, las casillas superiores de OMIM indican que mientras que NOTCH1, 2 y 3 están asociados con enfermedades genéticas, NOTCH4 actualmente no está asociado con ninguna enfermedad humana. Tenga en cuenta que ha habido debates sobre si las variantes en NOTCH4 están asociadas con la esquizofrenia basada en estudios de asociación genómicos (GWAS)37,38. Dado que OMIM generalmente no cura los datos de GWAS con algunas excepciones (por ejemplo, APOE, PTPN22),esta información no está disponible en la ventana OMIM. Del mismo modo, dado que el OMIM no suele comisariar información de mutaciones somáticas asociadas al cáncer, la información sobre si las mutaciones somáticas en estos genes están asociadas con ciertos tipos de cáncer no se enumerará con algunas excepciones (por ejemplo, TP53, RB1, BRCA1). Al hacer clic en el cuadro PubMed o Monarch, se pueden identificar algunos documentos relacionados con enfermedades que no están seleccionados en OMIM. Consulte la Figura 5 para toda la producción de MARRVEL para el gen de mosca N y el gen humano NOTCH4.

Figure 1
Figura 1 . Una salida representativa de una búsqueda MARRVEL. Este ejemplo específico muestra una búsqueda de gen/variante para "TBX2/17:59477596 G>A" (http://marrvel.org/search/pair/TBX2/17:59477596%20G%3EA). La barra lateral de la izquierda admite navegaciones a través de la salida de datos. Observe los signos del "link externo" aquí proporcionan los links a las páginas apropiadas del navegador del genoma UCSC (https://genome.ucsc.edu/). Las pestañas de la parte superior permiten realizar búsquedas basadas en genes de organismos modelo, obtener información adicional sobre MARRVEL y proporcionar comentarios de los usuarios. Los paneles "Resultados de la búsqueda" muestran información genética y variante de las fuentes indicadas en la imagen. Haga clic aquí para ver una versión más grande de esta figura.

Figure 2
Figura 2 . Resumen de la tabla ortologa del organismo modelo y la alineación multiespecie para TBX2. A) MARRVEL selecciona el candidato ortolog superior para cada especie en función de la herramienta DIOPT. Por ejemplo, una puntuación DIOPT de 10/12 mostrada para el gen Drosophila bi significa 10 de 12 programas de predicción ortológica utilizados por DIOPT predijo que bi es el ortolog mosca más probable de TBX2humano. Dado que el 25% de los genes están duplicados en peces cebra en comparación con el ser humano, MARRVEL muestra dos genes yólogos (en este caso tbx2a y tbx2b)cuando esto es aplicable. B) Instantánea de la ventana de alineación multiespecie. Al seleccionar un organismo específico [en este caso humano (hs)] y entrar en el aminoácido de interés, se puede resaltar el aminoácido específico en el teal. En este ejemplo, p.R20 de TBX2 humano parece conservarse en ratón (mm1), tanto ortologs de peces cebra (dr1 y dr2), Drosophila (dm1) y C. elegans (ce1). Rat Tbx2 no parece alinearse bien en comparación con otras especies, probablemente debido a la isoforma utilizada por el DIOPT para realizar la alineación multi-especie. Haga clic aquí para ver una versión más grande de esta figura.

Figure 3
Figura 3 : Salida completa para TBX2 17:59477596 G>A. Haga clic aquí para descargar este archivo.

Figure 4
Figura 4 : Salida MARRVEL para OGDHL 10:50946295 G>A. Haga clic aquí para descargar este archivo.

Figure 5
Figura 5 : Salida MARRVEL para el gen mosca N y el gen humano NOTCH4. Haga clic aquí para descargar este archivo.

Tipo de base de datos Nombre de la base de datos URL/Enlace a la base de datos Razones para la inclusión en MARRVEL Referencia (PMID)
Genética Humana ClinVar https://www.ncbi.nlm.nih.gov/clinvar/ ClinVar es un archivo público de informes de las relaciones entre variaciones humanas y fenotipos, con evidencia de apoyo. Variantes con interpretaciones reportadas por investigadores y médicos son valiosas para analizar la probabilidad de que una variante sea patógena. PMID: 29165669
Genética Humana Descifrar https://decipher.sanger.ac.uk/ Los datos DECIPHER mostrados en MARRVEL incluyen variantes comunes de la población de control. Los datos mostrados incluyen variantes estructurales que cubren la ubicación genómica de la variante de entrada. DECIPHER también contiene información variante y fenotípica para las personas afectadas, pero sólo se puede acceder directamente a través de su sitio web. PMID: 19344873
Genética Humana Dgv http://dgv.tcag.ca/dgv/app/home Hasta nuestro punto de conocimiento, DGV es la mayor colección de acceso público de variantes estructurales de más de 54.000 individuos. La base de datos incluye muestras de individuos sanos, en el momento de la determinación, de hasta 72 estudios diferentes. Las posibles limitaciones a estos datos incluyen la variación en la fuente y el método de los datos adquiridos la falta de información sobre la penetración incompleta de los CNV patógenos, y si los individuos desarrollarán enfermedades asociadas después de la recopilación de datos. PMID: 24174537
Predicción ortológica DIOPT https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl DIOPT proporcionó la alineación de múltiples secuencias de proteínas de los ortologs mejor predichos en seis organismos modelo contra la secuencia proteica del gen humano de interés. La alineación proporcionará información sobre la conservación de aminoácidos específicos, así como dominios proteicos funcionales. PMID: 21880147
Nomenclatura de Gene Humano/Transcripción Ensembl https://useast.ensembl.org/ Los datos de genes de Ensembl se utilizan para vincular las diferentes bases de datos. PMID: 29155950
Genética Humana ExAC http://exac.broadinstitute.org/ ExAC contiene más de 60.000 exomas y es, aparte de gnomAD (http://gnomad.broadinstitute.org/), la mayor colección pública de exomas que han sido seleccionados contra individuos con fenotipos mendelianos severos de inicio temprano. Para los propósitos de MARRVEL, ExAC y gnomAD sirven como el mejor conjunto de datos de población de control para calcular la frecuencia de alelos menores. Proporcionamos dos conjuntos de salidas de ExAC. El primer resultado es la visión general centrada en el gen del número esperado frente al número observado de alelos de error de detección y pérdida de función (LOF). Una métrica llamada pLI (probabilidad de intolerancia LOF) oscila entre 0,00 y 1,00 refleja la presión selectiva sobre ciertas variantes antes de la edad reproductiva. puntuación pLI de 1.00 significa que este gen es muy intolerante a cualquier variante LOF y haploinsuficiencia de este gen puede causar enfermedad en humanos. La segunda salida son datos de ExAC que pertenecen a la variante específica. Si se ve una variante idéntica en ExAC, MARRVEL mostrará la frecuencia de alelos menor. PMID: 27535533
Bases de datos de organismos modelo primario FlyBase (Drosophila) http://flybase.org MARRVEL recopila y muestra datos de múltiples bases de datos de organismos modelo. Proporcionamos un resumen de la función molecular, celular y biológica del gen utilizando términos GO. El ortolog más probable es derivado por DIOPT. PMID:26467478
Herramientas de integración de bases de datos de organismos modelo Gene2Function http://www.gene2function.org/search/ MARRVEL colabora con DIOPT y Gene2Function para proporcionar la función "Búsqueda de organismos modelo". Se proporciona hipervínculo para que los usuarios accedan a su sitio web que integra una serie de bases de datos MO y las muestra en un estilo diferente de la forma en que lo hace MARREL. PMID: 28663344
Genética Humana Geno2MP http://geno2mp.gs.washington.edu/Geno2MP/ Geno2MP es una colección de muestras del Centro de Genética Mendeliana de la Universidad de Washington. Contiene 9.650 exomes de individuos afectados y parientes no afectados. Esta base de datos vincula la información fenotípica y del modo de herencia a alelos específicos. Para el fenotipo, comparando el sistema de órganos afectados del paciente de interés con los individuos afectados en Geno2MP, uno puede encontrar posibles coincidencias. Una coincidencia en alelo, modo de herencia y fenotipo proporciona una mayor probabilidad de que la variante probablemente patógena. Sin embargo, debido al pequeño tamaño de la muestra, una asociación negativa no necesariamente disminuye la prioridad patógena de una variante. En la fuente original se proporciona un mecanismo para ponerse en contacto con el médico primario de un paciente de interés. N/A
Genética Humana gnomAD http://gnomad.broadinstitute.org/ gnomAd contiene un total de 123.136 secuencias de exomas y 15.496 secuencias de genomas completos de individuos no relacionados secuenciados como parte de diversos estudios genéticos específicos de la enfermedad y de la población. Parte significativa de los datos exAC se intercalan en gnomAD. En MARRVEL actualmente visualizamos las frecuencias de población que pertenecen a una variante específica. PMID: 27535533
Ontología genética GO Central http://www.geneontology.org/ MARRVEL muestra sólo términos de Ontología Genética (GO) (Función Molecular, Componente Celular y Proceso Biológico) derivados de evidencia experimental para cada gen. Se filtran por "códigos de evidencia experimental" y se evitan los términos GO basados en "códigos de evidencia de análisis computacional" y "códigos de evidencia de anotación electrónica" (predicciones). PMID: 10802651, 25428369
Expresión de proteína/gen humano GTEx https://gtexportal.org/home/ MARRVEL muestra el ARNm y el patrón de expresión de proteínas en los tejidos humanos de cada gen. El patrón de expresión puede aportar información sobre los fenotipos observados en pacientes y/o organismos modelo. PMID: 29019975, 23715323
Nomenclatura genética humana HGNC https://www.genenames.org/ Los símbolos genéticos oficiales de HGNC se utilizan para las búsquedas MARRVEL. PMID: 27799471
Bases de datos de organismos modelo primario IMPC (ratón) http://www.mousephenotype.org/ MARRVEL proporciona un hipervínculo a las páginas de genes del ratón que responden en el sitio web del IMPC. Si ha habido un ratón noqueado fabricado por el IMPC, una lista exhaustiva de ensayos y sus resultados están disponibles públicamente y pueden proporcionar información sobre el fenotipo cuando se pierde un gen. Parte de la información está curada en MGI, pero tal vez haya un retraso en el tiempo. PMID: 27626380
Bases de datos de organismos modelo primario MGI (ratón) http://www.informatics.jax.org/ MARRVEL recopila y muestra datos de múltiples bases de datos de organismos modelo. Proporcionamos un resumen de la función molecular, celular y biológica del gen utilizando términos GO. El ortolog más probable es derivado por DIOPT. PMID:25348401
Herramientas de integración de bases de datos de organismos modelo Iniciativa Monarch https://monarchinitiative.org/ MARRVEL proporciona un enlace a la Phenogrid de un gen humano en Monarch Initiative. Esta cuadrícula proporciona comparaciones entre el fenotipo de los organismos modelo y las enfermedades humanas conocidas. PMID: 27899636
Nomenclatura de Variante Humana Mutalyzer https://mutalyzer.nl/ MARRVEL utiliza la API de Mutalyzer para convertir diferentes nomenclaturas de variantes en ubicación genómica. PMID: 18000842
Genética Humana Omim https://omim.org/ Las tres piezas principales de información que extraemos de OMIM son: función genética, fenotipos asociados y alelos reportados. Es útil saber si un gen está asociado con un fenotipo mendeliano conocido (entradas) cuya base molecular se conoce. Los genes sin este conocimiento son candidatos para el descubrimiento de nuevos genes. Para los genes que son de esta categoría, si el fenotipo del paciente no coincide con la enfermedad y el fenotipo notificados, así como con los de los pacientes en la literatura, entonces esto aumenta la oportunidad de proporcionar una expansión fenotípica para el gen de interés. PMID: 28654725
Bases de datos de organismos modelo primario PomBase (hongos) https://www.pombase.org/ MARRVEL recopila y muestra datos de múltiples bases de datos de organismos modelo. Proporcionamos un resumen de la función molecular, celular y biológica del gen utilizando términos GO. El ortolog más probable es derivado por DIOPT. PMID:22039153
Literatura Pubmed https://www.ncbi.nlm.nih.gov/pubmed/ MARRVEL proporciona un hipervínculo a la búsqueda PubMed basada en "Gene". Hacer clic en este enlace le permitirá buscar documentos biomédicos que se refieren al gen de interés basado en nombres y símbolos genéticos anteriores. N/A
Bases de datos de organismos modelo primario RGD (rata) https://rgd.mcw.edu/ MARRVEL recopila y muestra datos de múltiples bases de datos de organismos modelo. Proporcionamos un resumen de la función molecular, celular y biológica del gen utilizando términos GO. El ortolog más probable es derivado por DIOPT. PMID:25355511
Bases de datos de organismos modelo primario SGD (hongos) https://www.yeastgenome.org/ MARRVEL recopila y muestra datos de múltiples bases de datos de organismos modelo. Proporcionamos un resumen de la función molecular, celular y biológica del gen utilizando términos GO. El ortolog más probable es derivado por DIOPT. PMID: 22110037
Expresión de proteína/gen humano El Atlas de Proteínas Humanas https://www.proteinatlas.org/ MARRVEL muestra el ARNm y el patrón de expresión de proteínas en los tejidos humanos de cada gen. El patrón de expresión puede aportar información sobre los fenotipos observados en pacientes y/o organismos modelo. PMID: 21752111
Bases de datos de organismos modelo primario WormBase (C. elegans) http://wormbase.org MARRVEL recopila y muestra datos de múltiples bases de datos de organismos modelo. Proporcionamos un resumen de la función molecular, celular y biológica del gen utilizando términos GO. El ortolog más probable es derivado por DIOPT. PMID:26578572
Bases de datos de organismos modelo primario ZFIN (pez cebra) https://zfin.org/ MARRVEL recopila y muestra datos de múltiples bases de datos de organismos modelo. Proporcionamos un resumen de la función molecular, celular y biológica del gen utilizando términos GO. El ortolog más probable es derivado por DIOPT. PMID:26097180

Tabla 1. Lista de fuentes de datos para MARRVEL. Todas las bases de datos de las que MARRVEL obtiene datos se enumeran en esta tabla. Para cada base de datos, enumeramos el tipo de base de datos, URL/Link, razones para incluir en MARRVEL y referencias principales.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Los pasos críticos en este protocolo incluyen la entrada inicial (pasos 1.1-1.3) y la interpretación posterior de la salida. La razón más común por la que los resultados de búsqueda son negativos es debido a las muchas maneras en que se puede describir un gen y / o variante. Mientras que MARRVEL se actualiza sobre una base programada, estas actualizaciones pueden causar desconexiones entre las diversas bases de datos que MARRVEL vincula a. Por lo tanto, el primer paso en la solución de problemas es comprobar invariablemente si los nombres alternativos del gen o variante conducirán a un resultado de búsqueda exitoso. Si aún no se puede resolver, envíe un mensaje al equipo de desarrollo mediante el formulario de comentarios de http://marrvel.org/message.

Una limitación a MARRVEL es que todavía no incluye todas las bases de datos útiles necesarias para el análisis de genes y variantes. Por ejemplo, los algoritmos de predicción de patogenicidad como CADD18 no se proporcionan actualmente. Del mismo modo, la información sobre la estructura de proteínas y la información de interacción proteína-proteína que también puede proporcionar vínculos estructurales y funcionales con variantes conocidas causantes de enfermedades en los genes no se muestran actualmente en MARRVEL. En nuestra próxima actualización importante, planeamos integrar esta información en MARRVEL, además de incorporar información más fenotípica de sitios web de organismos modelo, IMPC, Monarch Initiative y Alliance of Genome Resources (AGR, https://www.alliancegenome.org/). Dado que MARRVEL fue diseñado para facilitar la investigación de enfermedades raras, el programa actualmente se centra en las variantes germinales y no proporciona acceso a información de variantes somáticas. No se integran bases de datos relacionadas con la genética del cáncer a partir de la publicación de este protocolo. A medida que MARRVEL se está desarrollando y actualizando activamente, apreciamos enormemente los comentarios y recomendamos encarecidamente a los usuarios existentes que se inscriban en boletines informativos sobre http://marrvel.org/message para cualquier base de datos adicional futura que se integre.

Aunque los datos de MARRVEL se pueden utilizar para priorizar variantes que pueden ser patógenas. Sin embargo, con el fin de demostrar la patogenicidad, uno tendrá que identificar a otros pacientes con genotipos y fenotipos similares o realizar estudios funcionales para proporcionar evidencia sólida de que la variante de interés tiene consecuencias funcionales que son relevantes para la condición de la enfermedad. Para obtener más información sobre información adicional fuera de MARRVEL que puede ser útil para juzgar si una variante vale la pena investigar experimentalmente en el organismo modelo, consulte el artículo adjunto Harnish et al21. Para dar los siguientes pasos en el uso de organismos modelo para estudiar variantes humanas, los genetistas humanos y los investigadores de organismos modelo deben ser capaces de conectarse y colaborar. GeneMatcher y otros consorcios genómicos que forman parte del consorcio Matchmaker Exchange son recursos que facilitan este siguiente paso. Si los usuarios residen en Canadá, también se puede registrar en la Red de Modelos y Mecanismos de Enfermedades Raras (RDMM, http://www.rare-diseases-catalyst-network.ca/) para identificar a los médicos y/o investigadores de organismos modelo que están dispuestos a colaborar39 . Japón (J-RDMM, https://irudbeyond.nig.ac.jp/en/index.html), Europa (RDMM-Europa, http://solve-rd.eu/rdmm-europe/) y Australia (Australian Functional Genomics Network: https://www.functionalgenomics.org.au/) han adoptado recientemente la Modelo RDMM canadiense para facilitar colaboraciones similares dentro de sus países o regiones. Además, mediante el uso de herramientas como BioLitMine (https://www.flyrnai.org/tools/biolitmine/web/) se puede buscar colaboradores potenciales entre los Investigadores Principales que han trabajado previamente en el gen de interés.

Por último, además de MARRVEL, hay una serie de otras herramientas de minería de datos entre especies disponibles, incluyendo Gene2Function40 (http://www.gene2function.org/), Monarch Initiative29 (https://monarchinitiative.org/) y Alliance of Recursos Del Genoma (AGR, https://www.alliancegenome.org/). Mientras gene2Function proporciona acceso a datos entre especies y Monarch Initiative proporciona comparaciones fenotípicas, MARRVEL tiene un mayor énfasis en las variantes humanas y vincula los datos genómicos humanos con organismos modelo. AGR es una iniciativa que involucra seis bases de datos de organismos modelo y el Consorcio Gene Ontology que integra datos de diferentes bases de datos de una manera uniforme para aumentar la accesibilidad de los datos acumulados por cada base de datos. Estos recursos son complementarios, y los usuarios deben entender las fortalezas de cada base de datos para navegar por la gran cantidad de conocimiento que han acumulado los investigadores en las comunidades. A medida que el desarrollo de MARRVEL continúa, planeamos incluir más bases de datos que sean relevantes para el estudio de variantes humanas en organismos modelo. El objetivo general de MARRVEL es proporcionar una manera fácilmente accesible para que los médicos e investigadores puedan analizar genes humanos y variantes para su estudio posterior integrando información útil manteniendo la interfaz tan simple como podamos.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Los autores no tienen nada que revelar.

Acknowledgments

Agradecemos a los Doctores Rami Al-Ouran, Seon-Young Kim, Yanhui (Claire) Hu, Ying-Wooi Wan, Naveen Manoharan, Sasidhar Pasupuleti, Aram Comjean, Dongxue Mao, Michael Wangler, Hsiao-Tuan Chao, Stephanie Mohr y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por mantenimiento de MARRVEL. Estamos agradecidos a Samantha L. Deal y J. Michael Harnish por su contribución en este manuscrito.

El desarrollo inicial de MARRVEL fue apoyado en parte por el Centro de Detección de Organismos Modelo de la Red de Enfermedades No Diagnosticadas a través del NIH Commonfund (U54NS093793) y a través de la Oficina de Programas de Infraestructura de Investigación (ORIP) de los NIH (R24OD022005). JW cuenta con el apoyo del NIH Eunice Kennedy Shriver National Institute of Child Health & Human Development (F30HD094503) y el Programa de Becas Robert and Janice McNair Foundation McNair MD/PhD en BCM. HJB cuenta con el apoyo del NIH National Institute of General Medical Sciences (R01GM067858) y es investigador del Instituto Médico Howard Hughes. ZL cuenta con el apoyo del NIH National Institute of General Medical Science (R01GM120033), National Institute of Aging (R01AG057339) y la Fundación Huffington. SY recibió apoyo adicional del Instituto Nacional de Sordera y otros Trastornos de la Comunicación del NIH (R01DC014932), la Fundación Simons (Premio SFARI: 368479), la Asociación de Alzheimer (New Investigator Research Grant: 15-364099), Naman Family Fondo de Investigación Básica y Caroline Wiess Law Fund for Research in Molecular Medicine.

Materials

Name Company Catalog Number Comments
Human Genetics ClinVar PMID: 29165669 https://www.ncbi.nlm.nih.gov/clinvar/
Human Genetics DECIPHER PMID: 19344873  https://decipher.sanger.ac.uk/
Human Genetics DGV PMID: 24174537 http://dgv.tcag.ca/dgv/app/home
Orthology Prediction DIOPT PMID: 21880147  https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl
Human Gene/Transcript Nomenclature Ensembl PMID: 29155950  https://useast.ensembl.org/
Human Genetics ExAC  PMID: 27535533 http://exac.broadinstitute.org/
Primary Model Organism Databases FlyBase (Drosophila) PMID:26467478 http://flybase.org
Model Organism Database Integration Tools Gene2Function PMID: 28663344 http://www.gene2function.org/search/
Human Genetics Geno2MP N/A http://geno2mp.gs.washington.edu/Geno2MP/
Human Genetics gnomAD PMID: 27535533 http://gnomad.broadinstitute.org/
Gene Ontology GO Central PMID: 10802651, 25428369  http://www.geneontology.org/
Human Gene/Protein Expression GTEx PMID: 29019975, 23715323  https://gtexportal.org/home/
Human Gene Nomenclature HGNC PMID: 27799471  https://www.genenames.org/
Primary Model Organism Databases IMPC (mouse) PMID: 27626380 http://www.mousephenotype.org/
Primary Model Organism Databases MGI (mouse) PMID:25348401 http://www.informatics.jax.org/
Model Organism Database Integration Tools Monarch Initiative PMID: 27899636 https://monarchinitiative.org/
Human Variant Nomenclature Mutalyzer PMID: 18000842  https://mutalyzer.nl/
Human Genetics OMIM PMID: 28654725 https://omim.org/
Primary Model Organism Databases PomBase (fission yeast) PMID:22039153 https://www.pombase.org/
Literature PubMed N/A https://www.ncbi.nlm.nih.gov/pubmed/
Primary Model Organism Databases RGD (rat) PMID:25355511 https://rgd.mcw.edu/
Primary Model Organism Databases SGD (budding yeast) PMID: 22110037 https://www.yeastgenome.org/
Human Gene/Protein Expression The Human Protein Atlas PMID: 21752111 https://www.proteinatlas.org/
Primary Model Organism Databases WormBase (C. elegans) PMID:26578572 http://wormbase.org
Primary Model Organism Databases ZFIN (zebrafish) PMID:26097180 https://zfin.org/

DOWNLOAD MATERIALS LIST

References

  1. Yang, Y., et al. Clinical whole-exome sequencing for the diagnosis of mendelian disorders. New England Journal of Medicine. 369 (16), 1502-1511 (2013).
  2. Richards, S., et al. Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology. Genetics in Medicine. 17 (5), 405-424 (2015).
  3. MacArthur, D. G., et al. Guidelines for investigating causality of sequence variants in human disease. Nature. 508 (7497), 469-476 (2014).
  4. Wang, J., et al. MARRVEL: Integration of Human and Model Organism Genetic Resources to Facilitate Functional Annotation of the Human Genome. American Journal of Human Genetics. 100 (6), 843-853 (2017).
  5. Povey, S., et al. The HUGO Gene Nomenclature Committee (HGNC). Human Genetics. 109 (6), 678-680 (2001).
  6. Lek, M., et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. 536 (7616), 285-291 (2016).
  7. Wildeman, M., van Ophuizen, E., den Dunnen, J. T., Taschner, P. E. Improving sequence variant descriptions in mutation databases and literature using the Mutalyzer sequence variation nomenclature checker. Human Mutation. 29 (1), 6-13 (2008).
  8. Zhou, W., et al. TransVar: a multilevel variant annotator for precision genomics. Nature Methods. 12 (11), 1002-1003 (2015).
  9. Hu, Y., et al. An integrative approach to ortholog prediction for disease-focused and other functional studies. BMC Bioinformatics. 12, 357 (2011).
  10. Amberger, J. S., Hamosh, A. Searching Online Mendelian Inheritance in Man (OMIM): A Knowledgebase of Human Genes and Genetic Phenotypes. Current Protocols in Bioinformatics. 58, 1 (2017).
  11. Amberger, J. S., Bocchini, C. A., Scott, A. F., Hamosh, A. OMIM.org: leveraging knowledge across phenotype-gene relationships. Nucleic Acids Research. 47, 1038-1043 (2019).
  12. Liu, N., et al. Functional variants in TBX2 are associated with a syndromic cardiovascular and skeletal developmental disorder. Human Molecular Genetics. 27 (14), 2454-2465 (2018).
  13. Ropers, H. H., Wienker, T. Penetrance of pathogenic mutations in haploinsufficient genes for intellectual disability and related disorders. European Journal of Medical Genetics. 58 (12), 715-718 (2015).
  14. Shashi, V., et al. De Novo Truncating Variants in ASXL2 Are Associated with a Unique and Recognizable Clinical Phenotype. American Journal of Human Genetics. 100 (1), 179 (2017).
  15. Chen, R., et al. Analysis of 589,306 genomes identifies individuals resilient to severe Mendelian childhood diseases. Nature Biotechnology. 34 (5), 531-538 (2016).
  16. Halvorsen, M., et al. Mosaic mutations in early-onset genetic diseases. Genetics in Medicine. 18 (7), 746-749 (2016).
  17. Kohler, S., et al. The Human Phenotype Ontology in 2017. Nucleic Acids Research. 45 (1), 865-876 (2017).
  18. Rentzsch, P., Witten, D., Cooper, G. M., Shendure, J., Kircher, M. CADD: predicting the deleteriousness of variants throughout the human genome. Nucleic Acids Research. 47 (1), 886-894 (2019).
  19. Sobreira, N., Schiettecatte, F., Valle, D., Hamosh, A. GeneMatcher: a matching tool for connecting investigators with an interest in the same gene. Human Mutation. 36 (10), 928-930 (2015).
  20. Sobreira, N. L. M., et al. Matchmaker Exchange. Current Protocols in Human Genetics. 95 (9), 31-39 (2017).
  21. Harnish, M., Deal, S., Wangler, M., Yamamoto, S. In vivo functional study of disease-associated rare human variants using Drosophila. Journal of Visualized Experiments. , (2019).
  22. Harrison, S. M., et al. Using ClinVar as a Resource to Support Variant Interpretation. Current Protocols in Human Genetics. 89, 11-18 (2016).
  23. MacDonald, J. R., Ziman, R., Yuen, R. K., Feuk, L., Scherer, S. W. The Database of Genomic Variants: a curated collection of structural variation in the human genome. Nucleic Acids Research. 42, Database issue 986-992 (2014).
  24. Firth, H. V., et al. DECIPHER: Database of Chromosomal Imbalance and Phenotype in Humans Using Ensembl Resources. American Journal of Human Genetics. 84 (4), 524-533 (2009).
  25. Thurmond, J., et al. FlyBase 2.0: the next generation. Nucleic Acids Research. 47, 759-765 (2019).
  26. Consortium, G. T. Human genomics. The Genotype-Tissue Expression (GTEx) pilot analysis: multitissue gene regulation in humans. Science. 348 (6235), 648-660 (2015).
  27. Ponten, F., Jirstrom, K., Uhlen, M. The Human Protein Atlas--a tool for pathology. Journal of Pathology. 216 (4), 387-393 (2008).
  28. The Gene Ontology, C. The Gene Ontology Resource: 20 years and still GOing strong. Nucleic Acids Research. , (2018).
  29. Mungall, C. J., et al. The Monarch Initiative: an integrative data and analytic platform connecting phenotypes to genotypes across species. Nucleic Acids Research. 45 (1), 712-722 (2017).
  30. Meehan, T. F., et al. Disease model discovery from 3,328 gene knockouts by The International Mouse Phenotyping Consortium. Nature Genetics. 49 (8), 1231-1238 (2017).
  31. Katoh, K., Rozewicki, J., Yamada, K. D. MAFFT online service: multiple sequence alignment, interactive sequence choice and visualization. Brief Bioinform. , (2017).
  32. Sievers, F., Higgins, D. G. Clustal Omega for making accurate alignments of many protein sequences. Protein Science. 27 (1), 135-145 (2018).
  33. Yoon, W. H., et al. Loss of Nardilysin, a Mitochondrial Co-chaperone for alpha-Ketoglutarate Dehydrogenase, Promotes mTORC1 Activation and Neurodegeneration. Neuron. 93 (1), 115-131 (2017).
  34. Deal, S., Yamamoto, S. Unraveling novel mechanisms of neurodegeneration through a large-scale forward genetic screen in Drosophila. Frontiers in Genetics. 9, (2019).
  35. Matamoros, A. J., Baas, P. W. Microtubules in health and degenerative disease of the nervous system. Brain Research Bulletin. 126, Pt 3 217-225 (2016).
  36. Theodosiou, A., Arhondakis, S., Baumann, M., Kossida, S. Evolutionary scenarios of Notch proteins. Molecular Biology and Evolution. 26 (7), 1631-1640 (2009).
  37. Shayevitz, C., Cohen, O. S., Faraone, S. V., Glatt, S. J. A re-review of the association between the NOTCH4 locus and schizophrenia. American Journal of Medical Genetics. Part B: Neuropsychiatric Genetics. 159 (5), 477-483 (2012).
  38. Wang, Z., et al. A review and re-evaluation of an association between the NOTCH4 locus and schizophrenia. American Journal of Medical Genetics. Part B: Neuropsychiatric Genetics. 141 (8), 902-906 (2006).
  39. Oriel, C., Lasko, P. Recent Developments in Using Drosophila as a Model for Human Genetic Disease. International Journal of Molecular Sciences. 19 (7), (2018).
  40. Hu, Y., Comjean, A., Mohr, S. E., FlyBase, C., Perrimon, N. Gene2Function: An Integrated Online Resource for Gene Function Discovery. G3. 7 (8), Bethesda. 2855-2858 (2017).

Tags

Genética Número 150 Genómica humana priorización de variantes organismos modelo genética enfermedades raras y no diagnosticadas genómica funcional integración de bases de datos investigación traslacional diagnóstico médico variante de importancia desconocida gen de significación incierta herramienta basada en la web
Navegando por MARRVEL, una herramienta basada en la Web que integra la genómica humana y la información genética de organismos modelo
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Wang, J., Liu, Z., Bellen, H. J.,More

Wang, J., Liu, Z., Bellen, H. J., Yamamoto, S. Navigating MARRVEL, a Web-Based Tool that Integrates Human Genomics and Model Organism Genetics Information. J. Vis. Exp. (150), e59542, doi:10.3791/59542 (2019).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter