Biology

Flujo de trabajo integral para la identificación de todo el genoma y Meta-análisis de la expresión de la familia del Gene del ATL E3 ubiquitina ligasa en Grapevine

Published: December 22, 2017 doi: 10.3791/56626

Pietro Ariani*¹, Elodie Vandelle*¹, Darren Wong², Alejandro Giorgetti¹, Andrea Porceddu³, Salvatore Camiolo³, Annalisa Polverari¹

¹Dipartimento di Biotecnologie, Università degli Studi di Verona, ²Ecology and Evolution, Research School of Biology, The Australian National University, ³Dipartimento di Agraria, SACEG, Università degli Studi di Sassari

* These authors contributed equally

Summary

Este artículo describe el procedimiento para la identificación y caracterización de una familia del gene en grapevine aplicada a la familia de Arabidopsis Tóxicos en Levadura (ATL) E3 ubiquitina ligasas.

Abstract

Clasificación y nomenclatura de los genes de una familia pueden contribuir considerablemente a la descripción de la diversidad de proteínas codificadas y a la predicción de funciones de la familia basada en varias características, tales como la presencia de motivos de secuencia o de particular sitios de modificación poste-de translación y el perfil de expresión de los miembros de la familia en diferentes condiciones. Este trabajo describe un protocolo detallado para la caracterización familiar gene. Aquí, el procedimiento es aplicado a la caracterización de la familia Arabidopsis Tóxicos en Levadura (ATL) E3 ubiquitina ligasa en vid. Los métodos incluyen la identificación del genoma de los miembros de la familia, la caracterización del gen localización, estructura y duplicación, el análisis de motivos conservados de la proteína, la predicción de sitios de localización y fosforilación de proteínas así como Perfil de expresión génica a través de la familia en diferentes conjuntos de datos. Tal procedimiento, que podría extenderse a otros análisis dependiendo de propósitos experimentales, se podría aplicar a cualquier familia de genes de cualquier especie de planta que están disponibles datos genómicos, y proporciona información valiosa para identificar a candidatos interesantes para los estudios funcionales, dando ideas sobre los mecanismos moleculares de adaptación de plantas a su entorno.

Introduction

Durante la última década, se ha realizado mucha investigación en genómica de la vid. Vid es un cultivo económicamente relevante reconocido, que se ha convertido en un modelo para la investigación en el desarrollo de la fruta y en las respuestas de las plantas leñosas a estreses bióticos y abióticos. En este contexto, la liberación del genoma de Vitis vinifera CV. PN40024 en 2007¹ y su versión actualizada en 2011² condujo a una rápida acumulación de datos a escala "ómicas" y a una explosión de estudios de alto rendimiento. Según los datos publicados de la secuencia, el análisis integral de una familia de determinado gen (generalmente compuesto de comparten motivos conservados, similitudes estructurales o funcionales y relaciones evolutivas de las proteínas), puede ahora realizarse para descubrir su funciones moleculares, evolución y perfiles de expresión génica. Estos análisis pueden contribuir a entender cómo familias génicas controlan procesos fisiológicos a nivel del genoma.

Muchos aspectos del ciclo de vida de planta están regulados por la degradación mediada por ubiquitina de proteínas clave, que requieren un volumen optimizado para regulares procesos celulares. Importantes componentes del proceso de degradación mediada por ubiquitina son las ligasas de ubiquitina E3, que son responsables de la flexibilidad del sistema, gracias a la contratación de objetivos específicos³. En consecuencia, estas enzimas representan una familia de genes enorme, con unos 1.400 E3 ligasa de codificación genes previstos en el thaliana de Arabidopsis genoma⁴, cada E3 ubiquitina ligasa de la ubiquitinación de proteínas específicos. A pesar de la importancia de la ubiquitinación de substrato-específica en la regulación celular en las plantas, poco se sabe sobre cómo se regula la vía de ubiquitinación y proteínas de la blanco han sido identificadas sólo en algunos casos. El desciframiento de tales mecanismos de especificidad y regulación basa primero en la identificación y caracterización de los diferentes componentes del sistema, en particular las E3 ligasas. Entre las ligasas de ubiquitina, la subfamilia ATL se caracteriza por 91 miembros identificados en a. thaliana mostrando un anillo-H2 dedo dominio⁵^,⁶, algunos de ellos juega un papel en las respuestas de defensa y la hormona⁷.

El primer paso crucial para definir a los miembros de una nueva familia de genes es la definición precisa de las características familiares, tales como motivos consenso dominios claves y características de la secuencia de proteína. De hecho, la recuperación fiable de todos miembros de la familia génica basado en el análisis BLAST requiere algunas características de la secuencia obligatoria, en los dominios de la proteína en particular responsables de la función y actividad de la proteína, que sirve como firma de proteína. Esto puede ser facilitado por la anterior caracterización de la misma familia de genes de otras especies vegetales o logrado mediante el análisis de diversos genes supuestamente pertenecientes a la misma familia en diferentes especies de plantas, para aislar secuencias comunes. Los miembros de la familia pueden entonces ser individualmente nombrados siguiendo normas comunes que se establecieron por consorcios internacionales para una especie vegetal determinada. En vid, por ejemplo, dicho procedimiento se sujeta a las recomendaciones de la Comisión de nomenclatura súper para uva gen anotación (sNCGGa), establece la construcción de un árbol filogenético como V. vinifera y a. thaliana miembros de la familia gen para permitir la anotación de genes basan en secuencias de nucleótidos⁸.

Localización de cromosoma de miembros de la familia y estudio de la duplicación del gene permiten destacar la presencia de genes duplicados en tándem o de todo el genoma. Dicha información aparece útil para desentrañar las funciones del gen putativo, ya que podría demostrar la redundancia funcional o revelar situaciones diferentes, es decir, no funcionalización, neo-funcionalización o sub-funcionalización⁹. Tanto neo - y sub - functionalization es acontecimientos importantes que crean novedad genética, proporcionando nuevos componentes celulares para la adaptación de la planta a los cambiantes entornos¹⁰. En particular, las duplicaciones de genes ancestrales y la producción de nuevos genes fueron muy frecuentes durante la evolución del genoma de la vid y recién formados genes procedentes de duplicaciones en tándem y proximales en vid eran más propensos a producir nuevos funciones¹¹.

Otro factor clave para descifrar la función familiar gene es el perfil transcriptómico. La disponibilidad de bases de datos públicas que da acceso a una gran cantidad de datos transcriptómicos puede explotarse así para asignar funciones putativas a miembros de la familia gen mediante análisis de expresión a gran escala en silico . De hecho, la peculiar expresión de algunos genes en órganos específicos de la planta o en respuesta a ciertas tensiones puede dar algunas pistas sobre los supuestos roles de las proteínas correspondientes en condiciones definidas y dar soporte a la hipótesis sobre la posible Sub-funcionalización de genes duplicados para responder a retos diferentes. Para ello, es importante considerar varios conjuntos de datos: estos pueden ser gene ya disponible matrices de expresión, como el atlas transcriptómico del genoma de los órganos de la vid y etapas de desarrollo¹², o puede ser construidos ad hoc por recuperar datos transcriptómicos de la especie de planta en particular sometida a tensiones definidas. Por otra parte, un enfoque simple con dos matrices, uno con los datos de similitud pares y otro con coeficientes pares coexpresión pueden aplicarse para evaluar las relaciones entre patrones de similitud y la expresión de secuencia dentro de una familia de genes.

El objetivo de este trabajo es proporcionar un enfoque global, definir estructura gene, motivos conservados de la proteína, Localización cromosómica, las duplicaciones del gene y patrones de expresión, como también la predicción de la proteína phosphorylation y localización sitios web, para lograr un caracterización exhaustiva de una familia de genes en plantas. Este enfoque integral se aplica aquí a la caracterización de la familia de ligasa de ubiquitina E3 ATL en vid. Según el rol emergente de miembros de la subfamilia ATL en la regulación de procesos celulares claves⁷, este trabajo puede también ayudar a la identificación de los candidatos fuertes para estudios funcionales y finalmente desentrañar los mecanismos moleculares que regulan la adaptación de este cultivo importante a su entorno.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. identificación de los miembros de familia de genes putativos ATL

Versión de la web de PSI-BLAST
1. Abra la página web de explosión¹³ y haga clic en la sección de alto de proteína.
2. En el campo "Secuencia de Enter Query", introduzca la secuencia de aminoácidos de la proteína (aquí VIT_05s0077g01970) que se utilizará como la punta de prueba para identificar a los otros miembros de la familia.
  Nota: Debe ser una buena representante de proteína utilizada (una proteína que muestra todas las características importantes que caracterizan a la familia).
3. En el campo "Set de búsqueda elige", seleccione la base de datos de "Proteína de referencia" (refseq_protein) y el organismo de interés (V. vinifera - taxid:29760).
4. En el campo "selección de programa", seleccionar el algoritmo de PSI-BLAST y haga clic en el botón de ráfaga para ejecutar el análisis.
  Nota: Al hacer clic en "parámetros del algoritmo" es posible ajustar algunos parámetros avanzados (secuencias diana de Max, matriz de puntuación, umbral de PSI-BLAST, etc.).
5. La primera explosión ronda recupera todas las secuencias de visualización de los partidos correspondientes a la consulta (e-valor por encima del umbral seleccionado - por defecto 0,005, 0,001 en este experimento). Deseleccionar todas las entradas, que claramente no pertenecen a la familia bajo examen haciendo clic sobre la garrapata en la columna "select para ISP-ráfaga" y ejecutar la segunda iteración de la PSI-BLAST haciendo clic en el botón de explosión como en el paso 1.1.4.
6. Recientemente identificadas secuencias están resaltadas en amarillo. Deseleccionar los éxitos obtenidos claramente erróneo y descubrir más iteraciones como se describe en el paso 1.1.5.
7. Continuar con iteraciones hasta que el algoritmo no encuentra ninguna entrada relevante o alcanza convergencia (no las entradas nuevas se encuentran). Descargar la lista de miembros de la familia gen putativo para mayores análisis. Inspeccione visualmente los éxitos obtenidos en cada iteración para evitar la presencia de falsos positivos.
Versión independiente de PSI-BLAST
1. Descargar la versión independiente de explosión haciendo clic en el botón "descargar ráfaga" en la explosión página¹³.
  Nota: El software de explosión independiente es una versión de línea de comandos de la interfaz web que se describe antes. Permite ejecutar la búsqueda PSI-BLAST contra una medida base de datos local o remota. Además, permite buscar con una predefinida posición específicos puntuación Matrix (PSSM).

2. manual inspección de PSI-BLAST-identificado miembros de la familia

Alineamiento múltiple
1. Recoger las secuencias ácidas aminos identificadas previamente en un archivo con formato FASTA y subirlo en MEGA software¹⁴ para proceder a la alineación múltiple.
2. Abra el software MEGA, haga clic en el botón "Alinear", haga clic en "Editar/construcción alineación", haga clic en "Crear una nueva alineación", haga clic en "Proteína".
3. Haga clic en "Editar" en el menú de alineación y "Secuencia insertar desde archivo". Busque el archivo FASTA creado antes y confirmar la carga de todas las secuencias de las encuestados.
4. Haga clic en "Alineación" en el menú de alineación y "Alinear por músculo". Utilizar parámetros por defecto, haz clic en el botón "Calcular" y esperar a la finalización de la alineación múltiple.
5. Inspeccione visualmente la alineación múltiple para excluir a miembros de la familia incorrectamente predichos. El canónico CxxC (13 x) PxCxHxxHxxCxxxW (x 7) CxxCW motivo, (en particular la presencia de los residuos de prolina antes la tercera cisteína), es una característica clave para definir a los miembros de la familia de ATL.
Análisis del LOGO específico
1. Presentar la lista definitiva de miembros de la familia (96 secuencias vid cumplan con los requisitos para ser considerado ATL) al Em múltiples para elicitación de adorno (MEME)¹⁵ definir motivos conservados en toda la familia.
2. Desde la página de inicio MEME, haga clic en el botón de "MEME" y completar el "presentación formulario de datos" con información particular sobre la familia de interés.
3. Utilice análisis MEME para confirmar la presencia de los dos motivos previstos dentro de los miembros de la familia Parra ATL, es decir, el anillo-H2 y los motivos GLD.
Por otra parte, realice los pasos 2.1 y 2.2 simultáneamente utilizando la suite de software de Bioinformática (véase Tabla de materiales).
1. Subir archivo FASTA (ver paso 2.1.1) en la suite. Seleccione "Archivo" en el menú, luego "Importar" y haga clic en "desde archivo". Busque el archivo FASTA y haga clic en "Abrir".
2. Seleccionar todas las secuencias importadas en la lista y en "Alinear/ensamble" botón en la barra de herramientas, haga clic en "Parejas múltiples alineación". Seleccione "Alineación músculo" y haga clic en "Aceptar" para iniciar la alineación con parámetros por defecto.
3. Para visualizar el LOGO de la alineación, haga clic en "Gráficos" → "opciones" y seleccione "Secuencia Logo".

3. Análisis de parámetros físicos de proteínas y dominios

Como la definición de los diferentes parámetros físicos de los familiares encuestados es importante tener una descripción completa de la familia, presentar la lista de miembros de la familia de herramientas específicas.
1. Punto isoeléctrico (pI) y peso molecular (kDa), utilizar la herramienta ProtParam del¹⁶ en el sitio web de Expasy con parámetros por defecto.
2. Para la localización subcelular de la proteína, utilizar diferentes herramientas para obtener una predicción más confiable como ngLOC v1.0¹⁷ con configuración predeterminada, targetP v1.1¹⁸ con ajustes predeterminados y proteína prowler localización subcelular v1.2¹⁹con un corte de la probabilidad de 0.5. Sitios de fosforilación, use el MUsite v1.0 web herramienta²⁰ con parámetros por defecto.
Investigar dominios adicionales de la proteína en miembros de la familia.
1. Abrir base de datos Pfam página²¹, seleccione la herramienta de "Búsqueda de la secuencia", presentar secuencias de la proteína en el cuadro de consulta y haga clic en "Go" para ejecutar el análisis.
  Nota: Cada secuencia de la proteína es analizada individualmente. Un e-valor de 1.0 en la configuración predeterminada permite discriminar entre golpes significativos y no significativos.
2. Abra el servidor de TMHMM²² del centro de análisis biológico de la secuencia investigar la presencia de regiones transmembranales putativas.

Pegar todas las secuencias de proteínas simultáneamente en el cuadro de consulta (o también puede cargar un archivo de texto incluyendo todas las secuencias de la proteína en formato FASTA) y haga clic en "Enviar" para ejecutar el análisis.

Analizar proteínas carentes de dominios transmembrana predichos, según TMHMM (paso 3.2.2), con la herramienta ProtScale identificar regiones hidrofóbicas putativas. Abrir ProtScale página²³. Pegar cada secuencia de la proteína en el cuadro de consulta y seleccione "Hphob. / Kyte & Doolittle "como escala de aminoácidos. Haga clic en "Enviar" para ejecutar el análisis.

4. organización del exón-intrón, duplicaciones y distribución cromosómica

Mapa de los miembros de la familia ATL en los cromosomas, basados en la información obtenida de la Página Web de centro de biotecnología de vid genoma CRIBI²⁴.
1. Buscar los denominados web página²⁵. Escriba el "archivo de entrada" como un archivo de texto delimitado por tabulaciones con las características específicas de los genes que se asignará en los cromosomas, según las directrices exhaustivas y ejemplos con respecto a la compilación del archivo proporcionado siguiendo el camino "Denominados" → " Documentación"→"Opciones"→"Input file".
2. Escribe el "título" de la obra. Seleccione el genoma que se elaborará. Para genomas no implementados en el software, como el genoma de la vid, seleccione "otro" en el menú desplegable. Escribir el archivo de genoma según las pautas y ejemplos que, siguiendo el camino "Denominados" → "Documentación" → "Opciones" → "Genoma" y lo subo.
3. Utilizar parámetros por defecto de "Espaciado de fenotipo", "Color de fenotipo", "Formato de imagen" o seleccionadas alternativas en los respectivos menús y haga clic en "Complot" para obtener la visualización de los genes en los cromosomas.
Definir el estado de la duplicación de los miembros de la familia utilizando el software de MCScanX²⁶.
1. Descargar y descomprimir una copia de MCscanX en un equipo local que ejecuta líneas de comandos 11 archivo complementario. Entrar en la carpeta MCscanX y crear los ejecutables necesarios ejecutar líneas de comandos 2 (archivo adicional 1).
  Nota: Instalación de MCscanX es conocido por fallar en algunas máquinas de Linux de 64 bits debido a un problema con respecto a la función chdir. Si un mensaje de error se devuelve relacionados con esta función el hacer ejecución del comando, se debe ejecutar el comando líneas 3 (complementario 1 de archivo) y el comando "make" debe intentarse posteriormente.
2. Descargar las proteínas V. vinifera y el archivo de anotaciones ejecuta líneas de comandos 4 (archivo adicional 1).
  Nota: El archivo de anotación de vid debe ser descomprimido y el gato de información solo de los cromosomas en un único archivo ejecutando el comando líneas 5 (archivo adicional 1).
3. Ejecutar un blastp "todos contra todos" con el archivo de la proteína V. vinifera como la consulta y el tema de búsqueda.
4. Crear una base de datos de búsqueda blast utilizando el archivo de proteína V. vinifera ejecuta líneas de comandos 6 (archivo adicional 1). Realizar la búsqueda blastp mediante el archivo de proteínas V. vinifera como una consulta contra la base de datos creado previamente mediante la ejecución de líneas de comando 71 archivo complementario.
5. Convertir el archivo de anotaciones en un formato adecuado para MCScanX. Ejecutar líneas de comandos 81 archivo complementariopara descargar la parseMSCanXgff.pl de secuencia de comandos perl personalizados. Realizar el análisis ejecuta líneas de comandos 9 (archivo adicional 1).
  Nota: Un archivo vitis.gff se genera que es gene coordenadas en el formato siguiente:
  SP # gene posición final posición inicial
  donde "sp" es un código de dos letras para la especie (Vv para vid) mientras que "#" es el nombre del andamio. Tenga en cuenta que el script de perl personalizados siempre es conveniente para la conversión de la mayoría, aunque algunos modificación del código puede ser necesario en algunos casos específicos debido a la diversidad de la información proporcionada en el archivo de anotaciones disponibles.
6. Lanzamiento de MCScanX ejecuta líneas de comandos 10 (archivo adicional 1).
  Nota: El "vitis" es el prefijo de la anotación y el archivo de salida del chorro. Esto representa un requisito obligatorio para el software se ejecute.
7. Analizar los resultados de la MCScanX. MCScanX produce un archivo de texto "vitis.collinearity", que contiene bloques de colineales. Dicho archivo se puede examinar por cualquier editor de texto (ver ejemplo 1 complementaria 1 archivode salida).
  Nota: Un directorio "mcscaxOutput.html" que contiene los archivos html con múltiples alineaciones de bloques colineares contra cada cromosoma de referencia se genera. Estos archivos pueden ser inspeccionados a través de un navegador web.
8. Clasificar genes parálogos basados en su posición relativa en los cromosomas ejecutar líneas de comandos 11 (archivo adicional 1).
  Nota: Clasificación de genes parálogos se describe en II mesa complementaria. El archivo de salida generado "vitis.gene_type" contiene toda la información de origen con un formato delimitado por tabuladores simple.
9. Realizar análisis de enriquecimiento para evaluar si la familia del gene ha originado fundamentalmente por un mecanismo específico de ejecutar líneas de comando 12 (archivo adicional 1).
  Nota: Archivo "vitis.gene_type" se genera en el paso 4.2.8, considerando que el archivo "gene_family_file" representa un archivo de texto de una línea en la que el nombre de la familia (por ejemplo, ATL_genes) es seguido por los nombres de lugar geométrico de todos los genes que pertenecen a la familia separados por un tabulador. La prueba estadística aplicada para el enriquecimiento es una prueba exacta de Fisher y el p-valores de diferentes orígenes se almacenan en el archivo "outputFile.txt".
Visualizar la organización del exón-intrón de genes mediante árbol de la vida interactivo (elOL)²⁷, una herramienta en línea para la visualización, anotación y manejo de árboles filogenéticos.
1. Subir un árbol filogenético en la sección "Upload" de la Página Web de elOL. El árbol se construye según la sección 5 a continuación. Para cada gen de miembro de la familia, recuperar predicción de la estructura génica de la anotación de la V1 del genoma de la vid (Web CRIBI citado más arriba). Calcular la longitud (en PB) de supuestas exones, intrones y regiones no traducidas (UTRs).
2. Utilizar el conjunto de datos de "Dominios de la proteína" para la visualización gráfica del patrón del exón-intrón.

Escribir un archivo de texto plano, incluyendo longitudes calculadas según las especificaciones indicadas siguiendo la ruta "Ayuda" → "páginas de ayuda" → "Tipos de conjunto de datos" → "Dominios de la proteína" en la Página Web de elOL²⁷. Utilizando el conjunto de datos de "Dominios de la proteína", el "rectángulo de (RE)" y las formas de la "brecha de rectángulo (GP)" representan el exón y NC, respectivamente.

5. phylogenetic análisis y nomenclatura

Analizar las relaciones entre los miembros de la familia a través de la construcción de un árbol filogenético de alta calidad y la definición de una nomenclatura familiar ATL.
1. Para una familia de genes de la vid, seguir las reglas establecidas por el Comité de nomenclatura de vid Super⁸.
2. Recuperar secuencias de a. thaliana ATL, necesarias como referencia para la nomenclatura del gene de vid⁸, de la base de datos de UniProt²⁸ .
3. Escribir un archivo FASTA incluyendo todas las secuencias de nucleótido de grapevine y genes a. thaliana familiares para ser incluidos en el análisis filogenético. Las secuencias de nucleótido permiten el máximo de variabilidad entre miembros de la familia (en comparación con secuencias de la proteína).
Árbol filogenético
Nota: El uso de la tubería de ²⁹ Phylogeny.fr es recomendado para obtener un árbol filogenético de alta calidad, pero no es obligatorio.
1. Ver la Página principal de Phylogeny.fr²⁹y seleccione la tubería de "Análisis de la filogenia".
  Nota: "Un clic" es conveniente en la mayoría de los casos, pero si es necesario él es posible seleccionar específica configuración avanzada ("Advanced") o incluso un análisis completamente modificado para requisitos particulares ("a la Carte"; ver paso 5.2.5).
2. Escriba el "nombre de análisis", subir el archivo FASTA creado previamente (paso 5.2.1 y haga clic en "Enviar" para ejecutar el análisis.
3. Por otra parte, si el procedimiento descrito anteriormente (pasos 5.2.1, 5.2.2) resulta en un mensaje de error, complete cada paso de la tubería de la suite de filogenia individualmente, como sigue.
  1. El músculo software página³⁰, subir el archivo FASTA en el "Paso 1", seleccione "Pearson/FASTA" como "Formato de salida" en el "Paso 2" y haga clic en "Enviar" en el "Paso 3" para alinear secuencias de consulta.
  2. Haga clic en "Descargar archivo de alineación" y guardar como archivo FASTA para nuevas medidas.
  3. Proceso el archivo FASTA de alineación para eliminar el mal alineado con Gblocks Server herramienta³¹posiciones. Subir el archivo FASTA de alineación, seleccione "ADN" como "Tipo de secuencia" y eligió la opción de rigor que mejor se ajuste con el análisis (por ejemplo, para vid ATL gen familia Seleccione las tres opciones propuestas para "menos rigurosa selección" porque de divergencia de la secuencia alta). Haga clic en "Obtener bloques" para ejecutar el análisis.
  4. Haga clic en "Alineación resultante" en la parte inferior de la página de salida y guardar los resultados como un archivo nuevo de FASTA.
  5. En la Página principal de Phylogeny.fr²⁹, seleccione a "A la carta" como tubería de "Análisis de la filogenia". A continuación, anule la selección de "Alineación múltiple" y "Conservación de la alineación". Haga clic en "Crear flujo de trabajo", subir el archivo FASTA Gblocks curada (paso 5.2.5.4), seleccione "Procedimiento de Bootstrapping" con parámetros por defecto en "Configuración" y haga clic en "Enviar" para ejecutar el análisis.
4. Ramas de colapso mal apoyada (es decir, valores de bootstrap < 70%) haciendo clic en "Sucursales de colapso" en la sección "Selección y acción" y descargar los resultados finales en el formato Newick a más análisis.
Asignar un nombre gen basado en la filogenia.
1. Revisar el árbol filogenético para evaluar la confiabilidad de la estructura de árbol por subir a la suite de elOL citada más arriba (sección 4.3).
2. Asignar manualmente un nombre de gene a cada miembro de la familia. En el caso de orthologues uno a uno, asignar la Arabidopsis-como nombre (p. ej., AtATL3 → VviATL3). Diferenciar genes de la vid (dos o más) derivados de un único homólogo de Arabidopsis con la misma distancia filogenética utilizando números o letras si el gen de Arabidopsis termina con un número (p. ej., AtATL23 → VviATL23a, VviATL23b).
3. En el caso de orthologues uno a muchos o muchos a muchos, asignar un nuevo nombre de gen compuesto de Arabidopsis-como nombre (aquí, "ATL") con un número mayor que el número más alto ya utilizado de V. vinifera y de Arabidopsis (por ej., VviATL83).
4. Completar la nomenclatura de la familia acaba de definir descendente desde la parte superior a la parte inferior del árbol filogenético.

6. vid órganos y etapa de perfiles de expresión

Generar el trabajo matriz con expresión de datos para los miembros de la familia.
1. Descargar el V. vinifera CV. Corvina gene expresión Atlas datamatrix desde el enlace distribuido en la plataforma ResearchGate del³². Este archivo contiene los valores de expresión de RMA normalizado para ser utilizado en siguiendo pasos.
2. Extraer los valores de expresión de cada gen familiar el datamatrix Atlas y escribir un "trabajo datamatrix" que contiene la misma fila de encabezado que el datamatrix de Atlas. Guardar el "trabajo datamatrix" como un archivo de texto delimitado por tabuladores.
Realizar el análisis jerárquico de Cluster de bi utilizando software Multi experimento Viewer (MeV).
1. Descargar e instalar software de MeV³³.
2. Subir el "trabajo datamatrix" (paso 6.1.2) siguiendo la ruta "Archivo" → "Cargar datos" → "Browse" y seleccione el archivo de texto. Seleccione "solo color matriz" y quitar la señal de "Carga anotación" cuando no dispone de una anotación automática. Seleccione el valor de la expresión superior de la izquierda de la previsualización del cuadro de expresión y haga clic en el botón "Cargar".
3. Ajustar los datos aplicando la transformación de Log2 ("Ajustar datos" → "Registro transformaciones" → "Log2 transformar") y la normalización de Gene/fila ("Ajustar datos" → "Ajustes de Gene/fila" → "mediana centro gen/Row"). Establecer el límite de la escala adecuada ("Display" → "configurar Color escala límites").
4. Calcular el agrupamiento jerárquico, siguiendo el camino de "Análisis" → "Clustering" → "HCL".

Seleccione "Optimizar Gene hoja orden" y "Optimizar la hoja de orden de la muestra" en "El campo pedido optimización", "Correlación de Pearson" en el campo de "Selección de la matriz de distancia" y "Vinculación promedio de clustering" en el campo de la "Selección del método de acoplamiento". A continuación, haga clic en "Aceptar" para ejecutar el análisis.

Ver los resultados en el menú "Resultados" → "HCL" en el panel izquierdo de la ventana. Exportar el mapa haciendo clic en "Guardar imagen" en el menú "Archivo".

7. expresión de perfiles en respuesta a estreses bióticos y abióticos

Repita el paso 6.1 con el ID de la adhesión de IgE obtenido de las respectivas publicaciones y estudios de investigación de estrés biótico y abiótico en vid. Por ejemplo, proporcionando el perfil de transcriptoma de las bayas de vid infectados con el hongo patógeno Botrytis cinerea utilizando el microarray de NimbleGen uva todo el genoma de los experimentos pueden ser navegados con GSE ID de GSE52586. Repita los pasos 6.1.1 y 6.1.2.
Buscar secuencia de NCBI Lee archivo³⁴ con el ID de la SRA/BioProject (p. ej., SRP055458 o PRJNA275778 para los experimentos de "sombra de flor de vid") y descargar Lee secuencia cruda asociados. RNA-seq conjuntos de datos de muchos estudios diferentes se procesan utilizando una sola tubería para consistencia.
1. Brevemente, recortar lecturas de secuencia cruda FASTQ (solo y par final) y filtro de calidad con Trimmomatic³⁵. Uso que una AVGQUAL y un MINLEN filtran de 20 y 40, respectivamente y todas por defecto de parámetros.
2. Índice 12 X vid referencia genoma¹ con Bowtie2³⁶. Descargar 12 X vid referencia genoma (p. ej., bowtie2-build) antes de ejecutar el comando bowtie2 .
3. Obtener matriz mesas con htseq Conde³⁷ utilizando el archivo de anotación (GFF/GTF) del modelo vid V1 gene.
Realizar análisis de la expresión (re-) génica diferencial en R³⁸ con limma³⁹ bibliotecas de matrices normalizadas de RMA y DESeq2⁴⁰ para mesas matriz obtenidas de pasos 7.1.1 y 7.2.1, respectivamente.
1. Realizar una comparación de "dos grupos" estándar (es decir, "tratamiento" "control"). Asegúrese de que el diseño matriz/agrupaciones de "controles" y "tratamiento" las condiciones se especifican correctamente.
  Nota: Un diseño típico para análisis de microarrays de expresión diferencial (GSE52586) para comparar EL 33 bayas infectadas con Botrytis cinerea contra bayas (sano) de control en la misma etapa de desarrollo con limma ejecuta líneas de comandos 13 se muestra en la archivo adicional 1. Se muestra un diseño típico para el análisis de expresión diferencial del RNA-seq (SRP055458 o PRJNA275778) para comparar flor (a los 7 días después de la caída de cap) bajo tratamiento de sombra contra el control con DESeq2 ejecutar líneas de comando 14 en archivo complementario 1 .
2. Obtener las listas de genes diferencialmente expresados (DEG) en cada cambio, para limma, utilice las funciones lmFit(), seguido de eBayes()y luego por topTable() funciones, mientras que para DESeq2, la DESeqDataSetFromMatrix(), DESeq()y results() funciones. A continuación, un típico flujo de trabajo a seguir.
  1. Para análisis de expresión diferencial de microarrays, vea líneas de comando 15 (archivo adicional 1). Para el análisis de expresión diferencial del RNA-seq ver líneas de comando 16 (archivo adicional 1). Repita los pasos anteriores para todos los demás contrasta con el esquema de diseño apropiado (véanse los ejemplos en el paso 7.3.1)
De las listas de DEGs generados, extraer todas las filas que no corresponden a la adhesión de ATL V1, conservan columnas que contienen el cambio de doble log2 (Control de tratamiento) > | 0.5 | y p-valores (FDR) < 0.05 y combinación de ellos en consecuencia en una tabla matriz, si un estudio cae en "abiótico" o recopilaciones de "interacción bióticos/patógeno".
Construir el heatmaps cluster jerárquico (abióticos y bióticos compendios) en R usando las bibliotecas gplots.
Nota: Llamada a la función heatmap.2 construye el mapa de calor junto con dendrogramas de fila de las tablas correspondientes de la matriz. Argumentos adicionales usando cellnote función ayuda a distinguir diferencialmente expresados (log2FC > FDR 0.5, < 0.05) genes ATL en cada comparación a través de una amplia gama de condiciones experimentales por un * símbolo. Aplicar el flujo de trabajo típico en R ejecuta líneas de comandos 17 (1 archivo suplementario) o alternativamente, repita los pasos 6.2.2 a 6.2.5 para construir los heatmaps utilizando el software de MeV.

8. Análisis de las relaciones entre la divergencia de la secuencia parálogos y coexpresión génica

Construir la matriz de similitud pares. Los elementos de la matriz de similitud son los valores de similitud de secuencia calculada a partir de los alineamientos de pares de proteínas.
1. Utilizar el relieve aguja web servidor⁴¹ con ajustes predeterminados para hacer Alineaciones de la secuencia pares y guardar como archivo de texto. Abra el archivo de texto de salida y retire todas las líneas de comentario, junto con nombres de columna y fila para generar un archivo llamado "similarityTable.txt".
  Nota: Dicha tabla tiene una línea para cada gen ATL, reportando los valores de similitud calculados en cada uno de la pares alineación. El orden de los loci en filas y columnas es el mismo para que una matriz simétrica se genera con respecto a los valores de la diagonal.
Construir la matriz con datos de coexpresión calculando el coeficiente de correlación de Pearson. El procedimiento siguiente requiere R y el módulo de perl PDL.
1. Descargar los valores de expresión de los genes ATL 96 ejecuta líneas de comandos 18 (1 archivo suplementario) en una terminal. Realizar un análisis de la co-expresión mediante un script en perl personalizados que se puede descargar mediante la ejecución de líneas de comandos 19 (archivo adicional 1). Tal script calculará el coeficiente de correlación de Pearson entre pares de loci ATL según lo divulgados previamente.
2. Iniciar la secuencia de comandos ejecuta líneas de comandos 20 (1 archivo suplementario) y siga las instrucciones de salida.

El script generará un archivo de salida (es decir, "coexpressionTable.txt") que contiene una matriz de coexpresión con el mismo orden de nombres de lugar geométrico de la matriz obtenida en el paso 8.1 (este orden es esencial para ejecutar la prueba de la chimenea, ver abajo).

Realice una prueba de Mantel entre las matrices de datos obtenidas en los pasos 8.1 y 8.2. Después de entrar en el entorno de R (ejecutar el comando "R" desde dentro de un terminal), cargar la biblioteca de ade4 usando el siguiente comando: library(ade4)

Ejecutar la prueba de Mantel cargando las matrices de dos datos y realizando las estadísticas ejecutar líneas de comando 21 (1 archivo complementario), con "nrep" que representa el número de permutaciones. La prueba consiste en calcular la correlación entre los elementos de estas matrices, permutando las matrices y luego calcular la estadística de prueba mismo otra vez.
Nota: Todos los valores obtenidos de la prueba estadística se utilizan para construir una distribución de referencia de la prueba estadística, que se utilizará para el cálculo de un p-valor para probar la significación. El número de permutaciones define la precisión con que el p-valor puede ser obtenido.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

El gen VIT_05s0077g01970, identificado como el más parecido a a. thaliana ATL2 (At3g16720) a través de una búsqueda BLASTp, fue utilizado como sonda para los familiares ATL en el genoma de la vid (V. vinifera cv Pinot Noir PN40024). El análisis PSI-BLAST converge después de algunos ciclos revela una lista de supuestos genes pertenecientes a la familia del gene ATL de vid (figura 1A). La presencia del dominio canónico del anillo-H2 para cada candidato fue evaluada mediante la inspección visual de la alineación músculo de todas las entradas identificadas en el análisis (figura 1B). Sólo aquellos genes que contengan los aminoácidos conservados correctamente espaciados, los dos residuos de histidina, así como el residuo de la prolina antes la tercera cisteína eran considerados como ATLs según la original definición de ATL en Arabidopsis⁵. Un total de 96 genes vid cumplió los requisitos y eran considerados para la caracterización de más. Cada miembro de la familia de ATL se analizó para definir las características específicas del gene y la correspondiente proteína codificada, es decir, la presencia de otros conocidos dominios además del anillo-H2, transmembranales o hidrofóbicas regiones ricas, subcelulares localización y sitios de fosforilación putativos (tabla 1 y tabla 2).

Figura 1: encuesta de PSI-BLAST y alineación de supuestos vid ATLs. (A) captura de pantalla de los éxitos del top 10 de la primera búsqueda de iteración PSI-BLAST utilizando la secuencia de la proteína VIT_05s0077g01970 como cebo. (B) parte de la alineación de la vid seleccionada 96 supuestas ATLs mostrando su dominio de anillo-H2 y el correspondiente LOGO obtenidos mediante un conjunto de biología molecular (véase Tabla de materiales). Reproducido de Ariani et al licenciado bajo una licencia Creative Commons Atribución 4.0 internacional⁴².Haga clic aquí para ver una versión más grande de esta figura.

Nombre	Identificación de genes	Longitud del gene (bp)	Número del intrón	ID de UniProt	Longitud de la proteína (aa)	Motivo del anillo-H2	Número de dominio TM/H	Otros dominios
VviATL3	VIT_09s0002g00220	1245	0	F6HXK6	304	PxC	1
VviATL4 [VviRHX1A]	VIT_15s0021g00890	1827	3	D7SM36	203	PxC	0
VviATL18	VIT_11s0118g00780	1113	2	F6HCI8	193	PC	0
VviATL23a	VIT_18s0001g01060	935	0	F6H0E4	114	PxC	0.5
VviATL23b	VIT_18s0001g01050	399	0	E0CQX3	132	PxC	1
VviATL24	VIT_17s0000g06460	4466	4	D7SI89	217	PxC	1
VviATL27	VIT_00s0264g00020	2554	4	D7T1R5	235	PxC	1
VviATL43	VIT_11s0052g00530	1576	2	D7SQD9	457	PxC	3
VviATL54a	VIT_18s0001g06640	3221	1	F6H0Y5	405	PxC	1
VviATL54b	VIT_03s0017g00670	2774	1	F6HTI0	427	PxC	1
VviATL55 [VviRING1]	VIT_07s0191g00230	1844	0	F6HRP9	372	PxC	1
VviATL63	VIT_06s0004g06930	804	0	D7SJU6	267	PxC	1
VviATL65	VIT_03s0063g01890	2068	0	F6HQI8	396	PxC	1
VviATL82	VIT_01s0026g02540	820	0	F6HPQ9	233	PC	0.5
VviATL83	VIT_17s0000g08400	1887	0	F6GSQ4	143	PC	0
VviATL84	VIT_06s0004g00120	1853	0	F6GUP5	368	PC	0.5	ZF-RING_3
VviATL85	VIT_12s0034g01400	786	0	F6H965	261	PC	0.5
VviATL86	VIT_12s0034g01390	1434	1	D7T016	451	PC	0.5
VviATL87	VIT_18s0001g03270	1002	0	F6H0T2	333	PC	0.5	ZF-RING_3
VviATL88	VIT_08s0040g00590	1320	0	F6HQR2	314	PC	0	ZF-RING_3

Tabla 1: primeros 20 VviATL genes y características de la secuencia de las proteínas correspondientes. TM: transmembrana; H: hidrofóbica; 0,5 indica la presencia de una o más regiones hidrofóbicas. Reproducido de Ariani et al licenciado bajo una licencia Creative Commons Atribución 4.0 internacional⁴².

Table 2
Tabla 2: detalles sobre los primeros 20 VviATL posición del gen en V. vinifera genoma, estado de la duplicación y ATL proteína fisico-químicas características y ubicación. (a) número de sitios de fosforilación predice Musite; (b) predicciones similares obtenidas con al menos dos software se destacan en negrita; ngLOC fue utilizado con valores por defecto, mientras que TargetP v1.1 y localización subcelular de la proteína Prowler se utilizaron con un corte de la probabilidad de 0.5. NUC, núcleo; MIT, mitocondrias; CHL, cloroplasto; PLA, membrana plasmática; S, vía secretora (presencia de un péptido señal); M, mitocondrias; C, cloroplasto; O o -, otras localidades; ND, no determinado (es decir, valor por debajo del umbral). Reproducido de Ariani et al licenciado bajo una licencia Creative Commons Atribución 4.0 internacional⁴². Haga clic aquí para descargar este archivo.

Un análisis filogenético entre las secuencias nucleotídicas de los genes de codificación de ATL vid identificadas junto con las secuencias de la familia de genes de referencia a. thaliana ATL fue utilizado para la nomenclatura ATL de grapevine, según los lineamientos de el sNCGGa⁸. Secuencias de nucleótido 96 y 83 de V. vinifera y a. thaliana, respectivamente, fueron sometidas a la tubería de Phylogeny.fr para obtener un árbol filogenético confiable.Las secuencias de este último más adelante se utilizaron para anotar y nombre genes de vid sobre la base de relaciones sólidas (figura 2). Siguiendo este enfoque, 13 de 96 vid ATLs recibió un identificador específico teniendo en cuenta su ortología uno-a-uno con un a. thaliana ATL. Los nombres de los otros 83 genes fueron asignados basados en el árbol filogenético, con una progresiva numeración de arriba hacia abajo, a partir de un número de genes ATL más alto que el más alto número utilizado en a. thaliana.

Figura 2: Árbol filogenético de V. vinifera y a. thaliana ATL E3 ubiquitina ligasa codificación genes. El árbol del neutralismo se generó con la suite de Phylogeny.fr (V. vinifera (en verde) y los genes ATL 83 de a. thaliana registrados en la base de datos de UniProt (en amarillo). Se obtuvieron valores de apoyo rama de 100 repeticiones bootstrap. Las estrellas rojas indican la presencia de un dominio de dedo (BZF) BCA2 zinc en las proteínas correspondientes. Reproducido de Ariani et al licenciado bajo una licencia Creative Commons Atribución 4.0 internacional⁴². Haga clic aquí para ver una versión más grande de esta figura.

Mapeo de genes de codificación de ATL a los cromosomas de vid demostró una amplia distribución por todo el genoma, sugiriendo la duplicación de todo el genoma como la fuerza evolutiva importante en la expansión de la familia del gene de ATL en vid. De hecho, 31 ATLs fueron encontrados en regiones cromosómicas homólogas potencialmente origina eventos de duplicación genoma segmentaria o todo. Por otra parte, el mismo análisis destacó 13 genes tandemly duplicados, un duplicado proximal y 51 duplicados dispersos (figura 3). Teniendo en cuenta el gran número de genes duplicados en la familia ATL, se realizó una prueba de enriquecimiento (prueba exacta de Fisher) para comprobar la retención preferencial de los genes duplicados durante el fraccionamiento del genoma. Con un p-valor < 0.001, esta prueba confirma la hipótesis de que duplicar genes ATL conservaron aleatoriamente más de lo esperado, sugiriendo un papel de la familia del gene ATL en grapevine adaptación y evolución.

Figura 3: Distribución de gene vid ATL-codificación de V. vinifera cromosomas y duplicación estado. Los genes de 96 vid ATL información cromosómica exacto disponible en la base de datos se asignan a los 19 cromosomas V. vinifera . Los colores indican el evento de duplicación original. Líneas negras verticales y líneas rojas identifican pares derivados de duplicaciones de tandem y las duplicaciones del genoma entero, respectivamente. Reproducido de Ariani et al licenciado bajo una licencia Creative Commons Atribución 4.0 internacional⁴². Haga clic aquí para ver una versión más grande de esta figura.

Para investigar las supuesta funciones biológicas de las ATLs en grapevine, se llevó a cabo un metanálisis en el V. vinifera CV expresión génica global de Corvina Atlas¹². El conjunto de datos incluye valores de expresión del genoma completo de 54 vid diferentes órganos y etapas de desarrollo y se utiliza para realizar un análisis jerárquico de Cluster de bi. Resultados no sólo confirmaron que todos el 96 ATLs fueron expresadas en al menos una de las 54 tejidos/etapas, pero también señaló la presencia de cinco grupos principales de perfiles de expresión (Figura 4A). Brevemente, grupos A y E demostraron frente a los comportamientos, en particular el primero se caracteriza por una desregulación general de los genes ATL en muestras menores, incluyendo inicios berry, hoja joven, zarcillos, inflorescencia y la mayoría de las fases de brote. Por otra parte, en la misma categoría A, muestras maduras como frutos en maduración y poscosecha marchitan etapas, los tejidos leñosos y últimas etapas de la semilla desarrollo ATL genes mostró un upregulation predominante. Genes en el grupo C fueron principalmente regulada en la mayoría de las muestras, mientras que ATL genes en racimo D fueron a menudo upregulated en etapas tardías del desarrollo de la baya. Por último, cluster B no mostraron variaciones relevantes en los perfiles de expresión.

Para estudiar la expresión de vid ATL miembros de la familia en respuesta a estreses bióticos y abióticos, usando conjuntos de datos específicos construido para este propósito se aplicó un enfoque similar. Una gran cantidad de datos de expresión de RNA-seq experimentos microarray están disponibles de bases de datos de acceso público como ArrayExpress Gene expresión Omnibus (GEO). Una vez recogidos y convenientemente normalizado, la información fue explotada para más información sobre la función potencial de ATLs en respuesta de las plantas al estrés. Analizar los perfiles de expresión de vid ATLs en respuesta a estreses bióticos reveló que las transcripciones de los 62 clientes de los 96 una modulación significativa (log2 doble cambio (FC) > | 0.5 |) en al menos dos condiciones, con una tarifa falsa del descubrimiento (FDR) < () 0.05 Figura 4B). El número aumenta a 81 considerando sólo el umbral de la FDR en una única condición. Estos resultados sugirieron fuertemente una implicación directa de la familia del gene ATL en la respuesta a patógenos también en vid. En particular, un grupo de 12 genes (VviATL3-27-54b-55-90-97-123-144-148-149-156) estaban fuertemente upregulated en respuesta a la mayoría de patógenos, incluyendo foliares y hongos necrótrofos y herbívoros y por lo tanto, merecen una atención para más funcional Análisis.

Figura 4: expresión del gen clusteringof jerárquica ATL vid Atlas y el dataset de relacionados con el estrés biótico vid. (A) la expresión log transforma valores de genes ATL de vid en la vid Atlas¹² se utilizaron para el análisis de cluster jerárquico basado en métricas de distancia de Pearson. El representa de escala de color superior (rojo) o bajo (verde) expresión niveles con respecto a la abundancia de la mediana de la transcripción de cada gen en todas las muestras. Letras A E a la derecha indican los diferentes clusters identificados.AB: después de la explosión; B: ruptura; Bud-W: yema de invierno; F: floración; FB: floración comienza; FS: cuajado; G: verde; MR: mediados de maduración; PFS: después de cuajado; PHWI-II-III: poscosecha deshidratación 1, 2 y 3 meses; R: de maduración; S: senescentes; vástago-W: tallo leñoso; V: envero; WD: bien desarrollado; Y: jóvenes. (B) el color escala representa mayor (rojo) o disminución de doblez (azul) cambios de la expresión de genes ATL de vid en muestras infectadas en comparación con los controles para cada condición. Los asteriscos indican la significativa expresión diferencial (FDR < 0.05) de cada ATL en las correspondientes condiciones. Reproducido de Ariani et al licenciado bajo una licencia Creative Commons Atribución 4.0 internacional⁴². Haga clic aquí para ver una versión más grande de esta figura.

1 mesa adicional: candidatos de genes ATL para empalmar alternativo. (un) ATL identificación del gen según la predicción de genes uva V1 y anotación, (b) ATL gene ID según el V2 gen uva predicción y anotación⁴³, (c) número de supuesta ATL alternativo empalmes variantes, (d) información sobre codificación de secuencia de cada supuesta variante ATL. Haga clic aquí para descargar este archivo.

Tabla adicional 2: Haga clic aquí para descargar este archivo.

Archivo adicional 1: Haga clic aquí para descargar este archivo.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

En la era genómica, muchas familias de genes se han caracterizado profundamente en varias especies de plantas. Esta información es previa a los estudios funcionales y proporcionar un marco para investigar más a fondo el papel de los diferentes miembros de una familia. En este contexto, es necesario un sistema de nomenclatura que permite identificar unívocamente a cada miembro de una familia, evitando la redundancia y confusiones que pueden surgir cuando los nombres se asignan independientemente a diferentes genes por diferentes grupos de investigación a.

Después de la consideración reflexiva, la comunidad científica de vid de acuerdo a los genes de vid de nombre en una familia basada en similitudes con genes de Arabidopsis y estableció una serie de reglas que deben aplicarse para describir nuevas familias de genes en la vid, básicamente a partir de la comparación filogenética de secuencias nucleotídicas entre vid y Arabidopsis familiares⁸. Por lo tanto, sólo los genes que ya están anotados y nombrados correctamente en Arabidopsis pueden utilizarse en la nomenclatura de la vid. Por lo tanto, se llevó a cabo el procedimiento aplicado para la identificación de la vid ATL orthologues en Arabidopsis descrito aquí únicamente a cumplir con el requisito de asignar la nomenclatura familiar del gen correcto vid. Sin embargo, para otras especies de plantas, alternativas podrían ser una opción. Por ejemplo, ortología podría ser deducido utilizando un hits de explosión bidireccional (BBH), donde orthologues se definen como pares de genes de dos especies que son más similares (es decir, con máxima puntuación de alineamiento) a uno otro que a cualquier otro gen en el otro especies⁴⁴. Sin embargo, este método podía faltar muchos orthologues en el caso de la alta tasa de duplicación del gene, tales como en plantas y animales⁴⁵. Por otra parte, en el caso de genes de codificación de ATL, BBH puede recuperar genes careciendo de la precisa estructura de ATL-tipo anillo-H2 (incluso el residuo de la prolina) o genes que no están anotados y nombrados como ATLs en Arabidopsis. Aunque desde una perspectiva evolutiva esta búsqueda puede ser relevante, la recuperación de orthologues que no anotados no habría cumplido el alcance de la vid ATL gen familiar anotación y nomenclatura y orthologues que no se anotan como ATLs no puede utilizarse para los miembros de la familia de nombre vid. Otra posibilidad es inferir homología basado en aminoácidos en lugar de secuencias de nucleótidos con InParanoid⁴⁶, o el más reciente 2 Hieranoid⁴⁷, aunque estos flujos de trabajo no estén expresamente recomendados por la comunidad científica.

Meta-análisis de la expresión, que pueden definirse como un enfoque sistemático para estudiar y combinar diferentes conjunto de datos públicamente disponibles repositorios de datos de expresión, permiten destacar mecanismos moleculares comunes y diferentes en una variedad de condiciones. Así, la integración de información de expresión de gene de experimentos a gran escala transcriptómicos múltiples puede mejorar la caracterización de una familia de genes, definiendo los perfiles de expresión de los miembros de la familia a través de experimentos, minimizando así la impacto de factores específicos del experimento y apoyar una hipótesis más robusta de la función del gen putativo en procesos específicos. Sin embargo, el uso de datos de microarray requiere la integración de los datos de expresión obtenidos con diferentes plataformas, teniendo en cuenta sus propias limitaciones. Por ejemplo, en la plataforma de microarrays de Nimblegen vid, una proporción significativa de probesets de genes correspondientes representados en la matriz (~ 13.000 genes) tienen problemas potencialmente Cruz-hibridación⁴⁸. En el caso de la familia ATL de vid, 15 genes pueden ser afectados por tal fenómeno. Sin embargo, según lo discutido por Cramer et al. ⁴⁸, la Cruz-identificación de miembros de familia gene muy similar por la misma sonda podría proporcionar información muy interesante con respecto a la expresión, en condiciones específicas, no sólo de un solo gen sino de dos genes más compartiendo secuencia alta similitudes y por lo tanto potencialmente compartir objetivos y funciones. Otro posible problema relacionado con conjuntos de datos de microarrays es el límite de detección de la expresión de microarray plataformas, que no son muy sensibles. Para resolver ambas preocupaciones, es decir., Cruz-hibridación y sensibilidad, de la señal podría ser una posible solución a tener en cuenta sólo los datos de expresión RNAseq. Sin embargo, el metanálisis de datos RNAseq de conjuntos de datos muy grandes de muchos diferentes estudios puede ser muy desperdiciador de tiempo y puede requerir muchos recursos computacionales y alta especialización.

Aunque el enfoque presentado aquí pretende ser exhaustiva, puede ser ciertamente más complementado con otros análisis. En primer lugar, para lograr más penetraciones en la evolución molecular y relación filogenética entre los miembros de la familia génica de las plantas, el análisis filogenético se podría extender construir un árbol filogenético utilizando múltiples alineaciones de la secuencia de miembros de la familia de varias especies de plantas. También es posible calcular el momento evolutivo de los genes familiares, una estimación de sus tasas de sustitución sinónimas y no sinónimas durante la evolución, mediante la determinación de los valores de Ks (número de sustituciones sinónimas por sitio sinónimo en un determinado período de tiempo) y Ka (número de nonsynonymous sustituciones por sitio no sinónimo en el mismo período). La proporción Ka/Ks se utiliza para inferir los mecanismos de los eventos de duplicación génica después de la divergencia de sus antepasados. Un valor de Ka/Ks = 1 sugiere selección neutral, un valor de Ka/Ks de < 1 sugiere purificación de selección y un valor de Ka/Ks de > 1 sugiere selección positiva⁴⁹. Por otra parte, si gen estructura análisis revela la presencia de intrones, la caracterización familiar gene puede ser ampliada a la detección de variantes de splicing alternativo. De hecho, basado en un profundo estudio de RNA-seq datos de diferentes tejidos, las condiciones de estrés y genotipos⁴³, 21 (de 96) ATLs son candidatos fuertes para eventos empalmes alternativos, con potencial número de isoformas que van desde 2 a 16 de estos ATLs (véase Complementario tabla 1). Alternativa transcripciones frecuentemente producen proteínas isoformas que varían en las secuencias de aminoácidos y estos cambios pueden alterar las propiedades celulares de proteínas y pueden causar alteraciones de la modulación sutil a la pérdida de la función del producto del gen. Por esta razón, eventos de splicing alternativos se han involucrado en funciones importantes de la planta, como respuesta al estrés, la resistencia a las enfermedades, la fotosíntesis y la floración⁵⁰^,⁵¹.Integración de la información de ATL gen promotor que contiene supuestos cis-elementos reguladores⁵² o encontrar moléculas (por ejemplo, microRNA y ARN largo no codificante) potencialmente dirigidos a ATLs⁵³ también puede ser suplido a revelan conocimientos de sistema sobre la regulación molecular complejo y la interacción de vid ATLs.

En conclusión, la elección de los análisis a realizar, así como los procedimientos a ser aplicados para caracterizar una nueva familia de genes en una especie de planta son impulsados principalmente por las normas de la comunidad científica, así como por el alcance de la identificación de familias de genes. Es importante tener en cuenta los pasos de la posible investigación posterior, que vamos a aprovechar el conjunto de información, entre los que incluye evolución de genes entre especies de plantas, descripción de estructura de genoma o candidatos confiables para la selección de funciones estudios.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Los autores no tienen nada que revelar.

Acknowledgments

El trabajo fue financiado por la Universidad de Verona, en el marco de conjunto proyecto 2014 (caracterización de la familia del gene ATL en vid y de su participación en la resistencia a Plasmopara viticola).

Materials

Name	Company	Catalog Number	Comments
Personal computer
Basic Local Alignment Search Tool (BLAST)			https://blast.ncbi.nlm.nih.gov/Blast.cgi
Molecular Evolutionary Genetics Analysis (MEGA)			http://www.megasoftware.net/
Motif-based sequence analysis tools (MEME)			http://meme-suite.org/
Geneious	Biomatters Limited		http://www.geneious.com/
ProtParam Tool			http://web.expasy.org/protparam/
ngLOC			http://genome.unmc.edu/ngLOC/index.html
TargetP v1.1 Server			http://www.cbs.dtu.dk/services/TargetP/
Protein Prowler			http://bioinf.scmb.uq.edu.au:8080/pprowler_webapp_1-2/
MUsite			http://musite.sourceforge.net/
Pfam			http://pfam.xfam.org/
TMHMM Server v. 2.0			http://www.cbs.dtu.dk/services/TMHMM/
ProtScale			http://web.expasy.org/protscale/
Grape Genome Database (CRIBI)			http://genomes.cribi.unipd.it/grape/
PhenoGram			http://visualization.ritchielab.psu.edu/phenograms/plot
MCScanX			http://chibba.pgml.uga.edu/mcscan2/
Interactive Tree Of Life (iTOL)			http://itol.embl.de/
UniProt			http://www.uniprot.org/
Phylogeny.fr			http://www.phylogeny.fr/index.cgi
MUSCLE			http://www.ebi.ac.uk/Tools/msa/muscle/
Gblocks Server			http://molevol.cmima.csic.es/castresana/Gblocks_server.html
Vitis vinifera cv. Corvina gene expression Atlas datamatrix			https://www.researchgate.net/publication/273383414_54sample_ datamatrix_geneIDs_Fasoli2012
Multi Experiment Viewer (MeV)			http://mev.tm4.org/#/welcome
Sequence Read Archive (SRA)			https://www.ncbi.nlm.nih.gov/sra
R			https://www.r-project.org/
EMBOSS Needle (EMBL-EBI)			http://www.ebi.ac.uk/Tools/psa/emboss_needle/

DOWNLOAD MATERIALS LIST

References

Jaillon, O., et al. The grapevine genome sequence suggests ancestral hexaploidization in major angiosperm phyla. Nature. 449 (7161), 463-467 (2007).
Adam-Blondon, A. -F., et al. Genetics, Genomics, and Breeding of Grapes. , Science Publishers. 211-234 (2011).
Chen, L., Hellmann, H. Plant E3 Ligases: Flexible Enzymes in a Sessile World. Mol. Plant. 6 (5), 1388-1404 (2013).
Vierstra, R. D. The ubiquitin-26S proteasome system at the nexus of plant biology. Nat. Rev. Mol. Cell Biol. 10 (6), 385-397 (2009).
Serrano, M., Parra, S., Alcaraz, L. D., Guzmán, P. The ATL Gene Family from Arabidopsis thaliana and Oryza sativa Comprises a Large Number of Putative Ubiquitin Ligases of the RING-H2 Type. J. Mol. Evol. 62 (4), 434-445 (2006).
Aguilar-Hernández, V., Aguilar-Henonin, L., Guzmán, P. Diversity in the Architecture of ATLs, a Family of Plant Ubiquitin-Ligases, Leads to Recognition and Targeting of Substrates in Different Cellular Environments. PLoS One. 6 (8), e23934 (2011).
Guzmán, P. The prolific ATL family of RING-H2 ubiquitin ligases. Plant Signal Behav. 7 (8), 1014-1021 (2012).
Grimplet, J., et al. The grapevine gene nomenclature system. BMC Genomics. 15, 1077 (2014).
Prince, V. E., Pickett, F. B. Splitting pairs: the diverging fates of duplicated genes. Nat. Rev. Genet. 3 (11), 827-837 (2002).
Magadum, S., Nerjee, U., Murugan, P., Gangapur, D., Ravikesavan, R. Gene duplication as a major force in evolution. J. Gen. 92 (1), 155-161 (2013).
Wang, N. Patterns of Gene Duplication and Their Contribution to Expansion of Gene Families in Grapevine. Plant Mol. Biol. Rep. 31 (4), 852-861 (2013).
Fasoli, M. The Grapevine Expression Atlas Reveals a Deep Transcriptome Shift Driving the Entire Plant into a Maturation Program. Plant Cell. 24 (9), 3489-3505 (2012).
BLAST. BLAST2.6.0. , Available from: https://blast.ncbi.nlm.nih.gov/Blast.cgi (2016).
MEGA. MEGA7.0.25 build 7170412. , Available from: http://www.megasoftware.net/ (2017).
MEME. MEME Suite Version 4.11.4. , Available from: http://meme-suite.org/ (2017).
ProtParam. ExPASy Server. , Available from: http://web.expasy.org/protparam/ (2005).
ngLOC v1.0. , Available from: http://genome.unmc.edu/ngLOC/index.html (2007).
TargetP v1.1 Server. , Available from: http://www.cbs.dtu.dk/services/TargetP/ (2000).
Prowler v1.2. , Available from: http://bioinf.scmb.uq.edu.au:8080/pprowler_webapp_1-2/ (2005).
MuSite v1.0. , Available from: http://musite.sourceforge.net/ (2010).
Pfam. Pfam version 31.0. , Available from: http://pfam.xfam.org/ (2016).
TMHMM v2.0c. , Available from: http://www.cbs.dtu.dk/services/TMHMM/ (2007).
ExPASy. ProtScale. , Available from: http://web.expasy.org/protscale/ (2005).
CRIBI. Grape genome database. , Available from: http://genomes.cribi.unipd.it/grape/ (2012).
PhenoGram. , Available from: http://visualization.ritchielab.psu.edu/phenograms/plot (2012).
ScanX v0.8. , Available from: http://chibba.pgml.uga.edu/mcscan2/ (2013).
Interactive Tree Of Life (iTOL). Version3.5.3. , Available from: http://itol.embl.de/ (2016).
UniProt. , Available from: http://www.uniprot.org/ (2016).
Phylogeny.fr. , Available from: http://www.phylogeny.fr/index.cgi (2008).
MUSCLE. , Available from: http://www.ebi.ac.uk/Tools/msa/muscle/ (2017).
Gblocks Server. Version 0.91b. , Available from: http://molevol.cmima.csic.es/castresana/Gblocks_server.html (2002).
Vitis vinifera cv. Corvina gene expression Atlas. , Available from: https://www.researchgate.net/publication/273383414_54sample_datamatrix_geneIDs_Fasoli2012 (2015).
Multiple Experiment Viewer (MeV). Version 4.8.1. , Available from: http://mev.tm4.org/ (2017).
Sequence Read Archive (SRA). , Available from: https://www.ncbi.nlm.nih.gov/sra (2017).
Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
Langmead, B., Salzberg, S. L. Fast gapped-read alignment with Bowtie 2. Nat Meth. 9 (4), 357-359 (2012).
Anders, S., Pyl, P. T., Huber, W. HTSeq-a Python framework to work with high-throughput sequencing data. Bioinformatics. 31 (2), 166-169 (2015).
R. Version 3.4.1. , Available from: https://www.r-project.org/ (2017).
Ritchie, M. E. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Res. 43 (7), e47 (2015).
Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology. 15 (12), 550 (2014).
EMBL-EBI. EMBOSS Needle. , Available from: http://www.ebi.ac.uk/Tools/psa/emboss_needle/ (2017).
Ariani, P. Genome-wide characterisation and expression profile of the grapevine ATL ubiquitin ligase family reveal biotic and abiotic stress-responsive and development-related members. Sci. Rep. 6, 38260 (2016).
Vitulo, N., et al. A deep survey of alternative splicing in grape reveals changes in the splicing machinery related to tissue, stress condition and genotype. BMC Plant Biol. 14 (1), 99 (2014).
Overbeek, R., Fonstein, M., D'Souza, M., Pusch, G. D., Maltsev, N. The use of gene clusters to infer functional coupling. Proc. Natl. Acad. Sci. USA. 96 (6), 2896-2901 (1999).
Dalquen, D. A., Dessimoz, C. Bidirectional Best Hits Miss Many Orthologs in Duplication-Rich Clades such as Plants and Animals. Genome Biol. Evol. 5 (10), 1800-1806 (2013).
Remm, M., Storm, C. E. V., Sonnhammer, E. L. L. Automatic clustering of orthologs and in-paralogs from pairwise species comparisons1. J. Mol. Biol. 314 (5), 1041-1052 (2001).
Kaduk, M., Sonnhammer, E. Improved orthology inference with Hieranoid 2. Bioinformatics. 33 (8), (2017).
Cramer, G. R., et al. Transcriptomic analysis of the late stages of grapevine (Vitis vinifera cv. Cabernet Sauvignon) berry ripening reveals significant induction of ethylene signaling and flavor pathways in the skin. BMC Plant Biol. 14, 370 (2014).
Juretic, N., Hoen, D. R., Huynh, M. L., Harrison, P. M., Bureau, T. E. The evolutionary fate of MULE-mediated duplications of host gene fragments in rice. Genome Res. 15 (9), 1292-1297 (2005).
Filichkin, S. A. Genome-wide mapping of alternative splicing in Arabidopsis thaliana. Genome Res. 20 (1), 45-58 (2010).
Quesada, V., Macknight, R., Dean, C., Simpson, G. G. Autoregulation of FCA pre-mRNA processing controls Arabidopsis flowering time. EMBO J. 22 (12), 3142-3152 (2003).
Wong, D. C. J., Gutierrez, R. L., Gambetta, G. A., Castellarin, S. D. Genome-wide analysis of cis-regulatory element structure and discovery of motif-driven gene co-expression networks in grapevine. DNA Res. 24 (3), 311-326 (2017).
Wong, D. C. J., Matus, J. T. Constructing Integrated Networks for Identifying New Secondary Metabolic Pathway Regulators in Grapevine: Recent Applications and Future Opportunities. Front. Plant Sci. 8, 505 (2017).

Biology

Flujo de trabajo integral para la identificación de todo el genoma y Meta-análisis de la expresión de la familia del Gene del ATL E3 ubiquitina ligasa en Grapevine

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.