Genómica resonancia magnética - un recurso público para el estudio de patrones de secuencia en el ADN genómico

Biology
 

Summary

Se presenta un sitio web público de computación para el análisis de secuencias genómicas. Se detecta patrones de secuencias de ADN con varias organizaciones no-aleatorio composiciones de nucleótidos. Este recurso también genera secuencias al azar, con diversos niveles de complejidad.

Cite this Article

Copy Citation | Download Citations | Reprints and Permissions

Prakash, A., Bechtel, J., Fedorov, A. Genomic MRI - a Public Resource for Studying Sequence Patterns within Genomic DNA. J. Vis. Exp. (51), e2663, doi:10.3791/2663 (2011).

Please note that all translations are automatically generated.

Click here for the english version. For other languages click here.

Abstract

Regiones no codificantes genómica en eucariotas complejas, incluyendo las zonas intergénicas, intrones, y los segmentos no traducidos de los exones, son profundamente no-aleatorio en su composición de nucleótidos y se componen de un mosaico complejo de patrones de secuencia. Estos modelos incluyen los llamados Tres homogeneidad (MRI) regiones - 30-10000 secuencias de nucleótidos de longitud que se enriquecen con una base o de una combinación de bases (por ejemplo, (G + T)-ricos, ricos en purina, etc ). Regiones RM están asociados con estructuras de ADN extraño (no-B-forma), que a menudo están involucrados en la regulación de la expresión genética, la recombinación, y otros procesos genéticos (Fedorova y Fedorov 2010). La existencia de un sesgo fuerte fijación en las regiones MRI contra las mutaciones que tienden a reducir su falta de homogeneidad de secuencias, además, compatible con la funcionalidad y la importancia de estas secuencias genómicas (Prakash et al. 2009).

Aquí se demuestra un recurso de Internet de libre acceso - el paquete de Genómica programa MRI - (. Bechtel et al 2008) diseñado para el análisis computacional de secuencias genómicas con el fin de encontrar y caracterizar diferentes patrones de resonancia magnética en su interior. Este paquete también permite la generación de secuencias al azar con diferentes propiedades y el nivel de correspondencia con las secuencias de ADN natural de entrada. El objetivo principal de este recurso es facilitar el examen de las vastas regiones de ADN no codificante que aún no se ha investigado y esperar minuciosa exploración y reconocimiento.

Protocol

Todos los programas que se utilizan en el documento se han escrito usando Perl, y todas las páginas web se han creado usando PHP.

1. Punto de partida:

Abra la página principal del paquete en línea MRI Genómica http://mco321125.meduohio.edu/ ~ jbechtel / GMRI /. El recurso en la web también proporciona instrucciones / explicaciones sobre los programas de la "Ayuda (How-to/README)" que aparece, mientras que todos los materiales publicados en Genómica algoritmos de resonancia magnética y otras similares aparecen en la "Enlaces a los recursos pertinentes" enlace.

2. Preparación y carga de entrada de secuencia (s).

Cree un archivo con formato FASTA-secuencia (s) para iniciar una sesión de análisis GMRI. Cada secuencia de nucleótidos en este formato debe ser precedido por una sola línea de partida con el carácter ">" que representa un identificador, seguido en la misma línea con una breve descripción de esta secuencia. Las secuencias de nucleótidos para el análisis también permite GMRI personajes como R, S, N, X, etc Hwever, no-A, T, C, G personajes no serán procesados ​​por el programa y se evitará. Secuencias en las que los elementos repetitivos han sido "enmascarado" (por "N" s) se puede utilizar como entrada. Tenga en cuenta que los caracteres de la secuencia son mayúsculas y minúsculas.

  1. Inicie una sesión GMRI haciendo clic en "Iniciar o reanudar" el botón en la página principal de MRI Genómica. Esto lleva al usuario a una página donde las secuencias de nucleótidos se pueden cargar.
  2. Copiar y pegar con formato FASTA secuencias o cargar un archivo que contiene las secuencias de su equipo local mediante el "elegir archivo".
  3. Haga clic en la "nueva sesión comenzará con este archivo". Un mensaje de confirmación debe aparecer por encima de la ventana de entrada que indica que "La secuencia se ha subido correctamente" y también debe tener un carácter alfanumérico "GMRI identificador" [el sitio de la llama una "etiqueta de sesión"] de la sesión (por ejemplo, b16yMj), que se puede utilizar para recuperar y continuar una sesión de hasta dos semanas después del primer uso.

NOTA: A partir de entonces las secuencias de entrada se conocen como "userfile".

3. Obtener una distribución de frecuencias de oligonucleótidos de las secuencias de entrada (opcional).

Haga clic en el "Analizador de SRI" (la fila de arriba) con el fin de obtener una distribución de frecuencias de oligonucleótidos para el conjunto de secuencias de entrada. El acrónimo SRI representa la falta de homogeneidad de corto alcance. En este momento, el usuario puede especificar la longitud máxima de oligonucleótidos (de 2 a 9 nucleótidos, por defecto 6 noches) para los que las frecuencias se calcula. Esta selección se realiza haciendo clic en la opción deseada en el cuadro "Tamaño máximo de oligómero" lista. A continuación, pulse el botón "Analizar archivos" para iniciar el cálculo. Una representación aproximada de la composición de la secuencia de entrada de inmediato aparecerá como una pequeña tabla en medio de esta página web y descargarse como "userfile.comp.tbl". Esta tabla representa sólo los oligonucleótidos más y el menos abundante en las secuencias de entrada.

La tabla de frecuencias para todos los oligonucleótidos posibles se genera un archivo llamado "userfile.comp", que se puede obtener a través de la "Descarga de archivos composición" enlace.

NOTA: SRI analizador cuenta el conjunto de todos los oligonucleótidos se superponen.

4. Generar secuencias aleatorias con la misma composición de oligonucleótidos Al igual que en las secuencias de entrada (opcional).

(Finalización de la etapa 3 del protocolo es necesario para esta tarea).

  1. Haga clic en el "Generador de SRI" (la fila superior) para abrir una nueva página web que crea secuencias aleatorias. Elija el número de muestras de las secuencias al azar que se genera mediante el cuadro de lista en esta página web. Cada uno de estos archivos de muestra contendrá secuencias aleatorias de la misma cantidad y la duración de las secuencias de entrada en "userfile". Por otra parte, si una secuencia de entrada contiene no-A, T, C, G o caracteres, la secuencia aleatoria se han "N" s exactamente en las mismas posiciones que en la secuencia de entrada.
  2. Elija la más larga longitud de los oligonucleótidos de las frecuencias que se aproximan en las secuencias aleatorias. Esto puede ser elegido por comprobar el botón de radio para el nivel de oligómero deseado (por ejemplo, "4-dores" de oligonucleótidos de cuatro bases) en la mesa en el centro de la pantalla. Es de hacer notar que las secuencias aleatorias consistirá no sólo de las frecuencias aproximadas a nivel oligómero elegido, sino también las frecuencias correspondientes de los niveles de oligómeros más cortos, como en las secuencias de entrada. Pequeñas fluctuaciones en el oligonucleótidolas frecuencias de entrada y secuencias aleatorias son posibles debido al procedimiento de Markov Model aplicada para la generación de secuencias aleatorias.
  3. Inicie el programa haciendo clic en la opción "Generar Archivo". Si las secuencias de entrada son grandes puede tardar un par de minutos para generar secuencias aleatorias. Así, un usuario debe esperar hasta azul "Download" enlaces aparecen en la parte inferior de esta página. Los juegos de azar se encuentran en archivos con nombres como "userfile.randX_Y", donde X es el número de la serie aleatoria e Y es el nivel de oligómero elegido (por ejemplo, "userfile_rand2_4").

5. Análisis de la media en la falta de homogeneidad (MRI) de entrada y secuencias aleatorias.

  1. Haga clic en el "Analizador de resonancia magnética" (la fila superior), lo que abre una nueva página web que analiza la falta de homogeneidad de gama media de la composición de nucleótidos de las secuencias.
  2. Seleccione una secuencia a analizar desde el "Archivo de analizar" cuadro de lista (a elegir entre la secuencia de entrada y establece generados de secuencias aleatorias se pueden hacer aquí).
  3. Elija el tipo de contenido de la resonancia magnética que se analizó a través del cuadro de lista. (Siete opciones de contenido están disponibles: G + C, G + A, G + T, A, G, C, o T.)
  4. Elija la longitud de la ventana para que las secuencias ricas en contenido y el contenido de los pobres-serán examinados a través del cuadro "Tamaño de la ventana" lista (por defecto es de 50 nucleótidos, el rango válido es de 30 a 1000).
  5. Elegir el umbral superior e inferior de umbral de las regiones ricas en contenido y el contenido de los pobres, respectivamente. Estos umbrales se puede definir el número exacto de nucleótidos particular en la ventana actual (con la opción de número de la lista) o por el porcentaje de estos nucleótidos en la ventana (con la opción de porcentaje)
  6. Después de las cinco opciones se han hecho (por ejemplo: Secuencia = "userfile"; Contenido = GC, tamaño de la ventana = 50; límite superior = 35; límite inferior = 15), abra el programa pulsando el botón Analizar archivos. El programa explora todas las secuencias de la entrada seleccionada en forma consecutiva. En cada paso se obtiene un segmento de la secuencia actual con una longitud igual al tamaño de la ventana especificada y calcula si el número o porcentaje de los nucleótidos del contenido seleccionado está por encima del límite superior o por debajo del umbral inferior. Si la ventana no coincide con cualquiera de los criterios, la siguiente ventana se superponen (cambiado por un nucleótido) es seleccionado para el mismo análisis. Cuando una ventana donde se encuentra la secuencia cumple uno de los requisitos mínimos de contenido-ricos o pobres en la composición, el programa guarda la secuencia de la ventana, en el archivo de salida y genera un aumento en la producción gráfica. Después de esto, el programa salta a la siguiente que no se superponen ventana adyacente y se reanuda el proceso de exploración hasta el final de la secuencia se alcanza.
  7. Después de la finalización del programa, un vínculo al archivo de salida (con el nombre de "userfile_GC_50_35 .. 15" para el ejemplo anterior) y aparece una representación gráfica de los resultados se muestra en el centro de la página web (ver Figura 1). En esta pantalla gráfica de todas las secuencias de entrada de la userfile se concatenan en una sola cadena y se presenta como una línea horizontal negro en el eje X, con una longitud de kilobases (kb) se muestra a continuación. Todas las regiones ricas en contenido a lo largo de las secuencias de entrada están marcados en azul "hacia arriba" los picos, y el contenido de los pobres regiones como el rojo "hacia abajo" picos. El número total de ventanas de contenido rico y pobre de contenido, se muestran en parenthses en la leyenda en la parte inferior de esta figura (32 y 19, respectivamente). La figura sirve para ilustrar la abundancia relativa y la disposición de las regiones de resonancia magnética. Mientras tanto, los detalles específicos se presentan en el archivo de salida (ver Figura 3). En este archivo, todos los segmentos de la secuencia de nucleótidos que coinciden con el contenido-ricos o pobres-los criterios y sus coordenadas están disponibles para un usuario como una lista de acuerdo con sus posiciones consecutivas a lo largo del archivo de entrada.
  8. Después de completar el análisis de resonancia magnética de la secuencia elegida, un usuario puede iniciar un nuevo proceso en la misma página web y hacer cambios a los parámetros y / o archivos de entrada. Por ejemplo, con el fin de examinar la muestra previamente generados al azar # 1 con los parámetros de resonancia magnética mismo, el usuario sólo tiene que cambiar el archivo a analizar y seleccionar la opción "userfile_rand1_4" archivo, y luego presione el botón Analizar archivos de nuevo. Un nuevo archivo y la pantalla gráfica remplazará la vieja. Los resultados y las cifras de todos los exámenes en cada "sesión lable" (GMRI identificador) se guardará y estará disponible durante dos semanas a partir de la última actividad. Con el fin de guardar los resultados / figdas de forma permanente, el usuario debe seleccionar la opción "Descargar archivos" ficha (fila superior) y descargar toda la sesión o archivos individuales, según sea necesario.
  9. Con esta página web analizador de resonancia magnética que un usuario puede estudiar
    • (G + C)-ricos y (A + T), las regiones ricas
    • Purina (A + G), ricos y pirimidina (C + T) las regiones ricas
    • Keto (G + T)-ricos y los aminoácidos (A + C) las regiones ricas
    • A las regiones ricas y pobres-A
    • G-regiones ricas y pobres-G
    • T-regiones ricas y pobres-T
    • C-ricos y pobres, las regiones C
  10. La última versión de Genómica resonancia magnética tiene una nueva opción para el estudio de las regiones ricas con las purinas (R) / pirimidina (Y) los patrones de alteración que pudieran formar Z-DNA conformaciones. En la actualidad, esta opción está disponible desde el enlace de "Z-DNA" y funciona en las mismas condiciones que otras regiones de resonancia magnética antes mencionados. Un usuario debe seleccionar los umbrales superior e inferior para el número de (RY + YR) dinucleótidos se superponen en la ventana de exploración. El programa produce una salida similar gráfica y un archivo de segmentos de ADN enriquecido o empobrecido por la alternancia de purinas y pirimidinas. La supuesta Z-DNA regiones debe ser altamente enriquecido por la alternancia de R / Y las bases (ver el comentario de F & F 2011).

6. Programas adicionales en el paquete de Genómica resonancia magnética (opcional).

El recurso de MRI genómica también tiene dos opciones avanzadas para la generación de secuencias aleatorias muy específicas. Están disponibles a través del "Generador de resonancia magnética" y "Generador de CDS" fichas de la fila superior.

  1. Generador de resonancia magnética crea secuencias aleatorias con la misma composición de oligonucleótidos como el archivo de entrada (similar al SRI generador). Sin embargo, además, secuencias aleatorias imitar un patrón particular resonancia magnética especificada por el usuario. Dentro de esta página web, el usuario debe especificar un cuadro de lista de un patrón particular de resonancia magnética para ser imitado. El cuadro de lista contiene todos los patrones que se han examinado en esta sesión por resonancia magnética analizador (por ejemplo, "userfile_GC_50_35 .. 15"). Una secuencia aleatoria generada con esta opción no tendrá la misma composición de oligonucleótidos que el archivo de entrada seleccionada y la misma GC-ricos y los pobres patrones de como se ve en "userfile_GC_50_35 .. 15".
  2. CDS generador se utiliza para la asignación al azar de las secuencias codificantes de proteínas. Conserva la misma secuencia de aminoácidos como la que codifica la entrada especificado por el usuario. Además, el programa mantiene el mismo codón sesgos y di-codón como se especifica en los usuarios puedan elegir la tabla de entrada. La versión en línea del generador de CDS también acepta una secuencia de la proteína como una entrada. Todas las demás opciones para el programa sólo se ofrecen a través de stand-alone scripts de Perl disponible para su descarga desde la página web Genómica MRI principal.

7. Resultados representante

Este protocolo permite a los usuarios para estudiar la falta de homogeneidad de la composición de las secuencias de nucleótidos. Es importante destacar, que también apoya la generación de una variedad de secuencias al azar, con una composición de oligonucleótidos que se aproxima a una de las secuencias de entrada. Por lo general, las secuencias genómicas de los eucariotas complejos no son homogéneos en su composición, sino que representan un complejo mosaico de segmentos de secuencia enriquecida con nucleótidos en particular (por ejemplo, ricos en purina, (G + T)-rica, (A + T)-rica, etc.) Estos patrones de gama media escala (desde 30 hasta 1.000 pb) se visualizan en la salida gráfica del analizador de resonancia magnética que muestra seleccionada de contenido rico en segmentos como los picos superior azul y el contenido de los pobres como los segmentos más bajos picos rojos (ver Figuras 1 y 2). Normalmente, el número de las regiones que gran cantidad de contenido y el contenido de los pobres-en una secuencia natural (Figura 1) es del orden de veces mayor que el número de los mismos tipos de regiones en las correspondientes secuencias al azar (Figura 2) tener el mismo oligonucleótido composición. Estos segmentos de la secuencia de gama media con la falta de homogeneidad en la composición de nucleótidos pueden ser de interés para el usuario. Están disponibles en los archivos de salida Genómica resonancia magnética para una mayor investigación.

Figura 1
Figura 1. Un ejemplo de la salida del analizador de resonancia magnética gráfica del paso 5.7. Los resultados han sido obtenidos en una muestra de 44 intrones humanos. Barras azules representan las posiciones de las regiones ricas en GC-a lo largo de estos intrones. Las barras rojas representan GC-pobre (o rica en AT) MRI regiones. El eje y contiene los umbrales superior e inferior para el tipo de contenido determinado.

Figura 2
Figura 2. MRI de salida del analizador de la secuencia aleatoria "userfile.rand1_4".
El gráficamentecal representación de la resonancia magnética dentro de una secuencia aleatoria generada con el programa generador de SRI.

Figura 3
Figura 3. Un ejemplo de los principios de un archivo de salida de texto de analizador de resonancia magnética.
Todas las secuencias ricas en contenido y el contenido de los pobres detectados por el programa se presentan en el último (cuarto) de la columna. Su posición relativa, medido en el número de ventanas, se muestran en la primera columna. La segunda y tercera columnas son los indicadores para las regiones ricas en contenido y el contenido de los pobres, respectivamente.

Discussion

Regiones con una composición no homogénea de nucleótidos en las escalas de gama media (30 a 1000 nucleótidos) son sobreabundantes en los genomas de eucariotas complejas y se pueden encontrar en cualquier lugar (regiones intergénicas, intrones, regiones no traducidas de los exones, elementos repetitivos). Estas regiones se asocia con frecuencia a las conformaciones de ADN extraño. Por ejemplo, las secuencias de purine-/pyrimidine-rich tienden a formar tríplex de ADN (H-DNA), con la alternancia de secuencias de purina / pirimidina se asocian a Z-DNA conformaciones; (G + C) regiones ricas presentan anomalías estructurales en el B- ADN y podrían ser propensos a la ruptura columna vertebral, (A + T)-regiones ricas podrían formar una estructura inusual - un elemento de la anulación de ADN, etc (revisado por Fedorov y Fedorova 2010). Algunos de estos modelos de gama media (por ejemplo, (G + T)-regiones ricas) se no se ha investigado y aún esperan minuciosa exploración y reconocimiento. El objetivo principal de nuestro recurso Genómica web RM es ayudar a los usuarios en la identificación de estas regiones de resonancia magnética para su análisis experimental más allá y para la exploración de sus posibles funciones. El conocimiento de las regiones de la RM puede ser incorporada y mejorar la nueva generación de programas de predicción de genes (Shepard 2010) y avanzar en nuestra comprensión de las funciones y propiedades del genoma.

Disclosures

No hay conflictos de interés declarado.

Acknowledgments

Agradecemos a Samuel Shepard, Bazeley Pedro y Juan David Bell para la administración de las páginas web de MRI Genómica. Este trabajo fue apoyado por la National Science Carrera premio de la Fundación "La investigación de intrón funciones celulares" [el número de concesión MCB-0643542].

Materials

Name Company Catalog Number Comments
Computer with Internet
Files with nucleotide sequences for examination

DOWNLOAD MATERIALS LIST

References

  1. Bechtel, J. M., Wittenschlaeger, T., Dwyer, T., Song, J., Arunachalam, S., Ramakrishnan, S. K., Shepard, S., Fedorov, A. Genomic mid-range inhomogeneity correlates with an abundance of RNA secondary structures. BMC Genomics. 9, 284-284 (2008).
  2. Prakash, A., Shepard, S., Mileyeva-Biebesheimer, O., He, J., Hart, B., Chen, M., Amarachiniha, S., Bechtel, J., Fedorov, A. Molecular forces shaping human genomic sequence at mid-range scales. BMC Genomics. 10, 513-513 (2009).
  3. Fedorov, A., Fedorova, L. Chapter 3: An Intricate Mosaic of Genomic Patterns at Mid-range Scale. Advances in Genomic Sequence Analysis and Pattern Discovery. 65-91 (2010).
  4. Shepard, S. S. Chapter 4: Binary-abstracted Markov models and their application to sequence classificatio. The characterization and utilization of middle-range sequence patterns within human genome [dissertation]. The University of Toledo. 57-157 (2010).

Comments

0 Comments


    Post a Question / Comment / Request

    You must be signed in to post a comment. Please or create an account.

    Usage Statistics