Biology

Genomic IRM - une ressource publique pour l'étude des schémas de séquence dans l'ADN génomique

Published: May 9, 2011 doi: 10.3791/2663

Ashwin Prakash¹, Jason Bechtel¹, Alexei Fedorov¹

¹Department of Medicine, University of Toledo Health Science Campus

Summary

Nous présentons un site Web public de calcul pour l'analyse des séquences génomiques. Il détecte les schémas de séquences d'ADN avec les diverses organisations non-aléatoire de nucléotides compositions. Cette ressource génère également des séquences aléatoires avec les divers niveaux de complexité.

Abstract

Des régions non codantes génomique chez les eucaryotes complexes, y compris les zones intergéniques, les introns et d'exons non traduits segments, sont profondément non-aléatoire dans leur composition en nucléotides et se composent d'une mosaïque complexe de schémas séquence. Ces modèles comprennent ce qu'on appelle Mi-Range Inhomogénéité (IRM) des régions - 30-10000 séquences nucléotides de long qui sont enrichies par une base ou d'une combinaison de bases (par exemple (G + T)-riches, riches en purines, etc ). IRM régions sont associées à des structures d'ADN inhabituels (non-B-forme) qui sont souvent impliqués dans la régulation de l'expression génique, la recombinaison, et d'autres processus génétiques (Fedorova & Fedorov 2010). L'existence d'un biais de la fixation solide au sein des régions IRM contre les mutations qui ont tendance à réduire leur inhomogénéité séquence supporte en outre les fonctionnalités et l'importance de ces séquences génomiques (Prakash et al. 2009).

Ici nous démontrons une ressource Internet librement disponibles - l'ensemble des programmes génomiques IRM - (. Bechtel et al 2008) conçu pour l'analyse informatique de séquences génomiques afin de trouver et de caractériser les différents modèles d'IRM en leur sein. Ce package permet également la génération de séquences aléatoires avec des propriétés différentes et le niveau de correspondance avec les séquences d'ADN naturelles d'entrée. L'objectif principal de cette ressource est de faciliter l'examen de vastes régions des régions non codantes d'ADN qui sont encore peu étudiés et attendent d'exploration approfondie et de reconnaissance.

Protocol

Tous les programmes utilisés dans le document ont été écrites en utilisant perl, et toutes les pages web ont été créés en utilisant PHP.

1. Point de départ:

Ouvrez la page d'accueil de l'ensemble du génome à l'IRM en ligne http://mco321125.meduohio.edu/ ~ jbechtel / GMRI /. La ressource Web fournit également des instructions / des explications sur les programmes dans le menu «Aide (How-to/README)" lien, tandis que tous les documents publiés sur la génomique des algorithmes IRM et similaires sont listés dans le "Liens vers des ressources pertinentes" lien.

2. Préparation et le chargement de la séquence d'entrée (s).

Créer un fichier avec FASTA format séquence (s) pour démarrer une session d'analyse GMRI. Chaque séquence nucléotidique dans ce format devrait être précédée par une seule ligne en commençant par le caractère ">" qui représente un identificateur, suivi sur la même ligne par une courte description de cette séquence. Les séquences nucléotidiques pour l'analyse GMRI permet aussi des personnages comme R, Y, N, X, etc Hwever, non-A, T, C, G caractères ne seront pas traitées par le programme et sera ignorée. Séquences dans lesquelles les éléments répétitifs ont été «masquée» (remplacé par "N" s) peut être utilisé comme entrée. Notez que les caractères de séquence sont insensibles à la casse.

Commencez une session GMRI en cliquant sur "Démarrer ou Reprendre" sur la page d'accueil IRM génomique. Cela prend à l'utilisateur d'une page où les séquences nucléotidiques peuvent être téléchargés.
Copier-coller votre FASTA des séquences au format ou télécharger un fichier contenant les séquences à partir de votre ordinateur local en utilisant les "choisir fichier".
Cliquez sur "démarrer une nouvelle session avec ce fichier". Un message de confirmation devrait apparaître au-dessus de la fenêtre d'entrée indiquant que "Votre séquence a été téléchargé avec succès" et vous devriez également obtenir une alphanumériques "GMRI identifiant" [le site appelle un "label de session»] pour votre session (par exemple b16yMj), qui peut être utilisée pour récupérer et continuer une session pour un maximum de deux semaines après la première utilisation.

REMARQUE: Désormais les séquences d'entrée sont désignés comme "userfile".

3. Obtenir une distribution de fréquence des oligonucléotides des séquences d'entrée (en option).

Cliquez sur "ISR Analyzer" onglet (rangée du haut) afin d'obtenir une distribution des fréquences d'oligonucléotides pour l'ensemble des séquences d'entrée. L'ISR est l'acronyme de courte portée non-homogénéité. À ce stade, l'utilisateur peut spécifier la longueur de plus d'oligonucléotides (de 2 à 9 nucléotides, par défaut 6 nuits) pour les fréquences qui seront calculés. Cette sélection se fait en cliquant sur l'option souhaitée dans la case "Taille maximale oligomère" liste. Appuyez ensuite sur la "analyser un fichier" bouton pour lancer le calcul. Une représentation grossière de la composition de la séquence d'entrée apparaît immédiatement comme une courte table au milieu de cette page web et téléchargeable comme «userfile.comp.tbl". Ce tableau ne représente que les oligonucléotides les plus et les moins abondantes dans les séquences d'entrée.

Le tableau de fréquence pour tous les oligonucléotides possible est généré dans un fichier nommé "userfile.comp", qui peut être obtenue via le "fichier de composition Télécharger" lien.

REMARQUE: SRI analyseur compte l'ensemble de tous les oligonucléotides qui se chevauchent.

4. Générer des séquences aléatoires ayant la même composition oligonucléotide comme dans les séquences d'entrée (en option).

(Achèvement de l'étape 3 du protocole est requis pour cette tâche).

Cliquez sur "Générateur ISR" onglet (rangée du haut) pour ouvrir une nouvelle page web qui crée des séquences aléatoires. Choisissez le nombre d'échantillons de séquences aléatoires doit être généré en utilisant la boîte de liste sur cette page web. Chacun de ces fichiers contiennent des séquences échantillon aléatoire du nombre et de même longueur que les séquences d'entrée dans "userfile". Par ailleurs, si une séquence d'entrée contient non-A, T, C, G ou des caractères, la séquence aléatoire aura "N" s exactement les mêmes positions que dans la séquence d'entrée.
Choisissez la plus grande longueur d'oligonucléotides pour lequel les fréquences seront rapprochées dans les séquences aléatoires. Cela peut être choisi en cochant le bouton radio pour le niveau oligomère désiré (par exemple «4-Mers» pour quatre bases oligonucléotides) dans le tableau au centre de l'écran. Il est à noter ici que des séquences aléatoires consistera non seulement les fréquences approximative au niveau oligomère choisi, mais aussi les fréquences correspondantes des niveaux oligomère courte, comme dans les séquences d'entrée. Petites fluctuations de l'oligonucléotidefréquences d'entrée et de séquences aléatoires sont possibles en raison de la procédure appliquée modèle de Markov pour la génération de séquences aléatoires.
Démarrez le programme en cliquant sur "Générer un fichier" bouton. Si les séquences d'entrée sont volumineux qu'il ne pouvait prendre une couple de minutes pour générer des séquences aléatoires. Ainsi, un utilisateur doit attendre bleu "Télécharger" liens apparaissent au bas de cette page. Les jeux de hasard sont placés dans des fichiers avec des noms tels que "userfile.randX_Y" où X est le numéro de la série aléatoire et Y est le niveau oligomère choisi (par exemple "userfile_rand2_4").

5. Analyse de milieu de gamme Inhomogénéité (IRM) des entrées et des séquences aléatoires.

Cliquez sur le "Analyseur IRM" onglet (rangée du haut), ce qui ouvre une nouvelle page web qui analyse l'inhomogénéité de milieu de gamme de la composition en nucléotides de séquences.
Sélectionnez une séquence à analyser à partir du "fichier à analyser" zone de liste (un choix entre la séquence d'entrée et de jeux généré des séquences aléatoires peuvent être faites ici).
Choisissez le type de contenu de l'IRM pour être analysés via la boîte de liste fournie. (Sept options de contenu sont disponibles: G + C, G + A, G + T, A, G, C ou T.)
Choisissez la longueur de la fenêtre pour laquelle les séquences riches en contenu et le contenu des pauvres seront examinés par la case "taille de la fenêtre" liste (valeur par défaut est 50 nucléotides, la plage valide est de 30 à 1000).
Choisissez le seuil supérieur et inférieur de seuil pour les régions riches en contenu et le contenu des pauvres, respectivement. Ces seuils peuvent être définis par le nombre exact des nucléotides notamment dans la fenêtre courante (en utilisant l'option nombre par la zone de liste) ou selon le pourcentage de ces nucléotides dans la fenêtre (en utilisant l'option de par le pourcentage)
Après les cinq choix ont été faits (par exemple: Séquence = "userfile"; contenu = GC; taille de la fenêtre = 50; Seuil supérieur = 35; Basse seuil = 15), invoquez le programme en appuyant sur le bouton Analyser fichier. Le programme balaie toutes les séquences de l'entrée sélectionnée consécutivement. A chaque étape on obtient un segment de la séquence actuelle avec une longueur égale à la taille de la fenêtre spécifiée et calcule si le nombre ou le pourcentage de nucléotides du contenu choisi est au-dessus du seuil supérieur ou inférieur au seuil inférieur. Si la fenêtre ne correspond pas à deux critères, la fenêtre suivante qui se chevauchent (décalé d'un nucléotide) est sélectionné pour la même analyse. Quand une fenêtre se trouve là où la séquence répond à l'une des conditions de seuil pour le contenu riche ou pauvre en composition, le programme enregistre la séquence de cette fenêtre dans le fichier de sortie et génère une impulsion sur la sortie graphique. Après cela, le programme saute à la prochaine ne se chevauchent fenêtre adjacente et reprend le processus de numérisation jusqu'à la fin de la séquence est atteint.
Après l'achèvement du programme, un lien vers le fichier de sortie (avec le nom "userfile_GC_50_35 .. 15" pour l'exemple ci-dessus) apparaît et une représentation graphique des résultats est affichée dans le milieu de la page Web (voir Figure 1). Sur cette représentation graphique de toutes les séquences d'entrée de la userfile sont concaténés en une chaîne unique et présenté comme une ligne noire horizontale sur l'axe X, avec une longueur en kilobases (kb) ci-dessous. Toutes les régions riches en contenu le long des séquences d'entrée sont marqués en bleu "ascendante" des pointes, et le contenu des régions pauvres comme le rouge "descendante" des pointes. Le nombre total de fenêtres riches en contenu et le contenu des pauvres sont présentés dans parenthses dans la légende au bas de cette figure (32 et 19, respectivement). Le chiffre sert à illustrer l'abondance relative et la disposition des régions IRM. En attendant des détails spécifiques sont présentés dans le fichier de sortie (voir Figure 3). Dans ce dossier, tous les segments de la séquence nucléotidique qui correspondent au contenu riche ou pauvre critères et leurs coordonnées sont disponibles à un utilisateur comme une liste en fonction de leurs positions consécutives le long du fichier d'entrée.
Après achèvement de l'analyse d'IRM pour la séquence choisie, un utilisateur peut lancer un nouveau processus dans la même page Web en apportant des changements aux paramètres et / ou les fichiers d'entrée. Par exemple, afin d'examiner l'échantillon préalablement généré au hasard # 1 avec les mêmes paramètres d'IRM, l'utilisateur a seulement besoin de modifier le fichier à analyser des options et sélectionnez l'option "userfile_rand1_4" fichier, puis appuyez sur le bouton Fichier Analyser de nouveau. Un nouveau fichier et l'affichage graphique remplacera l'ancien. Les résultats et les chiffres de tous les examens sous chaque "session lable» (GMRI identifiant) sera enregistrée et sera disponible pendant deux semaines à partir de la dernière activité. Afin de sauvegarder les résultats / figueres de façon permanente, l'utilisateur doit sélectionner le "Télécharger les fichiers" onglet (rangée du haut) et télécharger toute la session ou des fichiers individuels, selon les besoins.
Avec cette page web Analyzer IRM, un utilisateur peut étudier
- (G + C) et riche (A + T)-régions riches
- Purine (A + G) et riche en pyrimidine (C + T) des régions riches
- Keto (G + T)-riche et aminés (A + C) des régions riches en
- Une des régions riches et pauvres Une
- Régions riches en G et G-pauvres
- T-régions riches et les pauvres en T
- C-riche et C-régions pauvres
La dernière version de génomique IRM a une nouvelle option pour l'étude des régions riches en purine avec (R) / pyrimidine (Y) les modèles d'alternance qui pourraient se former ADN-Z conformations. Actuellement, cette option est disponible à partir du lien "ADN-Z" et il fonctionne sur la même base que les autres régions susmentionnées IRM. Un utilisateur doit sélectionner des seuils supérieurs et inférieurs pour le nombre de (RY + YR) dinucléotides se chevauchent dans la fenêtre de numérisation. Le programme produit une sortie similaire graphique et un fichier de segments d'ADN enrichi et appauvri en alternant les purines et les pyrimidines. L'ADN-Z putatifs régions doivent être hautement enrichi par l'alternance R / Y bases (voir la revue de F & F 2011).

6. Programmes supplémentaires dans le paquet génomique IRM (en option).

Les ressources génomiques IRM a également deux options avancées pour la génération de très spécifique des séquences aléatoires. Ils sont disponibles à travers le «Générateur d'IRM» et «CDS générateur" onglets dans la rangée du haut.

Générateur de séquences IRM crée randomisés avec la même composition oligonucléotide comme le fichier d'entrée (similaire à l'ISR générateur). Toutefois, en plus, des séquences aléatoires imiter un modèle particulier l'IRM spécifié par l'utilisateur. Dans cette page web d'un utilisateur doit spécifier dans une liste déroulante un modèle particulier l'IRM pour être imité. La boîte de liste contient tous les motifs qui ont été examinés dans cette session par IRM analyseur (par exemple "userfile_GC_50_35 .. 15"). Une séquence aléatoire générée avec cette option aura la même composition oligonucléotide comme le fichier d'entrée sélectionnée et également les mêmes riches en GC et-mauvaises habitudes comme on le voit dans "userfile_GC_50_35 .. 15».
CDS générateur est utilisé pour la randomisation des séquences codant pour des protéines. Il préserve la même séquence d'acides aminés que celui codé par l'entrée spécifiée par l'utilisateur. En outre, le programme conserve le même codon et di-codon préjugés comme spécifié dans le choisis par l'utilisateur table d'entrée. La version en ligne du générateur de CDS accepte également une séquence protéique comme entrée. Toutes les autres options pour le programme sont offerts uniquement via des scripts autonomes Perl disponible pour téléchargement à partir de la page Web principale génomique IRM.

7. Les résultats représentatifs

Ce protocole permet à un utilisateur d'étudier la composition inhomogénéité des séquences nucléotidiques. Surtout, il supporte aussi la génération d'une variété de séquences aléatoires avec une composition proche de celle d'oligonucléotides de séquences d'entrée. Habituellement, les séquences génomiques des eucaryotes complexes ne sont pas homogènes dans leur composition, mais représentent plutôt une mosaïque complexe de segments de séquences enrichies par les nucléotides particulier (par exemple, riches en purines, (G + T)-riche, (A + T)-riche, etc.) Ces modèles à mi-plage d'échelle (30-1000 pb) sont visualisés par la sortie graphique de l'analyseur d'IRM qui montre sélectionnés riches en contenu que les segments supérieurs des pointes bleues et le contenu des pauvres segments inférieurs des pointes rouges (voir les figures 1 et 2). Typiquement, le nombre des régions éventuellement riches en contenu et le contenu des pauvres dans une séquence naturelle (figure 1) est de l'ordre de fois plus élevé que le nombre des mêmes types de régions correspondantes séquences randomisées (figure 2) ayant le même oligonucléotide composition. Ces segments de séquence avec milieu de gamme inhomogénéité dans la composition des nucléotides peuvent être d'intérêt pour l'utilisateur. Ils sont disponibles à partir des fichiers de sortie génomique IRM pour complément d'enquête.

Figure 1. Un exemple de la sortie de l'analyseur graphique de l'IRM de l'étape 5.7. Les résultats ont été obtenus sur un échantillon de 44 introns humains. Barres bleues représentent les positions des régions riches en GC le long de ces introns. Les barres rouges représentent GC-pauvres (ou riches en AT) IRM régions. L'axe des y contient les seuils supérieurs et inférieurs pour le type de contenu donné.

Figure 2. IRM sortie de l'analyseur pour la séquence aléatoire "userfile.rand1_4".
Le GraphiReprésentation cal de l'IRM dans une séquence aléatoire généré en utilisant le programme générateur de l'ISR.

Figure 3. Un exemple du début d'un fichier de sortie textuelle de l'analyseur d'IRM.
Toutes les séquences riches en contenu et le contenu des pauvres détecté par le programme sont présentés dans la dernière (quatrième) de la colonne. Leur position relative, mesurée en nombre de fenêtres, sont présentés dans la première colonne. Les deuxième et troisième colonnes sont des indicateurs pour les régions riches en contenu et le contenu des pauvres, respectivement.

Discussion

Les régions à composition nucléotidique inhomogène au milieu de gamme des échelles (30-1000 nucléotides) sont surabondants dans les génomes des eucaryotes complexes et peuvent être trouvés nulle part (régions intergéniques, les introns, des exons régions non traduites, les éléments répétitifs). Ces régions sont souvent associées à l'ADN conformations inhabituelles. Par exemple, les séquences purine-/pyrimidine-rich ont tendance à former des triplex ADN (H-ADN); séquences avec alternance de purine / pyrimidine bases sont associées à des ADN-Z conformations; (G + C)-régions riches présentent des anomalies structurelles dans le B- ADN et pourrait être sujette à un clivage colonne vertébrale; (A + T)-régions riches pourraient former une structure inhabituelle - un ADN dénouement élément; etc (revu par Fedorov et Fedorova 2010). Certains de ces modèles de milieu de gamme (par exemple (G + T)-régions riches) sont à peine étudiées et attendent toujours l'exploration approfondie et de reconnaissance. L'objectif principal de notre ressource Web génomique IRM est d'aider les utilisateurs dans l'identification de ces régions IRM pour leur analyse expérimentale plus loin et pour l'exploration de leurs fonctions possibles. La connaissance des régions IRM pourrait être incorporé dans et à améliorer la nouvelle génération de programmes prédicteur génétique (Shepard 2010) et de faire progresser notre compréhension des fonctions du génome et les propriétés.

Disclosures

Aucun conflit d'intérêt déclaré.

Acknowledgments

Nous sommes reconnaissants à Samuel Shepard, Peter Bazeley, et John David Bell pour l'administration des pages web génomique IRM. Ce travail a été soutenu par la National Science Foundation récompense de carrière "Enquête sur les rôles cellulaires intron" [numéro de subvention MCB-0643542].

Materials

Name	Company	Catalog Number	Comments
Computer with Internet
Files with nucleotide sequences for examination

DOWNLOAD MATERIALS LIST

References

Bechtel, J. M., Wittenschlaeger, T., Dwyer, T., Song, J., Arunachalam, S., Ramakrishnan, S. K., Shepard, S., Fedorov, A. Genomic mid-range inhomogeneity correlates with an abundance of RNA secondary structures. BMC Genomics. 9, 284-284 (2008).
Prakash, A., Shepard, S., Mileyeva-Biebesheimer, O., He, J., Hart, B., Chen, M., Amarachiniha, S., Bechtel, J., Fedorov, A. Molecular forces shaping human genomic sequence at mid-range scales. BMC Genomics. 10, 513-513 (2009).
Fedorov, A., Fedorova, L. Chapter 3: An Intricate Mosaic of Genomic Patterns at Mid-range Scale. Advances in Genomic Sequence Analysis and Pattern Discovery. , 65-91 (2010).
Shepard, S. S. Chapter 4: Binary-abstracted Markov models and their application to sequence classificatio. The characterization and utilization of middle-range sequence patterns within human genome [dissertation]. , The University of Toledo. 57-157 (2010).

Biology

Genomic IRM - une ressource publique pour l'étude des schémas de séquence dans l'ADN génomique

Summary

Abstract

Protocol

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Protocol

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.