Genomische MRI - een openbare hulpbron voor het bestuderen van Sequence patronen binnen Genomic DNA

Biology
 

Summary

We presenteren een openbare computationele website voor de analyse van genomische sequenties. Het detecteert DNA-sequentie-patronen met verschillende niet-willekeurige nucleotide composities. Deze bron genereert ook gerandomiseerde sequenties met verschillende niveaus van complexiteit.

Cite this Article

Copy Citation | Download Citations | Reprints and Permissions

Prakash, A., Bechtel, J., Fedorov, A. Genomic MRI - a Public Resource for Studying Sequence Patterns within Genomic DNA. J. Vis. Exp. (51), e2663, doi:10.3791/2663 (2011).

Please note that all translations are automatically generated.

Click here for the english version. For other languages click here.

Abstract

Niet-coderende genomische regio's in complexe eukaryoten, waaronder intergenische gebieden, introns, en de onvertaalde segmenten van exonen, zijn diep niet-willekeurige in hun nucleotide samenstelling en bestaan ​​uit een complex mozaïek van sequentie-patronen. Deze patronen zijn onder de zogenaamde middenklasse inhomogeniteit (MRI) regio's - sequenties 30-10000 nucleotiden in lengte die zijn verrijkt met een bepaalde basis of een combinatie van basen (bv. (G + T)-rijke, purine-rijke, etc. ). MRI's worden geassocieerd met ongewoon (niet-B-vorm) DNA-structuren die vaak betrokken zijn bij de regulatie van genexpressie, recombinatie, en andere genetische processen (Fedorova & Fedorov 2010). Het bestaan ​​van een sterke fixatie vooroordeel binnen MRI's tegen mutaties die de neiging hebben te verminderen de volgorde inhomogeniteit bovendien de functionaliteit en het belang van deze genomische sequenties (Prakash et al.. 2.009) ondersteunt.

Hier laten we zien een vrij beschikbare Internet-bron - het Genomic MRI-programma pakket - (. Bechtel et al. 2008) ontworpen voor computationele analyse van de genomische sequenties in om uit te vinden en verschillende MRI-patronen karakteriseren in hen. Dit pakket maakt het ook mogelijk generatie van gerandomiseerde sequenties met verschillende eigenschappen en het niveau van correspondentie aan de natuurlijke ingang DNA-sequenties. Het belangrijkste doel van deze bron is het vergemakkelijken van het onderzoek van grote delen van niet-coderend DNA die nog nauwelijks zijn onderzocht en wachten op een grondige verkenning en erkenning.

Protocol

Alle gebruikte programma's in de krant zijn geschreven met behulp van perl, en alle webpagina's zijn gemaakt met behulp van PHP.

1. Startpunt:

Open de homepage van de online Genomic MRI-pakket op http://mco321125.meduohio.edu/ ~ jbechtel / gmri /. Het web bron geeft ook instructies / uitleg over de programma's in de "Help (How-to/README)" link, terwijl alle gepubliceerde materialen op genomic MRI en soortgelijke algoritmen zijn opgenomen in de "Links naar relevante bronnen" link.

2. Voorbereiding en uploaden van Input Sequence (s).

Maak een bestand met FASTA-geformatteerde sequentie (s) om een ​​GMRI analyse sessie te starten. Elke nucleotidesequentie in dit formaat moet worden voorafgegaan door een enkele lijn te beginnen met de '>' karakter dat een identifier vertegenwoordigt, gevolgd op dezelfde lijn door een korte beschrijving van deze reeks. Nucleotide-sequenties voor GMRI analyse ook personages als R, Y, N, X, etc. Hwever, non-A, T, C het toelaat, zal G tekens die niet worden verwerkt door het programma en zal worden overgeslagen. Sequenties in die repetitieve elementen zijn "gemaskeerd" (vervangen door "N" s) kan worden gebruikt als input. Merk op dat reeks tekens zijn niet hoofdlettergevoelig.

  1. Begin een GMRI sessie door te klikken op de "Start of Resume" knop op de Genomic MRI home page. Dit brengt de gebruiker naar een pagina waar nucleotide sequenties kunnen worden geüpload.
  2. Copy-en-plak je FASTA-geformatteerde sequenties of upload een bestand met de sequenties van uw lokale computer met behulp van het "kies bestand" knop.
  3. Klik op de "start nieuwe sessie met dit bestand" knop. Een bevestigingsbericht moet worden weergegeven boven de ingang venster waarin staat dat "Uw reeks succesvol is geupload" en je moet ook krijg je een alfanumeriek "GMRI identifier" [de site noemt het een "sessie label"] voor uw sessie (bijv. b16yMj), die kan worden gebruikt op te halen en blijven een sessie voor maximaal twee weken na het eerste gebruik.

LET OP: Voortaan de input sequenties worden aangeduid als "userfile".

3. Krijgen een Oligonucleotide frequentieverdeling van de Input sequenties (optioneel).

Klik op de "SRI Analyzer" tab (bovenste rij) om een verdeling van de oligonucleotide frequenties voor de gehele set van input sequenties te krijgen. De afkorting SRI staat voor korte afstanden inhomogeniteit. Op dit moment, kan de gebruiker de hoogste lengte van de oligonucleotiden (van 2 tot 9 nucleotiden, standaard 6 gen) voor welke frequenties zal worden berekend. Deze selectie wordt gemaakt door te klikken op de gewenste optie in het "Maximum oligomeer size" keuzelijst. Druk vervolgens op de "Analyze File" knop om de berekening te starten. Een ruwe weergave van de inputsequentie samenstelling verschijnt onmiddellijk als een korte tafel in het midden van deze webpagina en downloadbare als "userfile.comp.tbl". Deze tabel geeft alleen de meest en de minst overvloedige oligonucleotiden in de input sequenties.

De gehele frequentie tabel voor alle mogelijke oligonucleotiden wordt gegenereerd als een bestand met de naam "userfile.comp", die verkregen kan worden via de "Download samenstelling file" link.

LET OP: SRI analyzer telt de hele verzameling van alle overlappende oligonucleotiden.

4. Genereer willekeurige reeksen met dezelfde Oligonucleotide samenstelling als in de Input Sequences (optioneel).

(Voltooiing van stap 3 van het protocol is nodig voor deze taak).

  1. Klik op de "SRI Generator" tab (bovenste rij) te openen een nieuwe webpagina die willekeurige reeksen creëert. Kies het aantal monsters van willekeurige sequenties worden gegenereerd met behulp van de keuzelijst op deze webpagina. Elk van deze sample bestanden bevatten willekeurige sequenties van hetzelfde aantal en de lengte als de input sequenties in "userfile". Bovendien, als een input sequentie bevat niet-A, T, C, G of tekens, de willekeurige volgorde zal "N" s hebben op exact dezelfde posities als in de input volgorde.
  2. Kies de langste lengte van oligonucleotiden die frequenties zullen worden benaderd in de random sequenties. Dit kan worden gekozen door het controleren van de radio knop voor de gewenste oligomeer-niveau (bijv. "4-mers 'voor vier-base oligonucleotiden) in de tabel in het midden van het scherm. Het is om hier te worden opgemerkt dat de willekeurige reeksen zal bestaan ​​uit niet alleen de geschatte frequenties op de gekozen oligomeer niveau, maar ook de bijbehorende frequenties van kortere oligomeer niveaus, zoals in de input sequenties. Kleine schommelingen in de oligonucleotidefrequenties van de input en willekeurige reeksen zijn mogelijk te wijten aan de Markov Model procedure die wordt toegepast voor het genereren van willekeurige reeksen.
  3. Start het programma door te klikken op "Generate File" knop. Als de ingang sequenties zijn groot is, kon een paar minuten om willekeurige reeksen te genereren. Daarom moet een gebruiker wachten tot blue "Download" links onderaan deze pagina. De willekeurige sets zijn geplaatst in bestanden met namen zoals "userfile.randX_Y", waarbij X is het nummer van de willekeurige set en Y is het gekozen oligomeer-niveau (bv "userfile_rand2_4").

5. Analyse van de Mid-Range inhomogeniteit (MRI) van de Input en Random sequenties.

  1. Klik op de "MRI Analyzer" tab (bovenste rij), die opent een nieuwe webpagina die de mid-range inhomogeniteit van de nucleotide samenstelling van sequenties analyses.
  2. Selecteer een sequentie worden geanalyseerd uit de keuzelijst (een keuze tussen de inputsequentie en behaalde sets van willekeurige sequenties kunnen hier worden gemaakt) "Bestand om te analyseren".
  3. Kies het type inhoud van de MRI te analyseren via de meegeleverde keuzelijst. (Zeven content opties zijn beschikbaar: G + C; G + A, G + T, A, G, C, of ​​T.)
  4. Kies de lengte van het venster voor die content-rijke en content-armen sequenties zal worden onderzocht via de "Window size" keuzelijst (standaard is 50 nucleotiden, het geldige bereik van 30 tot 1000).
  5. Kies de bovenste drempel en onderste drempel voor content-rijke en content-arme regio's, respectievelijk. Deze drempels kunnen worden gedefinieerd door de exacte aantal specifieke nucleotiden in het huidige venster (met behulp van het door het aantal optie in de keuzelijst) of door het percentage van deze nucleotiden in het venster (met behulp van de door percentage optie)
  6. Nadat alle vijf keuzes zijn gemaakt (bijvoorbeeld: Sequence = "userfile" Content = GC; Window size = 50; bovenste drempel = 35; Lagere drempel = 15), beroep doen op het programma door te drukken op de Analyseer knop Bestand. Het programma scant alle sequenties van de geselecteerde ingang achter elkaar. Bij elke stap die het verkrijgt een segment van de huidige sequentie met een lengte, gelijk aan de opgegeven venstergrootte en berekent of het aantal of percentage van de nucleotiden van het gekozen content is boven de bovenste drempel of onder de lagere drempel. Als het venster niet overeenkomt met beide criteria voldoen, is de volgende overlappende venster (verschoven door een nucleotide) geselecteerd voor dezelfde analyse. Wanneer een venster wordt gevonden waar de volgorde aan een van de drempel voor content-rijke of arme samenstelling, het programma slaat de volgorde van dit venster in het output bestand en genereert een piek op de grafische output. Na dit, het programma springt naar de volgende niet-overlappende aangrenzende venster en hervat het scanproces tot het einde van de reeks is bereikt.
  7. Na afronding van de opleiding, een link naar het output bestand (met de naam "userfile_GC_50_35 .. 15" voor het bovenstaande voorbeeld), verschijnt en een grafische weergave van de resultaten is weergegeven in het midden van de webpagina (zie Figuur 1). Op dit grafisch display alle invoer-sequenties uit het userfile worden samengevoegd tot een string en gepresenteerd als een horizontale zwarte lijn op de X-as, met een lengte in kilobasen (kb) hieronder weergegeven. Alle content-rijke regio's langs ingang sequenties worden aangeduid als blauwe "naar boven" spikes, en content-arme regio's als rode "naar beneden" spikes. Het totale aantal content-rijke en content-arme ramen zijn weergegeven in parenthses in de legenda aan de onderkant van deze figuur (32 en 19, respectievelijk). De figuur illustreert de relatieve rijkdom aan en de inrichting van MRI regio's. Ondertussen specifieke details worden gepresenteerd in de output file (zie figuur 3). In dit dossier zijn alle nucleotidesequentie segmenten die content-rijk of arm-criteria en hun coördinaten passen zijn beschikbaar voor een gebruiker als een lijst op basis van hun opeenvolgende posities langs de input-bestand.
  8. Na afronding van MRI-analyse voor de gekozen volgorde een gebruiker kan beginnen met een nieuw proces in dezelfde webpagina door het maken van wijzigingen aan parameters en / of input-bestanden. Bijvoorbeeld, in het onderzoek van de eerder gegenereerde willekeurige steekproef # 1 met dezelfde MRI-parameters, de gebruiker hoeft alleen maar het bestand te wijzigen om te analyseren en de optie "userfile_rand1_4" bestand te selecteren, en druk nogmaals op de Analyseer knop Bestand. Een nieuw bestand en grafische weergave vervangt de oude. De resultaten en cijfers van alle examens onder elke "sessie lable" (GMRI identifier) ​​wordt opgeslagen en beschikbaar zijn voor twee weken na de laatste activiteit. Om de resultaten / vijg op te slaanlen permanent, moet de gebruiker selecteert u de "Download Files" tab (bovenste rij) en download de volledige sessie of individuele bestanden, als dat nodig is.
  9. Met deze MRI Analyzer web pagina van een gebruiker kunnen studeren
    • (G + C)-rijk en (A + T) gebieden met een rijke
    • Purine (A + G)-rijk en pyrimidine (C + T) gebieden met een rijke
    • Keto (G + T)-rijk en amino (A + C) gebieden met een rijke
    • A-rijk en A-arme regio's
    • G-rijk en G-arme regio's
    • T-rijke en T-arme regio's
    • C-rijke en C-arme regio's
  10. De nieuwste versie van Genomische MRI heeft een nieuwe optie voor het bestuderen van de regio's rijk aan purine (R) / pyrimidine (Y) afwisseling patronen die kunnen vormen Z-DNA conformaties. Momenteel is deze optie is beschikbaar via de link "Z-DNA" en het werkt op dezelfde basis als de andere genoemde MRI regio's. Een gebruiker moet kiezen boven-en lagere drempels voor het aantal (RY + YR) overlappende dinucleotiden in het scanvenster. Het programma geeft een soortgelijke grafische output en een bestand van DNA-segmenten verrijkt en verarmd door afwisselend purines en pyrimidines. De vermeende Z-DNA-regio's moeten zeer worden verrijkt door afwisselend R / Y bases (zie recensie F & F 2011).

6. Aanvullende programma's binnen de Genomic MRI Package (optioneel).

Het Genomic MRI bron heeft ook twee geavanceerde opties voor het genereren van zeer specifieke willekeurige sequenties. Ze zijn verkrijgbaar via de "MRI-Generator" en "CDS Generator 'tabs in de bovenste rij.

  1. MRI-generator creëert gerandomiseerde sequenties met dezelfde oligonucleotide samenstelling als de input file (vergelijkbaar met SRI generator). Maar naast, gerandomiseerde sequenties na te bootsen een bepaalde MRI-patroon door de gebruiker opgegeven. Binnen deze webpagina een gebruiker moet worden bepaald uit een keuzelijst een bepaalde MRI-patroon te worden nagebootst. De keuzelijst bevat alle patronen die zijn in deze sessie onderzocht door MRI-analyzer (bijv. "userfile_GC_50_35 .. 15"). Een willekeurige volgorde gegenereerd met deze optie hebben dezelfde oligonucleotide samenstelling als de geselecteerde ingang bestand en ook dezelfde GC-rijk en arm-patronen zoals te zien in "userfile_GC_50_35 .. 15".
  2. CDS generator wordt gebruikt voor randomisatie van eiwit-coderende sequenties. Het behoudt dezelfde aminozuursequentie als een gecodeerd door de gebruiker opgegeven input. Naast het programma behoudt hetzelfde codon en di-codon vooroordelen zoals gespecificeerd in de door de gebruiker gekozen ingang tafel. De online versie van de CDS generator accepteert ook een eiwitsequentie als een input. Alle andere opties voor het programma worden aangeboden alleen via stand-alone Perl scripts beschikbaar om te downloaden van de belangrijkste Genomic MRI webpagina.

7. Representatieve resultaten

Dit protocol kan een gebruiker te studeren compositorische inhomogeniteit van nucleotidesequenties. Belangrijker nog, het ondersteunt ook het genereren van een groot aantal gerandomiseerde sequenties met een oligonucleotide samenstelling nagenoeg overeenkomt met die van de input sequenties. Meestal genomische sequenties van complexe eukaryoten niet homogeen van samenstelling, maar vormen een complex mozaïek van sequentie segmenten verrijkt met bepaalde nucleotiden (bijvoorbeeld, purine-rijke, (G + T)-rijk, (A + T)-rijke, enz.). Deze patronen bij mid-range schaal (30 tot 1.000 bp) worden gevisualiseerd door de grafische output van MRI-analyzer die content-rijke segmenten shows geselecteerd als bovenste blauwe pieken en content-arme segmenten als onderste rode spikes (zie de figuren 1 en 2). Typisch, het aantal van een content-rijke en content-arme regio's in een natuurlijke volgorde (figuur 1) is in de orde van malen hoger dan het aantal van dezelfde soorten van regio's in overeenkomstige gerandomiseerde sequenties (figuur 2) met dezelfde oligonucleotide samenstelling. Deze volgorde segmenten met mid-range inhomogeniteit in nucleotide samenstelling van belang kan zijn voor de gebruiker. Ze zijn verkrijgbaar bij de Genomic MRI-output bestanden voor verder onderzoek.

Figuur 1
Figuur 1. Een voorbeeld van de MRI-analyzer grafische uitvoer van stap 5.7. De resultaten zijn verkregen op een steekproef van 44 mensen introns. Blauwe balken vertegenwoordigen posities van GC-rijke regio's langs deze introns. Rode staven geven GC-arme (of AT-rijk) MRI regio's. De y-as bevat boven-en lagere drempels voor de gegeven content type.

Figuur 2
Figuur 2. MRI analyzer uitgang voor de willekeurige volgorde "userfile.rand1_4".
De Graphische voorstelling van MRI in een willekeurig gegenereerde reeks met behulp van het SRI-generator-programma.

Figuur 3
Figuur 3. Een voorbeeld van het begin van een tekstuele output file van MRI-analyzer.
Alle content-rijke en content-armen sequenties gedetecteerd door het programma worden gepresenteerd in de laatste (vierde) kolom. Hun relatieve posities, gemeten in het aantal ramen, worden getoond in de eerste kolom. De tweede en derde kolom zijn indicatoren voor content-rijke en content-arme regio's, respectievelijk.

Discussion

Regio's met niet-homogene samenstelling nucleotide op mid-range schalen (30 tot 1,000 nucleotiden) zijn overvloedige in het genoom van complexe eukaryoten en kan overal worden gevonden (intergene regio's, introns, onvertaalde regio's van exonen, repetitieve elementen). Deze regio's worden vaak geassocieerd met ongebruikelijke DNA conformaties. Bijvoorbeeld, purine-/pyrimidine-rich sequenties hebben de neiging om DNA triplexes (H-DNA) vorm; sequenties met afwisselende purine / pyrimidinebasen worden geassocieerd met Z-DNA conformaties; (G + C) gebieden met een rijke vertonen structurele afwijkingen in de B- DNA en kan worden vatbaar voor backbone decollete; (A + T)-rijke regio's zouden kunnen vormen een ongebruikelijke structuur - een DNA-element ontspanning, enz. (beoordeeld door Fedorov & Fedorova 2010). Sommige van deze mid-range patronen (bv. (G + T)-rijke regio's) zijn nauwelijks onderzocht en nog steeds wachten op een grondige verkenning en erkenning. Het belangrijkste doel van onze Genomic MRI web bron is om gebruikers te helpen bij de identificatie van deze MRI regio's voor hun verdere experimentele analyse en verkenning van hun mogelijke functies. Kennis van de MRI regio's kunnen worden opgenomen in en het verbeteren van de nieuwe generatie van gen-voorspeller programma's (Shepard 2010) en ons begrip van genoom functies en eigenschappen.

Disclosures

Geen belangenconflicten verklaard.

Acknowledgments

Wij zijn dankbaar voor Samuel Shepard, Peter Bazeley, en John David Bell voor het beheer van de Genomic MRI-webpagina's. Dit werk werd ondersteund door National Science Foundation Career Award "Onderzoek van intron cellulaire rollen" [subsidie ​​aantal MCB-0643542].

Materials

Name Company Catalog Number Comments
Computer with Internet
Files with nucleotide sequences for examination

DOWNLOAD MATERIALS LIST

References

  1. Bechtel, J. M., Wittenschlaeger, T., Dwyer, T., Song, J., Arunachalam, S., Ramakrishnan, S. K., Shepard, S., Fedorov, A. Genomic mid-range inhomogeneity correlates with an abundance of RNA secondary structures. BMC Genomics. 9, 284-284 (2008).
  2. Prakash, A., Shepard, S., Mileyeva-Biebesheimer, O., He, J., Hart, B., Chen, M., Amarachiniha, S., Bechtel, J., Fedorov, A. Molecular forces shaping human genomic sequence at mid-range scales. BMC Genomics. 10, 513-513 (2009).
  3. Fedorov, A., Fedorova, L. Chapter 3: An Intricate Mosaic of Genomic Patterns at Mid-range Scale. Advances in Genomic Sequence Analysis and Pattern Discovery. 65-91 (2010).
  4. Shepard, S. S. Chapter 4: Binary-abstracted Markov models and their application to sequence classificatio. The characterization and utilization of middle-range sequence patterns within human genome [dissertation]. The University of Toledo. 57-157 (2010).

Comments

0 Comments


    Post a Question / Comment / Request

    You must be signed in to post a comment. Please or create an account.

    Usage Statistics