Biology

Genomic MR - en allmän resurs för att studera Sequence Patterns inom Genomiskt DNA

Published: May 9, 2011 doi: 10.3791/2663

Ashwin Prakash¹, Jason Bechtel¹, Alexei Fedorov¹

¹Department of Medicine, University of Toledo Health Science Campus

Summary

Vi presenterar en offentlig computational webbplats för analys av genomiska sekvenser. Den upptäcker mönster DNA-sekvens med olika icke-slumpmässigt nukleotid kompositioner. Denna resurs genererar också randomiserade sekvenser med olika nivåer av komplexitet.

Abstract

Icke-kodande genomiska regioner i komplexa eukaryoter, inklusive intergenic områden, introner och oöversatta segment av exoner, är djupt icke-slumpmässigt i sin nukleotid sammansättning och består av en komplex mosaik av sekvens mönster. Dessa mönster inkluderar sk mellanklass homogen (MRT) regioner - sekvenser 3-10 nukleotider i längd som berikas av en viss bas eller en kombination av baser (t ex (G + T)-rik, purin-rika, etc. ). MRT regioner är förknippade med ovanliga (icke-B-form) DNA-strukturer som ofta är inblandade i regleringen av genuttryck, rekombination och andra genetiska processer (Fedorova & Fedorov 2010). Förekomsten av en stark fixering slagsida inom MR regioner mot mutationer som tenderar att minska sin ordning homogen dessutom stöder funktionalitet och betydelsen av dessa genetiska sekvenser (Prakash et al. 2009).

Här visar vi ett fritt tillgängligt Internet resurs - Genomic MR programmet paket - (. Bechtel et al 2008) konstruerad för numerisk analys av genomiska sekvenser för att finna och karakterisera olika MR mönster inom dem. Detta paket gör det också möjligt generation randomiserade sekvenser med olika egenskaper och graden av korrespondens till den naturliga sekvenser ingång DNA. Huvudsyftet med denna resurs är att underlätta undersökningen av stora delar av icke-kodande DNA som fortfarande knappt utreds och väntar grundlig utforskning och erkännande.

Protocol

Alla program som används inom pappers-har skrivits med hjälp av Perl och alla webbsidor har skapats med PHP.

1. Utgångspunkt:

Öppna hemsida på nätet Genomic MRI paket på http://mco321125.meduohio.edu/ ~ jbechtel / gmri /. Webben resurs ger också anvisningar / förklaringar om programmen i "Hjälp (How-to/README)" länken, medan alla publicerade material på Genomisk MRT och liknande algoritmer i "Länkar till relevanta resurser"-länken.

2. Upprättande och uppladdning av Inmatningsföljd (s).

Skapa en fil med Fasta-formaterad sekvens (er) för att starta en GMRI analys session. Varje nukleotidsekvensen i detta format bör föregås med en enda rad som börjar med ">" tecken som representerar en identifierare följt på samma rad med en kort beskrivning av denna sekvens. Nukleotidsekvenser för GMRI analysen också tillåter karaktärer som R, Y, N, X, etc. Hwever, icke-A, T, C, kommer G tecken som inte behandlas av programmet och kommer att hoppas över. Sekvenser där repetitiva element har "maskerad" (ersättas med "N" S) kan användas som indata. Observera att sekvensen tecken är små bokstäver.

Börja ett GMRI session genom att klicka på "Starta eller Fortsätt" knappen på Genomic MR hemsida. Detta tar användaren till en sida där nukleotidsekvenser kan laddas upp.
Kopiera och klistra in dina Fasta-formaterad sekvenser eller ladda upp en fil som innehåller sekvenser från din lokala dator med hjälp av "välj fil"-knappen.
Klicka på "Starta ny session med denna fil"-knappen. Ett meddelande bör visas ovanför inmatningsfönstret om att "Din sekvens har framgångsrikt upp" och du bör också få en alfanumerisk "GMRI identifierare" [sajten kallar det en "session etikett"] för din session (t.ex. b16yMj), som kan användas för att hämta och fortsätta en session i upp till två veckor efter första användningen.

OBS: Hädanefter ingången sekvenser kallas "userfile".

3. Skaffa en oligonukleotid frekvensfördelning av Input sekvenser (tillval).

Klicka på "Sri Analyzer"-fliken (översta raden) för att få en fördelning av oligonukleotid frekvenser för hela uppsättningen input-sekvenser. Förkortningen SRI står för kort räckvidd homogen. I detta läge kan användaren ange den högsta längden på oligonukleotider (från 2 upp till 9 nukleotider, standard 6 nätter), för vilka frekvenser kommer att beräknas. Detta val görs genom att klicka på önskat alternativ i "Maximum oligomer storlek" listrutan. Tryck sedan på "Analyze File" knappen för att starta beräkning. En grov representation av inmatningssekvens sammansättning kommer omedelbart att visas som en kort bord i mitten av denna webbsida och ladda ner som "userfile.comp.tbl". Denna tabell är endast de mest och minst riklig oligonukleotider inom ingång sekvenser.

Hela frekvenstabell för alla tänkbara oligonukleotider genereras som en fil med namnet "userfile.comp", som kan erhållas via "Ladda ner sammansättning fil" länken.

OBS: SRI analysator räknas hela den uppsättning av alla överlappande oligonukleotider.

4. Generera slumpmässiga sekvenser med samma Oligonucleotide sammansättning som i Input sekvenser (tillval).

(Slutförande av steg 3 i protokollet krävs för denna uppgift).

Klicka på "Sri Generator"-fliken (översta raden) för att öppna upp en ny webbsida som skapar slumpmässiga sekvenser. Välj antal prover av slumpmässiga sekvenser som ska skapas med hjälp av listrutan på denna webbsida. Alla dessa prov filerna kommer att innehålla slumpmässiga sekvenser av samma antal och längd som ingång sekvenser i "userfile". Dessutom, om en inmatningssekvens innehåller icke-A, T, C eller G tecken kommer slumpvis ordning har "N" är i exakt samma positioner som i inmatningssekvens.
Välj den längsta längden av oligonukleotider som frekvenser kommer att uppskattas i slumpmässiga sekvenser. Detta kan väljas genom att markera alternativknappen för önskad oligomer nivå (t.ex. "4-Mers" för fyra-bas oligonukleotider) i tabellen i mitten av skärmen. Det bör noteras att slumpmässiga sekvenser kommer att bestå av inte bara den ungefärliga frekvenserna på den valda oligomer nivå, men även motsvarande frekvenser av kortare oligomerer nivåer, som i indata sekvenser. Små variationer i oligonukleotidfrekvenser av input och slumpmässiga sekvenser är möjliga på grund av Markov modell som tillämpas för generering av slumpmässiga sekvenser.
Starta programmet genom att klicka på "Skapa fil"-knappen. Om ingången sekvenserna är stora kan det ta ett par minuter för att generera slumpmässiga sekvenser. Därför bör en användare vänta tills blå "Download"-länkar visas längst ned på denna sida. Den slumpmässiga apparater är placerade i filer med namn som "userfile.randX_Y" där X är numret på den slumpmässiga set och Y är den valda oligomer nivå (t.ex. "userfile_rand2_4").

5. Analys av mellanklass homogen (MRT) av in-och slumpmässiga sekvenser.

Klicka på "MR Analyzer"-fliken (översta raden), vilket öppnar en ny webbsida som analyserar mellanregistret homogen nukleotid sammansättning sekvenser.
Välj en sekvens som skall analyseras ur "Fil att analysera" listrutan (ett val mellan inmatningssekvens och genererade uppsättningar slumpmässiga sekvenser kan göras här).
Välj innehållstyp för MRT som skall analyseras via den medföljande listrutan. (Sju innehåll alternativ finns: G + C, G + A, G + T, A, G, C, eller T.)
Välj längd i fönstret som innehållsrika och innehåll fattiga sekvenser kommer att undersökas via "Window size" listrutan (standard är 50 nukleotider; giltigt intervall från 30 till 1000).
Välj den övre tröskeln och lägre tröskel för innehållsrika och innehåll-fattiga regioner, respektive. Dessa trösklar kan definieras av det exakta antalet särskilt nukleotider i det aktuella fönstret (med den i antal alternativ i listrutan) eller genom andel av dessa nukleotider i fönstret (med procentuellt alternativ)
När alla fem val har gjorts (till exempel: Sequence = "userfile"; Innehåll = GC, Window size = 50; Övre gräns = 35; lägre tröskel = 15), startar programmet genom att trycka på Analysera fil. Programmet skannar igenom alla sekvenser från den valda ingången i följd. Vid varje steg det erhåller del av den aktuella sekvensen med längd lika med det angivna fönstrets storlek och beräknar om antalet eller andelen av nukleotider av de valda innehållet är ovanför den övre gränsen eller under den nedre gränsen. Om fönstret inte stämmer heller kriterier, nästa överlappande fönster (flyttas med en nukleotider) som valts för samma analys. När ett fönster finns där sekvensen uppfyller ett av tröskelvärdena för innehållsrika eller fattiga sammansättning, sparar programmet sekvensen av detta fönster i utdatafilen och genererar en spik på den grafiska produktionen. Därefter hoppar programmet till nästa icke-överlappande intilliggande fönster och återupptar skanningen till slutet av sekvensen nås.
Efter slutförandet av programmet, visas en länk till utdatafilen (med namn "userfile_GC_50_35 .. 15" för exemplet ovan) och en grafisk representation av resultaten visas i mitten av webbsidan (se figur 1). På denna grafisk display alla in sekvenser från userfile är sammanlänkade till en enda sträng och presenteras som en horisontell svart linje på X-axeln, med längd i kilobases (kb) visas nedan. Allt innehållsrika områden längs ingången sekvenser är markerade som blå "uppåt" spikar, och innehåll-fattiga regioner som röda "nedåt" spikar. Det totala antalet innehållsrika och innehåll fattiga fönster visas i parenthses i förklaringen längst ner på denna siffra (32 och 19, respektive). Figuren illustrerar den relativa förekomsten och placeringen av MR regioner. Samtidigt specifika detaljer presenteras i utdatafilen (se figur 3). I denna fil, alla nukleotidsekvensen segment som matchar innehållsrika eller fattiga kriterier och deras koordinater finns tillgängliga för en användare som en lista enligt deras rad positioner längs indatafilen.
Efter slutförandet av MRT analys för den valda sekvensen en användare kan starta en ny process i samma webbsida genom att göra ändringar parametrar och / eller filer ingång. Till exempel, för att undersöka de tidigare genererade stickprov # 1 med samma MRI parametrar, behöver användaren bara ändra fil för att analysera alternativ och välj "userfile_rand1_4" filen och tryck sedan på Analysera Fil-knappen igen. En ny fil och grafisk display kommer att ersätta den gamla. Resultaten och siffror i alla prov under varje "session etiketten" (GMRI identifierare) kommer att sparas och finnas tillgänglig under två veckor från den sista aktiviteten. För att spara resultat / figgärder permanent bör användaren välja "Download Files"-fliken (översta raden) och ladda ner hela sessionen eller enskilda filer som behövs.
Med denna MRT Analyzer webbsida kan en användare studera
- (G + C)-rik och (A + T)-rika regioner
- Purin (A + G)-rik och Pyrimidin (C + T)-rika regioner
- Keto (G + T)-rik och amino (A + C)-rika regioner
- En rik och A-fattiga regioner
- G-rika och G-fattiga regioner
- T-rika och T-fattiga regioner
- C-rika och C-fattiga regioner
Den senaste versionen av genomiska MR har ett nytt alternativ för att studera regioner rika på purin (R) / Pyrimidin (Y) växling mönster som kan bilda Z-DNA konformationer. För närvarande är detta alternativ finns på länken "Z-DNA" och det fungerar på samma sätt som övriga nämnda MR regioner. En användare bör välja övre och nedre för antalet (RY + YR) överlappande dinucleotides i skanning fönster. Programmet ger en liknande grafisk produktion och en fil av DNA-segment anrikat och utarmat genom att växla puriner och pyrimidiner. Den förmodade Z-DNA-regioner måste höganrikat genom att växla R / Y baser (se recension F & F 2011).

6. Ytterligare program inom Genomic MR Package (tillval).

Arvsmassans MR resurs har också två avancerade alternativ för generering av mycket specifika slumpmässiga sekvenser. De är tillgängliga genom "MRI Generator" och "CDS Generator" flikar i den översta raden.

MR-generator skapar randomiserade sekvenser med samma oligonukleotid sammansättning som indatafil (liknande SRI generator). Men dessutom randomiserade sekvenser efterlikna en viss MR mönster som användaren. Inom denna webbsida användaren ska ange från en listruta en särskild MR-mönster som ska imiteras. Listrutan innehåller alla mönster som har undersökts i denna session av MR-analysator (t.ex. "userfile_GC_50_35 .. 15"). Ett slumpmässigt sekvens genereras med detta alternativ kommer att ha samma oligonukleotid sammansättning som den valda indatafilen och även samma GC-rika och fattiga mönster som kan ses i "userfile_GC_50_35 .. 15".
CDS generator används för randomisering av protein kodande sekvenser. Den bevarar samma aminosyrasekvens som den kodade av användardefinierade ingång. Förutom att programmet behåller samma kodon och di-kodon fördomar som anges i den valda användaren-ingång bord. Online-versionen av CDS-generator accepterar även ett protein sekvens som ingång. Alla andra alternativ för programmet erbjuds endast via fristående Perl-skript hämtas från den huvudsakliga Genomic MR webbsida.

7. Representativa resultat

Detta protokoll tillåter en användare att studera sammansättning homogen nukleotidsekvenser. Viktigt, stöder också skapandet av en rad olika randomiserade sekvenser med en oligonukleotid sammansättning tillnärmning att för den ingående sekvenser. Vanligtvis genomiska sekvenser av komplexa eukaryoter är inte homogena i sammansättning, utan snarare utgör en komplex mosaik av sekvensen segment berikats av särskilt nukleotider (exempelvis purin-rika, (G + T)-rika, (A + T)-rik, etc.). Dessa mönster i mitten av skalan (3-10 bp) kan göras synliga genom den grafiska produktionen av MRT analysator som visar utvalda innehållsrika segment som övre blåa toppar och innehåll fattiga segment som lägre röda toppar (se figur 1 och 2). Normalt är det på alla innehållsrika och innehåll fattiga regioner i en naturlig följd (Figur 1) på order av gånger högre än antalet för samma typer av regioner i motsvarande randomiserade sekvenser (Figur 2) med samma oligonukleotid sammansättning. Dessa sekvens segment med mid-range homogen i nukleotid sammansättning kan vara av intresse för användaren. De är tillgängliga från Genomic MR-utgång filer för vidare utredning.

Figur 1
Figur 1. Ett exempel på MR-analysatorn grafiska utdata från steg 5,7. De resultat som har erhållits på ett urval av 44 människor introner. Blå stapel avser positioner GC-rika regioner längs dessa introner. Röda staplarna representerar GC-dålig (eller AT-rika) MRI regioner. Y-axeln innehåller övre och undre gränserna för den givna innehållstypen.

Figur 2
Figur 2. MRT analysator utgång för slumpvis ordning "userfile.rand1_4".
Den grafisktcal representation av MR inom en slumpmässigt sekvens med SRI generatorn programmet.

Figur 3
Figur 3. Ett exempel på början av en text utdatafilen av MRT-analysatorn.
Allt innehållsrika och innehåll fattiga sekvenser detekteras av programmet presenteras i senaste (fjärde) kolumn. Deras relativa positioner, mätt i antalet fönster, visas i första kolumnen. Den andra och tredje kolumnen är indikatorer för innehållsrika och innehåll-fattiga regioner, respektive.

Discussion

Regioner med inhomogena nukleotid komposition vid mid-range skalor (3-10 nukleotider) är ALLTFÖRRIKLIG i kartläggningen av komplexa eukaryoter och kan finnas var som helst (intergenic regioner, introner, oöversatta regioner exoner, repetitiva element). Dessa regioner är ofta förknippade med ovanliga DNA konformationer. Till exempel purine-/pyrimidine-rich sekvenser tenderar att bilda DNA triplexes (H-DNA), sekvenser med omväxlande purin / pyrimidinbaserna är förknippade med Z-DNA konformationer, (G + C)-rika regioner uppvisar strukturella avvikelser i B- DNA och kan vara benägna att ryggraden klyvning, (A + T)-rika regioner skulle kunna utgöra en ovanlig struktur - ett DNA-avveckling element, etc. (granskad av Fedorov & Fedorova 2010). Några av dessa mellanregistret mönster (t.ex. (G + T)-rika regioner) är knappast undersökt och fortfarande väntar grundlig utforskning och erkännande. Huvudsyftet med vår genomisk MRT webbresurs är att hjälpa användarna i identifieringen av dessa MRT regioner för deras fortsatta experimentella analyser och för utforskning av sina möjliga funktioner. Kunskap om MRT regioner skulle kunna införlivas i och förbättra den nya generationen program gen prediktor (Shepard 2010) och förbättra vår förståelse av genomet funktioner och egenskaper.

Disclosures

Inga intressekonflikter deklareras.

Acknowledgments

Vi är tacksamma till Samuel Shepard, Peter Bazeley och John David Bell för administrationen av arvsmassans MR webbsidor. Detta arbete stöddes av National Science Foundation Karriär Award "Utredning av intron cellulära roller" [licensnummer MCB-0643542].

Materials

Name	Company	Catalog Number	Comments
Computer with Internet
Files with nucleotide sequences for examination

DOWNLOAD MATERIALS LIST

References

Bechtel, J. M., Wittenschlaeger, T., Dwyer, T., Song, J., Arunachalam, S., Ramakrishnan, S. K., Shepard, S., Fedorov, A. Genomic mid-range inhomogeneity correlates with an abundance of RNA secondary structures. BMC Genomics. 9, 284-284 (2008).
Prakash, A., Shepard, S., Mileyeva-Biebesheimer, O., He, J., Hart, B., Chen, M., Amarachiniha, S., Bechtel, J., Fedorov, A. Molecular forces shaping human genomic sequence at mid-range scales. BMC Genomics. 10, 513-513 (2009).
Fedorov, A., Fedorova, L. Chapter 3: An Intricate Mosaic of Genomic Patterns at Mid-range Scale. Advances in Genomic Sequence Analysis and Pattern Discovery. , 65-91 (2010).
Shepard, S. S. Chapter 4: Binary-abstracted Markov models and their application to sequence classificatio. The characterization and utilization of middle-range sequence patterns within human genome [dissertation]. , The University of Toledo. 57-157 (2010).

Biology

Genomic MR - en allmän resurs för att studera Sequence Patterns inom Genomiskt DNA

Summary

Abstract

Protocol

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Protocol

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.