Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Bioengineering

Mönster-baserade Sök epigenetisk data med GeNemo

Published: October 8, 2017 doi: 10.3791/56136
* These authors contributed equally

Summary

Till skillnad från DNA-sekvensering utsätts epigenetisk data inte lätt för textbaserade sökningar. Presenteras här är förfarandena för att använda en uppgraderad version av GeNemo, ett webbaserat bioinformatik verktyg, för att göra mönster-baserade sökningar för likheter i epigenetisk data som jämför tillgängliga online databaser inklusive encyklopedi av DNA-element med användarens data.

Abstract

Jämfört med de robusta textbaserade sökverktyg för genomisk eller RNA sekvensering data, nuvarande metoder för mönster-baserade sökningar av epigenetisk och andra funktionella genomisk data är mycket begränsade. GeNemo är den första online sökverktyg som åstadkommer detta mål. Användare deras funktionella genomisk dataunderlag i webbläsarens Extensible Data (säng), toppar och pamp format, och kan söka efter data i något av de tre formaten. Användare kan ange vilka typer av datamängder att söka mot, att välja från en mängd olika online datamängder, med encyklopedi av DNA element (koda) som representerar olika epigenetisk märken, transkriptionell faktor bindningsställen och kromatin llergies eller accessibilities i specifika celltyper, och utvecklingsstadier eller art (mus eller mänskliga). GeNemo returnerar en lista över genomisk regioner med matchande mönster till indata, vilket kan vara visas i webbläsaren samt hämtade i formatet säng. Den uppgraderade GeNemo förbättrats grafisk display, har mer robust gränssnitt och inte längre är benägna att fel på grund av förändringar i University of California, Santa Cruz (UCSC) genomet webbläsare. Felsökningssteg för vanliga problem diskuteras. Som mängden funktionella genomisk data växer exponentiellt, finns det ett kritiskt behov av att utveckla och förädla nya bioinformatiska verktyg såsom GeNemo för dataanalyser och tolkning.

Introduction

Senaste tekniska framsteg har gjort för en snabb expansion av epigenetisk eller funktionella genomisk data depositarierna, som har outpaced utvecklingen av relevanta analytiska verktyg för att extrahera biologiska insikter. Ett viktigt sätt att analysera epigenetisk data är att söka användargenererade data mot data värdepapperscentralerna och särskilt de från de encyklopedi av DNA element (koda)1 projekt för matchande mönster som kan leda till ny kunskap. Exempelvis kan att identifiera likheter i mönstren för två olika epigenetisk märken på definierade loci hela genomet tyda samordnade åtgärder av olika molekylära spelare på kromatin konformation och Transkriptionsreglering2 ,3,4.

Konventionella text-baserade sökmotorer är verkningslösa i detta avseende eftersom, till skillnad från DNA-sekvens, epigenetisk data finns huvudsakligen i form av stödnivåer eller funktionella genomisk regioner. GeNemo, står för genen Nemo (som i Hitta Nemo), utvecklades för att bemöta detta otillfredsställda behov som använder mönster-baserade sökningar5. Sin algoritm använder tredjeparts en Markov Chain Monte Carlo maximering processen5. Användare ta sina egna data eller en datamängd hämtas från värdepapperscentralerna och Sök en rad online epigenetisk data för att identifiera likheter i mönster.

Den aktuella versionen av GeNemo har en uppdaterad uppvisning, gränssnitt mer kraftfullt med University of California, Santa Cruz (UCSC) genomet webbläsare6, och är mindre känsliga för problem som orsakas av förändringar i den senare. I synnerhet medan Genemos resultatsida brukade baseras på UCSC genomet webbläsarens gränssnitt, den aktuella versionen av GeNemo stöder sin egen resultatsidan och följaktligen inte längre negativt påverkas av strukturella förändringar till UCSC genomet webbläsaren. GeNemo kan använda någon genomisk signal, inklusive protein-bindande, Histon modifiering, kromatin tillgänglighet, topologiska domäner och så vidare, som en fråga för att hitta colocalized/liknande segment bland kända datauppsättningar från stora konsortier. Därför är det ett viktigt verktyg för att studera sambandet mellan olika epigenetisk uppgifter av intresse och kända data som genereras vid storskalig genomisk projekt.

Protocol

Obs: protokollet kan pausas någonstans.

1. basic Setup

  1. Hämta en säng, toppar format eller pamp 7-fil som innehåller data som matas in i genomet. Filen bör ha namn på tillägget " säng ", " broadpeaks " " narrowpeaks ", eller " pamp " respektive.
    ​ Obs: komprimerade versioner av dessa typ av filer kommer också att arbeta.
  2. Använda en webbläsare för att gå till genemo.org. Alla operativsystem som kan köra de vanligaste webbläsare bör kunna använda GeNemo.
    1. Välja vilka arter att söka mot att använda den nedrullningsbara menyn. För närvarande tillgängliga arter inkluderar människa och mus.
    2. Uppladdning användarfil med en url eller en direkt uppladdning. Pamp-filer endast arbete med metoden url upload. SÄNG och toppar format filer arbete med båda metoderna (wiggle filer inte kan laddas som de viktigaste data från och med nu).

2. Installationsprogrammet för valfria

  1. ge en e-postadress i motsvarande ruta för att få sökresultatet via e-post när sökningen är klar.
    ​ Obs: när du söker en stor del av genomet eller mot ett stort antal spår (se nedan), det rekommenderas att användaren ger sin e-post, eftersom sökningen kan ta lång tid. Till exempel en 100 megabase sökning tar runt 15 s. En länk till sökresultatet kommer att skickas till e-postadressen när sökningen är avslutad. Länken upphör att gälla 7 dagar efter slutförandet av en sökning.
  2. Ge en pamp-fil eller filen wiggle display kan vara från en url. Visa filen kommer inte att påverka resultaten. det visas endast bredvid resultaten.
  3. Ange ett Sök intervall (inklusive de kromosom och baspar positionerna) i motsvarande ruta.
    1. Lista kromosomen, starta baspar och avsluta baspar.
    2. Användning ' chrN ' för kromosom-format, där ' N ' är den kromosom nummer/bokstaven (1, 2, … X eller Y). För baspar, bara Skriv in siffrorna.
    3. Mellanslag mellan alla tre poster, eller använda ett kolon (:) mellan kromosom nummer och paret första bas eller ett bindestreck mellan de två baspar. Till exempel: chr1:1000000-2000000, chr1 1000000 2000000, chr1 1000000-2000000, chr1:1000000 2000000.
      Obs: Steg 2.1-2.3 är valfria.

Figure 1
figur 1 : GeNemo ' s framsida med de nödvändiga områdena ifylld. En användare måste ange art, sökfil och Sök sortiment och välj spår som han eller hon önskar att söka mot. E-postadress och Visa filen är valfria. vänligen klicka här för att visa en större version av denna siffra.

3. dataurval

Figure 2
figur 2 : spår urvalsfönstret. Detta tas upp genom att klicka på den " DATAURVAL " knappen på framsidan. Här väljer användare spår att söka indatafilen mot. Några av spåren är redan har valts som standard. vänligen klicka här för att visa en större version av denna siffra.

  1. Efter att klicka på knappen för data, välja vilka typer av spår att söka mot (dvs. att lägga till i frågan). Spår samlingen omfattar många olika datamängder från laboratorier runt om i världen.
    1. Listan med spår är ganska lång, användare kanske vill använda filtreringsknappen (på toppen) för att underlätta spår val. Spår kan filtreras genom Experiment, vävnad, cellinje eller Lab.
    2. Finns fem knappar längst ner för att köra spårval: Markera alla, Välj ingen, Lägg, Filter, Uteslut.
    3. Markera alla " och " Välj ingen " är självförklarande.
    4. Den " Lägg " knappen lägger till markerade spår i frågan. Det servar som logik utfärda utegångsförbud " eller ". Observera att välja filter ovan (t.ex., vissa experiment, vävnader, cellinjer eller Labs) inte lägger automatiskt till motsvarande spår sökfrågan. Användare måste först välja spår (t.ex., hjärnan, lever under vävnad), och klicka sedan på den " Lägg " knappen för att lägga till dem i frågan. När du väljer spår, Observera att endast de filter som angetts på fliken öppnas i filterfönstret kommer att tillämpas på sökfrågan. Val på andra flikar kommer att sparas i filterfönstret, men inte tillämpas på sökfrågan.
    5. Den " Filter " knappen behåller bara typerna av spår som är markerat i fönstret Filtrera i frågan och tar bort alla andra typer av spår. Det servar som logik utfärda utegångsförbud " och ". I huvudsak " Filter " tillåter val av samspelet mellan två kategorier av spår (t.ex., vissa vävnader med vissa Labs). Observera att " Filter " inte till de valda typerna av spår till frågan om de inte redan i frågan.
    6. Den " Uteslut " knappen avlägsnar alla typer av spår som för närvarande är markerade i filterfönstret från frågan. Det servar som logik utfärda utegångsförbud " inte ", i opposition till den " Filter " funktion. Igen, " utesluta " lägger inte till några spår som för närvarande inte markerade i filterfönstret i frågan.

Figure 3
figur 3 : Filterfönster . Detta tas upp genom att klicka på den " FILTER " på fönstret spår urval. Här, förbrukaren kanna välja många spår samtidigt, med relativ lätthet. vänligen klicka här för att visa en större version av denna siffra.

Figure 4
figur 4 : hur du använder filterfunktionen. Klicka här för att se en större version av denna siffra.

  1. efter att de önskade spår till frågan, klicka på den " Update " knappen längst ner till höger. Detta är nödvändigt för att rymma två sätt att välja data: att välja individuella dataspår eller filtrering/exklusive. Den " Återställ vy " knappen återställer frågan till standard spåren besläktade uttryck genreglering i mänskliga/mus embryonala stamceller med.
    Obs: Välja spår sökas mot " dataurval " är valfritt men rekommenderas varaOrsak standard Sök spåren är mest sannolikt inte lämpade för användaren ' s behov.

4. Sök- och

  1. Klicka på " Sök " knappen efter urval. Sökningen kan ta lite tid.
  2. När sökningen är klar, användare kommer att se olika lådor på resultatsidan. Varje ruta representerar en del av genomet där en användare ' s datafilen har ett noggrant matchade mönster med en eller flera av de spår som användaren har frågas.
    1. Om det finns inga lådor synlig, försök söka fler typer av spår eller att göra sökintervallets större med samma indatafilen. Ett enkelt sätt att göra detta utan att göra om allt att klicka på den " ☰ " knappen bredvid logotypen. Detta kommer att öppna upp ett sidofält som tillåter användaren att ändra sökningen.
    2. Resultaten kan exporteras som en säng-fil genom att klicka på den " Hämta BED fil " knappen nedtill på resultatsidan.
  3. Klicka på visualisera på toppen höger på varje ruta att visualisera resultaten.
    1. i the visualisering panel på det rätt, flera saker visas inklusive data, vilken inlemmar användaren indatafilen, display filen om man var matas in, matchande spår, och vissa standard spår. Från resultaten, kan användaren jämföra kända koda datamängder mot medföljande datamängden för vidare utredning. Användaren kan också avse UCSC gener att se sammanhanget av frågeresultaten. Om spår från flera cell linjer/vävnader väljs, användaren kan använda sådana resultat för att få insikter om vävnadsspecificitet av likheterna mellan de givna datamängd och koda datamängder.
    2. På den resultat sidan, användaren kan dra på några spår att flytta uppströms eller nedströms av genomet; när muspekaren är på koordinater, kan användaren använda mushjulet eller zooma in och ut.

Figure 5
figur 5 : resultatsidan. Detta viss sökning återvände 363 matchande regioner. Visar den första matchande regionen kan göras genom att klicka på " Visa " knappen på det nedre vänsterkant delen av varje resulterande rutan region. På den vänstra delen av fönstret bildskärm kan det ses att de två datafilerna (input och valda spår) är liknande i signal styrka mönster. vänligen klicka här för att visa en större version av denna siffra.

Representative Results

Här visas i figur 5 en simulerad sökning. Den mänskliga arten valdes, och motsvarande exempelfilen användes som input datafilen. Dessutom valdes standard spåren, som kan ses i figur 3, ut. Det fanns sammanlagt 363 matchande regioner, och den första regionen visas i sidan bildskärm. Det kan ses att den intensity mönstret från grunda 17036000 till 17038000 på kromosom 1 för indatafilen och en av de valda spåren är mycket liknande.

Discussion

En grundlig förståelse av epigenomet krävs att uppnå mänskliga Genomsekvensering att tillhandahålla nya biologiska insikter8fulla potential. För närvarande finns det bara sätt att söka online epigenetisk datamängder av deras data beskrivning och titel (dvs, metadata)1. Detta begränsar allvarligt typerna av Sök en kan göra med epigenetisk data. Mönster-baserade verktyg för epigenetisk data är väsentliga för att utforska förhållandet mellan olika epigenetisk märken, vilket kan leda till nya biologiska insikter. GeNemo, som söker av innehållet i data och inte metadata, är den första tjänsten i sitt slag att jämföra mönster i epigenetisk data från publicerade förvaringsställen som koda databasen med ett användargenererat eller hämtade datamängden5. Detta markerar början på tillgängligheten av en epigenetisk sökverktyg som är allmänt tillgänglig för forskare runt om i världen bara som text-baserade sekvens sökverktyget blev allmänt tillgänglig i 1990-talet. För närvarande finns det inga alternativ för mönster-baserade online-sökning verktyg för epigenetisk data än GeNemo.

En potentiell exempel på att använda GeNemo är att söka samarbete visasende Histon ändringar och andra epigenetiska märken med transkriptionell faktor E2F6 i mänskliga embryonala stamceller (exempel E2F6 bindande signal finns en fil på koda data portal eller på https://sysbio.UCSD.edu/Public/xcao3/ENCODESample/ENCFF001UBC.Bed). Genom att använda denna fil som fråga för att söka mot alla koda datamängder i H1-hESC, visar GeNemo att E2F6 bindande signal tungt är berikad med H3K4me1, H3K4me2, H3K4me3 och H3K27me3, som instämmer i befintlig forskning visar att E2F6 reglerar vissa gener via metylering av H3K279. Däremot, verkar det vara colocalization av E2F6 och CtBP2 bindande platser, som är kända för att interagera med en faktor i samma familj, E2F710. Dessa resultat för hela genomet mot ett stort antal epigenetiska märken, transkriptionell faktor bindande signaler och andra signaler som ingår i koda kan ganska lätt erhållas med GeNemo, som kan ge alla potentiella mål för vidare analys.

Sedan den första publikation5 av GeNemo som en webbaserad epigenetisk data sökverktyg, har avsnittet resultat GeNemo uppdaterats för att ha ett matchande utseende med Genemos förstasida. Gamla resultatavsnittet nära speglad UCSC genomet webbläsare resultatavsnittet och var till stor del beroende på fjärrservern UCSC för visning. Med det nya gränssnittet är GeNemo mer användarvänlig och inte längre beroende av UCSC genomet servern (även om data hämtas fortfarande distans). Detta gör GeNemo mer robust och mindre mottagliga för problem på grund av ändringar i koden på UCSC servern. Dessutom ger nya, snabbare polymer gränssnittet för GeNemo användaren fler verktyg för att visualisera och analysera mönster i data.

Kritiska steg inkluderar att tillhandahålla lämpliga indatafilen och välja dataspår att söka mot. Användare uppmuntras att experimentera med olika spår urval funktioner bli bekant med urvalsprocessen och hur olika kommandon kan kombineras för att uppnå det avsedda resultatet. Notera i synnerhet att funktionen ”Lägg till” för att lägga till önskade spår valts i frågan, medan ”filtrera” eller ”Uteslut” kan användas som logik gate kommandon ”och” och ”eller”, respektive. Funktionen ”uppdatera” krävs att påverka alla val innan du implementerar sökningen. När inga resultat returneras, kan en användare kontrollera filen indata, söka fler spår eller öka sökintervallets. När det finns ett fel, kommer det att finnas ett fönster poppar upp definiera vad exakt felet är. Det finns några tvetydiga fel, dock. Till exempel när fönstret säger att 'ingen fil laddades', antingen ingen fil laddades upp, eller den uppladdade filen var inte i ett godtagbart format och, programmet var följaktligen inte kunna läsa det korrekt. Godkända filformat för filuppladdning inkluderar säng och toppar formatfil för både upload metoder och pamp för online länk uppladdning endast. Den zippade versionen av dessa format är också godtagbara.

Nuvarande begränsningarna med denna metod inkluderar ännu-till-vara-optimerade algoritmer och funktioner används i GeNemo. GeNemo ge inte ännu någon vägledning om tolkningen av någon datamängder som återvände. Denna uppgift är upp till användarna, vilket kräver betydande kunskap och kompetens inom biologi av genomet och epigenomet. Dessutom är en annan nuvarande begränsning att användare inte kan ändra känslighet och brus nivån av sökningarna. Vi förväntar oss att fortsätta att förbättra och expandera GeNemo på dess mönster söka anlagen och datamängd samling i framtiden.

Disclosures

Författarna har ingen konkurrerande ekonomiska intressen att avslöja.

Acknowledgments

Detta arbete stöds av NIH beviljar inklusive DP1HD087990 från NICHD, R01HG008135 från NHGRI. Vi tackar medlemmar av Zhong lab för värdefulla synpunkter.

Författare bidrag:
X.C. och A.T.Z. uppdaterad GeNemo av kodning nya gränssnitt och funktioner; A.T.Z. produceras in-house prov video; A.T.Z., X.C och S.Z. skrev på papper.

Materials

Name Company Catalog Number Comments
GENEMO https://www.genemo.org Comparative Epigenome Browser

DOWNLOAD MATERIALS LIST

References

  1. The ENCODE Project Consortium. An integrated encyclopedia of DNA elements in the human genome. Nature. 489, 57-74 (2012).
  2. Barski, A., et al. High-Resolution Profiling of Histone Methylations in the Human Genome. Cell. 129 (4), 823-837 (2007).
  3. Meaney, M. J., Ferguson-Smith, A. C. Epigenetic regulation of the neural transcriptome: the meaning of the marks. Nature Neuroscience. 13, 1313-1318 (2010).
  4. Roh, T. -Y., Cuddapah, S., Cui, K., Zhao, K. The genomic landscape of histone modifications in human T cells. PNAS. 103 (43), 15782-15787 (2006).
  5. Zhang, Y., Cao, X., Zhong, S. GeNemo: a search engine for web-based functional genomic data. Nucleic Acids Res. 44, W122-W127 (2016).
  6. Fujita, P. A., Rhead, B., Zweig, A. S., Hinrichs, A. S., Karolchik, D., Cline, M. S., Goldman, M., Barber, G. P., Clawson, H., Coelho, A., et al. The UCSC Genome Browser database: update 2011. Nucleic Acids Res. 39, 876-882 (2011).
  7. Neph, S., Vierstra, J., Stergachis, A. B., Reynolds, A. P., Haugen, E., Vernot, B., Thurman, R. E., John, S., Sandstrom, R., Johnson, A. K., et al. An expansive human regulatory lexicon encoded in transcription factor footprints. Nature. 489, 83-90 (2012).
  8. Sarda, S., Hannenhalli, S. Next-generation sequencing and epigenomics research: a hammer in search of nails. Genomics Inform. 12 (1), 2-11 (2014).
  9. Storre, J., et al. Silencing of the Meiotic Genes SMC1β and STAG3 in Somatic Cells by E2F6. J Biol Chem. 280, 41380-41386 (2005).
  10. Liu, B., Shats, I., Angus, S. P., Gatza, M. L., Nevins, J. R. Interaction of E2F7 Transcription Factor with E2F1 and C-terminal-binding Protein (CtBP) Provides a Mechanism for E2F7-dependent Transcription Repression. J Biol Chem. 288, 24581-24589 (2013).

Tags

Fråga 128 GeNemo bioinformatik bioteknik koda mönstermatchning funktionella genomisk data epigenomet genomet
Mönster-baserade Sök epigenetisk data med GeNemo
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Zheng, A., Cao, X., Zhong, S.More

Zheng, A., Cao, X., Zhong, S. Pattern-based Search of Epigenomic Data Using GeNemo. J. Vis. Exp. (128), e56136, doi:10.3791/56136 (2017).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter