Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Bioengineering

Mønster-baseret søgning af epigenomiske Data ved hjælp af GeNemo

Published: October 8, 2017 doi: 10.3791/56136
* These authors contributed equally

Summary

I modsætning til DNA sekvens data, er epigenomiske data ikke let udsat for tekst-baserede søgninger. Præsenteres her er procedurerne til at bruge en opgraderet version af GeNemo, en web-baseret Bioinformatik værktøj, til at foretage mønster-baseret søgninger til ligheder i epigenomiske data sammenligner tilgængelige online databaser herunder encyklopædi af DNA elementer med brugerdata.

Abstract

Sammenlignet med robust tekst-baseret søgeværktøjer for genomisk eller RNA sequencing data, nuværende metoder til mønster-baseret ransagninger af epigenomiske og andre funktionelle genomisk data er meget begrænset. GeNemo er den første online-søgning værktøj, der udretter dette mål. Brugernes input deres funktionelle genomisk data i browseren Extensible Data (BED), toppe og stor kanon formater og kan søge efter data i nogen af tre formater. Brugere kan angive hvilke typer af datasæt til at søge mod, at vælge fra en bred vifte af online datasæt, med den encyklopædi af DNA elementer (INDKODE) repræsenterer forskellige epigenomiske mærker, transcriptional faktor bindingssteder og kromatin hypersensitivities eller tilgængelighed i bestemte celletyper, og udviklingsstadier eller arter (musen eller menneske). GeNemo returnerer en liste over genomisk regioner med matchende mønstre til input-data, som kan være set i browseren såvel som hentet i seng-filformat. Den opgraderede GeNemo har forbedret grafisk display, har mere robust interface, og er ikke længere udsat for fejl, som skyldes ændringer i University of California, Santa Cruz (UCSC) genom browser. Fejlfindingstrin for fælles problemer drøftes. Som funktionelle genomisk datamængden vokser eksponentielt, er der et kritisk behov for at udvikle og forfine nye bioinformatic værktøjer som GeNemo for data analyser og tolkning.

Introduction

Seneste teknologiske fremskridt har tilladt for en hurtig udvidelse af epigenomiske eller funktionelle genomisk data depoter, som har overhalet udviklingen af relevante analytiske værktøjer til at udtrække biologiske indsigter. En vigtig måde at analysere epigenomiske data er at søge brugeroprettede data mod data depoter og især dem fra encyklopædi af DNA elementer (INDKODE)1 projekter til at matche mønstre, der kunne føre til ny viden. For eksempel, kan at identificere lighederne i mønstre af to forskellige epigenomiske varemærker definerede loci på tværs af genomet indikere koordineret af forskellige molekylære spillere på kromatin kropsbygning og transkriptionel regulering2 ,3,4.

Konventionelle tekst-baseret søgning motorer er ineffektive i denne henseende, fordi i modsætning til DNA sekvens, epigenomiske data overvejende findes i form af støtteintensiteter eller funktionelle genomisk regioner. GeNemo, stående for genet Nemo (som i Find Nemo), blev udviklet for at løse dette uopfyldte behov ved hjælp af mønster-baseret søgninger5. Sin algoritme udnytter en Markov kæde Monte Carlo maksimering proces5. Brugere tage deres egne data eller et datasæt hentet fra depoter og søge en bred vifte af online epigenomiske data til at identificere lighederne i mønstre.

Den aktuelle version af GeNemo har en opdateret visning, grænseflader mere håndfast med University of California, Santa Cruz (UCSC) genom-browser6, og er mindre modtagelige for problemer forårsaget af ændringer i sidstnævnte. Navnlig, mens Genemos resultatside bruges til at være baseret på UCSC genom-browser interface, den aktuelle version af GeNemo understøtter sine egne resultatside og er derfor ikke længere negativt påvirket af strukturelle ændringer i UCSC genom-browser. GeNemo kan bruge enhver genomisk signal, herunder protein-bindende, Histon modifikation, kromatin tilgængelighed, topologiske domæner og så videre, som en forespørgsel til at finde colocalized eller lignende segmenter blandt kendte datasæt fra store konsortier. Derfor er det et vigtigt redskab til at undersøge forholdet mellem forskellige epigenomiske af interesse og kendte data genereret i stor skala genomisk projekter.

Protocol

Bemærk: protokollen kan være midlertidigt overalt.

1. grundopsætning

  1. få en seng, toppe format eller stor kanon 7 fil, der indeholder dataene, der indtastes i genom. Filen skal have filtypenavnet navnet " bed ", " broadpeaks " " narrowpeaks ", eller " stor kanon " hhv.
    ​ Bemærk: ZIP versioner af disse typer filer vil også arbejde.
  2. Bruge en internetbrowser til at gå til genemo.org. Alle operativsystemer kan køre mest almindelige internet-browsere bør være i stand til at bruge GeNemo.
    1. Vælge hvilke arter at søge mod ved hjælp af rullemenuen. I øjeblikket tilgængelige arter omfatter menneskelige og musen.
    2. Upload bruger filen ved hjælp af en URL-adresse eller en direkte upload. Stor kanon filer kun arbejde med metoden url upload. SENG og toppe format filer arbejde med begge metoder (vrikke filer kan uploades som den vigtigste data allerede nu).

2. Valgfri opsætning

  1. give en e-mail-adresse i boksen tilsvarende for at modtage den ransage resultater via e-mail, når søgningen er udført.
    ​ Bemærk: når du søger en stor del af genomet og/eller mod et stort antal spor (se nedenfor), anbefales det, at brugeren giver hans/hendes email, da søgningen kan tage lang tid. For eksempel, en 100 megabase søgning tager omkring 15 s. Et link til søgeresultaterne vil blive sendt til den e-mail adresse, når søgningen er fuldført. Linket vil udløbe 7 dage efter afslutningen af en søgning.
  2. Giver en stor kanon fil eller filen vrikke display kan være fra en URL-adresse. Denne skærm fil vil ikke påvirke resultaterne; det vil kun blive vist sammen med resultaterne.
  3. Angive et søgeområde, (herunder kromosom og basepar positioner) i den tilsvarende rubrik.
    1. Liste over kromosom, starte basepar og afslutte basepar.
    2. Brug ' chrN ' til kromosom-format, hvor ' N ' er kromosom nummer/bogstavet (1, 2, … X eller Y). Basepar, netop skrive i numrene.
    3. Indeholde mellemrum mellem alle tre poster, eller medtage et kolon (:) mellem kromosom nummer og den første basepar, og/eller en bindestreg mellem de to basepar. For eksempel: chr1:1000000-2000000, chr1 1000000 2000000, chr1 1000000-2000000, chr1:1000000 2000000.
      Bemærk: Trin 2.1-2.3 er valgfrie.

Figure 1
fig. 1 : GeNemo ' s forsiden med de nødvendige områder udfyldt. En bruger skal input arter, Søg efter fil og søgeområdet, og vælge spor, han/hun ønsker at søge mod. E-mail-adresse og vise fil er valgfrie. venligst klik her for at se en større version af dette tal.

3. markerede data

Figure 2
figur 2 : Track valgvinduet. Dette er bragt op ved at klikke på den " markerede DATA " knappen på forsiden. Her, vælge brugere spor at søge inputfilen mod. Nogle af numrene er allerede valgt ved standard. venligst klik her for at se en større version af dette tal.

  1. Efter at klikke på knappen valg, vælge, hvilke typer af spor til at søge mod (dvs. føje til forespørgslen). Samlingen spor omfatter mange forskellige datasæt fra labs rundt om i verden.
    1. Som listen over spor er ret lang, brugere kan vælge at bruge knappen Filtrer (ovenpå) til at lette track valg. Spor kan blive filtreret af eksperimentet, væv, Cell Line og Lab.
    2. Der er fem knapper på bunden for at hjælpe med at udføre yndlingsspor: Marker alt, Vælg ingen, Tilføj, Filtrer, Udeluk.
    3. Vælg alle " og " skal du vælge ingen " er selvforklarende.
    4. Den " Tilføj " knap tilføjer markerede spor til forespørgslen. Det fungerer som logik gate " eller ". Bemærk, at vælge filtre ovenfor (f.eks. visse eksperimenter, væv, cellelinjer eller Labs) ikke automatisk tilføje tilsvarende spor til søgeforespørgslen. Brugerne skal først vælge spor (f.eks., hjernen, leveren under væv), og klik derefter på den " Tilføj " knap for at føje dem til forespørgslen. Når du vælger spor, Bemærk, at kun de filtre, der er angivet under fanen åbnede i filtervinduet vil blive anvendt til søgeforespørgslen. Valg på andre faner vil blive gemt i filtervinduet, men ikke anvendt til søgeforespørgslen.
    5. Den " Filter " knappen bevarer kun typerne af spor, der aktuelt er markeret i filtervinduet i forespørgslen og fjerner alle andre typer af spor. Det fungerer som logik gate " og ". Det væsentlige, " Filter " tillader valg af samspillet mellem to kategorier af spor (fx, visse væv med visse Labs). Bemærk, at " Filter " tilføjer ikke de udvalgte typer af spor til forespørgslen, hvis de ikke allerede i forespørgslen.
    6. Den " udelukke " knap fjerner alle typer af spor, der aktuelt er markeret i filtervinduet fra forespørgslen. Det fungerer som logik gate " ikke ", imod at de " Filter " funktion. Igen, " udelukke " tilføjer ikke nogen spor i øjeblikket ikke er markeret i filtervinduet til forespørgslen.

Figure 3
figur 3 : vinduet Filter . Dette er bragt op ved at klikke på den " FILTER " knappen på vinduet spor markering. Her, brugere kan vælge mange spor på samme tid, med relativ lethed. venligst klik her for at se en større version af dette tal.

Figure 4
figur 4 : Sådan bruger du filterfunktionen. venligst klik her for at se en større version af dette tal.

  1. efter at tilføje de ønskede spor til forespørgslen, skal du klikke på den " opdatering " knappen nederst til højre. Dette er nødvendigt for at rumme to måder at vælge data: at markere individuelle dataspor eller filtrering/udelukke. Den " Nulstil visning " knap nulstiller forespørgslen til de standard numre relateret til udtryk RIBOREGULATION i menneskelige/mus fosterstamceller.
    Bemærk: Hvis du vælger numre der skal søges mod " markerede Data " er valgfri, men anbefales væreÅrsag standard søgning spor er sandsynligvis ikke velegnet til brugeren ' s behov.

4. Søgeresultater og resultater af

  1. Klik på den " Søg " knap efter markerede data. Søgningen kan tage nogen tid.
  2. Når søgningen er fuldført, vil brugerne se forskellige bokse på siden resultater. Hver boks repræsenterer en del af genomet, hvor en bruger ' s-datafilen har et nøje afstemt mønster med en eller flere af de numre, brugeren har forespurgt.
    1. Hvis der er ingen bokse synlige, prøv søge flere typer af spor eller gør søgeområdet større med samme input-filen. En nem måde at gøre dette uden redoing alt at klikke på den " ☰ " knappen ved siden af logoet. Dette vil åbne en side, der tillader brugeren at ændre søgningen.
    2. Resultaterne kan eksporteres som en seng-fil ved at klikke på den " DOWNLOAD BED fil " knap nederst på resultatsiden.
  3. Klik på knappen Visualiser øverst til højre i hver kasse at visualisere resultaterne.
    1. i visualisering panel på den rigtige, flere ting vises herunder data, som indeholder bruger input-filen, displayet fil Hvis en blev indtastet, matchende numre, og nogle standard spor. Fra resultaterne, kan brugeren sammenligne kendte ENCODE datasæt mod det angivne datasæt til yderligere undersøgelse. Brugeren kan også henvise til UCSC gener at se som led i forespørgselsresultaterne. Hvis spor fra flere celle linjer/væv er valgt, brugeren kan bruge sådanne resultater for at få viden om væv specificiteten af ligheder mellem given datasæt og INDKODE datasæt.
    2. På resultater side, brugeren kan trække på alle spor at gå opstrøms eller nedstrøms af genomet, når musemarkøren er på koordinaterne, brugeren kan bruge musehjulet og/eller zoome ind og ud.

Figure 5
figur 5 : resultatside. Denne særlige søgning gav 363 tilsvarende regioner. Viser den første matchende region kan gøres ved at klikke på den " Vis " knappen i nederste venstre hjørne af hver resulterende region boks. På den venstre del af vinduet vises kan det ses, at to datafilerne (input og valgte spor) er ens i signal styrke mønster. venligst klik her for at se en større version af dette tal.

Representative Results

Her vist i figur 5 er en simuleret søgning. Den menneskelige art blev valgt, og den tilsvarende eksempelfilen blev brugt som input datafil. Derudover blev standard spor, som det ses i figur 3, valgt. Der var i alt 363 matchende regioner, og den første region er vist på siden skærm. Det kan ses, at intensiteten mønster fra basere 17036000 til 17038000 på kromosom 1 for input-filen og en af de valgte spor er meget ens.

Discussion

En grundig forståelse af epigenome er forpligtet til at opnå det fulde potentiale af human genome sequencing i at give nye biologiske indsigter8. I øjeblikket er der kun måder at søge online epigenomiske datasæt ved deres data beskrivelse og titel (dvs., metadata)1. Dette begrænser i høj grad typerne af søgning kan man gøre med epigenomiske data. Mønster-baseret søgning værktøjer for epigenomiske data er afgørende for at udforske forholdet mellem forskellige epigenomiske mærker, som kan føre til nye biologiske indsigter. GeNemo, som søger indhold af data og ikke metadata, er den første tjeneste af sin art til at sammenligne mønstre i epigenomiske data fra publicerede depoter såsom ENCODE database med en bruger-genereret eller downloadet datasæt5. Dette markerer begyndelsen af tilgængeligheden af en epigenomiske søgning værktøj, der er bredt tilgængelige for forskere rundt om i verden bare som tekst-baserede sekvens søgeværktøj blev alment tilgængelig i 1990 ' erne. I øjeblikket, er der ingen alternativer til mønster-baseret online søgning værktøjer for epigenomiske data end GeNemo.

En potentiel eksempel på brugen af GeNemo er at søge de Co vises Histon ændringer og andre epigenetiske mærker med transcriptional faktor E2F6 i humane embryonale stamceller (et eksempel E2F6 bindende signal fil er tilgængelig på ENCODE data portal eller på https://sysbio.UCSD.edu/Public/xcao3/ENCODESample/ENCFF001UBC.Bed). Ved hjælp af denne fil som forespørgslen til at søge mod alle ENCODE datasæt i H1-menneskelige stamceller, vil GeNemo vise at E2F6 bindende signal er stærkt beriget med H3K4me1, H3K4me2, H3K4me3 og H3K27me3, som er enig med eksisterende forskning viser, at E2F6 regulerer nogle gener via methylering af H3K279. På den anden side synes der at være colocalization af E2F6 og CtBP2 bindingssteder, som er kendt for at interagere med en faktor i den samme familie, E2F710. Disse resultater for den hele genom mod et stort antal epigenetiske mærker, transcriptional faktor bindende signaler og andre signaler indgår i ENCODE kan opnås temmelig nemt med GeNemo, der kan levere alle potentielle mål for yderligere analyse.

Siden den første publikation5 af GeNemo som en web-baseret epigenomiske data søgning værktøj, er afsnittet resultater af GeNemo blevet opdateret for at have en tilsvarende udseende med Genemos Forside. Afsnittet gamle resultater nøje spejlet afsnittet UCSC genom-browser resultater, og var i høj grad afhængig af UCSC fjernserver til visning. Med den nye grænseflade er GeNemo mere brugervenlig og ikke længere afhængige af UCSC genom server (selvom data er stadig hentede fjernt). Det gør GeNemo mere robust og mindre modtagelige for problemer på grund af kodeændringer på UCSC server. Desuden, den nye, hurtigere polymer grænseflade af GeNemo giver brugeren flere værktøjer til at visualisere og analysere mønstre i data.

Kritiske trin omfatter giver passende input-filen og vælge dataspor til at søge mod. Brugere opfordres kraftigt til at eksperimentere med forskellige spor markering funktioner at blive fortrolig med udvælgelsesprocessen og hvordan forskellige kommandoer kan kombineres til at opnå det ønskede resultat. Især opmærksom på at funktionen "Tilføj" er forpligtet til at tilføje ønskede numre valgt i forespørgslen, mens "Filter" eller "Udelukke" kan bruges som logik gate kommandoer "Og" og "Eller", henholdsvis. "Update"-funktionen er forpligtet til at påvirke alle valg før implementering af søgningen. Når der returneres ingen resultater, kan en bruger kontrollere filen inputdata, søge mere spor eller øge søgeområdet. Når der er en fejl, vil der være et vindue dukker op definere hvad præcis fejlen er. Der er nogle uklare fejl, selv om. For eksempel, når vinduet siger, at 'ingen fil blev uploadet', enten ingen fil blev uploadet, eller den uploadede fil var ikke i et acceptabelt format og, derfor, programmet var ikke i stand til at læse det korrekt. Acceptabel filformater til fil-upload omfatter seng og toppe format fil for både upload metoder og stor kanon for online link upload kun. De ZIP versioner af disse filformater kan også accepteres.

Nuværende begrænsninger af denne tilgang omfatter endnu-til-være-optimeret algoritmer og funktioner ansat i GeNemo. GeNemo kan ikke endnu give nogen vejledning om fortolkningen af enhver datasæt, der returneres. Denne opgave er op til brugerne, der kræver betydelig viden og ekspertise i biologi genom og epigenome. Desuden er en anden nuværende begrænsning, at brugerne ikke kan ændre følsomhed og støj niveauet af søgningerne. Vi forventer at fortsætte med at forbedre og udvide GeNemo på sit mønster søgning kapaciteter og datasæt samling i fremtiden.

Disclosures

Forfatterne har ingen konkurrerende finansielle interesser til at videregive.

Acknowledgments

Dette arbejde blev støttet af NIH tilskud, herunder DP1HD087990 fra NICHD, R01HG008135 fra NHGRI. Vi takke medlemmerne af Zhong lab for værdifuld feedback.

Forfatter bidrag:
X.C. og A.T.Z. opdateret GeNemo af kodning nye grænseflade og funktioner; A.T.Z. produceret in-house prøve video; A.T.Z., X.C og sz skrev papiret.

Materials

Name Company Catalog Number Comments
GENEMO https://www.genemo.org Comparative Epigenome Browser

DOWNLOAD MATERIALS LIST

References

  1. The ENCODE Project Consortium. An integrated encyclopedia of DNA elements in the human genome. Nature. 489, 57-74 (2012).
  2. Barski, A., et al. High-Resolution Profiling of Histone Methylations in the Human Genome. Cell. 129 (4), 823-837 (2007).
  3. Meaney, M. J., Ferguson-Smith, A. C. Epigenetic regulation of the neural transcriptome: the meaning of the marks. Nature Neuroscience. 13, 1313-1318 (2010).
  4. Roh, T. -Y., Cuddapah, S., Cui, K., Zhao, K. The genomic landscape of histone modifications in human T cells. PNAS. 103 (43), 15782-15787 (2006).
  5. Zhang, Y., Cao, X., Zhong, S. GeNemo: a search engine for web-based functional genomic data. Nucleic Acids Res. 44, W122-W127 (2016).
  6. Fujita, P. A., Rhead, B., Zweig, A. S., Hinrichs, A. S., Karolchik, D., Cline, M. S., Goldman, M., Barber, G. P., Clawson, H., Coelho, A., et al. The UCSC Genome Browser database: update 2011. Nucleic Acids Res. 39, 876-882 (2011).
  7. Neph, S., Vierstra, J., Stergachis, A. B., Reynolds, A. P., Haugen, E., Vernot, B., Thurman, R. E., John, S., Sandstrom, R., Johnson, A. K., et al. An expansive human regulatory lexicon encoded in transcription factor footprints. Nature. 489, 83-90 (2012).
  8. Sarda, S., Hannenhalli, S. Next-generation sequencing and epigenomics research: a hammer in search of nails. Genomics Inform. 12 (1), 2-11 (2014).
  9. Storre, J., et al. Silencing of the Meiotic Genes SMC1β and STAG3 in Somatic Cells by E2F6. J Biol Chem. 280, 41380-41386 (2005).
  10. Liu, B., Shats, I., Angus, S. P., Gatza, M. L., Nevins, J. R. Interaction of E2F7 Transcription Factor with E2F1 and C-terminal-binding Protein (CtBP) Provides a Mechanism for E2F7-dependent Transcription Repression. J Biol Chem. 288, 24581-24589 (2013).

Tags

Bioteknologi spørgsmålet 128 bioinformatik GeNemo ENCODE mønstertilpasning funktionelle genomisk data epigenome genom
Mønster-baseret søgning af epigenomiske Data ved hjælp af GeNemo
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Zheng, A., Cao, X., Zhong, S.More

Zheng, A., Cao, X., Zhong, S. Pattern-based Search of Epigenomic Data Using GeNemo. J. Vis. Exp. (128), e56136, doi:10.3791/56136 (2017).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter