Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Bioengineering

Mønsterbaserte søk Epigenomic Data ved hjelp av GeNemo

Published: October 8, 2017 doi: 10.3791/56136
* These authors contributed equally

Summary

I motsetning til DNA sekvens data, er epigenomic data ikke lett utsettes for tekst-basert søk. Presenteres her er prosedyrer for en oppgradert versjon av GeNemo, et webbasert Bioinformatikk verktøy, for å foreta mønsterbaserte Søk etter likheter i epigenomic data sammenligne tilgjengelig online databaser inkludert Encyclopedia av DNA elementer med brukerens data.

Abstract

Sammenlignet med de robuste tekstbaserte søkeverktøyene for genomisk eller RNA sekvensering data, gjeldende metoder for mønsterbaserte søk av epigenomic og andre funksjonelle genomic data er svært begrenset. GeNemo er det første online søkeverktøyet som oppnår dette målet. Brukere input funksjonelle genomic dataene i leseren Extensible Data (SENG), topper og bigWig formater og kan søke etter data i tre formater. Brukere kan angi hvilke typer datasett søke mot å velge fra en rekke online datasett, med Encyclopedia av DNA elementer (kode) som representerer ulike epigenomic merker, transcriptional faktor bindende områder og chromatin hypersensitivities eller accessibilities i spesifikke celletyper, og utviklingsstadier eller arter (mus eller human). GeNemo returnerer en liste over genomisk regioner med matchende mønstre til inndataene, som kan vises i leseren samt lastet ned i SENGEN format. Den oppgraderte GeNemo har forbedret grafisk display, har mer robust grensesnitt og er ikke utsatt for feil skyldes endringer i University of California, Santa Cruz (UCSC) genomet nettleser. Fremgangsmåten for feilsøking for vanlige problemer drøftes. Som mengden funksjonelle genomic data vokser eksponentielt, finnes det et kritisk behov for å utvikle og finpusse nye bioinformatic verktøy som GeNemo dataene analyser og tolkning.

Introduction

Nyere teknologiske fremskritt har tillatt for en rask utbygging av epigenomic eller funksjonelle genomic data depositories, som har overgått utviklingen av relevante analytiske verktøy for å trekke ut biologiske innsikt. En viktig måte å analysere epigenomic data er å søke brukergenererte data mot data depositories, og spesielt de fra Encyclopedia av DNA elementer (kode)1 prosjekter for matchende mønstre som kan føre til ny kunnskap. Eksempelvis kan identifiserer likheter i mønstre av to forskjellige epigenomic markerer definerte loci over genomet indikere koordinert handling av molekylære forskjellige chromatin konformasjon og transcriptional forskrift2 ,3,4.

Tradisjonelle tekstbaserte søkemotorer er ineffektive i denne forbindelse fordi, i motsetning til DNA sekvens, epigenomic data hovedsakelig finnes i intensitet eller funksjonelle genomisk regioner. GeNemo, står for Gene Nemo (som Finding Nemo), ble utviklet for å løse denne udekkede behov bruker mønsterbaserte søk5. Sin algoritme benytter en Markov kjeden Monte Carlo maksimering prosessen5. Brukere ta sine egne data eller dataset lastet ned fra depositories og søk etter en rekke online epigenomic data for å identifisere likheter i mønstre.

Den gjeldende versjonen av GeNemo har en oppdatert skjerm, grensesnitt mer robust med University of California, Santa Cruz (UCSC) genomet nettleser6, og er mindre utsatt for problemer som skyldes endringer i det siste. Spesielt mens Genemos resultatsiden brukt skal baseres på UCSC genomet lesergrensesnittet, gjeldende versjon av GeNemo støtter sin egen resultatsiden og følgelig er ikke negativt påvirket av strukturelle endringer i UCSC genomet nettleseren. GeNemo kan bruke alle genomic signal, inkludert protein-bindende, histone modifisering, chromatin tilgjengelighet, topologisk domener og så videre, som en spørring for å finne colocalized/lignende segmenter blant kjente datasett fra store konsortier. Derfor er det et viktig verktøy for å studere forholdet mellom forskjellige epigenomic rundt og kjente data generert i stor skala genomisk prosjekter.

Protocol

Merk: protokollen kan pauses overalt.

1. grunnleggende oppsett

  1. innhente en SENG, topper format eller BigWig 7-fil som inneholder dataene legges inn i Genome. Filen må ha filtypen navn " bed ", " broadpeaks " " narrowpeaks ", eller " bigWig " henholdsvis.
    ​ Merk: zippet versjoner av denne typen filer vil også arbeide.
  2. Bruker en nettleser for å gå til genemo.org. Alle operativsystemer som kan kjøre mest vanlige nettlesere skal kunne bruke GeNemo.
    1. Velge hvilke arter å søke mot å bruke rullegardinmenyen. Foreløpig tilgjengelig arter inkluderer menneskelige og mus.
    2. Laste opp bruker filen ved hjelp av en URL-adresse eller en direkte opplasting. BigWig filer fungerer bare med metoden url upload. SENG og topper format filer arbeidet med begge metodene (vrikke filene ikke kan lastes som de viktigste dataene som nå).

2. Valgfrie

  1. gir en e-postadresse i tilsvarende boks for å motta søkeresultater via e-post når søket er fullført.
    ​ Merk: Når du søker en stor del av genomet og/eller mot et stort antall spor (se nedenfor), anbefales det at brukeren gir sin e-post, siden søket kan ta lang tid. For eksempel et 100 megabase søk tar rundt 15 s. En kobling til søkeresultatene skal sendes til oppgitt når søket er fullført. Koblingen vil utløpe i 7 dager etter ferdigstillelse av et søk.
  2. Gir en bigwig fil eller vrikke vise filen er fra en URL-adresse. Vise filen påvirker ikke på resultatet; Det vises bare sammen resultatene.
  3. Angir et søkeområde (inkludert kromosom og base par stillingene) i tilsvarende boks.
    1. Liste kromosomet starte base par og avslutte base par.
    2. Bruk ' chrN ' for kromosom formatet, hvor ' N ' er kromosom tall/bokstav (1, 2, … X eller Y). For base parene, bare skriv inn tallene.
    3. Inneholder mellomrom mellom alle tre oppføringer, eller ha med et kolon (:) mellom Kromosom nummer og første base paret og/eller en bindestrek mellom to base parene. For eksempel: chr1:1000000-2000000, chr1 1000000 2000000, chr1 1000000-2000000, chr1:1000000 2000000.
      Merk: Trinn 2.1-2.3 er valgfrie.

Figure 1
figur 1 : GeNemo ' s forsiden med de nødvendige områdene utfylt. En bruker må angi arter, søk-fil og søkeområde og velge spor han ønsker å søke mot. E-postadresse og vise filen er valgfrie. Klikk her for å se en større versjon av dette tallet.

3. datautvalget

Figure 2
figur 2 : spor vinduet. Dette er tatt opp ved å klikke på " DATAUTVALGET " knappen på forsiden. Her velge brukere spor søke inndatafilen mot. Noen av sporene er allerede valgt som standard. Klikk her for å se en større versjon av dette tallet.

  1. Når du klikker knappen data, velger du hvilke typer spor søke mot (dvs. legge til spørringen). Spor samlingen inneholder mange forskjellige datasets fra labs verden.
    1. Listen over spor er ganske lang, brukere kan du bruke filter-knappen (på toppen) å lette spor valg. Spor kan filtreres etter eksperiment, vev, celle linje eller Lab.
    2. Det er fem knapper nederst å kjøre spor: Velg alle, velger du ingen, Legg til Filter, Ekskluder.
    3. Merker alle " og " Opphev " er selvforklarende.
    4. Den " Legg til " knappen legger valgte spor i spørringen. Det fungerer som logikkporten " eller ". Merk at velge filtrene ovenfor (f.eks visse eksperimenter, vev, linjer eller Labs) ikke legger automatisk til tilsvarende spor for søket. Brukere må først velge spor (f.eks, hjerne, lever under vev), og klikk deretter den " Legg til " for å legge dem til i spørringen. Når du velger spor, Merk at bare filtrene som er angitt i kategorien åpnet i filtervinduet vil bli brukt for søket. Valg på andre kategorier vil bli lagret i filtervinduet, men ikke brukt søket.
    5. Den " filteret " beholder bare koblingstypene spor valgt i filtervinduet i spørringen og fjerner alle andre typer spor. Det fungerer som logikkporten " og ". I hovedsak " filteret " tillater valg av samspillet mellom to kategorier av spor (f.eks, visse vev med visse Labs). Merk at " filteret " legger ikke til de valgte typene spor i spørringen hvis de ikke allerede i spørringen.
    6. Den " utelukke " knappen fjerner alle typer spor som er valgt i filtreringsvinduet fra spørringen. Det fungerer som logikkporten " ikke ", i opposisjon til den " filteret " funksjon. Igjen, " utelukke " legger ikke spor ikke valgt i filtervinduet spørringen.

Figure 3
Figur 3 : filtervinduet . Dette er tatt opp ved å klikke på " FILTERET " knappen på vinduet spor. Her, brukernes kanne velge mange spor samtidig, med relativ letthet. Klikk her for å se en større versjon av dette tallet.

Figure 4
Figur 4 : Hvordan bruke filter-funksjonen. Klikk her for å se en større versjon av dette tallet.

  1. etter ønskede spor i spørringen, klikker du " oppdatering " knappen nederst til høyre. Dette er nødvendig for å imøtekomme to måter å velge data: velge individuelle data spor eller filtrering/unntatt. Den " tilbakestille visningen " knappen tilbakestiller spørringen til standard sporene knyttet til gene expression regulering i menneskelige/mus embryonale stamceller.
    Merk: Å velge spor å søke mot " datautvalget " er valgfritt men anbefales væreårsaken standard søk sporene er sannsynligvis ikke egnet til brukeren ' s behov.

4. Søk og resultater

  1. Klikk på " søk " knappen etter dataene. Søket kan ta litt tid.
  2. Når søket er fullført, vil brukerne se ulike boksene i resultatene siden. Hver boks representerer en del av genomet der en bruker ' s datafilen har en jevn mønster med én eller flere av sporene som brukeren har spurt.
    1. Hvis det er ingen bokser synlig, prøve forskende flere typer spor eller gjør søkeområdet større med samme inndatafilen. En enkel måte å gjøre dette uten redoing alt er å klikke på " ☰ " ved siden av logoen. Dette vil åpne opp en sidebar som lar brukeren endre søket.
    2. Resultatene kan eksporteres som en SENG-fil ved å klikke på den " Last ned SENG fil " knappen nederst på resultatsiden.
  3. Klikk på effekter-knappen øverst til høyre på hver for å visualisere resultatene.
    1. i visualisering panelet på høyre, flere ting vises inkludert data, som inkorporerer bruker inndatafilen, vise filen hvis man ble angitt, matchende spor, og noen standard spor. Fra resultatene, kan du sammenligne kjent kode datasett mot angitt dataset for videre etterforskning. Brukeren kan også referere til UCSC gener se sammenheng med spørringsresultatene. Hvis spor fra flere cellen linjer/vev er valgt, kan brukeren benytte slike resultater for å få innsikt om vev spesifisitet av likheter mellom gitt datasett og kode datasett.
    2. På resultater-siden brukeren kan dra på spor flytte oppstrøms eller nedstrøms i genomet; når markøren er på koordinatene, brukeren kan bruke musehjulet og/eller zoom ut.

Figure 5
figur 5 : resultatsiden. Dette bestemte søket returnerte 363 samsvarende regioner. Viser den første samsvarende regionen kan gjøres ved å klikke på " Vis " knappen på nederst til venstre på hver resulterende område-boksen. På den venstre delen av vinduet vises det kan sees at de to filene (input og valgte spor) er like i signal styrke mønster. Klikk her for å se en større versjon av dette tallet.

Representative Results

Vist nedenfor i figur 5 er en simulert søk. Den menneskelige arten ble valgt, og tilsvarende eksempelfilen ble brukt som inndata. I tillegg ble til standard spor, som vist i Figur 3, valgt. Det var totalt 363 matchende regioner, og regionen første vises i skjerm-siden. Det kan sees at de intensitet mønster fra basere 17036000 å 17038000 på Kromosom 1 for inndatafilen og en av de valgte sporene er svært like.

Discussion

En grundig forståelse av epigenome er nødvendig for å oppnå det fulle potensialet av menneskelige genom sekvensering å gi nye biologiske innsikt8. Foreløpig er det bare måter å søke online epigenomic datasett av deres databeskrivelse og tittel (i.e., metadata)1. Dette begrenser sterkt hvilke typer søk kan man gjøre med epigenomic data. Mønsterbaserte søkeverktøy for epigenomic data er avgjørende for utforsker forholdet mellom ulike epigenomic merkene, som kan føre til ny biologiske innsikt. GeNemo, som søker av innholdet i dataene og ikke metadataene, er den første i sitt slag til å sammenligne mønstre i epigenomic data fra publiserte depositories som kode databasen med en bruker-generert eller nedlastet dataset5. Dette markerer begynnelsen av tilgjengeligheten av en epigenomic-søkeverktøy som er allment tilgjengelig for forskere over hele verden bare tekstbaserte sekvens søkeverktøy ble allment tilgjengelig på 1990-tallet. I dag er det ingen alternativer for mønster-baserte online søkeverktøy for data som epigenomic ikke GeNemo.

Én potensielle eksempel på bruk av GeNemo er å søke co vises histone endringene og andre epigenetic merker med transcriptional faktor E2F6 i menneskelige embryonale stamceller (en eksempel E2F6 binding signal arkiv er tilgjengelig på kode dataene portal eller på https://sysbio.UCSD.edu/Public/xcao3/ENCODESample/ENCFF001UBC.Bed). Ved hjelp av denne filen som spørring søke mot alle kode datasett i H1-hESC, viser GeNemo at E2F6 binding signalet er sterkt beriket med H3K4me1, H3K4me2, H3K4me3 og H3K27me3, som er enig med eksisterende forskning viser at E2F6 regulerer noen gener via metylering H3K279. På den annen side, synes det å være colocalization av E2F6 og CtBP2 binding nettsteder, som er kjent for å samhandle med en faktor i samme familie, E2F710. Disse resultatene til hele genomet mot en rekke epigenetic merker, transcriptional faktor bindende signaler og andre signaler i kode kan ganske enkelt oppnås med GeNemo, som kan gi alle potensielle mål for videre analyse.

Siden den første publikasjonen5 av GeNemo som en web-basert epigenomic data søkeverktøyet, har resulterer kapittel av GeNemo blitt oppdatert for å ha en matchende opptreden med Genemos forsiden. Gamle resultatinndelingen tett speilet delen UCSC genomet nettleser resultater, og var i stor grad avhengig av den eksterne UCSC serveren for visning. Med det nye grensesnittet er GeNemo mer brukervennlig og ikke lenger avhengig UCSC genomet serveren (selv om dataene er fortsatt Hentet fjernt). Dette gjør GeNemo mer robust og mindre utsatt for problemer på grunn av kodeendringer på UCSC serveren. Videre gir nye, raskere polymer grensesnittet til GeNemo brukeren flere verktøy for å visualisere og analysere mønstre i dataene.

Kritisk trinnene omfatter gir riktig inndatafilen og velge data spor søke mot. Brukere oppfordres til å eksperimentere med forskjellige Spor markering funksjonene å bli kjent med utvelgelsesprosessen og hvordan ulike kommandoer kan kombineres til å oppnå den tilsiktede utfallet. Spesielt oppmerksom på at funksjonen "Legg til" er nødvendig å legge til ønskede spor valgt i spørringen, mens "Filtrere" eller "Utelukk" kan brukes som logikk gate kommandoer "AND" og "Eller", henholdsvis. Funksjonen "Update" er nødvendig for å påvirke valgene før du implementerer søket. Når ingen resultater returneres, kan en bruker sjekke filen inndataene, søke mer spor eller øke søkeområdet. Når det er en feil, blir det et vindu dukker opp definere hva nøyaktig feilen er. Det er noen tvetydig feil, skjønt. For eksempel når vinduet sier at "ingen fil ble lastet opp', enten ingen fil ble lastet opp, eller den opplastede filen var ikke av akseptabelt format og, derfor programmet kunne ikke lese det riktig. Filformatene for filopplasting inkluderer SENG og topper formatfil for både opplasting metoder og bigWig for online kobling sende bare. De zippede versjonene av disse filformatene er også akseptabelt.

Nåværende begrensninger av denne tilnærmingen inkluderer ennå-å-være-optimalisert algoritmer og funksjoner i GeNemo. GeNemo kan ikke likevel gi noen veiledning om tolkningen av noen datasett som returneres. Denne aktiviteten er opp til brukerne, som krever betydelig kunnskap og ekspertise i biologi genomet og epigenome. Dessuten, er en annen gjeldende begrensning at brukere ikke kan endre følsomhet og støy nivået av søk. Vi forventer å fortsette å forbedre og utvide GeNemo mønsteret forskende evner og dataset samling i fremtiden.

Disclosures

Forfatterne har ingen konkurrerende økonomiske interesser å avsløre.

Acknowledgments

Dette arbeidet ble støttet av NIH gir inkludert DP1HD087990 fra NICHD, R01HG008135 fra NHGRI. Vi takker medlemmer av laboratoriet Zhong verdifulle tilbakemeldinger.

Forfatter bidrag:
X.C. og A.T.Z. oppdatert GeNemo av koding nye grensesnittet og funksjoner. A.T.Z. produsert internt eksempelannonsen video; A.T.Z., X.C og sz skrev papiret.

Materials

Name Company Catalog Number Comments
GENEMO https://www.genemo.org Comparative Epigenome Browser

DOWNLOAD MATERIALS LIST

References

  1. The ENCODE Project Consortium. An integrated encyclopedia of DNA elements in the human genome. Nature. 489, 57-74 (2012).
  2. Barski, A., et al. High-Resolution Profiling of Histone Methylations in the Human Genome. Cell. 129 (4), 823-837 (2007).
  3. Meaney, M. J., Ferguson-Smith, A. C. Epigenetic regulation of the neural transcriptome: the meaning of the marks. Nature Neuroscience. 13, 1313-1318 (2010).
  4. Roh, T. -Y., Cuddapah, S., Cui, K., Zhao, K. The genomic landscape of histone modifications in human T cells. PNAS. 103 (43), 15782-15787 (2006).
  5. Zhang, Y., Cao, X., Zhong, S. GeNemo: a search engine for web-based functional genomic data. Nucleic Acids Res. 44, W122-W127 (2016).
  6. Fujita, P. A., Rhead, B., Zweig, A. S., Hinrichs, A. S., Karolchik, D., Cline, M. S., Goldman, M., Barber, G. P., Clawson, H., Coelho, A., et al. The UCSC Genome Browser database: update 2011. Nucleic Acids Res. 39, 876-882 (2011).
  7. Neph, S., Vierstra, J., Stergachis, A. B., Reynolds, A. P., Haugen, E., Vernot, B., Thurman, R. E., John, S., Sandstrom, R., Johnson, A. K., et al. An expansive human regulatory lexicon encoded in transcription factor footprints. Nature. 489, 83-90 (2012).
  8. Sarda, S., Hannenhalli, S. Next-generation sequencing and epigenomics research: a hammer in search of nails. Genomics Inform. 12 (1), 2-11 (2014).
  9. Storre, J., et al. Silencing of the Meiotic Genes SMC1β and STAG3 in Somatic Cells by E2F6. J Biol Chem. 280, 41380-41386 (2005).
  10. Liu, B., Shats, I., Angus, S. P., Gatza, M. L., Nevins, J. R. Interaction of E2F7 Transcription Factor with E2F1 and C-terminal-binding Protein (CtBP) Provides a Mechanism for E2F7-dependent Transcription Repression. J Biol Chem. 288, 24581-24589 (2013).

Tags

Bioteknologi problemet 128 bioinformatikk GeNemo kode mønstergjenkjenning funksjonelle genomic data epigenome Genova
Mønsterbaserte søk Epigenomic Data ved hjelp av GeNemo
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Zheng, A., Cao, X., Zhong, S.More

Zheng, A., Cao, X., Zhong, S. Pattern-based Search of Epigenomic Data Using GeNemo. J. Vis. Exp. (128), e56136, doi:10.3791/56136 (2017).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter