Waiting
Processando Login

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

En protokoll for bruk av Gene satt berikelse analyse for å identifisere den aktuelle dyr modellen for translasjonsforskning

Published: August 16, 2017 doi: 10.3791/55768

Summary

Vi gir en standardisert protokoll for bruk av genet angi berikelse analyse av transcriptomic data til å identifisere en ideell musemodell for translasjonsforskning.
Denne protokollen kan brukes med microarray DNA og RNA sekvensering data og kan videre utvides til andre omics data hvis data er tilgjengelige.

Abstract

Nyere studier som sammenlignet transcriptomic datasett av menneskelige sykdommer med datasett fra musen modeller med tradisjonelle gen-til-genet sammenligning teknikker resulterte i selvmotsigende konklusjoner om relevansen av dyr modeller for translasjonsforskning forskning. En viktig grunn til uoverensstemmelsene mellom forskjellige gene expression analyser er vilkårlig filtreringen av ulikt uttrykt gener. Videre er sammenligning av enkelt gener mellom forskjellige arter og plattformer ofte begrenset av tekniske avvik, fører til feiltolkning av con/discordance mellom data fra mennesker og dyr modeller. Dermed er standardiserte metoder for systematisk dataanalyse nødvendig. For å overvinne subjektive genet filtrering og ineffektive gen-til-genet sammenligninger, viste vi nylig at gen sett berikelse analyse (GSEA) har potensial til å unngå disse problemene. Derfor har vi utviklet en standardisert protokoll for bruk av GSEA til å skille mellom passende og upassende dyr modeller for translasjonsforskning. Denne protokollen er ikke egnet til å forutsi hvordan du utformer nye modellsystemer en-priori, som det krever eksisterende eksperimentelle omics data. Imidlertid beskriver protokollen Hvordan tolke eksisterende data på en standardisert måte for å velge den mest passende dyremodell, dermed unngå unødvendige dyreforsøk og villedende translational studier.

Introduction

Dyr modeller er mye brukt til å studere menneskelige sykdommer, på grunn av deres antatte likhet å Human genetikk, anatomi og fysiologi. Videre dyremodeller ofte tjene som gatekeepere til klinisk behandling og kan ha en enorm innvirkning på suksessen av translasjonsforskning. Nøye utvalg av den optimale dyremodell kan redusere antall misvisende dyrestudier. Nylig har relevansen av dyr modeller for translasjonsforskning vært kontroversielt diskutert, særlig fordi analysere samme datasett menneskelige inflammatoriske sykdommer og relaterte musen modeller førte til selvmotsigende konklusjoner 1,2. Denne diskusjonen avdekket et grunnleggende problem under analyserer omics: standardiserte metoder for systematisk dataanalyse er nødvendig for å redusere partisk genet utvalg og øke robustheten ved Inter sammenligninger 3.

Tradisjonelt analyse av transcriptomics data (og andre omics data) er gjort på enkelt-genet nivå og inkluderer et første trinn av genet valg basert på strenge cut-off parametere (f.eks, kaste endring > 2.0 p verdien < 0,05). Men innstillingen for første cut-off parametere ofte subjektiv, tilfeldig og ikke biologisk berettiget, og kan også føre til motsatt konklusjoner1,2. Videre første gen utvalg vanligvis begrenser analyse til noen høyt opp- og downregulated gener og er dermed ikke sensitive nok til å inneholde fleste gener som var ulikt uttrykt i mindre grad.

Med fremveksten av genomics tid tidlig på 2000-tallet og økende kunnskap om biologiske banene og sammenhenger, ble alternative statistiske metodene utviklet som kan omgå begrensningene for single-genet nivå analyser. Gene satt berikelse analyse (GSEA)4, som er en av de aksepterte metodene for analyse av transcriptomics data, gjør bruk av en priori definert gener (f.ekssignalnettverk trasé, proksimale plassering på et kromosom osv.). GSEA første kart alle oppdaget ufiltrert gener til de tiltenkte gene settene (f.eks, veier) uavhengig av deres individuelle endring i uttrykket. Denne tilnærmingen inkluderer dermed også moderat regulert gener som ellers ville vært tapt med enkelt-genet nivå analyser. Additiv endring i uttrykket i genet sett utføres senere med løpende sum statistikk.

Til tross for bred bruk i medisinsk forskning tas GSEA og relaterte sett berikelse tilnærminger Self-tydeligvis ikke i betraktning for analyse av komplekse omics data. Her beskriver vi en protokoll for å sammenligne omics data fra menneskelige prøver med de fra musen modeller for å identifisere den ideelle modellen for translational studier. Vi viser til anvendelsen av protokollen basert på en samling av musen modeller som brukes for å etterligne menneskelige inflammatoriske lidelser. Men denne analyse rørledningen er ikke begrenset til menneske-mus sammenligninger og amendable ytterligere forskning spørsmål.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. download GSEA programvare og molekylære signaturer databasen

  1. gå til den offisielle nettsiden GSEA bred Institute (http://software.broadinstitute.org/gsea/index.jsp) og registrere deg for å få tilgang til GSEA programvare verktøyet og molekylære signaturer databasen (MSigDB).
  2. Last ned javaGSEA desktop søknad eller alternativ programvare alternativer (f.eks, R-skript).
    Merk: Alle alternativene implementere nøyaktig samme algoritme. GSEA programvaren er fritt tilgjengelig for personer i akademia og industri for interne forskningsformål.
  3. For ytterligere informasjon om programmet GSEA gå til webområdet dokumentasjon (http://software.broadinstitute.org/cancer/software/gsea/wiki/index.php/Main_Page) og GSEA-brukerveiledning (http://software.broadinstitute.org/gsea/doc/ GSEAUserGuideFrame.html).
  4. laste ned molekylær signaturer databasen (MSigDB) fra webområdet GSEA å få tilgang til personlige genet samlinger.
    Merk: MSigDB er en samling av kommenterte genet for bruk med GSEA programvaren eller andre formål. Gene sett deles ifølge signalnettverk trasé, gene ontologi vilkår, cis-regulatoriske motiver, eksperimentelle signaturer og andre. Gener fra MSigDB er alltid navngitt av deres offisielle HUGO (Human Genome organisasjon) genet symbol. For sammenligning av veien mellom en gitt menneskelig lidelse og annen mus modeller det anbefales å dataoverføre det ' alle kanoniske veier, gene symboler ' filen (c2.cp.v5.2.symbols.gmt). Denne filen består av genet sett som kommenterte og organisert i signalveier KEGG 5 , 6, Reactome 7 , 8 og BioCarta 9. strengen ' v5.2 ' representerer versjonsinformasjonen for samlingen. Pass på å dataoverføre det nyeste versjonen av filene. MSigDB er fritt tilgjengelig for personer i akademia og industri for interne forskningsformål. Det er ikke nødvendig å laste ned MSigDB, hvis Internett er angitt under analysen. I dette tilfellet MSigDB kan direkte velges i brukergrensesnittet til GSEA.
  5. Last ned DNA chip (matrise) merknader filer fra webområdet GSEA oversette matrise-spesifikke sonde identifikatorene til de generelle HUGO genet symboler (f.eks Mouse430_2.chip).
    Merk: Det er ikke nødvendig å laste ned DNA chip merknadene, hvis Internett er angitt under analysen. I dette tilfellet kan DNA chip merknadene direkte velges i brukergrensesnittet til GSEA. Protokollen kan også brukes med RNA sekvensering data. I dette tilfellet er det ikke nødvendig å laste ned merknadsfiler. Bruk i stedet GSEA preranked verktøyet for å analysere den genuttrykk data (se trinn 4,12).

2. Last ned eksperimentelle genuttrykk Data for menneskelig lidelse og passende dyr modeller

  1. identifisere eksperimentelle gene expression (transcriptomics) studier for menneskelig uorden valgfrihet (f.eks, gene uttrykket profiler av leukocytter avledet fra pasienter med septisk uorden, GSE9960).
  2. Likeledes, etter flere dyr modeller som skal sammenlignes med de menneskelige studiene (f.eks, gene uttrykket profiler av blod celler avledet fra mus etter injeksjon av Staphylococcus aureus (S. aureus), GSE20524). På dette trinnet bruker forkunnskaper for forhåndsvalg dyr modeller som kan være passende for å etterligne den menneskelige situasjonen.
  3. For dette formålet se litteratur og databaser som Gene Expression Omnibus (GEO) database 10 eller ArrayExpress 11 og laste ned normaliserte transcriptomics data av interesse. Lagre data som tekst-filer på den lokale harddisken. Nedlastning av tabulator-serien matrix tekstfiler anbefales for GEO-databasen. Likeledes ta note av plattformen (matrisetype) brukes for at studien, siden denne informasjonen er nødvendig for å oversette matrise-spesifikke sonde identifikatorene til de generelle HUGO genet symboler.
    NOTE Sikre nok minne for datalagring, som transcriptomics datasett vanligvis omfatter flere hundre MB.

3. Håndtering og formatering

  1. før du importerer eksperimentelle genuttrykk data til GSEA Programvareverktøyet, anser nødvendig datastrukturen. For hver studie manuelt opprette to forskjellige filer: 1) en gene expression datafil måling verdier for ulike gener og prøver og 2) en fenotypen fil som inneholder eksempel etiketter for å gruppere individuelle eksempler (f.eks behandling grupper).
    For ytterligere opplysninger og data struktur går til GSEA data format siden (http://software.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats).
    Merk: Generelt, alle former for transcriptomics data er kompatibel med protokollen, inkludert DNA microarray eksperimenter, RNA-seq eller ChIP-seq studier. Ved hjelp av DNA microarray eksperimenter, skal gene expression datafilen inneholde matrise-spesifikke sonde identifikator eller HUGO genet symboler for hver genet (sonde identifikatorer vil bli oversatt til HUGO genet symboler under analyse, se trinn 1.5 og 4.10). Ved hjelp av RNA-seq-eller ChIP-seq, skal manuelt beregnet gruppe beregninger for genuttrykk data (f.eks gruppe betyr ratio) brukes i stedet for individuelle eksempeldata. Disse gruppe beregninger bør bli analysert med GSEA preranked verktøyet (se trinn 4,12). Genuttrykk data må være normalisert som vanlig før du importerer til GSEA programvaren. Typen normalisering (f.eks, kvartil eller kubikk spline) er vanligvis overlatt til forskeren.
  2. Genuttrykk data fil: Bruk det tabulatordelt tekst (*.txt)-formatet for å beskrive et uttrykk datasett som avbildet i figur 1A. Se også støttet eksempelfilen GSE20524_expression.txt.
    Merk: Gene expression datafilen inneholder uttrykk verdier for alle detectable gener (eller sonder), også for gener som ikke kan uttrykkes ulikt. Filen derfor vanligvis består av tusenvis av gener. Det er organisert som avbildet i figur 1A. Den første linjen inneholder etikettnavnet (f.eks, gen symbol eller undersøke ID) etterfulgt av identifikatoren for hvert utvalg i datasettet (f.eks, prøve 1, eksempel 2 etc.). Resten av filen inneholder uttrykk verdier for hver av gener og hvert utvalg i datasettet. Det anbefales derfor å ta med data for hver enkelt prøve GSEA Programvareverktøyet utfører beregninger for gruppen beregninger (f.eks, gruppe betyr forholdet eller signal-til-støy-forhold). Alternativt er det mulig å bruke eksternt beregnet gruppe beregninger for genuttrykk data (se figur 1B).
  3. Fenotypen fil: opprette en egen fil for definere og merking grupper som omfatter personlige prøver avbildet i < sterk klasse= "xfig" > figur 2. Bruk mellomrom eller tabulatorer til å skille feltene. Lagre den i et filformat med CLS (C ++ klassedefinisjon). Se også støttet eksempelfilen GSE20524_pheno_infection.cls.
    Merk: Den første linjen inneholder det totale antallet eksempler og ytterligere antall grupper ( figur 2). Mens antall utdrag skal tilsvare gene expression datafilen (se 3.2), antall grupper avhengig av studien design. Det tredje feltet av den første linjen er alltid ' 1 '.
    Den andre linjen i et CLS-filen inneholder navnet for hver gruppe. Linjen skal begynne med et nummertegn (#) etterfulgt av et mellomrom ( figur 2).
    Den tredje linjen inneholder en gruppe etikett for hvert utvalg. Etiketten kan være et tilfeldig tall eller tekst. Det er bare rekkefølgen på etikettene som bestemmer foreningen av hvert utvalg til grupper: den første etiketten brukes tilordnes til den første gruppen på andre linje; den andre unike etiketten er tilordnet den andre gruppen og så videre. Kontroller at hvert utvalg i samme gruppe har samme etikett på dette trinnet, og at antall etiketter er det samme som antall utdrag angitt i første linje. Til slutt, lagre filen som tabulatordelt tekstfil (*.txt) og manuelt endre filtypen til (*.cls).
  4. (valgfritt) Gene angi databasefiler: definere egendefinerte genet sett. Bruke tabulator-GMT (Gene Matrix transponert) filformatet for gen sett avbildet i Figur 3. Også se støttede eksempelfilen Gene_sets_Inflammation_BIOCARTA_KEGG_REACTOME.gmt.
    Merk: Definere egendefinerte genet sett kan være nyttig for eksempel begrense genet satt berikelse analyse til veier av spesiell interesse (f.eks, immunologi Signaliser for sepsis studier) eller de novo definere egne genet sett (f.eks aktivert og hemmet gener i studier som har sammenlignes). Filen er organisert som vist i Figur 3. I GMT-format representerer hver rad et gen sett ( Figur 3). Hvert gen sett er beskrevet ved et navn, en beskrivelse og genene i genet settet. Den første kolonnen inneholder unike genet navn. Den andre linjen kan eventuelt inneholde en beskrivelse av hvilke genet. Følgende kolonner inneholder genet navnene (offisielle HUGO genet symboler) til de tilsvarende gene sett. Til slutt, lagre filen som tabulatordelt tekstfil (*.txt) og manuelt endre filtypen til (* .gmt).

4. Utfører GSEA

  1. åpne verktøyet GSEA programvare (se 1.2).
  2. Klikk på ' laste data ' knappen på venstre side av hovedvinduet ( figur 4A). En ny fane åpnes for å importere de nødvendige datafilene ( figur 4B). Bla i kategorien ny til gene expression datafilen (*.txt) (se 3.2), filen fenotypen (*.cls) (se 3.3) og eventuelt til egendefinerte genet sett (* .gmt) fil ( figur 4B).
    1. i tilfelle GSEA ikke koble til Internett, må du også laste ned MSigDB (* .gmt) filer (f.eks c2.cp.v5.2.symbols.gmt for veier, se 1.4) og DNA chip (matrise) merknader (* .chip) filer (f.eks Mouse430_2.chip, se 1.5). Importert data vises i den ' laste data ' delen ( figur 4C).
      Merk: Hver genet uttrykk studie må analyseres med GSEA individuelt. Sammenligningen mellom to studier (f.eks menneskelig lidelse vs musemodell) blir utført med trinn 5.
  3. Klikk på ' kjører GSEA ' knappen på venstre side av hovedvinduet. En ny fane åpnes for å angi parametere for analyse ( Figur 4 d). Kategorien er delt inn i tre deler: felter, grunnleggende felt og avanserte felt.
  4. i de nødvendige feltene, velger du først uttrykk dataset i trinn 4.2 ( Figur 4 d).
  5. Velg genet angir databasen, enten tilkoblet nettstedet eller manuelt importerte genet sett filen ( Figur 4 d).
  6. Redigere fenotypen etiketter for å merke grupper av prøver som er ment å være i forhold til hverandre (f.eks, S. aureus behandling vs sunn kontroll) ( Figur 4 d).
  7. Skjul datasett til genet symboler (= true) for å oversette sonde identifikatorene i uttrykket datasettet til offisielle HUGO genet symboler brukt i genet sett databasen. Velg Usann hvis uttrykk dataset allerede inneholder HUGO genet symboler ( Figur 4 d).
  8. Angi antallet permutasjoner til standardinnstillingen på 1000 ( Figur 4 d).
    Merk: For høyere tall databehandling tid vil øke betraktelig.
  9. Endre permutasjon type til ' gen sett ', siden fenotypen Permutasjon er bare anbefalt når det er mer enn sju prøver i hver fenotypen ( Figur 4 d).
  10. Til slutt velger chip-plattform som brukes til generering av genuttrykk data, enten fra webområdet tilkoblet eller manuelt importerte DNA chip (matrise) merknader fil ( Figur 4 d).
    Merk: Dette trinnet er bare nødvendig hvis sonde IDer brukes i den opplastede uttrykk datasettet.
  11. i de grunnleggende felt redigere minst delen analysenavnet og lagre resultater i denne mappen for å finne igjen filen ( Figur 4 d). I tillegg kan videre statistiske parameterne endres. For ytterligere informasjon om parametere og delen avanserte felt kan du gå til brukerveiledningen til GSEA (http://software.broadinstitute.org/gsea/doc/GSEAUserGuideFrame.html).
  12. (Valgfritt): I tilfelle eksternt beregnet gruppe beregningene for genuttrykk data (f.eks gruppe betyr forholdet) må brukes i stedet for individuelle eksempeldataene, bruker du verktøyet GSEA preranked. Analysen vil deretter bli utført basert på en enkel liste over gener med pre-beregnet gruppe beregninger som brukes til å rangere gener. Gå til Hovednavigasjon Hovednavigasjonsfeltet etter innlasting alternativ gene expression og klikk på Verktøy/GseaPreranked. På samme måte en ny fane åpnes for å angi parametere for analyse ( figur 4E).
    Merk: Ved hjelp av verktøyet GSEA preranked er anbefalt for studier som ikke har enkelte eksempel-spesifikke genuttrykk data. Det kan være tilfellet hvis spesielle statistikk eller normalisering prosedyrer ble utført på data fører til gruppen mener verdier i stedet for individuelle eksempeldata. Ved hjelp av verktøyet GSEA preranked anbefales for RNA sekvensering data. Normalisere RNA sekvensering uttrykk data og beregne gruppe beregninger for prøvene (f.eks, logge ganger endring) som kan brukes til å rangere genene ifølge deres uttrykk.
  13. Klikk på ' kjører ' knapp til høyre nederst i vinduet.
    Merk: Analyse så kan ta opptil flere minutter avhengig av databehandling hastigheten. Følge utviklingen av analyse i delen GSEA rapporter til venstre nederst i vinduet. Etter analyse, status ' suksess ' vises i delen GSEA rapporter.
  14. Klikk på de lyktes analyse i delen GSEA rapporter åpne analyseresultatene.
    Merk: En ny navigeringsmenyen åpnes i et leservindu som summerer alle resultater og parameterinnstillingene ( figur 5). Øvre består av to deler av navigeringsmenyen Gene satt berikelse resultatene for de definerte gruppene (f.eks berikelse i S. aureus behandlet prøver eller sunn kontroll prøver). De første linjene av begge deler viser et sammendrag av resultatene statistikk. Gene sett som er betydelig beriket med en false oppdagelsen rate (FDR) under 25% regnes som beriket i følgende tolkningen. Ytterligere detaljer om tolkningen av analysen kan finnes i brukerveiledningen til GSEA (http://software.broadinstitute.org/gsea/doc/GSEAUserGuideFrame.html).
  15. Klikk på den detaljerte berikelse resultater i excel-format til eksportere analyseresultatene til et regneark ( figur 6A). Eksporter den detaljerte berikelse resultater i excel separat for både fenotyper ( figur 5) og bli resultater data i en regnearkfil. For påfølgende sammenligning mellom genuttrykk data fra flere studier, opprettholde minst navnet på genet settet (kolonne A), en normalisert berikelse score (ne) (kolonne F) og FDR (false oppdagelsen rate) verdi (kolonne H) ( figur 6B ).
    Merk: Regnearkfilen inneholder store data for hver av de analyserte genet satt, inkludert navnet på genet settet (i kolonne A), størrelsen (det vil si antall gener i den genuttrykk data, kolonne D), dens NES (et kvantitativt mål for retning og omfanget av berikelse, kolonne F), nominelle p verdien (ukorrigert, kolonne G) og FDR verdien (korrigert for flere hypotesetesting, kolonne H). For ytterligere detaljer om tolkningen henvises til brukerveiledningen til GSEA (http://software.broadinstitute.org/gsea/doc/GSEAUserGuideFrame.html).
  16. Gjenta genet satt berikelse analyse (trinn 4.1-4.15) for den andre studien (f.eks, S. aureus GSE9960) og alle videre studier som skal være i forhold til hverandre. Ta så mange menneskelige kliniske studier og annen mus modeller som mulig å identifisere optimale musemodell for translasjonsforskning spørsmålet.

5. Sammenligning av GSEA resultatene

  1. å identifisere optimal dyr modell for å etterligne menneskelige situasjonen Sammenlign GSEA resultatene av alle studier til hverandre. Bruk berikelse score og FDR verdiene til å klassifisere veier (Gen sett) som aktivert (ne > 0, FDR < 25%), hemmet (ne < 0, FDR < 25%) eller ingen av begge (FDR > 25%). Telle antall realizations av de ni mulige kombinasjonene av veien som indikert av 3 x 3 beredskap tabell ( figur 7A) for hver sammenligning av to studier,.
  2. Vurdere sammenhengen mellom to studier ved beregning av den positive prediktive verdien (ppv) og den negative logiske verdien (npv), som er per definisjon del av stier som viser samme regulering (aktivert eller hemmet) i to studier .
    1. Beregn ppv og NNV følgende formler (1) og (2):
      (1) Equation 1
      (2) Equation 2
      Merk: Siden overlappingen kan være rent tilfeldig, ppv og NNV må sammenlignes ytterligere verdiene forventet ved en tilfeldighet. Denne tilnærmingen kan estimering av hvor mye informasjon som kan oppnås fra en studie for å forutsi effektene i en annen studie. For eksempel hvis regulering prosessene i to modeller var uavhengig av hverandre (og bare overlapper tilfeldigvis) og i den første modellen var 10% av veier upregulated, enn ppv andre modellen vil også være 10% og det var ingen ytterligere gevinst på inf ormation. På den andre siden, hvis begge modellene var forbundet med felles regulering mekanismer, ville så ppv (og npv) være betydelig større enn forventet ved en tilfeldighet. For eksempel for prediksjon av gene expression endringer under menneskelige sepsis (GSE9960) fra effekter i murine S. aureus injeksjon modell (GSE20524), ppv er 43% (6/(6+8+0)) og NNV er 61% (11/(0+7+11)). 43% av aktivert veier i murine S. aureus injeksjon modellen (GSE20524) aktiveres med andre ord, også under menneskelige sepsis (GSE9960). Tilsvarende 61% av hemmet veier i murine S. aureus injeksjon modellen (GSE20524) er også hemmet under menneskelige sepsis (GSE9960) ( figur 7B). PPV og NNV kan også fastslås for omvendt stjernebildet (som betyr forutsi fra 1 å studere 2-studie).
  3. Til å beregne overlappingen tilfeldigvis se 3 x 3 beredskap tabell ( figur 7) og Beregn ppvchance og npvchance i henhold til følgende formler (3) og (4):
    (3) < img-alt = "Formel 3" src = "/files/ ftp_upload/55768/55768eq3.jpg"/ >
    (4) Equation 4
    Merk: For eksempel for prediksjon av gene expression endringer under menneskelige sepsis (GSE9960) fra effekter i en murine S. aureus injeksjon modell (GSE20524) i ppvchance er 13% (8/64) og npvchance er og 22% (14/64).
  4. Beregner gevinst på ppv vs sjanse ved å trekke ppvchance fra ppv. Beregne tilsvarende for NNV:
    (5) Equation 5
    (6) Equation
    Merk: For eksempel for prediksjon av genet uttrykket endres under menneskelige sepsis (GSE9960) fra effekter i murine S. aureus injeksjon modell (GSE20524) endringen i ppv og NNV vs sjanse er 30% (43% - 13%) og +39% (61% - 22%), henholdsvis.
  5. Beregner gevinst som kan fås fra studere 2 om studien 1 av gjennomsnitt ppvgain og npvgain:
    (7) Equation
  6. bruker tabellen beredskap definert i trinn 5.1 i et par studier (study1.pathway, study2.pathway) for å beregne p verdien av en kjikvadrerte test
    Lagre data i tabellen beredskap i en matrise X. utføre kjikvadrerte testen, f.eks, ved bruk av R funksjon chisq.test.
    Merk: For eksempel sammenligne valgte menneskelige sepsis studien (GSE9960) med et murint S. aureus injeksjon modell (GSE20524) viser en statistisk signifikant overlapping i inflammatorisk veien regulering:
    > chisq.test(X,simulate.p.value=F)$ p.Value
    3.82e-07

6. Identifisere Optimal dyr modellen

  1. sammenligne GSEA resultater for alle kombinasjoner av studiene som ble valgt for analysen.
    Merk: Det anbefales også å sammenligne (ligner) menneskelige studier til hverandre, samt ulike dyrestudier til hverandre. Denne sammenligningen kan gi innsikt i artsspesifikke variansen av kliniske studier (eller lidelser) og ulike dyr modeller. Det forventes at de kliniske studiene skal vise en akseptabel overlapping og en betydelig informasjon få, fordi ellers de kliniske studiene kan være for heterogene å finne en dyremodell som kan etterligne den menneskelige situasjonen. I dette tilfellet er det anbefalt å inkludere bare menneskelige studier som ligner på hverandre for identifikasjon av egnet dyremodeller.
  2. Sortere alle kombinasjoner av gevinst på informasjon (trinn 5.5). Bruk en matrise for sammenligningen av mange datasett og visualisere resultatene ved hjelp av en farget heatmap eller lignende ( Figur 8).
  3. Velg dyr modellen med den høyeste gevinsten av informasjon. For å vurdere betydningen av gevinst på informasjon, også ta kjikvadrerte testen (trinn 5.6) hensyn.
    Merk: Dyremodeller bør bare anses aktuelt hvis gevinsten av informasjon er betydelig og p-verdien for den kjikvadrerte testen er under signifikansnivået. User-defined terskler vanligvis avhenger av flere faktorer: 1) pre-studie kunnskap omsetningsbegrensninger på resultatene fra dyremodell mennesker (f.eks lignende fysiologi), 2) den forventede fordelen for mennesker med en antatt suksess, 3) praktiske anvendelse av dyr eksperimentet og 4) den forventede smerte, lidelse, eller skade påført labveltalenhet dyr.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

GSEA arbeidsflyt og skjermbilder av eksemplarisk data er vist. Figur 1 viser gene expression datafilen som inneholder transcriptomic interesse. For hver studie en beskrivende fenotypen fil er nødvendig som vises i figur 2. Kommenterte genet sett (f.eks, veier) defineres i genet angi databasefilen (Figur 3). Figur 4 viser en trinnvis protokoll for bruk av GSEA Programvareverktøyet. En eksemplarisk resultatrapport gis i figur 5. Detaljert GSEA berikelse resultatene oppsummeres i figur 6. For sammenligning av ulike gene expression studier, i særdeleshet menneskelige vs mus studier, beredskap tabellen er nødvendig (figur 7). For visualisering av resultatene, Figur 8 viser en korrelasjonsmatrise veien sammenligninger mellom menneske og mus studier.

Figure 1
Figur 1: GSEA Gene Expression datafil. Filen inneholder uttrykk verdier for alle detectable gener (eller sonder), også for gener som ikke kan uttrykkes ulikt. Filen derfor vanligvis består av tusenvis av gener. (A) gene expression datafilen inneholder data for hver enkelt prøve. Den første linjen inneholder etiketter navnet (her: sonde ID) etterfulgt av en valgfri beskrivelse og enkelte eksempel navn (her: GSM515585, GSM515586, etc.). Resten av filen inneholder uttrykk verdier for hver av gener og hvert utvalg i datasettet. (B) Alternative gene expression-dataformat. Eksternt beregnet gruppe beregninger (her: gjennomsnittlig forholdet) kan brukes for verktøyet GSEA preranked hvis personlige eksempeldata ikke er tilgjengelig. Klikk her for å se en større versjon av dette tallet.

Figure 2
Figur 2: GSEA fenotypen fil. Filen kombinerer personlige prøver å grupper og merker gruppene tilsvarende. Den første linjen inneholder det totale antallet eksempler og ytterligere antall grupper. Det tredje feltet i den første linjen er alltid '1'. Den andre linjen inneholder navnet for hver gruppe. Linjen starter med et nummertegn (#) etterfulgt av et mellomrom. Den tredje linjen inneholder en gruppe etikett for hvert utvalg (her: 0 eller 1). Klikk her for å se en større versjon av dette tallet.

Figure 3
Figur 3: GSEA Gene satt databasefilen. Filen definerer sett av gener som er tilordnet bestemte biologiske prosesser eller kategorier (her: provoserende veier). I GMT-format representerer hver rad et gen sett, som er definert av et navn, en beskrivelse og inkludert genene (offisielle HUGO genet symboler). Klikk her for å se en større versjon av dette tallet.

Figure 4
Figur 4: GSEA programvareinnstillinger. GSEA Programvareverktøyet ble lastet ned fra webområdet bred Institute, som java desktop søknad. (A) Start-menyen. Til venstre inneholder navigeringsmenyen mens den høyre delen (hjem) gir en kort oppsummering av GSEA arbeidsflyten. Knappen laster data vil åpne en ny fane for å importere filene. (B) laster data delen før dataimport. Nødvendige filer kan være importerte via filleseren. (C) laster data delen når dataene importert. Importerte filer er oppført i objekthurtigbufferen og organiseres DataSet (obligatorisk fil), fenotyper (obligatorisk fil), gene angitt databaser (valgfritt, hvis Internett-tilkobling) og chip filer (valgfritt, hvis Internett-tilkobling). Kjøre GSEA knappen vil åpne en ny fane for å angi parametere for forretningsanalyse. (D) Kjøre GSEA delen. Kategorien for å angi parametere for forretningsanalyse er delt inn i obligatoriske felt, grunnleggende felt og avanserte felt. Å klikke Kjør -knappen på den høyre nederst i vinduet vil starte analysen. Fremdriften av analysen vil bli synlig i delen GSEA rapporter til venstre nederst i vinduet. Etter endt analysen, status 'suksessraten' vises i GSEA rapporterer delen. (E) GSEA preranked verktøyet. Genuttrykk datafiler som inneholder eksternt beregnet gruppe beregninger i stedet for individuelle eksempeldataene kan analyseres via hovednavigasjonsfeltet. Klikk her for å se en større versjon av dette tallet.

Figure 5
Figur 5: GSEA rapport. GSEA rapporten åpnes i et webleservindu som summerer alle resultater og valgte parameterne. De øverste to delene til navigeringsmenyen utgjør genet angi berikelse resultater for de definerte gruppene (f.eks, berikelse i S. aureus behandlet prøver eller sunn kontroll prøver). I dette eksempelet, er 42 65 genet sett (veier) aktivert i S. aureus behandlet mus, mens 14 av dem er betydelig beriket med en FDR under 25%. Tilsvarende er 23 65 genet sett (veier) hemmet i S. aureus behandlet mus, mens 18 av dem er betydelig beriket med en FDR under 25%. Å klikke detaljert berikelse resultater åpner en html eller excel-fil for eksport analyse dataene som kreves for en sammenligning av ulike gene expression studier. Klikk her for å se en større versjon av dette tallet.

Figure 6
Figur 6: detaljert berikelse resultater. (A) eksporterte regnearkfil som inneholder detaljerte analyseresultater for gen sett (veier) som er aktivert i S. aureus behandlet mus. Regnearkfilen inneholder store data for hver av de analyserte gen sett, inkludert navnet på hvilke genet, størrelse, den normaliserte berikelse score, nominelle (ukorrigert) p verdien og FDR verdien. (B) forenklet regneark filen sominneholder informasjon som kreves for å sammenligne ulike gene expression studier. Klikk her for å se en større versjon av dette tallet.

Figure 7
Figur 7:3 x 3 beredskapsplaner bord GSEA resultater. (A), vanlig format beredskapsplaner bord for sammenligning av 2 studier. (B) eksemplarisk antall regulert trasé for sammenligning av en menneskelig sepsis studie (GSE9960) med et murint S. aureus injeksjon modell (GSE20524). Klikk her for å se en større versjon av dette tallet.

Figure 8
Figur 8: korrelasjonsmatrise Pathway sammenligninger mellom menneske og mus studier. Overlapping av veien regulering vises som gevinst som kan fås fra en (mus) studie for å forutsi effektene i en annen (human) studie (blå, redusere, liten sammenheng, rød, økningen, høy korrelasjon). I dette eksempelet avslørte sammenligning av menneskelig med murine datasett en undergruppe av eksperimentelle murine modeller som var svært correlative til menneskelige kliniske studier (studier 10 og 11, prikket linje), indikerer at disse musen modeller er best egnet for etterligne den menneskelige situasjonen. Derimot studiene 7, 8 og 9 viste noen sammenheng med menneskelig sykdom studiene. Klikk her for å se en større versjon av dette tallet.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Dyremodeller har lenge brukt for etterforskningen av sykdom mekanismer og utviklingen av romanen strategier. Men begynte skepsis om predictivity av dyremodeller å spre etter feil av kliniske studier12. Videre ble kontroversielle diskusjoner om riktig strategier for å analysere og tolke store omics data fra prekliniske forsøk reist fra motsatt konklusjonene fra samme data etter at ulike data analysen strategier1 ,2. Derfor er det en høy etterspørsel etter mer robust bioinformatikk teknikker for analyse av komplekse omics data systematisk definere optimale dyr modell for en gitt menneskelig sykdom. Bruke det beste tilgjengelige modellen ikke bare forbedrer translasjonsforskning men ytterligere bidrar til dyrevelferd ved å unngå dyreforsøk ikke kan samsvarer med den menneskelige situasjonen.

Presentert protokollen beskriver et standardisert tilnærming til systematisk sammenligne omics data av ulike arter med sikte på å identifisere optimal dyremodeller og behandlingsprotokoller for en gitt menneskelig lidelse. Ved bruk av GSEA i stedet for en enkelt-genet analyse omgår denne protokollen alle problemer forbundet med subjektive innstilling av gene expression terskler og gene filtrering. Fokus på merkede stier videre kan spesielt adresse (patho) fysiologiske prosessen av lidelse/tilstanden i spørsmålet (f.eks, betennelse). Selvfølgelig, nøyaktigheten av GSEA resultatene avhenger av kvaliteten på gjeldende genet angi merknader og om regulering mekanismer er konservert mellom artene. Men hypothesize vi at generelt bevaring er høyere på veien nivå enn på ett gen nivå. I tillegg er angi berikelse tilnærminger mer robust for å sammenligne transcriptomic data mellom ulike plattformer og eksperimentelle modeller eller klinisk kohorter enn én-genet analyserer13.

Istedenfor å bruke forhåndsdefinerte genet sett som veier, kan presentert tilnærming også definere egendefinerte genet sett. Spesielt kan eksperimentelle uttrykk data brukes til å identifisere relevante gener som er aktivert eller hemmet i én betingelse (f.eks, overlapping av regulert menneskelige gener i klinisk kohorter). De novo definert genet sett kan deretter brukes til å teste for anriking av data fra ulike dyr modeller. Denne alternative unngår en omvei for å bruke kommenterte trasé. Videre protokollen er ikke begrenset til sammenligning av transcriptomic data, men overføres til omics data inkludert Proteomikk og metabolomics. Likevel, må man huske på at denne tilnærmingen er begrenset til eksisterende omics data fra musen modeller og mennesker, og at det indikerer ikke hvordan man skal utvikle nye dyr modeller. Imidlertid representerer en effektiv tilnærming for standardisert tolkningen av eksisterende data, som kan lette nøye utvelgelse av den optimale dyremodell, og dermed unngå unødvendige og villedende translational studier.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatterne erklærer at de har ingen konkurrerende økonomiske interesser.

Acknowledgments

Dette arbeidet ble finansiert av det tyske føderale institutt for risikovurdering (BfR).

Materials

Name Company Catalog Number Comments
Excel Microsoft Corporation

DOWNLOAD MATERIALS LIST

References

  1. Seok, J., et al. Genomic responses in mouse models poorly mimic human inflammatory diseases. Proc Natl Acad Sci U S A. 110 (9), 3507-3512 (2013).
  2. Takao, K., Miyakawa, T. Genomic responses in mouse models greatly mimic human inflammatory diseases. Proc Natl Acad Sci U S A. 112 (4), 1167-1172 (2015).
  3. Weidner, C., Steinfath, M., Opitz, E., Oelgeschläger, M., Schönfelder, G. Defining the optimal animal model for translational research using gene set enrichment analysis. EMBO Mol Med. 8 (8), 831-838 (2016).
  4. Subramanian, A., et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proc Natl Acad Sci U S A. 102 (43), 15545-15550 (2005).
  5. Kanehisa, M., Sato, Y., Kawashima, M., Furumichi, M., Tanabe, M. KEGG as a reference resource for gene and protein annotation. Nucleic Acids Res. 44 (D1), D457-D462 (2016).
  6. Kanehisa, M., Goto, S. KEGG: kyoto encyclopedia of genes and genomes. Nucleic Acids Res. 28 (1), 27-30 (2000).
  7. Fabregat, A., et al. The Reactome pathway Knowledgebase. Nucleic Acids Res. 44 (D1), D481-D487 (2016).
  8. Croft, D., et al. The Reactome pathway knowledgebase. Nucleic Acids Res. 42 (Database issue), D472-D477 (2014).
  9. Nishimura, D. BioCarta. Biotech Software & Internet Report. 2 (3), 117-120 (2001).
  10. Edgar, R., Domrachev, M., Lash, A. E. Gene Expression Omnibus: NCBI gene expression and hybridization array data repository. Nucleic Acids Res. 30 (1), 207-210 (2002).
  11. Kolesnikov, N., et al. ArrayExpress update--simplifying data submissions. Nucleic Acids Res. 43 (Database issue), D1113-D1116 (2015).
  12. Cohen, J., et al. Sepsis: a roadmap for future research. Lancet Infect Dis. 15 (5), 581-614 (2015).
  13. Spinelli, L., Carpentier, S., Montanana Sanchis, F., Dalod, M., Vu Manh, T. P. BubbleGUM: automatic extraction of phenotype molecular signatures and comprehensive visualization of multiple Gene Set Enrichment Analyses. BMC Genomics. 16 (1), 814 (2015).

Tags

Grunnleggende protokollen problemet 126 dyremodell musemodell translasjonsforskning Systems biology Transcriptomics GSEA
En protokoll for bruk av Gene satt berikelse analyse for å identifisere den aktuelle dyr modellen for translasjonsforskning
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Weidner, C., Steinfath, M., Wistorf, More

Weidner, C., Steinfath, M., Wistorf, E., Oelgeschläger, M., Schneider, M. R., Schönfelder, G. A Protocol for Using Gene Set Enrichment Analysis to Identify the Appropriate Animal Model for Translational Research. J. Vis. Exp. (126), e55768, doi:10.3791/55768 (2017).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter