Waiting
Traitement de la connexion…

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

En protokol til brug af gen sæt berigelse analyse til at identificere den passende dyremodel for Translationel forskning

Published: August 16, 2017 doi: 10.3791/55768

Summary

Vi leverer en standardiseret protokol for brug af gen sæt berigelse analyse af transkriptom data til at identificere en ideel musemodel for Translationel forskning.
Denne protokol kan bruges med DNA microarray og RNA sequencing data og kan yderligere udvides til at omfatte andre omik data, hvis der foreligger data.

Abstract

Nylige undersøgelser, som sammenlignede transkriptom datasæt af menneskelige sygdomme med datasæt fra musemodeller ved hjælp af traditionelle gen-til-gen sammenligning teknikker resulterede i selvmodsigende konklusioner med hensyn til relevansen af dyremodeller for Translationel forskning. En væsentlig årsag til afvigelser mellem forskellige gen expression analyser er vilkårlige filtrering af varierende udtrykte gener. Derudover er sammenligning af enkelt gener mellem forskellige arter og platforme ofte begrænset af tekniske afvigelse, fører til fejlfortolkning af con/uoverensstemmelse mellem data fra menneskers og dyrs modeller. Således, standardiserede metoder til systematisk dataanalyse er nødvendig. For at overvinde subjektive gen filtrering og ineffektive gen-til-gen sammenligninger, viste vi for nylig, at genet sæt berigelse analyse (GSEA) har potentiale til at undgå disse problemer. Derfor, vi udviklede en standardiseret protokol for brug af GSEA at skelne mellem passende og upassende dyremodeller for Translationel forskning. Denne protokol er ikke egnet til at forudsige hvordan til at designe nye modelsystemer-forhånd, da det kræver eksisterende eksperimentelle omik data. Dog beskriver protokollens, hvordan du fortolker eksisterende data på en standardiseret måde for at vælge den mest passende dyremodel, således at undgå unødvendige dyreforsøg og vildledende translationel undersøgelser.

Introduction

Dyremodeller er meget udbredt at studere sygdomme hos mennesker, på grund af deres formodet lighed med mennesker i form af genetik, anatomi og fysiologi. Derudover dyremodeller ofte tjene som dørvogtere til kliniske behandlinger og kan have en enorm indflydelse på succes for Translationel forskning. Omhyggelig udvælgelse af de optimale dyremodel kan reducere antallet af vildledende dyreforsøg. For nylig, relevansen af dyremodeller for Translationel forskning har været kontroversielt diskuteret, især fordi analysere de samme datasæt opnået fra menneskelige inflammatoriske sygdomme og relaterede musemodeller førte til modstridende konklusioner 1,2. Denne drøftelse afslørede et grundlæggende problem løbet analysere omik data: standardiserede metoder til systematisk dataanalyse er nødvendig for at reducere forudindtaget gen udvælgelse og øge robustheden af interspecies sammenligninger 3.

Traditionelt, analyse af transcriptomics data (og andre omik data) er gjort på enkelt-gen plan og omfatter et første skridt i gen valg baseret på strenge cut-off parametre (fx, fold ændring > 2.0, p-værdi < 0,05). Men indstilling af indledende cut-off parametre ofte er subjektive, vilkårlige og ikke biologisk begrundede, og kan endda føre til modsatte konklusioner1,2. Derudover oprindelige gen udvælgelse generelt begrænser analysen til et par meget op- og downregulated gener og er dermed ikke følsomme nok til at omfatte størstedelen af gener, der var varierende udtrykt i et mindre omfang.

Med fremkomsten af genomforskning æra i begyndelsen af 2000 ' erne og den øgede viden om biologiske veje og sammenhænge, blev alternative statistiske metoder udviklet, lov til at omgå begrænsningerne af enkelt-gen niveau analyser. Gen sæt berigelse analyse (GSEA)4, som er en af de udbredte metoder til analyse af transcriptomics data, gør brug af a priori definerede grupper af gener (fxsignalering veje, proksimale placering på et kromosom osv.). GSEA kort først alle detekterede ufiltreret gener til de tilsigtede gen sæt (fx, veje), uanset deres individuelle ændring i udtryk. Denne tilgang omfatter således også moderat regulerede gener, der ellers ville være tabt med enkelt-gen niveau analyser. Tilsætningsstof ændringen i udtryk inden for gen sæt udføres senere ved hjælp af løbende sum statistik.

På trods af sin bredt anvendes i medicinsk forskning, er GSEA og relaterede sæt berigelse tilgange ikke indlysende taget hensyn til analyse af komplekse omik data. Her, beskriver vi en protokol for at sammenligne omik data fra menneskelige prøver med dem fra musemodeller for at identificere den ideelle model for Translationel undersøgelser. Vi påvise anvendeligheden af den protokol, der er baseret på en samling af musemodeller, der bruges til at efterligne menneskelige inflammatoriske lidelser. Men denne analyse rørledning er ikke begrænset til menneskelige-mus sammenligninger og er ændres til yderligere forskningsspørgsmål.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. download GSEA softwaren og databasen molekylære signaturer

  1. gå til den officielle GSEA bred Institut hjemmeside (http://software.broadinstitute.org/gsea/index.jsp) og registrere for at få adgang til GSEA software værktøj og den molekylære signaturer Database (MSigDB).
  2. Hent javaGSEA desktop applikation eller alternativ software mulighed (f.eks., R script).
    Bemærk: Alle indstillinger gennemføre præcis den samme algoritme. GSEA software er frit tilgængelig for personer i den akademiske verden og industrien for interne forskningsformål.
  3. For yderligere detaljer på GSEA software skal dokumentation hjemmeside (http://software.broadinstitute.org/cancer/software/gsea/wiki/index.php/Main_Page) og GSEA-Brugervejledning (http://software.broadinstitute.org/gsea/doc/ GSEAUserGuideFrame.html).
  4. Download den molekylære signaturer Database (MSigDB) fra webstedet GSEA at få adgang til individuelle gen sæt samlinger.
    Bemærk: MSigDB er en samling af kommenteret gen sæt til brug med GSEA software eller andre formål. Gen sæt kan inddeles efter signalering veje, gen ontologi vilkår, cis-regulerende motiver, eksperimentelle signaturer m.fl. Gener fra MSigDB er altid navngivet af deres officielle HUGO (Human genom organisering) gen symbol. Til sammenligning af pathway forordning mellem en given menneskelig lidelse og forskellige mus modeller det anbefales at downloade den ' alle kanoniske veje, gen symboler ' fil (c2.cp.v5.2.symbols.gmt). Denne fil indeholder genet sæt, der blev kommenteret og organiseret i signaling veje af KEGG 5 , 6, Reactome 7 , 8 og BioCarta 9. strengen ' v5.2 ' repræsenterer den gengivelse information af samlingen. Sørg for at hente den nyeste version af filerne. MSigDB er frit tilgængelige for personer i den akademiske verden og industrien for interne forskningsformål. Det er ikke nødvendigt at downloade MSigDB, hvis internetforbindelsen er fastsat under analysen. I dette tilfælde kan MSigDB direkte vælges inden for brugergrænsefladen GSEA.
  5. Download DNA-chip (array) anmærkninger filer fra webstedet GSEA til at oversætte array-specifikke sonde identifikatorer til generelle HUGO gen symboler (f.eks. Mouse430_2.chip).
    Bemærk: Det er ikke nødvendigt at downloade DNA-chip anmærkninger, hvis internetforbindelsen er fastsat under analysen. DNA-chip anmærkninger kan i dette tilfælde direkte vælges inden for GSEA-brugergrænsefladen. Protokollen kan også bruges med RNA sequencing data. I dette tilfælde er det ikke nødvendigt at downloade annotationsfiler. Brug i stedet GSEA preranked værktøj til at analysere den genekspression data (Se trin 4.12).

2. Hent eksperimentelle genekspression Data for den menneskelige lidelse og passende dyre modeller

  1. identificere eksperimentelle gen udtryk (transcriptomics) undersøgelser for den menneskelige lidelse af valg (fx, gene expression profiler af leukocytter stammer fra patienter med septisk lidelse, GSE9960).
  2. Ligeledes, Søg efter flere dyre modeller, som formodes at være sammenlignet med de humane undersøgelser (fx, gene expression profiler af blod celler, der stammer fra mus efter injektion af Staphylococcus aureus (S. aureus), GSE20524). På dette trin skal du bruge den forudgående viden for Forhåndsudvælgelse af dyremodeller, der kunne være egnede til at efterligne den menneskelige situation.
  3. Til dette formål henvise til litteratur og databaser såsom gen Expression Omnibus (GEO) database 10 eller ArrayExpress 11 og downloade de normaliserede transcriptomics data af interesse. Gemme data som tekstfiler på den lokale harddisk. GEO-database anbefales download tabulatorsepareret serie matrix tekstfiler. Også tage til efterretning af platform (arraytype) anvendes for denne undersøgelse, da denne information er nødvendig for at oversætte array-specifikke sonde-id'er til generelle HUGO gen symboler.
    Bemærk: Sikre tilstrækkelig hukommelse til lagring af data, som transcriptomics datasæt normalt omfatter flere hundrede MB.

3. Data, håndtering og formatering

  1. før du importerer eksperimentelle genekspression data til GSEA softwareværktøj, overveje de nødvendige datastruktur. For hver undersøgelse manuelt oprette to forskellige filer: 1) en gen expression datafil, der indeholder målingsværdier for forskellige gener og prøver, og 2) en fænotype fil indeholdende prøve etiketter for at gruppere individuelle prøver (f.eks., at behandlingsgrupper).
    For yderligere oplysninger og data struktur indstillinger gå til siden GSEA data format (http://software.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats).
    Bemærk: Generelt, alle former for transcriptomics data er kompatible med protokollen, herunder DNA microarray eksperimenter, RNA-seq eller ChIP-FF. undersøgelser. Ved hjælp af DNA microarray eksperimenter, bør gene expression datafil indeholde array-specifikke sonde id eller HUGO-genet symboler for hvert gen (sonde identifikatorer vil blive oversat til HUGO gen symboler under analyse, se trin 1,5 og 4.10). Ved hjælp af RNA-seq eller ChIP-seq data, bør manuelt beregnede gruppe målinger for genekspression data (f.eks. gruppen gennemsnitlig ratio) anvendes i stedet for individuelle eksempeldata. Disse gruppe målinger skal derefter analyseres med værktøjet GSEA preranked (Se trin 4.12). Genekspression data skal være normaliseret som sædvanlig før du importerer til GSEA software. Typen af normalisering (fx, kvartil eller cubic spline) er generelt overladt til forskeren.
  2. Genekspression data fil: Brug tab-afgrænset tekst fil (*.txt) format til at beskrive et udtryk datasæt, som afbilledet i figur 1A. Se også den understøttede eksempelfil GSE20524_expression.txt.
    Bemærk: Gen expression-datafilen indeholder udtryk værdier for alle påviselige gener (eller sonder), også for gener, der ikke kan angives varierende. Filen derfor består typisk af mange tusinde gener. Det er organiseret som afbilledet i figur 1A. Den første linje indeholder etiketnavnet (fx, gen symbol eller sonde ID) efterfulgt af id'et for hver proeve i datasættet (fx, prøve 1, prøve 2 osv.). Den resterende del af filen indeholder udtryk værdier for hver af generne, og for hver prøve i datasættet. GSEA softwareværktøj udfører beregninger for gruppen målinger (f.eks., gruppen gennemsnitlig ratio eller signal-til-støj-ratio), derfor anbefales det at medtage data for hver enkelt prøve. Alternativt er det muligt at bruge eksternt beregnede gruppe målinger for genekspression data (Se figur 1B).
  3. Fænotype fil: oprette en særskilt fil for fastlæggelse og mærkning grupper der omfatter individuelle prøver som afbildet i < stærk klasse= "xfig" > figur 2. Bruge rum eller faner til at adskille felterne. Gemme det i en CLS (C++ Class Definition) filformat. Se også den understøttede eksempelfil GSE20524_pheno_infection.cls.
    Bemærk: Den første linje indeholder den samlede antal prøver og yderligere antallet grupper ( figur 2). Mens antallet af prøver skal svare til gen expression-datafil (se punkt 3.2), antallet af grupper afhænger af forsøgsdesign. Det tredje felt i den første linje er altid ' 1 '.
    Den anden linje i en CLS-fil indeholder navn for hver gruppe. Linjen bør begynde med et pundtegn (#) efterfulgt af et mellemrum ( figur 2).
    Den tredje linje indeholder en gruppe etiket for hver prøve. Etiketten gruppe kan være et vilkårligt tal eller tekst. Det er kun rækkefølgen af etiketterne der bestemmer sammenslutningen af hver prøve at grupperne: den første etiket, der bruges er knyttet til den første gruppe på den anden linje; den anden entydige etiket er tildelt til den anden gruppe og så videre. Sikre, at hver stikprøve af samme gruppe har samme etiket på dette trin, og at antallet af etiketter er det samme som antallet af prøver, der er angivet i den første linje. Endelig, Gem filen som tabulatorsepareret tekstfil (*.txt) og manuelt ændre filtypenavnet til (*.cls).
  4. (valgfrit) gen sæt Database filer: definere brugerdefinerede gen sæt. Brug formatet tabulatorsepareret GMT (gen Matrix gennemført) for gen sæt som afbilledet i figur 3. Se også den understøttede eksempelfil Gene_sets_Inflammation_BIOCARTA_KEGG_REACTOME.gmt.
    Bemærk: Definere brugerdefinerede gen sæt kan være nyttigt for eksempel at begrænse genet indstillet berigelse analyse til veje af særlig interesse (f.eks., immunologi signalering til sepsis undersøgelser), eller for de novo definere egne gen sæt (fx, aktiveret og hæmmede gener i undersøgelser, der skal sammenlignes). Filen er organiseret som afbilledet i figur 3. I GMT-format repræsenterer hver række et gen ( figur 3). Hvert gen sæt er beskrevet af et navn, en beskrivelse og gener i gen sæt. Første kolonne indeholder unikke gen sæt navne. Den anden linje kan eventuelt indeholde en beskrivelse af gen sæt. Følgende kolonner indeholder genet navne (officielle HUGO gen symboler) af den tilsvarende gen sæt. Endelig, Gem filen som tab afgrænset tekstfil (*.txt) og manuelt ændre filtypenavnet til (* .gmt).

4. Udfører GSEA

  1. åbne GSEA softwareværktøj (Se 1.2).
  2. Klik på den ' indlæse data ' knap til venstre for hovedvinduet ( figur 4A). En ny fane åbnes for import af de krævede datafiler ( figur 4B). Gennemse i den nye fane til gen expression datafil (*.txt) (se punkt 3.2), filen fænotype (*.cls) (jf. 3.3) og eventuelt til de brugerdefinerede gen sæt (* .gmt) fil ( figur 4B).
    1. i tilfælde af GSEA ikke kan oprette forbindelse til internettet, også indlæse den downloadede MSigDB (* .gmt) filer (f.eks. c2.cp.v5.2.symbols.gmt for veje, se 1.4) og DNA-chip (array) anmærkninger (* .chip) filer (f.eks. Mouse430_2.chip, Se 1.5). Importeret data vises i den ' indlæse data ' afdeling ( fig. 4 c).
      Bemærk: Hvert gen expression undersøgelse skal analyseres med GSEA individuelt. Sammenligning mellem to undersøgelser (fx menneskelig lidelse vs musemodel) vil blive udført på trin 5.
  3. Klik på den ' køre GSEA ' knap til venstre for hovedvinduet. En ny fane åbnes for at indstille parametre for analysen ( figur 4D). Fanen er opdelt i tre dele: skal udfyldes, felter, grundlæggende og avancerede områder.
  4. i de påkrævede felter, først vælge udtryk datasæt indlæst i trin 4.2 ( figur 4D).
  5. Vælg den gen indstiller databasen, enten fra de tilsluttede hjemmeside eller fra manuelt importerede gen sæt fil ( figur 4D).
  6. Redigere fænotype etiketter for at vælge grupper af prøver, der formodes at være i forhold til hinanden (f.eks., S. aureus behandling vs sund control) ( figur 4D).
  7. Sammenbrud datasæt til gen symboler (= true) for at oversætte sonde-id'er i udtryk datasæt til officielle HUGO gen symboler bruges i gen sæt database. Vælg falsk, hvis udtryk datasæt indeholder allerede HUGO gen symboler ( figur 4D).
  8. Indstille antallet af permutationer at standard nedgang på 1.000 ( figur 4D).
    Bemærk: For højere tal for computing tid vil stige betydeligt.
  9. Ændre permutation type til ' gen sæt ', da fænotype permutation anbefales kun, når der er mere end syv prøver i hver fænotype ( figur 4D).
  10. Endelig skal du vælge den chip platform anvendes til at generere genekspression data, enten fra de tilsluttede hjemmeside eller fra manuelt importerede DNA-chip (array) anmærkninger fil ( figur 4D).
    Bemærk: Dette trin er kun nødvendigt, hvis sonden id'er bruges i den overførte udtryk datasæt.
  11. i grundlæggende felter redigere mindst afsnittet Analysenavn og Gem resultater i denne mappe til at finde igen resultatfil ( figur 4D). Desuden kan yderligere statistiske parametre ændres. For yderligere oplysninger om parametrene og afsnittet Avanceret felter bedes du gå til GSEA bruger guide (http://software.broadinstitute.org/gsea/doc/GSEAUserGuideFrame.html).
  12. (Valgfrit): I den sag eksternt beregnede gruppe målinger for genekspression data (f.eks. gruppen gennemsnitlig ratio) skal anvendes i stedet for individuelle eksempeldataene, skal du bruge værktøjet GSEA preranked. Analysen vil så blive gennemført baseret på en simpel liste af gener tildelt med forudberegnede gruppe målinger, der er brugt til at rangere generne. Efter indlæsning af alternative gen expression filen gå til de vigtigste navigationslinje, og klik på Værktøjer/GseaPreranked. Tilsvarende, en ny fane åbnes for fastsættelse af parametre for analysen ( figur 4E).
    Bemærk: Ved hjælp af værktøjet GSEA preranked anbefales til undersøgelser, der ikke har individuelle prøve-specifikke genekspression data. Det kunne være tilfældet, hvis særlige statistikker eller normalisering procedurer blev udført på de data, der fører til gruppe middelværdier i stedet for individuelle eksempeldata. Ved hjælp af værktøjet GSEA preranked anbefales til RNA sequencing data. Normalisere RNA sekventering udtryk data og beregner gruppen målinger for prøverne (f.eks., log af fold ændring), der kan bruges til at rangere de gener, der ifølge deres udtryk.
  13. Klik på den ' køre ' knappen på den højre nederst i vinduet.
    Bemærk: Analysen derefter kan tage til flere minutter afhængigt af de computing hastigheden. Følge udviklingen i analysen i afsnittet GSEA rapporter på den venstre nederst i vinduet. Efter endt analyse, status ' succes ' vises i afsnittet GSEA rapporter.
  14. Klik på den lykkedes analyse i afsnittet GSEA rapporter at åbne analyseresultaterne.
    Bemærk: En ny navigationsmenu åbnes i et browservindue, der opsummerer alle resultater og parameterindstillinger ( figur 5). De øverste to sektioner af navigationsmenuen består Gene angivet berigelse resultater for de definerede grupper (f.eks. berigelse i S. aureus behandlet prøver eller sund kontrolprøver). De første linjer af begge dele viser et resumé af de statistiske resultater. Gen sæt, der er betydeligt beriget med en falsk opdagelse sats (FDR) under 25% betragtes som beriget med følgende fortolkning. Yderligere oplysninger om fortolkningen af analysen kan findes i brugervejledningen til GSEA (http://software.broadinstitute.org/gsea/doc/GSEAUserGuideFrame.html).
  15. Klik på den detaljerede berigelse resultater i excel-format til at eksportere analyseresultaterne til et regneark ( figur 6A). Eksportere den detaljerede berigelse resultater i excel særskilt for begge fænotyper ( figur 5) og Deltag resultater data i en regnearksfil. For efterfølgende sammenligning mellem genekspression data af adskillige undersøgelser, bevares mindst navnet på gen sæt (kolonne A), berigningen normaliseret score (NES) (kolonne F) og dens FDR (falsk opdagelse sats) værdi (kolonne H) ( fig. 6B ).
    Bemærk: Regnearksfilen indeholder enorme data for hver af de analyserede gen sæt, herunder navnet på gen sæt (kolonne A), dets størrelse (det vil sige antallet af gener opdaget i genekspression data, kolonne D), dens NES (en kvantitativ måling af retning og omfanget af berigelsen, kolonne F), sine nominelle p værdi (ukorrigeret, kolonne G) og dens FDR (korrigeret for flere hypotesetest, kolonne H). For yderligere detaljer om fortolkningen henvises til brugervejledningen til GSEA (http://software.broadinstitute.org/gsea/doc/GSEAUserGuideFrame.html).
  16. Gentage genet indstille berigelse analyse (trin 4.1 til 4.15) den anden undersøgelse (f.eks., S. aureus GSE9960) og alle yderligere undersøgelser, der formodes at være i forhold til hinanden. Omfatter så mange humane kliniske undersøgelser og forskellige musemodeller som muligt at identificere de optimale musemodel for Translationel forskning spørgsmålet.

5. Sammenligne GSEA resultater

  1. til at identificere de optimale dyremodel for efterligne den menneskelige situation Sammenlign GSEA resultaterne af alle undersøgelser til hinanden. Bruge berigelse scores og FDR værdier til at klassificere veje (gen sæt), som aktiveres (NES > 0, FDR < 25%), hæmmet (NES < 0, FDR < 25%) eller ingen af begge (FDR > 25%). For hver sammenligning af to undersøgelser, tælle antallet af erkendelser af de ni mulige kombinationer af pathway forordning som angivet med en 3 x 3 kontingenstabel ( figur 7A).
  2. Vurdere sammenhængen mellem to undersøgelser af beregningen af den positive prædiktive værdi (ppv) og den negative prædiktive værdi (npv), som pr. definition er en del af veje, der viser den samme forordning (aktiveret eller hæmmet) i to undersøgelser .
    1. Beregn ppv og npv efter følgende formler (1) og (2):
      (1) Equation 1
      (2) Equation 2
      Bemærk: Da overlapningen kunne være rent tilfældig, ppv og nutidsværdi skal være yderligere i forhold til de værdier, der forventes ved en tilfældighed. Denne tilgang giver mulighed for vurdering af mængden af oplysninger, der kan vindes ved en undersøgelse for at forudsige virkningerne i en anden undersøgelse. For eksempel, hvis forordningen processer i to modeller var uafhængige af hinanden (og kun overlapper hinanden tilfældigt), og hvis den første model var 10% af veje upregulated, end ppv til den anden model ville også være 10%, og der var ingen yderligere gevinst på inf informationer. På anden siden, hvis begge modeller blev forbundet af fælles reguleringsmekanismer, ville derefter ppv (og nutidsværdi) være betydeligt større end forventet ved en tilfældighed. For eksempel, for forudsigelse af gen expression ændringer under menneskelige sepsis (GSE9960) fra effekter i en murine S. aureus injektion model (GSE20524), ppv er 43% (6/(6+8+0)) og nutidsværdi er 61% (11/(0+7+11)). Med andre ord, er 43% af de aktiverede veje i murine S. aureus injektion model (GSE20524) også aktiveret under menneskelige sepsis (GSE9960). På samme måde, 61% af de hæmmet veje i murine S. aureus injektion model (GSE20524) er også hæmmet under menneskelige sepsis (GSE9960) ( figur 7B). PPV og npv kan også bestemmes for den inverse konstellation, (det betyder at forudsige fra undersøgelse 1 at studere 2).
  3. Til at beregne overlapningen ved en tilfældighed henvises til 3 x 3 kontingenstabel ( figur 7) og beregne ppvchance og npvchance efter følgende formler (3) og (4):
    (3) < img alt = "Ligning 3" src = "/files/ ftp_upload/55768/55768eq3.jpg"/ >
    (4) Equation 4
    Bemærk: For eksempel til forudsigelse af gen expression ændringer under menneskelige sepsis (GSE9960) fra effekter i en murine S. aureus injektion model (GSE20524) ppvchance er 13% (8/64) og npvchance og 22% (14/64).
  4. Beregne gevinst på TNA vs. chance ved at trække ppvchance fra ppv. Beregnes i overensstemmelse hermed for NUTIDSVÆRDI:
    (5) Equation 5
    (6) Equation
    Bemærk: For eksempel til forudsigelse af gen udtryk ændres under menneskelige sepsis (GSE9960) fra effekter i en murine S. aureus injektion model (GSE20524) ændringen i ppv og npv vs chance er + 30% (43% - 13%) og 39% (61% - 22%), hhv.
  5. Beregne gevinst på oplysninger, der kan opnås fra studie 2 vedrørende undersøgelse 1 af ppvgain og npvgain:
    (7) Equation
  6. bruge kontingenstabel defineret i trin 5.1 i et par undersøgelser (study1.pathway, study2.pathway) til at beregne p-værdi af et chi2-test
    Gemme data fra tabellen uforudsete udgifter i en matrix X. udføre chi2-test, fx, ved brug af R fungere chisq.test.
    Bemærk: For eksempel, sammenligne valgte menneskelige sepsis undersøgelse (GSE9960) med en murine S. aureus injektion model (GSE20524) viser en statistisk signifikant overlapning i inflammatoriske pathway forordning:
    > chisq.test(X,simulate.p.value=F)$ p.Value
    3.82e-07

6. At identificere de optimale dyr Model

  1. sammenligne GSEA resultater for alle kombinationer af de undersøgelser, der blev udvalgt til analyse.
    Bemærk: Det anbefales også at sammenligne de (lignende) humane undersøgelser til hinanden samt forskellige dyreforsøg til hinanden. Denne sammenligning kan give indsigt i intraspecies afvigelsen af den kliniske undersøgelser (eller forstyrrelser) og de forskellige dyremodeller. Det forventes, at de kliniske undersøgelser skal vise en acceptabel overlapning og en betydelig information vinde, fordi ellers de kliniske undersøgelser kan være alt for forskelligartede til at finde en dyremodel, der kan efterligne den menneskelige situation. I dette tilfælde anbefales det at medtage kun humane undersøgelser, der ligner hinanden til identifikation af egnede dyremodeller.
  2. Sortere alle kombinationer af gevinsten af oplysninger (trin 5.5). Til sammenligning af mange datasæt, bruge en matrix og visualisere resultaterne ved hjælp af en farvet heatmap eller lignende ( figur 8).
  3. Vælg dyremodel med den højeste gevinst på oplysninger. For at vurdere betydningen af gevinst på oplysninger, ligeledes medregne chi2-testen (trin 5.6).
    Bemærk: Dyremodeller bør kun betragtes som hensigtsmæssigt hvis gevinst på information er betydelige og p-værdi af chi2-testen er under signifikansniveauet. Brugerdefinerede tærskler vil generelt afhænge af flere faktorer: 1) den Forundersøgelse viden om overførsel af resultaterne fra dyremodel for mennesker (f.eks. lignende fysiologi), 2) den forventede fordel for mennesker af en formodet succes, 3) praktiske anvendeligheden af den animalsk eksperiment, og 4) forventede smerte, lidelse eller skade påført labOratory dyr.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

GSEA arbejdsgang og screenshots af eksemplariske data er påvist. Figur 1 viser gen expression datafil, der indeholder transkriptom data af interesse. For hver undersøgelse en beskrivende fænotype fil er påkrævet, er vist i figur 2. Kommenteret gen sæt (fx, veje) er defineret i filen gen sæt database (figur 3). Figur 4 viser en trinvis protokol for anvendelse af GSEA softwareværktøj. En eksemplarisk resultatrapporten som vist i figur 5. Detaljeret GSEA berigelse resultaterne er sammenfattet i figur 6. Til sammenligning af forskellige gen expression undersøgelser, især menneskelig vs musen undersøgelser, en kontingenstabel er påkrævet (figur 7). Figur 8 viser for visualisering af resultaterne, en korrelationsmatrix pathway sammenligninger mellem menneske og mus undersøgelser.

Figure 1
Figur 1: GSEA gen Expression Data File. Filen indeholder udtryk værdier for alle påviselige gener (eller sonder), også for gener, der ikke kan angives varierende. Filen derfor består typisk af mange tusinde gener. (A) gen expression-datafilen indeholder data for hver enkelt prøve. Den første linje indeholder navnet etiketter (her: sonde ID) efterfulgt af en valgfri beskrivelse og individuelle prøve navne (her: GSM515585, GSM515586, osv.). Den resterende del af filen indeholder udtryk værdier for hver af generne, og for hver prøve i datasættet. (B) Alternative gen expression-dataformat. Eksternt beregnet gruppe målinger (her: gennemsnitlig ratio) kan bruges til værktøjet GSEA preranked, hvis enkelte eksempeldata ikke er tilgængelige. Venligst klik her for at se en større version af dette tal.

Figure 2
Figur 2: GSEA fænotype fil. Filen kombinerer enkeltprøver til grupper og etiketter grupperne i overensstemmelse hermed. Den første linje indeholder den samlede antal prøver og antallet af grupper. Det tredje felt i den første linje er altid '1'. Den anden linje indeholder navn for hver gruppe. Linjen begynder med et pundtegn (#) efterfulgt af et mellemrum. Den tredje linje indeholder en gruppe etiket for hver prøve (her: 0 eller 1). Venligst klik her for at se en større version af dette tal.

Figure 3
Figur 3: GSEA gen sæt databasefil. Filen definerer sæt af gener, der er tildelt visse biologiske processer eller kategorier (her: inflammatoriske veje). I GMT-format repræsenterer hver række et gen sæt, som er defineret af et navn, en beskrivelse og de medfølgende gener (officielle HUGO gen symboler). Venligst klik her for at se en større version af dette tal.

Figure 4
Figur 4: GSEA softwareindstillinger. GSEA softwareværktøj var hentet fra webstedet bred Institut som en java-programmet. (A) Start-menuen. Den venstre side indeholder navigationsmenuen mens den højre sektion (Home) giver en kort oversigt over GSEA arbejdsproces. At klikke på knappen Indlæs data vil åbne en ny fane til at importere filer. (B) Indlæs data afsnit inden dataimporten. Nødvendige filer kan være importeret via Filbrowser. (C) Indlæs data afsnit efter dataimport. Importerede data filer er angivet i objektcachen og organiseres til datasæt (obligatorisk fil), fænotyper (obligatorisk fil), gen sæt databaser (valgfri, hvis internetforbindelse) og chip-filer (valgfri, hvis internetforbindelse). At klikke på knappen Kør GSEA vil åbne en ny fane for fastsættelse af analyseparametre. (D) Kører GSEA sektion. Fanen for at angive analyseparametrene er opdelt i obligatoriske felter, grundlæggende og avancerede Marker. Hvis du klikker på knappen Kør på den i højre bunden af vinduet vil begynde analysen. Udviklingen i analysen vil derefter være synlig i afsnittet GSEA rapporter på den venstre nederst i vinduet. Efter endt analyse, status 'succes' vises i GSEA rapporter afsnit. (E) GSEA preranked værktøj. Genekspression datafiler indeholdende eksternt beregnede gruppe målinger i stedet for individuelle eksempeldataene kan være analyseret via de vigtigste navigationslinje. Venligst klik her for at se en større version af dette tal.

Figure 5
Figur 5: GSEA rapport. GSEA rapporten åbnes i et browservindue, der opsummerer alle resultater og udvalgte parametre. De øverste to sektioner af navigationsmenuen består gen sæt berigelse resultater for de definerede grupper (fx, berigelse i S. aureus behandlet prøver eller sund kontrolprøver). I dette eksempel, er 42 65 gen sæt (stier) aktiveret i S. aureus behandlede mus, mens 14 af dem er betydeligt beriget med en FDR under 25%. På samme måde hæmmes 23 65 gen sæt (pathways) i S. aureus behandlede mus, mens 18 af dem er betydeligt beriget med en FDR under 25%. At klikke på detaljerede berigelse resultater åbner en html eller excel-fil for at eksportere de analyse data for en sammenligning af forskellige gen expression undersøgelser. Venligst klik her for at se en større version af dette tal.

Figure 6
Figur 6: detaljerede berigelse resultater. (A) eksporteret regnearksfil indeholdende detaljerede analyseresultater for gen sæt (pathways), der blev aktiveret i S. aureus behandlede mus. Regnearksfilen indeholder enorme data for hvert analyseret gen sæt, herunder navnet på gen sæt, dens størrelse, dens normaliseret berigelse score, sin nominelle (ukorrigeret) p-værdi og dens FDR værdi. (B) forenklet regneark fil,kun indeholder oplysninger, der kræves for at sammenligne forskellige gen expression undersøgelser. Venligst klik her for at se en større version af dette tal.

Figure 7
Figur 7:3 x 3 kontingenstabel af GSEA resultater. (A) fælles kontingenstabel format til sammenligning af 2 undersøgelser. (B) eksemplarisk numre af regulerede veje for sammenligning af en menneskelig sepsis undersøgelse (GSE9960) med en murine S. aureus injektion model (GSE20524). Venligst klik her for at se en større version af dette tal.

Figure 8
Figur 8: korrelationsmatrix Pathway sammenligninger mellem mennesker og mus undersøgelser. Overlapningen af pathway forordning er vist som gevinst på oplysninger, der kan fås fra en (mus) undersøgelse for at forudsige virkningerne i en anden (menneskelige) undersøgelse (blå, fald, lav korrelation, rød, stigning, høj korrelation). I dette eksempel afslørede sammenligning af menneskelige med murine datasæt en undergruppe af eksperimentelle murine modeller, der var yderst korrelationsmaalinger til humane kliniske undersøgelser (undersøgelser 10 og 11, stiplede linje), der angiver, at disse musemodeller er bedst egnet til at efterligne den menneskelige situation. Derimod viste undersøgelser 7, 8 og 9 ingen korrelation til menneskers sygdom undersøgelser. Venligst klik her for at se en større version af dette tal.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Dyremodeller har længe været anvendt i undersøgelsen af sygdomsmekanismer og udviklingen af nye terapeutiske strategier. Men skepsis vedrørende gendata af dyremodeller begyndte at sprede efter svigt af kliniske forsøg12. Derudover blev kontroversielle diskussioner om passende strategier for at analysere og fortolke store omik data fra prækliniske forsøg rejst af modsatte konklusioner fra de samme data efter anvender forskellige data analyse strategier1 ,2. Derfor er der en stor efterspørgsel efter yderligere robust Bioinformatik teknikker til analyse af komplekse omik data systematisk definere den optimale dyremodel for en given sygdom hos mennesker. Anvender den bedste tilgængelige model ikke blot forbedrer Translationel forskning men yderligere bidrager til dyrevelfærd ved at undgå dyreforsøg, der ikke måske korrelerer med den menneskelige situation.

Den præsenterede protokol beskriver en standardiseret tilgang til systematisk sammenligne omik data af forskellige arter, med formålet at identificere de optimale dyremodeller og behandling protokoller for en given menneskelig lidelse. Ved brug af GSEA i stedet for en enkelt-gen analyse omgår denne protokol alle problemer i forbindelse med subjektive indstilling af gen expression tærskler og gen filtrering. Fokus på udvalgte veje yderligere kan specifikt adresse (patho) fysiologisk proces af sygdom/tilstand pågældende (fx, betændelse). Selvfølgelig, nøjagtigheden af GSEA resultater afhænger af kvaliteten af aktuelle gen sæt anmærkninger og om reguleringsmekanismer er bevaret mellem arter. Men vi hypotesen, at generelt bevarelse er højere på vej plan end på enkelt gen niveau. Derudover er sæt berigelse tilgange mere robust for sammenligninger af transkriptom data mellem forskellige platforme og eksperimentelle modeller eller kliniske kohorter end enkelt-gen analyserer13.

I stedet for at bruge foruddefinerede gen sæt såsom veje, de præsenteres tilgang giver også mulighed for at definere brugerdefinerede gen sæt. Især kan eksperimenterende udtryk data bruges til at identificere relevante gener, der er aktiveret eller hæmmet i én betingelse (f.eks., overlapning af regulerede menneskelige gener i klinisk kohorter). De novo defineret gen sæt kan derefter bruges til at teste for berigelse af data fra forskellige dyremodeller. Denne alternative metode undgår "omvej" for at bruge kommenteret veje. Yderligere, protokollen er begrænset ikke til sammenligning af transkriptom data, men kan overdrages til enhver omik data herunder proteomforskning og metabolomics. Dog skal man huske på at denne tilgang er begrænset til eksisterende omik data fra musemodeller og mennesker, og at det angiver ikke, hvordan man kan udvikle nye animalske modeller. Men, det repræsenterer en effektiv tilgang til standardiserede fortolkning af eksisterende data, der kan lette den omhyggelige udvælgelse af de optimale dyremodel og dermed undgå unødvendige og vildledende translationel undersøgelser.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatterne erklærer, at de har ingen konkurrerende finansielle interesser.

Acknowledgments

Dette arbejde blev finansieret af det tyske føderale Institut for risikovurdering (BfR).

Materials

Name Company Catalog Number Comments
Excel Microsoft Corporation

DOWNLOAD MATERIALS LIST

References

  1. Seok, J., et al. Genomic responses in mouse models poorly mimic human inflammatory diseases. Proc Natl Acad Sci U S A. 110 (9), 3507-3512 (2013).
  2. Takao, K., Miyakawa, T. Genomic responses in mouse models greatly mimic human inflammatory diseases. Proc Natl Acad Sci U S A. 112 (4), 1167-1172 (2015).
  3. Weidner, C., Steinfath, M., Opitz, E., Oelgeschläger, M., Schönfelder, G. Defining the optimal animal model for translational research using gene set enrichment analysis. EMBO Mol Med. 8 (8), 831-838 (2016).
  4. Subramanian, A., et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proc Natl Acad Sci U S A. 102 (43), 15545-15550 (2005).
  5. Kanehisa, M., Sato, Y., Kawashima, M., Furumichi, M., Tanabe, M. KEGG as a reference resource for gene and protein annotation. Nucleic Acids Res. 44 (D1), D457-D462 (2016).
  6. Kanehisa, M., Goto, S. KEGG: kyoto encyclopedia of genes and genomes. Nucleic Acids Res. 28 (1), 27-30 (2000).
  7. Fabregat, A., et al. The Reactome pathway Knowledgebase. Nucleic Acids Res. 44 (D1), D481-D487 (2016).
  8. Croft, D., et al. The Reactome pathway knowledgebase. Nucleic Acids Res. 42 (Database issue), D472-D477 (2014).
  9. Nishimura, D. BioCarta. Biotech Software & Internet Report. 2 (3), 117-120 (2001).
  10. Edgar, R., Domrachev, M., Lash, A. E. Gene Expression Omnibus: NCBI gene expression and hybridization array data repository. Nucleic Acids Res. 30 (1), 207-210 (2002).
  11. Kolesnikov, N., et al. ArrayExpress update--simplifying data submissions. Nucleic Acids Res. 43 (Database issue), D1113-D1116 (2015).
  12. Cohen, J., et al. Sepsis: a roadmap for future research. Lancet Infect Dis. 15 (5), 581-614 (2015).
  13. Spinelli, L., Carpentier, S., Montanana Sanchis, F., Dalod, M., Vu Manh, T. P. BubbleGUM: automatic extraction of phenotype molecular signatures and comprehensive visualization of multiple Gene Set Enrichment Analyses. BMC Genomics. 16 (1), 814 (2015).

Tags

Grundlæggende protokol sag 126 dyremodel musemodel Translationel forskning systembiologi Transcriptomics GSEA
En protokol til brug af gen sæt berigelse analyse til at identificere den passende dyremodel for Translationel forskning
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Weidner, C., Steinfath, M., Wistorf, More

Weidner, C., Steinfath, M., Wistorf, E., Oelgeschläger, M., Schneider, M. R., Schönfelder, G. A Protocol for Using Gene Set Enrichment Analysis to Identify the Appropriate Animal Model for Translational Research. J. Vis. Exp. (126), e55768, doi:10.3791/55768 (2017).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter