Waiting
Traitement de la connexion…

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

Ett protokoll för att använda gen Set-anrikning analys identifiera den lämplig djurmodell för translationell forskning

Published: August 16, 2017 doi: 10.3791/55768

Summary

Vi ger ett standardiserat protokoll för användning av genen set anrikning analys av transcriptomic data för att identifiera en idealisk musmodell för translationell forskning.
Detta protokoll kan användas med DNA microarray och RNA-sekvensering data och kan ytterligare utvidgas till andra omics data om data finns tillgängliga.

Abstract

Nyligen genomförda studier som jämförde transcriptomic dataset av mänskliga sjukdomar med datamängder från musmodeller med traditionella gen-till-gen jämförelse teknik resulterade i motstridiga slutsatser angående relevansen av djurmodeller för translationell forskning. En stor anledning till skillnaderna mellan olika gen uttryck analyser är godtycklig filtrering av Differentiellt uttryckta gener. Jämförelse av enskilda gener mellan olika arter och plattformar ofta begränsas dessutom av tekniska varians, vilket leder till felaktig tolkning av den con/discordance mellan data från modeller för människors och djurs. Således, standardiserade metoder för systematisk analys behövs. För att övervinna subjektiva gen filtrering och ineffektiva gen-till-gen jämförelser, visat vi nyligen att genen set anrikning analys (GSEA) har potential att undvika dessa problem. Därför utvecklade vi ett standardiserat protokoll för användning av GSEA att skilja mellan lämpliga och olämpliga djurmodeller för translationell forskning. Detta protokoll är inte lämplig att förutsäga hur man utformar nya modellsystem enpriori, eftersom det kräver befintliga experimentella omics data. Dock beskriver protokollet hur du tolkar befintliga data på ett standardiserat sätt för att välja den mest passande djurmodell, således undvika onödiga djurförsök och vilseledande translationella studier.

Introduction

Djurmodeller används allmänt att studera mänskliga sjukdomar, på grund av deras förmodade likhet med människor när det gäller genetik, anatomi och fysiologi. Dessutom djurmodeller ofta tjäna som gatekeepers till kliniska behandlingar och kan ha en enorm inverkan på framgången för translationell forskning. Noggrant urval av den optimala djurmodell kan minska antalet vilseledande djurstudier. Nyligen, relevansen av djurmodeller för translationell forskning har varit diskuteras controversially, särskilt därför att analysera de samma datamängder som erhållits från mänskliga inflammatoriska sjukdomar och relaterade musmodeller ledde till motstridiga slutsatser 1,2. Denna diskussion avslöjade ett grundläggande problem under analysera omics data: standardiserade metoder för systematisk analys behövs för att minska partisk gen urval och öka robustheten av SAR jämförelser 3.

Traditionellt, analys av transkriptomik data (och andra omics data) görs på singel-gen nivå och omfattar ett första steg av genen urval baserat på stränga cut-off parametrar (t.ex., fold change > 2.0, p-värde < 0,05). Men inställningen av inledande cut-off parametrar ofta är subjektiva, godtyckliga och inte biologiskt motiverade, och kan även leda till motsatta slutsatser1,2. Dessutom första gen urval generellt begränsar analysen till några mycket upp- och nedreglerade gener och är således inte tillräckligt känslig för att inkludera flesta av gener som uttrycktes differentially i mindre utsträckning.

Med uppkomsten av genomik eran i början av 2000 talet och ökande kunskap om biologiska spridningsvägar och sammanhang utvecklades alternativa statistiska metoder som tillät att kringgå begränsningarna för singel-gen nivå analyser. Gen som berikning analys (GSEA)4, som är en av de allmänt accepterade metoderna för analys av transkriptomik data, använder sig av a-priori definierade grupper av gener (t.ex., signalering vägar, proximala plats på en kromosom etc.). GSEA kartor först alla upptäckta ofiltrerade gener till de avsedda gen-apparater (t.ex., vägar), oavsett deras enskilda ändring i uttryck. Denna strategi omfattar således även måttligt reglerade gener som annars skulle gå förlorad med singel-gen nivå analyser. Uttryck inom genen uppsättningar additiv förändringen utförs därefter med rinnande summan statistik.

Trots dess omfattande användning i medicinsk forskning, är GSEA och relaterade set anrikning tillvägagångssätt inte självklart tagit hänsyn för analys av komplexa omics data. Här beskriver vi ett protokoll för att jämföra omics data från mänskliga prover med de från mus-modeller för att identifiera den idealiska modellen för translationella studier. Vi visar tillämpligheten av de protokoll som är baserat på en samling av mus-modeller som används för att imitera mänskligt inflammatoriska sjukdomar. Men denna analys rörledning är inte begränsad till mänskliga-mus jämförelser och är Parkeringsleverantörer ytterligare forskningsfrågor.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Hämta programvaran GSEA och molekylära signaturer databasen

  1. gå till webbplatsen för officiella GSEA bred Institute (http://software.broadinstitute.org/gsea/index.jsp) och registrera dig för att få tillgång till programvaran GSEA verktyg och molekylära signaturer databasen (MSigDB).
  2. Ladda ner javaGSEA skrivbordsprogrammet eller ett alternativ programvara alternativ (t.ex., R skriptet).
    Obs: Alla alternativ genomföra exakt samma algoritm. GSEA programvaran är fritt tillgängliga för personer i den akademiska världen och industrin för interna forskningsändamål.
  3. För ytterligare detaljer på GSEA programvara gå till webbplatsen för dokumentation (http://software.broadinstitute.org/cancer/software/gsea/wiki/index.php/Main_Page) och GSEA användarhandboken (http://software.broadinstitute.org/gsea/doc/ GSEAUserGuideFrame.html).
  4. Hämta molekylära signaturer databasen (MSigDB) från GSEA webbplats att få tillgång till enskilda genen set samlingar.
    Obs: MSigDB är en samling av kommenterad gen uppsättningar för användning med programvaran GSEA eller andra ändamål. Gen uppsättningar kan delas enligt signalering vägar, gene ontology villkor, cis-reglerande motiv, experimentell signaturer m.fl. Gener från MSigDB namnges alltid av deras officiella HUGO (Human Genome Organisation) genen symbol. För jämförelse av väg förordning mellan en viss mänsklig störning och annan mus modeller det rekommenderas att ladda ner den ' alla kanoniska vägar, gen symboler ' fil (c2.cp.v5.2.symbols.gmt). Den här filen består av gen-uppsättningar som kommenterade och organiserade i signalvägar genom KEGG 5 , 6, Reactome 7 , 8 och BioCarta 9. strängen ' v5.2 ' representerar versionsinformationen för samlingen. Se till att hämta den senaste versionen av filerna. MSigDB är fritt tillgängliga för personer i den akademiska världen och industrin för interna forskningsändamål. Det behövs inte att ladda ner på MSigDB, om internet-anslutning ges under analysen. I det här fallet MSigDB direkt kan väljas inom GSEA användargränssnittet.
  5. Ladda ner DNA chip (matris) anteckningar filer från webbplatsen GSEA att översätta array-specifika sonden identitetsbeteckningar för allmänna HUGO gen symboler (t.ex., Mouse430_2.chip).
    Obs: Det behövs inte att ladda ner DNA chip anteckningarna, om internet-anslutning ges under analysen. I detta fall kan DNA chip anteckningarna direkt väljas inom GSEA användargränssnittet. Protokollet kan också användas med RNA-sekvensering data. Det behövs i detta fall inte att ladda ner anteckningsfiler. Använd i stället verktyget GSEA preranked för analys av gen uttryck data (se steg 4.12).

2. Hämta försöksdata gen uttryck för mänsklig störning och lämpliga djur modeller

  1. identifiera experimentella gen uttryck (transkriptomik) studier för den mänskliga sjukdomen val (t.ex., det gen uttryck profiler av leukocyter härrör från patienter med septisk sjukdom, GSE9960).
  2. Sök efter flera djur på samma sätt modeller som ska jämföras med de mänskliga studierna (t.ex., gen uttryck profiler av blodkroppar som härrör från möss efter injektion av Staphylococcus aureus (S. aureus), GSE20524). I det här steget använder förkunskaper för preselectionen av djurmodeller som kan vara lämpliga för att imitera den mänskliga situationen.
  3. För detta ändamål hänvisa till litteratur och databaser såsom Gene Expression Omnibus (GEO) databas 10 eller ArrayExpress 11 och hämta normaliserade transkriptomik data av intresse. Spara data som textfiler på den lokala hårddisken. Nedladdning av tabbavgränsad serien matrix textfiler rekommenderas för GEO-databasen. Också ta del av plattformen (matristyp) används för att studera, eftersom denna information behövs för att översätta array-specifika sonden identifierarna till allmänna HUGO gen symboler.
    Obs: Säkerställa tillräckligt med minne för lagring av data, som transkriptomik datauppsättningar omfattar vanligtvis flera hundra MB.

3. Data hantering och formatering

  1. innan du importerar experimentella gen uttryck data i verktyget GSEA programvara, överväga krävs datastrukturen. För varje studie manuellt skapa två olika filer: 1) en gen uttryck datafil som innehåller mätvärden för olika gener och prover, och 2) en fenotyp fil som innehåller provet etiketter om du vill gruppera enskilda prover (t.ex., att behandlingsgrupperna).
    För ytterligare information och data strukturerar alternativ gå till sidan GSEA data format (http://software.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats).
    Obs: Generellt alla former av transkriptomik data är kompatibla med protokollet, inklusive DNA microarray experiment, RNA-seq eller ChIP-seq studier. Vid användning DNA microarray experiment, innehåller gen uttryck datafilen array-specifika sonden identifierare eller HUGO gen symboler för varje gen (probe identifierare kommer att översättas till HUGO gen symboler under analys, se steg 1,5 och 4.10). Vid användning av RNA-seq-eller ChIP-seq, bör manuellt beräknade grupp mätvärden för gen uttryck data (t.ex. gruppen genomsnittlig kvot) användas i stället för enskilda exempeldata. Dessa grupp mätvärden ska sedan analyseras med verktyget GSEA preranked (se steg 4.12). Gen uttryck data måste normaliseras som vanligt innan du importerar till GSEA programvaran. Typ av normalisering (t.ex., kvartil eller kubisk spline) allmänt åt forskaren.
  2. Gen uttryck data-fil: Använd formatet tabbavgränsad text (*.txt) för att beskriva en uttryck datamängd som avbildas i figur 1A. Se även exempelfilen stöds GSE20524_expression.txt.
    Obs: Filen gen uttryck innehåller uttryckets värden för alla detekterbara gener (eller sonder), också för gener som inte kan uttryckas differentially. Filen innehåller därför vanligtvis många tusentals gener. Den är organiserad som avbildas i figur 1A. Den första raden innehåller etiketten namnger (e.g., genen symbol eller sond ID) följt av identifieraren för varje prov i datamängden (t.ex., prov 1, prov 2 osv). Resten av filen innehåller uttryckets värden för var och en av generna och för varje prov i datamängden. GSEA programvaruverktyget utför beräkningar för grupp mätvärden (t ex gruppen genomsnittlig kvot eller signal-till-brus-förhållande), det rekommenderas därför att inkludera data för varje enskilt prov. Alternativt är det möjligt att använda externt beräknat grupp mätvärden för gen uttryck data (se figur 1B).
  3. Fenotyp fil: skapa en separat fil för definiera och märkning grupper som består av enskilda prover som skildras i < stark klass= ”xfig” > figur 2. Använd blanksteg eller tabbar för att avgränsa fälten. Spara den i en CLS (C++ Class Definition) format. Se även exempelfilen stöds GSE20524_pheno_infection.cls.
    Obs: Den första raden innehåller det totala antalet prover och ytterligare antalet grupper ( figur 2). Medan antalet prover bör motsvara filen gen uttryck (se 3.2), antalet grupper beror på studiedesign. Det tredje fältet på första raden är alltid ' 1 '.
    Den andra raden i en CLS fil innehåller namnet för varje grupp. Raden bör inledas med ett nummertecken (#) följt av ett blanksteg ( figur 2).
    Den tredje raden innehåller en gruppetikett för varje prov. Skivbolaget gruppen kan vara en godtycklig siffra eller text. Det är bara ordning på etiketterna som bestämmer föreningen för varje prov till grupper: den första etiketten används tilldelas till den första gruppen på den andra linjen. den andra unika etiketten tilldelas till den andra gruppen och så vidare. Säkerställa att varje prov i samma grupp har samma etikett i detta steg, och att antalet etiketter är detsamma som antalet prov som anges i den första raden. Slutligen, spara filen som tabbavgränsad textfil (*.txt) och manuellt ändra filnamnstillägget till (*.cls).
  4. (tillval) genen ställa databasfiler: definiera anpassade gen uppsättningar. Använd formatet tabbavgränsad GMT (gen Matrix införlivat) för gen-uppsättningar som avbildas i figur 3. Se även exempelfilen stöds Gene_sets_Inflammation_BIOCARTA_KEGG_REACTOME.gmt.
    Obs: Definiera anpassade gen uppsättningar kan vara användbart till exempel att begränsa genen set-anrikning analys till vägar av särskilt intresse (t.ex., immunologi signalering för sepsis studier), eller för de novo definiera egna genen uppsättningar (t.ex., aktiveras och hämmade gener i studier som har jämföras). Filen är organiserade som avbildas i figur 3. I formatet GMT representerar varje rad en uppsättning av genen ( figur 3). Varje gen-set beskrivs av ett namn, en beskrivning och generna i gen uppsättningen. Den första kolumnen innehåller unika gen ange namn. Den andra raden kan eventuellt innehålla en beskrivning av den gen som. Följande kolumner innehåller gen namnen (officiella HUGO gen symboler) på den motsvarande gen uppsättningen. Slutligen, spara filen som tab avgränsad textfil (*.txt) och manuellt ändra filnamnstillägget till (* .gmt).

4. Utför GSEA

  1. Öppna verktyget GSEA programvara (se 1.2).
  2. Klicka på den ' Ladda data ' knappen på vänster sida i huvudfönstret ( figur 4A). En ny flik öppnas för import av nödvändiga datafilerna ( figur 4B). Bläddra i den nya fliken till gen uttryck (*.txt) datafilen (se 3.2), filen fenotyp (*.cls) (se 3.3) och eventuellt till de anpassa gen-uppsättningarna (* .gmt) fil ( figur 4B).
    1. Om GSEA inte kan ansluta till internet, även ladda den nedladdade MSigDB (* .gmt) filer (t.ex., c2.cp.v5.2.symbols.gmt för vägar, se 1.4) och DNA chip (matris) anteckningar (* .chip) filer (t.ex. Mouse430_2.chip, Se 1.5). Framgångsrikt importerade data visas i den ' Ladda data ' avsnitt ( figur 4 c).
      Obs: Varje undersökning av uttrycket måste analyseras med GSEA individuellt. En jämförelse mellan två studier (t.ex. mänsklig störning vs musmodell) kommer att utföras på steg 5.
  3. Klicka på den ' Kör GSEA ' knappen till vänster i huvudfönstret. En ny flik öppnas för att ställa in parametrar för analys ( figur 4 d). Fliken är indelad i tre delar: avancerade fälten obligatoriska fält, grundläggande fält och.
  4. i obligatoriska fält, Välj först uttryck datamängden lastas i steg 4,2 ( figur 4 d).
  5. Välja den gen anger databas, antingen från anslutna webbplats eller från filen manuellt importerade gen set ( figur 4 d).
  6. Redigera fenotyp etiketter markerar grupperna av prover som ska jämföras med varandra (t.ex., S. aureus behandling vs. frisk kontroll) ( figur 4 d).
  7. Kollaps datamängd att genen symboler (= Sant) för att översätta sonden identifierarna i uttrycket datamängden till officiella HUGO gen symboler som används i databasen gen uppsättningar. Välj falskt om uttrycket datamängden innehåller redan HUGO gen symboler ( figur 4 d).
  8. Ange antalet permutationer till standardinställningen på 1.000 ( figur 4 d).
    Obs: För högre siffror den beräknande tid kommer att öka avsevärt.
  9. Ändra permutation typ till ' gen set ', eftersom fenotyp permutation rekommenderas endast när det finns fler än sju prover i varje fenotyp ( figur 4 d).
  10. Välj slutligen den chip-plattform som används för att generera gen uttryck data, antingen från anslutna webbplatsen eller från manuellt importerade DNA chip (matris) anteckningar fil ( figur 4 d).
    Obs: Detta steg är endast nödvändig om sonden identifierare används i uppladdade uttryck datamängden.
  11. i grundläggande fält redigera minst avsnittet analysnamn och Spara resultaten i den här mappen för att hitta igen resultatfilen ( figur 4 d). Dessutom kan ytterligare statistiska parametrar ändras. För ytterligare information om parametrarna och avancerade fältavsnittet vänligen gå i GSEA user guide (http://software.broadinstitute.org/gsea/doc/GSEAUserGuideFrame.html).
  12. (Valfritt): I fall externt beräknat grupp mätvärden för genuttryck data (t.ex., gruppen genomsnittlig kvot) måste användas i stället för enskilda exempeldata, använda verktyget GSEA preranked. Analysen kommer sedan att genomföras utifrån en enkel lista av gener som tilldelas med förkalkylerade gruppen mått som används för att rangordna generna. Efter lastning den alternativa gen uttryck filen gå till huvudnavigeringsfältet och klicka på Verktyg/GseaPreranked. Likaså en ny flik öppnas för att ställa in parametrarna för analys ( figur 4E).
    Obs: Med verktyget GSEA preranked rekommenderas för studier som inte har enskilda prov-specifik gen uttryck data. Detta kan vara fallet om särskild statistik eller normalisering ingrepp utfördes på data leder till gruppen medelvärden i stället för enskilda exempeldata. Använda verktyget GSEA preranked rekommenderas för RNA-sekvensering data. Normalisera RNA-sekvensering uttrycket data och beräkna grupp mätvärden för prover (t.ex., logg över faldig förändring), som kan användas för att rangordna de gener som enligt deras uttryck.
  13. Klicka på den ' Kör ' knappen på den högra längst ned i fönstret.
    Obs: Analysen då kan ta upp till flera minuter beroende på computing hastigheten. Följa utvecklingen av analysen i avsnittet GSEA rapporter längst ner till vänster i fönstret. Efter avslutad analys, status ' framgång ' visas i avsnittet rapporter GSEA.
  14. Klicka på den efterföljande analysen i avsnittet GSEA rapporter man öppnar analysresultatet.
    Obs: En ny navigeringsmeny öppnas i ett webbläsarfönster som sammanfattar alla resultat och parameterinställningar ( figur 5). Den övre består av två sektioner av navigeringsmenyn gen in anrikning resultat för de definierade grupperna (t.ex. anrikning i S. aureus behandlade prover eller friska kontrollprover). De första raderna i båda avsnitten visar en sammanfattning av statistiken resultaten. Gen-uppsättningar som är avsevärt berikad med en falsk-upptäckten hastighet (FDR) under 25% betraktas som berikad i följande tolkning. Ytterligare information om tolkningen av analysen kan hittas i GSEA Användarhandbok (http://software.broadinstitute.org/gsea/doc/GSEAUserGuideFrame.html).
  15. Klicka på den detaljerade anrikning resultat i excel format att exportera analysresultaten till ett kalkylblad ( figur 6A). Exportera den detaljerade anrikning resultat i excel separat för båda fenotyper ( figur 5) och gå med resultatdata i ett kalkylbladsfil. För senare jämförelse mellan gen uttryck data av flera studier, bibehålla åtminstone namnet på den gen (kolumn A), dess normaliserade anrikning Poäng (NES) (kolumn F) och dess FDR (false discovery rate) värde (kolumn H) ( figur 6B ).
    Obs: Kalkylbladsfilen innehåller enorma data för varje den analyserad gen inställd, inklusive namnet på den gen (kolumn A), dess storlek (det vill säga antalet gener upptäckts i gen uttryck data, kolumn D), dess NES (ett kvantitativt mått av riktningen och omfattningen av berikning, kolumn F), dess nominellt p-värde (okorrigerad, kolumn G) och dess FDR värde (korrigerat för flera hypotesprövning, kolumn H). För ytterligare detaljer om tolkningen hänvisas i GSEA user guide (http://software.broadinstitute.org/gsea/doc/GSEAUserGuideFrame.html).
  16. Upprepa genen set-anrikning analys (steg 4.1 till 4.15) för den andra studien (t.ex., S. aureus GSE9960) och alla ytterligare studier som ska jämföras med varandra. Inkludera så många kliniska studier på människa och olika musmodeller som möjligt att identifiera den optimala musmodellen för translationell forskningsfrågan.

5. Jämföra resultaten GSEA

  1. att identifiera den optimala djurmodell för att imitera den mänskliga situation jämför GSEA resultaten av alla studier till varandra. Använda anrikning poängen och FDR värden för att klassificera vägarna (gen-uppsättningar) som aktiveras (NES > 0, FDR < 25%), hämmad (NES < 0, FDR < 25%) eller ingen av båda (FDR > 25%). För varje jämförelse av två studier, räkna antalet genomföranden av nio möjliga kombinationer av väg förordning som indikeras av ett 3 x 3 contingency bord ( figur 7A).
  2. Bedöma korrelationen mellan två studier genom beräkning av det positiva prediktiva värdet (ppv) och den negativt prediktivt värde (npv), som per definition delen av vägar som visar samma förordning (aktiverad eller hämmade) i två studier .
    1. Beräkna ppv och npv enligt följande formler (1) och (2):
      (1) Equation 1
      (2) Equation 2
      Obs: Eftersom överlappningen kan vara ren slump, ppv och npv måste vara längre jämfört med de värden som förväntas av en slump. Denna metod tillåter skattning av mängden information som kan vinnas från en studie för att förutsäga effekterna i en annan studie. Exempelvis om förordning processer i två modeller var oberoende av varandra (och endast överlappning av en slump) och i den första modellen var 10 procent av vägarna uppreglerad, än ppv till den andra modellen skulle också vara 10% och det fanns ingen ytterligare vinst på inf information. På andra sidan, om båda modellerna var kopplade av vanliga mekanismer för förordning, skulle då de ppv (och npv) vara betydligt större än förväntat av en slump. Ppv är exempelvis för förutsägelse av genförändringar uttryck under mänskliga sepsis (GSE9960) från effekter i en murin S. aureus injektion modell (GSE20524), 43% (6/(6+8+0)) och nettonuvärdet är 61% (11/(0+7+11)). Med andra ord, aktiveras 43% av de aktivera vägarna i murina S. aureus injektion modellen (GSE20524) också human sepsis (GSE9960). Likaså, 61% av de hämmade vägarna i murina S. aureus injektion modellen (GSE20524) också hämmas under mänskliga sepsis (GSE9960) ( figur 7B). PPV och npv kan också bestämmas för stjärnbilden inverse (det betyder att förutsäga från studie 1 att studera 2).
  3. Att beräkna överlappningen av en slump se tabellen 3 x 3 beredskapsplaner ( figur 7) och beräkna ppvchance och npvchance enligt följande formler (3) och (4):
    (3) < img alt = ”ekvation 3” src = ”/files/ ftp_upload/55768/55768eq3.jpg ”/ >
    (4) Equation 4
    Obs: till exempel för förutsägelse av genförändringar uttryck under mänskliga sepsis (GSE9960) från effekter i en murin S. aureus injektion modell (GSE20524) ppvchance är 13% (8/64) och npvchance är 22% (14/64).
  4. Beräkna vinst på ppv vs. chans genom att subtrahera ppvchance från ppv. Beräkna därför för npv:
    (5) Equation 5
    (6) Equation
    Obs: till exempel för förutsägelse av gen uttryck ändras under mänskliga sepsis (GSE9960) från effekter i en murin S. aureus injektion modell (GSE20524) förändringen i ppv och npv vs. chans är + 30% (43% - 13%) och + 39% (61% - 22%), respektive.
  5. Beräkna vinst på information som kan erhållas från studie 2 angående studie 1 av genomsnitt ppvgain och npvgain:
    (7) Equation
  6. använda tabellen beredskapsplaner som definieras i steg 5.1 i ett par studier (study1.pathway, study2.pathway) för att beräkna p värdet av en chi2 test.
    Lagra data i tabellen beredskapsplaner i en matris X. utför det chi2 testet, t.ex., genom användning av R fungera chisq.test.
    Obs: jämföra valda human sepsis studien (GSE9960) med en murin S. aureus injektion modell (GSE20524) visar exempelvis en statistiskt betydande överlappning i inflammatoriska väg förordning:
    > chisq.test(X,simulate.p.value=F)$ p.Value
    3.82e-07

6. Att identifiera den optimala djur modell

  1. Jämför GSEA resultat för alla kombinationer av de studier som valdes ut för analys.
    Obs: Det rekommenderas också att jämföra de (liknande) studierna på människa till en annan samt olika djurstudier till varandra. Denna jämförelse kan ge insikt i artspecifika variansen av kliniska studier (eller störningar) och de olika djurmodeller. Det förväntas att de kliniska studierna ska visa en godtagbar överlappning och en betydande information få, eftersom annars de kliniska studierna kan vara alltför heterogena att hitta en djurmodell som kan härma den mänskliga situationen. I det här fallet, det rekommenderas att inkludera endast humanstudier som liknar varandra för identifiering av lämpliga djurmodeller.
  2. Sortera alla kombinationer av förstärkningen av information (steg 5,5). För jämförelse av många datamängder, använda en matris och visualisera resultaten genom användning av en färgad heatmap eller liknande ( figur 8).
  3. Välj djur modell med högsta vinst på information. För att bedöma betydelsen av förstärkningen av information, även beakta de chi2 testet (steg 5,6).
    Obs: Djurmodeller bör endast betraktas som lämplig om förstärkningen av information är väsentlig och om p värdet av chi2 test är lägre än signifikansnivån. Egna tröskelvärden kommer generellt beror på flera faktorer: 1) förstudie kunskaper om överförbarheten av resultaten från djurmodell för människor (t.ex. liknande fysiologi), 2) den förväntade nyttan för människor vid en förmodade framgång, (3) praktiska tillämpligheten av det djurförsök, och 4) den förväntade smärta, lidande eller skada som tillfogats labbetOratory djur.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

GSEA arbetsflöde och skärmdumpar av exemplarisk data demonstreras. Figur 1 visar gen uttryck datafilen som innehåller de transcriptomic data av intresse. För varje studie en beskrivande fenotyp-fil krävs som visas i figur 2. Kommenterad gen uppsättningar (t.ex., vägar) definieras i gen set databasfilen (figur 3). Figur 4 visar en stegvisa protokoll för användning av verktyget GSEA programvara. En exemplarisk resultatrapport ges i figur 5. Detaljerade GSEA anrikning resultat sammanfattas i figur 6. För jämförelse av olika gen uttryck studier, i synnerhet mänskliga vs mus studier, en beredskapsplan tabell krävs (figur 7). För visualisering av resultaten, figur 8 visar en korrelationsmatris väg jämförelser mellan mänskliga och mus studier.

Figure 1
Figur 1: GSEA gen uttryck datafil. Filen innehåller uttryckets värden för alla detekterbara gener (eller sonder), också för gener som inte kan uttryckas differentially. Filen innehåller därför vanligtvis många tusentals gener. (A) gen uttryck datafilen innehåller data för varje enskilt prov. Den första raden innehåller etiketter namn (här: sond ID) följt av en valfri beskrivning och enskilda prov namn (här: GSM515585, GSM515586, etc.). Resten av filen innehåller uttryckets värden för var och en av generna och för varje prov i datamängden. (B) alternativa gen uttryck dataformat. Externt beräknat grupp mätvärden (här: genomsnittlig kvot) kan användas för verktyget GSEA preranked om enskilda exempeldata inte är tillgängliga. Klicka här för att se en större version av denna siffra.

Figure 2
Figur 2: GSEA fenotyp fil. Filen kombinerar enskilda prover till grupper och etiketter grupperna med detta. Den första raden innehåller det totala antalet prover och antalet grupper. Det tredje fältet på första raden är alltid '1'. Den andra raden innehåller namnet för varje grupp. Linjen börjar med ett nummertecken (#) följt av ett mellanslag. Den tredje raden innehåller en gruppetikett för varje prov (här: 0 eller 1). Klicka här för att se en större version av denna siffra.

Figure 3
Figur 3: GSEA gen ställa databasfil. Filen definierar uppsättningar av gener som tilldelas vissa biologiska processer eller kategorier (här: inflammatoriska vägar). I formatet GMT representerar varje rad en gen-uppsättning, som definieras av ett namn, en beskrivning och de medföljande generna (officiella HUGO gen symboler). Klicka här för att se en större version av denna siffra.

Figure 4
Figur 4: GSEA Programvaruinställningar. Verktyget GSEA programvara laddas ner från webbplatsen Broad Institute som en java desktop ansökan. (A) Start-menyn. Till vänster innehåller navigeringsmenyn medan den högra delen (hem) ger en kort sammanfattning av GSEA arbetsflödet. Klicka på knappen Ladda data kommer att öppna en ny flik för att importera filer. (B) Ladda data avsnitt innan dataimporten. Filer som krävs kan vara importerade via filbläddraren. (C) Ladda data avsnitt efter dataimport. Importerade data filer listas i objektcachen och organiseras för att datamängder (obligatorisk fil), fenotyper (obligatorisk fil), gen ställa databaser (valfritt, om internet-anslutning) och chip filer (valfritt, om internet-anslutning). Klicka på knappen Kör GSEA kommer att öppna en ny flik för att ställa in parametrarna för analys. (D) Kör GSEA avsnitt. Fliken för att ställa in parametrarna för analys är uppdelad i obligatoriska fält, grundläggande och avancerade åkrar. Klicka på knappen Kör på den högra längst ner på fönstret startar analysen. Utvecklingen av analysen kommer sedan att visas i avsnittet GSEA rapporter längst ner till vänster i fönstret. Efter avslutad analys, status 'framgång' visas i GSEA rapporter avsnitt. (E) GSEA preranked verktyg. Genuttryck som datafiler som innehåller externt beräknat grupp mätvärden i stället för enskilda exempeldata kan analyseras via huvudnavigeringsfältet. Klicka här för att se en större version av denna siffra.

Figure 5
Figur 5: GSEA rapport. GSEA rapporten öppnas i ett webbläsarfönster som sammanfattar alla resultat och valda parametrar. De övre två delarna i navigationsmenyn omfatta gen set anrikning resultat för de definierade grupperna (t.ex., anrikning i S. aureus behandlade prover eller friska kontrollprover). I detta exempel aktiveras 42 av 65 gen uppsättningar (vägar) hos S. aureus behandlas möss, medan 14 av dem är avsevärt berikad med en FDR under 25%. Likaså hämmas 23 av 65 gen uppsättningar (vägar) i S. aureus behandlas möss, medan 18 av dem är avsevärt berikad med en FDR under 25%. Klicka på detaljerad anrikning resultat öppnar en html eller excel-fil för att exportera de analysdata som krävs för en jämförelse av olika gen uttryck studier. Klicka här för att se en större version av denna siffra.

Figure 6
Figur 6: detaljerad anrikning resultat. (A) exporterade kalkylbladsfil som innehåller detaljerad analysresultat för genen uppsättningar (vägar) som aktiverades i S. aureus behandlas möss. Kalkylbladsfilen innehåller enorma data för varje analyserad gen set, inklusive namnet på den gen som, dess storlek, dess normaliserade anrikning poäng, dess nominella (okorrigerad) p-värde och dess FDR värde. (B) förenklad kalkylblad fil somendast innehåller information som krävs för att jämföra olika gen uttryck studier. Klicka här för att se en större version av denna siffra.

Figure 7
Figur 7:3 x 3 Contingency resultattabell GSEA. (A) gemensamma contingency tabellformat för jämförelse av 2 studier. (B) exemplariska antal reglerade vägar för jämförelse av en human sepsis studie (GSE9960) med en murin S. aureus injektion modell (GSE20524). Klicka här för att se en större version av denna siffra.

Figure 8
Figur 8: korrelationsmatris Pathway jämförelser mellan mänskliga och mus studier. Överlappningen av väg förordning visas som förstärkningen av information som kan erhållas från en (mus) studie för att förutsäga effekterna i en annan (mänskliga) studie (blå, minskning, låg korrelation, röd, ökning, hög korrelation). I detta exempel är visade jämförelsen av mänskliga med murin datamängder en undergrupp av experimentella murina modeller som var mycket korrelat till mänskliga kliniska studier (10 och 11, streckade linjen), vilket indikerar att dessa musmodeller är bäst lämpad för att imitera den mänskliga situationen. Däremot studierna 7, 8 och 9 visade ingen korrelation till mänskliga sjukdomar studier. Klicka här för att se en större version av denna siffra.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Djurmodeller har länge tillämpats för utredningen av sjukdomsmekanismer och utvecklingen av nya terapeutiska strategier. Dock börjat skepsis angående prediktivitet av djurmodeller sprida sig efter misslyckandena i kliniska prövningar12. Dessutom höjdes kontroversiella diskussioner om lämpliga strategier för att analysera och tolka stora omics data från prekliniska studier med motsatta slutsatser dras från samma data efter tillämpa olika data analys strategier1 ,2. Följaktligen finns det en hög efterfrågan på ytterligare robust bioinformatik tekniker för analys av komplexa omics data systematiskt definiera de optimala djurmodell för en viss mänsklig sjukdom. Tillämpa den bästa tillgängliga modellen inte bara förbättrar translationell forskning utan ytterligare bidrar till djurens välbefinnande genom att undvika djurförsök som inte kanske korrelerar med den mänskliga situationen.

Presenterade protokollet beskriver en standardiserad metod för att systematiskt jämföra omics data av olika arter i syfte att identifiera de optimala djurmodeller och behandlingsprotokoll för en viss mänsklig störning. Genom att utnyttja GSEA istället för en enda-gen analys kringgår detta protokoll alla problem som är förknippade med subjektiva inställningen av gen uttryck tröskelvärden och gen filtrering. Fokus på valda vägar ytterligare kan specifikt adress (patolo) fysiologiska processen för samma sjukdom/tillstånd (t.ex., inflammation). Naturligtvis, beror riktigheten av GSEA resultaten på kvaliteten på nuvarande gen set anteckningar och huruvida förordningen mekanismer bevaras mellan arter. Dock hypotes vi att i allmänhet bevarande är högre på väg-nivå än på enda gennivå. Dessutom är ange anrikning tillvägagångssätt mer robusta för jämförelser av transcriptomic data mellan olika plattformar och experimentella modeller eller kliniska kohorter än single-genen analyseras13.

Istället för att använda fördefinierade gen uppsättningar såsom vägar, kan den presenterade metoden också definiera anpassade gen uppsättningar. I synnerhet kan experimentella uttryck data användas för att identifiera relevanta gener som är aktiverade eller hämmas i ett villkor (t.ex., överlappning av reglerade mänskliga gener i kliniska kohorter). De de novo definieras gen uppsättningar kan sedan användas för att testa för anrikningen av data från olika djurmodeller. Detta alternativa tillvägagångssätt undviker 'omväg' använda kommenterad vägar. Vidare protokollet inte är begränsad till jämförelsen av transcriptomic data, men kan överlåtas till någon omics data inklusive Proteomik och metabolomik. Dock måste man komma ihåg att denna metod är begränsad till befintliga omics data från musmodeller och människor, och att det anger inte hur man kan utveckla nya djurmodeller. Det är dock ett effektivt tillvägagångssätt för standardiserade tolkning av befintliga data, vilket kan underlätta noggrant urval av den optimala djurmodell och därmed undvika onödiga och vilseledande translationella studier.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Författarna förklarar att de har inga konkurrerande finansiella intressen.

Acknowledgments

Detta arbete finansierades av den tyska federala institutet för riskbedömning (BfR).

Materials

Name Company Catalog Number Comments
Excel Microsoft Corporation

DOWNLOAD MATERIALS LIST

References

  1. Seok, J., et al. Genomic responses in mouse models poorly mimic human inflammatory diseases. Proc Natl Acad Sci U S A. 110 (9), 3507-3512 (2013).
  2. Takao, K., Miyakawa, T. Genomic responses in mouse models greatly mimic human inflammatory diseases. Proc Natl Acad Sci U S A. 112 (4), 1167-1172 (2015).
  3. Weidner, C., Steinfath, M., Opitz, E., Oelgeschläger, M., Schönfelder, G. Defining the optimal animal model for translational research using gene set enrichment analysis. EMBO Mol Med. 8 (8), 831-838 (2016).
  4. Subramanian, A., et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proc Natl Acad Sci U S A. 102 (43), 15545-15550 (2005).
  5. Kanehisa, M., Sato, Y., Kawashima, M., Furumichi, M., Tanabe, M. KEGG as a reference resource for gene and protein annotation. Nucleic Acids Res. 44 (D1), D457-D462 (2016).
  6. Kanehisa, M., Goto, S. KEGG: kyoto encyclopedia of genes and genomes. Nucleic Acids Res. 28 (1), 27-30 (2000).
  7. Fabregat, A., et al. The Reactome pathway Knowledgebase. Nucleic Acids Res. 44 (D1), D481-D487 (2016).
  8. Croft, D., et al. The Reactome pathway knowledgebase. Nucleic Acids Res. 42 (Database issue), D472-D477 (2014).
  9. Nishimura, D. BioCarta. Biotech Software & Internet Report. 2 (3), 117-120 (2001).
  10. Edgar, R., Domrachev, M., Lash, A. E. Gene Expression Omnibus: NCBI gene expression and hybridization array data repository. Nucleic Acids Res. 30 (1), 207-210 (2002).
  11. Kolesnikov, N., et al. ArrayExpress update--simplifying data submissions. Nucleic Acids Res. 43 (Database issue), D1113-D1116 (2015).
  12. Cohen, J., et al. Sepsis: a roadmap for future research. Lancet Infect Dis. 15 (5), 581-614 (2015).
  13. Spinelli, L., Carpentier, S., Montanana Sanchis, F., Dalod, M., Vu Manh, T. P. BubbleGUM: automatic extraction of phenotype molecular signatures and comprehensive visualization of multiple Gene Set Enrichment Analyses. BMC Genomics. 16 (1), 814 (2015).

Tags

Grundläggande protokoll fråga 126 djurmodell musmodell translationell forskning systembiologi transkriptomik GSEA
Ett protokoll för att använda gen Set-anrikning analys identifiera den lämplig djurmodell för translationell forskning
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Weidner, C., Steinfath, M., Wistorf, More

Weidner, C., Steinfath, M., Wistorf, E., Oelgeschläger, M., Schneider, M. R., Schönfelder, G. A Protocol for Using Gene Set Enrichment Analysis to Identify the Appropriate Animal Model for Translational Research. J. Vis. Exp. (126), e55768, doi:10.3791/55768 (2017).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter