Waiting
Traitement de la connexion…

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

Een Protocol voor het gebruik van Gene ingesteld verrijking analyse om te identificeren van de juiste diermodel voor translationeel onderzoek

Published: August 16, 2017 doi: 10.3791/55768

Summary

Wij bieden een gestandaardiseerd protocol voor het gebruik van gene instellen verrijking analyse van transcriptomic gegevens aan het identificeren van een ideale muismodel voor translationeel onderzoek.
Dit protocol kan worden gebruikt met microarray DNA en RNA sequencing gegevens en kan worden uitgebreid tot andere omics-gegevens indien gegevens beschikbaar zijn.

Abstract

Recente studies die ten opzichte van transcriptomic datasets van ziekten bij de mens met datasets van Muismodellen met behulp van traditionele gen-te-gen vergelijking technieken resulteerde in tegenstrijdige conclusies met betrekking tot de relevantie van diermodellen voor translationeel onderzoek. Een belangrijke reden voor de verschillen tussen verschillende gen expressie analyses is het willekeurige filteren van differentially uitgedrukte genen. Anderzijds is de vergelijking van enkele genen tussen verschillende soorten en platformen vaak beperkt door technische variantie, leidt tot een verkeerde interpretatie van de con/verschil tussen gegevens uit menselijke en dierlijke modellen. Dus, gestandaardiseerde benaderingen voor systematische data-analyse zijn nodig. Om te overwinnen subjectieve gene filteren en ineffectief gen-te-gen vergelijkingen, we onlangs aangetoond dat gene instellen verrijking analyse (GSEA) het potentieel heeft om deze problemen te voorkomen. Daarom ontwikkelden we een gestandaardiseerd protocol voor het gebruik van GSEA om te onderscheiden tussen geschikte en ongeschikte diermodellen voor translationeel onderzoek. Dit protocol is niet geschikt om te voorspellen hoe ontwerpt nieuwe modelsystemen een priori-, aangezien het bestaande experimentele omics gegevens vereist. Echter wordt het protocol beschreven hoe bestaande gegevens op een gestandaardiseerde manier interpreteert om te selecteren van de meest geschikte diermodel, dus het vermijden van geen onnodige dierproeven en misleidende translationeel onderzoek.

Introduction

Dierlijke modellen worden veel gebruikt om te studeren ziekten bij de mens, vanwege hun veronderstelde gelijkenis met mensen op het gebied van genetica, anatomie en fysiologie. Bovendien dierlijke modellen vaak dienen als poortwachters aan klinische therapieën en kunnen een enorme impact hebben op het succes van translationeel onderzoek. Zorgvuldige selectie van de optimale diermodel kan verminderen het aantal misleidende dierstudies. Onlangs, de relevantie van diermodellen voor translationeel onderzoek is controversieel besproken, met name omdat het analyseren van de dezelfde datasets verkregen menselijke ontstekingsziekten en verwante Muismodellen tot tegenstrijdige conclusies leidde 1,2. Deze discussie bleek een fundamenteel probleem tijdens het analyseren van omics gegevens: gestandaardiseerde benaderingen voor systematische data-analyse nodig zijn vooringenomen gene selectie verkleinen en ter verhoging van de robuustheid van interspecies-vergelijkingen 3.

Traditioneel, de analyse van transcriptomics (en andere omics-gegevens) wordt gedaan op het niveau van de single-gen en een eerste stap van gen-selectie op basis van strenge cut-off parameters bevat (bijvoorbeeld, vouw verandering > 2.0, p-waarde < 0,05). Echter de vaststelling van de licht-donkerscheiding initiële parameters vaak subjectief, arbitrair en niet biologisch gerechtvaardigd, en kan zelfs leiden tot tegengestelde conclusies1,2. Bovendien, eerste gen selectie in het algemeen wordt de analyse beperkt tot een paar zeer up- en werden genen en is dus niet gevoelig genoeg om de meeste genen die differentieel in mindere mate uitgedrukt werden.

Met de opkomst van de genomica-tijdperk in de vroege 2000s en de toenemende kennis van de biologische afbraak en contexten, werden statistische alternatieven ontwikkeld die kunnen omzeilen van de beperkingen van single-gen niveau analyses. Gene instellen verrijking analyse (GSEA)4, dat een van de algemeen aanvaarde methoden voor de analyse van transcriptomics gegevens is, maakt gebruik van a-priori omschreven groepen genen (bijvoorbeeldsignaling pathways, proximale locatie op een chromosoom enz.). GSEA kaarten eerst alle gedetecteerde ongefilterde genen tot de beoogde gen sets (b.v., trajecten), ongeacht hun individuele verandering in expressie. Deze aanpak bevat dus ook matig gereglementeerde genen die anders verloren zou gaan met single-gen niveau analyses. De additieve verandering in expressie binnen gene sets wordt vervolgens uitgevoerd met behulp van lopende som statistieken.

Ondanks haar brede gebruik in medisch onderzoek, zijn GSEA en verwante instellen verrijking benaderingen geen vanzelfsprekend rekening gehouden voor de analyse van complexe omics gegevens. Hier beschrijven we een protocol voor het vergelijken van omics gegevens van menselijke steekproeven met die uit Muismodellen teneinde het ideale model voor translationeel onderzoek. We tonen de toepasselijkheid van het protocol op basis van een verzameling van Muismodellen die worden gebruikt voor het nabootsen van menselijke inflammatoire aandoeningen. Echter, deze pijpleiding analyse beperkt zich niet tot mens-muis vergelijkingen en is geamendeerd verder onderzoeksvragen.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. downloaden van de Software van de GSEA en de moleculaire handtekening Database

  1. Ga naar de officiële website van de GSEA brede Institute (http://software.broadinstitute.org/gsea/index.jsp) en te registreren om toegang tot de GSEA-software gereedschap en de moleculaire handtekening Database (MSigDB).
  2. Downloaden de javaGSEA desktop-applicatie of een alternatieve software-optie (bijvoorbeeld, R script).
    Opmerking: Alle opties implementeren precies hetzelfde algoritme. De GSEA-software is vrij toegankelijk voor individuen in de academische wereld en de industrie voor interne onderzoeksdoeleinden.
  3. Voor verder details over de software van de GSEA Ga naar de website van de documentatie (http://software.broadinstitute.org/cancer/software/gsea/wiki/index.php/Main_Page) en de GSEA user guide (http://software.broadinstitute.org/gsea/doc/ GSEAUserGuideFrame.html).
  4. de moleculaire handtekening Database (MSigDB) downloaden vanaf de website van de GSEA toegang te krijgen tot afzonderlijke gene set collecties.
    Opmerking: De MSigDB is een collectie van verzamelingen van geannoteerde gen voor gebruik met de GSEA-software of andere doeleinden. Gene sets kunnen worden verdeeld volgens de signalering van trajecten, gene ontologie voorwaarden, cis-regulerende motieven, experimentele handtekeningen en anderen. Genen van de MSigDB zijn altijd genoemd door hun officiële HUGO (menselijke genoom Organisation) gene symbool. Voor de vergelijking van traject verordening tussen een bepaalde menselijke stoornis en verschillende muis het modellen wordt aanbevolen voor het downloaden van de ' alle canonieke trajecten, gene symbolen ' bestand (c2.cp.v5.2.symbols.gmt). Dit bestand bestaat uit sets van de gene die waren geannoteerde en geordend signaalroutes door KEGGEN 5 , 6, Reactome 7 , 8 en BioCarta 9. de tekenreeks ' v5.2 ' Hiermee geeft u de versiegegevens van de collectie. Zorg ervoor dat de nieuwste versie van de bestanden downloaden. De MSigDB is vrij toegankelijk voor individuen in de academische wereld en de industrie voor intern onderzoeksdoeleinden. Het is niet nodig voor het downloaden van de MSigDB, als internet-verbinding wordt opgegeven tijdens de analyse. In dit geval de MSigDB kan rechtstreeks worden gekozen binnen de gebruikersinterface GSEA.
  5. DNA downloaden chip (array) aantekeningen bestanden van de website van de GSEA om te vertalen van matrix-specifieke sonde id's algemene HUGO gene symbolen (bijvoorbeeld Mouse430_2.chip).
    Opmerking: Het is niet nodig voor het downloaden van de DNA-chip aantekeningen, als internet-verbinding wordt opgegeven tijdens de analyse. In dit geval kunnen de DNA-chip aantekeningen rechtstreeks worden gekozen binnen de gebruikersinterface van de GSEA. Het protocol kan ook worden gebruikt met RNA sequencing gegevens. In dit geval is het niet nodig om aantekeningenbestanden te downloaden. In plaats daarvan, gebruik de GSEA preranked tool voor het analyseren van de gen-expressie gegevens (zie stap 4.12).

2. Download proefgegevens van gen-expressie voor de menselijke stoornis en passende dier modellen

  1. identificeren experimentele gen expressie (transcriptomics) studies voor de menselijke stoornis van keuze (bijvoorbeeld, gene expressieprofielen van leukocyten afgeleid van patiënten met septisch disorder, GSE9960).
  2. Nederbuigen, zoeken naar verschillende dierlijke modellen die moeten worden vergeleken met de menselijke studies (bijv., gene expressieprofielen van bloedcellen afgeleid van muizen na injectie van Staphylococcus aureus (S. aureus), GSE20524). Bij deze stap gebruikt u de voorkennis voor de preselectie van dierlijke modellen die misschien wel geschikt voor het nabootsen van de menselijke situatie.
  3. Voor dit doel verwijzen naar literatuur en databases zoals de Gene Expression Omnibus (GEO) database 10 of ArrayExpress 11 en download de genormaliseerde transcriptomics gegevens van belang. De prestatiegegevens opslaat als tekstbestanden op de lokale vaste schijf. Voor de GEO-database verdient het downloaden van tabgescheiden serie matrix tekstbestanden. Neem ook nota van het platform (matrix type) gebruikt voor deze studie, aangezien deze informatie nodig is voor het vertalen van de matrix-specifieke sonde-id aan algemene HUGO gene symbolen.
    Opmerking: Zorg ervoor genoeg geheugen voor de opslag van de gegevens, zoals transcriptomics datasets bestaan meestal uit meerdere honderden MB.

3. Gegevens verwerken en opmaak

  1. voordat het experimentele gen expressie gegevens importeren in het hulpprogramma voor GSEA software, rekening met de structuur van de vereiste gegevens. Voor elk onderzoek twee verschillende bestanden handmatig maken: 1) een gen expressie gegevensbestand met meetwaarden voor verschillende genen en monsters, en 2) een fenotype bestand met monster labels om de groep van afzonderlijke monsters (bijvoorbeeld behandeling in groepen).
    Voor verdere details en data structuur opties ga naar de GSEA data formaat-pagina (http://software.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats).
    Opmerking: In het algemeen, alle vormen van transcriptomics gegevens zijn compatibel met het protocol, met inbegrip van DNA microarray experimenten, RNA-seq of ChIP-seq studies. In het geval van het gebruik van DNA microarray experimenten, mag het gegevensbestand van gen expressie matrix-specifieke sonde id of HUGO gene symbolen voor elk gen (sonde identificatiemiddelen zal vertaald worden naar HUGO gene symbolen tijdens de analyse, zie stap 1.5 en 4.10) bevatten. In het geval van de RNA-seq of ChIP-seq gegevens gebruikt, moet handmatig berekende group metriek voor gen expressie gegevens (bijvoorbeeld groep gemiddelde ratio) worden gebruikt in plaats van individuele voorbeeldgegevens. Deze groep statistieken moet vervolgens worden geanalyseerd met de preranked tool van GSEA (zie stap 4.12). Gen expressie gegevens moet zoals gebruikelijk worden genormaliseerd voordat u importeert in de GSEA-software. Het type van normalisatie (b.v., kwartiel of kubieke spline) in het algemeen aan de onderzoeker wordt overgelaten.
  2. Gen expressie gegevens bestand: de tabgescheiden tekst-bestandsindeling (*.txt) gebruiken voor het beschrijven van de dataset van een expressie, zoals afgebeeld in figuur 1A. Zie ook het van de ondersteunde voorbeeldbestand GSE20524_expression.txt.
    Opmerking: Het gegevensbestand van gen expressie expressie waarden bevat voor alle aantoonbaar genen (of sondes), ook voor de genen die niet differentieel kunnen worden uitgedrukt. Het bestand omvat dus meestal vele duizenden genen. Het is georganiseerd zoals afgebeeld in figuur 1A. De eerste regel bevat de labelnaam (bijvoorbeeld, gene symbool of sonde ID) gevolgd door de id voor elk monster in de dataset (b.v., voorbeeld 1, voorbeeld 2 enz). De rest van het bestand bevat expressie waarden voor elk van de genen en voor elk monster in de dataset. De GSEA softwaretool worden berekeningen uitgevoerd voor de groep statistieken (b.v., gemiddelde verhouding van de groep of signaal-tot-ruisverhouding), is aan te bevelen om op te nemen gegevens voor elke individuele monster. Als alternatief, is het mogelijk om te gebruiken extern berekende group statistieken voor gen expressie data (Zie figuur 1B).
  3. Fenotype bestand: een afzonderlijk bestand maken voor het definiëren en labelen van groepen die bestaan uit afzonderlijke monsters zoals afgebeeld in < sterke klasse= "xfig" > figuur 2. Gebruik spaties of tabs om de velden te scheiden. Opslaan in een bestandsindeling CLS (C++ Class definitie). Zie ook het van de ondersteunde voorbeeldbestand GSE20524_pheno_infection.cls.
    Opmerking: De eerste regel bevat het totale aantal monsters en verder het aantal groepen ( Figuur 2). Terwijl het aantal monsters moet overeenkomen met het gegevensbestand van gen expressie (zie 3.2), het aantal groepen is afhankelijk van het ontwerp van de studie. Het derde veld van de eerste regel is altijd ' 1 '.
    De tweede regel in een CLS-bestand bevat de naam van elke groep. De lijn moet beginnen met een hekje (#) gevolgd door een spatie ( Figuur 2).
    De derde regel bevat een groep label voor elk monster. Het label van de groep kunnen een willekeurige nummer- of teksttype. Het is alleen de volgorde van de labels die bepaalt van de vereniging van elk monster aan de groepen: het eerste etiket gebruikt is toegewezen aan de eerste groep op de tweede regel; het tweede unieke label is toegewezen aan de tweede groep, enzovoort. Controleer of elk monster van dezelfde groep heeft hetzelfde etiket bij deze stap, en dat het aantal etiketten is hetzelfde als het aantal monsters die zijn opgegeven in de eerste regel. Ten slotte, sla het bestand op als een door tabs gescheiden tekstbestand (*.txt) en extensie van de bestandsnaam handmatig omzetten in (*.cls).
  4. (optioneel) Gene instellen databasebestanden: aangepaste gene sets definiëren. De tabs GMT (Gene Matrix omgezet)-bestandsindeling gebruiken voor gene sets zoals afgebeeld in Figuur 3. Zie ook het van de ondersteunde voorbeeldbestand Gene_sets_Inflammation_BIOCARTA_KEGG_REACTOME.gmt.
    Opmerking: Het definiëren van aangepaste gene sets kunnen nuttig zijn bijvoorbeeld beperken het gen stelt verrijking analyse op trajecten van bijzonder belang zijn (b.v., immunologie signalering voor sepsis studies), of voor DOVO eigen gene sets definiëren (bijvoorbeeld geactiveerd en geremd genen in studies die moeten worden vergeleken). Het bestand wordt georganiseerd zoals afgebeeld in Figuur 3. In het formaat van GMT vertegenwoordigt elke rij een gen set ( Figuur 3). Elk gen set wordt beschreven door een naam, een beschrijving en de genen in de gen-set. De eerste kolom bevat unieke gene set namen. De tweede regel kan optioneel een beschrijving bevatten van de gen-set. De volgende kolommen bevatten de gene namen (officiële HUGO gene symbolen) van de bijbehorende gen-set. Ten slotte, sla het bestand op als een door tabs gescheiden tekstbestand (*.txt) en handmatig wijzigen van de bestandsnaamextensie (* .gmt).

4. Uitvoeren van de GSEA

  1. opent de GSEA softwaretool (zie 1.2).
  2. Klik op de ' gegevens laden ' knop aan de linkerkant van het hoofdvenster ( figuur 4A). Een nieuw tabblad wordt geopend voor het importeren van de vereiste gegevensbestanden ( figuur 4B). Bladeren in het nieuwe tabblad met het gen expressie (*.txt) gegevensbestand (zie 3.2), het fenotype (*.cls)-bestand (zie 3.3) en, optioneel, de aangepaste gene sets (* .gmt) bestand ( figuur 4B).
    1. In het geval dat GSEA geen verbinding maken met het internet, ook laden de gedownloade MSigDB (* .gmt) bestanden (bijvoorbeeld c2.cp.v5.2.symbols.gmt voor trajecten, zie 1.4) en de DNA-chip (array) aantekeningen (* .chip) bestanden (bijvoorbeeld, Mouse430_2.chip, Zie 1.5). Geïmporteerd gegevens verschijnen in de ' gegevens laden ' sectie ( figuur 4C).
      Opmerking: Elke gen expressie studie moet worden geanalyseerd met GSEA afzonderlijk. De vergelijking tussen twee studies (bv. menselijke wanorde vs. muismodel) zullen worden uitgevoerd bij stap 5.
  3. Klik op de ' uitvoeren GSEA ' knop aan de linkerkant van het hoofdvenster. Een nieuw tabblad wordt geopend om de parameters voor de analyse ( Figuur 4 d). Het tabblad is onderverdeeld in drie delen: verplichte velden, Basisvelden en Geavanceerde velden.
  4. In de vereiste velden, kiest u eerst de dataset van de expressie in stap 4.2 ( Figuur 4 d) geladen.
  5. Kies de gene database ingesteld, hetzij vanuit de verbonden website of vanuit de handmatig ingevoerde gene set bestand ( Figuur 4 d).
  6. Het fenotype etiketten om te selecteren van de groepen van monsters die moeten worden vergeleken aan elkaar (bijvoorbeeld, S. aureus behandeling vs. gezonde controle) bewerken ( Figuur 4 d).
  7. Instorting dataset aan gene symbolen (= true) om te vertalen van de sonde id's in de expressie dataset aan officiële HUGO gene symbolen in de gene sets database gebruikt. Selecteer valse, als de expressie dataset reeds HUGO gene symbolen ( Figuur 4 d bevat).
  8. De standaardinstelling voor het aantal permutaties voor vastgesteld op 1.000 ( Figuur 4 d).
    Opmerking: Voor hogere getallen de computing tijd aanzienlijk zal toenemen.
  9. De permutatie type te wijzigen ' gene set ', aangezien het fenotype permutatie aanmelden wordt uitsluitend aangeraden wanneer er meer dan zeven monsters in elke fenotype ( Figuur 4 d).
  10. Selecteer tot slot het chipplatform vormt voor het genereren van de gegevens van gen expressie gebruikt, uit de verbonden website of uit de handmatig ingevoerde DNA chip (array) aantekeningen bestand ( Figuur 4 d).
    Opmerking: Deze stap is alleen nodig als de sonde identificatiemiddelen worden gebruikt in de ge-uploade expressie dataset.
  11. In de Basisvelden ten minste de naam van de analyse en het opslaan resulteert in deze map sectie om te zoeken opnieuw het bestand met resultaten ( Figuur 4 d) bewerken. Bovendien verder statistische parameters kunnen worden gewijzigd. Voor verdere informatie over de parameters en de sectie Geavanceerde velden Ga naar de GSEA user guide (http://software.broadinstitute.org/gsea/doc/GSEAUserGuideFrame.html).
  12. (Optioneel): In de zaak extern berekende group statistieken voor genexpressie gegevens (bijvoorbeeld de gemiddelde verhouding groep) moet worden gebruikt in plaats van individuele voorbeeldgegevens, gebruiken de GSEA preranked. Het zal vervolgens worden onderzocht op basis van een eenvoudige lijst van genen toegewezen met vooraf berekende group statistieken die worden gebruikt voor het rangschikken van de genen. Na het laden van de alternatieve gen expressie bestand gaat u naar de belangrijkste navigatiebalk en klik op Tools/GseaPreranked. Ook een nieuw tabblad wordt geopend voor het instellen van de parameters voor de analyse ( figuur 4E).
    Opmerking: Het hulpprogramma voor de GSEA preranked wordt aanbevolen voor studies die geen individuele monster-specifieke gen expressie gegevens. Dat zou het geval zijn als speciale statistieken of normalisatie procedures werden uitgevoerd op de gegevens die leidt tot de gemiddelde waarden van de groep in plaats van individuele voorbeeldgegevens. Het hulpprogramma voor de GSEA preranked wordt aanbevolen voor RNA sequencing gegevens. Normaliseren van de RNA sequencing expressie gegevens en het berekenen van de groep statistieken voor de monsters (bijv., logboek van de verandering van de vouw), die kunnen worden gebruikt voor het rangschikken van de genen die volgens hun uitdrukking.
  13. Klik op de ' uitvoeren ' knop rechts onderin het venster.
    Opmerking: De analyse vervolgens kan duren enkele minuten afhankelijk van de snelheid van de computer. Volg de voortgang van de analyse in de sectie GSEA rapporten op de linker onderkant van het venster. Na het beëindigen van de analyse, de status ' succes ' wordt weergegeven in de sectie van de rapporten GSEA.
  14. Klik op de geslaagde analyse in de sectie GSEA rapporten te openen van de analyseresultaten.
    Opmerking: Een nieuwe navigatie-menu wordt geopend in een browservenster waarin een overzicht van alle resultaten en parameterinstellingen ( Figuur 5). De bovenste twee secties van het navigatiemenu bestaat uit Gene instellen verrijking resultaten voor de gedefinieerde groepen (bijvoorbeeld verrijking in S. aureus behandeld monsters of controlemonsters gezonde) De eerste regels van beide secties tonen een samenvatting van de resultaten van de statistiek. Gen-sets die aanzienlijk tempo een onwaar-discovery (FDR) minder dan 25 verrijkt zijn % zijn beschouwd als verrijkt met de volgende interpretatie. Nadere gegevens over de interpretatie van de analyse kunnen worden gevonden in de gebruikershandleiding van de GSEA (http://software.broadinstitute.org/gsea/doc/GSEAUserGuideFrame.html).
  15. Klik op de gedetailleerde verrijking resultaten in excel formaat de resultaten van de analyse exporteren naar een werkblad ( figuur 6A). Exporteer de gedetailleerde verrijking resultaten in excel afzonderlijk voor beide fenotypen ( Figuur 5) en de resultaten-gegevens in een spreadsheet-bestand samenvoegen. Voor latere vergelijking tussen gen expressie gegevens van verschillende studies, behouden ten minste de naam van de gen-set (kolom A), de genormaliseerde verrijking score (NES) (kolom F) en de FDR (valse ontdekking rate) waarde (kolom H) ( figuur 6B ).
    Opmerking: Het werkbladbestand enorme gegevens bevat voor elk van de geanalyseerde gene ingesteld, met inbegrip van de naam van het gen (kolom A), de grootte instellen (dat wil zeggen het aantal genen ontdekt in de gen expressie gegevens, kolom D), de NES (een kwantitatieve meting van de richting en omvang van de verrijking, kolom F), de nominale p-waarde (ongecorrigeerd, kolom G) en de waarde van de FDR (gecorrigeerd voor meerdere hypothese testen, kolom H). Voor verdere details over de interpretatie Raadpleeg de gebruikershandleiding van de GSEA (http://software.broadinstitute.org/gsea/doc/GSEAUserGuideFrame.html).
  16. Herhaal dat het gen instellen verrijking analyse (stappen 4.1 naar 4.15) voor de tweede studie (bijv., S. aureus GSE9960) en alle verdere studies die moeten worden vergeleken met elkaar. Omvatten zoveel menselijke klinische studies en verschillende Muismodellen mogelijk bij het identificeren van de optimale muismodel voor het translationeel onderzoeksvraag.

5. Vergelijking van de resultaten van de GSEA

  1. te identificeren van de optimale diermodel voor het nabootsen van de menselijke situatie vergelijken de resultaten van de GSEA van alle studies met elkaar zijn verbonden. De scores van de verrijking en de FDR waarden gebruiken om te classificeren de trajecten (gene verzamelingen) als geactiveerd (NES > 0, FDR < 25%), geremde (NES < 0, FDR < 25%) of geen van beide (FDR > 25%). Voor elke vergelijking van twee studies, het aantal realisaties van de negen mogelijke combinaties van traject verordening zoals aangegeven door een contingentie tabel van 3 x 3 ( figuur 7A).
  2. Beoordelen de correlatie tussen twee studies door berekening van de positief voorspellende waarde (ppv) en de negatief voorspellende waarde (NHW), die per definitie het deel van de trajecten die dezelfde verordening (geactiveerd of geremd) in twee studies tonen .
    1. Berekenen ppv en NHW volgens de volgende formules (1) en (2):
      (1) Equation 1
      (2) Equation 2
      Opmerking: Aangezien de overlapping louter toeval worden kan, de ppv en de NHW moeten verder worden vergeleken met de waarden die bij toeval verwacht. Deze benadering biedt de schatting van de hoeveelheid informatie die kan worden verkregen uit een studie voor het voorspellen van de effecten in een andere studie. Bijvoorbeeld, als de processen van de verordening in twee modellen werden onafhankelijk van elkaar (en alleen overlappen bij toeval), en als in het eerste model 10% van de trajecten werden upregulated, dan de ppv het tweede model zou ook 10% en er geen extra was winst van inf ORMATION. Aan de andere kant, als beide modellen door gemeenschappelijke verordening mechanismen verbonden waren, zou de ppv (en NHW) aanzienlijk hoger dan verwacht bij toeval. Bijvoorbeeld, voor de voorspelling van gen expressie veranderingen tijdens menselijke sepsis (GSE9960) van effecten in een lymfkliertest S. aureus injectie model (GSE20524), de ppv is 43% (6/(6+8+0)) en de NHW is 61% (11/(0+7+11)). Met andere woorden, worden 43% van de geactiveerde trajecten in het lymfkliertest S. aureus injectie model (GSE20524) ook geactiveerd tijdens menselijke sepsis (GSE9960). 61% van de geremde trajecten in het lymfkliertest S. aureus injectie model (GSE20524) zijn op dezelfde manier ook geremd tijdens menselijke sepsis (GSE9960) ( figuur 7B). PPV en NHW kunnen ook worden bepaald voor het omgekeerde sterrenbeeld (dat betekent voorspellen van studie 1 studie 2).
  3. Voor het berekenen van de overlapping bij toeval verwijzen naar de contingentie tabel van 3 x 3 ( Figuur 7) en berekenen van ppvchance en npvchance volgens de volgende formules (3) en (4):
    (3) < img alt = "Vergelijking 3" src = "/bestanden/ ftp_upload/55768/55768eq3.jpg"/ >
    (4) Equation 4
    Opmerking: bijvoorbeeld, voor de voorspelling van gen expressie veranderingen tijdens menselijke sepsis (GSE9960) van effecten in een lymfkliertest S. aureus injectie model (GSE20524) de ppvchance is 13% (8/64) en de npvchance is en 22% (14/64).
  4. Bereken de winst van de ppv vs. kans door aftrekken van de ppvchance van de ppv. Dienovereenkomstig te berekenen voor de NHW:
    (5) Equation 5
    (6) Equation
    Opmerking: bijvoorbeeld, voor de voorspelling van gen expressie verandert tijdens menselijke sepsis (GSE9960) van effecten in een lymfkliertest S. aureus injectie model (GSE20524) de wijziging in de ppv en NHW vs. kans is + 30% (43% - 13%) en + 39% (61% - 22%), respectievelijk.
  5. Berekenen de winst van informatie die kan worden verkregen uit studie 2 met betrekking tot onderzoek 1 door het gemiddeld ppvgain en npvgain:
    (7) Equation
  6. gebruiken de contingentie tabel gedefinieerd in stap 5.1 van een paar van studies (study1.pathway, study2.pathway) voor het berekenen van de p-waarde door een chi-kwadraatverdeling test
    De gegevens van de contingentie tabel opslaan in een matrix X. uitvoeren de chi-kwadraatverdeling test, bijvoorbeeld, door gebruik van de R functioneren chisq.test.
    Opmerking: de geselecteerde menselijke sepsis-studie (GSE9960) met een lymfkliertest S. aureus vergelijken injectie model (GSE20524) ziet u bijvoorbeeld een statistisch significant overlap in inflammatoire traject verordening:
    > chisq.test(X,simulate.p.value=F)$ p.Value
    3.82e-07

6. Identificeren van de optimale dier Model

  1. vergelijken de GSEA resultaten voor alle combinaties van de studies die werden geselecteerd voor de analyse.
    Opmerking: Het is ook aanbevolen om het (vergelijkbaar) menselijke studies aan elkaar alsook de verschillende dierlijke studies met elkaar te vergelijken. Deze vergelijking kan inzicht geven in de intraspecies variantie van de klinische studies (of aandoeningen) en de verschillende diermodellen. Verwacht wordt dat de klinische studies dat een aanvaardbaar overlapping en een belangrijke informatie krijgen, tonen omdat anders de klinische studies te heterogene wellicht te vinden van een dierlijk model dat de menselijke situatie kan nabootsen. In dit geval, het is aanbevolen om omvatten alleen menselijke studies die vergelijkbaar met elkaar voor de identificatie van geschikte diermodellen zijn.
  2. Sorteren alle combinaties door de winst van informatie (stap 5.5). Voor de vergelijking van vele datasets, gebruik maken van een matrix en visualiseren van de resultaten door gebruik van een gekleurde heatmap of iets dergelijks ( Figuur 8).
  3. Selecteer de diermodel met de hoogste winst van informatie. Om de beoordeling van de omvang van de meerwaarde van informatie, ook rekening met de chi-kwadraatverdeling test (stap 5.6).
    Opmerking: Dierlijke modellen moeten alleen worden beschouwd als geschikt als het krijgen van informatie aanzienlijk is en de p-waarde van de chi-kwadraatverdeling test lager dan het significantieniveau op basis is. User-defined drempels in het algemeen zal afhangen van verschillende factoren: 1) de voorstudie kennis over de overdraagbaarheid van de resultaten van diermodel voor de mens (bijvoorbeeld soortgelijke geneeskunde), 2) de verwachte voordelen voor de mens door een vermoedelijke succes, 3) de praktische toepasselijkheid van die dierlijke experiment, en 4) de verwachte pijn of leed worden blootgesteld, schade toegebracht aan het labOratorium dieren.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

De GSEA workflow en screenshots van voorbeeldige gegevens worden gedemonstreerd. Figuur 1 toont het gen expressie-gegevensbestand met de gegevens van de transcriptomic van belang. Voor elke studie een beschrijvende fenotype-bestand vereist is die is afgebeeld in Figuur 2. Geannoteerde gene sets (b.v., trajecten) worden gedefinieerd in het gen instellen databasebestand (Figuur 3). Figuur 4 toont een stapsgewijze protocol voor het gebruik van het hulpprogramma voor GSEA software. Een voorbeeldig resultaat verslag wordt gegeven in Figuur 5. Gedetailleerde GSEA verrijking resultaten worden samengevat in Figuur 6. Voor de vergelijking van verschillende gen expressie studies, in het bijzonder menselijke vs. muis studies, een contingency table vereist is (Figuur 7). Figuur 8 toont voor de visualisatie van de resultaten, een correlatiematrix van traject vergelijkingen tussen mens en muis studies.

Figure 1
Figuur 1: GSEA gen expressie gegevensbestand. Het bestand bevat expressie waarden voor alle aantoonbaar genen (of sondes), ook voor de genen die niet differentieel kunnen worden uitgedrukt. Het bestand omvat dus meestal vele duizenden genen. (A) het gegevensbestand van gen expressie bevat gegevens voor elke individuele monster. De eerste regel bevat de naam van de etiketten (hier: sonde ID) gevolgd door een optionele beschrijving en individuele steekproef namen (hier: GSM515585, GSM515586, enz.). De rest van het bestand bevat expressie waarden voor elk van de genen en voor elk monster in de dataset. (B) alternatieve gen expressie gegevensindeling. Extern berekend groep statistieken (hier: gemiddelde verhouding) kan worden gebruikt voor het GSEA preranked gereedschap als individuele voorbeeldgegevens niet beschikbaar zijn. Klik hier voor een grotere versie van dit cijfer.

Figure 2
Figuur 2: GSEA fenotype bestand. Het bestand combineert afzonderlijke monsters aan groepen en etiketten de groepen dienovereenkomstig. De eerste regel bevat het totale aantal monsters en verder het aantal groepen. Het derde veld van de eerste regel is altijd '1'. De tweede regel bevat de naam van elke groep. De regel begint met een hekje (#) gevolgd door een spatie. De derde regel bevat een groep label voor elk monster (hier: 0 of 1). Klik hier voor een grotere versie van dit cijfer.

Figure 3
Figuur 3: GSEA Gene instellen databasebestand. Het bestand definieert sets van genen die zijn toegewezen aan bepaalde biologische processen of categorieën (hier: inflammatoire trajecten). In het formaat van GMT vertegenwoordigt elke rij een gen-set, die wordt gedefinieerd door een naam, een beschrijving en de opgenomen genen (officiële HUGO gene symbolen). Klik hier voor een grotere versie van dit cijfer.

Figure 4
Figuur 4: Software-instellingen GSEA. De GSEA softwaretool is gedownload van de website van de brede Instituut als een java desktop applicatie. (A) startmenu. De linkerzijde bevat het navigatiemenu terwijl het rechtergedeelte (Home) een korte samenvatting van de GSEA-workflow geeft. Te klikken op de knop laden gegevens zal open een nieuw lusje voor het importeren van de bestanden. (B) belasting gegevens sectie voordat gegevens importeren. Vereiste bestanden kunnen worden ingevoerd via de file browser. (C) belasting gegevens sectie na het importeren van gegevens. Geïmporteerde gegevens bestanden staan in de objectcache en zijn georganiseerd naar datasets (verplichte bestand), fenotypes (verplichte bestand), gene databases stellen (optioneel, indien een internetverbinding geboden) en chip bestanden (optioneel, indien van internet-verbinding). Te klikken op de knop Uitvoeren GSEA opent een nieuw tabblad voor het instellen van de analyse gebruikte parameters. (D) Uitvoeren GSEA sectie. Het tabblad voor het instellen van de analyse gebruikte parameters is onderverdeeld in verplichte velden, elementaire en geavanceerde velden. Te klikken op de knop uitvoeren op de rechts onderin het venster zal beginnen de analyse. De voortgang van de analyse zal vervolgens zichtbaar worden in de sectie rapporten GSEA op de linker onderkant van het venster. Verslagen na het beëindigen van de analyse, de status 'succes' wordt weergegeven in de GSEA sectie. (E) GSEA preranked gereedschap. Genexpressie gegevensbestanden met extern berekende group statistieken in plaats van individuele voorbeeldgegevens kunnen worden geanalyseerd via de hoofdnavigatiebalk. Klik hier voor een grotere versie van dit cijfer.

Figure 5
Figuur 5: GSEA verslag. Het GSEA-rapport wordt geopend in een browservenster waarin alle resultaten en geselecteerde parameters worden samengevat. De bovenste twee secties van het navigatiemenu omvatten gene instellen verrijking resultaten voor de gedefinieerde groepen (bijvoorbeeld, verrijking in gezonde controlemonsters of S. aureus behandeld). In dit voorbeeld, worden 42 van 65 gene sets (trajecten) geactiveerd in S. aureus behandeld muizen, terwijl 14 van hen aanzienlijk met een FDR minder dan 25 verrijkt zijn %. Evenzo zijn 23 van 65 gene sets (trajecten) in S. aureus behandeld muizen, geremd, terwijl 18 van hen aanzienlijk met een FDR minder dan 25 verrijkt zijn %. Op de gedetailleerde verrijking resultaten te klikken opent een html of excel-bestand voor het exporteren van de analysegegevens die nodig zijn voor een vergelijking van verschillende gen expressie studies. Klik hier voor een grotere versie van dit cijfer.

Figure 6
Figuur 6: gedetailleerde resultaten van de verrijking. (A) geëxporteerde werkbladbestand met gedetailleerde analyseresultaten voor gene sets (routes) die waren geactiveerd in S. aureus behandeld muizen. Het werkbladbestand bevat enorme gegevens voor elk van de geanalyseerde gene set, inclusief de naam van de gen-set, de grootte, de genormaliseerde verrijking score, de nominale (ongecorrigeerde) p-waarde en de waarde van de FDR. (B) vereenvoudigd werkblad bestand datbevat alleen informatie die nodig is voor het vergelijken van verschillende gen expressie studies. Klik hier voor een grotere versie van dit cijfer.

Figure 7
Figuur 7:3 x 3 contingentie tabel van de resultaten van de GSEA. (A) gemeenschappelijke rampenplannen tabelindeling voor het vergelijken van 2 studies. (B) een voorbeeldige aantal gereglementeerde trajecten voor het vergelijken van een studie van de menselijke sepsis (GSE9960) met een RattenUitrustingen S. aureus injectie model (GSE20524). Klik hier voor een grotere versie van dit cijfer.

Figure 8
Figuur 8: correlatiematrix van Pathway vergelijkingen tussen mens en muis Studies. De overlap van pad verordening wordt weergegeven als het krijgen van informatie die kan worden verkregen van een (muis) studie voor het voorspellen van de effecten in een andere (menselijke) studie (blauw, daling, lage correlatie; rood, stijging, hoge correlatie). In dit voorbeeld toonde de vergelijking van menselijke met lymfkliertest datasets een deelgroep van experimentele lymfkliertest modellen die zeer oereenstemming aan menselijke klinische studies (studies 10 en 11, gestippelde lijn) waren, die aangeeft dat deze Muismodellen zijn zeer geschikt voor het nabootsen van de menselijke situatie. In tegenstelling, de studies 7, 8 en 9 toonden geen correlatie met de studies van ziekten bij de mens. Klik hier voor een grotere versie van dit cijfer.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Dierlijke modellen hebben lang toegepast voor het onderzoek naar de ziekte mechanismen en de ontwikkeling van nieuwe therapeutische strategieën. Echter begon scepticisme ten aanzien van de predictief van diermodellen te verspreiden na de mislukkingen van klinische proeven12. Bovendien, de controversiële discussies over passende strategieën voor het analyseren en interpreteren van grote omics gegevens van preklinische proeven werden opgevoed door tegenovergestelde conclusies uit dezelfde gegevens na het toepassen van verschillende data analyse strategieën1 ,2. Daarom is er een grote vraag naar verdere robuuste bioinformatics technieken voor de analyse van complexe omics gegevens systematisch definiëren de optimale diermodel voor bepaalde ziekten bij de mens. Toepassen van de best beschikbare model niet alleen verbetert translationeel onderzoek maar verder draagt bij aan het welzijn van dieren door het vermijden van dierproeven die niet met de menselijke situatie correleren misschien.

Het gepresenteerde protocol beschrijft een gestandaardiseerde aanpak om systematisch vergelijken omics gegevens van verschillende soorten met als doel om de optimale diermodellen en behandelprotocollen voor een bepaalde menselijke wanorde te identificeren. Door het gebruik van GSEA in plaats van een één-gen analyse omzeilt dit protocol alle problemen in verband met subjectieve vaststelling van gen expressie drempels en gene filteren. De focus op geselecteerde wegen verder kunt specifiek adres de fysiologisch proces, door de (patho) van de betrokken aandoening/voorwaarde (bijvoorbeeld, ontsteking). Natuurlijk, de nauwkeurigheid van de resultaten van de GSEA hangt af van de kwaliteit van de huidige gen instellen aantekeningen en of reguleringsmechanismen tussen soorten zijn geconserveerd. Echter, we veronderstellen dat in het algemeen de instandhouding hoger niveau traject dan op enkel gen niveau is. Daarnaast zijn set verrijking benaderingen voor vergelijkingen van transcriptomic gegevens tussen verschillende platforms en experimentele modellen of klinische cohorten robuuster dan single-gen13 analyseert.

In plaats van met behulp van vooraf gedefinieerde gene sets zoals trajecten, kunt de gepresenteerde aanpak ook aangepaste gene sets definiëren. In het bijzonder kan experimentele expressie gegevens worden gebruikt om relevante genen die zijn geactiveerd of geremd in één voorwaarde (bijvoorbeeld, overlap van gereglementeerde menselijke genen in klinische cohorten) te identificeren. De DOVO gedefinieerd gene sets kunnen vervolgens worden gebruikt om te testen voor de verrijking van gegevens uit verschillende diermodellen. Deze alternatieve benadering voorkomt de 'omleiding' van het gebruik van geannoteerde trajecten. Verder, het protocol is niet beperkt tot de vergelijking van gegevens van de transcriptomic, maar is overdraagbaar aan omics gegevens met inbegrip van proteomica en metabolomica. Men moet echter Houd er rekening mee dat deze aanpak is beperkt tot de bestaande omics gegevens uit Muismodellen en de mens, en dat het niet geeft wel aan hoe de ontwikkeling van nieuwe diermodellen. Echter, daarmee een effectieve aanpak voor de gestandaardiseerde interpretatie van bestaande gegevens, die kan vergemakkelijken de zorgvuldige selectie van de optimale diermodel en dus het vermijden van onnodige en misleidende translationeel onderzoek.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

De auteurs verklaren dat zij geen concurrerende financiële belangen hebben.

Acknowledgments

Dit werk werd gefinancierd door het Duitse Federale Instituut voor risicobeoordeling (BfR).

Materials

Name Company Catalog Number Comments
Excel Microsoft Corporation

DOWNLOAD MATERIALS LIST

References

  1. Seok, J., et al. Genomic responses in mouse models poorly mimic human inflammatory diseases. Proc Natl Acad Sci U S A. 110 (9), 3507-3512 (2013).
  2. Takao, K., Miyakawa, T. Genomic responses in mouse models greatly mimic human inflammatory diseases. Proc Natl Acad Sci U S A. 112 (4), 1167-1172 (2015).
  3. Weidner, C., Steinfath, M., Opitz, E., Oelgeschläger, M., Schönfelder, G. Defining the optimal animal model for translational research using gene set enrichment analysis. EMBO Mol Med. 8 (8), 831-838 (2016).
  4. Subramanian, A., et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proc Natl Acad Sci U S A. 102 (43), 15545-15550 (2005).
  5. Kanehisa, M., Sato, Y., Kawashima, M., Furumichi, M., Tanabe, M. KEGG as a reference resource for gene and protein annotation. Nucleic Acids Res. 44 (D1), D457-D462 (2016).
  6. Kanehisa, M., Goto, S. KEGG: kyoto encyclopedia of genes and genomes. Nucleic Acids Res. 28 (1), 27-30 (2000).
  7. Fabregat, A., et al. The Reactome pathway Knowledgebase. Nucleic Acids Res. 44 (D1), D481-D487 (2016).
  8. Croft, D., et al. The Reactome pathway knowledgebase. Nucleic Acids Res. 42 (Database issue), D472-D477 (2014).
  9. Nishimura, D. BioCarta. Biotech Software & Internet Report. 2 (3), 117-120 (2001).
  10. Edgar, R., Domrachev, M., Lash, A. E. Gene Expression Omnibus: NCBI gene expression and hybridization array data repository. Nucleic Acids Res. 30 (1), 207-210 (2002).
  11. Kolesnikov, N., et al. ArrayExpress update--simplifying data submissions. Nucleic Acids Res. 43 (Database issue), D1113-D1116 (2015).
  12. Cohen, J., et al. Sepsis: a roadmap for future research. Lancet Infect Dis. 15 (5), 581-614 (2015).
  13. Spinelli, L., Carpentier, S., Montanana Sanchis, F., Dalod, M., Vu Manh, T. P. BubbleGUM: automatic extraction of phenotype molecular signatures and comprehensive visualization of multiple Gene Set Enrichment Analyses. BMC Genomics. 16 (1), 814 (2015).

Tags

Basisprotocol kwestie 126 diermodel muismodel translationeel onderzoek systeembiologie Transcriptomics GSEA
Een Protocol voor het gebruik van Gene ingesteld verrijking analyse om te identificeren van de juiste diermodel voor translationeel onderzoek
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Weidner, C., Steinfath, M., Wistorf, More

Weidner, C., Steinfath, M., Wistorf, E., Oelgeschläger, M., Schneider, M. R., Schönfelder, G. A Protocol for Using Gene Set Enrichment Analysis to Identify the Appropriate Animal Model for Translational Research. J. Vis. Exp. (126), e55768, doi:10.3791/55768 (2017).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter