Biochemistry

En kunskapsgrafmetod för att belysa organellernas roll i sjukdom via biomedicinska rapporter

Published: October 13, 2023 doi: 10.3791/65084

Alexander R. Pelletier^1,2,3, Dylan Steinecke^1,3,4, Dibakar Sigdel¹, Irsyad Adam¹, J. Harry Caufield¹, Vladimir Guevara-Gonzalez¹, Joseph Ramirez¹, Aarushi Verma¹, Kaitlyn Bali¹, Katherine Downs¹, Wei Wang^1,2,3, Alex Bui^3,4, Peipei Ping^1,2,3,4,5

¹Department of Physiology, UCLA School of Medicine, ²Scalable Analytics Institute (ScAi) at Department of Computer Science, UCLA School of Engineering, ³NIH BRIDGE2AI Center at UCLA & NHLBI Integrated Cardiovascular Data Science Training Program, UCLA, ⁴Medical Informatics, University of California at Los Angeles (UCLA), ⁵Department of Medicine (Cardiology), UCLA School of Medicine

Summary

Ett beräkningsprotokoll, CaseOLAP LIFT, och ett användningsfall presenteras för att undersöka mitokondriella proteiner och deras samband med kardiovaskulär sjukdom som beskrivs i biomedicinska rapporter. Detta protokoll kan enkelt anpassas för att studera användarvalda cellulära komponenter och sjukdomar.

Abstract

De snabbt ökande och stora mängderna biomedicinska rapporter, som var och en innehåller många enheter och rik information, utgör en rik resurs för biomedicinska textutvinningstillämpningar. Dessa verktyg gör det möjligt för utredare att integrera, konceptualisera och översätta dessa upptäckter för att avslöja nya insikter om sjukdomspatologi och terapier. I detta protokoll presenterar vi CaseOLAP LIFT, en ny beräkningspipeline för att undersöka cellulära komponenter och deras sjukdomsassociationer genom att extrahera användarvald information från textdataset (t.ex. biomedicinsk litteratur). Programvaran identifierar subcellulära proteiner och deras funktionella partners i sjukdomsrelevanta dokument. Ytterligare sjukdomsrelevanta dokument identifieras via programvarans etikettimputeringsmetod. För att kontextualisera de resulterande protein-sjukdomsassociationerna och för att integrera information från flera relevanta biomedicinska resurser, konstrueras automatiskt en kunskapsgraf för vidare analyser. Vi presenterar ett användningsfall med en korpus av ~34 miljoner textdokument som laddats ner online för att ge ett exempel på att belysa mitokondriella proteiners roll i distinkta fenotyper av kardiovaskulära sjukdomar med hjälp av denna metod. Dessutom tillämpades en djupinlärningsmodell på den resulterande kunskapsgrafen för att förutsäga tidigare orapporterade samband mellan proteiner och sjukdom, vilket resulterade i 1 583 associationer med förutsagda sannolikheter >0,90 och med en area under mottagarens driftskarakteristik (AUROC) på 0,91 på testuppsättningen. Denna programvara har ett mycket anpassningsbart och automatiserat arbetsflöde, med ett brett utbud av rådata tillgängliga för analys; Med hjälp av denna metod kan därför protein-sjukdomsassociationer identifieras med ökad tillförlitlighet i en textkorpus.

Introduction

Att studera sjukdomsrelaterade proteiner ökar den vetenskapliga kunskapen om patogenes och hjälper till att identifiera potentiella terapier. Flera stora textkorpusar av biomedicinska publikationer, som PubMeds 34 miljoner artiklar som innehåller publikationstitlar, abstracts och fulltextdokument, rapporterar nya fynd som kopplar proteiner till sjukdomar. Dessa fynd är dock fragmenterade över olika källor och måste integreras för att generera nya biomedicinska insikter. Det finns flera biomedicinska resurser för att integrera protein-sjukdomsassociationer 1,2,3,4,5,6,7. Dessa kurerade resurser är dock ofta ofullständiga och kanske inte omfattar de senaste forskningsrönen. Text-mining-metoder är viktiga för att extrahera och syntetisera protein-sjukdomsassociationer i stora textkorpusar, vilket skulle resultera i en mer omfattande förståelse av dessa biomedicinska begrepp i den vetenskapliga litteraturen.

Det finns flera biomedicinska metoder för textutvinning för att avslöja samband mellan proteiner och sjukdomar 8,9,10,11,12,13,14, och andra bidrar delvis till att bestämma dessa relationer genom att identifiera de proteiner, sjukdomar eller andra biomedicinska enheter som nämns i text^13,15,16,17^,^18,19. Många av dessa verktyg saknar dock tillgång till den mest aktuella litteraturen, med undantag för ett fåtal som uppdateras med jämna mellanrum 8,11,13,15. På samma sätt har många verktyg också ett begränsat studieområde, eftersom de är begränsade till breda fördefinierade sjukdomar eller proteiner ^9,13. Flera tillvägagångssätt är också benägna att identifiera falska positiva resultat i texten. Andra har tagit itu med dessa problem med en tolkningsbar och global svart lista över proteinnamn 9,11 eller mindre tolkningsbara tekniker för igenkänning av namnentiteter^15,20. De flesta resurser presenterar endast förberäknade resultat, men vissa verktyg erbjuder interaktivitet via webbappar eller tillgänglig programvarukod ^8,9,11.

För att ta itu med ovanstående begränsningar presenterar vi följande protokoll, CaseOLAP med etikettimputering och fulltext (CaseOLAP LIFT), som en flexibel och anpassningsbar plattform för att undersöka associationer mellan proteiner (t.ex. proteiner associerade med en cellulär komponent) och sjukdomar från textdataset. Denna plattform har automatiserad kurering av termspecifika proteiner (GO) för genontologi (t.ex. organellspecifika proteiner), imputering av saknade dokumentämnesetiketter, analys av fulltextdokument samt analysverktyg och prediktiva verktyg (figur 1, figur 2 och tabell 1). CaseOLAP LIFT kurerar organellspecifika proteiner genom att använda användartillhandahållna GO-termer (t.ex. organellfack) och funktionellt relaterade proteiner genom att använda STRING²¹, Reactome 22 och GRNdb²³. Dokument som studerar sjukdomar identifieras med hjälp av deras PubMed-annoterade MeSH-etiketter (Medical Subject Header). För ~15,1 % av omärkta dokument imputeras etiketter om minst en MeSH-termsynonym finns i titeln eller minst två finns i abstraktet. Detta gör det möjligt att ta hänsyn till tidigare okategoriserade publikationer i textutvinningsanalysen. CaseOLAP LIFT gör det också möjligt för användaren att välja delar av publikationer (t.ex. endast titlar och sammanfattningar, fulltext eller fulltext exklusive metoder) inom en angiven tidsram (t.ex. 2012-2022). Programvaran kurerar också halvautomatiskt en användningsfallsspecifik svartlista över proteinnamn, vilket avsevärt minskar de falskt positiva protein-sjukdomsassociationerna som finns i andra metoder. Sammantaget möjliggör dessa förbättringar större anpassningsbarhet och automatisering, utökar mängden data som är tillgänglig för analys och ger mer säkra protein-sjukdomsassociationer från stora biomedicinska textkorpusar.

CaseOLAP LIFT innehåller biomedicinsk kunskap och representerar förhållandet mellan olika biomedicinska begrepp med hjälp av en kunskapsgraf, som används för att förutsäga dolda relationer i grafen. På senare tid har grafbaserade beräkningsmetoder tillämpats på biologiska miljöer, inklusive integrering och organisering av biomedicinska koncept 24,25, återanvändning och utveckling av läkemedel 26,27,28 och för kliniskt beslutsfattande från proteomikdata ²⁹.

För att demonstrera nyttan av CaseOLAP LIFT för att konstruera en kunskapsgraf lyfter vi fram ett användningsfall för undersökning av sambanden mellan mitokondriella proteiner och åtta kategorier av kardiovaskulära sjukdomar. Bevis från ~362 000 sjukdomsrelevanta dokument analyserades för att identifiera de viktigaste mitokondriella proteinerna och signalvägarna som är associerade med sjukdomarna. Därefter inkorporerades dessa proteiner, deras funktionellt relaterade proteiner och deras textutvinningsresultat i en kunskapsgraf. Denna graf utnyttjades i en djupinlärningsbaserad länkprediktionsanalys för att förutsäga samband mellan proteinsjukdomar som hittills inte rapporterats i biomedicinska publikationer.

I introduktionsavsnittet beskrivs bakgrundsinformationen och målen för vårt protokoll. I följande avsnitt beskrivs stegen i beräkningsprotokollet. Därefter beskrivs de representativa resultaten av detta protokoll. Slutligen diskuterar vi kortfattat användningsfall för beräkningsprotokoll, fördelar, nackdelar och framtida tillämpningar.

Protocol

1. Köra Docker-containern

Ladda ned CaseOLAP LIFT docker-containern med hjälp av terminalfönstret och skriv in docker pull caseolap/caseolap_lift:latest.
Skapa en katalog som lagrar all programdata och utdata (t.ex. mkdir caseolap_lift_shared_folder).
Starta docker-containern med kommandot docker run --name caseolap_lift -it -v PATH_TO_FOLDER:/caseolap_lift_shared_folder caseolap/caseolap_lift:latest bash med PATH_TO_FOLDER som fullständig filsökväg för mappen (t.ex. /Users/caseolap/caseolap_lift_shared_folder). Framtida kommandon från sektion 2 kommer att utfärdas i det här terminalfönstret.
Starta den elastiska sökningen i containern. I ett nytt terminalfönster skriver du docker exec -it --user elastic caseolap_lift bash /workspace/start_elastic_search.sh.
OBS: I detta protokoll körs CaseOLAP LIFT interaktivt, där varje steg utförs sekventiellt. Denna analys kan också utföras från början till slut genom att skicka in den som en parameters.txt fil. Parametrarna.txt som används i den här studien finns i / workspace/caseolap_lift/parameters.txt. Om du vill komma åt mer information om varje steg kör du kommandot med flaggan --help eller går till dokumentationen på GitHub-lagringsplatsen (https://github.com/CaseOLAP/caseolap_lift).

2. Förberedelse av sjukdomar och proteiner

Navigera till mappen caseolap_lift med cd /workspace/caseolap_lift
Kontrollera att nedladdningslänkarna i config/knowledge_base_links.json är uppdaterade och korrekta för den senaste versionen av varje 知識庫-resurs. Som standard laddas filerna bara ner en gång. Om du vill uppdatera dessa filer och ladda ned dem igen kör du förbearbetningssteget med -r i steg 2.4.
Bestäm GO-termen och sjukdomskategorierna som ska användas för denna studie. Hitta identifierarna för alla GO-termer och MeSH-identifierare på http://geneontology.org/ respektive https://meshb.nlm.nih.gov/.
Kör förbearbetningsmodulen med hjälp av kommandoradsalternativ. Detta förbehandlingssteg sammanställer specificerade sjukdomar, listar proteiner som ska studeras och samlar in proteinsynonymer för textutvinning. Ange de användardefinierade studerade GO-termerna med flaggan -c och trädnumren för sjukdomen MeSH med flaggan - d , och ange förkortningar med -a.
Exempel på kommando:
python caseolap_lift.py förbehandling -a "CM ARR CHD VD IHD CCD VOO OTH" -d "C14.280.238,C14.280.434 C14.280.067,C23.550.073 C14.280.400 C14.280.484 C14.280.647 C14.280.123 C14.280.955 C14.280.195, C14.280.282, C14.280.383, C14.280.470,
C14.280.945,C14.280.459,C14.280.720" -c "GO:0005739" --include-synonyms --include-ppi -k 1 -s 0.99 --include-pw -n 4 -r 0.5 --include-tfd
Granska filerna categories.txt, core_proteins.txt och proteins_of_interest.txt från föregående steg i utdatamappen . Se till att alla sjukdomskategorier i kategorier.txt är korrekta och att en rimlig mängd proteiner identifieras inom core_proteins.txt och proteins_of_interest.txt. Upprepa vid behov steg 2.4 och ändra parametrarna så att de inkluderar ett större eller färre antal proteiner.
OBS: Antalet proteiner som ingår i studien bestäms av flaggorna --include-ppi, --include-pw och --include-tfd för att inkludera protein-proteininteraktioner, proteiner med delade reaktomvägar respektive proteiner med transkriptionsfaktorberoende. Deras specifika funktionalitet specificeras med ytterligare flaggor som -k, -s, -n och -r (se dokumentationen).

3. Text-mining

Kontrollera att filerna category.txt, core_proteins.txt och proteins_of_interest.txt från föregående steg finns i utdatamappen. Använd dessa filer som indata för textutvinning. Du kan också justera konfigurationerna för dokumentparsning och indexering i config-mappen . Se en tidigare version av CaseOLAP-protokollet för mer information om konfiguration och felsökning⁸.
Kör textutvinningsmodulen med python caseolap_lift.py text_mining. Lägg till flaggan - l för att imputera ämnena i okategoriserade dokument och flaggan -t för att ladda ned den fullständiga texten för sjukdomsrelevanta dokument. Andra valfria flaggor anger ett datumintervall för publikationer som ska laddas ner (-d) och ger alternativ för att screena proteinnamnen (beskrivs i steg 3.3). Ett exempel på ett analyserat dokument visas i bild 3.
Exempelkommando: python caseolap_lift.py text_mining -d "2012-10-01,2022-10-01" -l -t
OBS: En stor del av beräkningsprotokollets tid spenderas på steg 3.2, som potentiellt kan sträcka sig över 24 timmar. Körningen beror på storleken på textkorpusen som ska laddas ned, vilket också beror på datumintervallet och om etikettimputering och fulltextfunktioner är aktiverade.
(Rekommenderas) Screena proteinnamnen. De proteinnamn som identifieras i sjukdomsrelevanta publikationer bidrar till associationer till proteinsjukdomar men är benägna att ge falska positiva resultat (dvs. homonymer med andra ord). Du kan åtgärda detta genom att räkna upp möjliga homonymer i en svartlista (config/remove_these_synonyms.txt) så att de utesluts från de underordnade stegen.
1. Hitta namn som ska inspekteras: Under resultatmappen hittar du proteinnamnen med den högsta frekvensen under all_proteins eller core_proteins (ranked_synonyms/ranked_synonyms_TOTAL.txt) och proteinnamnen med de högsta poängen under mapparna i ranked_proteins beroende på poängen av intresse. Om det finns många namn prioriterar du inspektionen av de namn som får högst poäng.
2. Granska namnen: Skriv python caseolap_lift.py text_mining -c följt av ett proteinnamn för att visa upp till 10 namninnehållande publikationer. Kontrollera sedan för varje namn om namnet är proteinspecifikt.
3. Beräkna om poängen: Skriv python caseolap_lift.py text_mining -s. Upprepa steg 3.1, steg 3.2 och steg 3.3 tills namnen i steg 3.1 verkar korrekta.

4. Analysera resultaten

Se till att textutvinningsresultaten finns i resultatmappen (t.ex. katalogerna result/all_proteins och result/core_proteins och tillhörande filer), som kommer att användas som indata för analyssteget. Specifikt rapporteras en poäng som indikerar styrkan hos varje protein-sjukdomsförening i caseolap.csv resultat från textbrytningen. Ange vilken uppsättning textutvinningsresultat som ska användas för analysen genom att ange antingen --analyze_core_proteins för att endast inkludera de GO-termrelaterade proteinerna eller --analyze_all_proteins för att inkludera alla funktionellt relaterade proteiner.
Identifiera de bästa proteinerna och vägarna för varje sjukdom. Signifikanta protein-sjukdomsassociationer definieras som de med poäng som överstiger ett specificerat tröskelvärde. Z-score transformerar CaseOLAP-poängen inom varje sjukdomskategori och betraktar proteinerna med poäng över ett specificerat tröskelvärde (indikerat av - z-flaggan ) som signifikanta.
OBS: Biologiska vägar som är signifikanta för varje sjukdom identifieras automatiskt med hjälp av signifikanta proteiner som indata för analysen av reaktomvägen. Alla sådana proteiner rapporteras i den resulterande result_table.csv i analysis_results-mappen, och relevanta siffror och analysresultat genereras automatiskt i analysis_results-mappen.
Exempelkommando: python caseolap_lift.py analyze_results -z 3.0 --analyze_core_proteins
Granska analysresultaten och justera efter behov. Antalet proteiner och därmed de anrikade reaktomvägar som är signifikanta för varje sjukdomskategori beror på det z-poängtröskelvärde som används i analysen. En z-poängtabell, genererad vid output/analysis_results/zscore_cutoff_table.csv, anger antalet proteiner som är signifikanta för varje sjukdomskategori för att underlätta valet av ett z-poängtröskelvärde så högt som möjligt samtidigt som det ger flera proteiner som är signifikanta för varje sjukdomskategori.

5. Prediktiv analys

Skapa ett kunskapsdiagram.
1. Se till att de nödvändiga filerna finns i resultatmappen , inklusive kg-mappen som genererats från förbearbetning (steg 2.4) och caseolap.csv från textutvinningsresultaten under mapparna all_proteins eller core_proteins (steg 3.2).
2. Utforma kunskapsdiagrammet. Beroende på den underordnade aktiviteten kan du inkludera eller exkludera komponenter i det fullständiga kunskapsdiagrammet. Kunskapsgrafen består av proteinsjukdomspoäng från textutvinningen och kopplingar till de kunskapsbasresurser som användes i steg 2.4 (figur 4). Inkludera MeSH-sjukdomsträdet med flaggan --include_mesh , protein-proteininteraktionerna från STRING med --include_ppi, de delade reaktomvägarna med --include_pw och transkriptionsfaktorberoendet från GRNdb/GTEx med --include_tfd.
3. Kör modulen för konstruktion av kunskapsgrafer. Ange vilken uppsättning textutvinningsresultat som ska användas för analysen genom att ange --analyze_core_proteins för att endast inkludera de GO-termrelaterade proteinerna eller --analyze_all_proteins för att inkludera alla funktionellt relaterade proteiner. Som standard läses råa CaseOLAP-poäng in som kantvikter mellan protein- och sjukdomsnoderna. Om du vill skala kantvikterna anger du --use_z_score eller icke-negativa z-poäng med --scale_z_score.
  Exempelkommando: python caseolap_lift.py prepare_knowledge_graph --scale_z_score
Förutsäga nya samband mellan proteiner och sjukdomar.
1. Kontrollera att kunskapsgraffilerna, merged_edges.tsv och merged_nodes.tsv, är utdata från föregående steg (steg 5.1.3).
2. Kör kunskapsgrafens förutsägelseskript för att förutsäga samband mellan proteiner och sjukdomar som hittills inte rapporterats i den vetenskapliga litteraturen genom att skriva python kg_analysis/run_kg_analysis.py. Detta implementeras med GraPE³⁰ och använder DistMult³¹ för att producera inbäddningar av kunskapsgrafer, som en flerskiktsperceptron använder för att förutsäga associationerna mellan protein och sjukdom. I mappen output/kg_analysis sparas förutsägelser med en förutsagd sannolikhet >0,90 (förutsägelser.csv) och modellutvärderingsmått (eval_results.csv).
  OBS: I detta arbete skräddarsyddes de valda modellparametrarna (t.ex. inbäddningsmetod, länkprediktionsmodell, hyperparametrar) för den representativa studien. Denna kod fungerar som ett exempel och en utgångspunkt för andra analyser. Information om hur du utforskar modellparametrar finns i GraPE:s dokumentation (https://github.com/AnacletoLAB/grape).

Representative Results

Representativa resultat producerades efter detta protokoll för att studera sambanden mellan mitokondriella proteiner (tabell 2) och åtta kardiovaskulära sjukdomskategorier (tabell 3). I dessa kategorier hittade vi 363 567 publikationer publicerade från 2012 till oktober 2022 (362 878 kategoriserade efter MeSH-metadata, 6 923 kategoriserade efter etikettimputering). Alla publikationer hade titlar, 276 524 hade abstracts och 51 065 hade fulltext tillgänglig. Sammantaget identifierades 584 av de 1 687 undersökta mitokondriella proteinerna i publikationerna, medan 3 284 av deras 8 026 efterfrågade funktionellt relaterade proteiner identifierades. Totalt identifierades 14 unika proteiner med signifikanta poäng i alla sjukdomskategorier, med ett z-poängtröskelvärde på 3,0 (Figur 5). Analysen av Reactomes signalvägar för dessa proteiner avslöjade 12 signalvägar som är signifikanta för alla sjukdomar (Figur 6). Alla proteiner, signalvägar, sjukdomar och poäng integrerades i en kunskapsgraf (tabell 4). Denna kunskapsgraf utnyttjades för att förutsäga 12 688 nya protein-sjukdomsassociationer och filtrerades med en sannolikhetspoäng på 0,90 för att ge 1 583 förutsägelser med hög konfidens. Ett markerat exempel på två protein-sjukdomsassociationer visas i figur 7, illustrerat i samband med andra relevanta biologiska enheter som är funktionellt relaterade till proteinerna. Måtten för modellutvärdering redovisas i tabell 5.

Bild 1: Dynamisk vy över arbetsflödet. Den här bilden representerar de fyra huvudstegen i det här arbetsflödet. Först kureras relevanta proteiner baserat på de användartillhandahållna GO-termerna (t.ex. cellulära komponenter), och sjukdomskategorier bereds baserat på de användartillhandahållna sjukdoms-MeSH-identifierarna. För det andra beräknas associationer mellan proteiner och sjukdomar i textutvinningssteget. Publikationer inom ett visst datumintervall laddas ner och indexeras. Sjukdomsstuderande publikationer identifieras (via MeSH-etiketter och eventuellt via imputerade etiketter), och deras fulltexter laddas ner och indexeras. Proteinnamn efterfrågas i publikationerna och används för att beräkna protein-sjukdomsassociationspoängen. Därefter, efter textutvinning, hjälper dessa poäng till att identifiera de främsta protein- och vägassociationerna. Slutligen konstrueras en kunskapsgraf som omfattar dessa proteiner, sjukdomar och deras relationer inom den biomedicinska kunskapsbasen. Nya samband mellan proteiner och sjukdomar förutsägs baserat på den konstruerade kunskapsgrafen. Dessa steg använder de senast tillgängliga data från de biomedicinska kunskapsbaserna och PubMed. Klicka här för att se en större version av denna figur.

Bild 2: Arbetsflödets tekniska arkitektur. De tekniska detaljerna för det här arbetsflödet illustreras i den här bilden. Användaren anger MeSH-trädnumren för sjukdomskategorierna och GO-termerna. Textdokument laddas ner från PubMed, sjukdomsrelevanta dokument identifieras baserat på de tillhandahållna MeSH-etiketterna och dokument utan ämnesindikerande MeSH-etiketter får imputerade kategorietiketter. De proteiner som är associerade med den eller de angivna GO-termerna förvärvas. Denna proteinuppsättning utvidgas till att omfatta proteiner som är funktionellt relaterade via protein-proteininteraktioner, delade biologiska vägar och transkriptionsfaktorberoende. Dessa proteiner efterfrågas i sjukdomsrelevanta dokument och poängsätts av CaseOLAP. Klicka här för att se en större version av denna figur.

Bild 3: Ett exempel på ett bearbetat dokument. Ett exempel på ett parsat, indexerat textdokument visas här. I tur och ordning anger relevanta fält indexnamn (_index, _type), PubMed-ID (_id, pmid), dokumentets underavsnitt (titel, abstrakt, full_text, introduktion, metoder, resultat, diskussion) och andra metadata (år, MeSH, plats, tidskrift). Endast i visningssyfte trunkeras dokumentets underavsnitt med ellipser. Fältet MeSH innehåller dokumentämnena, som ibland kan tillhandahållas av vårt etikettimputeringssteg. Klicka här för att se en större version av denna figur.

Figur 4: Schema för kunskapsgraf och biomedicinska resurser. Den här bilden visar kunskapsdiagramschemat. Varje nod och kant representerar en nod eller kanttyp. Gränserna mellan kardiovaskulära sjukdomar (CVD) och proteiner viktas med CaseOLAP-poäng. Kanterna för protein-proteininteraktion (PPI) viktas med STRING-konfidenspoäng. De GRNdb/GTEx-härledda transkriptionsfaktorberoendekanterna (TFD), MeSH-härledda sjukdomsträdskanterna och reaktomhärledda vägkanterna är oviktade. Klicka här för att se en större version av denna figur.

Figur 5: De främsta sambanden mellan proteiner och sjukdomar. Denna figur visar mitokondriella proteiner som är signifikanta för varje sjukdomskategori. Z-poängtransformation tillämpades på CaseOLAP-poängen inom varje kategori för att identifiera signifikanta proteiner med hjälp av ett tröskelvärde på 3,0. (Överst) Antal mitokondriella proteiner som är signifikanta för varje sjukdom: Dessa fioldiagram visar fördelningen av z-poäng för proteiner i varje sjukdomskategori. Det totala antalet proteiner som är signifikanta för varje sjukdomskategori visas ovanför varje fioldiagram. Totalt identifierades 14 unika proteiner som signifikanta för alla sjukdomar, och vissa proteiner var signifikanta för flera sjukdomar. (Nederst) Proteiner med högsta poäng: Värmekartan visar de 10 främsta proteinerna som fick de högsta genomsnittliga z-poängen för alla sjukdomar. De tomma värdena representerar ingen erhållen poäng mellan proteinet och sjukdomen. Klicka här för att se en större version av denna figur.

Figur 6: Vanligaste associationerna mellan sjukdomsvägar och sjukdomar. Denna figur illustrerar de vanligaste biologiska signalvägarna som är associerade med de studerade sjukdomskategorierna, som bestämts via reaktomvägsanalys. Alla pathway-analyser filtrerades med p < 0,05. Heatmap-värdena representerar den genomsnittliga z-poängen för alla proteiner inom vägen. (Överst) Signalvägar bevarade bland alla sjukdomar: Totalt identifierades 14 proteiner med relevans för alla sjukdomskategorier, och 12 bevarade vägar bland alla sjukdomskategorier avslöjades. Ett dendrogram konstruerades baserat på vägens hierarkiska struktur för att länka vägarna med liknande biologiska funktioner. Dendrogramhöjden representerar det relativa djupet inom väghierarkin; Breda biologiska funktioner har längre extremiteter och mer specifika vägar har kortare extremiteter. (Nederst) Signalvägar som är distinkta för en sjukdomskategori: Pathway-analys utfördes med hjälp av proteiner som uppnådde en signifikant z-score i varje sjukdom. De tre översta signalvägarna med de lägsta p-värdena för varje sjukdom visas och indikeras med asterisker. Signalvägarna kan vara bland de tre bästa i flera sjukdomar. Klicka här för att se en större version av denna figur.

Bild 7: Tillämpning av djupinlärning för slutförande av kunskapsdiagram. Ett exempel på hur man tillämpar djupinlärning på en sjukdomsspecifik kunskapsgraf presenteras i den här figuren. Dolda samband mellan proteiner och sjukdom förutspås, och dessa är markerade med blått. Beräknade sannolikheter för båda förutsägelserna visas, med värden som sträcker sig från 0,0 till 1,0 och där 1,0 indikerar en stark förutsägelse. Flera proteiner med kända interaktioner ingår, som representerar protein-proteininteraktioner, transkriptionsfaktorberoende och delade biologiska vägar. För visualisering visas en delgraf med några noder med relevans för det markerade exemplet. Förklaring: IHD = ischemisk hjärtsjukdom; R-HSA-1430728 = ämnesomsättning; O14949 = cytokrom b-c1 komplex subenhet 8; P17568 = NADH-dehydrogenas (ubikinon) 1 beta-subkomplex subenhet 7; Q9NYF8 Bcl-2-associerad transkriptionsfaktor 1, poäng: 7,24 x 10⁻⁷; P49821 = NADH-dehydrogenas (ubikinon) flavoprotein 1, mitokondriellt, poäng: 1,06 x 10⁻⁵; P31930 = cytokrom b-c1 komplex subenhet 1, mitokondriell, poäng: 4,98 x 10⁻⁵; P99999 = cytokrom c, poäng: 0,399. Klicka här för att se en större version av denna figur.

Tabell 1: Arbetsflöde och hastighetsbegränsningssteg. I den här tabellen visas grova uppskattningar av beräkningstiden för varje steg i arbetsflödet. Alternativ för att inkludera komponenter i pipelinen ändrar den totala körningen som krävs för att slutföra analysen. Den totala tidsuppskattningen varierar beroende på vilka beräkningsresurser som finns tillgängliga, inklusive hårdvaruspecifikationer och programvaruinställningar. Som en grov uppskattning tog protokollet 36 timmars aktiv körtid att köra på vår beräkningsserver, med sex kärnor, 32 Gb RAM och 2 TB lagringsutrymme, men detta kan vara snabbare eller långsammare på andra enheter. Klicka här för att ladda ner denna tabell.

Tabell 2: Automatisk sammansättning av de cellulära komponentproteinerna. Denna tabell visar antalet proteiner associerade med en given cellulär komponent (dvs. GO-term), proteiner som är funktionellt relaterade till dem via protein-proteininteraktioner (PPI), delade vägar (PW) och transkriptionsfaktorberoende (TFD). Antalet totala proteiner är antalet proteiner från alla tidigare kategorier tillsammans. Alla funktionellt besläktade proteiner erhölls med hjälp av CaseOLAP LIFTs standardparametrar. Klicka här för att ladda ner denna tabell.

Tabell 3: Statistik över imputering av MeSH-etiketter. Den här tabellen visar sjukdomskategorierna, MeSH-trädnumren som används som överordnad term för alla sjukdomar som ingår i kategorin, antalet PubMed-artiklar som hittats i varje kategori från 2012-2022 och antalet ytterligare artiklar som inkluderats baserat på etikettimputeringssteget. Klicka här för att ladda ner denna tabell.

Tabell 4: Statistik över kunskapsgrafer. I den här tabellen beskrivs statistiken för storleken på det konstruerade kunskapsdiagrammet, inklusive de olika noderna och kanttyperna. CaseOLAP-poängen representerar förhållandet mellan ett protein och en kardiovaskulär sjukdom (CVD). Klicka här för att ladda ner denna tabell.

Tabell 5: Statistik och valideringar av förutsägelser i kunskapsdiagram. I den här tabellen redovisas utvärderingsmåtten för kunskapsgrafens länkförutsägelse av nya/dolda protein-sjukdomsassociationer. Kunskapsdiagrammets kanter partitionerades i 70/30 tränings- och testdatauppsättningar, och diagramanslutningen för kanterna bevarades i båda datauppsättningarna. Noggrannheten anger andelen förutsägelser som är korrekt klassificerade, medan den balanserade noggrannheten korrigerar för klassobalans. Specificiteten anger andelen negativa förutsägelser som är korrekt klassificerade. Precisionen anger andelen korrekta positiva förutsägelser av alla positiva förutsägelser, medan träffsäkerheten anger andelen korrekta positiva förutsägelser av alla positiva kanter (dvs. proteinsjukdomsassociationer som identifieras via textutvinning). F1-poängen är det harmoniska medelvärdet av precision och träffsäkerhet. Arean under AUROC (Receiver Operating Characteristics Curve) beskriver hur väl modellen skiljer mellan positiva och negativa förutsägelser, där 1,0 indikerar en perfekt klassificerare. Området under precisionsåterkallningskurvan (AUPRC) mäter avvägningen mellan precision och träffsäkerhet vid olika sannolikhetströsklar, där högre värden indikerar bättre prestanda. Klicka här för att ladda ner denna tabell.

Discussion

CaseOLAP LIFT gör det möjligt för forskare att undersöka samband mellan funktionella proteiner (t.ex. proteiner associerade med en cellulär komponent, biologisk process eller molekylär funktion) och biologiska kategorier (t.ex. sjukdomar). Det beskrivna protokollet bör exekveras i den angivna sekvensen, med protokollavsnitt 2 och protokollavsnitt 3 som de mest kritiska stegen, eftersom protokollavsnitt 4 och protokollavsnitt 5 är beroende av deras resultat. Som ett alternativ till protokollavsnitt 1 kan CaseOLAP LIFT-koden klonas och nås från GitHub-lagringsplatsen (https://github.com/CaseOLAP/caseolap_lift). Det bör noteras att trots testning under mjukvaruutvecklingen kan buggar uppstå. I så fall bör det misslyckade steget upprepas. Om problemet kvarstår rekommenderar vi att du upprepar protokollavsnitt 1 för att säkerställa att den senaste versionen av Docker-containern används. Ytterligare hjälp är tillgänglig genom att skapa ett problem på GitHub-lagringsplatsen för ytterligare support.

Denna metod stöder hypotesgenerering genom att göra det möjligt för utredare att identifiera enheter av intresse och avslöja de potentiella sambanden mellan dem, som kanske inte är lättillgängliga i befintliga biomedicinska resurser. De resulterande protein-sjukdomsassociationerna gör det möjligt för forskare att få nya insikter via poängens tolkningsbara mätvärden: popularitetspoängen indikerar de mest studerade proteinerna i förhållande till en sjukdom, distinktionspoängen indikerar sjukdomar som är mest unika för ett protein, och den kombinerade CaseOLAP-poängen är en kombination av de två. För att förhindra falskt positiva identifieringar (t.ex. på grund av homonymer) använder vissa textutvinningsverktyg en svart lista med termer för att undvika ^9,11. På samma sätt använder CaseOLAP LIFT också en svartlista men låter användaren skräddarsy svartlistan till sitt användningsfall. Till exempel, när man studerar kranskärlssjukdom (CAD), bör "CAD" inte betraktas som ett namn för proteinet "kaspasaktiverat deoxiribonukleas". Men när man studerar andra ämnen kan "CAD" vanligtvis hänvisa till proteinet.

CaseOLAP LIFT anpassar sig till mängden data som finns tillgänglig för textutvinning. Datumintervallsfunktionaliteten minskar beräkningsbördan och skapar flexibilitet för hypotesgenerering (t.ex. att studera hur den vetenskapliga kunskapen om ett samband mellan protein och sjukdom har förändrats över tid). Samtidigt förbättrar etikettimputeringen och fulltextkomponenterna omfattningen av data som är tillgängliga för textutvinning. Båda komponenterna är inaktiverade som standard för att minska beräkningskostnaderna, men användaren kan välja att inkludera någon av komponenterna. Etikettimputeringen är konservativ och kategoriserar de flesta publikationer korrekt (87 % precision) men missar andra kategorietiketter (2 % träffsäkerhet). Den här metoden bygger för närvarande på en regelbaserad heuristik som matchar sjukdomsnyckelord, och det finns planer på att förbättra prestandan genom att använda tekniker för modellering av dokumentämnen. Eftersom många okategoriserade rapporter tenderar att vara nya publikationer, är studier som undersöker ett aktuellt datumintervall (t.ex. alla publikationer under de senaste 3 åren) bättre betjänta av att inaktivera etikettimputering. Fulltextkomponenten ökar körnings- och lagringskraven. Noterbart är att endast en minoritet av dokumenten har den fullständiga texten tillgänglig (~14 % av dokumenten i vår studie). Förutsatt att de proteinnamn som nämns i publikationernas metodavsnitt är mindre benägna att vara relaterade till sjukdomsämnena, rekommenderas att söka i fulltextartiklar exklusive metodavsnittet.

De resulterande protein-sjukdomsassociationspoängen är användbara för traditionella analyser som klustring, dimensionsreduktion eller anrikningsanalyser (t.ex. GO, vägar), med viss implementering inkluderad i detta programvarupaket. För att kontextualisera dessa poäng inom befintlig biomedicinsk kunskap konstrueras en kunskapsgraf automatiskt och kan utforskas med hjälp av grafvisualiseringsverktyg (t.ex. Neo4j³², Cytoscape³³). Kunskapsgrafen kan också användas för prediktiva analyser (t.ex. länkprediktion av orapporterade protein-sjukdomsrelationer, samhällsdetektering av proteinnätverk, metoder för att samla in stigar).

Vi har undersökt modellutvärderingsmåtten för de förutspådda sambanden mellan proteiner och sjukdomar (tabell 5). Modellen tilldelar en sannolikhetspoäng mellan 0,0 och 1,0 till varje protein-sjukdomsassociation, där poäng närmare 1,0 indikerar en högre nivå av konfidens i förutsägelsen. Den interna utvärderingen av modellens prestanda, som baserades på olika mätvärden inklusive AUROC, noggrannhet, balanserad noggrannhet, specificitet och träffsäkerhet, indikerade utmärkt övergripande prestanda i hans arbete. Utvärderingen visade dock också på ett ganska dåligt resultat för modellens precision (0,15), vilket resulterade i både en lägre AUPRC- och F1-poäng. Framtida studier för att förbättra detta mått kommer att bidra till att höja modellens övergripande prestanda. Vi föreställer oss att detta kan uppnås genom att implementera mer sofistikerade modeller för inbäddning av kunskapsgrafer och grafprediktioner. Baserat på modellens precision på 0,15 bör utredarna förvänta sig cirka 15 % positiva identifieringar; Av alla de 12 688 protein-sjukdomsassociationer som förutspås av modellen är cirka 15 % sant positiva associationer. Detta kan mildras genom att endast beakta samband mellan proteiner och sjukdomar med hög sannolikhet (t.ex. >0,90). I vårt användningsfall ledde filtrering med ett sannolikhetströskelvärde på 0,90 till förutsägelser med hög konfidens av 1 583 associationer. Utredare kan tycka att det är bra att även manuellt inspektera dessa förutsägelser för att säkerställa hög validitet (se figur 7 som exempel). En extern utvärdering av våra förutsägelser fastställde att av de 310 protein-sjukdomsassociationerna från en omfattande kurerad databas DisGeNet¹⁹, identifierades 103 i vår text-mining-studie, och 88 ytterligare associationer förutspåddes av vår kunskapsgrafanalys med en sannolikhetspoäng >0,90.

Sammantaget har CaseOLAP LIFT förbättrad flexibilitet och användbarhet när det gäller att utforma anpassade analyser av sambanden mellan funktionella proteingrupper och flera sjukdomskategorier i stora textkorpusar. Det här paketet är strömlinjeformat i ett nytt användarvänligt kommandoradsgränssnitt och släpps som en docker-behållare, vilket minskar de problem som är förknippade med att konfigurera programmeringsmiljöer och programvaruberoenden. CaseOLAP LIFT-pipelinen för att studera mitokondriella proteiner vid kardiovaskulära sjukdomar kan enkelt anpassas; Till exempel kan framtida tillämpningar av denna teknik innebära att man undersöker sambanden mellan alla proteiner som är associerade med någon GO-term och någon biomedicinsk kategori. Dessutom är de rankade protein-sjukdomsassociationerna som identifieras av denna textutvinningsplattform viktiga i beredningen av datasetet för användning av avancerade naturliga språktekniker. Den resulterande kunskapsgrafen gör det möjligt för utredare att omvandla dessa fynd till biologiskt informativ kunskap och lägger grunden för uppföljande grafbaserade analyser.

Disclosures

Författarna har inget att avslöja.

Acknowledgments

Detta arbete stöddes av National Institutes of Health (NIH) R35 HL135772 till P.P., NIH T32 HL13945 till A.R.P. och D.S., NIH T32 EB016640 till A.R.P., National Science Foundation Research Traineeship (NRT) 1829071 till A.R.P. och D.S., NIH R01 HL146739 för I.A., J.R., A.V., K.B. och TC Laubisch Endowment till P.P. vid UCLA.

Materials

Name	Company	Catalog Number	Comments
Software - Docker	Docker	N/A	docker.com

DOWNLOAD MATERIALS LIST

References

The UniProt Consortium et al. UniProt: The universal protein knowledgebase in 2021. Nucleic Acids Research. 49, D480-D489 (2021).
Davis, A. P., et al. Comparative toxicogenomics database (CTD): Update 2023. Nucleic Acids Research. 51, D1257-D1262 (2023).
Mohtashamian, M., Abeysinghe, R., Hao, X., Cui, L. Identifying missing IS-A relations in orphanet rare disease ontology. Proceedings. IEEE International Conference on Bioinformatics and Biomedicine. 2022, 3274-3279 (2022).
Rehm, H. L., et al. ClinGen - The clinical genome resource. New England Journal of Medicine. 372 (23), 2235-2242 (2015).
Caulfield, M., et al. The National Genomics Research and Healthcare Knowledgebase. , (2019).
Ma, X., Lee, H., Wang, L., Sun, F. CGI: A new approach for prioritizing genes by combining gene expression and protein-protein interaction data. Bioinformatics. 23 (2), 215-221 (2007).
Gutiérrez-Sacristán, A., et al. Text mining and expert curation to develop a database on psychiatric diseases and their genes. Database. 2017, 043 (2017).
Sigdel, D., et al. Cloud-based phrase mining and analysis of user-defined phrase-category association in biomedical publications. Journal of Visualized Experiments. (144), e59108 (2019).
Yu, K. -H., et al. Systematic protein prioritization for targeted proteomics studies through literature mining. Journal of Proteome Research. 17 (4), 1383-1396 (2018).
Lau, E., et al. Identifying high-priority proteins across the human diseasome using semantic similarity. Journal of Proteome Research. 17 (12), 4267-4278 (2018).
Pletscher-Frankild, S., Pallejà, A., Tsafou, K., Binder, J. X., Jensen, L. J. DISEASES: Text mining and data integration of disease-gene associations. Methods. 74, 83-89 (2015).
Liu, Y., Liang, Y., Wishart, D. PolySearch2: A significantly improved text-mining system for discovering associations between human diseases, genes, drugs, metabolites, toxins and more. Nucleic Acids Research. 43, W535-W542 (2015).
Minot, S. S., Barry, K. C., Kasman, C., Golob, J. L., Willis, A. D. geneshot: Gene-level metagenomics identifies genome islands associated with immunotherapy response. Genome Biology. 22 (1), 135 (2021).
Lee, S., et al. BEST: Next-generation biomedical entity search tool for knowledge discovery from biomedical literature. PloS One. 11 (10), 0164680 (2016).
Wei, C. -H., Allot, A., Leaman, R., Lu, Z. PubTator central: Automated concept annotation for biomedical full text articles. Nucleic Acids Research. 47 (W1), W587-W593 (2019).
Jimeno-Yepes, A. J., Sticco, J. C., Mork, J. G., Aronson, A. R. GeneRIF indexing: Sentence selection based on machine learning. BMC Bioinformatics. 14 (1), 171 (2013).
Wei, C. -H., et al. tmVar 2.0: Integrating genomic variant information from literature with dbSNP and ClinVar for precision medicine. Bioinformatics. 34 (1), 80-87 (2018).
Maglott, D., Ostell, J., Pruitt, K. D., Tatusova, T. Entrez Gene: Gene-centered information at NCBI. Nucleic Acids Research. 33, D54-D58 (2005).
Piñero, J., et al. The DisGeNET knowledge platform for disease genomics: 2019 update. Nucleic Acids Research. 48, D845-D855 (2019).
Lee, J., et al. BioBERT: A pre-trained biomedical language representation model for biomedical text mining. Bioinformatics. 36 (4), 1234-1240 (2020).
Szklarczyk, D., et al. STRING v11: Protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, D607-D613 (2019).
Gillespie, M., et al. The reactome pathway knowledgebase 2022. Nucleic Acids Research. 50, D687-D692 (2022).
Fang, L., et al. GRNdb: Decoding the gene regulatory networks in diverse human and mouse conditions. Nucleic Acids Research. 49, D97-D103 (2021).
Doğan, T., et al. CROssBAR: Comprehensive resource of biomedical relations with knowledge graph representations. Nucleic Acids Research. 49 (16), 96 (2021).
Fernández-Torras, A., Duran-Frigola, M., Bertoni, M., Locatelli, M., Aloy, P. Integrating and formatting biomedical data as pre-calculated knowledge graph embeddings in the Bioteque. Nature Communications. 13 (1), 5304 (2022).
Himmelstein, D. S., et al. Systematic integration of biomedical knowledge prioritizes drugs for repurposing. eLife. 6, e26726 (2017).
Zheng, S., et al. PharmKG: A dedicated knowledge graph benchmark for biomedical data mining. Briefings in Bioinformatics. 22 (4), (2021).
Morselli Gysi, D., et al. Network medicine framework for identifying drug-repurposing opportunities for COVID-19. Proceedings of the National Academy of Sciences of the United States of America. 118 (19), 2025581118 (2021).
Santos, A., et al. A knowledge graph to interpret clinical proteomics data. Nature Biotechnology. 40 (5), 692-702 (2022).
Cappelletti, L., et al. GraPE: Fast and scalable graph processing and embedding. arXiv. , (2021).
Yang, B., Yih, W., He, X., Gao, J., Deng, L. Embedding entities and relations for learning and inference in knowledge bases. arXiv. , (2014).
Neo4j Graph Data Platform. , Available from: https://neo4j.com/ (2022).
Shannon, P., et al. Cytoscape: A software environment for integrated models of biomolecular interaction networks. Genome Research. 13 (11), 2498-2504 (2003).

Biochemistry

En kunskapsgrafmetod för att belysa organellernas roll i sjukdom via biomedicinska rapporter

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.