Biochemistry

En vidensgraftilgang til at belyse rollen af organellære veje i sygdom via biomedicinske rapporter

Published: October 13, 2023 doi: 10.3791/65084

Alexander R. Pelletier^1,2,3, Dylan Steinecke^1,3,4, Dibakar Sigdel¹, Irsyad Adam¹, J. Harry Caufield¹, Vladimir Guevara-Gonzalez¹, Joseph Ramirez¹, Aarushi Verma¹, Kaitlyn Bali¹, Katherine Downs¹, Wei Wang^1,2,3, Alex Bui^3,4, Peipei Ping^1,2,3,4,5

¹Department of Physiology, UCLA School of Medicine, ²Scalable Analytics Institute (ScAi) at Department of Computer Science, UCLA School of Engineering, ³NIH BRIDGE2AI Center at UCLA & NHLBI Integrated Cardiovascular Data Science Training Program, UCLA, ⁴Medical Informatics, University of California at Los Angeles (UCLA), ⁵Department of Medicine (Cardiology), UCLA School of Medicine

Summary

En beregningsprotokol, CaseOLAP LIFT, og en brugssag præsenteres til undersøgelse af mitokondrieproteiner og deres tilknytning til hjerte-kar-sygdomme som beskrevet i biomedicinske rapporter. Denne protokol kan let tilpasses til at studere brugervalgte cellulære komponenter og sygdomme.

Abstract

De hurtigt voksende og store mængder biomedicinske rapporter, der hver indeholder adskillige enheder og rig information, repræsenterer en rig ressource til biomedicinske tekstminingapplikationer. Disse værktøjer gør det muligt for efterforskere at integrere, konceptualisere og oversætte disse opdagelser for at afdække ny indsigt i sygdomspatologi og terapi. I denne protokol præsenterer vi CaseOLAP LIFT, en ny beregningspipeline til undersøgelse af cellulære komponenter og deres sygdomsforeninger ved at udtrække brugervalgte oplysninger fra tekstdatasæt (f.eks. Biomedicinsk litteratur). Softwaren identificerer subcellulære proteiner og deres funktionelle partnere i sygdomsrelevante dokumenter. Yderligere sygdomsrelevante dokumenter identificeres via softwarens etiketimputationsmetode. For at kontekstualisere de resulterende proteinsygdomsforeninger og integrere information fra flere relevante biomedicinske ressourcer konstrueres en vidensgraf automatisk til yderligere analyser. Vi præsenterer en brugssag med et korpus på ~ 34 millioner tekstdokumenter downloadet online for at give et eksempel på at belyse mitokondrieproteiners rolle i forskellige kardiovaskulære sygdomsfænotyper ved hjælp af denne metode. Desuden blev en dyb læringsmodel anvendt på den resulterende vidensgraf til at forudsige tidligere urapporterede forhold mellem proteiner og sygdom, hvilket resulterede i 1.583 foreninger med forudsagte sandsynligheder >0,90 og med et område under modtagerens driftskarakteristikkurve (AUROC) på 0,91 på testsættet. Denne software har en meget tilpasselig og automatiseret arbejdsgang med et bredt udvalg af rådata til rådighed til analyse; Derfor kan proteinsygdomsforeninger ved hjælp af denne metode identificeres med forbedret pålidelighed inden for et tekstkorpus.

Introduction

Undersøgelse af sygdomsrelaterede proteiner forbedrer den videnskabelige viden om patogenese og hjælper med at identificere potentielle behandlinger. Flere store tekstkorpora af biomedicinske publikationer, såsom PubMeds 34 millioner artikler, der indeholder publikationstitler, abstracts og fuldtekstdokumenter, rapporterer nye fund, der forbinder proteiner med sygdomme. Disse resultater er imidlertid fragmenteret på tværs af forskellige kilder og skal integreres for at generere ny biomedicinsk indsigt. Der findes flere biomedicinske ressourcer til at integrere proteinsygdomsforeninger 1,2,3,4,5,6,7. Disse kuraterede ressourcer er dog ofte ufuldstændige og omfatter muligvis ikke de seneste forskningsresultater. Text-mining tilgange er afgørende for at udtrække og syntetisere protein-sygdomsforeninger i store tekstkorpora, hvilket ville resultere i en mere omfattende forståelse af disse biomedicinske begreber i den videnskabelige litteratur.

Der findes flere biomedicinske tekstminingmetoder til at afdække protein-sygdomsforhold 8,9,10,11,12,13,14, og andre bidrager delvist til at bestemme disse forhold ved at identificere de proteiner, sygdomme eller andre biomedicinske enheder, der er nævnt i tekst^13,15,16,17^,^18,19. Imidlertid mangler mange af disse værktøjer adgang til den mest opdaterede litteratur, med undtagelse af nogle få, der periodisk opdateres 8,11,13,15. På samme måde har mange værktøjer også et begrænset omfang af undersøgelse, da de er begrænset til brede foruddefinerede sygdomme eller proteiner ^9,13. Flere tilgange er også tilbøjelige til at identificere falske positiver i teksten; Andre har behandlet disse problemer med en fortolkelig og global sortliste over proteinnavne^9,11 eller mindre fortolkelige navneenhedsgenkendelsesteknikker^15,20. Mens de fleste ressourcer kun præsenterer forudberegnede resultater, tilbyder nogle værktøjer interaktivitet via webapps eller tilgængelig softwarekode ^8,9,11.

For at løse ovenstående begrænsninger præsenterer vi følgende protokol, CaseOLAP med etiketimputation og fuld tekst (CaseOLAP LIFT), som en fleksibel og tilpasselig platform til at undersøge sammenhænge mellem proteiner (f.eks. proteiner forbundet med en cellulær komponent) og sygdomme fra tekstdatasæt. Denne platform indeholder automatiseret kuratering af termspecifikke proteiner inden for genontologi (GO) (f.eks. organelspecifikke proteiner), imputering af manglende dokumentemneetiketter, analyse af fuldtekstdokumenter samt analyseværktøjer og prædiktive værktøjer (figur 1, figur 2 og tabel 1). CaseOLAP LIFT kuraterer organelspecifikke proteiner ved hjælp af brugerleverede GO-termer (f.eks. organelrum) og funktionelt relaterede proteiner ved hjælp af STRING²¹, Reactome 22 og GRNdb²³. Sygdomsundersøgende dokumenter identificeres ved deres PubMed-annoterede medicinske emneoverskrift (MeSH) etiketter. For ~ 15.1% af umærkede dokumenter imputeres etiketter, hvis mindst et MeSH-termsynonym findes i titlen, eller mindst to findes abstrakt. Dette gør det muligt at overveje tidligere ikke-kategoriserede publikationer i tekstmininganalysen. CaseOLAP LIFT giver også brugeren mulighed for at vælge sektioner af publikationer (f.eks. kun titler og abstracts, fuldtekst eller fuldtekst eksklusive metoder) inden for en bestemt tidsramme (f.eks. 2012-2022). Softwaren kuraterer også halvautomatisk en brugssagsspecifik sortliste over proteinnavne, hvilket vitalt reducerer de falsk-positive proteinsygdomsforeninger, der findes i andre tilgange. Samlet set muliggør disse forbedringer større tilpasningsevne og automatisering, udvider mængden af data, der er tilgængelige til analyse, og giver mere sikre proteinsygdomsforeninger fra store biomedicinske tekstkorpora.

CaseOLAP LIFT inkorporerer biomedicinsk viden og repræsenterer forholdet mellem forskellige biomedicinske begreber ved hjælp af en vidensgraf, som udnyttes til at forudsige skjulte relationer i grafen. For nylig er grafbaserede beregningsmetoder blevet anvendt til biologiske indstillinger, herunder integration og organisering af biomedicinske begreber 24,25, lægemiddelanvendelse og udvikling 26,27,28 og til klinisk beslutningstagning fra proteomikdata ²⁹.

For at demonstrere nytten af CaseOLAP LIFT i forbindelse med konstruktion af en vidensgraf fremhæver vi en brugscase om undersøgelse af sammenhængen mellem mitokondrieproteiner og otte kategorier af hjerte-kar-sygdomme. Beviser fra ~ 362.000 sygdomsrelevante dokumenter blev analyseret for at identificere de øverste mitokondrieproteiner og veje forbundet med sygdommene. Dernæst blev disse proteiner, deres funktionelt relaterede proteiner og deres tekstminingresultater indarbejdet i en vidensgraf. Denne graf blev udnyttet i en dyb læringsbaseret linkforudsigelsesanalyse til at forudsige proteinsygdomsforeninger, der hidtil ikke er rapporteret inden for biomedicinske publikationer.

Introduktionsafsnittet beskriver baggrundsoplysningerne og målene for vores protokol. I følgende afsnit beskrives trinnene i beregningsprotokollen. Derefter beskrives de repræsentative resultater af denne protokol. Endelig diskuterer vi kort brugsscenarierne for beregningsprotokollen, fordele, ulemper og fremtidige applikationer.

Protocol

1. Kørsel af docker-containeren

Download CaseOLAP LIFT docker-containeren ved hjælp af terminalvinduet og indtastning af docker pull caseolap/caseolap_lift:latest.
Opret en mappe, der gemmer alle programdata og output (f.eks. mkdir caseolap_lift_shared_folder).
Start docker-containeren med kommandoen docker-run --name caseolap_lift -it -v PATH_TO_FOLDER:/caseolap_lift_shared_folder caseolap/caseolap_lift:latest bash med PATH_TO_FOLDER som den fulde filsti til mappen (f.eks. / Brugere/caseolap/caseolap_lift_shared_folder). Fremtidige kommandoer fra sektion 2 vil blive udstedt i dette terminalvindue.
Start den elastiske søgning i containeren. I et nyt terminalvindue skal du skrive docker exec -it --user elastic caseolap_lift bash /workspace/start_elastic_search.sh.
BEMÆRK: I denne protokol køres CaseOLAP LIFT interaktivt, hvor hvert trin udføres sekventielt. Denne analyse kan også udføres ende-til-ende ved at sende den ind som en parameter.txt fil. Parametrene.txt der anvendes i denne undersøgelse, er i / workspace/caseolap_lift/parameters.txt. Hvis du vil have adgang til flere oplysninger om hvert trin, skal du køre kommandoen med flaget -- help eller besøge dokumentationen på GitHub-lageret (https://github.com/CaseOLAP/caseolap_lift).

2. Forberedelse af sygdomme og proteiner

Naviger til mappen caseolap_lift med cd / arbejdsområde / caseolap_lift
Sørg for, at downloadlinkene i config/knowledge_base_links.json er opdaterede og nøjagtige for den nyeste version af hver vidensbaseressource. Som standard downloades filerne kun én gang; Hvis du vil opdatere disse filer og downloade dem igen, skal du køre forbehandlingstrinnet med -r i trin 2.4.
Bestem GO-termen og sygdomskategorierne, der skal bruges til denne undersøgelse. Find identifikatorerne for alle GO-termer og MeSH-identifikatorer på henholdsvis http://geneontology.org/ og https://meshb.nlm.nih.gov/.
Udfør forbehandlingsmodulet ved hjælp af kommandolinjeindstillinger. Dette forbehandlingstrin samler specificerede sygdomme, lister proteiner, der skal studeres, og samler proteinsynonymer til tekstminedrift. Angiv de brugerdefinerede studerede GO-termer ved hjælp af -c-flaget og sygdoms-MeSH-trænumrene ved hjælp af flaget -d, og angiv forkortelser med -a.
Eksempel kommando:
python caseolap_lift.py forbehandling -a "CM ARR CHD VD IHD CCD VOO OTH" -d "C14.280.238,C14.280.434 C14.280.067,C23.550.073 C14.280.400 C14.280.484 C14.280.647 C14.280.123 C14.280.955 C14.280.195,C14.280.282,C14.280.383,C14.280.470,
C14.280.945,C14.280.459,C14.280.720" -c "GO:0005739" --include-synonymer --include-ppi -k 1 -s 0,99 --include-pw -n 4 -r 0,5 --include-tfd
Undersøg kategorierne.txt, core_proteins.txt og proteins_of_interest.txt filer fra det forrige trin i outputmappen . Sørg for, at alle sygdomskategorier i kategorier.txt er korrekte, og at der identificeres en rimelig mængde proteiner inden for core_proteins.txt og proteins_of_interest.txt. Gentag om nødvendigt trin 2.4, og rediger parametrene for at inkludere et større eller færre antal proteiner.
BEMÆRK: Antallet af proteiner inkluderet i undersøgelsen bestemmes af --include-ppi, --include-pw og --include-tfd flag for at inkludere henholdsvis protein-proteininteraktioner, proteiner med delte reaktomveje og proteiner med transkriptionsfaktorafhængighed. Deres specifikke funktionalitet er specificeret med yderligere flag såsom -k, -s, -n og -r (se dokumentation).

3. Tekst-minedrift

Sørg for , at kategorierne.txt, core_proteins.txt og proteins_of_interest.txt filer fra det forrige trin findes i outputmappen. Brug disse filer som input til tekstmining. Du kan også justere konfigurationerne vedrørende dokumentets parsing og indeksering i konfigurationsmappen . Se en tidligere version af CaseOLAP-protokollen for at få flere oplysninger om konfiguration og fejlfinding⁸.
Udfør tekstminingmodulet med python caseolap_lift.py text_mining. Tilføj flaget - l for at imputere emnerne for ikke-kategoriserede dokumenter og flaget -t for at downloade den fulde tekst af sygdomsrelevante dokumenter. Andre valgfrie flag angiver et datointerval for publikationer, der skal downloades (-d), og giver mulighed for at screene proteinnavnene (beskrevet i trin 3.3). Et eksempel på et analyseret dokument er vist i figur 3.
Eksempel kommando: python caseolap_lift.py text_mining -d "2012-10-01,2022-10-01" -l -t
BEMÆRK: Størstedelen af beregningsprotokoltiden bruges på trin 3.2, som potentielt kan strække sig over 24 timer. Runtime afhænger af størrelsen på det tekstkorpus, der skal downloades, hvilket også afhænger af datointervallet, og om etiketimputering og fuldtekstfunktionalitet er aktiveret.
(Anbefalet) Screene proteinnavnene. De proteinnavne, der er identificeret i sygdomsrelevante publikationer, bidrager til proteinsygdomsforeninger, men er tilbøjelige til falske positive (dvs. homonymer med andre ord). For at løse dette skal du opregne mulige homonymer i en sortliste (config/remove_these_synonyms.txt), så de udelukkes fra nedstrømstrinnene.
1. Find navne, der skal inspiceres: Under resultatmappen finder du proteinnavnene med den højeste frekvens under all_proteins eller core_proteins (ranked_synonyms/ranked_synonyms_TOTAL.txt) og proteinnavne med de højeste scorer under mapperne i ranked_proteins afhængigt af den eller de relevante scorer. Hvis der er mange navne, skal du prioritere inspektionen af de mest scorende navne.
2. Undersøg navnene: Skriv python caseolap_lift.py text_mining -c efterfulgt af et proteinnavn for at få vist op til 10 navneholdige publikationer. Kontroller derefter for hvert navn, om navnet er proteinspecifikt.
3. Genberegne scorerne: Skriv python caseolap_lift.py text_mining -s. Gentag trin 3.1, trin 3.2 og trin 3.3, indtil navnene i trin 3.1 ser korrekte ud.

4. Analyse af resultaterne

Sørg for, at resultaterne af tekstmining er i resultatmappen (f.eks. resultat/all_proteins og resultat/core_proteins mapper og tilknyttede filer), som vil blive brugt som input til analysetrinnet. Specifikt rapporteres en score, der angiver styrken af hver protein-sygdomsforening i caseolap.csv resultater fra tekstminedriften. Angiv, hvilket sæt tekstminingresultater der skal bruges til analysen, ved at angive enten --analyze_core_proteins til kun at omfatte GO-term-relaterede proteiner eller --analyze_all_proteins til at inkludere alle de funktionelt relaterede proteiner.
Identificer de bedste proteiner og veje for hver sygdom. Signifikante proteinsygdomsforeninger defineres som dem med score, der overstiger en bestemt tærskel. Z-score transformerer CaseOLAP-scorerne inden for hver sygdomskategori, og betragt proteinerne med scorer over en specificeret tærskel (angivet med -z-flaget ) som signifikante.
BEMÆRK: Biologiske veje, der er signifikante for hver sygdom, identificeres automatisk ved hjælp af signifikante proteiner som input til reaktomvejsanalysen. Alle sådanne proteiner rapporteres i den resulterende result_table.csv i analysis_results-mappen , og relevante figurer og vejanalyseresultater genereres automatisk i analysis_results-mappen .
Eksempel kommando: python caseolap_lift.py analyze_results -z 3.0 --analyze_core_proteins
Gennemgå analyseresultaterne, og juster efter behov. Antallet af proteiner og derfor de berigede reaktomveje, der er signifikante for hver sygdomskategori, afhænger af z-score-tærsklen, der anvendes i analysen. En z-score tabel, genereret ved output / analysis_results / zscore_cutoff_table.csv, angiver antallet af proteiner, der er signifikant for hver sygdomskategori for at hjælpe med at vælge en z-score tærskel så høj som muligt, samtidig med at der gives flere proteiner, der er signifikante for hver sygdomskategori.

5. Prædiktiv analyse

Konstruere en vidensgraf.
1. Sørg for, at de nødvendige filer er i resultatmappen , herunder kg-mappen , der er genereret fra forbehandling (trin 2.4) og caseolap.csv fra tekstminingresultaterne under mapperne all_proteins eller core_proteins (trin 3.2).
2. Design vidensgrafen. Afhængigt af downstream-opgaven skal du medtage eller udelade komponenter i hele videndiagrammet. Vidensgrafen består af proteinsygdomsscorer fra tekstmining og forbindelser til de vidensbaseressourcer, der blev brugt i trin 2.4 (figur 4). Inkluder MeSH-sygdomstræet med flaget --include_mesh , protein-proteininteraktionerne fra STRING med --include_ppi, de delte reaktomveje med --include_pw og transkriptionsfaktorafhængigheden fra GRNdb / GTEx med --include_tfd.
3. Kør modulet til konstruktion af vidensdiagrammer. Angiv, hvilket sæt tekstminingresultater der skal bruges til analysen, ved at angive --analyze_core_proteins til kun at inkludere GO-term-relaterede proteiner eller --analyze_all_proteins til at inkludere alle de funktionelt relaterede proteiner. Som standard indlæses rå CaseOLAP-score som kantvægtene mellem protein- og sygdomsknuder; Hvis du vil skalere kantvægtene, skal du angive --use_z_score eller ikke-negative z-scorer med --scale_z_score.
  Eksempel kommando: python caseolap_lift.py prepare_knowledge_graph --scale_z_score
Forudsige nye protein-sygdomsforeninger.
1. Sørg for, at infokortfilerne merged_edges.tsv og merged_nodes.tsv udskrives fra det forrige trin (trin 5.1.3).
2. Kør vidensgrafforudsigelsesscriptet for at forudsige proteinsygdomsforeninger, der hidtil ikke er rapporteret i den videnskabelige litteratur, ved at skrive python kg_analysis/run_kg_analysis.py. Dette implementeres med GraPE³⁰ og bruger DistMult³¹ til at producere vidensgrafindlejringer, som en flerlags perceptron bruger til at forudsige proteinsygdomsforeningerne. I output/kg_analysis mappen gemmes forudsigelser med en forudsagt sandsynlighed >0,90 (forudsigelser.csv) og målepunkter for modelevaluering (eval_results.csv).
  BEMÆRK: I dette arbejde blev de valgte modelparametre (f.eks. indlejringsmetode, linkforudsigelsesmodel, hyperparametre) skræddersyet til den repræsentative undersøgelse. Denne kode tjener som eksempel og udgangspunkt for andre analyser. For at udforske modelparametre henvises til GraPE's dokumentation (https://github.com/AnacletoLAB/grape).

Representative Results

Repræsentative resultater blev produceret efter denne protokol for at studere sammenhængen mellem mitokondrieproteiner (tabel 2) og otte kardiovaskulære sygdomskategorier (tabel 3). I disse kategorier fandt vi 363.567 publikationer udgivet fra 2012 til oktober 2022 (362.878 kategoriseret efter MeSH-metadata, 6.923 kategoriseret efter etiketimputation). Alle publikationerne havde titler, 276.524 havde abstracts, og 51.065 havde den fulde tekst tilgængelig. Samlet set blev 584 af de 1.687 forespurgte mitokondrieproteiner identificeret inden for publikationerne, mens 3.284 af deres 8.026 forespurgte funktionelt relaterede proteiner blev identificeret. I alt blev 14 unikke proteiner identificeret med signifikante scorer på tværs af alle sygdomskategorierne med en z-scoretærskel på 3,0 (figur 5). Reactome-vejanalysen af disse proteiner afslørede 12 veje, der var signifikante for alle sygdommene (figur 6). Alle proteiner, veje, sygdomme og scorer blev integreret i en vidensgraf (tabel 4). Denne vidensgraf blev udnyttet til at forudsige 12.688 nye proteinsygdomsforeninger og filtreret med en sandsynlighedsscore på 0.90 for at give 1.583 forudsigelser med høj tillid. Et fremhævet eksempel på to protein-sygdomsforeninger er vist i figur 7, illustreret i sammenhæng med andre relevante biologiske enheder, der funktionelt er relateret til proteinerne. Modelevalueringsmetrikkerne er rapporteret i tabel 5.

Figur 1: Dynamisk visning af arbejdsprocessen. Dette tal repræsenterer de fire vigtigste trin i denne arbejdsproces. For det første kurateres relevante proteiner baseret på de brugerleverede GO-termer (f.eks. cellulære komponenter), og sygdomskategorier fremstilles baseret på de brugerleverede sygdoms-MeSH-identifikatorer. For det andet beregnes foreninger mellem proteiner og sygdomme i tekst-minedrift-trinnet. Publikationer inden for et bestemt datointerval downloades og indekseres. Sygdomsundersøgende publikationer identificeres (via MeSH-etiketter og eventuelt via imputerede etiketter), og deres fulde tekster downloades og indekseres. Proteinnavne forespørges i publikationerne og bruges til at beregne proteinsygdomsforeningens scorer. Dernæst, efter tekstminedrift, hjælper disse scoringer med at identificere de bedste protein- og pathway-foreninger. Endelig konstrueres en vidensgraf, der omfatter disse proteiner, sygdomme og deres forhold inden for den biomedicinske vidensbase. Nye proteinsygdomsforeninger forudsiges baseret på den konstruerede vidensgraf. Disse trin bruger de senest tilgængelige data fra de biomedicinske vidensbaser og PubMed. Klik her for at se en større version af denne figur.

Figur 2: Arbejdsprocessens tekniske arkitektur. De tekniske detaljer i denne arbejdsgang er illustreret i denne figur. Brugeren angiver MeSH-trænumrene for sygdomskategorierne og GO-term(er). Tekstdokumenter downloades fra PubMed, sygdomsrelevante dokumenter identificeres baseret på de leverede MeSH-etiketter, og dokumenter uden emneindikerende MeSH-etiketter modtager imputerede kategorietiketter. De proteiner, der er forbundet med de(t) angivne GO-term(er), erhverves. Dette proteinsæt udvides til at omfatte proteiner, der er funktionelt relaterede via protein-proteininteraktioner, delte biologiske veje og transkriptionsfaktorafhængighed. Disse proteiner forespørges i sygdomsrelevante dokumenter og scores af CaseOLAP. Klik her for at se en større version af denne figur.

Figur 3: Et eksempel på et behandlet dokument. Et eksempel på et analyseret, indekseret tekstdokument præsenteres her. I rækkefølge angiver relevante felter indeksnavnet (_index, _type), PubMed-id'et (_id, pmid), dokumentets underafsnit (titel, abstrakt, full_text, introduktion, metoder, resultater, diskussion) og andre metadata (år, MeSH, placering, journal). Kun til visningsformål afkortes dokumentets underafsnit med ellipser. Feltet MeSH indeholder dokumentemnerne, som nogle gange kan leveres af vores etiketimputeringstrin. Klik her for at se en større version af denne figur.

Figur 4: Vidensgrafskema og biomedicinske ressourcer. Denne figur viser vidensdiagramskemaet. Hver node og kant repræsenterer henholdsvis en node eller kanttype. Kanterne mellem hjerte-kar-sygdomme (CVD'er) og proteiner vægtes med CaseOLAP-score. Protein-protein-interaktionskanterne (PPI) vægtes med STRING-konfidensscorer. De GRNdb/GTEx-afledte TFD-kanter (transkriptionsfaktorafhængighed), MeSH-afledte sygdomstrækanter og reaktomafledte vejkanter er uvægtede. Klik her for at se en større version af denne figur.

Figur 5: Top protein-sygdomsforeninger. Denne figur præsenterer mitokondrieproteiner, der er signifikante for hver sygdomskategori. Z-score transformation blev anvendt på CaseOLAP scores inden for hver kategori for at identificere signifikante proteiner ved hjælp af en tærskel på 3,0. (Øverst) Antal mitokondrieproteiner, der er signifikante for hver sygdom: Disse violinplots viser fordelingen af z-scores for proteiner i hver sygdomskategori. Det samlede antal proteiner, der er signifikante for hver sygdomskategori, er vist over hvert violinplot. I alt 14 unikke proteiner blev identificeret som signifikante på tværs af alle sygdommene, og nogle proteiner var signifikante for flere sygdomme. (Nederst) Topscorende proteiner: Varmekortet viser de top 10 proteiner, der opnåede de højeste gennemsnitlige z-scorer på tværs af alle sygdomme. Blindværdierne repræsenterer ingen opnået score mellem proteinet og sygdommen. Klik her for at se en større version af denne figur.

Figur 6: Top pathway-sygdomsforeninger. Denne figur illustrerer de øverste biologiske veje forbundet med de undersøgte sygdomskategorier, som bestemt via reaktomvejsanalyse. Alle pathway analyser blev filtreret med p < 0,05. Varmekortværdierne repræsenterer den gennemsnitlige z-score for alle proteinerne inden for vejen. (Øverst) Veje bevaret blandt alle sygdommene: Samlet set blev 14 proteiner identificeret med relevans for alle sygdomskategorierne, og 12 bevarede veje blandt alle sygdomskategorierne blev afsløret. Et dendrogram blev konstrueret baseret på den hierarkiske struktur for at forbinde vejene med lignende biologiske funktioner. Dendrogramhøjden repræsenterer den relative dybde inden for stihierarkiet; Brede biologiske funktioner har længere lemmer, og mere specifikke veje har kortere lemmer. (Nederst) Veje, der adskiller sig fra en sygdomskategori: Pathway-analyse blev udført ved hjælp af proteiner, der opnåede en signifikant z-score i hver sygdom. De tre øverste veje med de laveste p-værdier forbundet med hver sygdom er vist og angivet med stjerner. Vejene kunne være inden for top tre i flere sygdomme. Klik her for at se en større version af denne figur.

Figur 7: Anvendelse af dyb læring til færdiggørelse af vidensgraf. Et eksempel på anvendelse af dyb læring på en sygdomsspecifik vidensgraf er præsenteret i denne figur. Skjulte forhold mellem proteiner og sygdom forudsiges, og disse er angivet med blåt. Beregnede sandsynligheder for begge forudsigelser vises med værdier fra 0,0 til 1,0 og med 1,0, der angiver en stærk forudsigelse. Flere proteiner med kendte interaktioner er inkluderet, der repræsenterer protein-proteininteraktioner, transkriptionsfaktorafhængighed og delte biologiske veje. Til visualisering vises en undergraf af nogle få noder med relevans for det fremhævede eksempel. Nøgle: IHD = iskæmisk hjertesygdom; R-HSA-1430728 = stofskifte; O14949 = cytokrom b-c1 kompleks underenhed 8; P17568 = NADH-dehydrogenase (ubiquinon) 1 beta-underkompleks underenhed 7; Q9NYF8 Bcl-2-associeret transkriptionsfaktor 1, score: 7,24 x ^10-7; P49821 = NADH dehydrogenase (ubiquinon) flavoprotein 1, mitokondrie, score: 1,06 x ^10-5; P31930 = cytokrom b-c1 kompleks underenhed 1, mitokondrie, score: 4,98 x ^10-5; P99999 = cytokrom c, score: 0,399. Klik her for at se en større version af denne figur.

Tabel 1: Arbejdsproces og hastighedsbegrænsende trin. Denne tabel viser grove estimater af beregningstiden for hvert trin i arbejdsprocessen. Indstillinger for at medtage komponenter i pipelinen ændrer den samlede kørselstid, der er nødvendig for at fuldføre analysen. Det samlede tidsestimat varierer afhængigt af de tilgængelige beregningsressourcer, herunder hardwarespecifikationer og softwareindstillinger. Som et groft skøn tog protokollen 36 timers aktiv runtime at udføre på vores beregningsserver med seks kerner, 32 GB RAM og 2 Tb lagerplads, men dette kan være hurtigere eller langsommere på andre enheder. Klik her for at downloade denne tabel.

Tabel 2: Automatisk samling af de cellulære komponentproteiner. Denne tabel viser antallet af proteiner forbundet med en given cellulær komponent (dvs. GO-term), proteiner, der funktionelt er relateret til dem via protein-proteininteraktioner (PPI), delte veje (PW) og transkriptionsfaktorafhængighed (TFD). Antallet af samlede proteiner er antallet af proteiner fra alle de foregående kategorier kombineret. Alle de funktionelt beslægtede proteiner blev opnået ved hjælp af CaseOLAP LIFTs standardparametre. Klik her for at downloade denne tabel.

Tabel 3: Statistik over MeSH-mærkning-imputation. Denne tabel viser sygdomskategorierne, MeSH-trænumrene, der bruges som overordnet betegnelse for alle de sygdomme, der er inkluderet i kategorien, antallet af PubMed-artikler, der findes i hver kategori fra 2012-2022, og antallet af yderligere artikler, der er inkluderet baseret på etiket-imputationstrinnet. Klik her for at downloade denne tabel.

Tabel 4: Statistik over konstruktion af videngrafer. Denne tabel beskriver statistikken for størrelsen af den konstruerede videngraf, herunder de forskellige noder og kanttyper. CaseOLAP-scorerne repræsenterer forholdet mellem et protein og en kardiovaskulær sygdom (CVD) kategori. Klik her for at downloade denne tabel.

Tabel 5: Statistik og valideringer for forudsigelse af vidensgraf. Denne tabel rapporterer evalueringsmålingerne for forudsigelse af nye / skjulte proteinsygdomsforeninger. Vidensgrafkanterne blev opdelt i 70/30-trænings- og testdatasæt, og grafforbindelsen mellem kanterne blev bevaret i begge datasæt. Nøjagtigheden angiver andelen af forudsigelser, der er korrekt klassificeret, mens den afbalancerede nøjagtighed korrigerer for klasseubalance. Specificiteten angiver andelen af negative forudsigelser korrekt klassificeret. Præcisionen angiver andelen af korrekte positive forudsigelser ud af alle de positive forudsigelser, mens tilbagekaldelsen angiver andelen af korrekte positive forudsigelser ud af alle de positive kanter (dvs. protein-sygdomsforeninger identificeret via tekstmining). F1-scoren er det harmoniske gennemsnit af præcisionen og tilbagekaldelsen. Området under modtagerens driftskarakteristikkurve (AUROC) beskriver, hvor godt modellen skelner mellem positive og negative forudsigelser, hvor 1,0 indikerer en perfekt klassifikator. Området under præcisions-tilbagekaldelseskurven (AUPRC) måler afvejningen mellem præcision og tilbagekaldelse ved forskellige sandsynlighedstærskler, hvor højere værdier indikerer bedre ydeevne. Klik her for at downloade denne tabel.

Discussion

CaseOLAP LIFT giver forskere mulighed for at undersøge sammenhænge mellem funktionelle proteiner (f.eks. proteiner forbundet med en cellulær komponent, biologisk proces eller molekylær funktion) og biologiske kategorier (f.eks. Sygdomme). Den beskrevne protokol skal udføres i den angivne rækkefølge, hvor protokolafsnit 2 og protokolafsnit 3 er de mest kritiske trin, da protokolafsnit 4 og protokolafsnit 5 afhænger af deres resultater. Som et alternativ til protokolafsnit 1 kan CaseOLAP LIFT-koden klones og tilgås fra GitHub-lageret (https://github.com/CaseOLAP/caseolap_lift). Det skal bemærkes, at der på trods af test under softwareudviklingen kan opstå fejl. I så fald skal det mislykkede trin gentages. Hvis problemet fortsætter, anbefales det at gentage protokolafsnit 1 for at sikre, at den nyeste version af docker-containeren bruges. Du kan få yderligere hjælp ved at oprette et problem i GitHub-lageret for at få yderligere support.

Denne metode understøtter hypotesegenerering ved at gøre det muligt for efterforskere at identificere enheder af interesse og afsløre de potentielle sammenhænge mellem dem, som muligvis ikke er let tilgængelige i eksisterende biomedicinske ressourcer. De resulterende proteinsygdomsforeninger giver forskere mulighed for at få ny indsigt via scorernes fortolkelige målinger: popularitetsscorerne angiver de mest undersøgte proteiner i forhold til en sygdom, særprægsscorerne indikerer sygdomme, der er mest unikke for et protein, og den kombinerede CaseOLAP-score er en kombination af de to. For at forhindre falsk-positive identifikationer (f.eks. På grund af homonymer) bruger nogle tekstudvindingsværktøjer en sortliste over udtryk for at undgå ^9,11. Ligeledes bruger CaseOLAP LIFT også en sortliste, men giver brugeren mulighed for at skræddersy sortlisten til deres brugssag. For eksempel, når man studerer koronararteriesygdom (CAD), bør "CAD" ikke betragtes som et navn på proteinet "caspase-aktiveret deoxyribonuclease". Men når man studerer andre emner, kan "CAD" normalt henvise til proteinet.

CaseOLAP LIFT tilpasser sig mængden af data, der er tilgængelige til tekstmining. Datointervalfunktionaliteten letter beregningsbyrden og skaber fleksibilitet til hypotesegenerering (f.eks. Undersøgelse af, hvordan den videnskabelige viden om en proteinsygdomsforening har ændret sig over tid). I mellemtiden forbedrer etiketimputationen og fuldtekstkomponenterne omfanget af data, der er tilgængelige til tekstmining. Begge komponenter er som standard deaktiveret for at reducere beregningsomkostningerne, men brugeren kan beslutte at medtage begge komponenter. Etiketimputationen er konservativ, og den kategoriserer de fleste publikationer korrekt (87% præcision), men savner andre kategorietiketter (2% tilbagekaldelse). Denne metode er i øjeblikket afhængig af en regelbaseret heuristik, der matcher sygdomsnøgleord, og der er planer om at forbedre ydeevnen ved hjælp af dokumentemnemodelleringsteknikker. Da mange ikke-kategoriserede rapporter har tendens til at være nylige publikationer, er undersøgelser, der undersøger et nyligt datointerval (f.eks. Alle publikationer inden for de sidste 3 år), bedre tjent med at deaktivere etiketimputation. Fuldtekstkomponenten øger kørselstiden og lagerkravene. Især har kun et mindretal af dokumenterne den fulde tekst tilgængelig (~ 14% af dokumenterne i vores undersøgelse). Forudsat at proteinnavnene, der er nævnt i publikationernes metodeafsnit, er mindre tilbøjelige til at være relateret til sygdomsemnerne, anbefales det at forespørge i fuldtekstartikler undtagen metodeafsnittet.

De resulterende protein-sygdomsforeningsscorer er nyttige til traditionelle analyser såsom klyngedannelse, dimensionsreduktion eller berigelsesanalyser (f.eks. GO, veje), med en vis implementering inkluderet i denne softwarepakke. For at kontekstualisere disse scorer inden for eksisterende biomedicinsk viden konstrueres en vidensgraf automatisk og kan udforskes ved hjælp af grafvisualiseringsværktøjer (f.eks. Neo4j³², Cytoscape³³). Vidensgrafen kan også bruges til prædiktive analyser (f.eks. linkforudsigelse af urapporterede protein-sygdomsforhold, samfundspåvisning af proteinnetværk, præmieindsamlingsstivandringsmetoder).

Vi har undersøgt modelevalueringsmetrikkerne for de forudsagte protein-sygdomsforeninger (tabel 5). Modellen tildeler en sandsynlighedsscore mellem 0,0 og 1,0 til hver protein-sygdomsforening, med scorer tættere på 1,0, hvilket indikerer et højere niveau af tillid til forudsigelsen. Den interne evaluering af modellens ydeevne, som var baseret på forskellige målinger, herunder AUROC, nøjagtighed, afbalanceret nøjagtighed, specificitet og tilbagekaldelse, indikerede fremragende samlet præstation i hans arbejde. Evalueringen fremhævede imidlertid også en ret dårlig score for modellens præcision (0,15), hvilket resulterede i både en lavere AUPRC- og F1-score. Fremtidige undersøgelser for at forbedre denne måling vil bidrage til at hæve modellens samlede ydeevne. Vi forestiller os, at dette kan opnås ved at implementere mere sofistikerede modeller for indlejring af vidensgrafer og grafforudsigelser. Baseret på modellens præcision på 0,15 bør efterforskere forvente ca. 15% positive identifikationer; Især ud af alle de 12.688 proteinsygdomsforeninger, der forudsiges af modellen, er ca. 15% ægte positive foreninger. Dette kan afhjælpes ved kun at overveje proteinsygdomsforeninger med en høj sandsynlighedsscore (f.eks. >0,90); I vores brugstilfælde førte filtrering med en sandsynlighedstærskel på 0,90 til forudsigelser med høj tillid på 1.583 foreninger. Efterforskere kan finde det nyttigt også manuelt at inspicere disse forudsigelser for at sikre høj validitet (se figur 7 som et eksempel). En ekstern evaluering af vores forudsigelser fastslog, at af de 310 proteinsygdomsforeninger fra en omfattende kurateret database blev DisGeNet^{19 103} identificeret i vores tekstminingstudie, og 88 yderligere foreninger blev forudsagt af vores vidensgrafanalyse med en sandsynlighedsscore >0,90.

Samlet set har CaseOLAP LIFT forbedret fleksibilitet og anvendelighed i design af brugerdefinerede analyser af sammenhængen mellem funktionelle proteingrupper og flere kategorier af sygdomme i store tekstkorpora. Denne pakke strømlines i en ny brugervenlig kommandolinjegrænseflade og frigives som en docker-container, hvilket reducerer problemerne forbundet med konfiguration af programmeringsmiljøer og softwareafhængigheder. CaseOLAP LIFT-rørledningen til undersøgelse af mitokondrieproteiner i hjerte-kar-sygdomme kan let tilpasses; for eksempel kan fremtidige anvendelser af denne teknik involvere undersøgelse af sammenhængen mellem proteiner forbundet med eventuelle GO-termer og enhver biomedicinsk kategori. Desuden er de rangerede proteinsygdomsforeninger, der er identificeret af denne tekstminingplatform, vigtige i forberedelsen af datasættet til brug for avancerede naturlige sprogteknikker. Den resulterende vidensgraf gør det muligt for forskere at konvertere disse resultater til biologisk informativ viden og lægger grundlaget for opfølgende grafbaserede analyser.

Disclosures

Forfatterne har intet at afsløre.

Acknowledgments

Dette arbejde blev støttet af National Institutes of Health (NIH) R35 HL135772 til P.P., NIH T32 HL13945 til ARP og DS, NIH T32 EB016640 til ARP, National Science Foundation Research Traineeship (NRT) 1829071 til ARP og DS, NIH R01 HL146739 for I.A., J.R., A.V., K.B. og TC Laubisch Endowment til PP ved UCLA.

Materials

Name	Company	Catalog Number	Comments
Software - Docker	Docker	N/A	docker.com

DOWNLOAD MATERIALS LIST

References

The UniProt Consortium et al. UniProt: The universal protein knowledgebase in 2021. Nucleic Acids Research. 49, D480-D489 (2021).
Davis, A. P., et al. Comparative toxicogenomics database (CTD): Update 2023. Nucleic Acids Research. 51, D1257-D1262 (2023).
Mohtashamian, M., Abeysinghe, R., Hao, X., Cui, L. Identifying missing IS-A relations in orphanet rare disease ontology. Proceedings. IEEE International Conference on Bioinformatics and Biomedicine. 2022, 3274-3279 (2022).
Rehm, H. L., et al. ClinGen - The clinical genome resource. New England Journal of Medicine. 372 (23), 2235-2242 (2015).
Caulfield, M., et al. The National Genomics Research and Healthcare Knowledgebase. , (2019).
Ma, X., Lee, H., Wang, L., Sun, F. CGI: A new approach for prioritizing genes by combining gene expression and protein-protein interaction data. Bioinformatics. 23 (2), 215-221 (2007).
Gutiérrez-Sacristán, A., et al. Text mining and expert curation to develop a database on psychiatric diseases and their genes. Database. 2017, 043 (2017).
Sigdel, D., et al. Cloud-based phrase mining and analysis of user-defined phrase-category association in biomedical publications. Journal of Visualized Experiments. (144), e59108 (2019).
Yu, K. -H., et al. Systematic protein prioritization for targeted proteomics studies through literature mining. Journal of Proteome Research. 17 (4), 1383-1396 (2018).
Lau, E., et al. Identifying high-priority proteins across the human diseasome using semantic similarity. Journal of Proteome Research. 17 (12), 4267-4278 (2018).
Pletscher-Frankild, S., Pallejà, A., Tsafou, K., Binder, J. X., Jensen, L. J. DISEASES: Text mining and data integration of disease-gene associations. Methods. 74, 83-89 (2015).
Liu, Y., Liang, Y., Wishart, D. PolySearch2: A significantly improved text-mining system for discovering associations between human diseases, genes, drugs, metabolites, toxins and more. Nucleic Acids Research. 43, W535-W542 (2015).
Minot, S. S., Barry, K. C., Kasman, C., Golob, J. L., Willis, A. D. geneshot: Gene-level metagenomics identifies genome islands associated with immunotherapy response. Genome Biology. 22 (1), 135 (2021).
Lee, S., et al. BEST: Next-generation biomedical entity search tool for knowledge discovery from biomedical literature. PloS One. 11 (10), 0164680 (2016).
Wei, C. -H., Allot, A., Leaman, R., Lu, Z. PubTator central: Automated concept annotation for biomedical full text articles. Nucleic Acids Research. 47 (W1), W587-W593 (2019).
Jimeno-Yepes, A. J., Sticco, J. C., Mork, J. G., Aronson, A. R. GeneRIF indexing: Sentence selection based on machine learning. BMC Bioinformatics. 14 (1), 171 (2013).
Wei, C. -H., et al. tmVar 2.0: Integrating genomic variant information from literature with dbSNP and ClinVar for precision medicine. Bioinformatics. 34 (1), 80-87 (2018).
Maglott, D., Ostell, J., Pruitt, K. D., Tatusova, T. Entrez Gene: Gene-centered information at NCBI. Nucleic Acids Research. 33, D54-D58 (2005).
Piñero, J., et al. The DisGeNET knowledge platform for disease genomics: 2019 update. Nucleic Acids Research. 48, D845-D855 (2019).
Lee, J., et al. BioBERT: A pre-trained biomedical language representation model for biomedical text mining. Bioinformatics. 36 (4), 1234-1240 (2020).
Szklarczyk, D., et al. STRING v11: Protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, D607-D613 (2019).
Gillespie, M., et al. The reactome pathway knowledgebase 2022. Nucleic Acids Research. 50, D687-D692 (2022).
Fang, L., et al. GRNdb: Decoding the gene regulatory networks in diverse human and mouse conditions. Nucleic Acids Research. 49, D97-D103 (2021).
Doğan, T., et al. CROssBAR: Comprehensive resource of biomedical relations with knowledge graph representations. Nucleic Acids Research. 49 (16), 96 (2021).
Fernández-Torras, A., Duran-Frigola, M., Bertoni, M., Locatelli, M., Aloy, P. Integrating and formatting biomedical data as pre-calculated knowledge graph embeddings in the Bioteque. Nature Communications. 13 (1), 5304 (2022).
Himmelstein, D. S., et al. Systematic integration of biomedical knowledge prioritizes drugs for repurposing. eLife. 6, e26726 (2017).
Zheng, S., et al. PharmKG: A dedicated knowledge graph benchmark for biomedical data mining. Briefings in Bioinformatics. 22 (4), (2021).
Morselli Gysi, D., et al. Network medicine framework for identifying drug-repurposing opportunities for COVID-19. Proceedings of the National Academy of Sciences of the United States of America. 118 (19), 2025581118 (2021).
Santos, A., et al. A knowledge graph to interpret clinical proteomics data. Nature Biotechnology. 40 (5), 692-702 (2022).
Cappelletti, L., et al. GraPE: Fast and scalable graph processing and embedding. arXiv. , (2021).
Yang, B., Yih, W., He, X., Gao, J., Deng, L. Embedding entities and relations for learning and inference in knowledge bases. arXiv. , (2014).
Neo4j Graph Data Platform. , Available from: https://neo4j.com/ (2022).
Shannon, P., et al. Cytoscape: A software environment for integrated models of biomolecular interaction networks. Genome Research. 13 (11), 2498-2504 (2003).

Biochemistry

En vidensgraftilgang til at belyse rollen af organellære veje i sygdom via biomedicinske rapporter

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.