Biochemistry

En kunnskapsgraftilnærming for å belyse rollen som organellære veier i sykdom via biomedisinske rapporter

Published: October 13, 2023 doi: 10.3791/65084

Alexander R. Pelletier^1,2,3, Dylan Steinecke^1,3,4, Dibakar Sigdel¹, Irsyad Adam¹, J. Harry Caufield¹, Vladimir Guevara-Gonzalez¹, Joseph Ramirez¹, Aarushi Verma¹, Kaitlyn Bali¹, Katherine Downs¹, Wei Wang^1,2,3, Alex Bui^3,4, Peipei Ping^1,2,3,4,5

¹Department of Physiology, UCLA School of Medicine, ²Scalable Analytics Institute (ScAi) at Department of Computer Science, UCLA School of Engineering, ³NIH BRIDGE2AI Center at UCLA & NHLBI Integrated Cardiovascular Data Science Training Program, UCLA, ⁴Medical Informatics, University of California at Los Angeles (UCLA), ⁵Department of Medicine (Cardiology), UCLA School of Medicine

Summary

En beregningsprotokoll, CaseOLAP LIFT, og et brukstilfelle presenteres for å undersøke mitokondrielle proteiner og deres assosiasjoner med kardiovaskulær sykdom som beskrevet i biomedisinske rapporter. Denne protokollen kan enkelt tilpasses for å studere brukervalgte cellulære komponenter og sykdommer.

Abstract

De raskt økende og store mengdene biomedisinske rapporter, som hver inneholder mange enheter og rik informasjon, representerer en rik ressurs for biomedisinske tekstutvinningsapplikasjoner. Disse verktøyene gjør det mulig for etterforskere å integrere, konseptualisere og oversette disse funnene for å avdekke ny innsikt i sykdomspatologi og terapi. I denne protokollen presenterer vi CaseOLAP LIFT, en ny beregningsrørledning for å undersøke cellulære komponenter og deres sykdomsforeninger ved å trekke ut brukervalgt informasjon fra tekstdatasett (f.eks. Biomedisinsk litteratur). Programvaren identifiserer subcellulære proteiner og deres funksjonelle partnere i sykdomsrelevante dokumenter. Ytterligere sykdomsrelevante dokumenter identifiseres ved hjelp av programvarens etikettimputeringsmetode. For å kontekstualisere de resulterende proteinsykdomsforeningene og integrere informasjon fra flere relevante biomedisinske ressurser, konstrueres det automatisk en kunnskapsgraf for videre analyser. Vi presenterer ett brukstilfelle med et korpus av ~ 34 millioner tekstdokumenter lastet ned på nettet for å gi et eksempel på å belyse rollen til mitokondrielle proteiner i forskjellige kardiovaskulære sykdomsfenotyper ved hjelp av denne metoden. Videre ble en dyp læringsmodell brukt på den resulterende kunnskapsgrafen for å forutsi tidligere urapporterte forhold mellom proteiner og sykdom, noe som resulterte i 1,583 assosiasjoner med forventede sannsynligheter >0,90 og med et område under mottakerens driftskarakteristikkkurve (AUROC) på 0,91 på testsettet. Denne programvaren har en svært tilpassbar og automatisert arbeidsflyt, med et bredt spekter av rådata tilgjengelig for analyse; Derfor, ved hjelp av denne metoden, kan proteinsykdomsforeninger identifiseres med forbedret pålitelighet i et tekstkorpus.

Introduction

Studier av sykdomsrelaterte proteiner forbedrer den vitenskapelige kunnskapen om patogenese og bidrar til å identifisere potensielle terapier. Flere store tekstkorpus av biomedisinske publikasjoner, som PubMeds 34 millioner artikler som inneholder publikasjonstitler, sammendrag og fulltekstdokumenter, rapporterer nye funn som knytter proteiner til sykdommer. Disse funnene er imidlertid fragmentert på tvers av ulike kilder og må integreres for å generere ny biomedisinsk innsikt. Det finnes flere biomedisinske ressurser for å integrere proteinsykdomsforeninger 1,2,3,4,5,6,7. Imidlertid er disse kuraterte ressursene ofte ufullstendige og kan ikke omfatte de nyeste forskningsresultatene. Tekst-mining tilnærminger er avgjørende for å trekke ut og syntetisere proteinsykdomsforeninger i store tekstkorpus, noe som vil resultere i en mer omfattende forståelse av disse biomedisinske konseptene i den vitenskapelige litteraturen.

Det finnes flere biomedisinske tekst-mining-tilnærminger for å avdekke protein-sykdomsforhold 8,9,10,11,12,13,14, og andre bidrar delvis til å bestemme disse forholdene ved å identifisere proteiner, sykdommer eller andre biomedisinske enheter nevnt i tekst 13,15,16,17^,^18,19. Mange av disse verktøyene mangler imidlertid tilgang til den mest oppdaterte litteraturen, med unntak av noen få som periodisk oppdateres 8,11,13,15. På samme måte har mange verktøy også et begrenset studieomfang, da de er begrenset til brede forhåndsdefinerte sykdommer eller proteiner ^9,13. Flere tilnærminger er også utsatt for identifisering av falske positiver i teksten; Andre har adressert disse problemene med en tolkbar og global svarteliste over proteinnavn^9,11 eller mindre tolkbare navneenhetsgjenkjenningsteknikker^15,20. Mens de fleste ressurser bare presenterer forhåndsberegnede resultater, tilbyr noen verktøy interaktivitet via webapper eller tilgjengelig programvarekode ^8,9,11.

For å løse de ovennevnte begrensningene presenterer vi følgende protokoll, CaseOLAP med etikettimputering og fulltekst (CaseOLAP LIFT), som en fleksibel og tilpassbar plattform for å undersøke assosiasjoner mellom proteiner (f.eks. proteiner assosiert med en cellulær komponent) og sykdommer fra tekstdatasett. Denne plattformen har automatisert kurasjon av begrepsspesifikke proteiner (GO) (f.eks. organellespesifikke proteiner), imputering av manglende dokumentemneetiketter, analyse av fulltekstdokumenter, samt analyseverktøy og prediktive verktøy (figur 1, figur 2 og tabell 1). CaseOLAP LIFT kuraterer organellespesifikke proteiner ved å bruke brukergitte GO-termer (f.eks. organellrom) og funksjonelt relaterte proteiner ved å bruke STRING²¹, Reactome 22 og GRNdb²³. Sykdomsstuderende dokumenter identifiseres av deres PubMed-annoterte medisinske emneoverskrifter (MeSH)-etiketter. For ~ 15.1% av umerkede dokumenter tilregnes etiketter hvis minst ett MeSH-begrepssynonym finnes i tittelen eller minst to finnes i sammendraget. Dette gjør det mulig å vurdere tidligere ukategoriserte publikasjoner i tekstutvinningsanalysen. CaseOLAP LIFT lar også brukeren velge deler av publikasjoner (f.eks. Kun titler og sammendrag, fulltekst eller fulltekst unntatt metoder) innenfor en spesifisert tidsramme (f.eks. 2012-2022). Programvaren kuraterer også semi-automatisk en brukstilfelle-spesifikk svarteliste av proteinnavn, noe som reduserer de falske positive proteinsykdomsforeningene som er tilstede i andre tilnærminger. Samlet sett muliggjør disse forbedringene større tilpassbarhet og automatisering, utvider mengden data som er tilgjengelig for analyse, og gir mer sikre proteinsykdomsforeninger fra store biomedisinske tekstkorpus.

CaseOLAP LIFT inkorporerer biomedisinsk kunnskap og representerer forholdet mellom ulike biomedisinske konsepter ved hjelp av en kunnskapsgraf, som utnyttes for å forutsi skjulte forhold i grafen. Nylig har grafbaserte beregningsmetoder blitt brukt på biologiske innstillinger, inkludert integrering og organisering av biomedisinske konsepter 24,25, legemiddelgjenbruk og utvikling 26,27,28^, og for klinisk beslutningstaking fra proteomikkdata ²⁹.

For å demonstrere nytten av CaseOLAP LIFT i innstillingen for å konstruere en kunnskapsgraf, fremhever vi et brukstilfelle om undersøkelsen av sammenhengene mellom mitokondrielle proteiner og åtte kategorier av kardiovaskulær sykdom. Bevis fra ~ 362 000 sykdomsrelevante dokumenter ble analysert for å identifisere de beste mitokondrielle proteiner og veier forbundet med sykdommene. Deretter ble disse proteinene, deres funksjonelt relaterte proteiner og deres tekstutvinningsresultater innlemmet i en kunnskapsgraf. Denne grafen ble utnyttet i en dyp læringsbasert lenkeprediksjonsanalyse for å forutsi proteinsykdomsforeninger som hittil ikke er rapportert innen biomedisinske publikasjoner.

Introduksjonsdelen beskriver bakgrunnsinformasjonen og målene for protokollen vår. Følgende avsnitt beskriver trinnene i beregningsprotokollen. Deretter beskrives de representative resultatene av denne protokollen. Til slutt diskuterer vi kort brukstilfeller for beregningsprotokoller, fordeler, ulemper og fremtidige applikasjoner.

Protocol

1. Kjører docker-containeren

Last ned CaseOLAP LIFT docker-containeren ved å bruke terminalvinduet og skrive inn docker pull caseolap / caseolap_lift: siste.
Opprett en katalog som lagrer alle programdata og utdata (f.eks. mkdir caseolap_lift_shared_folder).
Start docker-beholderen med kommandodockeren kjør --name caseolap_lift -it-v PATH_TO_FOLDER:/caseolap_lift_shared_folder caseolap / caseolap_lift: siste bash med PATH_TO_FOLDER som den fullstendige filbanen for mappen (f.eks. / Brukere/caseolap/caseolap_lift_shared_folder). Fremtidige kommandoer fra seksjon 2 vil bli utstedt i dette terminalvinduet.
Start det elastiske søket i beholderen. I et nytt terminalvindu skriver du docker exec -it --user elastic caseolap_lift bash /workspace/start_elastic_search.sh.
MERK: I denne protokollen kjøres CaseOLAP LIFT interaktivt, med hvert trinn utført sekvensielt. Denne analysen kan også utføres ende-til-ende ved å sende den inn som en parameter.txt-fil. Parametrene.txt brukt i denne studien er i / workspace/caseolap_lift/parameters.txt. Hvis du vil ha tilgang til flere detaljer om hvert trinn, kjører du kommandoen med -- help-flagget eller går til dokumentasjonen i GitHub-repositoriet (https://github.com/CaseOLAP/caseolap_lift).

2. Forbereder sykdommene og proteinene

Naviger til caseolap_lift-mappen med cd / workspace / caseolap_lift
Kontroller at nedlastingskoblingene i config/knowledge_base_links.json er oppdaterte og nøyaktige for den nyeste versjonen av hver kunnskapsbaseressurs. Som standard lastes filene bare ned én gang; Hvis du vil oppdatere disse filene og laste ned på nytt, kjører du forhåndsbehandlingstrinnet med -r i trinn 2.4.
Bestem GO-termen og sykdomskategoriene som skal brukes til denne studien. Finn identifikatorene for alle GO-termer og MeSH-identifikatorer på henholdsvis http://geneontology.org/ og https://meshb.nlm.nih.gov/.
Utfør forhåndsbehandlingsmodulen ved hjelp av kommandolinjealternativer. Dette forbehandlingstrinnet samler spesifiserte sykdommer, lister proteiner som skal studeres, og samler proteinsynonymer for tekstutvinning. Angi de brukerdefinerte studerte GO-termene ved å bruke -c-flagget og sykdommens MeSH-trenumre ved hjelp av -d-flagget, og spesifiser forkortelser med -a.
Eksempel kommando:
python caseolap_lift.py forbehandling -A "CM ARR CHD VD IHD CCD VOO OTH" -d "C14.280.238,C14.280.434 C14.280.067,C23.550.073 C14.280.400 C14.280.484 C14.280.647 C14.280.123 C14.280.955 C14.280.195,C14.280.282,C14.280.383,C14.280.470,
C14.280.945,C14.280.459,C14.280.720" -c "GO:0005739" --include-synonyms --include-ppi-k 1 -s 0.99 --include-pw-n 4 -r 0.5 --include-tfd
Undersøk kategoriene.txt, core_proteins.txt og proteins_of_interest.txt filene fra forrige trinn i utdatamappen . Sørg for at alle sykdomskategoriene i kategorier.txt er korrekte og at en rimelig mengde proteiner er identifisert innen core_proteins.txt og proteins_of_interest.txt. Gjenta om nødvendig trinn 2.4, og endre parametrene for å inkludere et større eller færre antall proteiner.
MERK: Antall proteiner som inngår i studien bestemmes av --include-ppi, --include-pw og --include-tfd-flagg for å inkludere henholdsvis protein-protein-interaksjoner, proteiner med delte reaktomveier og proteiner med transkripsjonsfaktoravhengighet. Deres spesifikke funksjonalitet er spesifisert med tilleggsflagg som -k, -s, -n og -r (se dokumentasjon).

3. Tekst-gruvedrift

Forsikre deg om at kategoriene.txt, core_proteins.txt og proteins_of_interest.txt filene fra forrige trinn finnes i utdatamappen. Bruk disse filene som inndata for tekstutvinning. Du kan eventuelt justere konfigurasjonene knyttet til dokumentanalysen og indekseringen i config-mappen . Se en tidligere versjon av CaseOLAP-protokollen for mer informasjon om konfigurasjon og feilsøking⁸.
Utfør tekstutvinningsmodulen med python-caseolap_lift.py text_mining. Legg til -l-flagget for å imputere emnene i ukategoriserte dokumenter og -t-flagget for å laste ned hele teksten til sykdomsrelevante dokumenter. Andre valgfrie flagg spesifiserer et datointervall med publikasjoner som skal lastes ned (-d) og gir alternativer for å skjerme proteinnavnene (beskrevet i trinn 3.3). Et utvalg av et analysert dokument er vist i figur 3.
Eksempel kommando: python caseolap_lift.py text_mining -d "2012-10-01,2022-10-01" -l -t
MERK: Mesteparten av beregningsprotokolltiden brukes på trinn 3.2, som potensielt kan strekke seg over 24 timer. Kjøretiden vil avhenge av størrelsen på tekstkorpuset som skal lastes ned, som også vil avhenge av datointervallet og om etikettimputering og fulltekstfunksjonalitet er aktivert.
(Anbefalt) Skjerm proteinnavnene. Proteinnavnene identifisert i sykdomsrelevante publikasjoner bidrar til proteinsykdomsforeninger, men er utsatt for falske positive (dvs. homonymer med andre ord). For å løse dette, list opp mulige homonymer i en svarteliste (config/remove_these_synonyms.txt) slik at de ekskluderes fra trinnene nedstrøms.
1. Finn navn du vil undersøke: Under resultatmappen finner du proteinnavnene med høyest frekvens under all_proteins eller core_proteins (ranked_synonyms/ranked_synonyms_TOTAL.txt) og proteinnavn med høyest poengsum under mappene i ranked_proteins avhengig av poengsummen av interesse. Hvis det er mange navn, prioriterer du inspeksjonen av de beste navnene.
2. Inspiser navnene: Skriv python caseolap_lift.py text_mining -c etterfulgt av et proteinnavn for å vise opptil 10 navneholdige publikasjoner. Deretter, for hvert navn, sjekk om navnet er proteinspesifikt.
3. Beregn resultatene på nytt: Skriv python caseolap_lift.py text_mining -s. Gjenta trinn 3.1, trinn 3.2 og trinn 3.3 til navnene i trinn 3.1 vises riktig.

4. Analysere resultatene

Kontroller at tekstutvinningsresultatene er i resultatmappen (f.eks. resultat/all_proteins og resultat/core_proteins-kataloger og tilknyttede filer), som skal brukes som inndata for analysetrinnet. Spesielt rapporteres en score som indikerer styrken til hver proteinsykdomsforening i caseolap.csv resultater fra tekstutvinningen. Angi hvilket sett med tekstutvinningsresultater som skal brukes til analysen ved å spesifisere enten --analyze_core_proteins for å inkludere bare GO-termrelaterte proteiner eller --analyze_all_proteins for å inkludere alle funksjonelt relaterte proteiner.
Identifiser de beste proteinene og veiene for hver sykdom. Signifikante proteinsykdomsforeninger er definert som de med score som overstiger en spesifisert terskel. Z-score transformerer CaseOLAP-skårene innenfor hver sykdomskategori, og anser proteinene med score over en spesifisert terskel (indikert med -z-flagget ) som signifikante.
MERK: Biologiske veier som er viktige for hver sykdom, identifiseres automatisk ved hjelp av signifikante proteiner som input for reaktomveisanalysen. Alle slike proteiner rapporteres i den resulterende result_table.csv i analysis_results-mappen, og relevante tall og baneanalyseresultater genereres automatisk i analysis_results-mappen.
Eksempel kommando: python caseolap_lift.py analyze_results -z 3.0 --analyze_core_proteins
Se gjennom analyseresultatene, og juster etter behov. Antall proteiner og derfor de berikede reaktomveiene som er signifikante for hver sykdomskategori, avhenger av z-score-terskelen som brukes i analysen. En z-score tabell, generert ved output/analysis_results/zscore_cutoff_table.csv, indikerer antall proteiner som er signifikante for hver sykdomskategori for å hjelpe til med valg av en z-score terskår så høyt som mulig, samtidig som det gir flere proteiner som er signifikante for hver sykdomskategori.

5. Prediktiv analyse

Konstruer et kunnskapskart.
1. Forsikre deg om at de nødvendige filene er i resultatmappen , inkludert kg-mappen generert fra forbehandling (trinn 2.4) og caseolap.csv fra tekstutvinningsresultatene under mappene all_proteins eller core_proteins (trinn 3.2).
2. Utforme kunnskapskartet. Avhengig av aktiviteten nedstrøms kan du inkludere eller utelate komponenter i hele kunnskapsdiagrammet. Kunnskapsgrafen består av proteinsykdomsskårer fra tekstutvinningen og koblinger til kunnskapsbaseressursene som brukes i trinn 2.4 (figur 4). Inkluder MeSH sykdomstreet med --include_mesh-flagget , protein-protein-interaksjonene fra STRING med --include_ppi, de delte reaktomveiene med --include_pw og transkripsjonsfaktoravhengigheten fra GRNdb / GTEx med --include_tfd.
3. Kjør modulen for konstruksjon av kunnskapskart. Angi hvilket sett med tekstutvinningsresultater som skal brukes til analysen ved å spesifisere --analyze_core_proteins bare inkludere GO-termrelaterte proteiner eller --analyze_all_proteins for å inkludere alle funksjonelt relaterte proteiner. Som standard lastes rå CaseOLAP-poeng som kantvekter mellom protein- og sykdomsnoder; Hvis du vil skalere kantvektene, angir du --use_z_score eller ikke-negative z-skår med --scale_z_score.
  Eksempel kommando: python caseolap_lift.py prepare_knowledge_graph --scale_z_score
Forutsi nye proteinsykdomsforeninger.
1. Kontroller at kunnskapskartfilene, merged_edges.tsv og merged_nodes.tsv, er utdata fra forrige trinn (trinn 5.1.3).
2. Kjør kunnskapsgrafprediksjonsskriptet for å forutsi proteinsykdomsforeninger som hittil ikke er rapportert i den vitenskapelige litteraturen ved å skrive python kg_analysis/run_kg_analysis.py. Dette implementeres med GraPE³⁰ og bruker DistMult³¹ til å produsere kunnskapsgrafinnebygging, som en flerlags perceptron bruker til å forutsi proteinsykdomsforeningene. I mappen utdata/kg_analysis lagres prediksjoner med en predikert sannsynlighet >0,90 (prediksjoner.csv) og modellevalueringsberegninger (eval_results.csv).
  MERK: I dette arbeidet ble de valgte modellparametrene (f.eks. embedding-metode, lenkeprediksjonsmodell, hyperparametere) skreddersydd for den representative studien. Denne koden fungerer som et eksempel og utgangspunkt for andre analyser. For å utforske modellparametere, se GraPEs dokumentasjon (https://github.com/AnacletoLAB/grape).

Representative Results

Representative resultater ble produsert etter denne protokollen for å studere assosiasjonene mellom mitokondrieproteiner (tab 2) og åtte kardiovaskulære sykdomskategorier (tabell 3). I disse kategoriene fant vi 363 567 publikasjoner publisert fra 2012 til oktober 2022 (362 878 kategorisert etter MeSH-metadata, 6 923 kategorisert etter etikettimputering). Alle publikasjonene hadde titler, 276 524 hadde sammendrag og 51 065 hadde fulltekst tilgjengelig. Samlet sett ble 584 av de 1.687 forespurte mitokondrielle proteinene identifisert i publikasjonene, mens 3.284 av deres 8.026 forespurte funksjonelt relaterte proteiner ble identifisert. Totalt ble 14 unike proteiner identifisert med signifikant skår på tvers av alle sykdomskategoriene, med en z-skårgrense på 3,0 (figur 5). Reaktombaneanalysen av disse proteinene avslørte 12 veier som var signifikante for alle sykdommene (figur 6). Alle proteiner, veier, sykdommer og skår ble integrert i en kunnskapsgraf (tabell 4). Denne kunnskapsgrafen ble utnyttet til å forutsi 12 688 nye proteinsykdomsforeninger og filtrert med en sannsynlighetsscore på 0,90 for å gi 1 583 høykonfidensprognoser. Et fremhevet eksempel på to proteinsykdomsassosiasjoner er vist i figur 7, illustrert i sammenheng med andre relevante biologiske enheter funksjonelt beslektet med proteinene. Modellevalueringsmålene er rapportert i tabell 5.

Figur 1: Dynamisk visning av arbeidsflyten. Dette tallet representerer de fire hovedtrinnene i denne arbeidsflyten. Først kurateres relevante proteiner basert på brukergitte GO-termer (f.eks. cellulære komponenter), og sykdomskategorier utarbeides basert på de brukergitte sykdoms-MeSH-identifikatorene. For det andre beregnes assosiasjoner mellom proteiner og sykdommer i tekstutvinningstrinnet. Publikasjoner innenfor et bestemt datointervall lastes ned og indekseres. Sykdomsstuderende publikasjoner identifiseres (via MeSH-etiketter og eventuelt via imputerte etiketter), og fulltekstene lastes ned og indekseres. Proteinnavn spørres i publikasjonene og brukes til å beregne proteinsykdomsforeningens score. Deretter, etter tekstutvinning, hjelper disse poengene med å identifisere de beste protein- og baneforeningene. Til slutt konstrueres en kunnskapsgraf som omfatter disse proteinene, sykdommene og deres forhold i den biomedisinske kunnskapsbasen. Nye proteinsykdomsassosiasjoner forutsies basert på den konstruerte kunnskapsgrafen. Disse trinnene bruker de nyeste tilgjengelige dataene fra de biomedisinske kunnskapsbasene og PubMed. Klikk her for å se en større versjon av denne figuren.

Figur 2: Arbeidsflytens tekniske arkitektur. De tekniske detaljene i denne arbeidsflyten er illustrert i denne figuren. Brukeren oppgir MeSH-trenumrene til sykdomskategoriene og GO-termen(e). Tekstdokumenter lastes ned fra PubMed, sykdomsrelevante dokumenter identifiseres basert på de medfølgende MeSH-etikettene, og dokumenter uten emneindikerende MeSH-etiketter får imputerte kategorietiketter. Proteinene assosiert med de angitte GO-termene erverves. Dette proteinsettet utvides til å omfatte proteiner som er funksjonelt relatert via protein-protein-interaksjoner, delte biologiske veier og transkripsjonsfaktoravhengighet. Disse proteinene spørres i sykdomsrelevante dokumenter og skåres av CaseOLAP. Klikk her for å se en større versjon av denne figuren.

Figur 3: Et eksempel på et behandlet dokument. Et eksempel på et analysert, indeksert tekstdokument presenteres her. I rekkefølge angir relevante felt indeksnavnet (_index, _type), PubMed-ID (_id, pmid), dokumentunderavsnittene (tittel, sammendrag, full_text, introduksjon, metoder, resultater, diskusjon) og andre metadata (år, MeSH, sted, journal). Bare for visningsformål avkortes dokumentinndelingene med ellipser. MeSH-feltet inneholder dokumentemnene, som noen ganger kan gis av vårt etikettimputeringstrinn. Klikk her for å se en større versjon av denne figuren.

Figur 4: Kunnskapskartskjema og biomedisinske ressurser. Denne illustrasjonen viser kunnskapsdiagramskjemaet. Hver node og kant representerer henholdsvis en node eller kanttype. Kantene mellom kardiovaskulære sykdommer (CVD) og proteiner er vektet av CaseOLAP-score. Kantene på protein-proteininteraksjonen (PPI) vektes av STRING-konfidensscore. GRNdb/GTEx-avledet transkripsjonsfaktoravhengighet (TFD)-kanter, MeSH-avledede sykdomstrekanter og reaktomavledede banekanter er uvektede. Klikk her for å se en større versjon av denne figuren.

Figur 5: Topp proteinsykdomsforeninger. Denne figuren presenterer mitokondrielle proteiner som er signifikante for hver sykdomskategori. Z-score transformasjon ble brukt på CaseOLAP score innenfor hver kategori for å identifisere signifikante proteiner ved hjelp av en terskel på 3,0. (Øverst) Antall mitokondrielle proteiner signifikante for hver sykdom: Disse fiolinplottene viser fordelingen av z-score for proteiner i hver sykdomskategori. Det totale antall proteiner som er signifikante for hver sykdomskategori er vist over hvert fiolinplott. Totalt 14 unike proteiner ble identifisert som signifikante på tvers av alle sykdommene, og noen proteiner var signifikante for flere sykdommer. (Nederst) Toppscorende proteiner: Varmekartet viser de 10 beste proteinene som oppnådde de høyeste gjennomsnittlige z-poengene på tvers av alle sykdommene. De blanke verdiene representerer ingen oppnådd score mellom protein og sykdom. Klikk her for å se en større versjon av denne figuren.

Figur 6: Topp sykdomsassosiasjoner. Denne figuren illustrerer de øverste biologiske veiene knyttet til de studerte sykdomskategoriene, som bestemt via reaktomveisanalyse. Alle baneanalysene ble filtrert med p < 0,05. Varmekartverdiene representerer gjennomsnittlig z-score for alle proteinene i banen. (Øverst) Veier bevart blant alle sykdommene: Totalt ble 14 proteiner identifisert med relevans for alle sykdomskategoriene, og 12 konserverte veier blant alle sykdomskategoriene ble avslørt. Et dendrogram ble konstruert basert på banens hierarkiske struktur for å knytte veiene til lignende biologiske funksjoner. Dendrogramhøyden representerer den relative dybden i banehierarkiet; Brede biologiske funksjoner har lengre lemmer, og mer spesifikke veier har kortere lemmer. (Nederst) Pathways distinkt til en sykdomskategori: Pathway analyse ble utført ved hjelp av proteiner som oppnådde en signifikant z-score i hver sykdom. De tre øverste veiene med de laveste p-verdiene assosiert med hver sykdom vises og indikeres med stjerner. Veiene kan være innenfor topp tre i flere sykdommer. Klikk her for å se en større versjon av denne figuren.

Figur 7: Anvendelse av dyp læring for fullføring av kunnskapsgraf. Et eksempel på å bruke dyp læring på en sykdomsspesifikk kunnskapsgraf er presentert i denne figuren. Skjulte sammenhenger mellom proteiner og sykdom forutsies, og disse er markert med blått. Beregnede sannsynligheter for begge prediksjonene vises, med verdier fra 0,0 til 1,0 og med 1,0 som indikerer en sterk prediksjon. Flere proteiner med kjente interaksjoner er inkludert, som representerer protein-protein-interaksjoner, transkripsjonsfaktoravhengighet og delte biologiske veier. For visualisering vises en undergraf av noen få noder med relevans for det uthevede eksemplet. Nøkkel: IHD = iskemisk hjertesykdom; R-HSA-1430728 = metabolisme; O14949 = cytokrom b-c1 kompleks underenhet 8; P17568 = NADH dehydrogenase (ubiquinon) 1 beta subkompleks subenhet 7; Q9NYF8 Bcl-2-assosiert transkripsjonsfaktor 1, score: 7,24 x 10⁻⁷; P49821 = NADH dehydrogenase (ubiquinon) flavoprotein 1, mitokondrie, score: 1,06 x 10⁻⁵; P31930 = cytokrom b-c1 kompleks subenhet 1, mitokondriell, score: 4,98 x 10⁻⁵; P99999 = cytokrom c, poengsum: 0,399. Klikk her for å se en større versjon av denne figuren.

Tabell 1: Arbeidsflyt og hastighetsbegrensende trinn. Denne tabellen viser grove estimater av beregningstiden for hvert trinn i arbeidsflyten. Alternativer for å inkludere komponenter i pipelinen vil endre den totale kjøretiden som kreves for å fullføre analysen. Det totale tidsestimatet varierer avhengig av tilgjengelige beregningsressurser, inkludert maskinvarespesifikasjoner og programvareinnstillinger. Som et grovt estimat tok protokollen 36 timer aktiv kjøretid å utføre på vår beregningsserver, med seks kjerner, 32 GB RAM og 2 Tb lagringsplass, men dette kan være raskere eller tregere på andre enheter. Klikk her for å laste ned denne tabellen.

Tabell 2: Automatisk montering av de cellulære komponentproteinene. Denne tabellen viser antall proteiner assosiert med en gitt cellulær komponent (dvs. GO-term), proteiner funksjonelt relatert til dem via protein-proteininteraksjoner (PPI), delte veier (PW) og transkripsjonsfaktoravhengighet (TFD). Antall totale proteiner er antall proteiner fra alle de foregående kategoriene kombinert. Alle funksjonelt relaterte proteiner ble oppnådd ved bruk av CaseOLAP LIFTs standardparametere. Klikk her for å laste ned denne tabellen.

Tabell 3: MeSH etikett-imputeringsstatistikk. Denne tabellen viser sykdomskategoriene, MeSH-trenumrene som er brukt som overordnet betegnelse på alle sykdommene som inngår i kategorien, antall PubMed-artikler funnet i hver kategori fra 2012-2022, og antall tilleggsartikler som er inkludert basert på etikettimputeringstrinnet. Klikk her for å laste ned denne tabellen.

Tabell 4: Statistikk for konstruksjon av kunnskapsgraf. Denne tabellen beskriver statistikken for størrelsen på det konstruerte kunnskapsdiagrammet, inkludert de ulike nodene og kanttypene. CaseOLAP-poengene representerer forholdet mellom en protein- og kardiovaskulær sykdom (CVD) -kategori. Klikk her for å laste ned denne tabellen.

Tabell 5: Prediksjonsstatistikk og validering av kunnskapsdiagram. Denne tabellen rapporterer evalueringsberegningene for kunnskapsgrafkoblingsprediksjon av nye/skjulte proteinsykdomsforeninger. Kunnskapsgrafkantene ble delt inn i 70/30-opplærings- og testdatasett, og graftilkobling av kantene ble bevart i begge datasettene. Nøyaktigheten indikerer andelen prediksjoner som er riktig klassifisert, mens den balanserte nøyaktigheten korrigerer for klasseubalanse. Spesifisiteten indikerer andelen negative spådommer som er riktig klassifisert. Presisjonen indikerer andelen riktige positive spådommer ut av alle de positive spådommene, mens tilbakekallingen indikerer andelen riktige positive spådommer ut av alle de positive kantene (dvs. proteinsykdomsforeninger identifisert via tekstutvinning). F1-poengsummen er det harmoniske gjennomsnittet av presisjonen og tilbakekallingen. Området under mottakerens driftskarakteristikkkurve (AUROC) beskriver hvor godt modellen skiller mellom positive og negative prediksjoner, der 1,0 indikerer en perfekt klassifiserer. Området under AUPRC-kurven (precision-recall curve) måler avveiningen mellom presisjon og tilbakekalling ved ulike sannsynlighetsterskler, med høyere verdier som indikerer bedre ytelse. Klikk her for å laste ned denne tabellen.

Discussion

CaseOLAP LIFT gir forskere mulighet til å undersøke sammenhenger mellom funksjonelle proteiner (f.eks. Proteiner assosiert med en cellulær komponent, biologisk prosess eller molekylær funksjon) og biologiske kategorier (f.eks. sykdommer). Den beskrevne protokollen skal utføres i den angitte sekvensen, med protokollseksjon 2 og protokollseksjon 3 som de mest kritiske trinnene, da protokollseksjon 4 og protokollseksjon 5 avhenger av resultatene. Som et alternativ til protokollseksjon 1 kan CaseOLAP LIFT-koden klones og nås fra GitHub-depotet (https://github.com/CaseOLAP/caseolap_lift). Det skal bemerkes at til tross for testing under programvareutviklingen, kan det oppstå feil. I så fall bør det mislykkede trinnet gjentas. Hvis problemet vedvarer, anbefales det å gjenta protokolldel 1 for å sikre at den nyeste versjonen av docker-beholderen brukes. Ytterligere hjelp er tilgjengelig ved å opprette et problem på GitHub-repositoriet for ytterligere støtte.

Denne metoden støtter hypotesegenerering ved å gjøre det mulig for etterforskere å identifisere enheter av interesse og avsløre potensielle sammenhenger mellom dem, som kanskje ikke er lett tilgjengelige i eksisterende biomedisinske ressurser. De resulterende proteinsykdomsforeningene tillater forskere å få ny innsikt via poengenes tolkbare beregninger: popularitetspoengene indikerer de mest studerte proteinene i forhold til en sykdom, særegenhetspoengene indikerer sykdommer som er mest unike for et protein, og den kombinerte CaseOLAP-poengsummen er en kombinasjon av de to. For å forhindre falske positive identifikasjoner (f.eks. på grunn av homonymer), bruker noen tekstutvinningsverktøy en svarteliste med termer for å unngå ^9,11. På samme måte bruker CaseOLAP LIFT også en svarteliste, men lar brukeren skreddersy svartelisten til brukssaken. For eksempel, når man studerer koronararteriesykdom (CAD), bør "CAD" ikke betraktes som et navn på proteinet "caspase-aktivert deoksyribonuklease". Men når man studerer andre emner, kan "CAD" vanligvis referere til proteinet.

CaseOLAP LIFT tilpasser seg datamengden som er tilgjengelig for tekstutvinning. Datoperiodefunksjonaliteten lindrer beregningsbyrden og skaper fleksibilitet for hypotesegenerering (for eksempel å studere hvordan den vitenskapelige kunnskapen om en proteinsykdomsforening har endret seg over tid). I mellomtiden forbedrer etikettimputeringen og fulltekstkomponentene omfanget av data som er tilgjengelige for tekstutvinning. Begge komponentene er deaktivert som standard for å redusere beregningskostnadene, men brukeren kan bestemme seg for å inkludere begge komponentene. Etikettimputeringen er konservativ, og den kategoriserer de fleste publikasjoner riktig (87% presisjon), men savner andre kategorietiketter (2% tilbakekalling). Denne metoden er for tiden avhengig av en regelbasert heuristikk som samsvarer med sykdomsnøkkelord, og det er planer om å forbedre ytelsen ved bruk av dokumentemnemodelleringsteknikker. Siden mange ukategoriserte rapporter pleier å være nyere publikasjoner, er studier som undersøker en nylig datoperiode (f.eks. alle publikasjoner i løpet av de siste 3 årene) bedre tjent med å deaktivere etikettimputering. Fulltekstkomponenten øker kjøretids- og lagringskravene. Spesielt har bare et mindretall av dokumentene fulltekst tilgjengelig (~ 14% av dokumentene i vår studie). Forutsatt at proteinnavnene nevnt i publikasjonenes metodeseksjon har mindre sannsynlighet for å være relatert til sykdomsemnene, anbefales det å spørre i fulltekstartikler unntatt metodedelen.

De resulterende proteinsykdomsforeningspoengene er nyttige for tradisjonelle analyser som klynger, dimensjonalitetsreduksjon eller anrikningsanalyser (f.eks. GO, veier), med noe implementering inkludert i denne programvarepakken. For å kontekstualisere disse poengene innenfor eksisterende biomedisinsk kunnskap, blir en kunnskapsgraf automatisk konstruert og kan utforskes ved hjelp av grafvisualiseringsverktøy (f.eks. Neo4j³², Cytoscape³³). Kunnskapsgrafen kan også brukes til prediktive analyser (f.eks. linkprediksjon av urapporterte protein-sykdomsforhold, samfunnsdeteksjon av proteinnettverk, premieinnsamlingsmetoder).

Vi har undersøkt modellevalueringsmålene for de predikerte proteinsykdomsassosiasjonene (tabell 5). Modellen tilordner en sannsynlighetsscore mellom 0,0 og 1,0 til hver proteinsykdomsforening, med score nærmere 1,0 som indikerer et høyere nivå av tillit til prediksjonen. Den interne evalueringen av modellens ytelse, som var basert på ulike beregninger, inkludert AUROC, nøyaktighet, balansert nøyaktighet, spesifisitet og tilbakekalling, indikerte utmerket generell ytelse i arbeidet hans. Evalueringen fremhevet imidlertid også en ganske dårlig score for presisjonen (0,15) til modellen, noe som resulterte i både en lavere AUPRC- og F1-poengsum. Fremtidige studier for å forbedre denne beregningen vil bidra til å heve den generelle ytelsen til modellen. Vi ser for oss at dette kan oppnås ved å implementere mer sofistikerte kunnskapsgrafinnbygging og grafprediksjonsmodeller. Basert på modellens presisjon på 0,15, bør etterforskere forvente omtrent 15% positive identifikasjoner; Spesielt ut av alle de 12.688 proteinsykdomsforeningene som er spådd av modellen, er omtrent 15% sanne positive foreninger. Dette kan reduseres ved å vurdere bare proteinsykdomsforeninger med høy sannsynlighetsscore (f.eks. >0,90); I vårt brukstilfelle førte filtrering med en sannsynlighetsterskel på 0,90 til høykonfidensprediksjoner av 1 583 assosiasjoner. Etterforskere kan finne det nyttig å også manuelt inspisere disse spådommene for å sikre høy validitet (se figur 7 som et eksempel). En ekstern evaluering av våre prediksjoner fastslo at av de 310 proteinsykdomsforeningene fra en omfattende kuratert database DisGeNet¹⁹, ble 103 identifisert i vår tekstutvinningsstudie, og 88 ytterligere assosiasjoner ble spådd av vår kunnskapsgrafanalyse med en sannsynlighetsscore >0,90.

Samlet sett har CaseOLAP LIFT forbedret fleksibilitet og brukervennlighet ved utforming av tilpassede analyser av sammenhengen mellom funksjonelle proteingrupper og flere sykdomskategorier i store tekstkorpus. Denne pakken er strømlinjeformet i et nytt brukervennlig kommandolinjegrensesnitt og utgis som en docker-beholder, og reduserer dermed problemene knyttet til konfigurering av programmeringsmiljøene og programvareavhengighetene. CaseOLAP LIFT-rørledningen for å studere mitokondrielle proteiner i kardiovaskulære sykdommer kan enkelt tilpasses; For eksempel kan fremtidige anvendelser av denne teknikken innebære å undersøke sammenhengen mellom proteiner assosiert med noen GO-vilkår og enhver biomedisinsk kategori. Videre er de rangerte proteinsykdomsforeningene identifisert av denne tekstutvinningsplattformen viktige i utarbeidelsen av datasettet for bruk av avanserte naturlige språkteknikker. Den resulterende kunnskapsgrafen gjør det mulig for etterforskere å konvertere disse funnene til biologisk informativ kunnskap og legger grunnlaget for oppfølging av grafbaserte analyser.

Disclosures

Forfatterne har ingenting å avsløre.

Acknowledgments

Dette arbeidet ble støttet av National Institutes of Health (NIH) R35 HL135772 til P.P., NIH T32 HL13945 til ART og DS, NIH T32 EB016640 til ARP, National Science Foundation Research Traineeship (NRT) 1829071 til ARP og DS, NIH R01 HL146739 for I.A., J.R., A.V., K.B. og TC Laubisch Endowment to P.P. ved UCLA.

Materials

Name	Company	Catalog Number	Comments
Software - Docker	Docker	N/A	docker.com

DOWNLOAD MATERIALS LIST

References

The UniProt Consortium et al. UniProt: The universal protein knowledgebase in 2021. Nucleic Acids Research. 49, D480-D489 (2021).
Davis, A. P., et al. Comparative toxicogenomics database (CTD): Update 2023. Nucleic Acids Research. 51, D1257-D1262 (2023).
Mohtashamian, M., Abeysinghe, R., Hao, X., Cui, L. Identifying missing IS-A relations in orphanet rare disease ontology. Proceedings. IEEE International Conference on Bioinformatics and Biomedicine. 2022, 3274-3279 (2022).
Rehm, H. L., et al. ClinGen - The clinical genome resource. New England Journal of Medicine. 372 (23), 2235-2242 (2015).
Caulfield, M., et al. The National Genomics Research and Healthcare Knowledgebase. , (2019).
Ma, X., Lee, H., Wang, L., Sun, F. CGI: A new approach for prioritizing genes by combining gene expression and protein-protein interaction data. Bioinformatics. 23 (2), 215-221 (2007).
Gutiérrez-Sacristán, A., et al. Text mining and expert curation to develop a database on psychiatric diseases and their genes. Database. 2017, 043 (2017).
Sigdel, D., et al. Cloud-based phrase mining and analysis of user-defined phrase-category association in biomedical publications. Journal of Visualized Experiments. (144), e59108 (2019).
Yu, K. -H., et al. Systematic protein prioritization for targeted proteomics studies through literature mining. Journal of Proteome Research. 17 (4), 1383-1396 (2018).
Lau, E., et al. Identifying high-priority proteins across the human diseasome using semantic similarity. Journal of Proteome Research. 17 (12), 4267-4278 (2018).
Pletscher-Frankild, S., Pallejà, A., Tsafou, K., Binder, J. X., Jensen, L. J. DISEASES: Text mining and data integration of disease-gene associations. Methods. 74, 83-89 (2015).
Liu, Y., Liang, Y., Wishart, D. PolySearch2: A significantly improved text-mining system for discovering associations between human diseases, genes, drugs, metabolites, toxins and more. Nucleic Acids Research. 43, W535-W542 (2015).
Minot, S. S., Barry, K. C., Kasman, C., Golob, J. L., Willis, A. D. geneshot: Gene-level metagenomics identifies genome islands associated with immunotherapy response. Genome Biology. 22 (1), 135 (2021).
Lee, S., et al. BEST: Next-generation biomedical entity search tool for knowledge discovery from biomedical literature. PloS One. 11 (10), 0164680 (2016).
Wei, C. -H., Allot, A., Leaman, R., Lu, Z. PubTator central: Automated concept annotation for biomedical full text articles. Nucleic Acids Research. 47 (W1), W587-W593 (2019).
Jimeno-Yepes, A. J., Sticco, J. C., Mork, J. G., Aronson, A. R. GeneRIF indexing: Sentence selection based on machine learning. BMC Bioinformatics. 14 (1), 171 (2013).
Wei, C. -H., et al. tmVar 2.0: Integrating genomic variant information from literature with dbSNP and ClinVar for precision medicine. Bioinformatics. 34 (1), 80-87 (2018).
Maglott, D., Ostell, J., Pruitt, K. D., Tatusova, T. Entrez Gene: Gene-centered information at NCBI. Nucleic Acids Research. 33, D54-D58 (2005).
Piñero, J., et al. The DisGeNET knowledge platform for disease genomics: 2019 update. Nucleic Acids Research. 48, D845-D855 (2019).
Lee, J., et al. BioBERT: A pre-trained biomedical language representation model for biomedical text mining. Bioinformatics. 36 (4), 1234-1240 (2020).
Szklarczyk, D., et al. STRING v11: Protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, D607-D613 (2019).
Gillespie, M., et al. The reactome pathway knowledgebase 2022. Nucleic Acids Research. 50, D687-D692 (2022).
Fang, L., et al. GRNdb: Decoding the gene regulatory networks in diverse human and mouse conditions. Nucleic Acids Research. 49, D97-D103 (2021).
Doğan, T., et al. CROssBAR: Comprehensive resource of biomedical relations with knowledge graph representations. Nucleic Acids Research. 49 (16), 96 (2021).
Fernández-Torras, A., Duran-Frigola, M., Bertoni, M., Locatelli, M., Aloy, P. Integrating and formatting biomedical data as pre-calculated knowledge graph embeddings in the Bioteque. Nature Communications. 13 (1), 5304 (2022).
Himmelstein, D. S., et al. Systematic integration of biomedical knowledge prioritizes drugs for repurposing. eLife. 6, e26726 (2017).
Zheng, S., et al. PharmKG: A dedicated knowledge graph benchmark for biomedical data mining. Briefings in Bioinformatics. 22 (4), (2021).
Morselli Gysi, D., et al. Network medicine framework for identifying drug-repurposing opportunities for COVID-19. Proceedings of the National Academy of Sciences of the United States of America. 118 (19), 2025581118 (2021).
Santos, A., et al. A knowledge graph to interpret clinical proteomics data. Nature Biotechnology. 40 (5), 692-702 (2022).
Cappelletti, L., et al. GraPE: Fast and scalable graph processing and embedding. arXiv. , (2021).
Yang, B., Yih, W., He, X., Gao, J., Deng, L. Embedding entities and relations for learning and inference in knowledge bases. arXiv. , (2014).
Neo4j Graph Data Platform. , Available from: https://neo4j.com/ (2022).
Shannon, P., et al. Cytoscape: A software environment for integrated models of biomolecular interaction networks. Genome Research. 13 (11), 2498-2504 (2003).

Biochemistry

En kunnskapsgraftilnærming for å belyse rollen som organellære veier i sykdom via biomedisinske rapporter

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.