Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove

Medicine

En Metadata utvinning tilnærming for kliniske Case rapporter aktivere avanserte forståelse av biomedisinsk begreper

doi: 10.3791/58392 Published: September 20, 2018

Summary

Vi presenterer en protokoll og tilhørende mal for utvinning av tekst som beskriver biomedisinsk konsepter i kliniske tilfeller rapporter. Strukturert tekstverdiene gjennom denne protokollen kan støtte dyp analyse av klinisk fortellinger.

Abstract

Klinisk case rapporter (CCRs) er en verdifull måte å dele observasjoner og innsikt i medisin. Form av disse dokumentene varierer, og deres innhold omfatter beskrivelser av mange, Roman sykdom presentasjoner og behandlinger. Så langt, er tekstdata i CCRs hovedsakelig ustrukturert, krever betydelig menneskelige og beregningsorientert innsats å gjengi disse dataene nyttig for detaljert analyse. I denne protokollen beskriver vi metodene for å identifisere metadata tilsvarer spesifikke biomedisinsk begrepene ofte observert i CCRs. Vi tilbyr en metadatamal som en guide for dokumentet merknaden, erkjenner at imponerende struktur på CCRs kan gjennomføres av kombinasjoner av manuelle og automatiserte innsats. Tilnærmingen presenteres her passer for organisering av konseptet-relaterte tekst fra en stor litteratur corpus (f.eks tusenvis av CCRs), men kan være enkelt tilpasses til å rette mer fokuserte aktiviteter eller liten rapportsett. Resultatdataene strukturert tekst inneholder tilstrekkelig semantisk kontekst for å støtte en rekke etterfølgende tekst analyse arbeidsflyter: meta-analyser for å avgjøre hvordan maksimere CCR detaljer, Epidemiologiske studier av sjeldne sykdommer, og utvikling av modeller av medisinsk språk kan alt gjøres mer realiserbar og administreres ved hjelp av strukturert tekstdata.

Introduction

Klinisk case rapporter (CCRs) er en grunnleggende metode for å dele observasjoner og innsikt i medisin. Dette tjene som en grunnleggende mekanisme for kommunikasjon og utdanning for leger og medisinske studenter. Historisk har CCRs også gitt kontoer av nye sykdommer, deres behandlinger og deres genetisk bakgrunn1,2,3,4. For eksempel rapportert den første behandlingen av menneskelig rabiat av Louis Pasteur i 18855,6 og den første anvendelsen av penicillin hos pasienter7 var både gjennom CCRs. Mer enn 1.87 millioner CCRs har blitt publisert i April 2018, med over en halv million i det siste tiåret; journaler fortsetter å tilby nye arenaer for disse rapporter8. Om unike i form og innhold, CCRs inneholder tekstdata som er i stor grad ustrukturert, inneholder et stort ordforråd, og bekymring beslektede fenomener, begrense deres bruk som en strukturert ressurs. Betydelig innsats er nødvendig for å pakke ut detaljerte metadata (dvs. "data om data", eller i dette tilfellet, beskrivelser av dokumentinnholdet) fra CCRs og etablere seg som en søkbar, tilgjengelig, interoperable og gjenbrukbare (FAIR)9 -data ressurs.

Her beskriver vi en prosess for å trekke ut tekst og numeriske verdier å standardisere beskrivelsen av spesifikke biomedisinsk begrepene innen publiserte CCRs. Denne metoden inkluderer en metadatamal veileder merknad. se figur 1 for en oversikt over denne prosessen. Søknad av merknaden til et stort antall rapporter (f.eks, flere tusen av en bestemt type sykdom presentasjon) tillater montering av håndterbare og strukturert kommenterte klinisk tekster, oppnå maskinlesbar dokumentasjon og biomedisinsk fenomener innebygd i hver kliniske presentasjonen. Selv om data formater som dem som tilbys av HL7 (f.eks., versjon 3 av de Messaging Standard10 eller rask Healthcare interoperabilitet ressurser [FHIR]11), LOINC12og revisjon 10 av det internasjonale statistiske Klassifisering av sykdommer og relaterte helseproblemer (ICD-10)13 gi standarder for å beskrive og utveksle kliniske observasjoner, de ikke fange teksten rundt disse dataene, eller de skal. Resultatene av vår metode er best brukt å håndheve struktur på CCRs og lette påfølgende analyse, normalisering gjennom kontrollert vocabularies og koding systemer (f.eks., ICD-10), og/eller konvertering til kliniske dataformatene ovenfor .

Gruvedrift CCRs er et aktivt område arbeid innen biomedisinsk og klinisk informatikk. Selv om tidligere forslag å standardisere strukturen i tilfelle rapporter (f.eks., bruk HL7 v2.514 eller standardisert fenotypen terminologi15) er prisverdig, er det sannsynlig at CCRs vil fortsette å følge en rekke forskjellige språk skjemaer og dokumentoppsett, som de har for mye av det siste århundret. Under ideelle forhold Følg forfatterne av ny rettssak meddeler omsorg retningslinjer16 for å sikre de omfattende. Tilnærminger følsom for både naturlig språk og dens forhold til medisinsk konsepter kan derfor være mest effektive i arbeidet med nytt og arkiverte rapporter. CRAFT17 og de produsert av informatikk for integrere biologi og sengen (i2b2)18 konservering støtter naturlig språkbehandling (NLP) tilnærminger, men ikke spesielt fokus på CCRs eller klinisk fortellinger. Tilsvarende medisinsk NLP verktøy som cTAKES19 og KLEMME20 har blitt utviklet, men vanligvis identifisere bestemte ord eller uttrykk (dvs., enheter) i dokumenter i stedet for den generelle konseptet ofte beskrevet i CCRs.

Vi har utviklet en standardisert mal for funksjoner vanligvis inkludert i CCRs. Denne malen definerer funksjoner for å innføre struktur på CCRs, en viktig forløper for grundig sammenligninger av dokumentinnholdet-ennå gir tilstrekkelig fleksibilitet til å beholde semantisk sammenheng. Selv om vi har designet formatet knyttet til denne malen være passende for både manuell merknader og beregningsmessig-assistert tekst gruvedrift, har vi sikret det er spesielt enkel å bruke for manuell annotators. Vår tilnærming forskjellig merkbart fra mer intrikate (og derfor mindre umiddelbart forståelig for utrente forskere) rammer som FHIR21. Følgende protokollen beskriver hvordan du isolerer Dokumentfunksjoner som tilsvarer hver mal datatype, med et enkelt sett med verdier tilsvarer de i en enkelt CCR.

Datatypene i malen er de mest beskrivende for CCRs og pasient-fokusert medisinsk dokumenter generelt. Merknad av disse funksjonene fremmer findability, tilgjengelighet, interoperabilitet og gjenbruk av CCR tekst, hovedsakelig ved å gi det struktur. Datatypene er i fire generelle kategorier: dokumentet og merknader identifikasjon, case rapport identifikasjon (dvs. dokumentnivå egenskaper), medisinske innhold konsepter (hovedsakelig konsept-nivå egenskaper) og takk (dvs. funksjoner som gir bevis for finansiering). I denne merknaden prosessen inneholder hvert dokument hele teksten i en CCR, utelater dokumentet innholdet materiale uavhengig saken (f.eks eksperimentelle protokoller). CCRs er generelt mindre enn 1000 ord; en enkelt corpus ideelt skal indekseres av samme bibliografisk database og være i samme skriftlig språk.

Produktet av tilnærming som er beskrevet her, når det gjaldt å en CCR corpus, er et strukturert sett kommenterte klinisk tekst. Mens denne metodikken kan utføres fullstendig manuelt og er designet for å være utført av domene eksperter uten informatikk erfaring, det utfyller naturlig språkbehandling tilnærminger ovenfor og gir data passer for beregningsorientert analyse. Slike analyser kan være av interesse for publikum av forskere utover de som ofte leser CCRs, inkludert:

  • de opptatt sykdom presentasjoner, viktige symptomene, vanlige diagnostiske tilnærminger og behandlinger
  • de som ønsker å sammenligne resultatene av kliniske forsøk med hendelsene beskrevet i klinisk litteratur, å gi ytterligere observasjoner og større statistisk styrke.
  • Bioinformatikk, biomedisinsk informatikk og computer science forskere som krever strukturert medisinsk språk datasett eller høyt nivå forståelser av medisinsk fortellinger
  • Regjeringen politikk forskere fokuserer på hvordan kliniske studier kan best gjenspeile hvordan diagnose og behandling som det skjer i virkeligheten

Håndheve struktur på CCRs kan støtte mange påfølgende innsats for å bedre forstå både medisinsk språk og biomedisinsk fenomener.

Protocol

1. dokumentet og merknader

Merk: Verdier i denne kategorien støtte merknad prosessen.

  1. Bruke malen merknad, gi en identifikator som er spesifikke for disse metadataene satt, f.eks Case123. Identifikator-formatet bør være konsekvent på hele prosjektet (f.eks Case001 gjennom Case500).
  2. Angi datoen da et dokument ble lest og kommentert. Bruke et format som ligner "Jan 10 2018" for konsistens og lesbarhet.

2. case rapport identifikasjon

Merk: Verdier i denne kategorien inneholder funksjoner for dokumentet nivå og bidra til dokumentets findability.

  1. Være i samsvar med formatet for hvert felt over alle merknader, f.eks enkeltverdiene skal skilles med semikolon uten følgende mellomrom i alle poster. Bruk identiske formater som brukes i det opprinnelige dokument eller de som brukes i en bibliografisk database som MEDLINE.
  2. Angi tittelen på dokumentet.
  3. Inneholder navnene på alle forfattere av dokumentet i den oppgitte rekkefølgen. Normalisere formatet for alle navn, slik at alle tar form av en enkelt vare navnet etterfulgt av en initialer, f.eks Jane B. Park blir Park JB. Inneholde ikke titler. Skill flere forfattere med semikolon uten ekstra tegnsetting, slik at John A. Smith, Jane B. Park tar en form av Smith JA; Park JB.
  4. Angi utgivelsesår i dokumentet.
  5. Gi hele tittelen på kladden der dokumentet ble publisert. En liste over kontrollert journalnavn er levert av NLM katalogen (https://www.ncbi.nlm.nih.gov/nlmcatalog).
  6. Angi adressen til hjem institusjonen av forfatterne av dokumentet, som angitt i dokumentet. Dette kan inkludere avdelinger, geografiske områder og postadresse detaljer.
    1. Hvis flere steder angis (f.eks hvis overbevisninger forskjellig mellom forfattere) angir bare detaljer for tilsvarende forfatteren. Hvis en tilsvarende forfatter ikke kan identifiseres, bruke den første forfatteren eller ikke angir en institusjon. Hvis en tilsvarende forfatter har flere styreverv, spesifisere og atskilles med semikolon.
  7. Gi tilsvarende forfatteren av dokumentet, som angitt i overskriften dokument med samme format som brukes i datatypen forfattere.
  8. Gi en dokument-ID (f.eks en PMID).
  9. Gi en Digital objektidentifikatoren, hvor mulig og tilgjengelig, løses til dokumentet URL (gjennom https://www.doi.org/), ikke en PubMed sentral side.
  10. Gi en stabil URL til hele teksten i dokumentet, hvis. For å maksimere tilgjengelighet, kan dette være PubMed sentral versjonen.
  11. Angi dokumentspråk. For dokumenter i flere språk, gi både, atskilt med semikolon.

3. medisinsk innhold

Merk: Verdier i denne kategorien identifisere dokumentet nivå og konsept-nivå tekstnivå funksjoner. De serverer å forbedre dokumentets tilgjengelighet, interoperabilitet og gjenbruk. Disse funksjonene gir måter å observere begreper og semantisk likheter mellom dokumentinnhold, med fokus på biomedisinsk emner og hendelser. De fleste kategorier i denne delen kan omfatte flere tekst uttalelser og hver skal skilles med semikolon.

  1. Inkluderer kontekstmenyer detalj i hvert felt (f.eks "mor hadde brystkreft ved 50 år") snarere enn å gi bare termer fra et kontrollert vokabular (f.eks ikke "brystkreft" alene). Inneholde ikke detaljert informasjon utover hver observasjon.
  2. Utelat ofte gjentatte ord og uttrykk (f.eks pronomen, ordet "pasienten", og fraser "klaget over" eller "presentert med"). Om subjektivitet over flere annotators er sannsynlig, reduseres den ved å ha flere annotators for hvert dokument og gjennom automatisert normalisering etter datainnsamling. Computational etterbehandling tilnærminger vil variere etter påfølgende analysebehov og er ikke omtalt her i detalj.
  3. Angi følgende informasjon i malen merknad.
    1. Gi spesifikke termer identifisert i et dokument, vanligvis i header, som viktige begreper. Atskilles med semikolon som vilkår kan inneholde annen tegnsetting.
    2. Angi demografiske verdier, spesielt noen tekst setninger som beskriver en pasients bakgrunn, inkludert sex og/eller kjønn, alder, etnisitet eller nasjonalitet.
    3. Gi geografiske steder nevnt i klinisk fortellingen, enn bestemt institusjon adresser. Dette bør ikke inneholde anatomiske steder/deler, men kan inkludere alle geografiske nasjonale der pasienten bor eller reiser.
    4. Angi livsstil verdier, inkludert alle tekst uttalelser som beskriver aktivitetene du pasienten eller atferd som er relevante for deres generelle helse. I praksis dette ofte innebærer røyking eller alkohol forbruk vaner, men kan også omfatte soleksponering, diett eller hyppigheten av bestemte typer fysisk aktivitet.
    5. Angi medisinsk historie verdier refererer til familiens historie. Inkluder alle tekst setninger som beskriver kliniske observasjoner av og hendelser oppleves av søsken, foreldre og andre familiemedlemmer. Genetiske forhold og negative observasjoner (dvs. familie historie var negativ for en sykdom).
    6. Angi verdier som refererer til sosialhistorie, inkludert alle tekst uttalelser beskriver pasienten bakgrunnen ikke dekket i demografi eller livsstil. Det kan være overlappinger i innhold mellom disse kategoriene. Uttalelser kan inkludere yrkesmessig historie og sosiale vaner.
    7. Angi verdier som refererer til pasientens medisinske og kirurgiske historie. Inkluder alle tekst uttalelser beskriver noen medisinsk observasjoner, behandlinger eller andre hendelser som skjer før begynnelsen av kliniske presentasjonen. Dette inkluderer obstetrisk historie og perioder med god helse, der det er angitt.
    8. Angi ett eller flere av de følgende 16 sykdom systemet. Merk at disse verdiene kategoriske fri-tekst. Kategorier er ikke omfattende, men avgir de fleste systemer påvirket av hendelsene beskrevet i kliniske presentasjonen og diagnostisert sykdom.
      1. Følge et bestemt sett med kategorier, på kategoriene brukes i International Statistical Classification of Diseases og Related Health Problems, revisjon kodesystem for 10 (ICD-10). Se tabell 1 for sykdom systemet kategorilisten sammen med tilsvarende ICD-10 kode områder.
    9. Gi opplysninger om alle tegn og symptomer. Inkluder alle tekst uttalelser beskriver noen medisinsk observasjoner av tegn eller symptomer begynner ved første presentasjonen, inkludert utbruddet, varighet, alvorlighetsgrad og oppløsning, hvis oppgitt. Inneholde ikke symptomene som er beskrevet i utfallet. Disse verdiene kan overlappe med andre typer Hvis symptomene fortsetter fra historie til første presentasjonen.
    10. Gi opplysninger om noen samtidige. Inkluder ord eller fraser som beskriver forskjellige sykdommer tilstede ved første kliniske presentasjonen. Det er sannsynlig overlapping mellom disse verdiene og de kliniske historie, men lidelser ikke kan inkludere vilkår identiske med dem i diagnosen.
    11. Gi opplysninger om alle diagnostiske teknikker og prosedyrer. Inneholde navn på medisinske prosedyrer gjort for diagnoseformål, inkludert undersøkelser, tester, og bildebehandling, i tillegg til forholdene som disse testene ble utført og relevante anatomiske steder (f.eks "øvre ekstremitetene venøs ultralyd"). Ekskludere testresultater.
    12. Gi opplysninger om diagnosen. Inkluder alle tekst uttalelser beskriver diagnoser av sykdom, selv om en endelig diagnose er tvetydig.
    13. Gi alle laboratorie-verdier og testresultater. Inkluder navnene på diagnostiske tester, verdier og forhold som de ble utført. Dette vil innebære overlapping med begrepene i diagnostiske teknikker og prosedyrer datatype. Både numeriske og kvalitative verdier (f.eks full blodstatus var innenfor normale grenser) er akseptable. Hvis navnene på diagnostiske tester ikke er levert, bruk vilkår som beskriver resultatene (f.eks leukopeni), men de bør også inkluderes i tegn og symptomer.
    14. Gi opplysninger om patologi. Ta noen tekst setninger som beskriver resultatene av patologi og histology studier, inkludert brutto patologi, immunologi og mikroskopi studier. Vilkår kan overlappe med de som brukes i diagnostiske teknikker og prosedyrer (trinn 3.11), f.eks med prosedyrene utført for å få prøver som biopsi.
    15. Gi alle farmakologisk behandling. Ta noen tekst setninger som beskriver bedøve terapeut brukt i forbindelse med behandling, inkludert generelle vilkår som antibiotika eller bestemte medikamentnavn. Inkluder også beskrivelser av når og hvor stoffet terapi ble stoppet.
    16. Gi alle intervensjonsradiologi prosedyrer. Inkluder alle tekst uttalelser beskriver terapeutiske prosedyrer brukes i behandling, inkludert invasiv prosedyrer, implantering av medisinsk utstyr og prosedyrer som er gjort for å gjøre andre terapier. Også inkludere beskrivelser av når og hvordan pågående terapeutiske prosedyrer ble stoppet, om nødvendig.
    17. Gi det pasient utfallet. Ta noen tekst setninger som beskriver tilstanden til pasienten ved slutten av kliniske presentasjonen beskrevet i rapporten, inkludert oppfølging tester.
    18. Gi antall alle diagnostiske bilder, figurer, videoer/animasjoner og tabeller. Inkluderer alle punkter av visuelle medier inkludert i rapporten, i følgende format: antall bilder; Antall tall; Antall videoer eller animasjoner; Antall tabeller.
      1. Skille mellom bilder og figurer på denne måten: bilder inkluderer produkter av klinisk diagnostikk, inkludert bilder, micrographs, elektrokardiogram rytme bilder og andre produkter diagnostic Imaging, mens tallene er alle andre bilder, vanligvis inkludert data tomter og illustrasjoner.
    19. Gi bevis for relasjoner til andre CCRs. Dette feltet kan inneholde identifikatorer (f.eks PMIDs) til andre rapporter i datasettet sitert av eller refererer til denne rapporten.
    20. Beviser relasjoner til kliniske studier. Dette feltet kan inneholde identifikatorer av kliniske studier siterer denne CCR. Identifisere studier av identifikatorer ClinicalTrials.gov, foran NCT, eller annen stabil identifikator.
    21. Inkluderer databasen krysskoblinger tilsvarer dette dokumentet, inkludert identifikatorer, fortrinnsvis som databasenavn og stabil nettadresser.

4. takk

Merknader: Verdier i denne kategorien dokumentnivå funksjoner, men har liten konsekvent over publikasjoner. De gir detaljer om organisasjoner gir støtte for en CCR og relaterte arbeid. Denne kategorien inkluderer også et felt for det totale antallet referanser sitert av en artikkel: Dette er ment å gi en grov beregning av grad som et dokument har begrepsmessige relasjoner med andre biomedisinsk dokumenter av enhver type. I de fire datatypene i denne delen, gir følgende.

  1. Angi alle finansieringskilder støtter arbeidet og tilhørende PI samt aktuelle prisen tall. Den første verdien, finansiering kilde, bør inneholde navnene på alle organisasjoner å gi økonomisk støtte for arbeidet.
    1. Separat organisasjoner med semikolon og områder, f.eks Nasjonale institutter for helse/National Cancer Institute; DOE; Smith-Park Foundation .
    2. For den følgende verdien, Award tall, angi noen pris tall eller spesifikke betegnelser leveres med mottakerne av tildelingene, eventuelt som initialene til mottakerne i parentes, f.eks R01HL123123 (til JP) , NS12312 (til JP, JS), trening forskningsstipend (til JS). Forfattere kan tydelig at ingen tilsvarende informasjon er tilgjengelig (f.eks "finansiering mottok"); i disse tilfellene kan du bruke tekst levert av forfatterne som finansiering kildeverdien. Ellers skal verdien være NA.
  2. Angi tilleggsopplysninger/konflikter av interesse som angitt av forfatterne, f.eks JP er konsulent for DrugCo. Forfattere kan tydelig at ingen tilsvarende informasjon er tilgjengelig (f.eks "noen interessekonflikt er erklært"); i disse tilfellene kan du bruke tekst levert av forfatterne som avsløringer/konflikt av interesse verdi. Ellers, som ovenfor, skal verdien være NA.
  3. Angi en numerisk antall alle referanser sitert av dokumentet, ikke inkludert i supplerende materiale. Ingen referanseteksten bør inkluderes i dette feltet.

Representative Results

En merknad eksempel er vist i figur 2. Denne saken22 beskriver en presentasjon av infeksjon av bakteriell patogen stokk thailandensis. For referanse, er den relevante delen av denne CCR tilgjengelig i rent tekstformat i supplerende fil 1; noen forskningsresultater er også presentert i denne rapporten og er inkludert for sammenligning. I praksis, kan konvertere rapporter i HTML eller PDF-format til ren tekst forbedre effektiviteten og lette av metadata utvinning.

Eksempler på to sett med fullført CCR metadata merknader er gitt i tabell 2. Først av disse eksemplene er uekte data å illustrere det ideelle formatet til helheten, mens det andre eksemplet inneholder verdier Hentet fra en publisert CCR på en sjelden tilstand, acrodermatitis enteropathica23.

Figure 1
Figur 1. Arbeidsflyt for Case rapport merknaden. Protokollen beskrevet her gir en metode for identifikasjon av tekstlig funksjoner som ofte finnes i kliniske tilfeller rapporter. Denne prosessen krever montering av en dokumentet corpus. Produktet av merknaden prosessen, en gang samlet i én fil, tillater identifikasjon av tekstfunksjoner tilknyttet medisinske begreper og beskrivelser i rapporter for saken. Klikk her for å se en større versjon av dette tallet.

Figure 2
Figur 2. Identifikasjon av konseptet-spesifikk tekst i en klinisk Case rapport. Fra og med teksten i en, kan en manuell annotator fremgang gjennom dokumentet identifisere deler av teksten tilsvarer hver komponent av metadatamalen. Identifikasjon funksjoner er uthevet i blått. Tekst for medisinske begreper er i rødt og merket med type; alle uthevet tekst i den tredje kolonnen viser hvilken patologi. Klikk her for å se en større versjon av dette tallet.

Kategori Beskrivelse ICD-10 kapittel ICD-10 kode utvalg
kreft Alle typer kreft eller ondartet neoplasm. II C00-D49
nervøs Sykdom av hjernen, ryggraden eller nerver. VI G00-G99
hjerte Sykdom i hjertet eller karsystemet. Inkluderer ikke Hematologisk sykdommer. IX I00-I99
muskel og revmatiske Sykdom av muskler, skjelettsystemet, ledd og bindevev. XIII M00-M99
fordøyelseskanal Sykdom av mage-tarmkanalen og fordøyelsesorganer, inkludert lever og bukspyttkjertel. XI K00-K95
obstetriske og gynekologisk Sykdom knyttet til graviditet, fødsel, kvinnelige reproduktive system eller brystene. XIV; XV O00-O9A; N60-N98
smittsomme Sykdom fører av smittsomme mikroorganismer. Jeg A00-B99
luftveiene Sykdom i lungene og luftveiene. X J00-J99
Hematologic Sykdom av blod, beinmarg, lymfeknuter eller milten. III D50-D89
nyre og Urologiske Sykdom av nyrer eller blæren, inkludert urinlederne, i tillegg til det mannlige reproduksjonssystemet organer, inkludert prostata. XIV N00-N53; N99
endokrine Sykdom av det endokrine kjertler, i tillegg til metabolske forstyrrelser. IV E00-E89
muntlig og maxillofacial Enhver tilstand som involverer munn, Haisommer, hode, ansikt, eller halsen. XI. XIII K00-K14; M26-M27
øye Enhver tilstand som involverer øynene, inkludert blindhet. VII H00-H59
otorhinolaryngologic En tilstand av øret, nese eller hals. VIII H60-H95; J30-J39
huden Sykdom i huden. XII L00-L99
sjeldne En spesiell kategori reservert for rapporter om sjeldne sykdommer, som påvirker færre enn 200 000 personer i USA (se https://rarediseases.info.nih.gov/diseases) NA NA

Tabell 1. Sykdom kategorier for dokumentet merknaden. Kategoriene her er de som skal brukes for datatypen sykdom System i metadata dokumentmalen. Som hver sykdom presentasjon kan innebære flere organsystemer eller etiologies, kan en klinisk case rapport tilsvare flere kategorier. Disse kategoriene i hovedsak følge de brukes til å skille delene av International Statistical Classification of Diseases og Related Health Problems, revisjon 10 (ICD-10) kode system: tilsvarende ICD-10 kapittel og kode områder. Noen kategorier, som for muntlig og maxillofacial sykdom, samsvarer med flere deler av ICD-10.

Datatype Eksempel #1 Eksempel #2 (Cameron og McClain 1986)
Dokumentet og merknad identifikasjon
Interne ID CCR005 CCR2000
Merknad dato Mar 2 2018 Mar 1 2018
Case rapport identifikasjon
Tittel Et tilfelle av endokarditt. Okulære histopatologi av acrodermatitis enteropathica.
Forfattere Grant AB; Chang CD Cameron JD; McClain CJ
År 2017 1986
Journal Verden Journal of Medicine og saken rapporter Britisk tidsskrift for Oftalmologi
Institusjon Institutt for indremedisin, delingen av kardiologi, første General Hospital, Boston, Massachusetts, USA Institutt for Oftalmologi, University of Minnesota medisinstudiet, Minneapolis, Minnesota 55455
Tilsvarende forfatter Grant AB Cameron JD
PMID 25555555 3756122
DOI 10.1011/wjmcr.2017.11.001 NA
Kobling https://www.ncbi.nlm.nih.gov/PMC/articles/PMC9555555/ https://www.ncbi.nlm.nih.gov/PMC/articles/PMC1040795/
Språk Engelsk Engelsk
Medisinsk innhold
Stikkord brucellose; Endokarditt; mitral ventil NA
Demografi 37-år gammel mann mann barn
Geografiske områder Florida. Rio de Janeiro, Brasil NA
Livsstil røyker; drikker alkohol noen ganger NA
Familiens historie tredje av fem barn consanguineous foreldre; yngre bror har kronisk eksem NA
Sosialhistorie bygningsarbeider NA
Medisinsk/kirurgisk historie historien om tretthet 8 pund 9 unse (3884 g) produkt av en ukomplisert, full svangerskapet; i god helse til alder 1 måned når han utviklet en sviende hudutslett på kinnene; utslett spre for å involvere huden rundt øyne, nese og munn. hudlesjoner ble også bemerket på magen og ekstremiteter; diaré og manglende trives; hudbiopsi på den tiden viste parakeratosis typisk for acrodermatitis enteropathica; behandlet de neste seks årene med intermitterende kurs bredbånds-antibiotika, morsmelk og diodoquin; delvis svarte; utviklet totale alopecia og intermitterende acrodermatitis tilbakevendende diaré med suboptimal vektøkning; spastisitet tilskrevet sentralnervesystemet involvering av ae hadde utviklet av 8 måneder av alderen; flere episoder av hjerte arrest på 11 måneder; mangel på koordinering av sine stemmebåndene; tracheostomi; ved alder 18 måneder utviklet barnet søker nystagmus knyttet til bilaterale fiberoptisk atrofi og liten demping av netthinnen fartøy og tegn av psykomotorisk utviklingshemning; bilaterale keratoconjunctivitis; hudutslett; andre hudbiopsi på alder 3 viste parakeratosis typisk for ae; alvorlig hudutslett og diaré; bilaterale brutto fremre hornhinnen tetthet ble sett som hadde helt løst da han var reexamined femåring; hyppige infeksjoner inkludert mellomørebetennelse og urin skrift infeksjoner, hudinfeksjoner
Sykdom System hjerte; smittsomme fordøyelseskanal; huden; øyet; sjeldne
Tegn og symptomer hjertebank og dyspné i forrige uke; presentert med apati, hodepine og frysninger alvorlig blepharoconjunctivitis og bilaterale fremre hornhinnen vascularisation; alvorlig hudutslett og diaré; gram-negative bakteriell sepsis; hudlesjoner typisk for acrodermatitis enteropathica, fravær av thymic vev, merket degenerasjon av optiske nervene, chiasm og fiberoptisk traktater og omfattende lillehjernen degenerasjon
Lidelser hypertensjon; hyperlipidemi NA
Diagnostiske teknikker og prosedyrer Fysisk eksamen; electrocardiography; blod kulturer okulære eksamen; obduksjon
Diagnose Brucella endokarditt acrodermatitis enteropathica
Laboratorie-verdier økning i c - reaktivt protein (9 mg/dl); alkalisk fosfatase (250 u/l) NA
Patologi Brucella melitensis ble kultivert fra blodprøver høyre og venstre øyne var lik i utseende; hornhinnen epitel ble redusert tykkelse til en tre celle lag av flate plateepitel epitelceller over hele overflaten av hornhinnen; alle polaritet epitel var tapt. bowman's membranen kan identifiseres bare i utkanten av høyre hornhinnen. ingen bowman's membranen kan identifiseres i venstre hornhinnen. verken degenerative eller inflammatorisk pannus kan identifiseres i enten øyet; omfattende atrofi av sirkulære og skrå musklene i ciliary kropp; noen bakre migrering av linsen capsular epitel og tidlig kortikale utarte endre; omfattende degenerasjon av netthinnens pigment epitel i hele den bakre Polen; netthinnen var festet og viste mild autolyse endringer gjennom; noen bevaring av stang og kjegle ytre segmenter i bakre pole, men disse strukturene var helt tapt anterior ekvator; omfattende tap av ganglion celler og nerve fiber lagene på begge øynene; nesten komplett atrofi av platen og tilstøtende synsnerven
Farmakologisk behandling Gentamycin 240 mg/iv/daglig NA
Inverventional terapi protese ventil erstatning NA
Pasient utfall vurdering utvinning var begivenhetsløs; utladet hjem døde i 1971 (alder 7)
Diagnostic Imaging/videobånd opptak 2, 1, 0, 1 7, 0, 0, 0
Forhold til andre Case rapporter 5555555 23430849
Forhold til Clinial rettssak NCT05555123 NA
Krysskobling med databasen MedlinePlus helse informasjon: https://medlineplus.gov/ency/article/000597.htm HighWire - PDF: http://bjo.bmj.com/cgi/pmidlookup?view=long&pmid=3756122; Europa PubMed Central: http://europepmc.org/abstract/MED/3756122; Genetisk Alliansen: http://www.diseaseinfosearch.org/result/143
Takk
Finansieringskilde National Institutes of Health/National hjerte, lunge og blod Institute Minnesota Lions Club; Forskning for å hindre blindhet; Veteraner administrasjon; Office av alkohol og andre narkotika misbruk programmering av staten Minnesota
Prisen nummer R01HL123123 (til AG) NA
Avsløringer/konflikt av interesse Dr. Grant er en betalt talsperson for DrugCo. NA
Referanser 4 27

Tabell 2. Standardiserte Metadata mal for klinisk tilfelle rapporter, med eksempel merknader. Et sett med funksjoner som er felles for klinisk tilfelle rapporter og tilrettelegge deres konsept-nivå merknader vises her. Denne malen er ordnet i tre primære deler: identifikasjon, medisinsk innhold og bekreftelser, viser formålet og merverdi gis av hver case rapport-funksjonen. Denne tabellen inneholder to sett med eksempel merknader, en ved en fiktiv, og en annen angir avledet fra en rapport om tilstanden acrodermatitis enteropathica23.

Supplerende filen 1. Teksten i en klinisk case rapport (Chang et al. 2017). Klikk her for å laste ned denne filen.

Discussion

Implementering av en standardisert mal for CCRs kan gjøre deres innhold mer rettferdig, utvider sitt publikum og utvide sine programmer. Etter den tradisjonelle bruken av CCRs som pedagogisk verktøy i medisinsk communications, helsetjenester traineer (f.eks medisinske studenter, praktikanter og stipendiater) og biomedisinsk forskere finner at summerte case rapport innholdet aktiverer raskere forståelse. Den største styrken til metadata standardisering med CCRs, er imidlertid at indeksering disse dataene transformeres ellers isolert observasjoner i interpretable mønstre. Protokollen her kan tjene som første trinn i en arbeidsflyt for å arbeide med CCRs, om denne arbeidsflyten består av epidemiologiske analyse, etter markedsføring stoff eller behandling overvåking eller bredere undersøkelser av patogenesen eller terapeutiske effekten. Strukturert funksjoner identifiseres i CCRs kan gi en nyttig ressurs for forskere sykdom presentasjoner og behandlinger, spesielt for sjeldne forhold. Kliniske forskere finner data på siste behandlingsregimer analysere innspilte symptomer eller bivirkninger og grad av forbedring under forrige standarder omsorg. Dataene kan også kjøre bredere analyser en nye behandlinger basert på effekt, mangel på bivirkninger og toksisitet, eller narkotika målretting forskjeller i kjønn, aldersgruppe, eller genetisk bakgrunn.

Fordelene som tilbys av strukturert metadata gjelder tilsvarende for beregningsorientert arbeidsflyter som er utformet for å analysere eller modellere medisinsk språk. Strukturert CCR-funksjoner kan også gi bevis av områder der rapport forfattere kan gi lettere maskinlesbar (og i noen tilfeller, lesbar) innhold. Avvik mellom CCRs kan skyldes mangel på eksplisitt angitte observasjoner: f.eks pasientens alder ikke kan angis. Tilsvarende kan klinikere ikke nevne tester hvis diagnostiseringen eller resultatene ble vurdert som trivielle. Ved å gi eksempler på hullene nødvendig for detaljert analyse, fremhever håndheve struktur på CCRs potensielle forbedringer. I et bredere perspektiv støtter en større tilgjengelighet av strukturert tekstdata fra medisinsk dokumenter naturlig omgangsspråk bearbeiding (NLP) innsats å lære fra store data i healthcare24,25.

Disclosures

Forfatterne ikke avsløre.

Acknowledgments

Dette arbeidet var støttes delvis av nasjonale hjerte, lunge og blod Institute: R35 HL135772 (til P. Ping); National Institute of General Medical Sciences: U54 GM114833 (til P. Ping, K. Watson og W. Wang); National Institute of biomedisinsk bildebehandling og bioteknologi: T32 EB016640 (til A. Bui); en gave fra Hoag Foundation og Dr. S. Setty; og TC Laubisch legat ved UCLA (til P. Ping).

Materials

Name Company Catalog Number Comments
A corpus of clinical case reports n/a n/a Full texts of case reports may be accessed through PubMed (e.g., using the search query "Case Reports"[Filter]), other citation databases such as Europe PMC (https://europepmc.org/) or directly through publishers.

DOWNLOAD MATERIALS LIST

References

  1. Ban, T. A. The role of serendipity in drug discovery. Dialogues in Clinical Neuroscience. 8, (3), 335-344 (2006).
  2. Cabán-Martinez, A. J., García-Beltrán, W. F. Advancing medicine one research note at a time: the educational value in clinical case reports. BMC Research Notes. 5, (1), 293 (2012).
  3. Vandenbroucke, J. P. In Defense of Case Reports and Case Series. Annals of Internal Medicine. 134, (4), 330 (2001).
  4. Bayoumi, A. M. The storied case report. Canadian Medical Association Journal. 171, (6), 569-570 (2004).
  5. Pasteur, L. Méthode pour prévenir la rage après morsure. Comptes rendus de l'Académie des Sciences. 101, 765-774 (1885).
  6. Pearce, J. Louis Pasteur and Rabies: a brief note. Journal of Neurology, Neurosurgery & Psychiatry. 73, (1), 82-82 (2002).
  7. Keefer, C. S., Blake, F. G., Marshall, E. K. J., Lockwood, J. S., Wood, W. B. J. PENICILLIN IN THE TREATMENT OF INFECTIONS. Journal of the American Medical Association. 122, (18), 1217 (1943).
  8. Akers, K. G. New journals for publishing medical case reports. Journal of the Medical Library Association JMLA. 104, (2), 146-149 (2016).
  9. Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3, 160018 (2016).
  10. Beeler, G. W. HL7 Version 3-An object-oriented methodology for collaborative standards development. International Journal of Medical Informatics. 48, (1-3), 151-161 (1998).
  11. HL7 FHIR Release 3 (STU; v3.0.1-11917). Available from: http://hl7.org/implement/standards/fhir/ (2018).
  12. McDonald, C. J. LOINC, a Universal Standard for Identifying Laboratory Observations: A 5-Year Update. Clinical Chemistry. 49, (4), 624-633 (2003).
  13. CDC/National Center for Health Statistics ICD-10-CM Official Guidelines for Coding and Reporting. Available from: https://www.cdc.gov/nchs/data/icd/10cmguidelines_fy2018_final.pdf (2017).
  14. Rajeev, D., et al. Development of an electronic public health case report using HL7 v2.5 to meet public health needs. Journal of the American Medical Informatics Association. 17, (1), 34-41 (2010).
  15. Biesecker, L. Mapping phenotypes to language: a proposal to organize and standardize the clinical descriptions of malformations. Clinical Genetics. 68, (4), 320-326 (2005).
  16. Riley, D. S., et al. CARE guidelines for case reports: explanation and elaboration document. Journal of Clinical Epidemiology. 89, 218-235 (2017).
  17. Cohen, K. B., et al. Coreference annotation and resolution in the Colorado Richly Annotated Full Text (CRAFT) corpus of biomedical journal articles. BMC Bioinformatics. 18, (1), 372 (2017).
  18. Sun, W., Rumshisky, A., Uzuner, O. Evaluating temporal relations in clinical text: 2012 i2b2 Challenge. Journal of the American Medical Informatics Association. 20, (5), 806-813 (2013).
  19. Savova, G. K., et al. Mayo clinical Text Analysis and Knowledge Extraction System (cTAKES): architecture, component evaluation and applications. Journal of the American Medical Informatics Association. 17, (5), 507-513 (2010).
  20. Soysal, E., et al. CLAMP - a toolkit for efficiently building customized clinical natural language processing pipelines. Journal of the American Medical Informatics Association. 25, (3), 331-336 (2018).
  21. Bender, D., Sartipi, K. HL7 FHIR: An Agile and RESTful approach to healthcare information exchange. Proceedings of the 26th IEEE International Symposium on Computer-Based Medical Systems. 326-331 (2013).
  22. Chang, K., et al. Human Infection with Burkholderia thailandensis, China, 2013. Emerging Infectious Diseases. 23, (8), 1416-1418 (2013).
  23. Cameron, J. D., McClain, C. J. Ocular histopathology of acrodermatitis enteropathica. British Journal of Ophthalmology. 70, (9), 662-667 (1986).
  24. Maddox, T. M., Matheny, M. A. Natural Language Processing and the Promise of Big Data. Circulation: Cardiovascular Quality and Outcomes. 8, (5), 463-465 (2015).
  25. Kreimeyer, K., et al. Natural language processing systems for capturing and standardizing unstructured clinical information: A systematic review. Journal of Biomedical Informatics. 73, 14-29 (2017).
En Metadata utvinning tilnærming for kliniske Case rapporter aktivere avanserte forståelse av biomedisinsk begreper
Play Video
PDF DOI

Cite this Article

Caufield, J. H., Liem, D. A., Garlid, A. O., Zhou, Y., Watson, K., Bui, A. A. T., Wang, W., Ping, P. A Metadata Extraction Approach for Clinical Case Reports to Enable Advanced Understanding of Biomedical Concepts. J. Vis. Exp. (139), e58392, doi:10.3791/58392 (2018).More

Caufield, J. H., Liem, D. A., Garlid, A. O., Zhou, Y., Watson, K., Bui, A. A. T., Wang, W., Ping, P. A Metadata Extraction Approach for Clinical Case Reports to Enable Advanced Understanding of Biomedical Concepts. J. Vis. Exp. (139), e58392, doi:10.3791/58392 (2018).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
simple hit counter