Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Medicine

En Metadata udvinding tilgang til kliniske tilfælde rapporter at aktivere avanceret forståelse af biomedicinske begreber

Published: September 20, 2018 doi: 10.3791/58392

Summary

Vi præsenterer en protokol og tilknyttede metadataskabelon til udvinding af tekst, der beskriver biomedicinsk begreber i kliniske tilfælde rapporter. Struktureret tekstværdierne produceret gennem denne protokol kan støtte dyb analyse af tusindvis af kliniske fortællinger.

Abstract

Kliniske tilfælde rapporter (CCRs) er et værdifuldt middel til at dele observationer og indsigt i medicin. Form af disse dokumenter varierer, og deres indhold omfatter beskrivelser af talrige, Roman sygdom præsentationer og behandlinger. Hidtil, er tekstdata inden for CCRs i vid udstrækning ustruktureret, der kræver betydelige menneskelige og beregningsmæssige indsats for at gøre disse oplysninger nyttige for dybtgående analyse. I denne protokol beskriver vi metoder til at identificere metadata svarer til specifikke biomedicinsk begreber ofte observeret inden for CCRs. Vi leverer en metadataskabelon som en guide til dokument anmærkning, erkender, at pålægge struktur på CCRs kan være fulgt af kombinationer af manuelle og automatiske indsats. Tilgang præsenteres her er relevante for tilrettelæggelsen af koncept-relaterede tekst fra store litteratur corpus (fx tusindvis af CCRs), men kan være let tilpasses til at lette mere fokuseret opgaver eller lille sæt af rapporter. Den resulterende struktureret tekstdata omfatter tilstrækkelige semantiske sammenhæng for at støtte en bred vifte af efterfølgende tekst analyse arbejdsprocesser: meta-analyser til at bestemme, hvordan at maksimere CCR detaljer, epidemiologiske undersøgelser af sjældne sygdomme, og udviklingen af modeller for Medicinsk sprog kan alle gøres mere gennemførlige og administrerbare ved hjælp af struktureret tekstdata.

Introduction

Kliniske tilfælde rapporter (CCRs) er et grundlæggende middel til at dele observationer og indsigt i medicin. Disse tjener som en grundlæggende mekanisme for kommunikation og uddannelse for klinikere og medicinstuderende. Historisk set har CCRs også givet konti af nye sygdomme, deres behandlinger og deres genetiske baggrunde1,2,3,4. For eksempel, rapporteret den første behandling af human rabies af Louis Pasteur i 18855,6 , og den første anvendelse af penicillin i patienter7 var begge gennem CCRs. Mere end 1,87 millioner CCRs er blevet offentliggjort i April 2018, med over en halv million inden for det sidste årti. tidsskrifter fortsat at skabe nye mødesteder for disse rapporter8. Selvom unikke i form og indhold, CCRs indeholder tekstdata, der er i vid udstrækning ustruktureret, indeholder et stort ordforråd, og vedrører indbyrdes forbundne fænomener, begrænser deres anvendelse som en struktureret ressource. Betydelig indsats er forpligtet til at udtrække detaljerede metadata (dvs., "data om data", eller i dette tilfælde, beskrivelser af dokumentets indhold) fra CCRs og oprette dem som en findable, tilgængelige, interoperable og genanvendelige (FAIR)9 data ressource.

Her, beskriver vi en proces til at udtrække tekst og numeriske værdier at standardisere beskrivelse af specifikke biomedicinsk begreber inden for offentliggjorte CCRs. Denne metode omfatter en metadataskabelon guide anmærkning; Se figur 1 for en oversigt over denne proces. Anvendelse af anmærkning processen til en stor samling af rapporter (f.eks. flere tusinde af en bestemt sygdom præsentation) tillader montage af en overskuelig og struktureret sæt af kommenteret kliniske tekster, at opnå maskinlæsbare dokumentation og biomedicinsk fænomener er indlejret i hver klinisk præsentation. Selvom data formater som dem, der leveres af HL7 (fx., Version 3 af Messaging Standard10 eller hurtigt Healthcare interoperabilitet ressourcer [FHIR]11), LOINC12, og revision 10 af internationale statistiske Klassifikation af sygdomme og relaterede sundhedsproblemer (ICD-10)13 give standarder til at beskrive og udveksle kliniske observationer, de ikke fange teksten omkring disse data, og heller ikke er de beregnet til. Resultaterne af vores metode er bedst bruges til at håndhæve struktur på CCRs og lette efterfølgende analyse, normalisering gennem kontrolleret ordforråd og kodning systemer (fx., ICD-10), og/eller konvertering til kliniske dataformater ovennævnte .

Minedrift CCRs er et aktivt område inden for biomedicinsk og kliniske informatik. Selvom tidligere forslag at standardisere struktur case rapporter (fx., ved hjælp af HL7 v2.514 eller standardiseret fænotype terminologi15), er prisværdige, er det sandsynligt, at CCRs fortsat vil følge en lang række forskellige naturligt-sprog formularer og dokument layouts, som de har for meget af det sidste århundrede. Under ideelle betingelser Følg forfattere af nye kasuistikker pleje retningslinjer16 for at sikre, at de er omfattende. Tilgange, der er følsomme for både naturlige sprog og dets relation til medicinsk begreber kan derfor være mest effektiv i at arbejde med nye og arkiverede rapporter. Ressourcer som håndværk17 og dem produceret af informatik for integrering af biologi og sengen (i2b2)18 datasikring støtte naturlig sprogbehandling (NLP) tilgange endnu ikke specielt fokus på CCRs eller kliniske fortællinger. Tilsvarende medicinsk NLP værktøjer som cTAKES19 og KLEMME20 er blevet udviklet men generelt identificere bestemte ord eller sætninger (dvs., enheder) inden for dokumenter i stedet for de generelle begreber ofte beskrevet i CCRs.

Vi har designet en standardiseret metadataskabelon for funktioner, der almindeligvis findes inden for CCRs. Denne skabelon definerer funktioner for at indføre struktur på CCRs — en vigtig forløber for dybdegående sammenligninger af dokumentets indhold-endnu giver mulighed for tilstrækkelig fleksibilitet til at bevare semantiske sammenhæng. Selvom vi har designet det format, der er knyttet til denne skabelon skal være passende til både manuel annotation og beregningsmæssigt bistået text mining, har vi sikret, det er særligt nem at bruge for manuel annotators. Vores tilgang afviger mærkbart fra mere indviklede (og derfor mindre umiddelbart forståeligt at utrænede forskere) rammer som FHIR21. Følgende protokol beskriver hvordan man isolere dokumentfunktioner svarende til hver skabelon datatype, med et enkelt sæt af værdier svarende til dem i en enkelt CCR.

Datatyper i skabelonen er dem mest beskrivende for CCRs og patient-fokuseret medicinske dokumenter i almindelighed. Anmærkning af disse funktioner fremmer findability, tilgængelighed, interoperabilitet og genbrugelighed af CCR tekst, primært ved at give den struktur. Datatyperne er i fire overordnede kategorier: dokument og annotation identifikation, sagsrapport identifikation (dvs. dokument-niveau egenskaber), medicinske indhold begreber (primært koncept-niveau egenskaber) og anerkendelser (dvs. funktioner giver bevis for finansiering). I denne anmærkning indeholder hvert dokument den fulde ordlyd af en CCR, udelade dokument indhold materiale, uafhængige sag (f.eks., eksperimentelle protokoller). CCRs er generelt mindre end 1.000 ord hver; en enkelt corpus bør ideelt set skal indekseres af den samme bibliografisk database og være i den samme skriftsprog.

Produktet af metoden beskrevet her, når den anvendes på en CCR corpus, er et struktureret sæt af kommenteret kliniske tekst. Mens denne metodologi kan udføres fuldt manuelt og er udviklet til at være udført af domæne eksperter uden Informatik erfaring, det supplerer de naturlig sprogbehandling tilgange angivet ovenfor og leverer data til beregningsmæssige analyse. Sådanne analyser kan være af interesse for publikum af forskere ud over dem, der ofte læse CCRs, herunder:

  • der beskæftiger sig med sygdom præsentationer, deres centrale symptomology, sædvanlige diagnostiske metoder og behandlinger
  • dem, der ønsker at sammenligne resultaterne af kliniske forsøg med begivenhederne beskrevet i den kliniske litteratur, potentielt giver yderligere observationer og større statistiske effekt.
  • Bioinformatik, Biomedicinsk informatik og computer science forskere, der kræver struktureret medicinsk sprog datasæt eller højt niveau forståelser af medicinsk fortællinger
  • Regeringens politik forskere med fokus på hvordan kliniske forsøg kan bedst afspejler hvordan diagnosticering og behandling som det forekommer i virkeligheden

Håndhæve struktur på CCRs kan understøtte mange efterfølgende indsats for bedre at forstå både medicinsk sprog og biomedicinsk fænomener.

Protocol

1. dokument og Annotation identifikation

Bemærk: Værdierne i denne kategori støtte anmærkning-processen.

  1. Ved at bruge skabelonen anmærkning, give et id, der er specifikke for denne metadata sæt f.eks., Case123. Id-format skal være konsekvent i hele projektet (f.eks. Case001 gennem Case500).
  2. Angiv den dato, hvor et dokument var læse og kommenteret. Bruge et format, der ligner "Jan 10 2018" for konsistens og læsbarhed.

2. case Report identifikation

Bemærk: Værdierne i denne kategori indeholder dokument-niveau funktioner og bidrage til et dokuments findability.

  1. Være i overensstemmelse med formatet for hvert felt på tværs af alle anmærkninger, fx individuelle værdier skal adskilles af semikolon uden følgende rum i alle poster. Bruge identiske formater til dem, der anvendes i det oprindelige dokument eller dem, der anvendes i en bibliografisk database som MEDLINE.
  2. Give titlen på dokumentet.
  3. Give navne på alle forfattere af dokumentet i den angivne rækkefølge. Normalisere formatet for alle navne, således at alle navne tage form af en enkelt efternavn efterfulgt af et vilkårligt antal initialer, fx Jane B. Park bliver Park JB. Medtag ikke titler. Adskil flere forfattere med et semikolon uden yderligere tegnsætning, således at John A. Smith, Jane B. Park tager en form for Smith JA; Park JB.
  4. Give år for offentliggørelse af dokumentet.
  5. Give den fulde titel på den kladde, hvor dokumentet blev offentliggjort. En liste over kontrollerede kladdenavne tilbydes af kataloget NLM (https://www.ncbi.nlm.nih.gov/nlmcatalog).
  6. Give adressen på det hjem institution af forfatterne til dokumentet, som angivet i dokumentet. Dette kan omfatte afdelinger, geografiske placeringer og postadresse detaljer.
    1. Hvis der er flere steder (f.eks., hvis tilhørsforhold er forskellige mellem forfattere), angiver kun detaljer for den tilsvarende forfatteren. Hvis en tilsvarende forfatteren ikke kan identificeres, brug af den første forfatter, eller ikke angiver en institution. Hvis en tilsvarende forfatteren har flere samarbejdspartnere, skal du angive begge og adskilt med et semikolon.
  7. Give tilsvarende forfatteren til dokumentet, som angivet i overskriften dokument ved hjælp af samme format som bruges i forfattere-datatype.
  8. Give en dokument-id (f.eks. en PMID).
  9. Give en Digital objekt-id, hvor det er muligt og tilgængelige, opløselige i dokumentet URL (via https://www.doi.org/), ikke en PubMed Central side.
  10. Giver en stabil URL til den fulde ordlyd af dokumentet, hvis det er tilgængeligt. For at maksimere adgangen, kan dette referere til PubMed Central version.
  11. Give dokumentets sprog. For dokumenter på flere sprog, indeholder både, adskilt med et semikolon.

3. medicinsk indhold

Bemærk: Værdierne i denne kategori identificere dokumentniveau, koncept-niveau, og tekst funktioner. De tjener til at styrke et dokument tilgængelighed, interoperabilitet og genanvendelighed. Disse funktioner gør det muligt at observere konceptuelle og semantisk ligheder mellem dokumentets indhold, med fokus på biomedicinsk emner og begivenheder. De fleste kategorier i dette afsnit kan omfatte flere tekst erklæringer og hver skal adskilles med et semikolon.

  1. Omfatter kontekstuelle detaljer i hvert felt (f.eks., "mor havde brystkræft på 50 år") i stedet for at give kun vilkår fra et kontrolleret vokabular (fx ikke "brystkræft" alene). Medtag ikke omfattende detaljer ud over hver observation.
  2. Udelade almindeligt gentagne ord og sætninger (fx pronominer, ordet "patient", og de sætninger "klagede over" eller "præsenteret med"). Om subjektivitet på tværs af flere annotators er sandsynligt, kan det reduceres ved at have flere annotators for hvert dokument og gennem automatiserede normalisering efter dataindsamling. Beregningsmæssige post-processing tilgange vil variere ved efterfølgende analyse behov og behandles ikke her i detaljer.
  3. Angiv følgende oplysninger i skabelonen anmærkning.
    1. Give konkret identificeret inden for et dokument, som regel i dens overskrift, som nøglebegreber. Adskilt med et semikolon som vilkår kan omfatte andre tegnsætning.
    2. Give demografiske værdier, specielt enhver tekst sætninger beskriver en patients baggrund, herunder sex og/eller køn, alder, etnicitet eller nationalitet.
    3. Give geografiske steder nævnt i den kliniske fortælling end specifikke institution adresser. Dette bør ikke omfatte anatomiske steder/dele, men kan omfatte eventuelle geografiske lokalitet, hvor patienten bor eller rejser.
    4. Give liv stil værdier, herunder enhver tekst sætninger beskriver hyppige patient aktiviteter eller adfærd, der er relevante for deres generelle helbred. I praksis, det ofte indebærer rygning eller alkohol forbrugsvaner, men kan også omfatte udsættelse for sol, kost eller frekvensen af specifikke typer af fysisk aktivitet.
    5. Give sygehistorie værdier henviser til slægtshistorie. Omfatte enhver tekst sætninger beskriver kliniske observationer af og begivenheder opleves af søskende, forældre og andre familie medlemmer. Dette omfatter genetiske forhold og negative bemærkninger (dvs. familie historie var negativ for en sygdom).
    6. Give værdier henviser til Socialhistorie, herunder alle tekst sætninger beskriver patientens baggrund ikke dækket i demografi eller livsstil. Der kan være overlapninger i indhold mellem disse kategorier. Udtalelser kan omfatte erhvervsmæssig historie og sociale vaner.
    7. Give værdier henviser til patientens medicinske og kirurgiske historie. Omfatte tekst udtalelser, der beskriver eventuelle medicinske observationer, behandlinger eller andre begivenheder, der finder sted inden påbegyndelsen af den kliniske præsentation. Dette omfatter obstetrisk historie og perioder med godt helbred, hvor angivet.
    8. Angiv en eller flere af følgende 16 sygdom system kategorier. Bemærk, at disse værdier er kategoriske i stedet for fritekst. Kategorier er ikke omfattende, men bør angive de fleste systemer påvirket af begivenhederne beskrevet i den kliniske præsentation og diagnosticeret sygdom.
      1. Følger et bestemt sæt af kategorier, baseret på kategorierne, der anvendes i internationale statistiske klassifikation af sygdomme og relaterede sundhedsproblemer, revision 10 (ICD-10) kodesystem. Se tabel 1 for liste over sygdom system kategorier sammen med tilsvarende ICD-10 kode områder.
    9. Nærmere oplysninger om alle tegn og symptomer. Omfatte tekst udtalelser, der beskriver eventuelle medicinske observationer af tegn eller symptomer begynder ved indledende præsentation, herunder deres debut, varighed, sværhedsgrad og opløsning, hvis. Medtag ikke symptomer, der beskrives i resultatet. Disse værdier kan overlappe med andre typer hvis symptomerne fortsætter fra historie til indledende præsentation.
    10. Nærmere oplysninger om eventuelle co-morbiditet. Omfatte alle udtryk eller sætninger beskriver forskellige sygdomme til stede på tidspunktet for første kliniske præsentation. Der er sandsynligvis overlapning mellem disse værdier, og dem, der i kliniske historie, selvom komorbiditet ikke bør omfatte vilkår identiske med dem i diagnosen.
    11. Nærmere oplysninger om alle diagnostiske teknikker og procedurer. Omfatte navnene på medicinske procedurer gjort til diagnostiske formål, herunder undersøgelser, test, og billeddannelse, samt de betingelser, hvorunder disse tests blev udført og relevante anatomiske steder (f.eks., "øvre ekstremiteter venøs ultralyd"). Udelukke testresultater.
    12. Nærmere oplysninger om diagnose. Omfatte enhver tekst sætninger beskriver diagnoser af sygdom, selv om den endelige diagnose er tvetydig.
    13. Give alle laboratorium værdier og testresultater. Medtag navne af diagnostiske tests, deres værdier og forhold, hvorunder de blev udført. Dette vil indebære overlapning med udtryk, der anvendes i de diagnostiske teknikker og procedurer-datatype. Både numerisk og kvalitativ værdier (f.eks., komplet blodtælling var inden for normale grænser) er acceptable. Hvis navnene på diagnostiske tests ikke er forudsat, bruge vilkår beskriver resultaterne (f.eks., leukopeni), men de bør også indgå i tegn og symptomer.
    14. Nærmere oplysninger om patologi. Omfatte tekst udtalelser, der beskriver resultaterne af patologi og histologi, herunder brutto patologi, immunologi og mikroskopi undersøgelser. Vilkår kan overlappe med dem, der anvendes i diagnostiske teknikker og procedurer (trin 3.11), fx med de procedurer, der udføres for at få prøver såsom biopsi.
    15. Give alle farmakologiske behandlinger. Omfatte enhver tekst sætninger beskriver drug behandlingsformer anvendes i forbindelse med behandling, herunder generelle begreber som antibiotika eller specifikke lægemiddelnavne. Derudover omfatte beskrivelser af Hvornår og hvordan drug behandlingsformer blev stoppet.
    16. Give alle interventionelle procedurer. Omfatte enhver tekst sætninger beskriver terapeutiske procedurer anvendes i forbindelse med behandling, herunder invasive procedurer, implantation af medicinsk udstyr og procedurer gjort for at lette andre behandlingsformer. Også omfatte beskrivelser af, hvornår og hvordan igangværende terapeutiske procedurer blev stoppet, hvis nødvendigt.
    17. Give patienten resultatet. Omfatte enhver tekst sætninger beskriver sundhed af patienten ved udgangen af den kliniske præsentation er beskrevet i rapporten, herunder eventuelle opfølgende test.
    18. Give tæller alle diagnostiske billeder, tal, videoer/animationer og tabeller. Omfatter alle optællinger af visuelle medier indgår i rapporten, i følgende format: antal billeder; Antal tal; Antal videoer eller animationer; Optælling af tabeller.
      1. Skelne mellem billeder og tal på denne måde: billeder omfatter alle produkter af kliniske diagnoser, herunder fotografier, micrographs, elektrokardiogram rytme billeder og andre produkter af diagnostic imaging, mens tallene er alle andre billeder, generelt, herunder data plots og illustrationer.
    19. Fremlægge bevis for relationer til andre CCRs. Dette felt kan omfatte identifikatorer (fx PMIDs) af andre rapporter i det datasæt, der er citeret af eller indeholder henvisninger til denne betænkning.
    20. Fremlægge bevis for relationer til kliniske forsøg. Dette felt kan omfatte id'er for kliniske forsøg med henvisning til denne CCR. Identificere forsøg af deres ClinicalTrials.gov identifikatorer, efterfulgt af NCT, eller andre stabil id.
    21. Omfatter database krydsbindinger svarende til dette dokument, herunder identifikatorer, helst som databasenavne og stabil webadresser.

4. anerkendelser

Noter: Værdierne i denne kategori identificere dokument-niveau funktioner endnu har lidt ensartet struktur på tværs af publikationer. De giver oplysninger om de organisationer, der yder støtte til en CCR og relaterede arbejde. Denne kategori omfatter også et felt til det samlede antal referencer citeret af en artikel: Formålet er at give et groft metrikværdi for graden som et dokument har begrebsmæssige relationer med andre biomedicinsk dokumenter af enhver art. Inden for de fire datatyper i dette afsnit, give følgende.

  1. Angiv alle finansieringskilder støtte arbejdet og tilsvarende PI samt relevante pris numre. Den første værdi, finansiering kilde, skal indeholde navnene på alle organisationer at yde økonomisk støtte til arbejdet.
    1. Separate organisationer med semikolon og mellemrum, fx National Institutes of sundhed/National Cancer Institute. DOE; Smith-Park Foundation .
    2. For følgende værdi, pris antallet, angive enhver award numre eller specifikke betegnelser samt modtagere af awards, eventuelt som initialerne for modtagerne i parenteser, f.eks., R01HL123123 (til JP) , NS12312 (til JP, JS), forskning uddannelse fellowship (til JS). Forfattere kan udtrykkeligt, at ingen tilsvarende oplysninger er tilgængelige (f.eks., "ingen finansiering blev modtaget"); i disse tilfælde bruge tekst, som forfatterne som finansiering kildeværdien. Ellers, skal værdien være NA.
  2. Angiv oplysninger/konflikter af interesse som anført af forfatterne, fx JP er konsulent for DrugCo. Forfattere kan udtrykkeligt, at ingen tilsvarende oplysninger er tilgængelige (f.eks., "nogen interessekonflikt er erklæret"); i disse tilfælde bruge tekst, som forfatterne som videregivelse/konflikt af interesse værdi. Ellers som ovenstående, være skal værdien NA.
  3. Angiv en numerisk optælling af alle henvisninger citeret af dokumentet, ikke herunder dem, der omhandlet i supplerende materiale. Ingen referencetekst bør indgå i dette felt.

Representative Results

Et eksempel på kommentering proces er vist i figur 2. Denne sag22 beskriver en præsentation af infektion af bakteriel patogen Burkholderia thailandensis. For reference, er den relevante del af denne CCR fastsat i almindeligt tekstformat i supplerende fil 1; Nogle forskningsresultater er også præsenteret i denne betænkning og er medtaget til sammenligning. I praksis, kan konvertere rapporter i HTML eller PDF-format til almindelig tekst forbedre effektiviteten og brugervenligheden af metadata udvinding.

Eksempler på to sæt udfyldte CCR metadata anmærkninger er angivet i tabel 2. Først af disse eksempler er mock data til at illustrere den ideelle format for hver værdi, mens det andet eksempel indeholder værdier udvundet fra en offentliggjort CCR på en sjælden tilstand, acrodermatitis enteropathica23.

Figure 1
Figur 1. Arbejdsgang for Case Report Annotation. Protokollen beskrevet her indeholder en metode til identifikation af tekstuelle funktioner, der ofte findes inden for kliniske tilfælde rapporter. Denne proces kræver montering af en dokument corpus. Produktet af anmærkning proces, en gang samles i en enkelt fil, tillader identifikation af tekst funktioner tilknyttet medicinsk begreber og deres beskrivelser i kasuistikker. Venligst klik her for at se en større version af dette tal.

Figure 2
Figur 2. Identifikation af koncept-specifik tekst i en klinisk sagsrapport. Begynder med teksten i en sag rapport, kan en manuel annotator fremskridt gennem dokumentet, at identificere segmenter af tekst svarende til hver enkelt komponent af metadataskabelon. Identifikation funktioner er fremhævet med blåt. Tekst svarende til medicinske koncepter er i røde og mærket med deres type; alle fremhævet tekst i den tredje kolonne henviser til typen patologi. Venligst klik her for at se en større version af dette tal.

Kategori Beskrivelse ICD-10 kapitel ICD-10 kode vifte
kræft Enhver form for kræft eller ondartede svulster. II C00-D49
nervøs Enhver sygdom i hjernen, rygsøjlen eller nerverne. VI G00-G99
hjerte-kar- Enhver sygdom i hjertet eller karsystemet. Omfatter ikke hematological sygdomme. IX I00-I99
bevægeapparatet og reumatiske Enhver sygdom i muskler, skelet, led og bindevæv. XIII M00-M99
mave Enhver sygdom i mave-tarmkanalen og fordøjelsesorganerne, herunder leveren og bugspytkirtlen. XI K00-K95
obstetrisk og gynækologisk Enhver sygdom vedrørende graviditet, fødsel, den kvindelige reproduktive system eller brysterne. XIV; XV O00-O9A; N60-N98
smitsomme Enhver sygdom forårsager af infektiøse mikroorganismer. Jeg A00-B99
respiratorisk Enhver sygdom i lunger og luftveje. X J00-J99
hæmatologiske Enhver sygdom i blod, knoglemarv, lymfeknuder eller milt. III D50-D89
nyre og urologiske Enhver sygdom i nyrerne eller blæren, herunder urinlederne, såvel som de mandlige reproduktive organer, herunder prostata. XIV N00-N53; N99
endokrine Enhver sygdom af endokrine kirtler, samt stofskiftesygdomme. IV E00-E89
mundtlige og maxillofacial Enhver tilstand, der involverer munden, kæberne, hoved, ansigt eller hals. XI; XIII K00-K14; M26-M27
øje Enhver tilstand, der involverer øjne, herunder blindhed. VII H00-H59
otorhinolaryngologic Enhver betingelse for øre, næse og hals. VIII H60-H95; J30-J39
hud Enhver sygdom i huden. XII L00-L99
sjældne En særlig kategori forbeholdt rapporter om sjældne sygdomme, defineret som dem, der påvirker færre end 200.000 personer i USA (Se https://rarediseases.info.nih.gov/diseases) NA NA

Tabel 1. Sygdom kategorier for dokument anmærkning. Kategorierne her er dem, der skal bruges til sygdom System-datatype i metadata Dokumentskabelon. Hver sygdom præsentation kan indebære flere organsystemer eller etiologies, kan en enkelt klinisk sagsrapport svare til flere kategorier. Disse kategorier i høj grad følger dem, der anvendes til at skelne mellem dele af det internationale statistiske klassifikation af sygdomme og relaterede sundhedsproblemer, revision 10 (ICD-10) kode system: der findes tilsvarende ICD-10 kapitler og kode intervaller. Nogle kategorier, såsom at for mundtlige og maxillofacial sygdom, svarer til flere dele af ICD-10 systemet.

Datatype Eksempel #1 Eksempel #2 (Cameron og McClain 1986)
Dokument og Annotation identifikation
Interne ID CCR005 CCR2000
Anmærkning dato Mar 2 2018 Mar 1 2018
Sagsrapport identifikation
Titel Et tilfælde af endocarditis. Okulær histopatologi af acrodermatitis enteropathica.
Forfatterne Grant AB; Chang CD Cameron JD; McClain CJ
År 2017 1986
Journal Verden Journal of Medicine og Case rapporter British Journal of oftalmologi
Institution Institut for medicin, opdeling af kardiologi, første centralsygehus, Boston, Massachusetts, USA Institut for oftalmologi, University of Minnesota Medical School, Minneapolis, Minnesota 55455
Tilsvarende forfatteren Grant AB Cameron JD
PMID 25555555 3756122
DOI 10.1011/wjmcr.2017.11.001 NA
Link https://www.NCBI.NLM.NIH.gov/PMC/articles/PMC9555555/ https://www.NCBI.NLM.NIH.gov/PMC/articles/PMC1040795/
Sprog engelsk engelsk
Medicinsk indhold
Nøgleordene brucellose; endocarditis; mitralklap NA
Demografi 37-årig mand drengebarn
Geografiske placeringer Florida; Rio de Janeiro, Brasilien NA
Life Style ryger; drikker alkohol lejlighedsvis NA
Slægtshistorie tredjedel af fem børn af blodsbeslægtet forældre; lillebror har kronisk eksem NA
Socialhistorie bygningsarbejder NA
Medicinsk/kirurgisk historie historie af træthed 8 pund 9 ounce (3884 g) produkt af en ukompliceret, fuld sigt graviditet; gode helbred indtil alder 1 måned når han udviklet en svidende hududslæt på sine kinder; Udslættet spreder sig til involverer huden omkring øjne, næse og mund; hudlæsioner blev også noteret på maven og ekstremiteter; diarré og manglende trivsel; hudbiopsi dengang viste parakeratosis typisk for acrodermatitis enteropathica; behandlet i de næste seks år med intermitterende kurser af bredspektrede antibiotika, modermælk og diodoquin; delvist besvaret; udviklet samlede alopeci, intermitterende acrodermatitis og intermitterende diarré med suboptimal vægtøgning; spasticitet tilskrives centralnervesystemet involvering af ae havde udviklet af 8 måneder i alder; flere episoder i kardiopulmonal anholdelse på 11 måneder; manglende koordinering af hans stemmebånd; tracheostomi; af alder 18 måneder udviklet barnet søgning nystagmus forbundet med bilaterale optic atrofi og lille dæmpning af retinale fartøjer samt tegn på psykomotorisk retardering; bilaterale keratoconjunctivitis; hududslæt; anden hudbiopsi udføres 3-årig igen viste parakeratosis typisk for ae; alvorlig hududslæt og diarré; bilaterale brutto forreste hornhinde opaciteter blev set som havde helt løst ved den tid, han var op til fornyet overvejelse i en alder af fem; hyppige infektioner herunder otitis media, urinvejsinfektioner og hudinfektioner
Sygdom System hjerte-kar; smitsomme mave; hud; øjet; sjældne
Tegn og symptomer hjertebanken og dyspnø i den foregående uge; præsenteret med sløvhed, hovedpine og kulderystelser svær blepharoconjunctivitis og bilaterale forreste hornhinde vaskularisation; alvorlig hududslæt og diarré; gramnegative bakteriel sepsis; hudlæsioner typisk for acrodermatitis enteropathica, fravær af thymic væv, markerede degeneration af synsnerven, chiasm og optic skrifter og omfattende cerebellare degeneration
Komorbiditet forhøjet blodtryk; hyperlipidæmi NA
Diagnostiske teknikker og procedurer Fysisk undersøgelse; Elektrokardiografi; blod kulturer okulær undersøgelse; obduktion
Diagnose Brucella endocarditis Acrodermatitis enteropathica
Laboratorium værdier forhøjelse af c - reaktivt protein (9 mg/dl); alkalisk fosfatase (250 u/l) NA
Patologi Brucella melitensis var kulturperler fra blodprøver højre og venstre øjne var ens i udseende; hornhindens epitel blev reduceret i tykkelse til én til tre cellelag af fladtrykte planocellulære epitelceller over hele overfladen af hornhinden; alle polaritet af epitel var tabt. bowman's membran kunne identificeres kun i periferien af den rigtige hornhinden. ingen bowman membran kunne identificeres i venstre hornhinden. hverken degenerativ eller inflammatorisk pannus kunne identificeres i enten øje; omfattende atrofi af den cirkulære og skrå muskler af ciliare; nogle posterior migration af linse kapsulær epitel og tidlige kortikale degenerative forandringer; omfattende degeneration af den retinale pigment epitel i hele den bageste pol; nethinden var fastgjort og viste mild autolytic ændringer i hele; nogle bevarelse af rod og kegle ydre segmenter i den bageste pol, men disse strukturer blev helt tabt forreste til ækvator; omfattende tab af ganglion celler og nerve fibre lag af begge øjne; næsten komplet atrofi af disken og tilstødende synsnerven
Farmakologisk behandling phosphatbufferet 240 mg/iv/dagligt NA
Inverventional terapi proteser ventil udskiftning NA
Patient resultatet vurdering opsving var begivenhedsløs; afladet hjem døde i 1971 (alder 7)
Diagnostisk billeddannelse/videobånd optagelse 2; 1; 0; 1 7; 0; 0; 0
Forholdet til andre Case rapporter 5555555 23430849
Forholdet hos Clinial retssag NCT05555123 NA
Bitmapgenkendelse med Database MedlinePlus sundhed oplysninger: https://medlineplus.gov/ency/article/000597.htm HighWire - PDF: http://bjo.bmj.com/cgi/pmidlookup?view=long&pmid=3756122; Europa PubMed Central: http://europepmc.org/abstract/MED/3756122; Genetiske Alliance: http://www.diseaseinfosearch.org/result/143
Anerkendelser
Finansieringskilden Nationale kontorer i sundhed/National Heart, Lung og blod Institute Minnesota Lions Club; Forskning for at forebygge blindhed; Veterans Administration; For alkohol og andre narkotika misbrug programmering af staten Minnesota
Award antallet R01HL123123 (til AG) NA
Videregivelse/konflikt af interesse Dr. Grant er en betalt talsmand for DrugCo. NA
Referencer 4 27

Tabel 2. Standardiseret metadataskabelon for kliniske tilfælde rapporter med eksempel anmærkninger. En række fællestræk for kliniske tilfælde rapporter og lette deres koncept-niveau anmærkninger er vist her. Denne skabelon er arrangeret i tre primære sektioner: identifikation, medicinsk indhold og anerkendelser, betegner formål og yderligere værdi af hver type af sagsrapport funktion. Denne tabel indeholder to sæt eksempel anmærkninger, en af en fiktiv case rapport, og et andet sæt stammer fra en rapport på betingelse acrodermatitis enteropathica23.

Supplerende fil 1. Tekst af en klinisk sagsrapport (Chang et al. 2017). venligst klik her for at downloade denne fil.

Discussion

Gennemførelsen af en standardiseret metadataskabelon for CCRs kan gøre deres indhold mere FAIR, udvide deres publikum og udvide deres programmer. Efter den traditionelle brug af CCRs som pædagogiske redskaber i medicinsk kommunikation, healthcare praktikanter (f.eks. medicinske studenter, praktikanter og stipendiater), og biomedicinske forskere kan finde at opsummerede sagsrapport indholdet aktiverer hurtigere forståelse. Den største styrke af metadata standardisering med CCRs, er dog, at indeksere disse data transformeringer ellers isoleret observationer i fortolkelige mønstre. Protokollen i henhold her kan tjene som det første trin i en arbejdsproces til at arbejde med CCRs, om denne arbejdsgang består af epidemiologisk analyse, post-marketing stof eller behandling overvågning eller bredere undersøgelser af patogenesen eller terapeutiske virkning. Struktureret funktioner identificeret inden for CCRs kan give en nyttig ressource for forskere med fokus på sygdom præsentationer og behandlinger, især af sjældne betingelser. Kliniske forskere kan finde data om tidligere behandlingsregimer at analysere registreret symptomer eller bivirkninger og graden af forbedring under tidligere standarder for pleje. Data kan også drive bredere analyser af en nye behandlinger baseret på effektivitet, manglende bivirkninger eller toksicitet, eller narkotika målretning forskelle i køn, aldersgruppe eller genetiske baggrund.

Ydelserne fra strukturerede metadata er ligeledes gældende for computational arbejdsprocesser designet til at analysere eller modellere medicinsk sprog. Struktureret CCR funktioner kan også levere beviser for områder, hvor betænkningen forfattere kan give lettere maskinlæsbar (og i nogle tilfælde, læsbar) indhold. Variansen blandt CCRs kan skyldes manglende udtrykkeligt angivne bemærkninger: f.eks. en patient nøjagtige alder ikke kan angives. Ligeledes kan klinikere ikke nævne test hvis diagnosticeringen eller deres resultater blev anset for trivielt. Ved at give eksempler på mangler nødvendige for dybdegående analyse, fremhæver håndhæve struktur på CCRs potentielle forbedringer. I et bredere perspektiv understøtter en større tilgængelighed af struktureret tekstdata fra medicinsk dokumenter naturlig sprogbehandling (NLP) bestræbelser på at lære fra big data i sundhedssektoren24,25.

Disclosures

Forfatterne har ikke noget at oplyse.

Acknowledgments

Dette arbejde blev støttet i en del af National Heart, Lung, og Blood Institute: R35 HL135772 (til P. Ping); National Institute of General Medical Sciences: U54 GM114833 (til P. Ping, K. Watson, og W. Wang); Statens Institut for biomedicinsk Imaging og bioteknologi: T32 EB016640 (til A. Bui); en gave fra Hoag Foundation og Dr. S. Setty; og TC Laubisch begavelse på UCLA (til P. Ping).

Materials

Name Company Catalog Number Comments
A corpus of clinical case reports n/a n/a Full texts of case reports may be accessed through PubMed (e.g., using the search query "Case Reports"[Filter]), other citation databases such as Europe PMC (https://europepmc.org/) or directly through publishers.

DOWNLOAD MATERIALS LIST

References

  1. Ban, T. A. The role of serendipity in drug discovery. Dialogues in Clinical Neuroscience. 8 (3), 335-344 (2006).
  2. Cabán-Martinez, A. J., García-Beltrán, W. F. Advancing medicine one research note at a time: the educational value in clinical case reports. BMC Research Notes. 5 (1), 293 (2012).
  3. Vandenbroucke, J. P. In Defense of Case Reports and Case Series. Annals of Internal Medicine. 134 (4), 330 (2001).
  4. Bayoumi, A. M. The storied case report. Canadian Medical Association Journal. 171 (6), 569-570 (2004).
  5. Pasteur, L. Méthode pour prévenir la rage après morsure. Comptes rendus de l'Académie des Sciences. 101, 765-774 (1885).
  6. Pearce, J. Louis Pasteur and Rabies: a brief note. Journal of Neurology, Neurosurgery & Psychiatry. 73 (1), 82-82 (2002).
  7. Keefer, C. S., Blake, F. G., Marshall, E. K. J., Lockwood, J. S., Wood, W. B. J. PENICILLIN IN THE TREATMENT OF INFECTIONS. Journal of the American Medical Association. 122 (18), 1217 (1943).
  8. Akers, K. G. New journals for publishing medical case reports. Journal of the Medical Library Association JMLA. 104 (2), 146-149 (2016).
  9. Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3, 160018 (2016).
  10. Beeler, G. W. HL7 Version 3-An object-oriented methodology for collaborative standards development. International Journal of Medical Informatics. 48 (1-3), 151-161 (1998).
  11. HL7 FHIR Release 3 (STU; v3.0.1-11917). , Available from: http://hl7.org/implement/standards/fhir/ (2018).
  12. McDonald, C. J. LOINC, a Universal Standard for Identifying Laboratory Observations: A 5-Year Update. Clinical Chemistry. 49 (4), 624-633 (2003).
  13. CDC/National Center for Health Statistics ICD-10-CM Official Guidelines for Coding and Reporting. , Available from: https://www.cdc.gov/nchs/data/icd/10cmguidelines_fy2018_final.pdf (2017).
  14. Rajeev, D., et al. Development of an electronic public health case report using HL7 v2.5 to meet public health needs. Journal of the American Medical Informatics Association. 17 (1), 34-41 (2010).
  15. Biesecker, L. Mapping phenotypes to language: a proposal to organize and standardize the clinical descriptions of malformations. Clinical Genetics. 68 (4), 320-326 (2005).
  16. Riley, D. S., et al. CARE guidelines for case reports: explanation and elaboration document. Journal of Clinical Epidemiology. 89, 218-235 (2017).
  17. Cohen, K. B., et al. Coreference annotation and resolution in the Colorado Richly Annotated Full Text (CRAFT) corpus of biomedical journal articles. BMC Bioinformatics. 18 (1), 372 (2017).
  18. Sun, W., Rumshisky, A., Uzuner, O. Evaluating temporal relations in clinical text: 2012 i2b2 Challenge. Journal of the American Medical Informatics Association. 20 (5), 806-813 (2013).
  19. Savova, G. K., et al. Mayo clinical Text Analysis and Knowledge Extraction System (cTAKES): architecture, component evaluation and applications. Journal of the American Medical Informatics Association. 17 (5), 507-513 (2010).
  20. Soysal, E., et al. CLAMP - a toolkit for efficiently building customized clinical natural language processing pipelines. Journal of the American Medical Informatics Association. 25 (3), 331-336 (2018).
  21. Bender, D., Sartipi, K. HL7 FHIR: An Agile and RESTful approach to healthcare information exchange. Proceedings of the 26th IEEE International Symposium on Computer-Based Medical Systems. , 326-331 (2013).
  22. Chang, K., et al. Human Infection with Burkholderia thailandensis, China, 2013. Emerging Infectious Diseases. 23 (8), 1416-1418 (2013).
  23. Cameron, J. D., McClain, C. J. Ocular histopathology of acrodermatitis enteropathica. British Journal of Ophthalmology. 70 (9), 662-667 (1986).
  24. Maddox, T. M., Matheny, M. A. Natural Language Processing and the Promise of Big Data. Circulation: Cardiovascular Quality and Outcomes. 8 (5), 463-465 (2015).
  25. Kreimeyer, K., et al. Natural language processing systems for capturing and standardizing unstructured clinical information: A systematic review. Journal of Biomedical Informatics. 73, 14-29 (2017).

Tags

Medicin sag 139 data videnskab medicinsk informatik tekst mining anmærkning datasikring kliniske tilfælde rapporter
En Metadata udvinding tilgang til kliniske tilfælde rapporter at aktivere avanceret forståelse af biomedicinske begreber
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Caufield, J. H., Liem, D. A.,More

Caufield, J. H., Liem, D. A., Garlid, A. O., Zhou, Y., Watson, K., Bui, A. A. T., Wang, W., Ping, P. A Metadata Extraction Approach for Clinical Case Reports to Enable Advanced Understanding of Biomedical Concepts. J. Vis. Exp. (139), e58392, doi:10.3791/58392 (2018).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter