Vi præsenterer en protokol og tilknyttede metadataskabelon til udvinding af tekst, der beskriver biomedicinsk begreber i kliniske tilfælde rapporter. Struktureret tekstværdierne produceret gennem denne protokol kan støtte dyb analyse af tusindvis af kliniske fortællinger.
Kliniske tilfælde rapporter (CCRs) er et værdifuldt middel til at dele observationer og indsigt i medicin. Form af disse dokumenter varierer, og deres indhold omfatter beskrivelser af talrige, Roman sygdom præsentationer og behandlinger. Hidtil, er tekstdata inden for CCRs i vid udstrækning ustruktureret, der kræver betydelige menneskelige og beregningsmæssige indsats for at gøre disse oplysninger nyttige for dybtgående analyse. I denne protokol beskriver vi metoder til at identificere metadata svarer til specifikke biomedicinsk begreber ofte observeret inden for CCRs. Vi leverer en metadataskabelon som en guide til dokument anmærkning, erkender, at pålægge struktur på CCRs kan være fulgt af kombinationer af manuelle og automatiske indsats. Tilgang præsenteres her er relevante for tilrettelæggelsen af koncept-relaterede tekst fra store litteratur corpus (fx tusindvis af CCRs), men kan være let tilpasses til at lette mere fokuseret opgaver eller lille sæt af rapporter. Den resulterende struktureret tekstdata omfatter tilstrækkelige semantiske sammenhæng for at støtte en bred vifte af efterfølgende tekst analyse arbejdsprocesser: meta-analyser til at bestemme, hvordan at maksimere CCR detaljer, epidemiologiske undersøgelser af sjældne sygdomme, og udviklingen af modeller for Medicinsk sprog kan alle gøres mere gennemførlige og administrerbare ved hjælp af struktureret tekstdata.
Kliniske tilfælde rapporter (CCRs) er et grundlæggende middel til at dele observationer og indsigt i medicin. Disse tjener som en grundlæggende mekanisme for kommunikation og uddannelse for klinikere og medicinstuderende. Historisk set har CCRs også givet konti af nye sygdomme, deres behandlinger og deres genetiske baggrunde1,2,3,4. For eksempel, rapporteret den første behandling af human rabies af Louis Pasteur i 18855,6 , og den første anvendelse af penicillin i patienter7 var begge gennem CCRs. Mere end 1,87 millioner CCRs er blevet offentliggjort i April 2018, med over en halv million inden for det sidste årti. tidsskrifter fortsat at skabe nye mødesteder for disse rapporter8. Selvom unikke i form og indhold, CCRs indeholder tekstdata, der er i vid udstrækning ustruktureret, indeholder et stort ordforråd, og vedrører indbyrdes forbundne fænomener, begrænser deres anvendelse som en struktureret ressource. Betydelig indsats er forpligtet til at udtrække detaljerede metadata (dvs., “data om data”, eller i dette tilfælde, beskrivelser af dokumentets indhold) fra CCRs og oprette dem som en findable, tilgængelige, interoperable og genanvendelige (FAIR)9 data ressource.
Her, beskriver vi en proces til at udtrække tekst og numeriske værdier at standardisere beskrivelse af specifikke biomedicinsk begreber inden for offentliggjorte CCRs. Denne metode omfatter en metadataskabelon guide anmærkning; Se figur 1 for en oversigt over denne proces. Anvendelse af anmærkning processen til en stor samling af rapporter (f.eks. flere tusinde af en bestemt sygdom præsentation) tillader montage af en overskuelig og struktureret sæt af kommenteret kliniske tekster, at opnå maskinlæsbare dokumentation og biomedicinsk fænomener er indlejret i hver klinisk præsentation. Selvom data formater som dem, der leveres af HL7 (fx., Version 3 af Messaging Standard10 eller hurtigt Healthcare interoperabilitet ressourcer [FHIR]11), LOINC12, og revision 10 af internationale statistiske Klassifikation af sygdomme og relaterede sundhedsproblemer (ICD-10)13 give standarder til at beskrive og udveksle kliniske observationer, de ikke fange teksten omkring disse data, og heller ikke er de beregnet til. Resultaterne af vores metode er bedst bruges til at håndhæve struktur på CCRs og lette efterfølgende analyse, normalisering gennem kontrolleret ordforråd og kodning systemer (fx., ICD-10), og/eller konvertering til kliniske dataformater ovennævnte .
Minedrift CCRs er et aktivt område inden for biomedicinsk og kliniske informatik. Selvom tidligere forslag at standardisere struktur case rapporter (fx., ved hjælp af HL7 v2.514 eller standardiseret fænotype terminologi15), er prisværdige, er det sandsynligt, at CCRs fortsat vil følge en lang række forskellige naturligt-sprog formularer og dokument layouts, som de har for meget af det sidste århundrede. Under ideelle betingelser Følg forfattere af nye kasuistikker pleje retningslinjer16 for at sikre, at de er omfattende. Tilgange, der er følsomme for både naturlige sprog og dets relation til medicinsk begreber kan derfor være mest effektiv i at arbejde med nye og arkiverede rapporter. Ressourcer som håndværk17 og dem produceret af informatik for integrering af biologi og sengen (i2b2)18 datasikring støtte naturlig sprogbehandling (NLP) tilgange endnu ikke specielt fokus på CCRs eller kliniske fortællinger. Tilsvarende medicinsk NLP værktøjer som cTAKES19 og KLEMME20 er blevet udviklet men generelt identificere bestemte ord eller sætninger (dvs., enheder) inden for dokumenter i stedet for de generelle begreber ofte beskrevet i CCRs.
Vi har designet en standardiseret metadataskabelon for funktioner, der almindeligvis findes inden for CCRs. Denne skabelon definerer funktioner for at indføre struktur på CCRs — en vigtig forløber for dybdegående sammenligninger af dokumentets indhold-endnu giver mulighed for tilstrækkelig fleksibilitet til at bevare semantiske sammenhæng. Selvom vi har designet det format, der er knyttet til denne skabelon skal være passende til både manuel annotation og beregningsmæssigt bistået text mining, har vi sikret, det er særligt nem at bruge for manuel annotators. Vores tilgang afviger mærkbart fra mere indviklede (og derfor mindre umiddelbart forståeligt at utrænede forskere) rammer som FHIR21. Følgende protokol beskriver hvordan man isolere dokumentfunktioner svarende til hver skabelon datatype, med et enkelt sæt af værdier svarende til dem i en enkelt CCR.
Datatyper i skabelonen er dem mest beskrivende for CCRs og patient-fokuseret medicinske dokumenter i almindelighed. Anmærkning af disse funktioner fremmer findability, tilgængelighed, interoperabilitet og genbrugelighed af CCR tekst, primært ved at give den struktur. Datatyperne er i fire overordnede kategorier: dokument og annotation identifikation, sagsrapport identifikation (dvs. dokument-niveau egenskaber), medicinske indhold begreber (primært koncept-niveau egenskaber) og anerkendelser (dvs. funktioner giver bevis for finansiering). I denne anmærkning indeholder hvert dokument den fulde ordlyd af en CCR, udelade dokument indhold materiale, uafhængige sag (f.eks., eksperimentelle protokoller). CCRs er generelt mindre end 1.000 ord hver; en enkelt corpus bør ideelt set skal indekseres af den samme bibliografisk database og være i den samme skriftsprog.
Produktet af metoden beskrevet her, når den anvendes på en CCR corpus, er et struktureret sæt af kommenteret kliniske tekst. Mens denne metodologi kan udføres fuldt manuelt og er udviklet til at være udført af domæne eksperter uden Informatik erfaring, det supplerer de naturlig sprogbehandling tilgange angivet ovenfor og leverer data til beregningsmæssige analyse. Sådanne analyser kan være af interesse for publikum af forskere ud over dem, der ofte læse CCRs, herunder:
Håndhæve struktur på CCRs kan understøtte mange efterfølgende indsats for bedre at forstå både medicinsk sprog og biomedicinsk fænomener.
Gennemførelsen af en standardiseret metadataskabelon for CCRs kan gøre deres indhold mere FAIR, udvide deres publikum og udvide deres programmer. Efter den traditionelle brug af CCRs som pædagogiske redskaber i medicinsk kommunikation, healthcare praktikanter (f.eks. medicinske studenter, praktikanter og stipendiater), og biomedicinske forskere kan finde at opsummerede sagsrapport indholdet aktiverer hurtigere forståelse. Den største styrke af metadata standardisering med CCRs, er dog, at indeksere disse data transformeringer ellers isoleret observationer i fortolkelige mønstre. Protokollen i henhold her kan tjene som det første trin i en arbejdsproces til at arbejde med CCRs, om denne arbejdsgang består af epidemiologisk analyse, post-marketing stof eller behandling overvågning eller bredere undersøgelser af patogenesen eller terapeutiske virkning. Struktureret funktioner identificeret inden for CCRs kan give en nyttig ressource for forskere med fokus på sygdom præsentationer og behandlinger, især af sjældne betingelser. Kliniske forskere kan finde data om tidligere behandlingsregimer at analysere registreret symptomer eller bivirkninger og graden af forbedring under tidligere standarder for pleje. Data kan også drive bredere analyser af en nye behandlinger baseret på effektivitet, manglende bivirkninger eller toksicitet, eller narkotika målretning forskelle i køn, aldersgruppe eller genetiske baggrund.
Ydelserne fra strukturerede metadata er ligeledes gældende for computational arbejdsprocesser designet til at analysere eller modellere medicinsk sprog. Struktureret CCR funktioner kan også levere beviser for områder, hvor betænkningen forfattere kan give lettere maskinlæsbar (og i nogle tilfælde, læsbar) indhold. Variansen blandt CCRs kan skyldes manglende udtrykkeligt angivne bemærkninger: f.eks. en patient nøjagtige alder ikke kan angives. Ligeledes kan klinikere ikke nævne test hvis diagnosticeringen eller deres resultater blev anset for trivielt. Ved at give eksempler på mangler nødvendige for dybdegående analyse, fremhæver håndhæve struktur på CCRs potentielle forbedringer. I et bredere perspektiv understøtter en større tilgængelighed af struktureret tekstdata fra medicinsk dokumenter naturlig sprogbehandling (NLP) bestræbelser på at lære fra big data i sundhedssektoren24,25.
The authors have nothing to disclose.
Dette arbejde blev støttet i en del af National Heart, Lung, og Blood Institute: R35 HL135772 (til P. Ping); National Institute of General Medical Sciences: U54 GM114833 (til P. Ping, K. Watson, og W. Wang); Statens Institut for biomedicinsk Imaging og bioteknologi: T32 EB016640 (til A. Bui); en gave fra Hoag Foundation og Dr. S. Setty; og TC Laubisch begavelse på UCLA (til P. Ping).
A corpus of clinical case reports | n/a | n/a | Full texts of case reports may be accessed through PubMed (e.g., using the search query "Case Reports"[Filter]), other citation databases such as Europe PMC (https://europepmc.org/) or directly through publishers. |