We presenteren een protocol en de bijbehorende metadata-sjabloon voor de winning van biomedische concepten in klinische Aanvraagrapporten beschrijvende tekst. De waarden van de gestructureerde tekst geproduceerd door dit protocol kunnen diepe analyse van duizenden klinische verhalen ondersteunen.
Klinische Aanvraagrapporten (CCRs) zijn een waardevol middel van het delen van opmerkingen en inzichten in de geneeskunde. De vorm van deze documenten varieert, en hun inhoud bevat beschrijvingen van talloze, nieuwe ziekte presentaties en behandelingen. De tekstgegevens binnen CCRs is tot nu toe grotendeels ongestructureerd, vereisen aanzienlijke personele en computationele inspanning te handig voor diepgaande analyse maken van deze gegevens. In dit protocol beschrijven we methoden voor het identificeren van de metagegevens overeenkomen met specifieke biomedische concepten vaak waargenomen binnen CCRs. Wij bieden een metagegevenssjabloon als een gids voor document aantekening, erkennen dat het opleggen van structuur op CCRs kan worden afgedwongen door combinaties van handmatige en geautomatiseerde inspanning. De hier gepresenteerde benadering kan is geschikt voor de organisatie van concept-gerelateerde tekst van een corpus van grote literatuur (bijvoorbeeld duizenden van CCRs) maar gemakkelijk aangepast om meer gerichte taken of kleine sets van verslagen te vergemakkelijken. De resulterende gegevens van gestructureerde tekst bevat voldoende semantische context om te ondersteunen een verscheidenheid aan volgende tekst analyse werkstromen: meta-analyses om te bepalen hoe het maximaliseren van de CCR detail, epidemiologische studies van zeldzame ziekten, en de ontwikkeling van modellen voor medische taal kan alle geschieden meer haalbaar en beheersbaar is door het gebruik van gestructureerde tekstgegevens.
Klinische Aanvraagrapporten (CCRs) zijn een essentieel instrument voor het delen van opmerkingen en inzichten in de geneeskunde. Deze dienen als een elementaire mechanisme voor communicatie en onderwijs voor clinici en studenten geneeskunde. In het verleden hebben CCRs ook geleverd met de accounts van opkomende ziekten, hun behandelingen en hun genetische achtergronden1,2,3,4. Bijvoorbeeld, de eerste behandeling van menselijke hondsdolheid door Louis Pasteur in 18855,6 en de eerste toepassing van penicilline in patiënten7 waren beide gemeld via CCRs. Meer dan 1.87 miljoen CCRs verschenen vanaf April 2018, met meer dan een half miljoen in het laatste decennium; tijdschriften zijn voortzetting van nieuwe locaties voor deze verslagen8. Hoewel uniek in vorm en inhoud, CCRs tekstgegevens bevatten die grotendeels ongestructureerd zijn, bevatten een enorme woordenschat, en betreffen onderling samenhangende verschijnselen, beperking van het gebruik ervan als een gestructureerde bron. Aanzienlijke inspanningen vereist is om gedetailleerde metagegevens uitpakken (dat wil zeggen, “gegevens over gegevens”, of in dit geval, de beschrijvingen van de inhoud van het document) van CCRs en hen vast te stellen als een vindbaar, toegankelijk, interoperabele en herbruikbare (FAIR)9 -gegevens resource.
Hier beschrijven we een proces voor het extraheren van tekst- en numerieke waarden op de standaardisering van de beschrijving van specifieke biomedische concepten binnen gepubliceerde CCRs. Deze methodologie omvat een metagegevenssjabloon om te begeleiden aantekening; Zie afbeelding 1 voor een overzicht van dit proces. Toepassing van het proces van de aantekening aan een grote collectie van rapporten (bijvoorbeeld enkele duizenden van een specifiek type van ziekte presentatie) vergadering van een beheersbare en gestructureerde verzameling van geannoteerde klinische teksten, bereiken machineleesbare vergunningen documentatie en biomedische verschijnselen ingebed binnen elke klinische presentatie. Hoewel gegevens zoals die geboden door HL7 formaten (bv., versie 3 van de Messaging standaard10 of het snel gezondheidszorg interoperabiliteit middelen [FHIR]11), LOINC12, en herziening 10 van de internationale statistische Classificatie van Diseases and Related Health Problems (ICD-10)13 bieden normen voor beschrijven en uitwisselen van klinische waarnemingen, zij niet de tekst rondom deze gegevens vastlegt, noch zijn zij bedoeld om. De resultaten van onze methodologie zijn beste gebruikt om structuur op CCRs af te dwingen en vergemakkelijken latere analyse, normalisatie door gecontroleerde vocabulaires en codering systemen (bv., ICD-10), en/of conversie naar de bovenstaande indelingen van klinische gegevens .
CCRs van de mijnbouw is een actief gebied van werk in de biomedische en klinische informatica. Hoewel eerdere voorstellen op de standaardisering van de structuur van rapporten kast (bijv., met behulp van HL7 v2.514 of gestandariseerd fenotype terminologie15) zijn prijzenswaardig, is het waarschijnlijk dat CCRs zal blijven volgen van een verscheidenheid van verschillende spreektaal formulieren en de document lay-outs, als ze hebben voor een groot deel van de vorige eeuw. Onder ideale omstandigheden Volg auteurs van nieuwe Aanvraagrapporten zorg16 van de richtsnoeren om ervoor te zorgen dat zij zijn uitgebreid. Daarom kan benaderingen die gevoelig zijn voor zowel natuurlijke taal en haar relatie met medische begrippen meest doeltreffend voor het werken met nieuwe en gearchiveerde rapporten. Bronnen, zoals CRAFT17 en degenen geproduceerd door informatica voor integratie van biologie en het bed (i2b2)18 curatie steunen natural language processing (NLP) benaderingen nog niet specifiek focus op CCRs of klinische verhalen. Ook medische NLP tools zoals cTAKES19 en klem20 hebben ontwikkeld, maar over het algemeen het identificeren van specifieke woorden of zinnen (i.e., entiteiten) binnen documenten in plaats van de algemene begrippen vaak beschreven in CCRs.
Wij hebben een gestandaardiseerde metagegevenssjabloon voor functies vaak opgenomen in CCRs ontworpen. Deze sjabloon bepaalt functies te leggen structuur op CCRs — een essentiële voorloper voor diepgaande vergelijkingen van documentinhoud-nog zorgt voor voldoende flexibiliteit te behouden van de semantische context. Hoewel we de indeling die is gekoppeld aan deze sjabloon te zijn geschikt voor zowel handmatige aantekening en computationeel-bijgewoonde text-mining hebt ontworpen, hebben we ervoor gezorgd is bijzonder gemakkelijk te gebruiken voor handmatige beschrijvers. Onze aanpak verschilt aanzienlijk van ingewikkeldere (en dus minder onmiddellijk begrijpen ongetrainde onderzoekers) kaders zoals FHIR21. Het volgende protocol wordt beschreven hoe isoleren documentfuncties overeenkomt met elk gegevenstype sjabloon, met een enkele set van waarden die overeenkomen met die in een enkele CCR.
De gegevenstypen binnen de sjabloon zijn meest beschrijvende voor CCRs en patiënt-gerichte medische documenten in het algemeen. Aantekening van deze functies bevordert vindbaarheid, toegankelijkheid en interoperabiliteit herbruikbaarheid van CCR tekst, voornamelijk doordat het structuur. De gegevenstypen zijn in vier algemene categorieën: document en annotatie identificatie, gevallenrapport identificatie (dat wil zeggen, documentniveau eigenschappen), medische inhoud concepten (voornamelijk concept-niveau eigenschappen) en bevestigingen (d.w.z. functies bewijze van financiering). In dit proces van aantekening bevat elk document de volledige tekst van een CCR, weglaten van enig document inhoud materiaal onafhankelijk is van het geval (bijvoorbeeld experimentele protocollen). CCRs zijn over het algemeen minder dan 1000 woorden elk; een enkel corpus moet idealiter worden geïndexeerd door dezelfde bibliografische database en worden in de dezelfde geschreven taal.
Het product van de benadering die hier beschreven, wanneer toegepast op een CCR-corpus, is een gestructureerde verzameling van geannoteerde klinische tekst. Terwijl deze methode volledig handmatig kan worden uitgevoerd en is ontworpen om te worden uitgevoerd door domein deskundigen zonder enige informatica ervaring, het is een aanvulling op de natuurlijke taalverwerking benaderingen die hierboven opgegeven en biedt gegevens geschikt zijn voor computationele analyse. Zulke analyses kunnen van belang zijn voor het publiek dat bestaat uit onderzoekers dan degenen die vaak CCRs lezen, met inbegrip van:
Handhaving van de structuur op CCRs kan ondersteunen talrijke daaropvolgende inspanningen om zowel medische taal en biomedische verschijnselen beter te begrijpen.
Uitvoering van een gestandaardiseerde metadata-sjabloon voor CCRs kan maken van hun inhoud meer FAIR, hun publiek uit te breiden en uitbreiden van hun toepassingen. Na het traditionele gebruik van CCRs als onderwijskundige instrumenten in medische communicatie, gezondheidszorg stagiairs (bijvoorbeeld medische studenten, stagiaires en fellows), en biomedische onderzoekers vinden dat samengevatte gevallenrapport inhoud in staat stellen sneller begrip. De grootste kracht van metadata normalisatie met CCRs, is echter dat het indexeren deze gegevens transformaties anders geïsoleerd opmerkingen in interpreteerbaar patronen. Het protocol hier kan dienen als de eerste stap in een werkstroom voor het werken met CCRs, of deze workflow uit epidemiologische analyse, verkochte geneesmiddel of behandeling toezicht of bredere enquêtes pathogenese of therapeutische werking bestaat. Gestructureerde functies geïdentificeerd binnen CCRs bieden een nuttige bron voor onderzoekers zich te concentreren op de presentaties van de ziekte en behandelingen, met name voor zeldzame aandoeningen. Klinische onderzoekers zult gegevens op afgelopen behandeling regimes voor het analyseren van opgenomen symptomen of de bijwerkingen en de mate van verbetering onder eerdere standaarden van zorg vinden. De gegevens kunnen ook bredere analyses van een nieuwe behandelingen op basis van doeltreffendheid, gebrek aan bijwerkingen of toxiciteit, of drug targeting van verschillen in geslacht, leeftijdsgroep, of genetische achtergrond rijden.
De voordelen van gestructureerde metagegevens gelden ook voor computationele werkstromen die zijn ontworpen om te ontleden of model in medische taal. Gestructureerde CCR-functies kunnen ook bieden bewijs van gebieden waar de auteurs rapport gemakkelijker machineleesbare kunnen bepalen (en in sommige gevallen, mensen leesbare) inhoud. Variantie onder CCRs kan ontstaan door een gebrek aan expliciet verstrekt opmerkingen: bijvoorbeeld de exacte leeftijd van een patiënt kan niet worden gespecificeerd. Clinici kunnen tests ook geen melding als de diagnostiek of hun resultaten werden beschouwd als triviaal. Door het verstrekken van voorbeelden van lacunes nodig voor grondige analyse, wijst handhaving structuur op CCRs op mogelijke verbeteringen. In een breder perspectief ondersteunt een grotere beschikbaarheid van gestructureerde tekstgegevens uit medische documenten voor natural language processing (NLP) inspanningen van big data in healthcare24,25te leren.
The authors have nothing to disclose.
Dit werk werd gedeeltelijk ondersteund door de National Heart, Lung, en bloed Instituut: R35 HL135772 (op P. Ping); National Institute of General Medical Sciences: U54 GM114833 (met P. Ping, K. Watson en W. Wang); National Institute of Biomedical Imaging and Bioengineering: T32 EB016640 (naar A. Bui); een cadeau van de Stichting Hoag en Dr. S. Setty; en de T.C. Laubisch endowment aan de UCLA (op P. Ping).
A corpus of clinical case reports | n/a | n/a | Full texts of case reports may be accessed through PubMed (e.g., using the search query "Case Reports"[Filter]), other citation databases such as Europe PMC (https://europepmc.org/) or directly through publishers. |