A Metadata Extraction Approach for Clinical Case Reports to Enable Advanced Understanding of Biomedical Concepts

John Harry Caufield; David A. Liem; Anders O. Garlid; Yijiang Zhou; Karol Watson; Alex A. T. Bui; Wei Wang; Peipei Ping

doi:10.3791/58392

JoVE Journal > Medicine

Please note that all translations are automatically generated. Click here for the English version.

Medicine

Een benadering van de extractie metagegevens voor klinische Case Reports om geavanceerde begrip van biomedische concepten

Published: September 20, 2018

doi:

10.3791/58392

John Harry Caufield², David A. Liem^2,3, Anders O. Garlid², Yijiang Zhou, Karol Watson³, Alex A. T. Bui^5,6,7, Wei Wang^7,8,9, Peipei Ping^2,3,7,8

Summary

We presenteren een protocol en de bijbehorende metadata-sjabloon voor de winning van biomedische concepten in klinische Aanvraagrapporten beschrijvende tekst. De waarden van de gestructureerde tekst geproduceerd door dit protocol kunnen diepe analyse van duizenden klinische verhalen ondersteunen.

Abstract

Klinische Aanvraagrapporten (CCRs) zijn een waardevol middel van het delen van opmerkingen en inzichten in de geneeskunde. De vorm van deze documenten varieert, en hun inhoud bevat beschrijvingen van talloze, nieuwe ziekte presentaties en behandelingen. De tekstgegevens binnen CCRs is tot nu toe grotendeels ongestructureerd, vereisen aanzienlijke personele en computationele inspanning te handig voor diepgaande analyse maken van deze gegevens. In dit protocol beschrijven we methoden voor het identificeren van de metagegevens overeenkomen met specifieke biomedische concepten vaak waargenomen binnen CCRs. Wij bieden een metagegevenssjabloon als een gids voor document aantekening, erkennen dat het opleggen van structuur op CCRs kan worden afgedwongen door combinaties van handmatige en geautomatiseerde inspanning. De hier gepresenteerde benadering kan is geschikt voor de organisatie van concept-gerelateerde tekst van een corpus van grote literatuur (bijvoorbeeld duizenden van CCRs) maar gemakkelijk aangepast om meer gerichte taken of kleine sets van verslagen te vergemakkelijken. De resulterende gegevens van gestructureerde tekst bevat voldoende semantische context om te ondersteunen een verscheidenheid aan volgende tekst analyse werkstromen: meta-analyses om te bepalen hoe het maximaliseren van de CCR detail, epidemiologische studies van zeldzame ziekten, en de ontwikkeling van modellen voor medische taal kan alle geschieden meer haalbaar en beheersbaar is door het gebruik van gestructureerde tekstgegevens.

Introduction

Klinische Aanvraagrapporten (CCRs) zijn een essentieel instrument voor het delen van opmerkingen en inzichten in de geneeskunde. Deze dienen als een elementaire mechanisme voor communicatie en onderwijs voor clinici en studenten geneeskunde. In het verleden hebben CCRs ook geleverd met de accounts van opkomende ziekten, hun behandelingen en hun genetische achtergronden¹^,²^,³^,⁴. Bijvoorbeeld, de eerste behandeling van menselijke hondsdolheid door Louis Pasteur in 1885⁵^,⁶ en de eerste toepassing van penicilline in patiënten⁷ waren beide gemeld via CCRs. Meer dan 1.87 miljoen CCRs verschenen vanaf April 2018, met meer dan een half miljoen in het laatste decennium; tijdschriften zijn voortzetting van nieuwe locaties voor deze verslagen⁸. Hoewel uniek in vorm en inhoud, CCRs tekstgegevens bevatten die grotendeels ongestructureerd zijn, bevatten een enorme woordenschat, en betreffen onderling samenhangende verschijnselen, beperking van het gebruik ervan als een gestructureerde bron. Aanzienlijke inspanningen vereist is om gedetailleerde metagegevens uitpakken (dat wil zeggen, “gegevens over gegevens”, of in dit geval, de beschrijvingen van de inhoud van het document) van CCRs en hen vast te stellen als een vindbaar, toegankelijk, interoperabele en herbruikbare (FAIR)⁹ -gegevens resource.

Hier beschrijven we een proces voor het extraheren van tekst- en numerieke waarden op de standaardisering van de beschrijving van specifieke biomedische concepten binnen gepubliceerde CCRs. Deze methodologie omvat een metagegevenssjabloon om te begeleiden aantekening; Zie afbeelding 1 voor een overzicht van dit proces. Toepassing van het proces van de aantekening aan een grote collectie van rapporten (bijvoorbeeld enkele duizenden van een specifiek type van ziekte presentatie) vergadering van een beheersbare en gestructureerde verzameling van geannoteerde klinische teksten, bereiken machineleesbare vergunningen documentatie en biomedische verschijnselen ingebed binnen elke klinische presentatie. Hoewel gegevens zoals die geboden door HL7 formaten (bv., versie 3 van de Messaging standaard¹⁰ of het snel gezondheidszorg interoperabiliteit middelen [FHIR]¹¹), LOINC¹², en herziening 10 van de internationale statistische Classificatie van Diseases and Related Health Problems (ICD-10)¹³ bieden normen voor beschrijven en uitwisselen van klinische waarnemingen, zij niet de tekst rondom deze gegevens vastlegt, noch zijn zij bedoeld om. De resultaten van onze methodologie zijn beste gebruikt om structuur op CCRs af te dwingen en vergemakkelijken latere analyse, normalisatie door gecontroleerde vocabulaires en codering systemen (bv., ICD-10), en/of conversie naar de bovenstaande indelingen van klinische gegevens .

CCRs van de mijnbouw is een actief gebied van werk in de biomedische en klinische informatica. Hoewel eerdere voorstellen op de standaardisering van de structuur van rapporten kast (bijv., met behulp van HL7 v2.5¹⁴ of gestandariseerd fenotype terminologie¹⁵) zijn prijzenswaardig, is het waarschijnlijk dat CCRs zal blijven volgen van een verscheidenheid van verschillende spreektaal formulieren en de document lay-outs, als ze hebben voor een groot deel van de vorige eeuw. Onder ideale omstandigheden Volg auteurs van nieuwe Aanvraagrapporten zorg¹⁶ van de richtsnoeren om ervoor te zorgen dat zij zijn uitgebreid. Daarom kan benaderingen die gevoelig zijn voor zowel natuurlijke taal en haar relatie met medische begrippen meest doeltreffend voor het werken met nieuwe en gearchiveerde rapporten. Bronnen, zoals CRAFT¹⁷ en degenen geproduceerd door informatica voor integratie van biologie en het bed (i2b2)¹⁸ curatie steunen natural language processing (NLP) benaderingen nog niet specifiek focus op CCRs of klinische verhalen. Ook medische NLP tools zoals cTAKES¹⁹ en klem²⁰ hebben ontwikkeld, maar over het algemeen het identificeren van specifieke woorden of zinnen (i.e., entiteiten) binnen documenten in plaats van de algemene begrippen vaak beschreven in CCRs.

Wij hebben een gestandaardiseerde metagegevenssjabloon voor functies vaak opgenomen in CCRs ontworpen. Deze sjabloon bepaalt functies te leggen structuur op CCRs — een essentiële voorloper voor diepgaande vergelijkingen van documentinhoud-nog zorgt voor voldoende flexibiliteit te behouden van de semantische context. Hoewel we de indeling die is gekoppeld aan deze sjabloon te zijn geschikt voor zowel handmatige aantekening en computationeel-bijgewoonde text-mining hebt ontworpen, hebben we ervoor gezorgd is bijzonder gemakkelijk te gebruiken voor handmatige beschrijvers. Onze aanpak verschilt aanzienlijk van ingewikkeldere (en dus minder onmiddellijk begrijpen ongetrainde onderzoekers) kaders zoals FHIR²¹. Het volgende protocol wordt beschreven hoe isoleren documentfuncties overeenkomt met elk gegevenstype sjabloon, met een enkele set van waarden die overeenkomen met die in een enkele CCR.

De gegevenstypen binnen de sjabloon zijn meest beschrijvende voor CCRs en patiënt-gerichte medische documenten in het algemeen. Aantekening van deze functies bevordert vindbaarheid, toegankelijkheid en interoperabiliteit herbruikbaarheid van CCR tekst, voornamelijk doordat het structuur. De gegevenstypen zijn in vier algemene categorieën: document en annotatie identificatie, gevallenrapport identificatie (dat wil zeggen, documentniveau eigenschappen), medische inhoud concepten (voornamelijk concept-niveau eigenschappen) en bevestigingen (d.w.z. functies bewijze van financiering). In dit proces van aantekening bevat elk document de volledige tekst van een CCR, weglaten van enig document inhoud materiaal onafhankelijk is van het geval (bijvoorbeeld experimentele protocollen). CCRs zijn over het algemeen minder dan 1000 woorden elk; een enkel corpus moet idealiter worden geïndexeerd door dezelfde bibliografische database en worden in de dezelfde geschreven taal.

Het product van de benadering die hier beschreven, wanneer toegepast op een CCR-corpus, is een gestructureerde verzameling van geannoteerde klinische tekst. Terwijl deze methode volledig handmatig kan worden uitgevoerd en is ontworpen om te worden uitgevoerd door domein deskundigen zonder enige informatica ervaring, het is een aanvulling op de natuurlijke taalverwerking benaderingen die hierboven opgegeven en biedt gegevens geschikt zijn voor computationele analyse. Zulke analyses kunnen van belang zijn voor het publiek dat bestaat uit onderzoekers dan degenen die vaak CCRs lezen, met inbegrip van:

betrokkenen met ziekte presentaties, hun belangrijkste symptomology gebruikelijke diagnostische benaderingen en behandelingen
degenen die het vergelijken van de resultaten van klinische proeven met gebeurtenissen beschreven binnen de klinische literatuur willen, mogelijk het verstrekken van aanvullende opmerkingen en groter statistisch onderscheidingsvermogen.
Bio-informatica, biomedische informatica en computer science onderzoekers die behoefte hebben aan gestructureerde medische taal datasets of op hoog niveau afspraken van medische verhalen
Regering beleid onderzoekers zich te concentreren op hoe klinische proeven kunnen best weerspiegelen hoe diagnose en behandeling als het zich reëel voordoet

Handhaving van de structuur op CCRs kan ondersteunen talrijke daaropvolgende inspanningen om zowel medische taal en biomedische verschijnselen beter te begrijpen.

Protocol

1. document en aantekening identificatie Opmerking: De waarden in deze categorie het aantekening-proces steunen. Met de aantekening sjabloon, bepalen is een id die specifiek zijn voor deze metagegevens, bijvoorbeeld Case123. De id-indeling moet consequent door het project (bijvoorbeeld, Case001 via Case500). Geef de datum waarop een document was lezen en geannoteerd. Gebruik een indeling die lijkt op “Jan 10 2018” voor consistentie en leesbaarheid. 2. gevallenrapport identificatie Opmerking: Waarden in deze categorie documentniveau functies bieden en bijdragen aan de vindbaarheid van een document. In overeenstemming zijn met de indeling van elk veld over alle aantekeningen, bijvoorbeeld afzonderlijke waarden moeten worden gescheiden door puntkomma’s zonder volgende spaties in alle posten. Gebruik identieke formaten die in het oorspronkelijke document of die worden gebruikt in een bibliografische database zoals MEDLINE. Geef de titel van het document. De namen van alle auteurs van het document in de gegeven volgorde opgeven. Normaliseren van de notatie van alle namen, zodat alle namen de vorm aannemen van een enkel achternaam, gevolgd door een willekeurig aantal initialen, bijvoorbeeld Jane B. Park Park JBwordt. Neem geen titels. Meerdere auteurs scheiden met een puntkomma zonder extra interpunctie, zodanig dat John A. Smith, Jane B. Park heeft een vorm van Smith JA; Park JB. Bieden van het jaar van publicatie van het document. Bieden de volledige titel van het tijdschrift waarin het document werd gepubliceerd. Een lijst met namen van de gecontroleerde dagboek wordt verzorgd door de NLM-catalogus (https://www.ncbi.nlm.nih.gov/nlmcatalog). Het adres van de eigen instelling van de auteurs van het document, als beschreven in het document opgeven. Dit kan omvatten afdelingen, geografische locaties en postadres details. Als meerdere locaties zijn opgegeven (bijvoorbeeld als voorkeuren tussen auteurs verschillen), specificeer alleen voor de bijbehorende auteur. Als de auteur van een overeenkomstige niet kan worden geïdentificeerd, gebruik dat van de eerste auteur, of een instelling niet opgeeft. Als de auteur van een overeenkomstige meerdere voorkeuren heeft, geeft u beide en scheiden met een puntkomma. Bieden de overeenkomstige auteur van het document, zoals opgegeven in de kop van de document met behulp van hetzelfde formaat als die in het auteurs-gegevenstype gebruikt. De id van een document (bijvoorbeeld een PMID) bieden. Een digitaal Object-id, indien mogelijk en beschikbaar, omgezet in de document-URL (via https://www.doi.org/), niet een PubMed Central pagina. Bieden van een stabiele URL naar de volledige tekst van het document, indien beschikbaar. Maximaliseren van toegankelijkheid, kan dit verwijzen naar de versie van PubMed Central. Bieden de taal van het document. Voor documenten in meerdere talen beschikbaar, bieden beide, gescheiden met een puntkomma. 3. medische inhoud Opmerking: De waarden in deze categorie identificeren documentniveau, concept, op veldniveau en tekst functies. Ze dienen ter verbetering van de toegankelijkheid van een document, interoperabiliteit en herbruikbaarheid. Deze functies bieden manieren om te observeren van de conceptuele en semantische gelijkenissen tussen de inhoud van het document, met een focus op biomedische onderwerpen en gebeurtenissen. Meeste categorieën in deze sectie kunnen meerdere instructies voor een tekst bevatten en elk moet worden gescheiden met een puntkomma. Contextuele detail deelnemen aan elk veld (bijvoorbeeld “moeder had borstkanker op leeftijd 50”) in plaats van alleen termen uit een beheerde woordenlijst te verstrekken (bijvoorbeeld niet “borstkanker” alleen). Neem geen uitgebreide informatie buiten elke waarneming. Weglaten vaak herhaalde woorden en zinnen (bijvoorbeeld voornaamwoorden, het woord “patiënt”, en de uitdrukkingen “klaagde over” of “gepresenteerd met”). Hoewel subjectiviteit over meerdere beschrijvers dreigt, kan het worden verminderd door het hebben van meerdere beschrijvers voor elk document en via geautomatiseerde normalisatie na het verzamelen van gegevens. Computationele post-processing benaderingen zullen variëren door latere analyse behoeften en worden niet hier in detail besproken. Geef de volgende informatie in de aantekening sjabloon. Bieden van specifieke termen in een document, meestal in de header, aangeduid als kernbegrippen. Scheiden met een puntkomma als voorwaarden eventueel ander interpunctieteken. Demografische waarden, specifiek tekst verklaringen beschrijven van een patiënt achtergrond, met inbegrip van seks en/of geslacht, leeftijd, etnische afkomst of nationaliteit te leveren. Leveren geografische locaties die binnen de klinische vertelling, dan specifieke instelling adressen worden vermeld. Dit dient niet anatomische locaties/delen, maar kan ook elke geografische locale waar de patiënt woont of reist. Privaatleven waarden, met inbegrip van alle verklaringen van de tekst met een beschrijving van frequente patiënt activiteiten of gedrag die relevant zijn voor hun algemene gezondheid leveren. In de praktijk, dit vaak gaat om roken of alcohol consumptiegewoonten, maar kan ook blootstelling aan de zon, dieet, of frequentie van specifieke soorten lichamelijke activiteit. Medische geschiedenis waarden verwijzen naar familiegeschiedenis te leveren. Omvatten alle tekst verklaringen beschrijven klinisch te observeren en evenementen ervaren door broers en zussen, ouders en andere familieleden. Dit omvat genetische omstandigheden en negatieve opmerkingen (dat wil zeggen, familiegeschiedenis was negatief voor een ziekte). Bevatten waarden die verwijzen naar sociale geschiedenis, met inbegrip van eventuele tekst verklaringen beschrijven patiënt achtergrond niet gedekt in de demografie of Life Style. Er kunnen overlappingen van inhoud tussen deze twee categorieën. De verklaringen bevatten beroepsmatige geschiedenis en sociale gewoonten. Bevatten waarden die verwijzen naar de medische en chirurgische geschiedenis van de patiënt. Omvatten alle verklaringen van de tekst met een beschrijving van elke medische waarnemingen, behandelingen, of andere evenementen die plaatsvinden vóór het begin van de klinische presentatie. Dit omvat obstetrische geschiedenis en periodes van goede gezondheid, waar aangegeven. Geef een of meer van de volgende categorieën van de 16 ziekte systeem. Merk op dat deze waarden categorische in plaats van vrije-tekstquery zijn. Categorieën zijn niet uitgebreid maar dienen op te geven de meeste systemen die zijn beïnvloed door de gebeurtenissen beschreven in de klinische presentatie en diagnose van de ziekte. Volgen een specifieke set van categorieën, op basis van de categorieën die worden gebruikt in de International Statistical Classification of Diseases and Related Health Problems, herziening 10 (ICD-10)-coderingssysteem. Zie tabel 1 voor de lijst van ziekte systeem categorieën samen met bijbehorende ICD-10 code bereiken. Bijzonderheden van alle tekenen en symptomen. Omvatten alle verklaringen van de tekst met een beschrijving van elke medische waarnemingen van tekenen of symptomen beginnen bij de eerste presentatie, inclusief hun begin, de duur, de ernst, en de resolutie, indien. Neem geen symptomen die in het resultaat. Deze waarden kunnen overlappen met andere soorten als de symptomen blijven beginpresentatie uit de geschiedenis. Nadere bijzonderheden van elk comorbidities te geven. Voorwaarden of zinnen beschrijven van verschillende ziekten aanwezig zijn op het moment van eerste klinische presentatie bevatten. Er is waarschijnlijk overlapping tussen deze waarden en die in de ziektegeschiedenis, hoewel comorbiditeit geen bewoordingen gelijk aan die in de diagnose bevatten mag. Bijzonderheden van alle diagnostische technieken en procedures. De namen van medische procedures voor diagnostische doeleinden, met inbegrip van examens, tests, imaging, alsmede de voorwaarden waaronder deze tests uitgevoerd en relevante anatomische locaties (bijvoorbeeld “bovenste extremiteit veneuze werden gedaan Ultrasound”). Uitsluiten van testresultaten. Bijzonderheden van de diagnose. Omvatten elk tekst-verklaringen beschrijven diagnoses van ziekte, zelfs als de uiteindelijke diagnose niet eenduidig is. Alle laboratorium waarden leveren en testresultaten. Zijn namen van diagnostische tests, hun waarden, en de omstandigheden waaronder ze werden uitgevoerd. Dit houdt overlapping met termen die worden gebruikt in de diagnostische technieken en Procedures-gegevenstype. Zowel kwalitatieve als numerieke waarden (bijvoorbeeld complete blood count was binnen normale grenzen) zijn aanvaardbaar. Als de namen van de diagnostische tests niet verstrekt worden, gebruik van termen met een beschrijving van de resultaten (bijvoorbeeld leukopenie), maar ze moeten ook worden opgenomen in de tekenen en symptomen. Bijzonderheden van de pathologie. Omvatten de verklaringen van een tekst beschrijving van de resultaten van de pathologie en histologie studies, waaronder bruto pathologie, immunologie en microscopie studies. Voorwaarden kunnen overlappen met die gebruikt in diagnostische technieken en Procedures (stap 3.11), bijvoorbeeld met de procedures uitgevoerd om monsters zoals biopsie krijgen. Bieden alle farmacologische therapieën. Bevatten geen uitspraken van de tekst met een beschrijving van drugs therapieën gebruikt in het kader van behandeling, met inbegrip van algemene termen zoals antibiotica of specifieke medicijnnamen. Ook beschrijvingen van wanneer en hoe drugs therapieën werden tegengehouden. Alle invasieve procedures bieden. Omvatten verklaringen van de tekst met een beschrijving van therapeutische methoden die worden toegepast in de loop van behandeling, met inbegrip van invasieve procedures, implantatie van medische hulpmiddelen en procedures gedaan om andere therapieën. Ook beschrijvingen van wanneer en hoe lopende therapeutische procedures werden tegengehouden, indien nodig. De patiënt uitkomst bieden. Omvatten elk tekst-verklaringen beschrijven van de gezondheid van de patiënt vanaf het einde van de klinische presentatie in het verslag, met inbegrip van eventuele follow-up tests beschreven. Lijst van graven van alle diagnostische beelden, figuren, video’s / animaties en tabellen bieden. Omvatten alle graven van visuele media opgenomen in het rapport, in de volgende notatie: graaf van beelden; Graaf van cijfers; Aantal video’s of animaties; Het aantal tabellen. Onderscheid maken tussen beelden en cijfers op deze manier: afbeeldingen bevatten alle producten van klinische diagnostiek, met inbegrip van foto’s, microfoto elektrocardiogram ritme beelden en andere producten van diagnostische beeldvorming, terwijl de cijfers zijn alle andere beelden, over het algemeen inclusief gegevens Staanplaatsen en illustraties. Bewijs te leveren van relaties naar andere CCRs. Dit veld kan bevatten-id’s (bijvoorbeeld PMIDs) van de andere verslagen in de gegevensset aangehaald door of referencement van dit verslag. Bewijs te leveren van relaties aan klinische proeven. Dit veld kan bevatten-id’s van klinische proeven onder vermelding van deze CCR. Proeven door hun ClinicalTrials.gov-id’s, voorafgegaan door NCT, of een andere stabiele identificatie identificeren. Database crosslinks correspondeert met dit document, met inbegrip van identificatiemiddelen, bij voorkeur als databasenamen omvatten en stabiele URLs. 4. dankbetuigingen Opmerkingen: Waarden in deze categorie documentniveau omgaan maar hebben weinig consistente structuur over publicaties. Ze vindt u informatie over de organisaties die steun voor een CCR en aanverwante werkzaamheden. Deze categorie bevat ook een veld voor het totale aantal verwijzingen aangehaald door een artikel: dit is bedoeld om een ruwe metric van de mate waarin een document conceptuele relaties met andere biomedische documenten van een willekeurig type heeft. Binnen de vier gegevenstypen in deze sectie, verstrekken de volgende. Alle financieringsbronnen ondersteuning van de werkzaamheden en de daarbij horende PI evenals relevante award nummers opgeven De eerste waarde, financiering bron, dient de namen van alle organisaties die financiële steun voor het werk. Afzonderlijke organisaties met puntkomma’s en ruimten, bijvoorbeeld Nationale instituten van gezondheid/National Cancer Institute; DOE; Smith-Park Foundation . Voor de volgende waarde, Award nummer, elke award nummers of specifieke benamingen die samen met de ontvangers van de awards opgeeft, waar nodig, als de initialen van de geadresseerden in de haakjes, b.v. R01HL123123 (naar JP) , NS12312 (naar JP, JS), onderzoek opleiding Genootschap (naar JS). Auteurs kunnen uitdrukkelijk dat geen overeenkomstige informatie beschikbaar is (bijvoorbeeld “geen financiering werd ontvangen”); Gebruik de tekst die door de auteurs als de waarde van de bron van de financiering in deze gevallen. De waarde moet anders, NA. Bekendmakingen/conflicten van belang zoalsgespecificeerd door de auteurs, zoals JP is een consultant voor DrugCoopgeven Auteurs kunnen uitdrukkelijk dat geen overeenkomstige informatie beschikbaar is (bijvoorbeeld “geen belangenconflict is aangegeven”); in deze gevallen, gebruiken de tekst die door de auteurs als de informatieverschaffing/Conflict van belang waarde. Anders, zoals hierboven, moet de waarde NA. Geef een numerieke telling van alle verwijzingen aangehaald door het document, niet met inbegrip van die waarin een aanvullend materiaal. Geen verwijzing tekst moet worden opgenomen in dit veld.

Representative Results

Een voorbeeld van het proces van de aantekening wordt weergegeven in Figuur 2. Deze zaak22 beschrijft een presentatie van infectie door de bacteriële ziekteverwekker Burkholderia thailandensis. Ter referentie vindt u het desbetreffende gedeelte van dit CCR in tekstindeling in aanvullende bestand 1; sommige onderzoeksbevindingen ook in dit verslag worden gepresenteerd en voor vergelijking worden opgenomen. In de praktijk, kan rapporten waarin HTML of PDF-indeling naar tekst zonder opmaak converteren verbeteren de efficiëntie en het gebruiksgemak van de winning van metagegevens. Voorbeelden van twee sets van voltooide CCR metagegevens aantekeningen gegeven in tabel 2. Het eerste van deze voorbeelden is mock gegevens ter illustratie van het ideale formaat van elke waarde, terwijl het tweede voorbeeld waarden die zijn opgehaald uit een gepubliceerde CCR op een zeldzame aandoening, acrodermatitis enteropathica23 bevat. Figuur 1. Workflow voor gevallenrapport aantekening. Het protocol hier beschreven biedt een methode voor de identificatie van tekstuele functies frequent aanwezig in klinische Aanvraagrapporten. Dit proces vereist een vergadering van de corpus van een document. Het product van het proces van aantekening eenmaal samengevoegd in één bestand, maakt identificatie van tekstfuncties medische concepten en de bijbehorende beschrijvingen binnen Aanvraagrapporten is gekoppeld. Klik hier voor een grotere versie van dit cijfer. Figuur 2. Identificatie van Concept-specifieke tekst in een klinische gevallenrapport. Beginnend met de tekst van een gevallenrapport, kan een handmatige annotator verlopen via het document, identificatie van segmenten van tekst die overeenkomt met elk onderdeel van de sjabloon voor metagegevens. Identificatie functies zijn blauw gemarkeerd. Tekst overeenkomt met medische begrippen zijn in rood en gelabeld met hun type; alle gemarkeerde tekst in de derde kolom verwijst naar het type pathologie. Klik hier voor een grotere versie van dit cijfer. Categorie Beschrijving ICD-10 hoofdstuk ICD-10 Code bereik kanker Elk type van kanker of kwaadaardige gezwellen. II C00-D49 nerveus Een ziekte van de hersenen, de wervelkolom, of de zenuwen. VI G00-G99 cardiovasculaire Een ziekte van het hart- of vasculaire systeem. Bevat geen hematologische ziekten. IX I00-I99 musculoskeletal en reumatische Een ziekte van de spieren, skelet, gewrichten en bindweefsel. XIII M00-M99 spijsvertering Een ziekte van de gastro-intestinale tractus en de spijsvertering organen, met inbegrip van de lever en alvleesklier. XI K00-K95 verloskundige en gynaecologische Een ziekte met betrekking tot zwangerschap, bevalling, het vrouwelijke voortplantingsstelsel of de borsten. XIV; XV O00-O9A; N60-N98 besmettelijke Een ziekte veroorzaakt door infectieuze micro-organismen. Ik A00-B99 respiratoire Een ziekte van de longen en luchtwegen. X J00-J99 hematologic Elke ziekte of het bloed, beenmerg, lymfeklieren, milt. III D50-D89 nier en urologische Een ziekte van de nieren of blaas, met inbegrip van de urineleiders, evenals de mannelijke voortplantingsorganen, met inbegrip van de prostaat. XIV N00-N53; N99 verstoringen van de hormoonhuishouding Een ziekte van de endocriene klieren, evenals de metabole aandoeningen. IV E00-E89 orale en maxillo-faciale Een aandoening waarbij de mond, kaken, hoofd, gezicht of nek. XI; XIII K00-K14; M26-M27 oog Een aandoening waarbij de ogen, met inbegrip van blindheid. VII H00-H59 otorhinolaryngologic Alle voorwaarden van het oor, neus, en/of keel. VIII H60-H95; J30-J39 huid Een ziekte van de huid. XII L00-L99 zeldzame Een speciale categorie gereserveerd voor rapporten van zeldzame ziekten, gedefinieerd als die van invloed zijn minder dan 200.000 personen in de Verenigde Staten (zie https://rarediseases.info.nih.gov/diseases) NB NB Tabel 1. Ziekte categorieën voor Document aantekening. De hier genoemde categorieën zijn die moet worden gebruikt voor het gegevenstype van de ziekte systeem in de metagegevens van het documentsjabloon. Zoals elke ziekte presentatie kan meerdere orgaansystemen of etiologie, inhouden mogelijk een enkele klinische gevallenrapport overeen met meerdere categorieën. Deze categorieën grotendeels volgen die worden gebruikt om te onderscheiden van de secties van de International Statistical Classification of Diseases and Related Health Problems, herziening 10 (ICD-10) code systeem: bijbehorende ICD-10 hoofdstukken en code bereiken worden geleverd. Sommige categorieën, zoals die voor orale en maxillofaciale ziekte, komen overeen met meerdere secties van de ICD-10 systeem. Gegevenstype Example #1 Voorbeeld #2 (Cameron en McClain 1986) Document en aantekening identificatie Interne ID CCR005 CCR2000 Datum van aantekening Mar 2 2018 Mar 1 2018 Gevallenrapport identificatie Titel Een geval van endocarditis. Oogbeschadigingen en/of histopathologisch onderzoek van acrodermatitis enteropathica. Auteurs Grant AB; Chang-CD Cameron JD; McClain CJ Jaar 2017 1986 Dagboek World Journal of Medicine en Gevallenrapporten British Journal of oftalmologie Instelling Afdeling geneeskunde, Afdeling Cardiologie, eerste General Hospital, Boston, Massachusetts, USA Departement van oogheelkunde, medische faculteit van de Universiteit van Minnesota, Minneapolis, Minnesota 55455 Overeenkomstige auteur Grant AB Cameron JD PMID 25555555 3756122 DOI 10.1011/wjmcr.2017.11.001 NB Koppeling https://www.ncbi.nlm.NIH.gov/PMC/articles/PMC9555555/ https://www.ncbi.nlm.NIH.gov/PMC/articles/PMC1040795/ Taal Engels Engels Medische inhoud Sleutel woorden brucellose; endocarditis; mitralisklep NB Demografie 37-jarige man mannelijk kind Geografische locaties Florida; Rio de Janeiro, Brazilië NB Life Style roker; drinkt alcohol af en toe NB Familiegeschiedenis derde van vijf kinderen van consanguïne ouders; jongere broer heeft chronische eczeem NB Sociale geschiedenis bouwvakker NB Medisch/chirurgisch geschiedenis geschiedenis van vermoeidheid 8 pond 9 ounce (3884 g) product van een ongecompliceerde, volledige term zwangerschap; in goede gezondheid tot leeftijd 1 maand toen hij een zinderende huiduitslag op zijn wangen ontwikkelde; uitslag verspreid te betrekken de huid rond de ogen, neus en mond; letsels van de huid werden ook vermeld op de buik en de ledematen; diarree en gebrek aan gedijen; Huidbiopt op dat moment bleek parakeratosis typisch voor acrodermatitis enteropathica; behandeld in de komende zes jaar met intermitterende cursussen van breed spectrum antibiotica, moedermelk, en diodoquin; gedeeltelijk gereageerd; ontwikkelde totale alopecia, intermitterende acrodermatitis en intermitterende diarree met suboptimaal gewichtstoename; spasticiteit toegeschreven aan centrale zenuwstelsel betrokkenheid door de ae had ontwikkeld door 8 maanden van leeftijd; verschillende afleveringen van cardiopulmonale arrestatie op 11 maanden; gebrek aan coördinatie van zijn stembanden; Tracheostomy; door de leeftijd van 18 maanden ontwikkeld het kind zoeken naar nystagmus gekoppeld aan bilaterale optic atrofie en lichte verzwakking van retinale vaartuigen en tekenen van psychomotorische retardatie; bilaterale keratoconjunctivitis; huiduitslag; tweede huid biopsie uitgevoerd op 3-jarige leeftijd opnieuw toonde parakeratosis typisch voor ae; ernstige huiduitslag en diarree; bilaterale bruto anterior hoornvlies opaciteit werden gezien had die volledig opgelost tegen de tijd dat hij werd onderzocht op de leeftijd van vijf; frequente infecties, met inbegrip van otitis media, urineweginfecties en huidinfecties Ziekte systeem cardiovasculaire; besmettelijke Digestive; huid; oog; zeldzame Tekenen en symptomen hartkloppingen en kortademigheid in de voorafgaande week; gepresenteerd met lethargie, hoofdpijn en koude rillingen ernstige blepharoconjunctivitis en bilaterale anterior hoornvlies vascularisatie; ernstige huiduitslag en diarree; gram-negatieve bacteriële sepsis; typisch voor acrodermatitis enteropathica, afwezigheid van serie weefsel, gemarkeerde degeneratie van de optische zenuwen, opticum en optische traktaten en uitgebreide cerebellaire degeneratie letsels van de huid Comorbiditeit hypertensie; hyperlipidemie NB Diagnostische technieken en Procedures Lichamelijk onderzoek; elektrocardiogram; bloed culturen Oogbeschadigingen en/of onderzoek; necropsie Diagnose Brucella endocarditis acrodermatitis enteropathica Laboratorium-waarden toename van c – reactief proteïne (9 mg/dl); alkalische fosfatase (250 u/l) NB Pathologie Brucella melitensis werd gekweekt uit bloedmonsters rechts en links ogen waren qua uiterlijk; hoornvlies epitheel werd teruggebracht in de dikte één tot drie cel lagen van afgeplatte squamous epitheliaale cellen over het gehele oppervlak van het hoornvlies; alle polariteit van het epithelium verdween. membraan van Bowman kon worden geïdentificeerd alleen in de periferie van het hoornvlies, rechts. geen bowman membraan kon worden geïdentificeerd in het linker hoornvlies. degeneratieve noch inflammatoire pannus kon worden geïdentificeerd in beide ogen; uitgebreide atrofie van de verdienstelijke en cirkelvormige schuine spieren van het straalvormig lichaam; Sommige posterieure migratie van lens kapselvorming epitheel en vroege corticale degeneratieve veranderingen; uitgebreide degeneratie van het retinale pigment epitheel in de achterste paal; netvlies was aangesloten en toonde milde autolytic veranderingen in de gehele; Sommige behoud van rod en kegel buitenste segmenten in de achterste paal, echter deze structuren werden volledig verloren anterior to de evenaar; uitgebreide verlies van de ganglion cel en zenuw vezels lagen van beide ogen; bijna volledige atrofie van de schijf en de aangrenzende oogzenuw Farmacologische therapie gentamycine 240 mg/iv/dagelijks NB Inverventional therapie prothetische klep vervanging NB Beoordeling van de patiënt resultaat herstel was saai; ontladen huis stierf in 1971 (leeftijd 7) Diagnostische Imaging/videoband opnemen 2, 1; 0; 1 7; 0; 0; 0 Relatie tot andere Case Reports 5555555 23430849 Relatie met Clinial Trial NCT05555123 NB Dwarslijn met Database MedlinePlus gezondheidsinformatie: https://medlineplus.gov/ency/article/000597.htm HighWire – PDF: http://bjo.bmj.com/cgi/pmidlookup?view=long&pmid=3756122; Europa PubMed Central: http://europepmc.org/abstract/MED/3756122; Genetische Alliantie: http://www.diseaseinfosearch.org/result/143 Met dank aan Financiering bron National Institutes of Health/National hart-, Long- en bloed Instituut De Minnesota Lions Club; Onderzoek naar het voorkomen van blindheid; Veteranen; Kantoor van Alcohol and Other Drug Abuse programmering van de staat Minnesota Award nummer R01HL123123 (met AG) NB Bekendmakingen/Conflict van belang Dr. Grant is een betaalde woordvoerder van DrugCo. NB Verwijzingen 4 27 Tabel 2. Gestandaardiseerde metagegevenssjabloon voor klinisch geval meldt, met voorbeeld aantekeningen. Een aantal kenmerken gemeen hebben klinisch geval verslagen en vergemakkelijken van hun aantekeningen concept-niveau wordt hier weergegeven. Deze sjabloon is gerangschikt in drie primaire gedeelten: identificatie, medische inhoud en bevestigingen, ter aanduiding van het doel en de meerwaarde die door elk bestandstype gevallenrapport functie wordt geboden. Deze tabel bevat twee sets voorbeeld aantekeningen, een van een fictieve gevallenrapport, en een ander stel afgeleid van een verslag over de voorwaarde acrodermatitis enteropathica23. Aanvullende bestand 1. Tekst van een klinische gevallenrapport (Chang et al. 2017). Klik hier om dit bestand te downloaden.

Discussion

Uitvoering van een gestandaardiseerde metadata-sjabloon voor CCRs kan maken van hun inhoud meer FAIR, hun publiek uit te breiden en uitbreiden van hun toepassingen. Na het traditionele gebruik van CCRs als onderwijskundige instrumenten in medische communicatie, gezondheidszorg stagiairs (bijvoorbeeld medische studenten, stagiaires en fellows), en biomedische onderzoekers vinden dat samengevatte gevallenrapport inhoud in staat stellen sneller begrip. De grootste kracht van metadata normalisatie met CCRs, is echter dat het indexeren deze gegevens transformaties anders geïsoleerd opmerkingen in interpreteerbaar patronen. Het protocol hier kan dienen als de eerste stap in een werkstroom voor het werken met CCRs, of deze workflow uit epidemiologische analyse, verkochte geneesmiddel of behandeling toezicht of bredere enquêtes pathogenese of therapeutische werking bestaat. Gestructureerde functies geïdentificeerd binnen CCRs bieden een nuttige bron voor onderzoekers zich te concentreren op de presentaties van de ziekte en behandelingen, met name voor zeldzame aandoeningen. Klinische onderzoekers zult gegevens op afgelopen behandeling regimes voor het analyseren van opgenomen symptomen of de bijwerkingen en de mate van verbetering onder eerdere standaarden van zorg vinden. De gegevens kunnen ook bredere analyses van een nieuwe behandelingen op basis van doeltreffendheid, gebrek aan bijwerkingen of toxiciteit, of drug targeting van verschillen in geslacht, leeftijdsgroep, of genetische achtergrond rijden.

De voordelen van gestructureerde metagegevens gelden ook voor computationele werkstromen die zijn ontworpen om te ontleden of model in medische taal. Gestructureerde CCR-functies kunnen ook bieden bewijs van gebieden waar de auteurs rapport gemakkelijker machineleesbare kunnen bepalen (en in sommige gevallen, mensen leesbare) inhoud. Variantie onder CCRs kan ontstaan door een gebrek aan expliciet verstrekt opmerkingen: bijvoorbeeld de exacte leeftijd van een patiënt kan niet worden gespecificeerd. Clinici kunnen tests ook geen melding als de diagnostiek of hun resultaten werden beschouwd als triviaal. Door het verstrekken van voorbeelden van lacunes nodig voor grondige analyse, wijst handhaving structuur op CCRs op mogelijke verbeteringen. In een breder perspectief ondersteunt een grotere beschikbaarheid van gestructureerde tekstgegevens uit medische documenten voor natural language processing (NLP) inspanningen van big data in healthcare²⁴^,²⁵te leren.

Disclosures

The authors have nothing to disclose.

Acknowledgements

Dit werk werd gedeeltelijk ondersteund door de National Heart, Lung, en bloed Instituut: R35 HL135772 (op P. Ping); National Institute of General Medical Sciences: U54 GM114833 (met P. Ping, K. Watson en W. Wang); National Institute of Biomedical Imaging and Bioengineering: T32 EB016640 (naar A. Bui); een cadeau van de Stichting Hoag en Dr. S. Setty; en de T.C. Laubisch endowment aan de UCLA (op P. Ping).

Materials

A corpus of clinical case reports

n/a

Full texts of case reports may be accessed through PubMed (e.g., using the search query "Case Reports"[Filter]), other citation databases such as Europe PMC (https://europepmc.org/) or directly through publishers.

References

Ban, T. A. The role of serendipity in drug discovery. Dialogues in Clinical Neuroscience. 8 (3), 335-344 (2006).
Cabán-Martinez, A. J., García-Beltrán, W. F. Advancing medicine one research note at a time: the educational value in clinical case reports. BMC Research Notes. 5 (1), 293 (2012).
Vandenbroucke, J. P. In Defense of Case Reports and Case Series. Annals of Internal Medicine. 134 (4), 330 (2001).
Bayoumi, A. M. The storied case report. Canadian Medical Association Journal. 171 (6), 569-570 (2004).
Pasteur, L. Méthode pour prévenir la rage après morsure. Comptes rendus de l’Académie des Sciences. 101, 765-774 (1885).
Pearce, J. Louis Pasteur and Rabies: a brief note. Journal of Neurology, Neurosurgery & Psychiatry. 73 (1), 82-82 (2002).
Keefer, C. S., Blake, F. G., Marshall, E. K. J., Lockwood, J. S., Wood, W. B. J. PENICILLIN IN THE TREATMENT OF INFECTIONS. Journal of the American Medical Association. 122 (18), 1217 (1943).
Akers, K. G. New journals for publishing medical case reports. Journal of the Medical Library Association JMLA. 104 (2), 146-149 (2016).
Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3, 160018 (2016).
Beeler, G. W. HL7 Version 3-An object-oriented methodology for collaborative standards development. International Journal of Medical Informatics. 48 (1-3), 151-161 (1998).
McDonald, C. J. LOINC, a Universal Standard for Identifying Laboratory Observations: A 5-Year Update. Clinical Chemistry. 49 (4), 624-633 (2003).
. CDC/National Center for Health Statistics ICD-10-CM Official Guidelines for Coding and Reporting Available from: https://www.cdc.gov/nchs/data/icd/10cmguidelines_fy2018_final.pdf (2017)
Rajeev, D., et al. Development of an electronic public health case report using HL7 v2.5 to meet public health needs. Journal of the American Medical Informatics Association. 17 (1), 34-41 (2010).
Biesecker, L. Mapping phenotypes to language: a proposal to organize and standardize the clinical descriptions of malformations. Clinical Genetics. 68 (4), 320-326 (2005).
Riley, D. S., et al. CARE guidelines for case reports: explanation and elaboration document. Journal of Clinical Epidemiology. 89, 218-235 (2017).
Cohen, K. B., et al. Coreference annotation and resolution in the Colorado Richly Annotated Full Text (CRAFT) corpus of biomedical journal articles. BMC Bioinformatics. 18 (1), 372 (2017).
Sun, W., Rumshisky, A., Uzuner, O. Evaluating temporal relations in clinical text: 2012 i2b2 Challenge. Journal of the American Medical Informatics Association. 20 (5), 806-813 (2013).
Savova, G. K., et al. Mayo clinical Text Analysis and Knowledge Extraction System (cTAKES): architecture, component evaluation and applications. Journal of the American Medical Informatics Association. 17 (5), 507-513 (2010).
Soysal, E., et al. CLAMP – a toolkit for efficiently building customized clinical natural language processing pipelines. Journal of the American Medical Informatics Association. 25 (3), 331-336 (2018).
Bender, D., Sartipi, K. HL7 FHIR: An Agile and RESTful approach to healthcare information exchange. Proceedings of the 26th IEEE International Symposium on Computer-Based Medical Systems. , 326-331 (2013).
Chang, K., et al. Human Infection with Burkholderia thailandensis, China, 2013. Emerging Infectious Diseases. 23 (8), 1416-1418 (2013).
Cameron, J. D., McClain, C. J. Ocular histopathology of acrodermatitis enteropathica. British Journal of Ophthalmology. 70 (9), 662-667 (1986).
Maddox, T. M., Matheny, M. A. Natural Language Processing and the Promise of Big Data. Circulation: Cardiovascular Quality and Outcomes. 8 (5), 463-465 (2015).
Kreimeyer, K., et al. Natural language processing systems for capturing and standardizing unstructured clinical information: A systematic review. Journal of Biomedical Informatics. 73, 14-29 (2017).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

Caufield, J. H., Liem, D. A., Garlid, A. O., Zhou, Y., Watson, K., Bui, A. A. T., Wang, W., Ping, P. A Metadata Extraction Approach for Clinical Case Reports to Enable Advanced Understanding of Biomedical Concepts. J. Vis. Exp. (139), e58392, doi:10.3791/58392 (2018).

Een benadering van de extractie metagegevens voor klinische Case Reports om geavanceerde begrip van biomedische concepten

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

Een benadering van de extractie metagegevens voor klinische Case Reports om geavanceerde begrip van biomedische concepten

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

✖

To prove you're not a robot, please enter the text in the image below