Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Medicine

En Metadata utvinning metod för kliniska fallrapporter aktivera avancerad förståelse av biomedicinska begrepp

Published: September 20, 2018 doi: 10.3791/58392

Summary

Vi presenterar ett protokoll och tillhörande metadatamall för utvinning av text som beskriver biomedicinska begrepp i kliniska fallrapporter. Strukturerad textvärden produceras genom detta protokoll kan stödja djup analys av tusentals kliniska berättelser.

Abstract

Kliniska fallrapporter (centrala kreditregister) är ett värdefullt medel för delning observationer och insikter i medicin. Form av dokumenten varierar, och deras innehåll omfattar beskrivningar av talrika, romanen sjukdom presentationer och behandlingar. Hittills är textdata inom centrala kreditregister till stor del ostrukturerade, som kräver betydande mänskliga och computational ansträngning för att göra dessa data användbar för djupgående analys. I detta protokoll beskriver vi metoder för att identifiera metadata som motsvarar specifika biomedicinska begrepp ofta observerats inom centrala kreditregister. Vi tillhandahåller en metadatamall som en guide för dokumentet annotering, erkänner att ålägga den centrala kreditregister struktur kan eftersträvas genom kombinationer av manuell och automatiserad ansträngning. Den strategi som presenteras här är lämplig för organisationen av konceptet-relaterade text från en stor litteratur-corpus (t.ex. tusentals av centrala kreditregister) men kan lätt anpassas till underlätta mer fokuserade aktiviteter eller små uppsättningar av rapporter. Den resulterande strukturerade textdatan innehåller tillräcklig semantiska ramen för att stödja en mängd efterföljande text analys arbetsflöden: meta-analyser för att fastställa hur man kan maximera CCR detalj, epidemiologiska studier av sällsynta sjukdomar, och utvecklingen av modeller av medicinska språket kan alla göras mer realizable och hanterbara med hjälp av strukturerade textdata.

Introduction

Kliniska rapporter (centrala kreditregister) är ett grundläggande instrument för att dela observationer och insikter i medicin. Dessa fungerar som en grundläggande mekanism för kommunikation och utbildning för läkare och läkarstudenter. Centrala kreditregister har historiskt även gett konton av nya sjukdomar, deras behandlingar och deras genetiska bakgrunder1,2,3,4. Till exempel rapporteras den första behandlingen av human rabies av Louis Pasteur i 18855,6 och den första tillämpningen av penicillin i patienter7 var båda via centrala kreditregister. Mer än 1,87 miljoner centrala kreditregister har publicerats från och med April 2018, med över en halv miljon inom den senaste tioårsperioden. tidskrifter fortsätter att tillhandahålla nya arenor för dessa rapporter8. Även om det är unikt i form och innehåll, centrala kreditregister innehålla text som är till stor del ostrukturerade, innehåller ett omfattande ordförråd och avser sammanhängande fenomen, att begränsa deras användning som en strukturerad resurs. Betydande insatser krävs för att extrahera detaljerade metadata (dvs ”data om data”, eller i detta fall, beskrivningar av dokumentets innehåll) från centrala kreditregister och upprätta dem som ett mer sökbart, tillgänglig, driftskompatibla och återanvändbara (FAIR)9 resursen.

Här, beskriver vi en process för att extrahera text och numeriska värden att standardisera beskrivningen av specifika biomedicinska begrepp inom publicerade centrala kreditregister. Denna metod inkluderar en metadatamall för att vägleda anteckning; Se figur 1 för en översikt av denna process. Tillämpningen av anteckning processen till en stor samling av rapporter (t.ex. flera tusen av en viss typ av sjukdom presentation) tillåter montering av en hanterbar och strukturerad uppsättning kommenterad kliniska texter, att uppnå maskinläsbar dokumentation och biomedicinska fenomen är inbäddad i varje klinisk presentation. Även om data format som tillhandahålls av HL7 (t.ex., Version 3 av Messaging Standard10 eller snabbt Healthcare driftskompatibilitet resurser [FHIR]11), LOINC12och 10 revidering av den internationella statistiska Klassifikation av sjukdomar och relaterade hälsoproblem (ICD-10)13 standarder för att beskriva och utbyte av kliniska observationer, de fångar inte texten omger dessa uppgifter och inte heller är de avsedda att. Resultaten av vår metodik används bäst att upprätthålla struktur på centrala kreditregister och underlätta efterföljande analys, normalisering genom kontrollerade vokabulärer och kodning system (t.ex., ICD-10), och/eller konvertering till kliniska dataformat som anges ovan .

Gruvdrift centrala kreditregister är ett aktivt område av arbete inom biomedicinsk och klinisk informatik. Även om tidigare förslag att standardisera struktur fall rapporter (t.ex., använda HL7 v2.514 eller standardiserade fenotyp terminologi15) är lovvärt, det är troligt att centrala kreditregister kommer att fortsätta att följa en mängd olika naturligt språk formulär och dokumentlayouter, som de har för mycket av det förgångna århundradet. Under ideala förhållanden Följ författarna till nya fallrapporter vård riktlinjer16 för att säkerställa att de är omfattande. Metoder som är känsliga för både naturligt språk och dess relation till medicinska begrepp kan därför vara mest effektiv i att arbeta med nya och arkiverade rapporter. Resurser såsom hantverk17 och de produceras av informatik för att integrera biologi och den säng (i2b2)18 curation stöder bearbetning av naturligt språk (NLP) metoder ännu inte specifikt fokus på centrala kreditregister eller kliniska berättelser. Likaså medicinska NLP verktyg såsom cTAKES19 och klämma20 har utvecklats men generellt identifiera specifika ord eller fraser (dvs, enheter) inom dokument i stället för de allmänna begrepp som ofta beskrivs i centrala kreditregister.

Vi har utformat en standardiserad metadatamall för funktioner som vanligen ingår i centrala kreditregister. Denna mall definierar funktioner för att införa struktur på centrala kreditregister – en viktig föregångare för djupgående jämförelser av dokumentinnehållet-ändå tillåter tillräcklig flexibilitet att behålla semantiska ramen. Även om vi har utformat de format som associeras med den här mallen är lämplig för både manuell anteckning och beräkningsmässigt-assisted text mining, har vi sett att det är särskilt lätt att använda för manuell annotators. Vår strategi märkbart skiljer sig från mer invecklade (och därmed mindre omedelbart begripliga för otränade forskare) ramar såsom FHIR21. Följande protokoll beskriver hur man isolera dokumentfunktioner motsvarar varje mall datatyp, med en enda uppsättning värden som motsvarar de i en enda CCR.

Datatyperna i mallen är de mest beskrivande för centrala kreditregister och patienten i fokus medicinska dokument i allmänhet. Annotering av funktionerna främjar upptäckbarhet, tillgänglighet, driftskompatibilitet och återanvändbarhet av CCR text, främst genom att ge den struktur. Datatyperna är i fyra allmänna kategorier: dokument och annotering identifiering, fallbeskrivning identifiering (dvs dokumentnivå egenskaper), medicinsk innehåll begrepp (primärt koncept-nivå egenskaper) och bekräftelser (dvs. funktioner som ger bevis på finansiering). I denna anteckning process innehåller varje dokument den fullständiga texten till en CCR, utelämna någon dokument tillfredsställer materiellt oberoende i målet (t.ex. experimentella protokoll). Centrala kreditregister är i allmänhet mindre än 1 000 ord vardera; en enda corpus bör idealiskt indexeras av samma bibliografiska databas och vara i samma skriftligt språk.

Produkten av den metod som beskrivs här, när de appliceras på en CCR corpus, är en strukturerad uppsättning kommenterad kliniska text. Medan denna metod kan utföras helt manuellt och har utformats för att utföras av domän experter utan informatik erfarenhet, det kompletterar de naturlig språkbearbetning metoder som anges ovan och tillhandahåller data passar Computational analys. Sådana analyser kan vara av intresse för en publik av forskare utöver dem som ofta läsa centrala kreditregister, inklusive:

  • de berörda med sjukdom presentationer, deras viktigaste symptom, vanliga diagnostiska metoder och behandlingar
  • de som vill jämföra resultaten av kliniska prövningar med händelser som beskrivs i den kliniska litteraturen, potentiellt ge ytterligare observationer och större statistisk power.
  • bioinformatik, biomedicinsk informatik och dator vetenskap forskare som kräver strukturerat medicinska språket datauppsättningar eller hög nivå förståelser av medicinska berättelser
  • Regeringens politik forskare med fokus på hur kliniska prövningar kan bäst återspeglar hur diagnos och behandling som det sker i verkligheten

Genomdriva struktur på centrala kreditregister kan stödja många efterföljande insatser för att bättre förstå både medicinska språket och biomedicinska fenomen.

Protocol

1. dokument och annotering identifiering

Obs: Stödja värden i denna kategori anteckning.

  1. Med mallen annotering, ge en identifierare som är specifika för denna metadata, t.ex., Case123. Identifierare ska vara konsekventa under hela projektet (t.ex. Case001 genom Case500).
  2. Ange det datum som ett dokument lästes och kommenterade. Använda ett format som liknar ”Jan 10 2018” för konsekvens och läsbarhet.

2. fallrapport identifiering

Obs: Värdena i denna kategori ger dokumentet nivå funktioner och bidra till ett dokuments upptäckbarhet.

  1. Överensstämma med formatet för varje fält över alla anteckningar, exempelvis enskilda värden bör separeras av semikolon utan följande blanksteg i alla poster. Använd samma format som används i originaldokumentet eller de som används i en Bibliografisk databas såsom MEDLINE.
  2. Ange titeln på dokumentet.
  3. Uppge alla författarna till dokumentet i angiven ordning. Normalisera alla namnformat, sådan att alla namn tar form av en enda efternamn följt av valfritt antal initialer, t ex Jane B. Park blir Park JB. Inkludera inte titlar. Avgränsa flera författare med semikolon utan ytterligare skiljetecken, sådan att John A. Smith, Jane B. Park tar en form av Smith JA; Park JB.
  4. Ge året av publikationen av dokumentet.
  5. Ge den fullständiga titeln på den journal där dokumentet publicerades. En lista över kontrollerade journalnamn tillhandahålls av NLM katalogen (https://www.ncbi.nlm.nih.gov/nlmcatalog).
  6. Ange adressen till den hem institutionen av författarna till dokumentet, som angetts i-dokumentet. Detta kan omfatta avdelningar, geografiska platser och postadress Detaljer.
    1. Om flera platser tillhandahålls (t.ex. om anknytningar skiljer sig åt mellan författarna), ange endast Detaljer för motsvarande författare. Om en motsvarande författare inte kan identifieras, använda som första upphovsmannen, eller inte anger en institution. Om en motsvarande författare har flera anknytningar, ange båda och avgränsa med semikolon.
  7. Tillhandahålla motsvarande författare till dokumentet som anges inom rubriken dokument med samma format som används i författarna datatypen.
  8. Ge en dokument-ID (t.ex. en PMID).
  9. Ger en Digital Object Identifier, där möjliga och tillgängliga, matchas till dokumentet URL (genom https://www.doi.org/), inte en PubMed Central sida.
  10. Ge en stabil URL till den fullständiga texten i dokumentet, om tillgängliga. För att maximera tillgänglighet, kan detta syfta på PubMed Central versionen.
  11. Tillhandahålla dokumentspråk. För dokument som finns tillgängliga på flera språk och ge båda, separerade med semikolon.

3. medicinska innehåll

Obs: Värdena i denna kategori identifiera dokumentet nivå, koncept-nivå och text-nivå funktioner. De tjänar till att förbättra ett dokuments tillgänglighet, driftskompatibilitet och återanvändbarhet. Dessa funktioner ger sätt att observera konceptuella och semantiska likheter mellan dokumentets innehåll, med fokus på biomedicinska ämnen och händelser. De flesta kategorier i detta avsnitt kan innehålla flera text-satser och varje bör separeras med semikolon.

  1. Inkludera kontextuell information i varje fält (t.ex. ”mor hade bröstcancer vid 50 års ålder”) snarare än att ge bara termer från en kontrollerad vokabulär (t.ex. inte ”bröstcancer” ensam). Inkludera inte omfattande detalj bortom varje observation.
  2. Utelämna ofta upprepad ord och fraser (t.ex., pronomen, ordet ”patienten”, och fraser ”klagade över” eller ”presenteras med”). Även om subjektivitet över flera annotators är troligt, kan det minskas genom att ha flera annotators för varje dokument och genom automatisk normalisering efter datainsamlingen. Computational efterbearbetning metoder varierar med efterföljande analys behov och diskuteras inte här i detalj.
  3. Ange följande information i mallen anteckning.
    1. Ge specifika villkor som identifierats i ett dokument, vanligen i dess huvud, som nyckelbegrepp. Avgränsa med semikolon som villkor kan omfatta andra skiljetecken.
    2. Ge demografiska värden, speciellt någon text uttalanden som beskriver patientens bakgrund, inklusive kön eller genus, ålder, etnicitet eller nationalitet.
    3. Tillhandahålla geografiska platser nämns inom den kliniska berättelsen, än specifika institution adresser. Detta bör inte omfatta anatomiska platser/delar, men kan inkludera eventuella geografiska locale där patienten är bosatt eller reser.
    4. Ge livsstil värden, inklusive alla text uttalanden som beskriver frekventa patientens aktiviteter eller beteenden som är relevanta för deras allmänna hälsa. I praktiken detta ofta innebär rökning eller alkohol konsumtionsvanor, men kan även solexponering, kost eller frekvens av särskilda typer av fysisk aktivitet.
    5. Ge sjukdomshistoria värden hänvisar till släkthistoria. Inkludera text uttalanden som beskriver kliniska observationer av och händelser upplevs av syskon, föräldrar och andra familjemedlemmar. Detta inkluderar genetiska förutsättningar och negativa observationer (dvs släkthistoria var negativ för en sjukdom).
    6. Ange värden avser socialhistoria, inklusive alla text uttalanden som beskriver patientens bakgrund inte omfattas av demografi eller livsstil. Det kan finnas överlappningar i innehåll mellan dessa kategorier. Uttalandena kan omfatta yrkesmässig historia och sociala vanor.
    7. Ange värden med hänvisning till patientens medicinska och kirurgiska historia. Inkludera eventuella text uttalanden som beskriver eventuella medicinska observationer, behandlingar eller andra evenemang som äger rum före början av den kliniska bilden. Detta inkluderar obstetriska historien och perioder av god hälsa, där så anges.
    8. Ange en eller flera av följande 16 sjukdom systemet kategorier. Observera att dessa värden är kategorisk snarare än fri text. Kategorier är inte omfattande men bör ange de flesta system påverkas av händelserna som beskrivs i den kliniska presentationen och diagnostiserad sjukdom.
      1. Följa en specifik uppsättning kategorier, baserat på kategorier används i internationell statistisk klassifikation av sjukdomar och relaterade hälsoproblem, revision 10 (ICD-10) kodsystem. Se tabell 1 förteckning över systemet sjukdomsgrupperna tillsammans med motsvarande ICD-10 kod områden.
    9. Lämna uppgifter om alla tecken och symtom. Inkludera eventuella text uttalanden som beskriver eventuella medicinska observationer av tecken eller symtom som början på inledande presentation, inklusive deras debut, längd, svårighetsgrad och upplösning, om. Omfatta inte problem som beskrivs i resultatet. Dessa värden kan överlappa med andra typer om symtomen fortsätter från historia till inledande presentation.
    10. Tillhandahålla information om alla sjukdomstillstånd. Innehålla termer eller fraser som beskriver distinkta sjukdomar närvarande vid tidpunkten för inledande klinisk presentation. Det finns sannolikt överlappning mellan dessa värden och de i kliniska historia, om samsjuklighet inte bör omfatta samma termer som i diagnosen.
    11. Tillhandahålla information om alla diagnostiska tekniker och förfaranden. Innehåller namn på medicinska ingrepp görs för diagnostiska ändamål, inklusive undersökningar, tester, och imaging, samt de villkor under vilka dessa tester var utförda och relevanta anatomiska platser (t.ex., ”övre extremiteten venös Ultraljud ”). Utesluta testresultat.
    12. Lämna uppgifter om diagnos. Inkludera eventuella text uttalanden som beskriver diagnoser av sjukdom, även om den slutliga diagnosen är tvetydig.
    13. Ge alla laboratorievärden och provsvar. Innehålla namnen på diagnostiska tester, deras värderingar och villkor under vilka de utfördes. Detta kommer att innebära överlappning med termer som används i de diagnostiska tekniker och förfaranden datatyp. Både numeriska och kvalitativa värden (t.ex. fullständig blodstatus var inom normala gränser) är acceptabla. Om namnen på diagnostiska tester inte tillhandahålls, använda termer som beskriver resultaten (t.ex. leukopeni), men de bör också ingå i tecken och symtom.
    14. Tillhandahålla information om patologi. Inkludera eventuella text uttalanden som beskriver resultaten av patologi och histologi, inklusive brutto patologi, immunologi och mikroskopi studier. Villkor kan överlappa med dem som används i diagnostiska tekniker och förfaranden (steg 3.11), t.ex., med de granskningsåtgärder för att erhålla prover såsom biopsi.
    15. Ge alla farmakologiska behandlingar. Inkludera eventuella text uttalanden som beskriver läkemedelsbehandlingar som används under behandling, inklusive allmänna villkor såsom antibiotika eller särskild drog namn. Dessutom inkludera beskrivningar av när och hur läkemedelsbehandlingar stoppades.
    16. Ge alla interventionella procedurer. Inkludera eventuella text uttalanden som beskriver terapeutiska förfaranden som används i samband med behandling, inklusive invasiva ingrepp, implantation av medicintekniska produkter och förfaranden för att underlätta andra terapier. Dessutom inkludera beskrivningar av när och hur pågående terapeutiska förfaranden stoppades, om det behövs.
    17. Ge patienten resultatet. Inkludera eventuella text uttalanden som beskriver hälsa av patienten i slutet av kliniska presentationen beskrivs i rapporten, inbegripet eventuella uppföljande tester.
    18. Tillhandahålla räkningarna av alla diagnostiska bilder, figurer, videor och animationer och tabeller. Inkludera alla räkningarna av visuella medier som ingår i rapporten, i följande format: antal bilder; Antal siffror. Antal videoklipp eller animationer; Antal tabeller.
      1. Skilja mellan bilder och siffror på detta sätt: bilder inkludera produkter i klinisk diagnostik, inklusive fotografier, micrographs, elektrokardiogram rytm bilder och andra produkter av diagnostisk avbildning, medan siffrorna är alla andra bilder, allmänhet inklusive data tomter och illustrationer.
    19. Ge bevis för relationer till andra centrala kreditregister. Det här fältet kan innehålla identifierare (t.ex. PMIDs) av andra rapporter i datauppsättningen åberopat eller referera till detta betänkande.
    20. Ge bevis för relationer till kliniska prövningar. Det här fältet kan innehålla identifierare av kliniska prövningar med hänvisning till denna CCR. Identifiera prövningar av deras ClinicalTrials.gov identifierare, föregås av NCT, eller andra stabila identifierare.
    21. Inkluderar databasen antipyridinantikropp motsvarar detta dokument, inklusive identifierare, helst som databasnamn och stabila webbadresser.

4. bekräftelser

Anteckningar: Värden i denna kategori identifiera dokumentet nivå funktioner ännu har lite konsekvent struktur över publikationer. De ger information om de organisationer som ger stöd för en CCR och relaterat arbete. Denna kategori omfattar även ett fält för det totala antalet referenser citeras av en artikel: Syftet är att ge ett grov mått på graden som ett dokument har konceptuella relationer med andra biomedicinska dokument av något slag. Inom de fyra datatyperna i detta avsnitt, ange följande.

  1. Ange alla finansieringskällor stödja arbetet och motsvarande PI samt relevanta award nummer. Det första värdet, finansiering källa, bör innehålla namnen på alla organisationer som tillhandahåller ekonomiskt stöd för arbetet.
    1. Separata organisationer med semikolon och mellanslag, t.ex., Nationella institut för hälsa/National Cancer Institute; DOE; Smith-Park Foundation .
    2. För följande värde, Award-nummer, ange någon utmärkelse nummer eller specifika beteckningar som tillhandahålls tillsammans med mottagarna av utmärkelser, förekommande som initialerna av mottagarna inom parentes, t.ex., R01HL123123 (till JP) , NS12312 (till JP, JS), forskning utbildning gemenskap (till JS). Författarna kan uttryckligen ange att det finns ingen motsvarande information (t.ex. ”ingen finansiering togs emot”); i dessa fall använder du text som tillhandahålls av författarna som finansiering källvärdet. Annars ska värdet vara NA.
  2. Ange upplysningar/konflikter av intresse som anges av författarna, t.ex., JP är konsult för DrugCo. Författarna kan uttryckligen ange att det finns ingen motsvarande information (t.ex. ”ingen intressekonflikt är förklarade”); i dessa fall använda texten som tillhandahålls av författarna som upplysningar/konflikten av intresse värde. Annars som ovan, ska värdet vara NA.
  3. Ange en numerisk räkning av alla referenser citeras av dokumentet, inte inklusive dem som anges i kompletterande material. Ingen referenstext bör ingå i det här fältet.

Representative Results

Ett exempel av anteckning processen visas i figur 2. Detta fall22 beskriver en presentation av smitta genom bakterie patogenen Burkholderia thailandensis. Den relevanta delen av detta CCR finns för referens, i textformat i kompletterande fil 1. vissa forskningsresultat presenteras också i detta betänkande och ingår för jämförelse. I praktiken, kan konvertera rapporter i HTML- eller PDF-format till oformaterad text förbättra effektivitet och användarvänlighet metadata extraktion.

Exempel på två uppsättningar av slutförda CCR metadata anteckningar finns i tabell 2. Först av dessa exempel är håna data att illustrera perfekt format för varje värde, medan det andra exemplet innehåller värden som extraheras från en publicerad CCR på ett sällsynt tillstånd, acrodermatitis enteropathica23.

Figure 1
Figur 1. Arbetsflöde för fallrapport Annotation. Protokollet beskrivs här ger en metod för identifiering av textbaserade funktioner som ofta finns inom klinisk fallrapporter. Denna process kräver montering av ett dokument corpus. Produkten av anteckning processen, en gång samman till en enda fil, möjliggör identifiering av textfunktioner i samband med medicinska begrepp och deras beskrivningar inom fallrapporter. Klicka här för att se en större version av denna siffra.

Figure 2
Figur 2. Identifiering av konceptet-specifik Text i en klinisk fallrapport. Börjar med texten i en fallrapport, kan en manuell Beskriv utvecklas genom dokumentet, att identifiera segment av text som motsvarar varje komponent av mallen för metadata. Identifiering funktioner markeras i blått. Texten motsvarar till medicinska begrepp är röda och märkta med deras typ; alla markerade texten i den tredje kolumnen refererar till patologi typen. Klicka här för att se en större version av denna siffra.

Kategori Beskrivning ICD-10 kapitel ICD-10 kod sortimentet
cancer Någon typ av cancer eller malign tumör. II C00-D49
nervös Någon sjukdom i hjärnan, ryggraden, eller nerver. VI G00-G99
kardiovaskulära Någon sjukdom i hjärtat eller kärlsystemet. Inkluderar inte blodsjukdomar. IX I00-I99
Muskuloskeletala systemet och reumatiska Någon sjukdom i de muskler, skelett, leder och bindväv. XIII M00-M99
mag Någon sjukdom i mag-tarmkanalen och matsmältningsorganen, inklusive lever och bukspottkörtel. XI K00-K95
obstetrisk och gynekologisk Någon sjukdom som rör graviditet, förlossning, det kvinnliga reproduktiva systemet eller brösten. XIV. XV O00-O9A; N60-N98
smittsamma Någon sjukdom orsakar av smittsamma mikroorganismer. Jag A00-B99
respiratoriska Någon sjukdom i lungorna och luftvägarna. X J00-J99
hematologiska Någon sjukdom i det blod, benmärg, lymfkörtlar eller mjälte. III D50-D89
njure och urologiska Någon sjukdom i njurarna eller urinblåsan, inklusive urinledarna, liksom de manliga reproduktionsorganen, inklusive prostata. XIV N00-N53; N99
endokrina Någon sjukdom i de endokrina körtlarna samt metabola sjukdomar. IV E00-E89
oral och maxillofacial Alla tillstånd som omfattar den munnen, käkarna, huvud, ansikte eller nacke. XI. XIII K00-K14; M26-M27
öga Eventuella tillstånd med ögonen, inklusive blindhet. VII H00-H59
otorhinolaryngologic Alla tillstånd för den öra, näsa eller hals. VIII H60-H95; J30-J39
huden Någon sjukdom i huden. XII L00-L99
sällsynta En särskild kategori som reserverats för rapporter om sällsynta sjukdomar, som de påverkar färre än 200 000 individer i USA (se https://rarediseases.info.nih.gov/diseases) NA NA

Tabell 1. Sjukdomsgrupperna för dokumentet anteckning. De kategorier som anges här är de som ska användas för sjukdom systemet datatypen i metadata dokumentmallen. Som varje sjukdom presentation kan innebära flera organsystem eller etiologier, kan en enda klinisk fallstudie motsvara flera kategorier. Dessa kategorier till stor del följer dem brukade skilja avsnitt av internationell statistisk klassifikation av sjukdomar och relaterade hälsoproblem, revision 10 (ICD-10) kod system: motsvarande ICD-10 kapitel och kod spänner tillhandahålls. Vissa kategorier, exempelvis en oral och maxillofacial sjukdom, motsvarar flera avsnitt av ICD-10 systemet.

Datatyp Example #1 Exempel #2 (Cameron och McClain 1986)
Dokument och annotering identifiering
Internt ID CCR005 CCR2000
Anteckning dag Mar 2 2018 Mar 1 2018
Fallrapport identifiering
Avdelning Ett fall av endokardit. Okulär histopatologi av acrodermatitis enteropathica.
Författarna Grant AB; Chang CD Cameron JD; McClain CJ
År 2017 1986
Tidning Världen tidning medicin och fallrapporter Brittisk tidning oftalmologi
Institutionen Institutionen för medicin, avdelningen för kardiologi, första General Hospital, Boston, Massachusetts, USA Avdelningen för oftalmologi, University of Minnesota Medical School, Minneapolis, Minnesota 55455
Korresponderande författare Grant AB Cameron JD
PMID 25555555 3756122
DOI 10.1011/wjmcr.2017.11.001 NA
Länk https://www.ncbi.NLM.NIH.gov/PMC/articles/PMC9555555/ https://www.ncbi.NLM.NIH.gov/PMC/articles/PMC1040795/
Språk Engelska Engelska
Medicinskt innehåll
Nyckelord brucellos, endokardit; mitralisklaffstenos NA
Demografi 37-årig man gossebarn
Geografiska platser Florida; Rio de Janeiro, Brasilien NA
Life Style rökaren; dricker alkohol ibland NA
Familjehistoria tredje av fem barn av consanguineous föräldrar; lillebror har kronisk eksem NA
Social historia byggnadsarbetare NA
Medicinska och kirurgiska historia historia av trötthet 8 pund 9 ounce (3884 g) produkt av en okomplicerad, full sikt graviditeten; vid god hälsa tills ålder 1 månad när han utvecklade ett svidande hudutslag på kinderna; utslag sprida för att involvera huden runt i ögon, näsa och mun; hudlesioner noterades också på buken och extremiteter; diarré och underlåtenhet att blomstra; hudbiopsi då visade parakeratosis typiska för acrodermatitis enteropathica; behandlas under de kommande sex åren med intermittent kurser av bredspektrumantibiotika, bröstmjölk och diodoquin; delvis svarat; utvecklade total alopeci, intermittent acrodermatitis och intermittent diarré med suboptimal viktökning; spasticitet som tillskrivs centrala nervsystemet inblandning av ae hade utvecklats av 8 månaders ålder. flera episoder av hjärt-och andningsstillestånd på 11 månader. bristen på samordning av hans stämband; trakeostomi; vid 18 månaders ålder utvecklat barnet forskande nystagmus är associerad med bilaterala Optikusatrofi och liten dämpning av retinala kärl samt tecken på psykomotorisk utvecklingsstörning; bilaterala keratokonjunktivit; hudutslag; andra hudbiopsi utförs på 3 år igen visade parakeratosis typiska för ae; svåra hudutslag och diarré; bilaterala brutto främre hornhinneopacitet sågs som hade helt löst genom att den tid han var omprövades på ålder fem; täta infektioner inklusive öroninflammationer, urinvägsinfektioner och hudinfektioner
Sjukdom System kardiovaskulära; smittsamma mag; huden; ögat; sällsynta
Tecken och symtom hjärtklappning och dyspné i föregående vecka. presenteras med letargi, huvudvärk och frossa svår blepharoconjunctivitis och bilaterala främre hornhinnan vaskularisering; svåra hudutslag och diarré; gramnegativa bakteriell sepsis; hudskador som är typiska för acrodermatitis enteropathica, frånvaro av thymic vävnad, märkt degeneration av synnerverna, chiasm, och fiberoptiska skrifter och omfattande cerebellär degeneration
Samsjuklighet högt blodtryck; hyperlipidemi NA
Diagnostiska tekniker och förfaranden Fysisk undersökning; EKG; blod kulturer okulär undersökning; obduktion
Diagnos Brucella endokardit acrodermatitis enteropathica
Laboratorievärden ökning av c - reaktivt protein (9 mg/dl); alkaliskt fosfatas (250 u/l) NA
Patologi Brucella melitensis var odlade från blodprov höger och vänster ögon var liknande i utseende; hornhinneepitelet reducerades i tjocklek till en till tre celllagrar av tillplattad skivepitelcancer epitelceller över hela ytan av hornhinnan; alla polaritet av epitel förlorades. Bowmans membran kunde identifieras endast i peripheryen av rätt hornhinnan. ingen Bowmans membran kunde identifieras i vänster hornhinnan. varken degenerativa eller inflammatoriska pannus kunde identifieras i antingen öga; omfattande atrofi av cirkulär och sneda musklerna i ciliarkroppen; vissa bakre migration av linsen kapsulära epitel och tidiga kortikala degenerativa förändringar; omfattande degeneration av retinal pigmentepitel i hela den bakre stolpen; näthinnan var kopplad och visade mild autolytisk förändringar i hela; vissa bevarandet av rod och konen yttre segment i den bakre stolpen, men dessa strukturer var helt förlorad anterior ekvatorn; omfattande förlust av ganglion celler och nerv fiber lager av båda ögonen; nästan komplett atrofi av skivan och intilliggande synnerven
Farmakologisk terapi gentamycin 240 mg/iv/dagligen NA
Inverventional terapi protetiska ventil ersättning NA
Patientens resultat bedömning återhämtning var händelselös; urladdade hem dog 1971 (7 år)
Diagnostisk avbildning/videoband inspelning 2; 1; 0; 1 7; 0; 0; 0
Relation till andra fallrapporter 5555555 23430849
Relation med klinisk prövning NCT05555123 NA
Crosslink med databas MedlinePlus hälsoinformation: https://medlineplus.gov/ency/article/000597.htm HighWire - PDF: http://bjo.bmj.com/cgi/pmidlookup?view=long&pmid=3756122; Europa PubMed Central: http://europepmc.org/abstract/MED/3756122; Genetiska Alliance: http://www.diseaseinfosearch.org/result/143
Bekräftelser
Finansiering källa Nationella institut för hälsa och nationella hjärta, lungor och blod Institute De Minnesota Lions Club; Forskning för att förhindra blindhet; Veterans Administration; Kontoret av alkohol och andra droger missbruk programmering av delstaten Minnesota
Award-nummer R01HL123123 (till AG) NA
Upplysningar/konflikt av intresse Dr Grant är en betald talesman för DrugCo. NA
Referenser 4 27

Tabell 2. Standardiserade metadatamall för kliniskt fall rapporterar, med exempel Annotations. En uppsättning funktioner som är gemensamma för kliniskt fall rapporterar och underlätta deras koncept-nivå annoteringar visas här. Denna mall är ordnad in i tre huvudsakliga delar: identifiering, medicinska innehåll och kvittenser, som betecknar syfte och ytterligare värde ges av varje typ av fallrapport funktionen. Den här tabellen innehåller två uppsättningar av exempel anteckningar, en av en fiktiv fallbeskrivning, och en annan uppsättning härledda från en rapport på skick acrodermatitis enteropathica23.

Kompletterande fil 1. Text av en klinisk fallrapport (Chang et al. 2017). vänligen klicka här för att hämta den här filen.

Discussion

Genomförandet av en standardiserad metadatamall för centrala kreditregister kan göra deras innehåll mer rättvist, expandera sin publik och utöka deras program. Efter den traditionella användningen av centrala kreditregister som pedagogiska verktyg i medicinsk kommunikation, hälso-och praktikanter (t.ex. medicinska studenter, praktikanter och karlar), och biomedicinsk forskare kan finna att summerade fallrapport innehållet aktivera snabbare förståelse. Den största styrkan av metadata standardisering med centrala kreditregister, är dock att indexera dessa data transformeringar annars isolerade observationer till tolkningsbara mönster. Protokollet som ges här kan fungera som ett första steg i ett arbetsflöde för att arbeta med centrala kreditregister, oavsett om detta arbetsflöde består av epidemiologisk analys, marknadsföringen läkemedel eller behandling övervakning eller bredare undersökningar av patogenes eller terapeutisk effekt. Strukturerad funktioner identifieras inom centrala kreditregister kan ge en användbar resurs för forskare med fokus på sjukdom presentationer och behandlingar, särskilt för sällsynta tillstånd. Kliniska forskare kan hitta uppgifter om tidigare behandlingsregimer att analysera inspelad symptom eller biverkningar och grad av förbättring under tidigare standarder för vård. Data kan också köra bredare analyser av en nya behandlingar som bygger på effektivitet, brist på negativa effekter eller toxicitet, eller drog inriktning skillnader i kön, åldersgrupp eller genetisk bakgrund.

Nytta av strukturerade metadata är likaså tillämpliga computational arbetsflöden för att tolka eller modell medicinska språket. Strukturerad CCR funktioner kan också tillhandahålla bevis för områden där rapportförfattare kan ge lättare maskinläsbar (och i vissa fall, läsbar) innehåll. Varians bland centrala kreditregister kan resultera från en brist på uttryckligen angivna observationer: exempelvis patientens exakta ålder inte kan anges. Likaså kan kliniker inte nämna tester om diagnostiken eller deras resultat anses trivialt. Genom att ge exempel på luckor behövs för djupgående analys, belyser genomdriva struktur på centrala kreditregister potentiella förbättringar. I ett bredare perspektiv stöder en större tillgång till strukturerade textdata från medicinska handlingar natural language processing (NLP) ansträngningar att lära av big data i hälso-och24,25.

Disclosures

Författarna har något att avslöja.

Acknowledgments

Detta arbete var stöds delvis av nationella hjärta, lungor och blod Institute: R35 HL135772 (till s. Ping); National Institute of General Medical Sciences: U54 GM114833 (till s. Ping, K. Watson och W. Wang); Nationella institutet för biomedicinsk Imaging och bioteknik: T32 EB016640 (till A. Bui); en gåva från stiftelsen Hoag och Dr. S. liggsoffa; och T.C. Laubisch endowment vid UCLA (till s. Ping).

Materials

Name Company Catalog Number Comments
A corpus of clinical case reports n/a n/a Full texts of case reports may be accessed through PubMed (e.g., using the search query "Case Reports"[Filter]), other citation databases such as Europe PMC (https://europepmc.org/) or directly through publishers.

DOWNLOAD MATERIALS LIST

References

  1. Ban, T. A. The role of serendipity in drug discovery. Dialogues in Clinical Neuroscience. 8 (3), 335-344 (2006).
  2. Cabán-Martinez, A. J., García-Beltrán, W. F. Advancing medicine one research note at a time: the educational value in clinical case reports. BMC Research Notes. 5 (1), 293 (2012).
  3. Vandenbroucke, J. P. In Defense of Case Reports and Case Series. Annals of Internal Medicine. 134 (4), 330 (2001).
  4. Bayoumi, A. M. The storied case report. Canadian Medical Association Journal. 171 (6), 569-570 (2004).
  5. Pasteur, L. Méthode pour prévenir la rage après morsure. Comptes rendus de l'Académie des Sciences. 101, 765-774 (1885).
  6. Pearce, J. Louis Pasteur and Rabies: a brief note. Journal of Neurology, Neurosurgery & Psychiatry. 73 (1), 82-82 (2002).
  7. Keefer, C. S., Blake, F. G., Marshall, E. K. J., Lockwood, J. S., Wood, W. B. J. PENICILLIN IN THE TREATMENT OF INFECTIONS. Journal of the American Medical Association. 122 (18), 1217 (1943).
  8. Akers, K. G. New journals for publishing medical case reports. Journal of the Medical Library Association JMLA. 104 (2), 146-149 (2016).
  9. Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3, 160018 (2016).
  10. Beeler, G. W. HL7 Version 3-An object-oriented methodology for collaborative standards development. International Journal of Medical Informatics. 48 (1-3), 151-161 (1998).
  11. HL7 FHIR Release 3 (STU; v3.0.1-11917). , Available from: http://hl7.org/implement/standards/fhir/ (2018).
  12. McDonald, C. J. LOINC, a Universal Standard for Identifying Laboratory Observations: A 5-Year Update. Clinical Chemistry. 49 (4), 624-633 (2003).
  13. CDC/National Center for Health Statistics ICD-10-CM Official Guidelines for Coding and Reporting. , Available from: https://www.cdc.gov/nchs/data/icd/10cmguidelines_fy2018_final.pdf (2017).
  14. Rajeev, D., et al. Development of an electronic public health case report using HL7 v2.5 to meet public health needs. Journal of the American Medical Informatics Association. 17 (1), 34-41 (2010).
  15. Biesecker, L. Mapping phenotypes to language: a proposal to organize and standardize the clinical descriptions of malformations. Clinical Genetics. 68 (4), 320-326 (2005).
  16. Riley, D. S., et al. CARE guidelines for case reports: explanation and elaboration document. Journal of Clinical Epidemiology. 89, 218-235 (2017).
  17. Cohen, K. B., et al. Coreference annotation and resolution in the Colorado Richly Annotated Full Text (CRAFT) corpus of biomedical journal articles. BMC Bioinformatics. 18 (1), 372 (2017).
  18. Sun, W., Rumshisky, A., Uzuner, O. Evaluating temporal relations in clinical text: 2012 i2b2 Challenge. Journal of the American Medical Informatics Association. 20 (5), 806-813 (2013).
  19. Savova, G. K., et al. Mayo clinical Text Analysis and Knowledge Extraction System (cTAKES): architecture, component evaluation and applications. Journal of the American Medical Informatics Association. 17 (5), 507-513 (2010).
  20. Soysal, E., et al. CLAMP - a toolkit for efficiently building customized clinical natural language processing pipelines. Journal of the American Medical Informatics Association. 25 (3), 331-336 (2018).
  21. Bender, D., Sartipi, K. HL7 FHIR: An Agile and RESTful approach to healthcare information exchange. Proceedings of the 26th IEEE International Symposium on Computer-Based Medical Systems. , 326-331 (2013).
  22. Chang, K., et al. Human Infection with Burkholderia thailandensis, China, 2013. Emerging Infectious Diseases. 23 (8), 1416-1418 (2013).
  23. Cameron, J. D., McClain, C. J. Ocular histopathology of acrodermatitis enteropathica. British Journal of Ophthalmology. 70 (9), 662-667 (1986).
  24. Maddox, T. M., Matheny, M. A. Natural Language Processing and the Promise of Big Data. Circulation: Cardiovascular Quality and Outcomes. 8 (5), 463-465 (2015).
  25. Kreimeyer, K., et al. Natural language processing systems for capturing and standardizing unstructured clinical information: A systematic review. Journal of Biomedical Informatics. 73, 14-29 (2017).

Tags

Medicin fråga 139 datavetenskap medicinsk informatik text mining anteckning curation kliniska fallrapporter
En Metadata utvinning metod för kliniska fallrapporter aktivera avancerad förståelse av biomedicinska begrepp
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Caufield, J. H., Liem, D. A.,More

Caufield, J. H., Liem, D. A., Garlid, A. O., Zhou, Y., Watson, K., Bui, A. A. T., Wang, W., Ping, P. A Metadata Extraction Approach for Clinical Case Reports to Enable Advanced Understanding of Biomedical Concepts. J. Vis. Exp. (139), e58392, doi:10.3791/58392 (2018).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter