Un approccio di estrazione di metadati per rapporti clinici di caso attivare avanzato la comprensione dei concetti biomedicale

John Harry Caufield; David A. Liem; Anders O. Garlid; Yijiang Zhou; Karol Watson; Alex A. T. Bui; Wei Wang; Peipei Ping

doi:10.3791/58392

Method Article

Un approccio di estrazione di metadati per rapporti clinici di caso attivare avanzato la comprensione dei concetti biomedicale

DOI:

10.3791/58392

⸱

September 20th, 2018

John Harry Caufield¹^,² , David A. Liem¹^,²^,³ , Anders O. Garlid¹^,² , Yijiang Zhou⁴ , Karol Watson¹^,³ , Alex A. T. Bui¹^,⁵^,⁶^,⁷ , Wei Wang¹^,⁷^,⁸^,⁹ , Peipei Ping¹^,²^,³^,⁷^,⁸

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Vi presentiamo un protocollo e un modello di metadati associata per l'estrazione di testo che descrive concetti biomedicale in rapporti clinici di caso. I valori di testo strutturato prodotti tramite questo protocollo possono supportare profonda analisi di migliaia di narrazioni cliniche.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Rapporti di caso clinici (CCRs) sono un prezioso mezzo di scambio di osservazioni e le intuizioni in medicina. La forma di questi documenti varia, e loro contenuto include descrizioni di malattia romanzo numerosi, presentazioni e trattamenti. Finora, i dati di testo all'interno di CCRs sono in gran parte non strutturati, che richiedono notevole sforzo umano e computazionale per il rendering di questi dati utili per un'analisi approfondita. In questo protocollo, descriviamo i metodi per identificare i metadati corrispondenti a specifici concetti biomedicale frequentemente osservati all'interno di CCRs. Forniamo un modello di metadati come una guida per l'annotazione del documento, riconoscendo che l'imponente struttura il CCRs possono essere perseguiti mediante combinazioni di sforzo manuale e automatizzato. L'approccio qui presentato è appropriato per l'organizzazione del testo concetto correlato da un corpus di grande letteratura (per esempio, migliaia di CCRs) ma può essere facilmente adattato per facilitare più mirata attività o piccoli gruppi di report. I dati di testo strutturato risultante includono sufficiente contesto semantico per supportare un'ampia gamma di flussi di lavoro di testo successive analisi: meta-analisi per determinare come massimizzare CCR in dettaglio, studi epidemiologici delle malattie rare e lo sviluppo di modelli di il linguaggio medico può essere fatta più realizzabili e gestibili attraverso l'uso di dati di testo strutturati.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Rapporti di caso clinici (CCRs) sono un mezzo fondamentale di condividere le osservazioni e le intuizioni in medicina. Questi servono come un meccanismo di base di comunicazione e di formazione per medici e studenti di medicina. Storicamente, CCRs hanno fornito anche account di malattie emergenti, loro trattamenti e loro ambiti di provenienza genetici¹^,²^,³^,⁴. Ad esempio, il primo trattamento della rabbia umana da Louis Pasteur nel 1885⁵^,⁶ e la prima applicazione di penicillina in pazienti⁷ erano entrambi segnalati attraverso CCRs. CCRs più di 1,87 milioni sono stati pubblicati a partire da aprile 2018, con oltre mezzo milione nell'ultimo decennio; riviste stanno continuando a fornire nuove sedi per questi rapporti⁸. Ma pur sempre unica nella forma e nel contenuto, CCRs contengono dati di testo sono in gran parte non strutturati, contengono un vasto vocabolario e riguardano fenomeni interconnessi, limitando il loro utilizzo come risorsa strutturata. È necessario uno sforzo significativo per estrarre metadati dettagliati (cioè, "dati sui dati", o in questo caso, le descrizioni del contenuto del documento) da CCRs e stabilire come un dati trovabili, accessibile, interoperabili e riutilizzabili (FAIR)⁹ risorsa.

Qui, descriviamo un processo per l'estrazione di testo e i valori numerici per standardizzare la descrizione di concetti specifici biomedicale all'interno CCRs pubblicati. Questa metodologia include un modello di metadati per guidare l'annotazione; vedere la Figura 1 per una panoramica di questo processo. Applicazione del processo di annotazione ad una vasta collezione di report (ad esempio, diverse migliaia di un tipo specifico di presentazione della malattia) consente il montaggio di un insieme di testi clinici con annotazioni, gestibile e strutturato raggiungimento leggibile dal computer documentazione e fenomeni biomedici incorporato all'interno di ogni presentazione clinica. Anche se i formati di dati quali quelli forniti da HL7 (ad es., versione 3 di messaggistica Standard¹⁰ o la veloce Healthcare Interoperability Resources [Simone]¹¹), LOINC¹²e revisione 10 della statistica internazionale Classificazione delle malattie e dei problemi sanitari correlati (ICD-10)¹³ offrono gli standard per la descrizione e lo scambio di osservazioni cliniche, non catturano il testo che circonda questi dati, né intendono a. I risultati della nostra metodologia sono meglio utilizzati per imporre struttura il CCRs e facilitare la successiva analisi, normalizzazione attraverso vocabolari controllati e sistemi di codifica (ad es., ICD-10), e/o conversione nei formati di dati clinici sopra elencati .

CCRs di data mining è un'area attiva di lavoro all'interno di informatica biomedica e clinica. Anche se precedenti proposte di standardizzare la struttura dei rapporti di caso (ad es., utilizzando HL7 v 2.5¹⁴ o standardizzata fenotipo terminologia¹⁵) sono lodevoli, è probabile che CCRs continuerà a seguire una varietà di diversi forme di linguaggio naturale e layout di documento, come essi hanno per gran parte del secolo scorso. In condizioni ideali, gli autori dei nuovi rapporti di caso seguire cura orientamenti¹⁶ per assicurarsi che siano complete. Approcci sensibili al linguaggio naturale e la sua relazione a concetti medici possono quindi essere più efficaci nel lavoro con report nuovi e archiviati. Risorse come mestiere¹⁷ e quelli produssero da informatica per integrare la biologia e la curatela di¹⁸ comodino (i2b2) sostenere approcci di natural language processing (NLP) ancora non lo fanno in particolare focus su CCRs o narrazioni cliniche. Allo stesso modo, medicali strumenti di PNL come cTAKES¹⁹ e morsetto²⁰ sono stati sviluppati ma generalmente identificano specifiche parole o frasi (cioè, entità) all'interno di documenti piuttosto che i concetti generali comunemente descritti in CCRs.

Abbiamo progettato un modello di metadati standardizzati per funzionalità comunemente incluse all'interno di CCRs. Questo modello definisce caratteristiche per imporre struttura il CCRs — un precursore essenziale per i confronti approfonditi del contenuto del documento-ancora permette una flessibilità sufficiente per mantenere il contesto semantico. Anche se abbiamo progettato il formato associato questo modello da essere adatte sia annotazione manuale e computazionalmente assistita text mining, abbiamo garantito che è particolarmente facile da usare per annotatori manuale. Il nostro approccio differisce notevolmente da più intricate (e, quindi, meno ricercatori immediatamente comprensibili all'inesperto) quadri come Simone²¹. Il seguente protocollo viene descritto come isolare le caratteristiche dei documenti corrispondenti a ciascun tipo di dati di modello, con un singolo set di valori corrispondenti a quelli di un singolo CCR.

I tipi di dati all'interno del modello sono quelli più descrittivo per CCRs e focalizzata sul paziente documenti medici in generale. Annotazione di queste caratteristiche promuove findability, accessibilità, interoperabilità e riusabilità del testo CCR, principalmente mediante l'assegnazione di struttura. I tipi di dati sono in quattro categorie generali: annotazione e documento di identificazione, identificazione del rapporto di caso (cioè, proprietà a livello di documento), concetti contenuti medici (principalmente a livello di concetto proprietà) e riconoscimenti (cioè funzionalità fornendo la prova di finanziamento). In questo processo di annotazione, ogni documento contiene il testo completo di un CCR, omettendo qualsiasi materiale di contenuto documento indipendente per il caso (ad es., protocolli sperimentali). CCRs sono generalmente meno di 1.000 parole ciascuno; un corpus unico dovrebbe idealmente essere indicizzato dallo stesso database bibliografico ed essere nella stessa lingua scritta.

Il prodotto dell'approccio descritto qui, quando applicato a un corpus CCR, è un insieme strutturato di testo clinico con annotazioni. Mentre questa metodologia può essere eseguita completamente manualmente ed è stata progettata per essere eseguito da esperti di dominio senza alcuna esperienza informatica, integra gli approcci di elaborazione del linguaggio naturale sopra specificati e fornisce i dati appropriati per analisi computazionale. Tali analisi possono essere di interesse per il pubblico di ricercatori di là di coloro che leggono frequentemente CCRs, tra cui:

chi si occupa di malattia presentazioni, loro symptomology chiave, usuali approcci diagnostici e trattamenti
coloro che desiderano confrontare i risultati dei test clinici con gli eventi descritti nella letteratura clinica, potenzialmente fornire ulteriori osservazioni e maggiore potenza statistica.
bioinformatica, informatica biomedica e i ricercatori di scienza di computer che richiedono il set di dati del linguaggio medico strutturato o intese ad alto livello delle narrazioni medicale
I ricercatori di politica di governo incentrato sulla sperimentazione clinica come meglio possono riflettere come la diagnosi ed il trattamento come esso si verifica in realtà

Far rispettare la struttura il CCRs può supportare numerosi successivi sforzi per comprendere meglio sia il linguaggio medico e biomedicali fenomeni.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

1. il documento e l'identificazione di annotazione

Nota: I valori in questa categoria supportano il processo di annotazione.

Utilizzando il modello per le annotazioni, fornire che un identificatore specifico per questi metadati impostato, ad esempio, Case123. Il formato di identificatore deve essere coerenza in tutto il progetto (ad es., Case001 attraverso Case500).
Specificare la data in cui un documento è stato leggere ed annotato. Utilizzare un formato simile a "10 gennaio 2018" per coerenza e leggibilità.

2. caso Report identificazione

Nota: I valori in questa categoria forniscono funzionalità a livello di documento e contribuiscono alla reperibilità di un documento.

Essere coerente con il formato di ogni campo in tutte le annotazioni, ad esempio, singoli valori devono essere separati da punti e virgola senza spazi seguenti in tutte le voci. Utilizzare formati identici a quelli utilizzati nel documento originale o quelli utilizzati in un database bibliografico come MEDLINE.
Fornire il titolo del documento.
Fornire i nomi di tutti gli autori del documento nell'ordine fornito. Normalizzare il formato di tutti i nomi, tale che tutti i nomi di assumono la forma di un singolo cognome seguito da un numero qualsiasi di iniziali, ad esempio Jane B. Park diventa Park JB. Non includere titoli. Separare più autori con un punto e virgola senza ulteriori segni di punteggiatura, tale che John A. Smith, Jane B. Park assume una forma di JA Smith; Parco JB.
Fornire l'anno di pubblicazione del documento.
Fornire il titolo completo della rivista in cui è stato pubblicato il documento. Viene fornito un elenco di nomi di giornale controllato dal catalogo NLM (https://www.ncbi.nlm.nih.gov/nlmcatalog).
Fornire l'indirizzo dell'istituzione casa degli autori del documento, come specificato nel documento. Questo può includere reparti, aree geografiche e dettagli di indirizzo postale.
1. Se vengono forniti più posizioni (ad esempio, se affiliazioni differiscono tra gli autori), specificare solo i dettagli per l'autore corrispondente. Se un autore corrispondente non può essere identificato, usare quello del primo autore, o non si specifica un'istituzione. Se un autore corrispondente ha affiliazioni multiple, specificare entrambi e separare con una virgola.
Fornire l'autore corrispondente del documento, come specificato all'interno della Rubrica di documento utilizzando lo stesso formato di quello utilizzato nel tipo di dati di autori.
Fornire un identificatore del documento (ad es., un PMID).
Fornire un Digital Object Identifier, ove possibile e disponibile, risolvibile al documento URL (attraverso https://www.doi.org/), non un PubMed Central pagina.
Fornire un URL stabile per il testo completo del documento, se disponibile. Per ottimizzare l'accessibilità, questo può riferirsi alla versione PubMed Central.
Fornire la lingua del documento. Per documenti disponibili in più lingue, forniscono entrambi, separati con un punto e virgola.

3. medical contenuto

Nota: I valori in questa categoria identificano funzionalità a livello di documento, concetto e livello di testo. Essi servono per migliorare l'accessibilità di un documento, l'interoperabilità e riusabilità. Queste caratteristiche forniscono modi per osservare somiglianze concettuali e semantiche tra il contenuto del documento, con un focus su argomenti biomedici ed eventi. La maggior parte delle categorie in questa sezione possono includere più istruzioni di testo e ciascuno deve essere separato con un punto e virgola.

Includi dettagli contestuali in ogni campo (ad esempio, "madre aveva il cancro al seno a 50 anni") piuttosto che fornire solo termini da un vocabolario controllato (ad esempio, non "cancro al seno" da solo). Non includere dettagli esaurienti di là di ogni osservazione.
Omettono comunemente ripetute parole e frasi (ad es., i pronomi, il "paziente" della parola e le frasi "si è lamentati di" o "presentato con"). Anche se la soggettività attraverso multiple annotatori è probabile, può essere ridotto avendo annotatori multiple per ogni documento e attraverso la normalizzazione automatica dopo la raccolta dei dati. Approcci computazionali di post-elaborazione variano dalle esigenze di analisi successiva e non sono discussi qui in dettaglio.
Fornire le seguenti informazioni nel modello di annotazione.
1. Fornire termini specifici identificati all'interno di un documento, solitamente nella relativa intestazione, come termini chiave. Separare con un punto e virgola come termini possono includere altri segni di punteggiatura.
2. Fornire valori demografici, in particolare le dichiarazioni di testo che descrive la priorità bassa di un paziente, tra cui sesso e/o di sesso, età, etnia o nazionalità.
3. Fornire le località geografiche menzionate all'interno della narrazione clinica, diverso da indirizzi specifici istituzione. Questo non deve includere posizioni/parti anatomiche, ma può includere qualsiasi localizzazione geografica in cui il paziente risiede o viaggi.
4. Fornire i valori di stile di vita, incluse le affermazioni di testo che descrivono attività paziente frequenti o comportamenti rilevanti per la loro salute generale. In pratica, questo spesso comporta il fumo o le abitudini di consumo di alcol, ma può anche includere l'esposizione del sole, dieta o la frequenza di specifici tipi di attività fisica.
5. Fornire valori di anamnesi riferendosi alla storia familiare. Includono qualsiasi istruzioni di testo che descrive le osservazioni cliniche di ed eventi vissuta dai fratelli, genitori e altri membri della famiglia. Questo include le malattie genetiche e le osservazioni negative (cioè, storia di famiglia era negativa per una malattia).
6. Fornire valori riferiti alla storia sociale, incluse le affermazioni di testo che descrivono background paziente non coperti in demografia o stile di vita. Ci possono essere sovrapposizioni nei contenuti tra queste categorie. Le dichiarazioni possono includere storia professionale e le abitudini sociali.
7. Fornire valori riferiti alla storia medica e chirurgica del paziente. Includere eventuali istruzioni di testo che descrive eventuali osservazioni mediche, trattamenti o altri eventi che si svolgono prima dell'inizio della presentazione clinica. Questo include anamnesi ostetrica e periodi di buona salute, dove indicato.
8. Specificare uno o più delle seguenti categorie di sistema 16 malattia. Si noti che questi valori sono categorici piuttosto che di testo libero. Categorie non sono esaustive, ma dovrebbero indicare la maggior parte dei sistemi ha risentito degli eventi descritti nella presentazione clinica e diagnosticato la malattia.
  1. Segui un set specifico di categorie, sulla base delle categorie utilizzate nella classificazione statistica internazionale delle malattie e problemi di salute connessi, revisione 10 sistema di codice (ICD-10). Vedere la tabella 1 per la lista delle categorie di malattie sistema insieme corrispondenti intervalli di codice ICD-10.
9. Fornire i dettagli di tutti i segni e sintomi. Includere eventuali istruzioni di testo che descrive eventuali osservazioni mediche dei segni o sintomi inizio alla presentazione iniziale, compresa la loro insorgenza, la durata, la gravità e la risoluzione, se fornito. Non includere sintomi descritti nel risultato. Questi valori possono sovrapporsi ad altri tipi, se i sintomi continuano dalla storia alla presentazione iniziale.
10. Fornire dettagli di eventuali comorbilità. Includi eventuali termini o frasi che descrivono malattie distinte presenti al momento della presentazione clinica iniziale. C'è probabile sovrapposizione tra questi valori e quelli nella storia clinica, anche se comorbidità non dovrebbe includere termini identici a quelli nella diagnosi.
11. Fornire i dettagli di tutte le tecniche diagnostiche e procedure. Includere i nomi delle procedure mediche fare per scopi diagnostici, tra cui esami, test e la formazione immagine, come pure le condizioni in cui questi test sono state eseguite e rilevanti localizzazioni anatomiche (ad es., "venoso arto superiore ultrasuoni"). Escludere i risultati dei test.
12. Fornire dettagli della diagnosi. Includere eventuali istruzioni di testo che descrive la diagnosi della malattia, anche se la diagnosi finale è ambigua.
13. Fornire tutti i valori di laboratorio e risultati dei test. Includere i nomi dei test diagnostici, loro valori e le condizioni in cui sono state eseguite. Ciò comporterà la sovrapposizione con i termini utilizzati nel tipo di dati di procedure e tecniche diagnostiche. Valori sia numerici che qualitativi (ad es., conteggio di anima completa era entro i limiti normali) sono accettabili. Se i nomi dei test diagnostici non sono disponibili, utilizzare termini che descrivono i risultati (ad es., leucopenia), anche se dovrebbero essere inclusi anche nei segni e nei sintomi.
14. Fornire dettagli della patologia. Includere eventuali istruzioni di testo che descrive i risultati degli studi di patologia e istologia, compresi gli studi di microscopia, immunologia e patologia lordi. Termini si sovrappongono con quelli utilizzati nelle tecniche diagnostiche e procedure (punto 3.11), ad esempio, con le procedure eseguite per ottenere esempi quali la biopsia.
15. Fornire tutte le terapie farmacologiche. Includere eventuali istruzioni di testo che descrive le terapie farmacologiche utilizzate nel corso del trattamento, compresi termini generali come antibiotici o nomi specifici droga. Inoltre, includere descrizioni di come e quando le terapie farmacologiche sono state interrotte.
16. Fornire tutte le procedure di interventional. Includere eventuali istruzioni di testo che descrivono le procedure terapeutiche utilizzate nel corso del trattamento, tra cui procedure invasive, l'impianto di dispositivi medici e le procedure per facilitare altre terapie. Inoltre, includere descrizioni di quando e come sono state fermate in corso procedure terapeutiche, se necessario.
17. Fornire l'outcome del paziente. Includere eventuali istruzioni di testo che descrive la salute del paziente fin dalla fine della presentazione clinica descritta nella relazione, compreso le eventuali prove di follow-up.
18. Fornire i conti di tutte le immagini diagnostiche, figure, video/animazioni e tabelle. Includere tutti i conteggi di media visivi inclusi nella relazione, nel seguente formato: conteggio delle immagini; Conteggio delle figure; Conteggio di video o animazioni; Conteggio delle tabelle.
  1. Distinguere tra immagini e figure in questo modo: immagini includono tutti i prodotti di diagnostica clinica, tra cui fotografie, micrografie, elettrocardiogramma ritmo immagini e altri prodotti di imaging diagnostico, mentre tutte le altre immagini, è un generalmente tra cui dati grafici e illustrazioni.
19. Fornire la prova dei rapporti per altri CCRs. Questo campo può includere gli identificatori (ad esempio, PMIDs) di altri rapporti il set di dati citati da o fa riferimento a questo rapporto.
20. Fornire la prova delle relazioni di studi clinici. Questo campo può includere gli identificatori dei test clinici, citando questo CCR. Identificare le prove da loro identificatori ClinicalTrials.gov, preceduti da NCT, o un altro identificatore stabile.
21. Includono le reticolazioni database corrispondente a questo documento, compresi gli identificatori, preferibilmente come nomi di database e stabile gli URL.

4. i riconoscimenti

Note: I valori in questa categoria identificano caratteristiche a livello di documento ancora hanno una struttura poco consistente in pubblicazioni. Essi forniscono dettagli per quanto riguarda le organizzazioni che fornisce supporto per una replica continua cluster e i relativi lavori. Questa categoria comprende anche un campo per il conteggio totale dei riferimenti citati da un articolo: questo è destinato a fornire una metrica approssimativa del grado a cui un documento ha relazioni concettuali con altri documenti biomedici di qualsiasi tipo. All'interno dei tipi di quattro dati in questa sezione, fornire le seguenti.

Specificare tutte le fonti di finanziamento sostenendo il lavoro e corrispondente PI così come numeri del premio pertinenti. Il primo valore, fonte di finanziamento, deve includere i nomi di tutte le organizzazioni di sostegno finanziario per il lavoro.
1. Organizzazioni separate con un punto e virgola e spazi, ad esempio, Istituti nazionali di salute/National Cancer Institute; DOE; Smith-Park Foundation .
2. Per il seguente valore, premio numero, specificare eventuali numeri del premio o denominazioni specifiche fornite insieme con i destinatari dei premi, se del caso, come le iniziali dei destinatari tra parentesi, ad esempio, R01HL123123 (di JP) , NS12312 (di JP, JS), borsa di formazione di ricerca (a JS). Gli autori possono dichiarare esplicitamente che nessuna informazione corrispondente è disponibile (ad esempio, "nessun finanziamento è stato ricevuto"); in questi casi, utilizzare il testo fornito dagli autori come il valore di fonte di finanziamento. In caso contrario, il valore dovrebbe essere na
Specificare informazioni integrative/conflitti di interesse come specificato dagli autori, ad esempio, JP è un consulente per DrugCo. Gli autori possono dichiarare esplicitamente che nessuna informazione corrispondente è disponibile (ad esempio, "nessun conflitto di interessi è stata dichiarata"); in questi casi, utilizzare il testo fornito dagli autori come il conflitto/divulgazioni del valore di interesse. In caso contrario, come sopra, il valore dovrebbe essere na
Specificare un conteggio numerico di tutti i riferimenti citati dal documento, non compresi quelli forniti in qualsiasi materiale supplementare. Nessun testo di riferimento dovrebbe essere incluso in questo campo.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Nella Figura 2è riportato un esempio del processo di annotazione. Questo caso²² descrive una presentazione dell'infezione di patogeno batterico Burkholderia thailandensis. Per riferimento, la parte rilevante di questo CCR viene fornita in formato testo normale in 1 File supplementari; alcuni risultati della ricerca vengono anche presentati in questo rapporto e sono inclusi per il confronto. In pratica, conversione dei report forniti in formato HTML o PDF a testo normale può migliorare l'efficienza e la facilità di estrazione dei metadati.

Nella tabella 2vengono forniti esempi di due set di annotazioni di metadati CCR completate. Il primo di questi esempi è dati fittizi per illustrare il formato ideale di ogni valore, mentre nel secondo esempio contiene valori estratti da un CCR pubblicato su uno stato raro, Acrodermatite enteropatica²³.

figure-results-1
Figura 1. Flusso di lavoro per l'annotazione di rapporto di caso. Il protocollo descritto qui fornisce un metodo per l'identificazione delle caratteristiche testuali frequentemente presenti all'interno di rapporti clinici di caso. Questo processo richiede il montaggio di un corpus di documenti. Il prodotto del processo di annotazione, una volta aggregato in un unico file, consenta l'identificazione delle caratteristiche di testo associato a concetti medici e le relative descrizioni all'interno di rapporti di caso. Clicca qui per visualizzare una versione più grande di questa figura.

figure-results-2
Figura 2. Identificazione del testo specifico del concetto in un rapporto clinico di caso. Cominciando con il testo di un rapporto di caso, un'annotazione manuale può progredire attraverso il documento, identificando i segmenti di testo corrispondente a ciascun componente del modello metadati. Caratteristiche di identificazione sono evidenziate in blu. Testo corrispondente a concetti medici sono in rosso e con etichetta con il loro tipo; tutto il testo evidenziato nella terza colonna si riferisce al tipo di patologia. Clicca qui per visualizzare una versione più grande di questa figura.

Categoria	Descrizione	ICD-10 capitolo	Intervallo di codici ICD-10
cancro	Qualsiasi tipo di cancro o tumore maligno.	II	C00-D49
nervoso	Qualsiasi malattia del cervello, colonna vertebrale o nervi.	VI	G00-G99
cardiovascolare	Qualsiasi malattia del cuore o del sistema vascolare. Non include le malattie ematologiche.	IX	I00-I99
muscolo-scheletriche e reumatiche	Qualsiasi malattia dei muscoli, sistema scheletrico, articolazioni, tessuti connettivi e.	XIII	M00-M99
digestivo	Qualsiasi malattia del tratto gastrointestinale e organi digestivi, tra cui il fegato e il pancreas.	XI	K00-K95
interventi ostetrici e ginecologici	Qualsiasi malattia relativi a gravidanza, parto, il sistema riproduttivo femminile o i seni.	XIV; XV	O00-O9A; N60-N98
infettive	Eventuali cause di malattia di microrganismi infettivi.	Ho	A00-B99
respiratoria	Qualsiasi malattia dei polmoni e delle vie respiratorie.	X	J00-J99
ematologiche	Qualsiasi malattia del sangue, midollo osseo, nei linfonodi o milza.	III	D50-D89
rene e urologiche	Qualsiasi malattia dei reni o della vescica, compreso gli ureteri, come pure gli organi riproduttivi maschili, tra cui la prostata.	XIV	N00-N53; N99
sistema endocrino	Qualsiasi malattia delle ghiandole endocrine, come pure i disordini metabolici.	IV	E00-E89
orale e maxillo-facciale	Qualsiasi condizione che coinvolge la bocca, mascelle, testa, viso o collo.	XI; XIII	K00-K14; M26-M27
occhio	Qualsiasi condizione che coinvolgono gli occhi, compreso cecità.	VII	H00-H59
Otorinolaringologiche	Qualsiasi condizione dell'orecchio, naso e gola.	VIII	H60-H95; J30-J39
pelle	Qualsiasi malattia della pelle.	XII	L00-L99
rari	Una categoria speciale riservata ai rapporti delle malattie rare, definite come coloro che incidono meno di 200.000 individui negli Stati Uniti (Vedi https://rarediseases.info.nih.gov/diseases)	NA	NA

Tabella 1. Categorie di malattie per l'annotazione del documento. Le categorie elencate qui sono quelle da utilizzare per il tipo di dati di sistema di malattia nel modello di metadati documento. Come ogni presentazione di malattia può coinvolgere più sistemi dell'organo o eziologie, un singolo rapporto di caso clinico può corrispondere a più categorie. Queste categorie seguono in larga misura quelli utilizzati per differenziare le sezioni della classificazione statistica internazionale delle malattie e problemi di salute connessi, revisione 10 (ICD-10) sistema di codice: capitoli corrispondenti del ICD-10 e intervalli di codice vengono forniti. Alcune categorie, ad esempio per malattia orale e maxillo-facciale , corrispondono a più sezioni del sistema ICD-10.

Tipo di dati	Esempio #1	Example #2 (Cameron e McClain 1986)
Documento e l'identificazione di annotazione
ID interno	CCR005	CCR2000
Data di annotazione	2 marzo 2018	1° marzo 2018
Rapporto di caso di identificazione
Titolo	Un caso di endocardite.	Istopatologia oculare di Acrodermatite enteropatica.
Autori	Grant AB; CD di Chang	JD Cameron; CJ McClain
Anno	2017	1986
Gazzetta	Giornale del mondo della medicina e rapporti di caso	Giornale britannico di Oftalmologia
Istituzione	Dipartimento di medicina, divisione di cardiologia, primo General Hospital, Boston, Massachusetts, Stati Uniti d'America	Dipartimento di oftalmologia, facoltà di medicina Università di Minnesota, Minneapolis, Minnesota 55455
Autore corrispondente	Grant AB	JD Cameron
PMID	25555555	3756122
DOI	10.1011/wjmcr.2017.11.001	NA
Link	https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9555555/	https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1040795/
Lingua	Inglese	Inglese
Medical contenuto
Parole chiave	brucellosi; endocardite; valvola mitrale	NA
Demografia	37-anno-vecchio maschio	bambino maschio
Posizioni geografiche	Florida; Rio de Janeiro, Brasile	NA
Stile di vita	fumatore; beve alcol occasionalmente	NA
Storia di famiglia	terzo di cinque figli di genitori consanguinei; fratello minore ha eczema cronico	NA
Storia sociale	operaio edile	NA
Storia medica/chirurgica	storia della fatica	8 libbre 9 oncia (3884 g) prodotto di una gravidanza a termine senza complicazioni, pieno; in buona salute fino all'età di 1 mese quando ha sviluppato un'eruzione di pelle vesciche sulle guance; eruzione cutanea diffusa fino a coinvolgere la pelle intorno agli occhi, naso e bocca; le lesioni cutanee inoltre sono state notate sul addome e le estremità; diarrea e omissione di prosperare; a quel tempo la biopsia della pelle ha mostrato il parakeratosis tipici di Acrodermatite enteropatica; trattati nei prossimi sei anni con corsi intermittente di antibiotici ad ampio spettro, latte materno e diodoquin; parzialmente ha risposto; sviluppato alopecia totale, acrodermatitis intermittente e diarrea intermittente con guadagno di peso non ottimali; spasticità attribuito al coinvolgimento del sistema nervoso centrale da EA aveva sviluppato da 8 mesi di età; diversi episodi di arresto cardiopolmonare a 11 mesi; mancanza di coordinamento delle sue corde vocali; tracheostomia; dall'età 18 mesi il bambino ha sviluppato la ricerca nistagmo associato con atrofia ottica bilaterale e lieve attenuazione dei vasi retinici, così come segni di ritardo psicomotorio; cheratocongiuntivite bilaterale; eruzione cutanea; seconda biopsia di pelle effettuata all'età di 3 anni ha mostrato il parakeratosis ancora tipico per ae; eruzione cutanea grave e diarrea; opacità corneale anteriore lordo bilaterali sono stati veduti che avévano risolto completamente con il tempo che egli è stato riesaminato all'età di cinque; frequenti infezioni tra cui otite media, infezioni del tratto urinario e infezioni della pelle
Sistema di malattia	cardiovascolare; infettive	digestivo; della pelle; occhio; rari
Segni e sintomi	palpitazioni e dispnea nella settimana precedente; ha presentato con la letargia, mal di testa e brividi	blefaro-congiuntivite grave e vascolarizzazione cornea anteriore bilaterale; eruzione cutanea grave e diarrea; sepsi batterica gram-negativi; lesioni cutanee tipiche di Acrodermatite enteropatica, assenza di tessuto timico, contrassegnato la degenerazione dei nervi ottici, chiasm e tratti ottici e vasta degenerazione cerebellare
Comorbidità	ipertensione; iperlipidemia	NA
Procedure e tecniche diagnostiche	Esame fisico; elettrocardiografia; colture di anima	esame oculare; autopsia
Diagnosi	Endocardite della Brucella	Acrodermatite enteropatica
Valori di laboratorio	aumento della proteina c - reattiva (9 mg/dl); fosfatasi alcalina (250 u/l)	NA
Patologia	Brucella melitensis è stato coltivato da campioni di sangue	occhio destro e sinistro era simili in apparenza; epitelio corneale è stata ridotta in spessore da uno a tre strati delle cellule delle cellule epiteliali squamose appiattite su tutta la superficie della cornea; tutte le polarità dell'epitelio è stato persa. membrana di Bowman potrebbe essere identificata solo nella periferia della cornea destra. membrana di bowman, non potrebbe essere identificata nella cornea di sinistra. pannus, né degenerativa infiammatoria potrebbe essere identificato nell'occhio; vasta atrofia dei muscoli circolari e obliqui del corpo ciliare; alcuni espansione posteriore dell'epitelio capsulare lente e primi cambiamenti degeneranti corticali; vasta degenerazione dell'epitelio retinico del pigmento in tutto il polo posteriore; retina è stato attaccato e ha mostrato i cambiamenti delicati autolitici in tutto; alcuni conservazione dei segmenti esterni rod e cono nel palo posteriore, tuttavia, queste strutture sono state completamente perse anteriormente all'equatore; vasta perdita degli strati di fibra del nervo e delle cellule del ganglio di entrambi gli occhi; quasi completa atrofia del disco e del nervo ottico adiacente
Terapia farmacologica	la gentamicina 240 mg/iv/quotidiani	NA
Terapia Inverventional	rimontaggio prostetico della valvola	NA
Valutazione del risultato paziente	il recupero era non movimentato; Scarica casa	morì nel 1971 (all'età di 7 anni)
Registrazione diagnostica Imaging/Videotape	2; 1; 0; 1	7; 0; 0; 0
Relazione ad altri rapporti di caso	5555555	23430849
Rapporto con sfavorevolmente Trial	NCT05555123	NA
Crosslink con Database	Informazioni di salute di MedlinePlus: https://medlineplus.gov/ency/article/000597.htm	HighWire - PDF: http://bjo.bmj.com/cgi/pmidlookup?view=long&pmid=3756122; PubMed Central Europe: http://europepmc.org/abstract/MED/3756122; Alleanza genetica: http://www.diseaseinfosearch.org/result/143
Riconoscimenti
Fonte di finanziamento	Istituti nazionali di salute nazionale cuore, polmone e sangue Istituto	Il Minnesota Lions Club; Ricerca per prevenire la cecità; Veterans Administration; Ufficio di alcol e altre droghe abuso programmazione dello stato del Minnesota
Premio numero	R01HL123123 (per AG)	NA
Informazioni integrative/conflitto di interesse	Il dottor Grant è un portavoce pagato DrugCo.	NA
Riferimenti	4	27

Tabella 2. Modello di metadati standardizzati per caso clinico segnala, con annotazioni di esempio. Segnala un insieme di funzionalità comuni a caso clinico e facilitare le loro annotazioni a livello di concetto è illustrato di seguito. Questo modello è organizzato in tre sezioni principali: identificazione, medico contenuto e riconoscimenti, che denota lo scopo e il valore aggiunto offerto da ogni tipo di funzione di rapporto di caso. Questa tabella contiene due set di annotazioni di esempio, uno di un rapporto di caso romanzato, e un'altra serie derivata da un rapporto sulla condizione Acrodermatite enteropatica²³.

File supplementari 1. Testo di un rapporto clinico di caso (Chang et al. 2017). per favore clicca qui per scaricare questo file.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Implementazione di un modello di metadati standardizzati per CCRs può rendere loro più giusto contenuto, espandere il loro pubblico ed estendere le loro applicazioni. Seguendo l'uso tradizionale del CCRs come strumenti educativi nelle comunicazioni mediche, cure mediche apprendisti (ad es., gli studenti di medicina, stagisti e borsisti) e ricercatori in campo biomedico possono trovare che report riassuntivo caso contenuto attiva più rapida comprensione. La forza più grande di standardizzazione di metadati con CCRs, tuttavia, è che l'indicizzazione queste trasformazioni di dati altrimenti isolate osservazioni nei modelli interpretabile. Il protocollo fornito qui può servire come il primo passo in un flusso di lavoro per lavorare con CCRs, se questo flusso di lavoro è costituito da analisi epidemiologica, droga post-marketing o sorveglianza di trattamento o sondaggi più ampi di patogenesi o efficacia terapeutica. Strutturato caratteristiche identificate all'interno di CCRs possono fornire una risorsa utile per i ricercatori concentrandosi sulla malattia presentazioni e trattamenti, in particolare per patologie rare. Ricercatori clinici possono trovare dati sul passato regimi di trattamento per analizzare registrati sintomi o effetti collaterali e grado di miglioramento sotto precedenti standard di cura. I dati possono anche unità di analisi più ampie di un nuovi trattamenti basati sull'efficacia, mancanza di tossicità, o gli effetti negativi o su drug targeting per le differenze di sesso, età o background genetico.

Le prestazioni fornite dai metadati strutturati sono allo stesso modo applicabile ai flussi di lavoro computazionale progettati per analizzare o modellare il linguaggio medico. Caratteristiche CCR strutturati possono anche fornire contenuto di prova delle zone dove gli autori di report possono fornire più facilmente leggibile (e in alcuni casi, leggibile). Varianza tra CCRs può derivare da una mancanza di osservazioni in modo esplicito fornite: ad es., età esatta di un paziente non può essere specificato. Allo stesso modo, i clinici possono non menzionare test se la diagnostica o i loro risultati sono stati considerati banali. Fornendo esempi di lacune necessarie per un'analisi approfondita, far rispettare la struttura il CCRs evidenzia potenziali miglioramenti. In una prospettiva più ampia, una maggiore disponibilità di dati di testo strutturati da documenti medici supporta gli sforzi (NLP) per imparare da grandi quantità di dati nell'assistenza sanitaria²⁴^,²⁵di elaborazione del linguaggio naturale.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Gli autori non hanno nulla a rivelare.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Questo lavoro è stato supportato in parte dal National Heart, Lung e Blood Institute: HL135772 R35 (a P. Ping); Istituto nazionale di scienze mediche generali: U54 GM114833 (a P. Ping, K. Watson e Wang W.); Istituto nazionale di Imaging biomedico e Bioingegneria: T32 EB016640 (di r. Bui); un regalo dalla Fondazione Hoag e Setty Dr. S.; e l'investitura del T.C. Laubisch presso la UCLA (a P. Ping).

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
a un corpus di casi clinici	n/a	n/a I	testi completi dei casi clinici sono accessibili tramite PubMed (ad esempio, utilizzando la query di ricerca "Case Reports"[Filtro]), altri database di citazioni come Europe PMC (https://europepmc.org/) o direttamente tramite editori.

È possibile accedere

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

The role of serendipity in drug discovery. Dialogues in Clinical Neuroscience. 8 (3), 335-344 (2006).">Ban, T. A. The role of serendipity in drug discovery. Dialogues in Clinical Neuroscience. 8 (3), 335-344 (2006).
Advancing medicine one research note at a time: the educational value in clinical case reports. BMC Research Notes. 5 (1), 293(2012).">Cabán-Martinez, A. J., García-Beltrán, W. F. Advancing medicine one research note at a time: the educational value in clinical case reports. BMC Research Notes. 5 (1), 293(2012).
In Defense of Case Reports and Case Series. Annals of Internal Medicine. 134 (4), 330(2001).">Vandenbroucke, J. P. In Defense of Case Reports and Case Series. Annals of Internal Medicine. 134 (4), 330(2001).
The storied case report. Canadian Medical Association Journal. 171 (6), 569-570 (2004).">Bayoumi, A. M. The storied case report. Canadian Medical Association Journal. 171 (6), 569-570 (2004).
Méthode pour prévenir la rage après morsure. Comptes rendus de l'Académie des Sciences. 101, 765-774 (1885).">Pasteur, L. Méthode pour prévenir la rage après morsure. Comptes rendus de l'Académie des Sciences. 101, 765-774 (1885).
Louis Pasteur and Rabies: a brief note. Journal of Neurology, Neurosurgery & Psychiatry. 73 (1), 82-82 (2002).">Pearce, J. Louis Pasteur and Rabies: a brief note. Journal of Neurology, Neurosurgery & Psychiatry. 73 (1), 82-82 (2002).
PENICILLIN IN THE TREATMENT OF INFECTIONS. Journal of the American Medical Association. 122 (18), 1217(1943).">Keefer, C. S., Blake, F. G., Marshall, E. K. J., Lockwood, J. S., Wood, W. B. J. PENICILLIN IN THE TREATMENT OF INFECTIONS. Journal of the American Medical Association. 122 (18), 1217(1943).
New journals for publishing medical case reports. Journal of the Medical Library Association JMLA. 104 (2), 146-149 (2016).">Akers, K. G. New journals for publishing medical case reports. Journal of the Medical Library Association JMLA. 104 (2), 146-149 (2016).
The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3, 160018(2016).">Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3, 160018(2016).
HL7 Version 3-An object-oriented methodology for collaborative standards development. International Journal of Medical Informatics. 48 (1-3), 151-161 (1998).">Beeler, G. W. HL7 Version 3-An object-oriented methodology for collaborative standards development. International Journal of Medical Informatics. 48 (1-3), 151-161 (1998).
http://hl7.org/implement/standards/fhir/ (2018).">HL7 FHIR Release 3 (STU; v3.0.1-11917). , Available from: http://hl7.org/implement/standards/fhir/ (2018).
LOINC, a Universal Standard for Identifying Laboratory Observations: A 5-Year Update. Clinical Chemistry. 49 (4), 624-633 (2003).">McDonald, C. J. LOINC, a Universal Standard for Identifying Laboratory Observations: A 5-Year Update. Clinical Chemistry. 49 (4), 624-633 (2003).
https://www.cdc.gov/nchs/data/icd/10cmguidelines_fy2018_final.pdf (2017).">CDC/National Center for Health Statistics ICD-10-CM Official Guidelines for Coding and Reporting. , Available from: https://www.cdc.gov/nchs/data/icd/10cmguidelines_fy2018_final.pdf (2017).
Development of an electronic public health case report using HL7 v2.5 to meet public health needs. Journal of the American Medical Informatics Association. 17 (1), 34-41 (2010).">Rajeev, D., et al. Development of an electronic public health case report using HL7 v2.5 to meet public health needs. Journal of the American Medical Informatics Association. 17 (1), 34-41 (2010).
Mapping phenotypes to language: a proposal to organize and standardize the clinical descriptions of malformations. Clinical Genetics. 68 (4), 320-326 (2005).">Biesecker, L. Mapping phenotypes to language: a proposal to organize and standardize the clinical descriptions of malformations. Clinical Genetics. 68 (4), 320-326 (2005).
CARE guidelines for case reports: explanation and elaboration document. Journal of Clinical Epidemiology. 89, 218-235 (2017).">Riley, D. S., et al. CARE guidelines for case reports: explanation and elaboration document. Journal of Clinical Epidemiology. 89, 218-235 (2017).
Coreference annotation and resolution in the Colorado Richly Annotated Full Text (CRAFT) corpus of biomedical journal articles. BMC Bioinformatics. 18 (1), 372(2017).">Cohen, K. B., et al. Coreference annotation and resolution in the Colorado Richly Annotated Full Text (CRAFT) corpus of biomedical journal articles. BMC Bioinformatics. 18 (1), 372(2017).
Evaluating temporal relations in clinical text: 2012 i2b2 Challenge. Journal of the American Medical Informatics Association. 20 (5), 806-813 (2013).">Sun, W., Rumshisky, A., Uzuner, O. Evaluating temporal relations in clinical text: 2012 i2b2 Challenge. Journal of the American Medical Informatics Association. 20 (5), 806-813 (2013).
Mayo clinical Text Analysis and Knowledge Extraction System (cTAKES): architecture, component evaluation and applications. Journal of the American Medical Informatics Association. 17 (5), 507-513 (2010).">Savova, G. K., et al. Mayo clinical Text Analysis and Knowledge Extraction System (cTAKES): architecture, component evaluation and applications. Journal of the American Medical Informatics Association. 17 (5), 507-513 (2010).
CLAMP - a toolkit for efficiently building customized clinical natural language processing pipelines. Journal of the American Medical Informatics Association. 25 (3), 331-336 (2018).">Soysal, E., et al. CLAMP - a toolkit for efficiently building customized clinical natural language processing pipelines. Journal of the American Medical Informatics Association. 25 (3), 331-336 (2018).
HL7 FHIR: An Agile and RESTful approach to healthcare information exchange. Proceedings of the 26th IEEE International Symposium on Computer-Based Medical Systems. , 326-331 (2013).">Bender, D., Sartipi, K. HL7 FHIR: An Agile and RESTful approach to healthcare information exchange. Proceedings of the 26th IEEE International Symposium on Computer-Based Medical Systems. , 326-331 (2013).
Human Infection with Burkholderia thailandensis, China, 2013. Emerging Infectious Diseases. 23 (8), 1416-1418 (2013).">Chang, K., et al. Human Infection with Burkholderia thailandensis, China, 2013. Emerging Infectious Diseases. 23 (8), 1416-1418 (2013).
Ocular histopathology of acrodermatitis enteropathica. British Journal of Ophthalmology. 70 (9), 662-667 (1986).">Cameron, J. D., McClain, C. J. Ocular histopathology of acrodermatitis enteropathica. British Journal of Ophthalmology. 70 (9), 662-667 (1986).
Natural Language Processing and the Promise of Big Data. Circulation: Cardiovascular Quality and Outcomes. 8 (5), 463-465 (2015).">Maddox, T. M., Matheny, M. A. Natural Language Processing and the Promise of Big Data. Circulation: Cardiovascular Quality and Outcomes. 8 (5), 463-465 (2015).
Natural language processing systems for capturing and standardizing unstructured clinical information: A systematic review. Journal of Biomedical Informatics. 73, 14-29 (2017).">Kreimeyer, K., et al. Natural language processing systems for capturing and standardizing unstructured clinical information: A systematic review. Journal of Biomedical Informatics. 73, 14-29 (2017).

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Un approccio di estrazione di metadati per rapporti clinici di caso attivare avanzato la comprensione dei concetti biomedicale

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles