$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Rapporti di caso clinici (CCRs) sono un mezzo fondamentale di condividere le osservazioni e le intuizioni in medicina. Questi servono come un meccanismo di base di comunicazione e di formazione per medici e studenti di medicina. Storicamente, CCRs hanno fornito anche account di malattie emergenti, loro trattamenti e loro ambiti di provenienza genetici1,2,3,4. Ad esempio, il primo trattamento della rabbia umana da Louis Pasteur nel 18855,6 e la prima applicazione di penicillina in pazienti7 erano entrambi segnalati attraverso CCRs. CCRs più di 1,87 milioni sono stati pubblicati a partire da aprile 2018, con oltre mezzo milione nell'ultimo decennio; riviste stanno continuando a fornire nuove sedi per questi rapporti8. Ma pur sempre unica nella forma e nel contenuto, CCRs contengono dati di testo sono in gran parte non strutturati, contengono un vasto vocabolario e riguardano fenomeni interconnessi, limitando il loro utilizzo come risorsa strutturata. È necessario uno sforzo significativo per estrarre metadati dettagliati (cioè, "dati sui dati", o in questo caso, le descrizioni del contenuto del documento) da CCRs e stabilire come un dati trovabili, accessibile, interoperabili e riutilizzabili (FAIR)9 risorsa.
Qui, descriviamo un processo per l'estrazione di testo e i valori numerici per standardizzare la descrizione di concetti specifici biomedicale all'interno CCRs pubblicati. Questa metodologia include un modello di metadati per guidare l'annotazione; vedere la Figura 1 per una panoramica di questo processo. Applicazione del processo di annotazione ad una vasta collezione di report (ad esempio, diverse migliaia di un tipo specifico di presentazione della malattia) consente il montaggio di un insieme di testi clinici con annotazioni, gestibile e strutturato raggiungimento leggibile dal computer documentazione e fenomeni biomedici incorporato all'interno di ogni presentazione clinica. Anche se i formati di dati quali quelli forniti da HL7 (ad es., versione 3 di messaggistica Standard10 o la veloce Healthcare Interoperability Resources [Simone]11), LOINC12e revisione 10 della statistica internazionale Classificazione delle malattie e dei problemi sanitari correlati (ICD-10)13 offrono gli standard per la descrizione e lo scambio di osservazioni cliniche, non catturano il testo che circonda questi dati, né intendono a. I risultati della nostra metodologia sono meglio utilizzati per imporre struttura il CCRs e facilitare la successiva analisi, normalizzazione attraverso vocabolari controllati e sistemi di codifica (ad es., ICD-10), e/o conversione nei formati di dati clinici sopra elencati .
CCRs di data mining è un'area attiva di lavoro all'interno di informatica biomedica e clinica. Anche se precedenti proposte di standardizzare la struttura dei rapporti di caso (ad es., utilizzando HL7 v 2.514 o standardizzata fenotipo terminologia15) sono lodevoli, è probabile che CCRs continuerà a seguire una varietà di diversi forme di linguaggio naturale e layout di documento, come essi hanno per gran parte del secolo scorso. In condizioni ideali, gli autori dei nuovi rapporti di caso seguire cura orientamenti16 per assicurarsi che siano complete. Approcci sensibili al linguaggio naturale e la sua relazione a concetti medici possono quindi essere più efficaci nel lavoro con report nuovi e archiviati. Risorse come mestiere17 e quelli produssero da informatica per integrare la biologia e la curatela di18 comodino (i2b2) sostenere approcci di natural language processing (NLP) ancora non lo fanno in particolare focus su CCRs o narrazioni cliniche. Allo stesso modo, medicali strumenti di PNL come cTAKES19 e morsetto20 sono stati sviluppati ma generalmente identificano specifiche parole o frasi (cioè, entità) all'interno di documenti piuttosto che i concetti generali comunemente descritti in CCRs.
Abbiamo progettato un modello di metadati standardizzati per funzionalità comunemente incluse all'interno di CCRs. Questo modello definisce caratteristiche per imporre struttura il CCRs — un precursore essenziale per i confronti approfonditi del contenuto del documento-ancora permette una flessibilità sufficiente per mantenere il contesto semantico. Anche se abbiamo progettato il formato associato questo modello da essere adatte sia annotazione manuale e computazionalmente assistita text mining, abbiamo garantito che è particolarmente facile da usare per annotatori manuale. Il nostro approccio differisce notevolmente da più intricate (e, quindi, meno ricercatori immediatamente comprensibili all'inesperto) quadri come Simone21. Il seguente protocollo viene descritto come isolare le caratteristiche dei documenti corrispondenti a ciascun tipo di dati di modello, con un singolo set di valori corrispondenti a quelli di un singolo CCR.
I tipi di dati all'interno del modello sono quelli più descrittivo per CCRs e focalizzata sul paziente documenti medici in generale. Annotazione di queste caratteristiche promuove findability, accessibilità, interoperabilità e riusabilità del testo CCR, principalmente mediante l'assegnazione di struttura. I tipi di dati sono in quattro categorie generali: annotazione e documento di identificazione, identificazione del rapporto di caso (cioè, proprietà a livello di documento), concetti contenuti medici (principalmente a livello di concetto proprietà) e riconoscimenti (cioè funzionalità fornendo la prova di finanziamento). In questo processo di annotazione, ogni documento contiene il testo completo di un CCR, omettendo qualsiasi materiale di contenuto documento indipendente per il caso (ad es., protocolli sperimentali). CCRs sono generalmente meno di 1.000 parole ciascuno; un corpus unico dovrebbe idealmente essere indicizzato dallo stesso database bibliografico ed essere nella stessa lingua scritta.
Il prodotto dell'approccio descritto qui, quando applicato a un corpus CCR, è un insieme strutturato di testo clinico con annotazioni. Mentre questa metodologia può essere eseguita completamente manualmente ed è stata progettata per essere eseguito da esperti di dominio senza alcuna esperienza informatica, integra gli approcci di elaborazione del linguaggio naturale sopra specificati e fornisce i dati appropriati per analisi computazionale. Tali analisi possono essere di interesse per il pubblico di ricercatori di là di coloro che leggono frequentemente CCRs, tra cui:
- chi si occupa di malattia presentazioni, loro symptomology chiave, usuali approcci diagnostici e trattamenti
- coloro che desiderano confrontare i risultati dei test clinici con gli eventi descritti nella letteratura clinica, potenzialmente fornire ulteriori osservazioni e maggiore potenza statistica.
- bioinformatica, informatica biomedica e i ricercatori di scienza di computer che richiedono il set di dati del linguaggio medico strutturato o intese ad alto livello delle narrazioni medicale
- I ricercatori di politica di governo incentrato sulla sperimentazione clinica come meglio possono riflettere come la diagnosi ed il trattamento come esso si verifica in realtà
Far rispettare la struttura il CCRs può supportare numerosi successivi sforzi per comprendere meglio sia il linguaggio medico e biomedicali fenomeni.