A Metadata Extraction Approach for Clinical Case Reports to Enable Advanced Understanding of Biomedical Concepts

John Harry Caufield; David A. Liem; Anders O. Garlid; Yijiang Zhou; Karol Watson; Alex A. T. Bui; Wei Wang; Peipei Ping

doi:10.3791/58392

JoVE Journal > Medicine

Please note that all translations are automatically generated. Click here for the English version.

Medicine

Un enfoque de extracción de metadatos de informes clínicos del caso permitir avanzada comprensión de los conceptos biomédicos

Published: September 20, 2018

doi:

10.3791/58392

John Harry Caufield², David A. Liem^2,3, Anders O. Garlid², Yijiang Zhou, Karol Watson³, Alex A. T. Bui^5,6,7, Wei Wang^7,8,9, Peipei Ping^2,3,7,8

Summary

Presentamos un protocolo y una plantilla de metadatos asociado para la extracción de texto que describe conceptos biomédicos en reportes de casos clínicos. Los valores de texto estructurado producidos a través de este protocolo pueden apoyar el análisis de miles de historias clínicas.

Abstract

Informes de casos clínicos (CCRs) son un medio valioso de compartir observaciones y conocimientos en medicina. Varía la forma de estos documentos y su contenido incluye descripciones de la enfermedad nuevos numerosos, presentaciones y tratamientos. Hasta el momento, los datos de texto dentro de CCRs están en gran parte no estructurados, que requiere considerable esfuerzo humano y computacional para procesar estos datos útiles para el análisis profundizado. En este protocolo, se describen métodos para la identificación de metadatos correspondientes a conceptos biomédicos específicos observados con frecuencia dentro de CCRs. Proporcionamos una plantilla de metadatos como guía para la anotación del documento, reconociendo que imponer estructura a los CCRs puede ser perseguido por combinaciones de esfuerzo manual y automatizado. El enfoque presentado aquí es apropiado para la organización del texto relacionado con el concepto de un corpus de literatura grande (por ejemplo, miles de CCRs) pero puede ser fácilmente adaptado para facilitar más enfocadas tareas o pequeños conjuntos de informes. Los datos resultantes del texto estructurado incluyen suficiente contexto semántico para apoyar una variedad de flujos de trabajo de análisis texto subsiguiente: detalle de metanálisis para determinar cómo maximizar el CCR, los estudios epidemiológicos de las enfermedades raras y el desarrollo de modelos de lengua médica se puede todos hacer más realizable y manejable mediante el uso de datos de texto estructurado.

Introduction

Informes de casos clínicos (CCRs) son un medio fundamental de compartir observaciones y conocimientos en medicina. Éstos sirven como un mecanismo básico de comunicación y educación para los médicos y estudiantes de medicina. Históricamente, los CCRs también han proporcionado cuentas de enfermedades emergentes, sus tratamientos y sus fondos genéticos¹^,²^,³^,⁴. Por ejemplo, el primer tratamiento de la rabia humana por Louis Pasteur en 1885⁵^,⁶ y la primera aplicación de la penicilina en pacientes⁷ informaron a través de CCRs. Más de 1,87 millones de CCRs se han publicado a partir de abril de 2018, con más de medio millón en la última década; revistas siguen proporcionar nuevos espacios para estos informes⁸. Aunque único en forma y contenido, CCRs contienen datos de texto que son en gran parte no estructurados, contienen un vasto vocabulario y refieren a fenómenos relacionados entre sí, limitando su uso como recurso estructurado. Se requiere esfuerzo significativo para extraer metadatos detallados (es decir, “datos sobre datos”, o en este caso, las descripciones del contenido del documento) de CCRs y establecerlas como dato encontrable, accesible, interoperables y reutilizables (Feria)⁹ recursos.

Aquí, describimos un proceso para la extracción de texto y valores numéricos para estandarizar la descripción de conceptos biomédicos específicos dentro de CCRs publicados. Esta metodología incluye una plantilla de metadatos para guiar la anotación; Vea la figura 1 para un resumen de este proceso. Aplicación del proceso de anotación de una gran colección de informes (por ejemplo, varios miles de un tipo específico de presentación de la enfermedad) permite el montaje de un conjunto manejable y estructurado de textos clínicos anotados, logrando legible por la máquina documentación y fenómenos biomédicos integrado en cada presentación clínica. Aunque los formatos de datos como los proporcionados por HL7 (e.g., versión 3 de la mensajería estándar¹⁰ o el Fast Healthcare interoperabilidad recursos [FHIR]¹¹), LOINC¹²y 10 revisión de la estadística internacional Clasificación de enfermedades y problemas de salud relacionados (ICD-10)¹³ proporcionar estándares para la descripción y el intercambio de observaciones clínicas, no capturan el texto que rodea a estos datos, ni tampoco. Los resultados de nuestra metodología se utilizan mejor estructura de CCRs y facilitar el posterior análisis, normalización a través de vocabularios controlados y sistemas de codificación (e.g., CIE-10), o conversión a los formatos de datos clínicos mencionados .

CCRs de minas es un área activa de trabajo en Informática Biomédica y clínica. Aunque anteriores propuestas para estandarizar la estructura de informes del caso (por ej., usando HL7 v2.5¹⁴ o estandarizado fenotipo terminología¹⁵) son loables, es probable que CCRs seguirá una variedad de diferentes formas de lenguaje natural y diseños de documento, ya que tiene gran parte del siglo pasado. En condiciones ideales, los autores de nuevos informes del caso seguir cuidado directrices¹⁶ para asegurarse de que son integrales. Enfoques sensibles al lenguaje natural y su relación a los conceptos médicos por lo tanto pueden ser más eficaces en el trabajo con nuevos informes archivados. Recursos como arte¹⁷ y los producción por la informática para la integración de la biología y el comisariado de cabecera (i2b2)¹⁸ apoyar enfoques de procesamiento del lenguaje natural (NLP) aunque no específicamente enfocado CCRs o relatos clínicos. Del mismo modo, médicos herramientas de PNL como cTAKES¹⁹ y²⁰ de la abrazadera se han desarrollado pero generalmente identifican palabras específicas o frases (es decir, entidades) en documentos en lugar de los conceptos generales que se describe comúnmente en CCRs.

Hemos diseñado una plantilla de metadatos normalizados para las características comúnmente incluidos en los CCRs. Esta plantilla define funciones para imponer estructura a los CCRs, un precursor esencial para las comparaciones de profundidad del contenido del documento-aún permite la flexibilidad suficiente para mantener el contexto semántico. Aunque hemos diseñado el formato asociado a esta plantilla es apropiada para la anotación manual y minería de texto de ayuda de cómputo, nos hemos asegurado es particularmente fácil de usar para anotadores manual. Nuestro enfoque difiere perceptiblemente de más complejos (y, por lo tanto, menos inmediatamente comprensible para inexpertos investigadores) marcos como FHIR²¹. El siguiente protocolo describe cómo aislar características de documentos correspondiente a cada tipo de datos de plantilla, con un único conjunto de valores correspondientes a los de un CCR solo.

Los tipos de datos dentro de la plantilla son los más descriptivos de CCRs y documentos médicos centrada en el paciente en general. Anotación de estas características promueve la encontrabilidad, accesibilidad, interoperabilidad y reutilización del texto CCR, sobre todo dándole estructura. Los tipos de datos son en cuatro categorías generales: identificación del documento y anotación, identificación de informe del caso (es decir, propiedades de nivel de documento), conceptos contenidos médicos (sobre todo a nivel de concepto propiedades) y reconocimientos (es decir, características proporcionando evidencia de financiación). En este proceso de anotación, cada documento incluye el texto completo de un CCR, omitiendo cualquier material de contenido de documento independiente para el caso (por ejemplo, protocolos experimentales). CCRs son generalmente menos de 1.000 palabras cada uno; un corpus único ideal debe ser indexado por la misma base de datos bibliográfica y en el mismo lenguaje escrito.

El producto de lo descrito aquí, cuando está aplicado a un corpus CCR, es un conjunto estructurado de texto clínico anotado. Si bien esta metodología puede realizarse de forma completamente manual y ha sido diseñada para ser realizado por expertos de dominio sin experiencia informática, complementa los métodos de procesamiento del lenguaje natural mencionados y proporciona los datos apropiados para Análisis computacional. Tales análisis pueden ser de interés para el público de los investigadores más allá de aquellos que leen con frecuencia CCRs, incluyendo:

los interesados con presentaciones de la enfermedad, su sintomatología clave, generalmente enfoques diagnóstico y tratamientos
aquellos que deseen comparar los resultados de los ensayos clínicos con los acontecimientos descritos en la literatura clínica, potencialmente proporcionando observaciones adicionales y una mayor potencia estadística.
Bioinformática, Informática Biomédica y los investigadores de ciencia de computadora que requieren conjuntos de datos de lenguaje médico estructurado o alto nivel comprensión de relatos médicos
Investigadores de la política de gobierno centrado en ensayos clínicos cómo mejor pueden reflejar cómo el diagnóstico y el tratamiento que se produce en realidad

Aplicación de estructura de CCRs puede soportar numerosos esfuerzos subsecuentes para entender mejor la lengua médica y fenómenos biomédicos.

Protocol

1. en el documento y la identificación de la anotación Nota: Los valores en esta categoría apoyar el proceso de anotación. Utilizando la plantilla de anotación, proporcionar que un identificador específico de metadatos establece, por ejemplo, Case123. El formato del identificador debe ser coherente durante todo el proyecto (por ejemplo, Case001 a través de Case500). Especificar la fecha en que un documento fue leído y anotado. Usan un formato parecido a “10 de enero de 2018” coherencia y legibilidad. 2. caso informe identificación Nota: Valores en esta categoría ofrecen funciones de nivel de documento y contribuyan a la encontrabilidad de un documento. Ser coherente con el formato de cada campo a través de todas las anotaciones, por ejemplo, los valores deben estar separados por punto y coma sin espacios siguientes en todas las entradas. Utilice formatos idénticos a los utilizados en el documento original o los utilizan en una base de datos bibliográfica como MEDLINE. Proporcionar el título del documento. Proporcionar los nombres de todos los autores del documento en el orden proporcionado. Normalizar el formato de todos los nombres, que todos los nombres de adoptan la forma de un solo apellido seguido por cualquier número de las iniciales, por ejemplo Jane B. Park se convierte Parque JB. No incluyen títulos. Separar a múltiples autores con punto y coma sin signos de puntuación adicional, que John A. Smith, Jane B. Park toma una forma de Smith JA; Parque JB. Proporcionar el año de publicación del documento. Proporcionar el título completo de la revista en que fue publicado el documento. Se proporciona una lista de nombres de diarios controlados por el catálogo de NLM (https://www.ncbi.nlm.nih.gov/nlmcatalog). Proporcionar la dirección de la institución de los autores del documento, tal como se especifica en el documento. Esto puede incluir departamentos, ubicación geográfica y datos de dirección postal. Si se proporcionan varias ubicaciones (por ejemplo, si afiliaciones difieren entre autores), especifique solo detalles por el autor. Si un autor no puede ser identificado, utilice del primer autor, o no se especifica una institución. Si un autor tiene afiliaciones múltiples, especificar ambos y se separan con un punto y coma. Proveer al autor del documento, tal como se especifica en el encabezado del documento utilizando el mismo formato que el utilizado en el tipo de datos de autores. Proporcionar un identificador del documento (por ejemplo, un PMID). Proporcionar un identificador Digital de objeto, cuando sea posible y disponible, puede ser resuelto en el documento URL (mediante https://www.doi.org/), no un PubMed Central página. Proporcionar una dirección URL estable para el texto completo del documento, si está disponible. Para maximizar la accesibilidad, esto puede referirse a la versión de PubMed Central. Proporcionar el lenguaje del documento. De documentos en varios idiomas, ambos, separados por un punto y coma. 3. médico contenido Nota: Valores en esta categoría identifican características de nivel de documento, nivel de concepto y nivel del texto. Sirven para mejorar la accesibilidad, interoperabilidad y reutilización de un documento. Estas características proporcionan maneras de observar similitudes conceptuales y semánticas entre el contenido del documento, con un enfoque en temas biomédicos y eventos. Mayoría de las categorías en esta sección puede incluir múltiples sentencias de texto y cada uno debe estar separado con punto y coma. Incluir detalles contextuales en cada campo (por ejemplo, “la madre tenía cáncer de mama a los 50 años”) en lugar de proporcionar sólo los términos de un vocabulario controlado (por ejemplo, no “cáncer de mama” solo). No incluyen el detalle extenso más allá de cada observación. Omitir palabras comúnmente repetidas y frases (por ejemplo, pronombres, el palabra “paciente” y frases “se quejó de la” o “regaló”). Aunque la subjetividad a través de varios anotadores es probable, puede reducirse por tener varios anotadores para cada documento y a través de la normalización automática después de la recolección de datos. Enfoques post procesados computacionales puede variar por necesidades de análisis posteriores y no se discuten aquí en detalle. Proporcione la siguiente información en la plantilla de anotación. Proporcionar términos específicos identificados dentro de un documento, generalmente en su encabezado, como términos clave. Separar con un punto y coma como términos pueden incluir otros signos de puntuación. Proporcionar los valores demográficos, específicamente ninguna declaración de texto que describe los antecedentes del paciente, incluyendo sexo y/o género, edad, etnia o nacionalidad. Proporcionar lugares geográficos mencionados en el relato clínico, distintas direcciones específicas de la institución. Esto no debe incluir piezas de localizaciones anatómicas, pero puede incluir cualquier localidad geográfica donde el paciente reside o viaja. Proporcionar los valores de estilo de vida, incluyendo cualquier texto que describe actividades paciente frecuentes o conductas relevantes para su salud general. En la práctica, esto con frecuencia implica fumar o los hábitos de consumo de alcohol, pero también puede incluir exposición al sol, dieta o la frecuencia de determinados tipos de actividad física. Proporcionar los valores de la historia médica refiriéndose a antecedentes familiares. Incluir cualquier texto declaraciones que describen observaciones clínicas de y eventos experimentados por hermanos, padres y otros miembros de la familia. Esto incluye condiciones genéticas y las observaciones negativas (es decir, antecedentes familiares eran negativos para una enfermedad). Proporcionar los valores referentes a la historia Social, incluyendo cualquier texto que describe el paciente antecedentes no cubiertos en demografía o estilo de vida. Puede haber superposiciones de contenido entre estas categorías. Las declaraciones pueden incluir historia ocupacional y hábitos sociales. Proporcionar los valores referentes a la historia médica y quirúrgica del paciente. Incluir ninguna declaración de texto que describen observaciones médicas, tratamientos y otros eventos que tienen lugar antes del comienzo de la presentación clínica. Esto incluye la historia obstétrica y los períodos de buena salud, donde se. Especifique uno o más de las siguientes categorías del sistema de la 16 enfermedad. Tenga en cuenta que estos valores son categóricos en lugar de texto libre. Categorías no son exhaustivas pero deben indicar la mayoría de los sistemas afectada por los eventos descritos en la presentación clínica y diagnostican de enfermedad. Seguir un conjunto específico de categorías, basadas en las categorías utilizado en la Clasificación Estadística Internacional de enfermedades y problemas relacionados de salud, revisión 10 (CIE-10) código sistema. Vea la tabla 1 para la lista de categorías del sistema de la enfermedad junto con los correspondientes rangos de código CIE-10. Proporcionar detalles de todos los signos y síntomas de. Incluir ninguna declaración de texto que describe las observaciones médicas de signos o síntomas comenzando en la presentación inicial, incluyendo su inicio, duración, severidad y resolución, siempre que. No incluyen síntomas descritos en el documento final. Estos valores pueden superponerse con otros tipos, si los síntomas persisten de la historia a la presentación inicial. Proporcionar los detalles de cualquier comorbilidad. Incluyen términos ni frases describiendo las distintas enfermedades presentes en el momento de la presentación clínica inicial. Hay probabilidades de traslapo entre estos valores y los de historia clínica, aunque la comorbilidad no debe incluir términos idénticos a los de la Diagnosis. Proporcionar los detalles de todas las técnicas de diagnóstico y procedimientos. Incluir los nombres de procedimientos médicos para propósitos de diagnóstico, como exámenes, pruebas y la proyección de imagen, así como las condiciones bajo las cuales estas pruebas fueron realizadas y las localizaciones anatómicas (p. ej., “de la extremidad superior venosa ultrasonido”). Excluir resultados de la prueba. Proporcionar información de diagnóstico. Incluir ninguna declaración de texto que describe la diagnosis de la enfermedad, aunque el diagnóstico final es ambiguo. Proporcionar todos los valores de laboratorio y resultados de la prueba. Incluir nombres de pruebas de diagnóstico, sus valores y las condiciones bajo las cuales se realizaron. Esto implicará traslapo con los términos utilizados en las técnicas de diagnóstico y tipo de datos de procedimientos. Valores numéricos y cualitativos (por ejemplo, cuenta de sangre completa estaba dentro de límites normales) son aceptables. Si no se proporcionan los nombres de las pruebas de diagnóstico, utilizar términos que describen los resultados (p. ej., leucopenia), aunque también deben ser incluidas en los signos y síntomas. Proporcionan detalles de la patología. Incluir ninguna declaración de texto que describe los resultados de los estudios de patología e histología, incluidos los estudios de patología, Inmunología y microscopia brutos. Términos pueden superponerse con los que se utilizan en las técnicas de diagnóstico y procedimientos (paso 3.11), por ejemplo, con los procedimientos realizados para obtener muestras de biopsia. Proporcionar todas las terapias farmacológicas. Incluir ninguna declaración de texto que describe los tratamientos farmacológicos utilizados en el curso de tratamiento, incluyendo condiciones generales tales como antibióticos o drogas específicas nombres. También, se incluyen descripciones de cómo y cuándo fueron detenidos los tratamientos farmacológicos. Proporcionar todos los procedimientos intervencionistas. Incluir ninguna declaración de texto que describe los procedimientos terapéuticos utilizados en el curso de tratamiento, incluyendo procedimientos invasivos, implantación de dispositivos médicos y procedimientos para facilitar otros tratamientos. También, incluyen descripciones de Cuándo y cómo fueron parados curso procedimientos terapéuticos, si es necesario. Proporcionar los resultados de los pacientes. Incluir ninguna declaración de texto que describe la salud del paciente a partir del final de la presentación clínica que se describe en el informe, incluyendo las pruebas de seguimiento. Proporcionar cuentas de imágenes diagnósticas, figuras, videos/animaciones y tablas. Incluyen todos los cargos de medios visuales, incluidos en el informe, en el siguiente formato: número de imágenes; Conteo de figuras; Cuenta de videos o animaciones; Recuento de mesas. Distinguir entre las imágenes y figuras de esta manera: imágenes incluyen los productos de diagnóstico clínico, incluyendo fotografías, micrografías, Electrocardiograma ritmo imágenes y otros productos de diagnóstico por la imagen, mientras que las figuras son todas las otras imágenes, generalmente incluyendo datos diagramas e ilustraciones. Proporcionan evidencia de las relaciones a otros CCRs. Este campo puede incluir identificadores (por ejemplo, PMIDs) de otros informes en el conjunto de datos citados por o hacer referencia a este informe. Proporcionan evidencia de las relaciones a los ensayos clínicos. Este campo puede incluir identificadores de ensayos clínicos citando este CCR. Identificar los ensayos por sus identificadores de ClinicalTrials.gov, precedidos por NCT, u otro identificador estable. Incluyen vínculos cruzados de base de datos correspondiente a este documento, incluyendo identificadores, preferiblemente como nombres de base de datos y estable URLs. 4. Agradecimientos Notas: Los valores en esta categoría identifican características de nivel de documento pero tienen poca estructura coherente a través de publicaciones. Proporcionan detalles con respecto a las organizaciones de apoyo para un CCR y trabajos relacionados. Esta categoría también incluye un campo para el recuento total de referencias en un artículo: esto está destinado a proporcionar una métrica aproximada del grado en que un documento tiene relaciones conceptuales con otros documentos biomédicos de cualquier tipo. Dentro de los cuatro tipos de datos en esta sección, proporcionar lo siguiente. Especificar todas las fuentes de financiamientos apoya el trabajo y sus correspondientes PI así como números de concesión pertinente. El primer valor, fuente de financiamiento, debe incluir los nombres de todas las organizaciones de apoyo financiero para el trabajo. Organizaciones separadas con punto y coma y los espacios, por ejemplo, Nacional institutos de Salud/Instituto a nacional del cáncer; DOE; Fundación Parque Smith . Para el siguiente valor de concesión número, especifique cualquier premio números o designaciones específicas proporcionadas junto con los ganadores de los premios, en su caso, como las iniciales de los destinatarios en paréntesis, por ejemplo, R01HL123123 (a JP) , NS12312 (a JP, JS), beca de investigación en formación (a JS). Autores pueden de forma explícita que no hay información correspondiente está disponible (por ejemplo, “no hay financiación fue recibida”); en estos casos, utilizar el texto proporcionado por los autores como el valor de la fuente de financiación. De lo contrario, el valor debe ser na Especificar accesos/conflictos de interés según lo especificado por los autores, por ejemplo, JP es un consultor para DrugCo. Autores pueden de forma explícita que no hay información correspondiente está disponible (por ejemplo, “no hay conflicto de intereses es declarado”); en estos casos, utilizar el texto proporcionado por los autores como conflicto y revelaciones del valor de interés. De lo contrario, que el anterior, el valor debe ser na Especifique un recuento numérico de todas las referencias citadas por el documento, no incluyendo los previstos en cualquier material adicional. No hay texto de referencia se debe incluir en este campo.

Representative Results

En la figura 2se muestra un ejemplo del proceso de anotación. Este caso22 describe una presentación de la infección por el patógeno bacterial Burkholderia thailandensis. Para referencia, la porción relevante de este CCR se ofrece en formato de texto plano en 1 archivo suplementario; algunos resultados de la investigación también se presentan en este informe y se incluyen para su comparación. En la práctica, la conversión de informes en formato HTML o PDF a texto plano puede mejorar la eficiencia y la facilidad de extracción de metadatos. Ejemplos de los dos conjuntos de anotaciones de metadatos CCR completadas se encuentran en la tabla 2. El primero de estos ejemplos es falso datos para ilustrar el formato ideal de cada valor, mientras que el segundo ejemplo contiene valores extraídos de una CCR publicado en una condición rara, acrodermatitis enteropática23. Figura 1. Flujo de trabajo para informe del caso anotación. El protocolo descrito aquí proporciona un método para la identificación de características textuales con frecuencia presentes en los informes clínicos del caso. Este proceso requiere de un corpus de documentos. El producto del proceso de anotación, una vez acumulado en un solo archivo, permite la identificación de características del texto asociado a conceptos médicos y sus descripciones en los informes del caso. Haga clic aquí para ver una versión más grande de esta figura. Figura 2. Identificación del concepto específico de texto en un informe clínico del caso. Un anotador manual comenzando con el texto de un informe del caso, puede progresar a través del documento, identificando los segmentos de texto correspondiente a cada componente de la plantilla de metadatos. Características de identificación son remarcadas en azul. Texto correspondiente a los conceptos médicos es en rojo y marcados con su tipo; todo el texto resaltado en la tercera columna se refiere al tipo de patología. Haga clic aquí para ver una versión más grande de esta figura. Categoría Descripción CIE-10 Capítulo Rango de código CIE-10 cáncer Cualquier tipo de cáncer o neoplasia maligna. II C00-D49 nervioso Cualquier enfermedad del cerebro, espina dorsal o los nervios. VI G00-G99 cardiovasculares Cualquier enfermedad del corazón o del sistema vascular. No incluye enfermedades hematológicas. IX I00-I99 musculoesqueléticas y reumáticas Cualquier enfermedad de los músculos, sistema esquelético, articulaciones y tejidos conectivos. XIII M00-M99 digestivo Cualquier enfermedad del tracto gastrointestinal y órganos digestivos, incluidos el hígado y el páncreas. XI K00-K95 obstétrico y ginecológico Cualquier enfermedad relativas al embarazo, el parto, el sistema reproductor femenino o los senos. XIV; XV O00-O9A; N60-N98 infecciosas Cualquier causa de enfermedad por microorganismos infecciosos. Me A00-B99 vías respiratorias Cualquier enfermedad de los pulmones y vías respiratorias. X J00-J99 hematológicas Cualquier enfermedad de la sangre, médula ósea, ganglios linfáticos o bazo. III D50-D89 renales y urológicos Cualquier enfermedad de los riñones o la vejiga, los uréteres, así como los órganos reproductivos masculinos, incluyendo la próstata. XIV N00-N53; N99 sistema endocrino Cualquier enfermedad de las glándulas endocrinas, así como los trastornos metabólicos. IV E00-E89 oral y maxilofacial Cualquier condición que implica la boca, mandíbulas, cabeza, cara o cuello. XI; XIII K00-K14; M26 M27 ojo Cualquier condición que involucra los ojos, incluyendo ceguera. VII H00-H59 otorrinolaringológicas Cualquier condición de la oreja, nariz o garganta. VIII H60-H95; J30-J39 piel Cualquier enfermedad de la piel. XII L00-L99 raro Una categoría especial reservada para los informes de enfermedades raras, definidas como aquellas que afectan a menos de 200.000 personas en los Estados Unidos (ver https://rarediseases.info.nih.gov/diseases) NA NA Tabla 1. Categorías de la enfermedad para la anotación del documento. Las categorías enumeradas aquí son las que se utilizará para el tipo de datos del sistema de enfermedades de la plantilla de metadatos de documento. Como cada presentación de la enfermedad puede implicar varios sistemas del órgano o etiologías, un solo informe del caso clínico puede corresponder a varias categorías. Estas categorías siguen en gran parte los que se utilizan para distinguir las secciones de la Clasificación Estadística Internacional de enfermedades y problemas de salud relacionados, revisión 10 (CIE-10), código de sistema: correspondientes capítulos de la CIE-10 y gamas de código se proporcionan. Algunas categorías, como la enfermedad oral y maxilofacial , corresponden a varias secciones del sistema CIE-10. Tipo de datos Ejemplo #1 Ejemplo #2 (Cameron y McClain 1986) Documento e identificación de anotación Identificación interna CCR005 CCR2000 Fecha de la anotación 02 de marzo de 2018 01 de marzo de 2018 Informe del caso de identificación Título Un caso de endocarditis. Histopatología ocular de acrodermatitis enteropática. Autores Beca AB; CD de Chang Cameron JD; McClain CJ Año 2017 1986 Revista Mundo diario de la medicina y los informes del caso Diario británico de la oftalmología Institución Departamento de medicina, División de Cardiología, primer General Hospital, Boston, Massachusetts, Estados Unidos Departamento de Oftalmología, Facultad de medicina de la Universidad de Minnesota, Minneapolis, Minnesota 55455 Autor para correspondencia Beca AB Cameron JD PMID 25555555 3756122 DOI 10.1011/wjmcr.2017.11.001 NA Enlace https://www.ncbi.nlm.nih.gov/PMC/articles/PMC9555555/ https://www.ncbi.nlm.nih.gov/PMC/articles/PMC1040795/ Idioma Inglés Inglés Contenido médico Palabras clave brucelosis; endocarditis; de la válvula mitral NA Demografía varón de 37 años hijo varón Ubicaciones geográficas La Florida; Rio de Janeiro, Brasil NA Estilo de vida fumador; bebe alcohol de vez en cuando NA Historia de la familia tercero de cinco hijos de padres consanguíneos; hermano tiene eczema crónico NA Historia social trabajador de la construcción NA Historia médico-quirúrgica historia de la fatiga 8 libras 9 onza (3884 g) producto de un embarazo sin complicaciones, completo; en buena salud hasta la edad de 1 mes cuando él desarrolló una erupción cutánea ampollar en las mejillas; erupción extendió para implicar la piel alrededor de los ojos, nariz y boca; también se observaron lesiones de piel en el abdomen y las extremidades; diarrea y retraso del desarrollo; biopsia de la piel en ese momento mostró paraqueratosis típica de acrodermatitis enteropática; tratados en los próximos seis años con cursos intermitentes de antibióticos de amplio espectro, la leche materna y diodoquin; respondieron parcialmente; desarrollaron alopecia total, acrodermatitis intermitente y diarrea intermitente con aumento de peso subóptimo; espasticidad, atribuida a la implicación del sistema nervioso central por la ae había desarrollado por 8 meses de edad; varios episodios de paro cardiopulmonar en 11 meses; falta de coordinación de sus cuerdas vocales; cánula de traqueostomía; por los 18 meses de edad el niño desarrolló busca nistagmo asociado a atrofia óptica bilateral y leve atenuación de vasos retinianos, así como signos de retraso psicomotor; queratoconjuntivitis bilateral; erupciones en la piel; segunda biopsia de la piel realizada a los 3 años otra vez mostró paraqueratosis típica de ae; erupción cutánea severa y diarrea; bilaterales brutos anteriores opacities córneos se observaron que había resuelto totalmente en el momento en que reexaminaron a los cinco; Infecciones frecuentes, incluyendo otitis media, infecciones del tracto urinario y las infecciones de la piel Sistema de enfermedades cardiovascular; infecciosas digestivo; piel; ojo; raro Signos y síntomas palpitaciones y disnea en la semana anterior; presentó con letargo, cefalea y escalofríos blefaroconjuntivitis severa y vascularización corneal anterior bilateral; erupción cutánea severa y diarrea; sepsis bacteriana gram-negativa; lesiones cutáneas típicas de acrodermatitis enteropática, ausencia de tejido tímico, marcada degeneración de los nervios ópticos, quiasma y tractos ópticos y amplia degeneración cerebelosa Comorbilidad hipertensión; hiperlipidemia NA Procedimientos y técnicas de diagnóstico Examen físico; Electrocardiografía; culturas de la sangre examinación ocular; necropsia Diagnóstico Endocarditis de Brucella Acrodermatitis enteropática Valores de laboratorio aumento de proteína c reactiva (9 mg/dl); fosfatasa alcalina (250 u/l) NA Patología Brucella melitensis fueron cultivados de muestras de sangre ojos izquierdos y derecho eran similares en aspecto; epitelio corneal fue reducido en espesor a una a tres capas de células epiteliales escamosas aplanadas sobre toda la superficie de la córnea; toda polaridad del epitelio se perdió. la membrana de Bowman podría identificarse solamente en la periferia de la córnea derecha. la membrana de bowman, no podía ser identificada en la córnea izquierda. inflamatorios ni degenerativos pannus podrían ser identificados en cualquiera de los dos ojos; extensa atrofia de los músculos circulares y oblicuos del cuerpo ciliar; alguna migración posterior de la lente epitelio capsular y primeros cambios degenerativos corticales; amplia degeneración del epitelio pigmentario de la retina en el polo posterior; retina se une y mostraron leves cambios autolíticos. alguna preservación de rod y del cono segmentos externos en el poste posterior, sin embargo, estas estructuras fueron totalmente perdidas anterior del Ecuador; pérdida extensa del ganglio de la célula y nervio fibra capas de ambos ojos; atrofia casi completa del disco y del adyacente nervio óptico Terapia farmacológica gentamicina 240 mg iv/diarias NA Terapia de Inverventional reemplazo de la válvula protésica NA Evaluación de resultados de los pacientes la recuperación fue sin incidentes; descargada de la página de inicio murió en 1971 (7 años) Diagnóstico proyección de imagen/Video grabación 2; 1; 0; 1 7; 0; 0; 0 Relación con otros informes del caso 5555555 23430849 Relación ensayos Clinial NCT05555123 NA Reticulación con base de datos Información de salud de MedlinePlus: https://medlineplus.gov/ency/article/000597.htm HighWire – PDF: http://bjo.bmj.com/cgi/pmidlookup?view=long&pmid=3756122; Europa PubMed Central: http://europepmc.org/abstract/MED/3756122; Alianza genética: http://www.diseaseinfosearch.org/result/143 Agradecimientos Fuente de financiamiento Institutos nacionales de salud nacional o corazón, Lung and Blood Institute El Club de leones de Minnesota; Investigación para prevenir la ceguera; Administración de veteranos; Oficina de Alcohol y otras drogas abuso programación del estado de Minnesota Premio número R01HL123123 (a AG) NA Revelaciones/conflicto de intereses Dr. Grant es un vocero pagado para DrugCo. NA Referencias 4 27 Tabla 2. Informes de plantilla de metadatos estandarizados por caso clínico, con anotaciones de ejemplo. Un conjunto de características comunes al caso clínico informes y facilitando sus concepto nivel anotaciones se muestra aquí. Esta plantilla se arregla en tres secciones principales: identificación, contenido médico y reconocimientos, que denota el propósito y el valor adicional que brinda cada tipo de característica del informe del caso. Esta tabla contiene dos conjuntos de anotaciones de ejemplo, uno de un informe del caso novelado, y otro conjunto derivado de un informe sobre la condición acrodermatitis enteropática23. Archivo complementario 1. Texto de un informe clínico del caso (Chang et al. 2017). haga clic aquí para descargar este archivo.

Discussion

Implementación de una plantilla de metadatos normalizados de CCRs puede hacer su feria más contenido, ampliar su público y ampliar sus aplicaciones. Siguiendo el uso tradicional de CCRs como herramientas educativas en la comunicación médica, salud aprendices (por ejemplo, los estudiantes de medicina, pasantes y becarios) e investigadores biomédicos pueden encontrar que contenido Informe resumido del caso permite más rápida comprensión. La mayor fortaleza de la estandarización de metadatos con CCRs, sin embargo, es que indexación de lo contrario estas transformaciones de datos aislados observaciones en patrones interpretables. El protocolo que aquí puede servir como el primer paso de un flujo de trabajo para trabajar la CCRs, si este flujo de trabajo consta de análisis epidemiológico, vigilancia de tratamiento, medicamentos posterior a la comercialización o encuestas más amplias de la patogenesia o eficacia terapéutica. Estructurado elementos identificados dentro de CCRs pueden proporcionar un recurso útil para los investigadores centrarse en presentaciones de la enfermedad y tratamientos, particularmente para condiciones raras. Los investigadores clínicos pueden encontrar datos en últimos regímenes de tratamiento para analizar registrados síntomas o efectos secundarios y el grado de mejora bajo los estándares anteriores de la atención. Los datos también pueden conducir a análisis más amplio de un nuevos tratamientos basados en la eficacia, falta de efectos adversos o toxicidad, o en drogas dirigidas a las diferencias de género, edad o genética.

Los beneficios proporcionados por metadatos estructurados son igualmente aplicables a flujos de trabajo computacionales diseñados para analizar o modelo de lenguaje médico. Estructuradas características CCR también pueden proporcionar contenido evidencia de áreas donde los autores del informe pueden proporcionar más fácilmente legible por la máquina (y en algunos casos, legible). Varianza entre CCRs puede resultar de la falta de observaciones proporcionados explícitamente: por ejemplo, no se puede especificar la edad exacta del paciente. Del mismo modo, los médicos no pueden mencionar pruebas si el diagnóstico o sus resultados eran considerados triviales. Proporcionando ejemplos de espacios necesarios para un análisis profundo, aplicación de estructura de CCRs destaca mejoras potenciales. En una perspectiva más amplia, una mayor disponibilidad de datos de texto estructurado de documentos médicos apoya esfuerzos de (PNL) para aprender de los grandes datos en salud²⁴^,²⁵el procesamiento del lenguaje natural.

Disclosures

The authors have nothing to disclose.

Acknowledgements

Este trabajo fue financiado en parte por el National Heart, Lung and Blood Institute: HL135772 R35 (al P. Ping); Instituto Nacional de Ciencias de Medicina General: GM114833 U54 (a Ping P., K. Watson y W. Wang); Instituto Nacional de imágenes biomédicas y Bioingeniería: T32 EB016640 (a A. Bui); un regalo de la Fundación de Hoag y Dr. S. Setty; y la dotación de T.C. Laubisch en UCLA (al P. Ping).

Materials

A corpus of clinical case reports

n/a

Full texts of case reports may be accessed through PubMed (e.g., using the search query "Case Reports"[Filter]), other citation databases such as Europe PMC (https://europepmc.org/) or directly through publishers.

References

Ban, T. A. The role of serendipity in drug discovery. Dialogues in Clinical Neuroscience. 8 (3), 335-344 (2006).
Cabán-Martinez, A. J., García-Beltrán, W. F. Advancing medicine one research note at a time: the educational value in clinical case reports. BMC Research Notes. 5 (1), 293 (2012).
Vandenbroucke, J. P. In Defense of Case Reports and Case Series. Annals of Internal Medicine. 134 (4), 330 (2001).
Bayoumi, A. M. The storied case report. Canadian Medical Association Journal. 171 (6), 569-570 (2004).
Pasteur, L. Méthode pour prévenir la rage après morsure. Comptes rendus de l’Académie des Sciences. 101, 765-774 (1885).
Pearce, J. Louis Pasteur and Rabies: a brief note. Journal of Neurology, Neurosurgery & Psychiatry. 73 (1), 82-82 (2002).
Keefer, C. S., Blake, F. G., Marshall, E. K. J., Lockwood, J. S., Wood, W. B. J. PENICILLIN IN THE TREATMENT OF INFECTIONS. Journal of the American Medical Association. 122 (18), 1217 (1943).
Akers, K. G. New journals for publishing medical case reports. Journal of the Medical Library Association JMLA. 104 (2), 146-149 (2016).
Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3, 160018 (2016).
Beeler, G. W. HL7 Version 3-An object-oriented methodology for collaborative standards development. International Journal of Medical Informatics. 48 (1-3), 151-161 (1998).
McDonald, C. J. LOINC, a Universal Standard for Identifying Laboratory Observations: A 5-Year Update. Clinical Chemistry. 49 (4), 624-633 (2003).
. CDC/National Center for Health Statistics ICD-10-CM Official Guidelines for Coding and Reporting Available from: https://www.cdc.gov/nchs/data/icd/10cmguidelines_fy2018_final.pdf (2017)
Rajeev, D., et al. Development of an electronic public health case report using HL7 v2.5 to meet public health needs. Journal of the American Medical Informatics Association. 17 (1), 34-41 (2010).
Biesecker, L. Mapping phenotypes to language: a proposal to organize and standardize the clinical descriptions of malformations. Clinical Genetics. 68 (4), 320-326 (2005).
Riley, D. S., et al. CARE guidelines for case reports: explanation and elaboration document. Journal of Clinical Epidemiology. 89, 218-235 (2017).
Cohen, K. B., et al. Coreference annotation and resolution in the Colorado Richly Annotated Full Text (CRAFT) corpus of biomedical journal articles. BMC Bioinformatics. 18 (1), 372 (2017).
Sun, W., Rumshisky, A., Uzuner, O. Evaluating temporal relations in clinical text: 2012 i2b2 Challenge. Journal of the American Medical Informatics Association. 20 (5), 806-813 (2013).
Savova, G. K., et al. Mayo clinical Text Analysis and Knowledge Extraction System (cTAKES): architecture, component evaluation and applications. Journal of the American Medical Informatics Association. 17 (5), 507-513 (2010).
Soysal, E., et al. CLAMP – a toolkit for efficiently building customized clinical natural language processing pipelines. Journal of the American Medical Informatics Association. 25 (3), 331-336 (2018).
Bender, D., Sartipi, K. HL7 FHIR: An Agile and RESTful approach to healthcare information exchange. Proceedings of the 26th IEEE International Symposium on Computer-Based Medical Systems. , 326-331 (2013).
Chang, K., et al. Human Infection with Burkholderia thailandensis, China, 2013. Emerging Infectious Diseases. 23 (8), 1416-1418 (2013).
Cameron, J. D., McClain, C. J. Ocular histopathology of acrodermatitis enteropathica. British Journal of Ophthalmology. 70 (9), 662-667 (1986).
Maddox, T. M., Matheny, M. A. Natural Language Processing and the Promise of Big Data. Circulation: Cardiovascular Quality and Outcomes. 8 (5), 463-465 (2015).
Kreimeyer, K., et al. Natural language processing systems for capturing and standardizing unstructured clinical information: A systematic review. Journal of Biomedical Informatics. 73, 14-29 (2017).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

Caufield, J. H., Liem, D. A., Garlid, A. O., Zhou, Y., Watson, K., Bui, A. A. T., Wang, W., Ping, P. A Metadata Extraction Approach for Clinical Case Reports to Enable Advanced Understanding of Biomedical Concepts. J. Vis. Exp. (139), e58392, doi:10.3791/58392 (2018).

Un enfoque de extracción de metadatos de informes clínicos del caso permitir avanzada comprensión de los conceptos biomédicos

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

Un enfoque de extracción de metadatos de informes clínicos del caso permitir avanzada comprensión de los conceptos biomédicos

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

✖

To prove you're not a robot, please enter the text in the image below