Presentamos un protocolo y una plantilla de metadatos asociado para la extracción de texto que describe conceptos biomédicos en reportes de casos clínicos. Los valores de texto estructurado producidos a través de este protocolo pueden apoyar el análisis de miles de historias clínicas.
Informes de casos clínicos (CCRs) son un medio valioso de compartir observaciones y conocimientos en medicina. Varía la forma de estos documentos y su contenido incluye descripciones de la enfermedad nuevos numerosos, presentaciones y tratamientos. Hasta el momento, los datos de texto dentro de CCRs están en gran parte no estructurados, que requiere considerable esfuerzo humano y computacional para procesar estos datos útiles para el análisis profundizado. En este protocolo, se describen métodos para la identificación de metadatos correspondientes a conceptos biomédicos específicos observados con frecuencia dentro de CCRs. Proporcionamos una plantilla de metadatos como guía para la anotación del documento, reconociendo que imponer estructura a los CCRs puede ser perseguido por combinaciones de esfuerzo manual y automatizado. El enfoque presentado aquí es apropiado para la organización del texto relacionado con el concepto de un corpus de literatura grande (por ejemplo, miles de CCRs) pero puede ser fácilmente adaptado para facilitar más enfocadas tareas o pequeños conjuntos de informes. Los datos resultantes del texto estructurado incluyen suficiente contexto semántico para apoyar una variedad de flujos de trabajo de análisis texto subsiguiente: detalle de metanálisis para determinar cómo maximizar el CCR, los estudios epidemiológicos de las enfermedades raras y el desarrollo de modelos de lengua médica se puede todos hacer más realizable y manejable mediante el uso de datos de texto estructurado.
Informes de casos clínicos (CCRs) son un medio fundamental de compartir observaciones y conocimientos en medicina. Éstos sirven como un mecanismo básico de comunicación y educación para los médicos y estudiantes de medicina. Históricamente, los CCRs también han proporcionado cuentas de enfermedades emergentes, sus tratamientos y sus fondos genéticos1,2,3,4. Por ejemplo, el primer tratamiento de la rabia humana por Louis Pasteur en 18855,6 y la primera aplicación de la penicilina en pacientes7 informaron a través de CCRs. Más de 1,87 millones de CCRs se han publicado a partir de abril de 2018, con más de medio millón en la última década; revistas siguen proporcionar nuevos espacios para estos informes8. Aunque único en forma y contenido, CCRs contienen datos de texto que son en gran parte no estructurados, contienen un vasto vocabulario y refieren a fenómenos relacionados entre sí, limitando su uso como recurso estructurado. Se requiere esfuerzo significativo para extraer metadatos detallados (es decir, “datos sobre datos”, o en este caso, las descripciones del contenido del documento) de CCRs y establecerlas como dato encontrable, accesible, interoperables y reutilizables (Feria)9 recursos.
Aquí, describimos un proceso para la extracción de texto y valores numéricos para estandarizar la descripción de conceptos biomédicos específicos dentro de CCRs publicados. Esta metodología incluye una plantilla de metadatos para guiar la anotación; Vea la figura 1 para un resumen de este proceso. Aplicación del proceso de anotación de una gran colección de informes (por ejemplo, varios miles de un tipo específico de presentación de la enfermedad) permite el montaje de un conjunto manejable y estructurado de textos clínicos anotados, logrando legible por la máquina documentación y fenómenos biomédicos integrado en cada presentación clínica. Aunque los formatos de datos como los proporcionados por HL7 (e.g., versión 3 de la mensajería estándar10 o el Fast Healthcare interoperabilidad recursos [FHIR]11), LOINC12y 10 revisión de la estadística internacional Clasificación de enfermedades y problemas de salud relacionados (ICD-10)13 proporcionar estándares para la descripción y el intercambio de observaciones clínicas, no capturan el texto que rodea a estos datos, ni tampoco. Los resultados de nuestra metodología se utilizan mejor estructura de CCRs y facilitar el posterior análisis, normalización a través de vocabularios controlados y sistemas de codificación (e.g., CIE-10), o conversión a los formatos de datos clínicos mencionados .
CCRs de minas es un área activa de trabajo en Informática Biomédica y clínica. Aunque anteriores propuestas para estandarizar la estructura de informes del caso (por ej., usando HL7 v2.514 o estandarizado fenotipo terminología15) son loables, es probable que CCRs seguirá una variedad de diferentes formas de lenguaje natural y diseños de documento, ya que tiene gran parte del siglo pasado. En condiciones ideales, los autores de nuevos informes del caso seguir cuidado directrices16 para asegurarse de que son integrales. Enfoques sensibles al lenguaje natural y su relación a los conceptos médicos por lo tanto pueden ser más eficaces en el trabajo con nuevos informes archivados. Recursos como arte17 y los producción por la informática para la integración de la biología y el comisariado de cabecera (i2b2)18 apoyar enfoques de procesamiento del lenguaje natural (NLP) aunque no específicamente enfocado CCRs o relatos clínicos. Del mismo modo, médicos herramientas de PNL como cTAKES19 y20 de la abrazadera se han desarrollado pero generalmente identifican palabras específicas o frases (es decir, entidades) en documentos en lugar de los conceptos generales que se describe comúnmente en CCRs.
Hemos diseñado una plantilla de metadatos normalizados para las características comúnmente incluidos en los CCRs. Esta plantilla define funciones para imponer estructura a los CCRs, un precursor esencial para las comparaciones de profundidad del contenido del documento-aún permite la flexibilidad suficiente para mantener el contexto semántico. Aunque hemos diseñado el formato asociado a esta plantilla es apropiada para la anotación manual y minería de texto de ayuda de cómputo, nos hemos asegurado es particularmente fácil de usar para anotadores manual. Nuestro enfoque difiere perceptiblemente de más complejos (y, por lo tanto, menos inmediatamente comprensible para inexpertos investigadores) marcos como FHIR21. El siguiente protocolo describe cómo aislar características de documentos correspondiente a cada tipo de datos de plantilla, con un único conjunto de valores correspondientes a los de un CCR solo.
Los tipos de datos dentro de la plantilla son los más descriptivos de CCRs y documentos médicos centrada en el paciente en general. Anotación de estas características promueve la encontrabilidad, accesibilidad, interoperabilidad y reutilización del texto CCR, sobre todo dándole estructura. Los tipos de datos son en cuatro categorías generales: identificación del documento y anotación, identificación de informe del caso (es decir, propiedades de nivel de documento), conceptos contenidos médicos (sobre todo a nivel de concepto propiedades) y reconocimientos (es decir, características proporcionando evidencia de financiación). En este proceso de anotación, cada documento incluye el texto completo de un CCR, omitiendo cualquier material de contenido de documento independiente para el caso (por ejemplo, protocolos experimentales). CCRs son generalmente menos de 1.000 palabras cada uno; un corpus único ideal debe ser indexado por la misma base de datos bibliográfica y en el mismo lenguaje escrito.
El producto de lo descrito aquí, cuando está aplicado a un corpus CCR, es un conjunto estructurado de texto clínico anotado. Si bien esta metodología puede realizarse de forma completamente manual y ha sido diseñada para ser realizado por expertos de dominio sin experiencia informática, complementa los métodos de procesamiento del lenguaje natural mencionados y proporciona los datos apropiados para Análisis computacional. Tales análisis pueden ser de interés para el público de los investigadores más allá de aquellos que leen con frecuencia CCRs, incluyendo:
Aplicación de estructura de CCRs puede soportar numerosos esfuerzos subsecuentes para entender mejor la lengua médica y fenómenos biomédicos.
Implementación de una plantilla de metadatos normalizados de CCRs puede hacer su feria más contenido, ampliar su público y ampliar sus aplicaciones. Siguiendo el uso tradicional de CCRs como herramientas educativas en la comunicación médica, salud aprendices (por ejemplo, los estudiantes de medicina, pasantes y becarios) e investigadores biomédicos pueden encontrar que contenido Informe resumido del caso permite más rápida comprensión. La mayor fortaleza de la estandarización de metadatos con CCRs, sin embargo, es que indexación de lo contrario estas transformaciones de datos aislados observaciones en patrones interpretables. El protocolo que aquí puede servir como el primer paso de un flujo de trabajo para trabajar la CCRs, si este flujo de trabajo consta de análisis epidemiológico, vigilancia de tratamiento, medicamentos posterior a la comercialización o encuestas más amplias de la patogenesia o eficacia terapéutica. Estructurado elementos identificados dentro de CCRs pueden proporcionar un recurso útil para los investigadores centrarse en presentaciones de la enfermedad y tratamientos, particularmente para condiciones raras. Los investigadores clínicos pueden encontrar datos en últimos regímenes de tratamiento para analizar registrados síntomas o efectos secundarios y el grado de mejora bajo los estándares anteriores de la atención. Los datos también pueden conducir a análisis más amplio de un nuevos tratamientos basados en la eficacia, falta de efectos adversos o toxicidad, o en drogas dirigidas a las diferencias de género, edad o genética.
Los beneficios proporcionados por metadatos estructurados son igualmente aplicables a flujos de trabajo computacionales diseñados para analizar o modelo de lenguaje médico. Estructuradas características CCR también pueden proporcionar contenido evidencia de áreas donde los autores del informe pueden proporcionar más fácilmente legible por la máquina (y en algunos casos, legible). Varianza entre CCRs puede resultar de la falta de observaciones proporcionados explícitamente: por ejemplo, no se puede especificar la edad exacta del paciente. Del mismo modo, los médicos no pueden mencionar pruebas si el diagnóstico o sus resultados eran considerados triviales. Proporcionando ejemplos de espacios necesarios para un análisis profundo, aplicación de estructura de CCRs destaca mejoras potenciales. En una perspectiva más amplia, una mayor disponibilidad de datos de texto estructurado de documentos médicos apoya esfuerzos de (PNL) para aprender de los grandes datos en salud24,25el procesamiento del lenguaje natural.
The authors have nothing to disclose.
Este trabajo fue financiado en parte por el National Heart, Lung and Blood Institute: HL135772 R35 (al P. Ping); Instituto Nacional de Ciencias de Medicina General: GM114833 U54 (a Ping P., K. Watson y W. Wang); Instituto Nacional de imágenes biomédicas y Bioingeniería: T32 EB016640 (a A. Bui); un regalo de la Fundación de Hoag y Dr. S. Setty; y la dotación de T.C. Laubisch en UCLA (al P. Ping).
A corpus of clinical case reports | n/a | n/a | Full texts of case reports may be accessed through PubMed (e.g., using the search query "Case Reports"[Filter]), other citation databases such as Europe PMC (https://europepmc.org/) or directly through publishers. |