我们提出了一个协议和相关的元数据模板, 以提取的文本描述生物医学概念的临床病例报告。通过本协议生成的结构化文本值可以支持对数以千计的临床叙事进行深入分析。
临床病例报告 (CCRs) 是分享医学观察和洞察力的宝贵手段。这些文件的形式各不相同, 其内容包括许多新的疾病介绍和治疗的描述。到目前为止, CCRs 内的文本数据基本上是非结构化的, 需要进行大量的人力和计算工作, 以使这些数据有助于深入分析。在本协议中, 我们描述了识别与 CCRs 中经常观察到的特定生物医学概念相对应的元数据的方法。我们提供了一个元数据模板作为文档注释的指南, 认识到在 CCRs 上强加的结构可以通过手动和自动工作的组合来实现。此处提出的方法适合于从大型文学语料库 (例如,数以千计的 CCRs) 组织与概念相关的文本, 但可以很容易地加以修改, 以方便更有重点的任务或少量的报告。生成的结构化文本数据包括足够的语义上下文, 以支持各种后续文本分析工作流: 元分析, 以确定如何最大限度地提高 CCR 细节, 罕见疾病的流行病学研究, 和模型的发展通过使用结构化文本数据, 医学语言可能会变得更加可实现和易于管理。
临床病例报告 (CCRs) 是分享医学观察和洞察力的基本手段。这些都是临床医生和医科学生沟通和教育的基本机制。历史上, CCRs 也提供了新的疾病, 他们的治疗, 他们的遗传背景1,2,3,4的帐户。例如, 在 1885年 5、6和第一次应用青霉素的患者中, 第一次治疗人类狂犬病是通过 CCRs 报告的。截至 2018年4月, 已有超过 187万 CCRs 出版, 过去十年中有超过100万个;期刊继续为这些报告提供新的地点8。虽然 CCRs 在形式和内容上是独一无二的, 但它包含的文本数据大多是非结构化的, 包含了大量的词汇, 并关注相互关联的现象, 限制了它们作为结构化资源的使用。需要作出重大努力, 从 CCRs 中提取详细的元数据 (即“有关数据的数据”, 或在本例中描述文档内容), 并将其建立为能够找到、可访问、互操作和可重用 (公平)9数据资源。
在这里, 我们描述了一个提取文本和数值的过程, 以规范在发布的 CCRs 中对特定生物医学概念的描述。该方法包括一个用于指导注释的元数据模板;有关此过程的概述, 请参见图 1 。将注释过程应用于大量的报告收集 (例如,成千上万种特定类型的疾病介绍) 允许组装一组可管理和结构化的注解临床文本, 实现机器可读在每个临床演示中嵌入的文档和生物医学现象。虽然数据格式, 如 HL7 提供的信息 (例如, 邮件标准10版本3或快速医疗互操作性资源 [FHIR]11)、LOINC12和修订10的国际统计疾病分类和相关健康问题 (ICD-10)13为描述和交换临床观察提供了标准, 它们不捕获围绕这些数据的文本, 也不打算这样做。我们的方法的结果最好用于执行 CCRs 上的结构, 并促进随后的分析, 通过受控词汇和编码系统进行规范化 (例如, ICD-10) 和/或转换到上面列出的临床数据格式.
采矿 CCRs 是生物医学和临床信息学中的一个活跃的工作领域。虽然以前关于规范案例报告结构的建议 (例如, 使用 HL7 v2.514或标准表型术语15) 是值得称道的, 但 CCRs 将继续遵循各种不同的自然语言形式和文档布局, 就像过去一个世纪的大部分。在理想的条件下, 新病例报告的作者遵循16的护理准则, 以确保它们是全面的。因此, 对自然语言及其与医学概念的关系敏感的方法在处理新的和归档的报告方面可能是最有效的。诸如工艺17和生物信息学 (i2b2)18精选支持自然语言处理 (NLP) 方法所制作的资源, 还没有专门侧重于 CCRs 或临床叙述。同样, 医疗 NLP 工具, 如 cTAKES19和钳20已经开发, 但一般识别特定的词语或短语 (即, 实体) 在文件中, 而不是一般的概念, 通常在 CCRs 描述。
我们为 CCRs 中通常包含的功能设计了一个标准化的元数据模板。此模板定义了在 CCRs 上强加结构的功能–对文档内容进行深入比较的基本前体–但允许有足够的灵活性来保留语义上下文。尽管我们已经设计了与此模板相关联的格式, 以适用于手动注释和计算辅助文本挖掘, 但我们确保它特别容易用于手动注释器。我们的方法明显不同于更复杂的 (因此, 对未经训练的研究人员来说, 不那么直接理解) 框架, 如 FHIR21。下面的协议描述如何隔离与每个模板数据类型对应的文档功能, 并与单个 CCR 中的单个值集相对应。
模板中的数据类型是那些最具描述性的 CCRs 和以病人为重点的医疗文件。这些功能的注释促进了 CCR 文本的可寻性、辅助功能、互操作性和可重用性, 主要是通过给出它的结构。数据类型在四个一般类别中: 文档和注释标识、案例报告标识 (即文档级属性)、医学内容概念 (主要是概念级属性) 和确认 (即,提供资金证明的功能)。在此注释过程中, 每个文档都包含 CCR 的全文, 省略了与案例无关的任何文档内容材料 (例如,实验性协议)。CCRs 一般少于1000字;一个语料库最好由同一书目数据库编入索引, 并采用相同的书面语言。
此处描述的方法的产品应用于 CCR 语料库时, 是一组带有注释的临床文本。虽然这种方法可以完全手动执行, 并且已设计为由领域专家执行, 而没有任何信息学经验, 但它补充了上文指定的自然语言处理方法, 并提供了适合于计算分析。这种分析可能对那些经常阅读 CCRs 的研究者感兴趣, 包括:
加强 CCRs 的结构可以支持许多后续的努力, 以更好地理解医学语言和生物医学现象。
CCRs 的标准化元数据模板的实现可以使其内容更加公平、扩展其访问群体并扩展其应用程序。随着传统上使用 CCRs 作为教育工具的医疗通讯, 医疗保健学员 (如医科学生, 实习生和研究员), 和生物医学研究员可能会发现, 总结病例报告内容, 使更迅速理解。然而, 元数据标准化与 CCRs 的最大优点是, 索引这些数据将其他孤立的观测转化为解释模式。这里提供的协议可以作为工作流程中的第一步, 用于 CCRs, 无论此工作流是由流行病学分析、后营销药物还是治疗监视, 还是更广泛的病机或治疗效果调查。在 CCRs 中确定的结构化特征可以为研究人员关注疾病介绍和治疗提供有用的资源, 尤其是在罕见的情况下。临床研究人员可能会发现过去治疗方案的数据, 以分析在以前的护理标准下记录的症状或副作用和改善程度。这些数据还可能推动对基于功效、缺乏不良影响或毒性的新疗法或针对性别、年龄组或遗传背景的药物针对性差异进行更广泛的分析。
结构化元数据提供的好处同样适用于用于分析或建模医学语言的计算工作流。结构化 CCR 功能还可以提供证据, 说明报表作者可能更容易地提供机器可读 (有些情况下是人读的) 内容。CCRs 之间的差异可能是由于缺乏明确提供的观察:例如,病人的确切年龄可能没有指定。同样, 如果诊断或其结果被认为微不足道, 临床医生可能不会提及测试。通过提供深入分析所需的空白示例, 在 CCRs 上执行结构突出显示了潜在的改进。从更广泛的角度来看, 从医疗文件中获得更多的结构化文本数据支持自然语言处理 (NLP) 努力从医疗保健24、25的大数据中学习。
The authors have nothing to disclose.
这项工作部分由国家心脏、肺和血液研究所支持: R35 HL135772 (p);国立医学科学院: U54 GM114833 (对平、华生和小王);国立生物医学成像与生物工程研究所: T32 EB016640 (a);来自豪格基金会和 Setty 博士的礼物;还有加州大学洛杉矶分校的 T.C. Laubisch 捐赠。
A corpus of clinical case reports | n/a | n/a | Full texts of case reports may be accessed through PubMed (e.g., using the search query "Case Reports"[Filter]), other citation databases such as Europe PMC (https://europepmc.org/) or directly through publishers. |