Medicine

一种用于临床病例报告的元数据抽取方法, 以实现对生物医学概念的深入了解

Published: September 20, 2018 doi: 10.3791/58392

John Harry Caufield^1,2, David A. Liem^1,2,3, Anders O. Garlid^1,2, Yijiang Zhou⁴, Karol Watson^1,3, Alex A. T. Bui^1,5,6,7, Wei Wang^1,7,8,9, Peipei Ping^1,2,3,7,8

Summary

我们提出了一个协议和相关的元数据模板, 以提取的文本描述生物医学概念的临床病例报告。通过本协议生成的结构化文本值可以支持对数以千计的临床叙事进行深入分析。

Abstract

临床病例报告 (CCRs) 是分享医学观察和洞察力的宝贵手段。这些文件的形式各不相同, 其内容包括许多新的疾病介绍和治疗的描述。到目前为止, CCRs 内的文本数据基本上是非结构化的, 需要进行大量的人力和计算工作, 以使这些数据有助于深入分析。在本协议中, 我们描述了识别与 CCRs 中经常观察到的特定生物医学概念相对应的元数据的方法。我们提供了一个元数据模板作为文档注释的指南, 认识到在 CCRs 上强加的结构可以通过手动和自动工作的组合来实现。此处提出的方法适合于从大型文学语料库 (例如,数以千计的 CCRs) 组织与概念相关的文本, 但可以很容易地加以修改, 以方便更有重点的任务或少量的报告。生成的结构化文本数据包括足够的语义上下文, 以支持各种后续文本分析工作流: 元分析, 以确定如何最大限度地提高 CCR 细节, 罕见疾病的流行病学研究, 和模型的发展通过使用结构化文本数据, 医学语言可能会变得更加可实现和易于管理。

Introduction

临床病例报告 (CCRs) 是分享医学观察和洞察力的基本手段。这些都是临床医生和医科学生沟通和教育的基本机制。历史上, CCRs 也提供了新的疾病, 他们的治疗, 他们的遗传背景¹^,²^,³^,⁴的帐户。例如, 在 1885年 ⁵^、⁶和第一次应用青霉素的患者中, 第一次治疗人类狂犬病是通过 CCRs 报告的。截至 2018年4月, 已有超过 187万 CCRs 出版, 过去十年中有超过100万个;期刊继续为这些报告提供新的地点⁸。虽然 CCRs 在形式和内容上是独一无二的, 但它包含的文本数据大多是非结构化的, 包含了大量的词汇, 并关注相互关联的现象, 限制了它们作为结构化资源的使用。需要作出重大努力, 从 CCRs 中提取详细的元数据 (即"有关数据的数据", 或在本例中描述文档内容), 并将其建立为能够找到、可访问、互操作和可重用 (公平)⁹数据资源。

在这里, 我们描述了一个提取文本和数值的过程, 以规范在发布的 CCRs 中对特定生物医学概念的描述。该方法包括一个用于指导注释的元数据模板;有关此过程的概述, 请参见图 1 。将注释过程应用于大量的报告收集 (例如,成千上万种特定类型的疾病介绍) 允许组装一组可管理和结构化的注解临床文本, 实现机器可读在每个临床演示中嵌入的文档和生物医学现象。虽然数据格式, 如 HL7 提供的信息 (例如, 邮件标准¹⁰版本3或快速医疗互操作性资源 [FHIR]¹¹)、LOINC¹²和修订10的国际统计疾病分类和相关健康问题 (ICD-10)¹³为描述和交换临床观察提供了标准, 它们不捕获围绕这些数据的文本, 也不打算这样做。我们的方法的结果最好用于执行 CCRs 上的结构, 并促进随后的分析, 通过受控词汇和编码系统进行规范化 (例如, ICD-10) 和/或转换到上面列出的临床数据格式.

采矿 CCRs 是生物医学和临床信息学中的一个活跃的工作领域。虽然以前关于规范案例报告结构的建议 (例如, 使用 HL7 v2.5¹⁴或标准表型术语¹⁵) 是值得称道的, 但 CCRs 将继续遵循各种不同的自然语言形式和文档布局, 就像过去一个世纪的大部分。在理想的条件下, 新病例报告的作者遵循¹⁶的护理准则, 以确保它们是全面的。因此, 对自然语言及其与医学概念的关系敏感的方法在处理新的和归档的报告方面可能是最有效的。诸如工艺¹⁷和生物信息学 (i2b2)¹⁸精选支持自然语言处理 (NLP) 方法所制作的资源, 还没有专门侧重于 CCRs 或临床叙述。同样, 医疗 NLP 工具, 如 cTAKES¹⁹和钳²⁰已经开发, 但一般识别特定的词语或短语 (即, 实体) 在文件中, 而不是一般的概念, 通常在 CCRs 描述。

我们为 CCRs 中通常包含的功能设计了一个标准化的元数据模板。此模板定义了在 CCRs 上强加结构的功能--对文档内容进行深入比较的基本前体--但允许有足够的灵活性来保留语义上下文。尽管我们已经设计了与此模板相关联的格式, 以适用于手动注释和计算辅助文本挖掘, 但我们确保它特别容易用于手动注释器。我们的方法明显不同于更复杂的 (因此, 对未经训练的研究人员来说, 不那么直接理解) 框架, 如 FHIR²¹。下面的协议描述如何隔离与每个模板数据类型对应的文档功能, 并与单个 CCR 中的单个值集相对应。

模板中的数据类型是那些最具描述性的 CCRs 和以病人为重点的医疗文件。这些功能的注释促进了 CCR 文本的可寻性、辅助功能、互操作性和可重用性, 主要是通过给出它的结构。数据类型在四个一般类别中: 文档和注释标识、案例报告标识 (即文档级属性)、医学内容概念 (主要是概念级属性) 和确认 (即,提供资金证明的功能)。在此注释过程中, 每个文档都包含 CCR 的全文, 省略了与案例无关的任何文档内容材料 (例如,实验性协议)。CCRs 一般少于1000字;一个语料库最好由同一书目数据库编入索引, 并采用相同的书面语言。

此处描述的方法的产品应用于 CCR 语料库时, 是一组带有注释的临床文本。虽然这种方法可以完全手动执行, 并且已设计为由领域专家执行, 而没有任何信息学经验, 但它补充了上文指定的自然语言处理方法, 并提供了适合于计算分析。这种分析可能对那些经常阅读 CCRs 的研究者感兴趣, 包括:

那些关心疾病介绍, 他们的关键 symptomology, 通常诊断方法和治疗
那些希望将临床试验的结果与临床文献中描述的事件进行比较的人, 有可能提供额外的观察和更大的统计能力。
生物信息学、生物医学信息学和计算机科学研究人员需要结构化的医学语言数据集或对医学叙事的高层次理解
政府政策研究人员专注于临床试验如何能最好地反映在现实中如何诊断和治疗

加强 CCRs 的结构可以支持许多后续的努力, 以更好地理解医学语言和生物医学现象。

Protocol

1. 文件和批注标识

注意: 此类别中的值支持批注过程。

使用注释模板, 提供特定于此元数据集的标识符,如 Case123。标识符格式应在整个项目中保持一致 (例如, Case001通过Case500)。
指定读取和批注文档的日期。使用类似于 "2018年1月10日" 的格式以保持一致性和可读性。

2. 案例报告识别

注意: 此类别中的值提供文档级功能并有助于文档的可寻性。

与所有注释中的每个字段的格式一致,例如,单个值应用分号隔开, 而不应在所有条目中有空格。在原始文档中使用相同的格式,或者使用在书目数据库 (如 MEDLINE) 中的文件。
提供文档的标题。
按所提供的顺序提供文档的所有作者的姓名。规范化所有名称的格式, 以便所有名称都采用姓氏的形式, 后跟任意数量的缩写,例如, 简 b 公园成为公园 JB。不包括标题。用分号分隔多个作者, 这样就不加标点符号了, 例如, 约翰. 史密斯, 简 b 公园采取史密斯的形式;JB 公园
提供该文件的发布年份。
提供发布文档的日记帐的完整标题。受控日志名称的列表由 NLM 目录 (https://www.ncbi.nlm.nih.gov/nlmcatalog) 提供.
如文件所指明, 提供该文件的作者所在机构的地址。这可能包括部门、地理位置和邮政地址详细信息。
1. 如果提供了多个位置 (例如,如果作者之间的从属关系不同), 则仅为相应作者指定详细信息。如果无法识别相应的作者, 请使用第一个作者的, 或者不指定机构。如果相应的作者有多个从属关系, 请同时指定并用分号分隔。
按照文档标题中的指定, 提供与作者数据类型中使用的格式相同的文档的相应作者。
提供文档标识符 (例如, PMID)。
在可能和可用的情况下, 提供数字对象标识符, 可解析为文档 URL (通过 https://www.doi.org/), 而不是 PubMed 的中心页。
提供文档全文的稳定 URL (如果可用).为了最大化可访问性, 这可能是指 PubMed 的中央版本。
提供文档语言。对于以多种语言提供的文档, 请同时提供, 用分号分隔。

3. 医疗内容

注意: 此类别中的值标识文档级、概念级别和文本级功能。它们有助于增强文档的可访问性、互操作性和重用能力。这些功能提供了观察文档内容之间概念和语义相似性的方法, 重点是生物医学主题和事件。本节中的大多数类别都可以包含多个文本语句, 每种都应使用分号分隔。

在每个领域包括上下文细节 (例如, "母亲患乳腺癌50岁"), 而不是只提供受控词汇 (例如,不是 "乳腺癌" 单独)。不要在每个观察范围内包括广泛的细节。
省略通常重复的单词和词组 (例如,代词, "病人" 一词, 以及 "抱怨" 或 "提出" 的短语)。虽然跨多个注释器的主观性很有可能, 但通过对每个文档进行多个注释器, 并通过数据收集后的自动规范化, 可以减少这种情况。计算后处理方法将因随后的分析需要而异, 此处没有详细讨论。
在 "注释" 模板中提供以下信息。
1. 提供文档中标识的特定术语 (通常在其标题中), 作为关键术语。以分号分隔的术语可能包括其他标点符号。
2. 提供人口价值, 特别是任何描述病人背景的文字陈述, 包括性别和/或性别、年龄、族裔或国籍。
3. 提供临床叙述中提到的地理位置, 而不是具体的机构地址。这不应包括解剖位置/部分, 但可能包括任何地理区域的病人居住或旅行。
4. 提供生活方式价值, 包括描述经常病人活动或与其一般健康相关的行为的任何文本语句。在实践中, 这经常涉及吸烟或饮酒习惯, 但也可能包括阳光照射, 饮食, 或特定类型的身体活动的频率。
5. 提供关于家族史的病史价值。包括描述兄弟姐妹、父母和其他家庭成员所经历的临床观察和事件的任何文本语句。这包括遗传条件和负面观察 (即 家庭病史对疾病是阴性的 ).
6. 提供参考社会历史的价值, 包括描述不包括人口学或生活方式的患者背景的任何文本陈述。这些类别之间的内容可能有重叠。这些陈述可能包括职业历史和社会习惯。
7. 提供参考病人的医疗和外科病史的价值。包括任何文本陈述, 描述任何医学观察, 治疗, 或其他事件发生在开始之前的临床表现。这包括产科历史和良好的健康时期, 在这里指出。
8. 指定以下16种疾病系统类别中的一个或多个。请注意, 这些值是绝对的, 而不是自由文本。分类并不全面, 但应表明大多数系统受到临床表现和诊断疾病所描述的事件的影响。
  1. 根据国际疾病统计分类和相关健康问题的分类, 修订 10 (ICD-10) 代码系统, 遵循一组特定类别。有关疾病系统类别列表以及相应的 ICD-10 代码范围, 请参见表 1 。
9. 提供所有体征和症状的详细信息.包括任何文本陈述, 描述从最初的陈述开始的迹象或症状的任何医学观察, 包括他们的发病, 持续时间, 严重性和解决, 如果提供。不要包括结果中描述的症状。如果症状从历史延续到初始演示, 则这些值可能与其他类型重叠。
10. 提供任何并发症的详细信息。包括描述初次临床表现时存在的不同疾病的术语或词组。这些价值观与临床史上可能存在重叠, 但共病不应包括与诊断相同的术语。
11. 提供所有诊断技术和程序的详细信息。包括用于诊断目的的医疗程序的名称, 包括检查、测试和成像, 以及这些测试的执行条件和相关解剖位置 (例如, "上肢静脉超声 ")。排除测试结果。
12. 提供诊断的详细信息。包括任何描述疾病诊断的文本语句, 即使最终诊断不明确。
13. 提供所有实验室的价值和测试结果。包括诊断测试的名称、它们的值以及执行它们的条件。这将涉及与诊断技术和过程数据类型中使用的术语重叠。数值和定性值 (例如, 完整的血液计数在正常范围内) 是可以接受的.如果未提供诊断测试的名称, 则使用描述结果的术语 (例如, 白细胞减少), 但也应包括在体征和症状中。
14. 提供病理细节。包括描述病理学和组织学研究结果的任何文本陈述, 包括病理学、免疫学和显微学研究。术语可能与诊断技术和程序 (步骤 3.11) 中使用的条件重叠,例如,使用程序来获取样本 (如活检)。
15. 提供所有的药理治疗。包括描述治疗过程中使用的药物疗法的任何文本陈述, 包括抗生素或特定药物名称等一般术语.此外, 还包括对药物治疗的时间和方式的说明。
16. 提供所有介入程序。包括描述治疗过程中使用的治疗程序的任何文本语句, 包括侵入性程序、医疗器械植入以及为促进其他治疗而采取的程序。此外, 如有必要, 还应说明如何停止正在进行的治疗程序。
17. 提供病人的结果。在报告所述临床表现结束时, 包括任何描述病人健康状况的文本陈述, 包括任何随访测试。
18. 提供所有诊断图像、数字、视频/动画和表格的计数。包括报告中包含的所有可视媒体计数, 格式如下: 图像计数;统计数字;视频或动画的计数;表的计数。
  1. 用这种方式区分图像和图形: 图像包括任何临床诊断产品, 包括照片、显微图像、心电图节律图和其他诊断影像产品, 而数字则是其他图像,一般包括数据地块和插图。
19. 提供与其他 CCRs 的关系的证据。此字段可能包括引用或引用此报告的数据集中的其他报告的标识符 (例如, PMIDs)。
20. 提供与临床试验的关系的证据。此字段可能包括引用此 CCR 的临床试验的标识符。通过 ClinicalTrials.gov 标识符 (前面有 NCT 或其他稳定标识符) 识别试验。
21. 包括与此文档对应的数据库 crosslinks, 包括标识符, 最好是数据库名称和稳定的 url。

4. 鸣谢

注意: 此类别中的值标识文档级功能, 但在出版物中几乎没有一致的结构。它们提供了有关为 CCR 和相关工作提供支持的组织的详细信息。此类别还包括一个字段, 其中包含一篇文章引用的总参考数: 这是为了提供一个粗略的度量, 说明文档与其他任何类型的生物医学文档具有概念性关系的程度。在本节的四数据类型中, 提供以下内容。

指定支持工作的所有资金来源和相应的 PI 以及相关的奖励编号。第一个价值, 即资金来源, 应包括为工作提供财政支助的所有组织的名称。
1. 分别有分号和空格的组织, 例如国立卫生研究院/国家癌症研究所;母鹿;史密斯公园基金会.
2. 对于以下值, 奖励编号, 指定与奖励的接受者一起提供的任何奖励编号或特定指定, 如有必要, 作为括号中收件人的缩写,例如, R01HL123123 (对 JP), NS12312 (JP, js),研究培训奖学金 (js)。作者可以明确说明没有提供相应的信息 (例如, "未收到资金");在这些情况下, 使用作者提供的文本作为供资来源值。否则, 该值应为 NA。
指定作者指定的披露/利益冲突,如 JP 是 DrugCo 的顾问。作者可以明确说明没有相应的信息可用 (例如, "不声明利益冲突");在这些情况下, 使用作者提供的文本作为利益价值的披露/冲突。否则, 如上所述, 该值应为 NA。
指定文档所引用的所有引用的数字计数, 不包括任何补充材料中提供的参考。此字段中不应包含引用文本。

Representative Results

图 2显示了注释过程的一个示例。本例²²描述了细菌病原体鼻疽 thailandensis感染的表现。为供参考, 此 CCR 的相关部分以纯文本格式在补充文件 1中提供;本报告还介绍了一些研究结果, 并将其纳入比较。实际上, 将 HTML 或 PDF 格式提供的报表转换为纯文本可能会提高元数据提取的效率和易用性。

表 2中提供了两组已完成的 CCR 元数据注释的示例。其中的第一个示例是模拟数据, 用于说明每个值的理想格式, 而第二个示例包含在罕见条件下从发布的 CCR 中提取的值, acrodermatitis enteropathica²³。

图1。案例报告注释的工作流.此处描述的协议提供了一种识别临床病例报告中经常出现的文本特征的方法。此过程要求对文档语料库进行汇编。注释过程的产品一旦聚合到单个文件中, 就允许识别与医学概念相关的文本特征及其在案例报告中的描述。请单击此处查看此图的较大版本.

图2。临床病例报告中特定概念文本的识别.从案例报告的文本开始, 手动注释器可以通过文档进行进度, 从而标识与元数据模板的每个组件对应的文本段。标识功能以蓝色突出显示。与医学概念相对应的文本呈红色, 标有其类型;第三列中所有突出显示的文本都是指病理类型。请单击此处查看此图的较大版本.

类别	描述	ICD-10 章	ICD-10 代码范围
癌症	任何类型的癌症或恶性肿瘤。	第二	C00-D49
紧张	脑、脊柱或神经的任何疾病。	六	G00-G99
心血管	心脏或血管系统的任何疾病。不包括血液疾病。	九	I00-I99
肌肉骨骼和风湿性	任何肌肉、骨骼系统、关节和结缔组织的疾病。	十三	M00-M99
消化	胃肠道和消化器官的任何疾病, 包括肝脏和胰腺。	西	K00-K95
产科和妇科	任何与怀孕、分娩、女性生殖系统或乳房有关的疾病。	XIV十五	O00-O9A;N60-N98
传染性	任何由传染性微生物引起的疾病。	我	A00-B99
呼吸	肺部和呼吸道的任何疾病。	X	J00-J99
血液	任何疾病的血液, 骨髓, 淋巴结, 或脾脏。	第三	D50-D89
肾脏和泌尿外科	肾脏或膀胱的任何疾病, 包括输尿管, 以及男性生殖器官, 包括前列腺。	十四	N00-N53;N99
内分泌	内分泌腺体的任何疾病以及代谢紊乱。	四	E00-E89
口腔颌面部	任何涉及口腔、颌骨、头部、脸部或颈部的情况。	西十三	K00-K14;M26-M27
眼睛	包括失明在内的任何涉及眼睛的情况。	七	H00-H59
otorhinolaryngologic	耳、鼻、喉的任何情况。	八	H60-H95;J30-J39
皮肤	皮肤的任何疾病。	十二	L00-L99
罕见	为罕见疾病的报告保留的特别类别, 被定义作为那些影响少于20万个人在美国 (参见 https://rarediseases.info.nih.gov/diseases)	那	那

表1。文档批注的疾病类别。此处列出的类别是用于文档元数据模板中的疾病系统数据类型的分类。由于每种疾病的表现可能涉及多个器官系统或病因, 一个单一的临床病例报告可能对应于多个类别。这些类别在很大程度上遵循那些用于区分疾病国际统计分类和相关健康问题的部分, 修订 10 (ICD-10) 代码系统: 提供相应的 ICD-10 章节和代码范围。某些类别, 如口腔和颌面部疾病, 对应于 ICD-10 系统的多个部分。

数据类型	示例 #1	例子 #2 (卡梅隆和麦克林 1986)
文档和批注标识
内部 ID	CCR005	CCR2000
批注日期	2018年3月2日	2018年3月1日
案例报告标识
标题	一例心内膜炎。	acrodermatitis enteropathica 的眼组织病理学。
作者	赠款 AB;张 CD	卡梅隆. JD;麦克林 CJ
年	2017	1986
杂志	世界医学杂志和案例报告	英国眼科杂志
机构	美国马萨诸塞州波士顿第一综合医院心脏病科医学系	明尼苏达大学医学院眼科学系, 明尼阿波利斯, 明尼苏达州55455
相应作者	赠款 AB	卡梅伦 JD
PMID	25555555	3756122
茵	10.1011/wjmcr 2017.11.001	那
链接	https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9555555/	https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1040795/
语言	英语	英语
医疗内容
关键词	布鲁心内膜二尖瓣	那
人口学	37岁男性	男童
地理位置	佛罗里达里约热内卢, 巴西	那
生活方式	吸烟者偶尔饮酒	那
家庭历史	五子女血缘父母;弟弟有慢性湿疹	那
社会历史	建筑工人	那
医疗/外科病史	疲劳史	8磅9盎司 (3884 克) 产品的一个简单, 足月妊娠;在良好的健康, 直到年龄1月, 当他在他的脸颊上的起泡皮疹;皮疹蔓延到涉及皮肤周围的眼睛, 鼻子, 和嘴;腹部和四肢也注意到皮肤病变;腹泻和未能茁壮成长;当时皮肤活检显示 parakeratosis 典型的 acrodermatitis enteropathica;在接下来的六年中, 采用间歇性的广谱抗生素、母乳和 diodoquin 疗程;部分答复;发育总脱发, 间歇性 acrodermatitis, 间歇腹泻, 重症体重增加;因中枢神经系统介入而导致的痉挛发育了8月的年龄;11月心肺骤停几集;他的声带缺乏协调;气管18月后, 儿童的眼球震颤与双侧视神经萎缩、视网膜血管轻微衰减以及精神运动迟缓的迹象有关;双边结膜炎;皮疹;第二次皮肤活检在3岁再次表现为 ae parakeratosis 典型;严重皮疹和腹泻;观察到五岁时, 双侧角膜毛前混浊已完全解决;经常感染包括中耳炎, 尿路感染和皮肤感染
疾病系统	心血管传染性	消化皮肤眼睛罕见
体征和症状	前一周的心悸和呼吸困难;呈现出嗜睡, 头痛和发冷	严重 blepharoconjunctivitis 和双侧前角膜 vascularisation;严重皮疹和腹泻;革兰氏阴性细菌性脓毒症;皮肤损害典型的 acrodermatitis enteropathica, 没有胸腺组织, 明显的变性视神经, 交叉, 视神经束和广泛的小脑变性
共	高血压高脂血症	那
诊断技术和程序	体格检查;心电图血液文化	眼部检查;尸检
诊断	布鲁氏菌心内膜炎	acrodermatitis enteropathica
实验室价值	c 反应蛋白增加 (9 毫克/dl);碱性磷酸酶 (250 u/升)	那
病理	从血液标本中培养布鲁氏菌 melitensis	右、左眼外观相似;角膜上皮厚度降低到三层扁平鳞状上皮细胞在整个角膜表面;上皮细胞的所有极性都消失了。鲍曼的细胞膜只能在右角膜的周围被辨认。在左角膜不能发现鲍曼的细胞膜。两眼均无退行性或炎症翳;睫状体的圆形和斜肌的广泛萎缩;晶状体囊膜上皮的后移和早期皮质退行性改变;整个后极视网膜色素上皮的广泛变性;视网膜附着, 并显示轻度自溶变化的整个;在后极部分保留棒和圆锥外段, 但这些结构在赤道前完全消失;神经节细胞和神经纤维层的广泛的损失两个眼睛;椎间盘近完全萎缩与邻近视神经
药理治疗	庆大霉素240毫克/iv/每日	那
Inverventional 疗法	人工瓣膜置换术	那
病人结局评估	复苏是平静的;出院回家	死于 1971年 (年龄 7)
诊断影像/录像带记录	2; 1; 0; 1	7; 0; 0; 0
与其他案例报告的关系	5555555	23430849
与临床试验的关系	NCT05555123	那
与数据库的交联	抑制剂健康信息: https://medlineplus.gov/ency/article/000597.htm	浪头-PDF: http://bjo.bmj.com/cgi/pmidlookup？view=long & pmid=3756122;欧洲 PubMed 中心: http://europepmc.org/abstract/MED/3756122;基因联盟: http://www.diseaseinfosearch.org/result/143
确认
资金来源	国立卫生研究院/国家心脏、肺和血液研究所	明尼苏达狮子俱乐部;防止失明的研究;退伍军人管理;美国明尼苏达州酒精和其他药物滥用规划办公室
奖项编号	R01HL123123 (对 AG)	那
披露/利益冲突	格兰特博士是 DrugCo 的付费代言人。	那
引用	4	27

表2。用于临床病例报告的标准化元数据模板, 例如注释.这里显示了一组临床病例报告和促进其概念级注释的常见功能。此模板被安排为三主要部分: 标识、医学内容和确认, 表示每种案例报告功能提供的目的和附加价值。此表包含两组示例注释, 其中一个是虚构案例报告, 另一组是从 acrodermatitis enteropathica²³条件的报告中派生的。

补充文件 1.临床病例报告正文 (长等。2017).请点击这里下载此文件.

Discussion

CCRs 的标准化元数据模板的实现可以使其内容更加公平、扩展其访问群体并扩展其应用程序。随着传统上使用 CCRs 作为教育工具的医疗通讯, 医疗保健学员 (如医科学生, 实习生和研究员), 和生物医学研究员可能会发现, 总结病例报告内容, 使更迅速理解。然而, 元数据标准化与 CCRs 的最大优点是, 索引这些数据将其他孤立的观测转化为解释模式。这里提供的协议可以作为工作流程中的第一步, 用于 CCRs, 无论此工作流是由流行病学分析、后营销药物还是治疗监视, 还是更广泛的病机或治疗效果调查。在 CCRs 中确定的结构化特征可以为研究人员关注疾病介绍和治疗提供有用的资源, 尤其是在罕见的情况下。临床研究人员可能会发现过去治疗方案的数据, 以分析在以前的护理标准下记录的症状或副作用和改善程度。这些数据还可能推动对基于功效、缺乏不良影响或毒性的新疗法或针对性别、年龄组或遗传背景的药物针对性差异进行更广泛的分析。

结构化元数据提供的好处同样适用于用于分析或建模医学语言的计算工作流。结构化 CCR 功能还可以提供证据, 说明报表作者可能更容易地提供机器可读 (有些情况下是人读的) 内容。CCRs 之间的差异可能是由于缺乏明确提供的观察:例如,病人的确切年龄可能没有指定。同样, 如果诊断或其结果被认为微不足道, 临床医生可能不会提及测试。通过提供深入分析所需的空白示例, 在 CCRs 上执行结构突出显示了潜在的改进。从更广泛的角度来看, 从医疗文件中获得更多的结构化文本数据支持自然语言处理 (NLP) 努力从医疗保健²⁴^、²⁵的大数据中学习。

Disclosures

作者没有什么可透露的。

Acknowledgments

这项工作部分由国家心脏、肺和血液研究所支持: R35 HL135772 (p);国立医学科学院: U54 GM114833 (对平、华生和小王);国立生物医学成像与生物工程研究所: T32 EB016640 (a);来自豪格基金会和 Setty 博士的礼物;还有加州大学洛杉矶分校的 T.C. Laubisch 捐赠。

Materials

Name	Company	Catalog Number	Comments
A corpus of clinical case reports	n/a	n/a	Full texts of case reports may be accessed through PubMed (e.g., using the search query "Case Reports"[Filter]), other citation databases such as Europe PMC (https://europepmc.org/) or directly through publishers.

DOWNLOAD MATERIALS LIST

References

Ban, T. A. The role of serendipity in drug discovery. Dialogues in Clinical Neuroscience. 8 (3), 335-344 (2006).
Cabán-Martinez, A. J., García-Beltrán, W. F. Advancing medicine one research note at a time: the educational value in clinical case reports. BMC Research Notes. 5 (1), 293 (2012).
Vandenbroucke, J. P. In Defense of Case Reports and Case Series. Annals of Internal Medicine. 134 (4), 330 (2001).
Bayoumi, A. M. The storied case report. Canadian Medical Association Journal. 171 (6), 569-570 (2004).
Pasteur, L. Méthode pour prévenir la rage après morsure. Comptes rendus de l'Académie des Sciences. 101, 765-774 (1885).
Pearce, J. Louis Pasteur and Rabies: a brief note. Journal of Neurology, Neurosurgery & Psychiatry. 73 (1), 82-82 (2002).
Keefer, C. S., Blake, F. G., Marshall, E. K. J., Lockwood, J. S., Wood, W. B. J. PENICILLIN IN THE TREATMENT OF INFECTIONS. Journal of the American Medical Association. 122 (18), 1217 (1943).
Akers, K. G. New journals for publishing medical case reports. Journal of the Medical Library Association JMLA. 104 (2), 146-149 (2016).
Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3, 160018 (2016).
Beeler, G. W. HL7 Version 3-An object-oriented methodology for collaborative standards development. International Journal of Medical Informatics. 48 (1-3), 151-161 (1998).
HL7 FHIR Release 3 (STU; v3.0.1-11917). , Available from: http://hl7.org/implement/standards/fhir/ (2018).
McDonald, C. J. LOINC, a Universal Standard for Identifying Laboratory Observations: A 5-Year Update. Clinical Chemistry. 49 (4), 624-633 (2003).
CDC/National Center for Health Statistics ICD-10-CM Official Guidelines for Coding and Reporting. , Available from: https://www.cdc.gov/nchs/data/icd/10cmguidelines_fy2018_final.pdf (2017).
Rajeev, D., et al. Development of an electronic public health case report using HL7 v2.5 to meet public health needs. Journal of the American Medical Informatics Association. 17 (1), 34-41 (2010).
Biesecker, L. Mapping phenotypes to language: a proposal to organize and standardize the clinical descriptions of malformations. Clinical Genetics. 68 (4), 320-326 (2005).
Riley, D. S., et al. CARE guidelines for case reports: explanation and elaboration document. Journal of Clinical Epidemiology. 89, 218-235 (2017).
Cohen, K. B., et al. Coreference annotation and resolution in the Colorado Richly Annotated Full Text (CRAFT) corpus of biomedical journal articles. BMC Bioinformatics. 18 (1), 372 (2017).
Sun, W., Rumshisky, A., Uzuner, O. Evaluating temporal relations in clinical text: 2012 i2b2 Challenge. Journal of the American Medical Informatics Association. 20 (5), 806-813 (2013).
Savova, G. K., et al. Mayo clinical Text Analysis and Knowledge Extraction System (cTAKES): architecture, component evaluation and applications. Journal of the American Medical Informatics Association. 17 (5), 507-513 (2010).
Soysal, E., et al. CLAMP - a toolkit for efficiently building customized clinical natural language processing pipelines. Journal of the American Medical Informatics Association. 25 (3), 331-336 (2018).
Bender, D., Sartipi, K. HL7 FHIR: An Agile and RESTful approach to healthcare information exchange. Proceedings of the 26th IEEE International Symposium on Computer-Based Medical Systems. , 326-331 (2013).
Chang, K., et al. Human Infection with Burkholderia thailandensis, China, 2013. Emerging Infectious Diseases. 23 (8), 1416-1418 (2013).
Cameron, J. D., McClain, C. J. Ocular histopathology of acrodermatitis enteropathica. British Journal of Ophthalmology. 70 (9), 662-667 (1986).
Maddox, T. M., Matheny, M. A. Natural Language Processing and the Promise of Big Data. Circulation: Cardiovascular Quality and Outcomes. 8 (5), 463-465 (2015).
Kreimeyer, K., et al. Natural language processing systems for capturing and standardizing unstructured clinical information: A systematic review. Journal of Biomedical Informatics. 73, 14-29 (2017).

Medicine

一种用于临床病例报告的元数据抽取方法, 以实现对生物医学概念的深入了解

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.