Medicine

使用军事卫生系统数据存储库和国家死亡指数进行治疗加权的反向概率（概率评分）

Published: January 8, 2020 doi: 10.3791/59825

Joshua D. Mitchell¹, Brian F. Gage², Nicole Fergestrom³, Eric Novak¹, Todd C. Villines⁴

¹Cardiovascular Division, Washington University School of Medicine, ²General Medical Sciences, Washington University School of Medicine, ³Center for Advancing Population Science, Medical College of Wisconsin, ⁴Cardiology Service, Department of Medicine, Walter Reed National Military Medical Center

Summary

当随机对照试验不可行时，像军事卫生系统数据存储库这样的综合卫生保健数据源为回顾性分析提供了有吸引力的替代方案。纳入国家死亡指数的死亡率数据，并使用倾向权重平衡群体之间的差异，有助于减少追溯设计中固有的偏见。

Abstract

当随机对照试验不可行时，使用大数据的回顾性研究提供了一种高效且经济高效的替代方案，尽管它们存在治疗选择偏差的风险。当治疗选择基于也与结果相关的预治疗特征时，治疗选择偏差发生在非随机研究中。这些治疗前特征，或混淆，可以影响评估治疗对结果的影响。倾向分数通过平衡治疗组之间的已知混淆，将这种偏差降至最低。执行倾向性分数分析的方法有几种方法，包括倾向评分、倾向匹配和治疗权重的反向概率（IPTW）分层。此处介绍的是使用 IPTW 来平衡美国军事卫生系统数据存储库（MDR）中一组患者的基线合并症。MDR 是一个相对最佳的数据源，因为它提供了一个包含的队列，其中向符合条件的受益人提供几乎完整的住院和门诊服务信息。下文概述了使用《孕产妇死亡率报告》补充国家死亡指数信息，以提供可靠的死亡率数据。还提供了使用管理数据的建议。最后，该协议共享一个SAS代码，用于使用IPTW来平衡已知的混淆，并绘制感兴趣的结果的累积入射函数。

Introduction

随机的安慰剂对照试验是最有力的研究设计，以量化治疗的有效性，但由于成本和时间要求或治疗组¹之间缺乏装备，它们并不总是可行的。在这些情况下，使用大规模管理数据（"大数据"）的回顾性队列设计通常提供高效且经济高效的替代方案，但缺乏随机化引入了治疗选择偏差²。当治疗决定依赖于与感兴趣的结果相关的预治疗特征时，治疗选择偏差发生在非随机研究中。这些特征被称为混杂因素。

由于倾向分数通过平衡治疗组之间的已知混淆来最小化这种偏见，它们变得越来越受欢迎^。倾向分数被用来比较手术方法⁴和医疗方案^5。最近，我们使用美国军事卫生系统数据存储库（MDR）的数据倾向分析，根据冠状动脉钙⁶的存在和严重程度，评估他汀类药物在心血管结果初级预防方面的影响。

MDR 的使用频率低于医疗保险和 VA 数据集用于研究目的，包含从为现役军人、退休人员和其他国防部（DoD）医疗保健受益人及其家属提供的住院和门诊服务中提供的综合行政和医疗索赔信息。该数据库包括在美国军事治疗设施或向国防部收费的民用设施向全世界提供的服务。该数据库包括自 2001 年 10 月 1 日以来的完整药房数据。实验室数据可从2009年提供，但仅限于军事治疗设施。在MDR中，队列被定义的方法包括使用诊断代码（例如，糖尿病^7）或程序代码（例如，关节镜手术^8）。或者，外部定义的合格受益人群体（如登记处）可以与 MDR 进行匹配，以获得基线和后续数据⁹。与医疗保险不同，MDR 包括所有年龄段的患者。它比VA数据库对男性的偏见要小，因为它包括受抚养者。但是，对 MDR 的访问有限。通常，只有作为军事卫生系统成员的调查员才能请求访问，类似于使用 VA 数据库的要求。寻求获取军事卫生系统数据的非政府研究人员必须通过在政府赞助者的监督下通过数据共享协议进行访问。

使用任何管理数据集时，请务必牢记管理编码的局限性和优点。代码的灵敏度和特异性可能因相关诊断而异，无论是初级诊断还是二级诊断，还是住院或门诊档案。急性心肌梗死的住院代码一般准确报告，预测值超过90%，但烟草使用往往被编码^为11。这种编码可能对研究结果产生有意义的影响，也可能没有^影响。此外，给定条件的几个代码可能存在与问题¹³中的疾病有不同程度的相关性。调查小组应对《国际疾病分类》、《第九次修订本》、《临床修改（ICD-9-CM）》和/或ICD-10-CM编码手册进行全面的文献检索和审查，以确保研究包括适当的编码。

可采用多种方法提高诊断代码的灵敏度和准确性，以定义合并条件。应列入适当的"回顾"期，以确定基线合并症。回诊期包括入学前提供的住院和门诊服务。一年的周期可能是最佳^的14年。此外，需要两个单独的声明，而不是一个单一的索赔可以增加特异性，而补充编码数据与药物数据可以提高灵敏度^15。选择对部分数据的手动图表审核可用于验证编码策略的准确性。

一旦为相关人群定义和评估合并症，就可以使用倾向评分来平衡治疗组之间协变量的差异。倾向评分来自患者被分配到基于已知协变量的治疗的概率。考虑这种倾向治疗可以减少协变量对治疗分配的影响，并有助于对治疗结果产生更真实的估计。虽然倾向分数不一定能为多变量模型提供卓越的结果，但它们确实允许评估经过处理和未经处理的群体在应用倾向分数³后是否具有可比性。研究研究者可以分析在倾向匹配或治疗权重（IPTW）的逆概率前后协变量的绝对标准化差异，以确保已知的混杂物在组之间得到平衡。重要的是，未知的混淆可能不平衡，人们应该意识到剩余混淆的可能性。

然而，当正确执行时，倾向分数是一个强大的工具，可以预测和复制随机对照试验^{的结果16。}在现有的倾向评分技术中，匹配和IPTW通常首选^17。在IPTW内，患者按其治疗倾向或概率加权。稳定重量通常建议超过原始重量，而修剪重量也可以被认为是18，19，20，21。

一旦研究组是平衡的，他们可能会跟随，直到感兴趣的结果。利用行政数据进行的研究可能对重新接纳率和事件时间分析等结果感兴趣。在有关死亡率的研究中，军事卫生系统数据库包括一个生命状态领域，可以使用国家死亡指数（NDI）22、23进一步扩展。NDI 是一个集中的数据库，由疾病控制中心管理，由州办事处提供死亡记录信息。调查人员可以根据死亡证明要求基本的生命状态和/或具体死因。

以下协议详细介绍了使用 MDR 进行管理数据库研究的过程，该研究增加了来自 NDI 的死亡率信息。它详细介绍了 IPTW 的使用以平衡两个治疗组之间的基线差异，包括 SAS 代码和示例输出。

Subscription Required. Please recommend JoVE to your librarian.

Protocol

以下议定书遵循我们机构人类伦理委员会的指导方针。

1. 定义队列

使用 1）注册表或 2）数据点确定并明确定义计划队列的包含和排除标准，这些数据点可以从 MDR 中提取，例如诊断或程序的管理代码（即，所有患者超过两个心房颤动的门诊诊断或住院诊断）。
1. 如果使用注册表，请包括两个或多个患者标识符，以便与军事卫生系统数据存储库进行精确匹配，例如医疗记录编号（在不同数据集中列出，如 patuniq 和 edipn）、全名、出生日期和/或赞助商的社会保险号。
  注：与使用个人健康信息的所有研究一样，需要并必须遵守保障措施。在收集过程中必须采用适当的加密和数据管理，并且应尽快取消信息识别。
  注：在参考赞助商的社会保险号（sponsn）时，所有患者都列出他们与军人（或赞助人）的关系，包括保荐人、配偶和子女的标识符。请注意，当患者成年并结婚或离婚时，关系代码和赞助商的社会保险号可能会随时间而变化。因此，多个患者标识符有助于确保准确性。
2. 如果通过管理编码定义队列，请执行全面的文献搜索，以确定可能验证了兴趣代码的先前研究。查看 ICD-9-CM²⁴和/或 ICD-10-CM²⁵手册，以阐明代码定义和相邻代码，以确保使用适当的代码范围。此外，请查看手册中包括的交叉参考表，以考虑列入/排除的其他代码。以前的验证研究包含各种管理编码策略的阳性预测价值、敏感性和特异性的报告。这些有助于优化队列选择以及结果识别。
确定在数据请求中包括的对所需队列或其他排除条件是否有限制（例如，基于年龄）。
定义研究周期，以包括收集基线协变量（行政数据研究中一般为 12 个月）的索引日期之前的时间，以及研究结束日期。

2. 界定协变量和结果

通过文献检索和使用 ICD-9-CM²⁴和/或 ICD-10-CM²⁵手册，定义混淆条件的行政代码，如上文步骤 1.1.2 所示。
确定其他必要的协变量，包括人口统计、药物和实验室数据。
在此处查看 MDR 数据词典中的可用数据字段：https://health.mil/Military-Health-Topics/Technology/Support-Areas/MDR-M2-ICD-Functional-References-and-Specification-Documents。

3. 提交 MDR 申请

获得机构审查委员会的批准。
完成数据共享协议应用程序，可在此处找到：https://health.mil/Military-Health-Topics/Privacy-and-Civil-Liberties/Submit-a-Data-Sharing-Application?type=All#RefFeed。作为应用程序的一部分，在 DRT 军事卫生系统数据存储库（MDR）提取工作表（从申请表单链接）上指定请求的数据字段和文件。指定团队是请求数据分析人员提供原始数据，还是团队将直接访问 MDR。进一步指定请求是一次性数据提取，还是要求每日、每月或每年定期拉取。
注：要以任何方式获取 MDR 数据，必须有一个发起人是政府雇员（现役军人或 GS），通常是调查小组的成员。
如果直接访问 MDR，请填写"MDR 授权申请表"和"MDR CS 2875 表格"，可在此处找到：https://health.mil/Military-Health-Topics/Technology/Support-Areas/MDR-M2-ICD-Functional-References-and-Specification-Documents。

4. 访问 MDR 并提取相关数据

如果直接访问 MDR，请按照以下说明访问和使用 MDR，包括软件要求和示例 SAS 程序，这些程序位于此处的"MDR 用户指南"和"MDR 功能指南"中：https://health.mil/Military-Health-Topics/Technology/Support-Areas/MDR-M2-ICD-Functional-References-and-Specification-Documents。
注：文件以 SAS 格式保存，并通过 unix 外壳访问，通常使用 putty.exe 以及 ftp 程序。需要了解 SAS。
有关 MDR 设置的有用概述，请查看 DOD 研究人员的 DOD 指南，了解使用 MHS 数据https://health.mil/Reference-Center/Publications/2012/10/10/Guide-for-DoD-Researchers-on-Using-MHS-Data。
如第 2.3 步所述，请查看 MDR 数据词典，了解有关https://health.mil/Military-Health-Topics/Technology/Support-Areas/MDR-M2-ICD-Functional-References-and-Specification-Documents 的所有可用数据文件的详细信息。
注：并非所有数据文件都包含用于匹配/合并的所有患者标识符。数据字典可帮助列出每个数据文件可用的标识符。例如，提取药房信息需要 DOD ID 号，也称为"patuniq"或"edipn"。因此，在数据挖掘步骤中拥有所有适当的患者标识符对于确保跨多个年和多个数据集匹配所有患者信息的能力非常重要。必须重申，在涉及 PHI 的研究中，在获得必要的批准后必须严格遵守数据保护程序，在不再需要 PHI 后应销毁。
通过访问 vm6 受益人数据（2002 年 9 月+现在）或 pben 文件（2000 年 9 月 — 2002 年 9 月），获取队列所需的患者标识符。
1. 使用下面的宏或类似程序将 vm6 数据与队列文件匹配。在这种情况下，该代码可用作写入，以查找已在队列文件中的给定患者社交的患者病历号（MRN）。在 vm6 数据绘制和队列文件中为患者姓名和出生日期使用不同的变量名称，以帮助以后检查错误。要保护 PHI，请在服务节点上将包含患者标识符的数据存储在数据请求的一部分提供的空间中（请参阅 MDR 用户指南）。
  注： MRN 在 MDR 中称为 DOD ID 号、PATUNIQ 或 EDIPN）。
2. 由于数据库条目永远不会完全没有错误，因此，除了检查程序日志和输出是否有任何潜在问题外，在每次主要步骤后执行错误检查。使用下面的数据步骤查看与上述代码的潜在不匹配（患者文件根据患者/受益人社交情况进行匹配）。将队列文件（姓氏、名字）中的姓名与 vm6 文件（last_name、first_name）进行比较时，仅与前三个字母匹配，以减少因文件之间的拼写/间距差异而产生的错误错误。
3. 查看错误数据文件（"检查名称"）。忽略由标点符号引起的错误（奥赖利 vs. 奥赖利）。检查手动检查健康记录时关注的其他错误，或考虑在存在重大错误且无法验证时丢弃相关患者/患者信息。
从 MDR 中提取其余所需数据。
1. 如果需要，从 vm6ben 文件（2002 年 9 月之前的 pben 文件）获取种族和性别，与队列文件合并，并检查错误，如上文所述：
2. 从死亡主文件获取死亡数据，与队列文件合并，并检查错误，如上所示：
3. 获取分析所需的其他数据文件（有关数据位置和其他有用的 SAS 宏和代码，请参阅 MDR 功能用户指南）。
  注：数据存储在单独的文件中，具体取决于数据是直接由军事医疗保健系统提供，还是由其他地方提供，并记账单到军事医疗保健系统。示例文件如下所示。
  CAPER – 直接护理，2004财政年度至今的门诊档案
  SADR – 1998-2005 年直接护理、门诊档案
  SIDR – 直接护理，住院（直接护理）从1989年至今
  TEDI – 收费护理、机构索赔档案 2001 年至今
  HCSRI – 收费护理，机构索赔 1994-2005
  TEDNI – 2001 年至今的收费护理、非机构索赔
  HCSRNI – 1994-2005财年的收费护理、非机构索赔
  PDTS – 药房文件与个人处方 2002 年*目前

5. 合并数据并构造汇总文件

无论是数据从数据分析员获得，还是直接从 MDR 获得（如上文第 4 节所述）所示，数据文件都需要汇总并合并在一起以形成分析文件。在整个过程中，使用提高数据准确性的方法，包括错误检查和日志和输出审查，如前面讨论的那样。
1. 合并数据时，尽可能使用至少两个患者标识符以确保强匹配（如病历号和出生日期），因为任何字段中都可能存在错误。数据合并后，查看数据以确保预期结果。运行代码以确保名称的前三个字母与另一个标识符或两个标识符匹配，对于验证正确的匹配项很有用（请参阅步骤 4.5.1）。
  注：如果患者在相关期间结婚，姓氏可能不匹配。由于撇号或间距以及拼写错误，名称字段中也可能存在细微的变体。
2. 特别注意过程中终端步骤的匹配，例如定义有结果的患者。
使用ICD-9-CM或ICD-10-CM代码从索引日期之前，即患者被视为进入研究的日期中提取基线合并症。通常，使用索引日期前 12 个月来定义合并症。
1. 确保患者在基线期间有资格使用军事医疗保健系统（每月可在 vm6ben 文件中验证）。
2. 搜索门诊和/或住院档案中的基线诊断代码，在索引日期之前的基线 12 个月内建立基线合并症。使用第 1 节中确立的 ICD-9-CM 或 ICD-10-CM 代码。如果使用 Elixhauser 合并症，请使用 HCUP 的可用软件，确保根据需要修改诊断变量和文件的名称。（https://www.hcup-us.ahrq.gov/toolssoftware/comorbidity/comorbidity.jsp#download）
在索引日期之后搜索住院和/或住院文件，查找 ICD-9-CM 或 ICD-10-CM 代码定义的兴趣结果，例如心肌梗死住院作为主要诊断（在 SIDR 中搜索 410.x1）。
为所有患者设定一个研究结束日期，作为未证明兴趣结果的患者随访的截止时间。在研究结束之前确定哪些患者需要审查。
1. 搜索 vm6ben 文件，以确保通过研究结束日期获得医疗保健资格。否则，在丧失资格时对患者进行审查。
2. 如果将研究限制在医疗系统的活动用户（独立于资格）（如药房的活动用户）上很重要，则确定数据文件中的最后一个医疗保健联系人（如上次用药）并审查患者，该日期。
  注意：使用电话接触要小心，因为在死亡发生后或受益人已以其他方式退出医疗保健系统后，这些联系可能存在于健康记录中。

6. 与国家死亡指数（NDI）匹配

一旦确定了完整的队列，将信息发送到国家死亡指数，以便匹配死亡率是终点。
1. 首先，在 MDR 数据和 IRB 批准请求中包括与 NDI 匹配的意图。在将受保护的健康信息（PHI）发送到 NDI 进行匹配之前，确保获得批准并完成所有数据加密步骤。
"国家死亡指数（NDI）申请表"和要求死亡数据的方向可在此处找到：https://www.cdc.gov/nchs/ndi/index.htm。
通过隔夜邮件将数据发送到受密码保护的 CD 上。结果将在大约 2 周后以同样的方式发送回。
收到 NDI 结果后，查看部分匹配项，以包括/排除。
1. "第 4 章 - 评估 NDI 输出"提供了审核结果的有用概述，可在同一网页上找到：https://www.cdc.gov/nchs/ndi/index.htm。社会安全号码的匹配通常提供最强的匹配。
2. 必要时，在社会保障死亡指数和/或退伍军人事务受益人识别记录定位器子系统（BIRLS）中交叉检查死亡，以提高准确性。请注意，在海外死亡的服务人员可能不会出现在 NDI 搜索中，但通常被识别在 MDR 重要状态文件或 VA BIRLS 中。
完成审核后，将死亡档案与主队列文件合并。

7. 去识别数据

获取所有必要信息后，取消数据文件的标识以帮助保护 PHI。使用"ranuni"为每个患者生成随机患者标识符（请参阅 MDR 功能用户指南）。从数据文件中删除患者社交、病历号、出生日期（计算年龄后）等。如果需要（并经批准），在 SCE 节点上安全地存储将随机患者标识符链接到 PHI 的密钥。

8. 计算倾向得分^18，¹⁹^，²⁶

使用逻辑回归对处理概率建模（SAS 中的前置逻辑）。
1. 指定数据文件（示例中为"dat"）。
2. 使用类语句指定分类变量。使用"ref = first"指定最小值（如 0）作为参考值。
3. 在模型语句中，将处理变量指定为因变量（Rx），并将"事件"的值设置为接收处理的值（本例中为 1）。
4. 在模型中包括任何可能的治疗预测变量，特别是如果它们可能是结果（如死亡）的预测变量。考虑术语之间的相互作用是否会影响治疗。通过使用"*"（如 male_ckd）将它们包括在模型中，或使用下面显示的语法在协变量和末尾放置"^2"来指定所有 2 x 2 交互，以适合特定模型。
5. 使用输出语句指定预测的处理概率（prob）将由"ps"定义，并输出到文件"ps_data"。
  
  注：模型中的变量：男性：男性（二进制），ckd：慢性肾病（二元），肝脏：慢性肝病（二元），糖尿病（二元），疾病：慢性阻塞性肺病（二元），chf：心力衰竭（二进制），卡：冠状动脉疾病（二进制），cvd：脑血管疾病（二元），垫：外周动脉疾病（二元），年龄（连续）。
从预测概率（倾向分数）计算权重。如果患者接受治疗（Rx = 1），则倾向分数权重为 1/（倾向分数）。如果患者没有接受治疗，则倾向分数权重为 1/（1 - 倾向分数）。
通过将倾向分数除以平均权重来稳定倾向分数。在下面的代码中，Proc 表示将平均权重输出到数据文件"m"中的变量"mn_wt"。下面保留数据文件"m"mn_wt的数据集，然后计算每个观测值的稳定倾向分数（st_ps_weight）。
应用治疗权重的反向概率后验证平衡。
1. stddiff 宏简化了 SAS 中加权前后协变量的标准化均值差异。宏的代码可以在此处找到：http://www.lerner.ccf.org/qhs/software/lib/stddiff.sas。
2. 在加权之前计算标准化均值差。与所有宏一样，宏代码应在调用之前在 SAS 中运行。下面是一个示例调用语句，该示例与感兴趣的协变量一起。
  
  Inds - 输入数据集，groupvar - 定义研究组、字符变量和分类变量、数字变量、连续变量、stdfmt = 标准化差异格式、输出数据集的变量。
3. 再次调用 stddiff 宏以计算加权后的标准化均值差。"Wtvar"指定包含标准化倾向分数的变量，并添加到宏调用语句中。如果标准化差异都小于或等于 0.1，则平衡将被视为成功。
加权前后的 ASD 可以采用表格或图形格式进行报告。有关使用 SAS 宏生成绘图的说明，请参阅补充材料。
在确保测量的混杂物平衡后，IPTW 调整的数据现在可用于单变量分析。

9. 创建结果模型并生成累积入射函数图

可以绘制生成的事件分析时间分析，包括使用 proc 寿命测试生成生存图。使用权重语句指示标准化倾向权重。
要使用倾向权重生成 cif 图，请使用 proc phreg。
1. 在 proc phreg 中，引用协变量文件以指定生成绘图时使用的协变量值。在这种情况下，协变量文件仅包含单个变量 Rx，可以是 1 或 0。
2. 打开切换 ods 图形。根据需要使用其他语句为图形或文件类型（jpeg 等）指定输出文件，请参阅https://support.sas.com/documentation/cdl/en/statug/63962/HTML/default/viewer.htm#statug_odsgraph_sect014.htm）。
3. 在 proc phreg 语法中，使用权重语句指定标准化倾向分数变量。使用基线语句指定基线协变量的值，以便能够绘制累积入射函数。使用"rowid"（在本例中为 RX 1 vs. 0）指定用于绘图的层。结果变量（"事件"）之后的括号中的数字指定应审查的变量的值，该值应包括审查日期和任何竞争事件。在这种情况下，0 是审查的，1 是真实事件。

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

完成 IPTW 后，可以使用 stddiff 宏代码或 asdplot 宏代码分别生成绝对标准化差异的表或图。图 1显示了使用 asdplot 宏在 10，000 名参与者中适当平衡的示例。应用倾向分数后，绝对标准化差异显著缩小。用于绝对标准化差值的截止点有些任意，尽管经常使用 0.1，表示两个组之间的差异可以忽略不计。在小群体中，适当的平衡更难实现。图 2显示了在 100 名参与者中尝试平衡协变量的失败结果。

一旦生成标准化倾向评分，研究团队就可以进行结果分析。生存分析通常使用，因为需要审查参与者与不均匀的后续信息，图3描述了使用具有标准化倾向分数权重的proc phreg生成累积入射函数（CIF）图的示例。CIF 图描绘了随时间而不断增加的事件数。在这种情况下，未处理或控制组（No Rx）具有更多的事件，并且比处理过的组（Rx）差。

图 1：成功平衡的示例。在大型队列（n = 10，000）中，IPTW 实现了协变量的平衡，所有绝对标准化差异都减少到 0.1 以下。请点击此处查看此图的较大版本。

图 2：不成功平衡的示例。在小组（n = 100）中，IPTW 无法实现协变量的平衡，许多绝对标准化差异仍然大于 0.1。请点击此处查看此图的较大版本。

图3：累计发病功能图比较治疗组示例。随着时间的推移，两组的死亡率累积增加，但未经治疗的组（无 Rx）的死亡率较高。因此，在此示例中，治疗组提高了存活率。请点击此处查看此图的较大版本。

补充材料。请点击此处查看此文件（右键单击下载）。

Subscription Required. Please recommend JoVE to your librarian.

Discussion

当随机对照试验不可行时，使用大型管理数据集的回顾性分析提供了一种高效且经济高效的替代方法。适当的数据集将取决于感兴趣的人口和变量，但 MDR 是一个有吸引力的选项，没有在医疗保险数据中看到的年龄限制。对于任何数据集，熟悉其布局和数据字典非常重要。在此过程中，应小心谨慎，确保捕获完整的数据，并准确匹配和合并数据。

诊断代码应使用现有文献定义，并全面了解 ICD-9-CM 和 ICD-10-CM 编码系统，以最大化所分配诊断的价值。现有的一组合并病代码，包括^Elixhauser27或精制的Charlson合并病指数^28，29，可用于定义可能影响兴趣结果的合并症条件。同样，管理数据中经过验证的编码算法也应加以利用。验证应仍然是一个积极研究的领域，因为继续学习最佳使用ICD-9-CM和ICD-10-CM编码算法，以最大限度地准确分类各种疾病。

倾向性分数可用于解决任何回顾性分析中固有的偏差。有效倾向分数权重或匹配应将绝对标准化差值（ASD）降低到所需阈值以下，通常设置为 0.1。适当的平衡有助于确保治疗组在已知混淆物方面的可比性，并且使用了适当使用的倾向评分技术来成功复制随机试验结果。一旦适当平衡，治疗组可以与单变量事件时间或其他分析进行比较。

即使适当的平衡，也可能存在残留混淆^3，因此调查组应限制未测量的混淆效应。此外，如果协变量对治疗选择的影响强烈，偏差可能仍然保持^30。在小群群中，倾向分数不可能将所有变量的ASD完全降低到0.1以下，并且回归调整可以帮助消除残余不平衡^31。当不再保证适当的余额时，回归调整也可用于子组分析。

如果正确进行，使用管理数据的研究可在没有随机临床试验的情况下及时回答重要的临床问题。虽然不可能消除观察性研究的所有偏差，但使用倾向评分和保持细致的分析可以限制偏见。

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

作者没有什么可透露的。

Acknowledgments

本出版物中报告的研究得到了国家卫生研究院国家促进转化科学中心的支持，奖励编号为UL1 TR002345。内容完全由作者负责，不一定代表国家卫生研究院的官方观点。

免责声明：此外，本文中表达的观点仅是作者的观点，不应被解释为以任何方式代表美国政府、美国国防部或美国国防部的观点。军队。特定产品或科学仪器的识别被视为科学努力的组成部分，并不构成作者、国防部或任何组成部分机构的认可或默示认可。

Materials

Name	Company	Catalog Number	Comments
CD Burner (for NDI Request)
Computer
Putty.exe	Putty.org
SAS 9.4	SAS Institute Cary, NC
WinSCP or other FTP software	https://winscp.net/eng/index.php