该协议提供了一种以与神经生理学措施的时间锁定兼容的方式跟踪啮齿动物随时间推移的自动斜视的方法。预计该协议对研究偏头痛等疼痛疾病机制的研究人员有用。
Method Article
该协议提供了一种以与神经生理学措施的时间锁定兼容的方式跟踪啮齿动物随时间推移的自动斜视的方法。预计该协议对研究偏头痛等疼痛疾病机制的研究人员有用。
自发性疼痛一直难以实时跟踪和以防止人为偏见的方式进行量化。对于头痛的指标尤其如此,例如偏头痛等疾病。斜视已成为一种可以随时间测量的连续可变指标,并且可有效预测此类分析中的疼痛状态。本文提供了一种使用 DeepLabCut (DLC) 自动化和量化具有自由旋转头部运动的受限小鼠的斜视(眼睑之间的欧几里得距离)的方案。该协议能够将斜视的无偏量化与神经生理学等机械测量配对并直接与其进行比较。我们提供了对成功所需的 AI 训练参数的评估,这些参数通过区分斜视和非斜视期来定义。我们证明了以亚秒分辨率可靠地跟踪和区分 CGRP 诱导的偏头痛样表型中的斜视的能力。
偏头痛是全球最普遍的脑部疾病之一,影响超过 10 亿人1。偏头痛的临床前小鼠模型已成为研究偏头痛机制的一种信息丰富的方法,因为这些研究比人类研究更容易控制,从而能够对偏头痛相关行为进行因果研究2。此类模型已证明对偏头痛诱导化合物(如降钙素基因相关肽 (CGRP))具有强烈且可重复的表型反应。在啮齿动物模型中对偏头痛相关行为进行稳健测量的需求仍然存在,尤其是那些可能与成像和电生理学方法等机械指标相结合的模型。
偏头痛样脑状态的表型特征是存在厌光、爪痛觉过敏、面部对有害刺激的痛觉过敏和面部鬼脸3。这种行为是通过在光线(厌光)和爪或面部触摸敏感阈值(爪痛觉过敏和面部痛觉过敏)中花费的总时间来衡量的,并且仅限于长时间(几分钟或更长时间)的单次读数。通过服用偏头痛诱导化合物(如 CGRP)可以在动物中引发偏头痛样行为,模仿人类偏头痛患者3 所经历的症状(即证明表面有效性)。此类化合物在人体中给药时也会产生偏头痛症状,证明了这些模型的构建有效性4。在药理学上减弱行为表型的研究导致了与偏头痛治疗相关的发现,并进一步证实了这些模型(即证明预测效度)5,6。
例如,单克隆抗 CGRP 抗体 (ALD405) 被证明可以减少用 CGRP 治疗的小鼠6 的厌光行为5 和面部鬼脸,其他研究表明,CGRP 拮抗剂药物可以减少一氧化二氮诱导的动物偏头痛样行为 7,8。最近的临床试验表明,通过阻断 CGRP 9,10 成功治疗偏头痛,导致多种 FDA 批准的靶向 CGRP 或其受体的药物。偏头痛相关表型的临床前评估导致了临床发现的突破,因此,对于理解偏头痛一些难以在人类中直接测试的更复杂的方面至关重要。
尽管有许多优点,但使用这些啮齿动物偏头痛行为读数的实验通常受到其时间点采样能力的限制,并且可能是主观的,并且容易出现人类实验错误。许多行为分析在以更精细的时间分辨率捕获活动的能力方面受到限制,这通常使得难以捕获在亚秒时间尺度上发生的更多动态元素,例如在大脑活动的水平上。事实证明,很难以有意义的时间分辨率量化随着时间的推移更自发、自然发生的行为元素以研究神经生理机制。创建一种在更快的时间尺度上识别偏头痛样活动的方法将允许从外部验证偏头痛样大脑状态。反过来,这可以与大脑活动同步,以创建更强大的偏头痛大脑活动概况。
一种与偏头痛相关的表型,面部鬼脸,在各种情况下被用作动物疼痛的测量,可以即时测量并随着时间的推移进行跟踪11。面部鬼脸通常被用作自发性疼痛的指标,因为人类(尤其是非语言人类)和其他哺乳动物物种在经历疼痛时会表现出面部表情的自然变化11。在过去十年中,测量面部鬼脸作为小鼠疼痛指标的研究利用了小鼠鬼脸量表 (MGS) 等量表来标准化啮齿动物疼痛的特征12。MGS 的面部表情变量包括眼眶收紧(斜视)、鼻子隆起、脸颊隆起、耳朵位置和胡须变化。尽管 MGS 已被证明可以可靠地表征动物的疼痛13,但它是众所周知的主观的,并且依赖于准确的评分,这可能因实验者而异。此外,MGS 的局限性在于它使用非连续比例,并且缺乏跟踪随时间自然发生的行为所需的时间分辨率。
解决这个问题的一种方法是客观地量化一致的面部特征。斜视是最可追踪的面部特征6。在考虑所有 MGS 变量(斜视、鼻子隆起、脸颊隆起、耳朵位置和胡须变化)时,斜视占数据总变异性的大部分6。由于斜视对使用 MGS 获得的总分贡献最大,并且可靠地跟踪对 CGRP 6,14 的反应,因此它是在偏头痛小鼠模型中跟踪自发性疼痛的最可靠方法。这使得斜视成为 CGRP 诱导的可量化的非稳态行为。一些实验室使用面部表情特征(包括斜视)来表示与偏头痛相关的潜在自发性疼痛 6,15。
在以一种可以与偏头痛的机制研究相结合的方式进行自动斜视方面仍然存在一些挑战。例如,如果不依赖固定位置,就很难可靠地跟踪斜视,而固定位置必须在会话中以相同的方式校准。另一个挑战是能够在连续尺度上执行此类分析,而不是像 MGS 那样的离散尺度。为了缓解这些挑战,我们的目标是以 DeepLabCut (DLC) 的形式将机器学习集成到我们的数据分析管道中。DLC 是由 Mathis 及其同事开发的姿势估计机器学习模型,已应用于广泛的行为16。使用他们的姿势估计软件,我们能够训练出能够以接近人类的精度准确预测小鼠眼睛上点的模型。这解决了重复手动评分的问题,同时也大大提高了时间分辨率。此外,通过创建这些模型,我们开发了一种可重复的方法来对较大的实验组的斜视进行评分并估计偏头痛样大脑活动。在这里,我们介绍了这种方法的开发和验证,该方法以一种可以与其他机制测量(如神经生理学)时间锁定的方式跟踪斜视行为。总体目标是催化啮齿动物模型中需要时间锁定斜视行为的机制研究。
注意:这些实验中使用的所有动物均根据爱荷华大学机构动物护理和使用委员会 (IACUC) 批准的协议进行处理。
1. 准备数据采集设备
2. 设置 DLC
3. 创建模型
4. 配置设置
注意:在这里,可以定义详细信息,例如要跟踪的点、要从每个训练视频中提取的帧数、默认标记点大小以及与模型训练方式相关的变量。
5. 提取训练帧
6. 标记训练帧
7. 创建训练数据集
8. 评估网络
9. 分析数据/生成带标签的视频
10. 处理最终数据
在这里,我们提供了一种使用 DeepLabCut 以高时间分辨率可靠检测斜视的方法。我们优化了训练参数,并提供了该方法的优缺点评估(图 1)。
在训练我们的模型后,我们验证它们能够正确估计眼睑的顶部和底部点(图 2),这些点用作欧几里得距离测量的坐标点。欧几里得距离定义为眼睛的两个顶部和底部点之间的距离的平均长度。我们的模型能够检测到非斜视(图 2A)和斜视(图 2B)的实例。蓝点表示用于确定每帧的欧几里得距离的点。绿色、黄色、橙色和紫色点用于帮助模型正确估计欧几里得距离,并在头部处于次优位置时降低似然值(即,考虑头部运动和会话期间的位置变化)。然后,我们使用多种不同的方法验证了模型的准确性。
为了验证用于模型的理想帧数,我们训练和测试了四个不同样本帧大小的模型(图 3)。我们首先比较了测试和训练数据之间的均方根误差 (RMSE) 值,以验证模型准确预测未经过训练的测试数据的能力。这种比较表明,手动标记的点和模型标记的点之间的变异性在 300 帧后趋于平稳。这一趋势与报告的可能性平均值相关,在 300 个标记帧后似乎也趋于平稳。我们使用这些报告的似然值来筛选小于 0.92 的点。这些似然值表示模型根据训练数据正确标记给定点的置信度。我们对构成欧几里得距离度量的点的这些值进行了平均,以检查模型相对于彼此的性能如何。虽然 300 帧和 400 帧之间没有显著差异,但我们使用了 400 帧,因为它的平均似然值高于 0.95,这接近我们手动过滤的阈值,并且与类似模型中使用的姿势估计阈值16 一致。
我们验证模型准确性的另一种方法是使用混淆矩阵,将手动注释的帧与 DLC 标记的帧进行比较。两个失明的人在 8 个视频中手动注释了同一只眼睛的 300 帧。我们使用这些数据构建了一个混淆矩阵来评估真假阳性和假阳性和阴性(图 4),其中手动评分的数据用作基本事实。对于 DLC,当欧几里得距离记录为小于 75 像素(即动物斜视)时,记录为正斜视值,而当值大于 75 像素时(即动物不斜视),则记录负值。我们发现阳性预测值为 96.96%,这是模型相对于手动注释的斜视准确预测斜视的时间百分比。我们发现阴性预测值为 99.66%,这是相对于手动注释的斜视,模型准确预测无斜视的时间百分比。这些值显示正确标记的负值和正值的比例。我们还发现真阳性率为 98.1%,真阴性率为 99.46%,分别代表模型相对于所有值正值和负值的准确预测。我们的马修斯相关系数 (MCC) 为 93.8%,表明观测值和预测值之间的相关系数。
一旦我们确信我们的模型能够可靠地跟踪斜视,我们就将这种 DLC 方法与以前发表的使用临床前偏头痛数据集的斜视跟踪方法进行了比较14。我们将另一种方法称为"面积斜视模型 (ASM)",因为它是使用睁眼面积作为连续变量测量斜视14 开发的。面积斜视模型利用训练有素的面部检测软件结合自定义 MATLAB 脚本来分析眼睛的平均像素面积,同时排除跟踪误差率为 >15 的帧。一个主要限制是 "ASM" 不是开源的,因此不能被广泛访问。DLC 允许提高优化和适应性,而无需大量购买软件和硬件。
我们使用了 10 只雌性和 10 只雄性 CD1 小鼠的数据集。在实验上,在记录开始前总共 3 天内,所有动物都在温和的约束下适应 30 分钟。每只动物记录 5 分钟的基线,然后记录 5 分钟的治疗记录。在治疗期间,用 PBS (载体) 或 0.1 mg/kg CGRP (治疗) 腹膜内治疗动物以诱导偏头痛样状态。在光线充足的房间里使用配备红外光的摄像头收集数据,以照亮面部,确保准确的地标检测。红外相机包括一个 Kowa LM35JC 2/3" 35 mm F1.6 手动光圈 C 卡口镜头,焦距为 254 mm,光圈经过适当调整。收集数据后,我们利用 ASM 和 DLC 来分析数据。由于手动评分通常在现场用于量化面部鬼脸,而斜视是面部鬼脸14 的一个组成部分,我们还将我们的数据与手动评分数据进行了比较。
基于先前的发现,外周注射 CGRP 会诱导小鼠的斜视反应,我们预计会观察到载体和 CGRP 治疗之间的斜视反应存在显着差异 6,14。我们比较了 ASM 、手动和 DLC 方法,发现我们的模型稳健地检测到斜视表型,手动和 ASM 方法也是如此(图 5)。值得注意的是,ASM 模型用于评估 CGRP 引起的疼痛和斜视。在那项研究中,Rea 等人将 CGRP 后的斜视反应与福尔马林注射后后斜视反应作为"更传统"的疼痛诱导测定进行了比较14。此外,CGRP 有充分的文献证明通过使用 von Frey 3,17 诱导小鼠的触摸超敏反应。与现场一致,我们将治疗期间的平均斜视标准化为每只动物的 5 分钟治疗前基线,并比较了 PBS (n = 10) 与 CGRP 处理的 (n = 11) 动物。PBS 与 CGRP 处理组的统计分析如下。我们发现,使用区域斜视跟踪方法(p = 0.012,图 5A)时,CGRP 处理的动物表现出平均像素面积减少,并且在手动评分(p = 0.0007,图 5B)和使用我们的 DLC 模型时表现出欧几里得距离减少(p = 0.007,图 5C)。当我们在单个代表性动物中比较每种方法随时间的变化时,观察到相同的模式(图 5)。该动物对 CGRP 处理表现出非常明显的斜视表型,但对 PBS 没有反应。所有模型都能够检测到这些差异,但数据在我们的 DLC 模型中表现得最为清晰(图 5)。当必须以更精细的分辨率分析数据时,精确和准确的指标尤为重要,因为平均并不表示完整的行为读数(例如,大脑活动)。检测小鼠斜视的 DLC 方法使我们能够在毫秒时间尺度上收集数据,并将其时间锁定到大脑活动的测量值(例如,局部场电位),这发生在毫秒时间尺度上。然后,我们可以利用这项技术在偏头痛和其他复杂脑部疾病的背景下构建更强大的大脑状态概况,表明自发性疼痛。

图 1:使用 DLC 生成经过训练的网络的过程概述。 跟踪动物的眼睛特征,然后使用机器学习进行分析的过程的一般示意图。缩写:DLC = DeepLabCut。 请单击此处查看此图的较大版本。

图 2:代表性 CD1 小鼠的自动斜视跟踪示例。 (A) 在治疗日小鼠不眯眼时,显示 DLC 跟踪眼睛轮廓斜视(彩色点)的帧示例。(B) 使用我们的 DLC 模型显示治疗日自动检测斜视的帧示例。欧几里得距离是使用眼睛顶部和底部的 B 和 C 之间的平均距离(蓝点)来测量的。追踪欧几里得距离时,会用到眼睛顶部和底部的蓝色点集。其他点(绿色、黄色、橙色、紫色)是框架地标,用于帮助模型估计欧几里得距离点,并在数据收集后过滤掉次优的头部定位。缩写:DLC = DeepLabCut。 请单击此处查看此图的较大版本。

图 3:用于训练模型的帧数的合理性。 (A) 均方根误差分析表示测试和训练数据集的预测值和观测值之间的平均距离。训练数据集表示训练模型时采样的帧,测试数据集表示用于验证模型识别相似但不同图像的能力的非训练帧。我们使用了五组训练和测试数据,发现测试组的 RMSE 值在 300 帧左右趋于平稳。(B) 给定点被正确标记的可能性 (平均值 + SEM)。这表明 400 个手动标记的帧是理想的,因为原始数据集的平均可能性高于 0.95,同时具有最接近训练数据的 RMSE 分数。这意味着该模型能够非常接近它所训练的点,同时还能报告大多数可能性很高的帧。缩写:RMSE = 均方根误差。 请单击此处查看此图的较大版本。

图 4:DLC 斜视测量的混淆矩阵。 我们从 8 个视频(5 个 CGRP 和 3 个 PBS)中采样了 300 秒,并将这些点与手动标记的二进制是或否斜视分数进行了比较。我们将预测值量化为由 DLC 识别的值,将实际值量化为人工评分的值。然后,我们将其与手动评分的数据进行比较,以了解相对于手动评分的二进制斜视是或否,正确识别斜视的频率。缩写: DLC = DeepLabCut;CGRP = 降钙素基因相关肽;PBS = 磷酸盐缓冲盐水;TP = 真阳性;FP = 假阳性;FN = 假阴性;TN = 真阴性;PPV = 阳性预测值;NPV = 阴性预测值;TPR = 真阳性率;TNR = 真阴性率;MCC = 马修相关系数。 请单击此处查看此图的较大版本。

图 5:用于检测斜视的三种不同模型的斜视表型。 前两行包含三种不同斜视检测模型中每种条件(PBS 或 CGRP)的相同代表性动物。底行反映所有动物的平均值。(A) 在使用先前发表和验证的面积斜视模型14 处理所有数据后,CGRP 处理的小鼠与 PBS 处理的小鼠的平均像素面积(平均总像素面积/基线)减少 (t(18) = 2.805,p = 0.012)。(B) 手动评分数据也有类似的响应 (t(18) = 4.064,p = 0.0007)。(C) 当使用 DLC 处理所有数据时,CGRP 处理的小鼠显示平均眼睑到眼睑的距离(治疗欧几里得距离/处理前欧几里得距离,基线)低于 PBS 处理的小鼠 (t(18) = 3.040,p = 0.007。N = 20 (10 名女性,10 名男性)。误差线表示 SEM ±平均值。 请单击此处查看此图的较大版本。
该协议为使用基于机器学习的工具提供了一种易于访问的深入方法,这些工具可以以接近人类的精度区分斜视,同时保持与先前方法相同(或更好)的时间分辨率。首先,它使更广泛的受众更容易获得对自动斜视的评估。与以前的模型相比,我们评估自动斜视的新方法有几项改进。首先,它通过使用较少的实际有助于斜视量化的点,提供了比 ASM 更稳健的指标。这样可以降低误报和假负的可能性,因为在生成表示斜视的值时,分析依赖于较少的点。换句话说,DLC 模型使眼睛周围的每个点对于包含时间点来说是必要的,但不是足够的。这使我们能够使用与 ASM 相同的点数来过滤次优数据,而不必依赖依赖如此多的组成点所带来的更大可变性。此外,我们通过设计不完全依赖于受过训练的个人准确性的模型来减少潜在的人为错误。
在处理数据时,我们发现我们的方法准确地过滤了给定鼠标眼睛最大尺寸的次优点和大于可能值的异常点(协议第 10 节)。我们使用宏来检查眼睛周围的 10 个点中的每一个点是否都具有大于 0.92 的似然值,并过滤掉低于该值的任何点。将来,可以对其进行调整,使处理后的数据更具选择性。宏还过滤了任何大于 200 像素的欧几里得距离值,因为我们发现眼睛顶部和底部之间的最大可能距离是 150 像素。这可能需要根据实验设置进行更改。如果相机与眼睛的距离不同,则最大值可能会明显增加或减少。这些宏的优势在于,它们允许我们提取眼睛顶部和底部之间的测量值,其方式取决于模型报告眼睛周围所有组成部分点的更高可能性。
DLC 和 ASM 都是有限的,因为它们依赖于鼠标在距相机预定距离的固定位置,以允许在基线和治疗条件之间保持一致的放大倍率缩放。因此,动物本身的运动、设备内的错误定位或实验程序的变化都会损害模型检测眼睛总面积的能力。我们的模型通过利用欧几里得距离(即眼睛长度的上下距离)在一定程度上改进了这些限制,尽管相机的角度不同,动物的运动以及不同会话中的实验变化,但可以改进跟踪,而无需额外的重新校准。然而,我们承认,改进标准化以考虑头部运动可能会导致更好地跟踪移动动物的斜视。
我们方法的另一个局限性是它过滤掉了欧几里得距离接近零的点,表示眼睛的闭合。尽管过滤了这些对斜视有重要影响的因素,我们仍然能够比以前的方法更稳健地检测到 CGRP 诱导的斜视反应 (p = 0.007)。在尝试与其他兴趣点(例如大脑活动)进行比较时,去除斜视的这一组成部分变得特别有限。我们认为,在去除这些点的同时找到显著性表明了这种方法的稳健性,但我们承认去除斜视的这些成分并不理想。使用这种方法的未来研究应该包括更多的异常值框架,以更好地训练模型在斜视接近零时识别斜视。总体而言,开发一种可靠跟踪自动斜视的方法可能使旨在将自然发生行为的重要特征与其大脑状态联系起来的研究成为可能,从而允许对大脑活动概况进行强有力的研究,例如在偏头痛的背景下。
我们没有需要披露的利益冲突。本文中的观点不代表 VA 或美国政府。
感谢 Rajyashree Sen 的深刻对话。感谢麦克奈特基金会疾病神经生物学奖 (RH)、NIH 1DP2MH126377-01 (RH)、Roy J. Carver 慈善信托基金 (RH)、NINDS T32NS007124 (MJ)、Ramon D. Buckley 研究生奖 (MJ) 和 VA-ORD (RR&D) 功绩 1 I01 RX003523-0 (LS)。
| Name | Company | Catalog Number | Comments |
|---|---|---|---|
| CUDA 工具包 11.8 | |||
| cuDNN SDK 8.6.0 | |||
| Intel 计算机,搭载 Windows 11、第 13 代 | |||
| 用于自由漫游鼠标的 LabFaceX 2D 眼睑追踪器附加模块: | FaceX LLC | NA | 任何可以记录动物眼睛的相机都足够了,但这是我们的眼动追踪硬件。 |
| 版本 450.80.02 或更高版本 | |||
| NVIDIA RTX A5500,24 GB DDR6 | NVIDIA | [490-BHXV] | 任何满足为您的 DLC 版本指定的最低要求的 GPU(当前为 8 GB)就足够了。我们使用 NVIDIA GeForce RTX 3080 Ti GPU |
| Python 3.9-3.11 | |||
| TensorFlow 版本 2.10 |
Request permission to reuse the text or figures of this JoVE article
Request Permission