利用多模态生理和行为信号对情感用户体验进行计算建模

Xiaohong Zhang; Ikseo Choi

doi:10.3791/69823

Research Article

利用多模态生理和行为信号对情感用户体验进行计算建模

DOI:

10.3791/69823

⸱

April 7th, 2026

Xiaohong Zhang¹ , Ikseo Choi²

¹School of Space Design, Hongik University, ²School of Industrial Design, Hongik University

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

该协议描述了一个计算框架，通过多模态整合生理和行为信号，利用基于关联的特征学习和多模态融合技术，模拟情感用户体验。该协议提出了并测试基于AMIGOS基准数据集的多模态情感建模框架。

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

本研究提出了一种可重复的多模态情感建模计算协议，利用生理信号。该协议的目标是通过整合多种生物信号，利用统一的深度学习框架实现离线情绪识别。本工作包括五个步骤：数据收集、预处理、特征对齐、多模态融合和评估。本研究使用了来自公开可访问AMIGOS数据的脑电图、心电图和GSR信号作为实验基线。生物信号经过预处理和归一化，以提取特定模态特征。异质特征空间通过深度正则相关分析（Deep Canonical Correlation Analysis）对不同模态进行比对，随后通过多模态融合网络对情感状态进行分类。该方案通过离线实验进行了评估，并使用标准性能指标如准确性、精度、回忆、F1评分和AUC与传统融合和分类模型进行了比较。本研究侧重于开发和验证多模态情感用户体验建模的计算框架，而非实时交互系统的部署。UX情感状态预测准确率为92.1%，价值-唤醒分类准确率为94.2%，在情绪维度上持续优于基线模型。这些发现通过基准分析生理数据验证了多模融合工作流程在计算情感建模中的有效性。

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

思维、情感和行动的复杂相互作用塑造了人们的思维和行为方式。情感计算通过利用神经科学、心理学和人工智能的跨学科知识，研究这些关系，构建能够分析、理解和反应人类情绪的系统。这一领域越来越多地应用于人与技术的交流，将表达意识融入响应式人工智能结构中，使技术不仅与理智互动，也与情感条件互动，从而实现更个性化和情感感知的用户知识。情感是一种复杂的心理过程，反映了人类的感知，并在人际互动中扮演着重要^角色。如今，有许多人机交互（HCI）应用需要对情感识别进行^研究。HCI系统环境动态且复杂。在大多数情况下，它需要与被告同步其功能;因此，具有情商的环境能更好地适应这种氛围。因此，本研究探讨了通过多模态生理和行为信号对情感用户体验进行计算^建模。工作更多倾向于在多模态信号整合或与应用情境相关的推断中做出贡献，而非开发或验证交互式系统，而非实际操作。为了避免概念过于宽泛，本研究聚焦于两个主要概念：利用计算方法实现多模态情感建模框架，以及用于结合生理与行为数据的多模态数据融合技术。手稿中出现的所有其他主题均被引用以提供相关背景，以了解所开发模型的相关性。

每种情绪模式传递的关于一个人情感的不同信息，是无法从其他感官系统中推导出来的。从身体运动中提取情感，涉及整体的身体运动模式，具有^识别个体非语言感受的优点4.语言和面部表情可以传达身体动作和人体信号中无法获得的素材。人类会同时或结合使用多种情绪模式。每种治疗方式都有其优势。为了正确检测情感，多模态情绪识别方法可能比单模态情绪识别在识别表现上更优。然而，在情绪转变发生时，面部表情线索、生物信号/生理信号和语音信号往往比其他信号更早出现。因此，基于计算机视觉的情绪检测主要关注面部情绪表达⁵。

情感计算已在儿童-机器人交互（CRI）中得到全面研究;情绪感知系统会根据用户的生理和行为信号改变反应。这些研究展示了生物物理情绪感知和适应性互动的可行性。然而，大多数设计的CRI系统仅适用于结构化、任务导向和参与者环境。因此，CRI系统对动态公共环境（如互动展览）的推广性有限。他们的研究指出，情感感知机器人对于提升动力至关重要，同时还能解决个性化等问题。参与是儿童与机器人互动的关键要素，因为情感反应型机器人提供了更丰富、更有效的学习体验。作者⁶ 提出了基于任务和社交互动特征检测用户参与度的框架。他们通过研究结果证明，识别情感线索，包括面部表情和社交行为，使机器人能够动态调整反应，提升用户互动和参与度。长期CRI中的情感适应是一个持续的挑战。《⁷ 》中的作者展示了儿童在一段时间内的情绪，强调机器人需要适应个人的情绪模式和学习风格。

由于其高时间分辨率和对情感状态的敏感性，它在脑电图方面取得了强劲的表现。近期^研究8^、⁹^、¹⁰利用深度学习方法，通过引入时空建模和基于图的注意力机制，提高了跨学科的稳健性。然而，大多数研究仍属单模态，只有少数研究考虑跨多个感官通道的感知与情感互动;因此，它们在沉浸式用户体验场景¹¹^、¹²^、¹³中适用性较低。模型在数据集上进行了评估，显示其性能优于当前最先进技术。作者提出了情感依赖的临界选择^{算法，研究}了脑电功能连接网络特征的强度、聚类系数和特征向量中心性。15号作者研究了一个深层、简单的循环单元网络，试图从脑电信号中获取时间特征，实验结果超过了文献中的相关研究^16,17,18,19。收集大量脑电信号几乎不可能，但可以尝试其他方法，如跨主体方法。

最新研究^20,21在利用极其先进的时空建模算法解决基于脑电信号的跨主体情绪分类问题方面取得了显著进展。其中包括一个时空混合网络，具备增强的领域适应性和动态图关注，用于处理脑电信号中情绪分类中的主体间变异²²。特别是通过使用时间建模机制和动态注意力的空间大脑关系建模，它们显著提升了主体无关的情绪分类表现。关于该问题的另一项研究包括时空同构的脑区交互网络²³。本研究更强调建模时空不变量，以显著增强从脑电信号中情绪分类的受试者间稳健性。尽管这两项研究成果成功证明了纯神经信号在情绪分类方面的卓越表现，但它们仅限于单峰信号，且缺乏对多模态P-E相互作用的探索。相反，当前的研究通过深度学习解决方案，将多种P/E模态结合在一起，提供更丰富多样的情感用户体验建模解决方案，从而推动扩展单模信号模型。

尽管当前的研究，包括利用生物物理信息进行表达性意识儿童-机器人接口的项目，已验证利用多模态生理信号改善情感识别的潜力，但仍受限于领域相关的限制。特别是，这些系统主要针对结构化、任务导向的儿童互动优化，无法推广到更复杂、动态的互动展览环境。此外，基线工作中使用的功能融合技术不可扩展，且倾向于依赖浅层融合方法，无法有效捕捉多感官用户体验环境中复杂的感知与情感交互。此外，基线论文未采用能够在不同环境刺激下对齐和融合高维多模态数据流（如脑电图、面部表情和眼动追踪）的先进深度学习技术。这揭示了在创建高性能计算范式时存在的根本知识空白，该范式不仅能适应不同的受众群体和刺激情境，还通过深度正则相关分析（DCCA）和多模态融合网络（MMFN）架构捕捉感知与情感的交互。弥合这一差距可以显著提升对用户体验（UX）的理解。

该工作的主要目标是创建一个计算系统，通过多模态生物物理和行为感知，在互动展览环境中促进情感适应的用户体验。该框架基于儿童-机器人交互研究和情感计算的情绪建模基本原则，旨在基于脑电图（EEG）、心电图（ECG）、情绪电图（ECG）、情绪波动（EDA）、面部表情和眼动追踪等异质生理和行为线索，建模并记录用户感知-情感互动。通过将深度典范相关分析（DCCA）与多模态融合网络（MMFN）集成，该系统旨在学习不同模态间的共同潜在情感表征，并将这些表征投射到情感用户体验（UX）状态上。该架构的任务是通过支持情境感知的情感推断和动态公共环境中的多感官整合，克服浅层特征融合和年龄限制情感模型的限制。最后，本研究旨在帮助开发更先进、智能且情感敏感的展览系统，响应用户的实时情感反馈和互动模式，从而进一步提升数字文化体验中的参与度、满意度和认知情感共鸣。

本文通过以下方式对文献有所贡献：一个多模态情感建模的计算框架，考虑生理和行为数据。一种多模态融合方法，能够从多个数据源中有效学习感知和情感表征。本建议工作引入了一种新的计算范式，通过基于人工智能的多模态感知和多感官集成管道建模来增强情感用户体验（UX）。其主要贡献是DCCA与MMFN的融合，促进了在脑电图（EEG）、心电图（ECG）、情绪波动（EDA）、面部表情和眼动追踪等异质模式中实现强特征比对和高层次表征学习。这使得人们能够对感官感知与兴趣、投入、惊讶或无聊等情绪状态进行准确的离线评估映射。对公开的AMIGOS数据集的实验验证显示，开发的DCCA+MMFN模型表现优于基线模型（如1D-CNN、CNN-ResNet和LSTM-CNN），价性唤起情绪状态的平均分类准确率为89.4%，离散情绪类别为87.1%。

与以往强调参与者、任务中心情境或使用表面特征融合技术的研究不同，本方法带来了专为动态现实展览环境设计的深度学习框架。通过集成DCCA和MMFN，这项工作提供了一种可扩展且噪声稳健的方法，能够理解异构用户群体中的连续感知-情绪变化。这种高维生理、行为和环境信号的清晰融合，是情感用户体验建模的主要创新。本文提出了一个由人工智能驱动的框架，利用多模态感知和多感官整合建模互动展览中的情感用户体验。该框架通过结合DCCA与MMFN实现了脑电图（EEG）、心电图（ECG）、情绪波动（EDA）、面部表情和眼动追踪等异质模式的稳健比对和融合。与以往仅限于用户或任务中心环境的研究不同，该方法支持在动态公共环境中进行持续的感知-情感建模，因此是情感用户体验研究的重要进展。

本研究的主要创新是创建一种系统化、可重复的多模态生理情感建模方法，系统地处理异质特征比对，然后再进行融合。所建议的框架通过引入使用DCCA的中间跨模态潜在比对阶段，强化脑电图、心电图和GSR信号之间的相关表征学习，这与依赖直接特征连接或决策层融合的传统多模态情绪识别研究形成鲜明对比。通过在分类前保证模态一致性，这种比对驱动的融合方法提升了情感维度上的普遍性和稳健性。其贡献是基于基准测试的端到端工作流程，将预处理、表示对齐、多模态融合和评估标准化在单一深度学习架构内实现，实现可重复且任务无关的生理情绪建模，而非仅仅建议单一算法变更。本研究提出的框架旨在作为多模态情感建模在展览类体验中的可行性和概念性演示。AMIGOS数据集不尝试直接建模真实多感官展览环境，而是作为基准代理，在受控环境中验证建模方法。

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

本研究所用的AMIGOS数据集公开，收集经机构审查委员会事先批准和知情同意，详见原文发表。本研究仅涉及数据集的二次分析，无需额外的伦理审批。

本方法采用特征比对和多模态融合方法处理多模态生理和行为数据，以描述感知与情绪的相关性。本研究提出了一种用于互动展览中情感用户体验（UX）的计算模型，利用多模态生物物理感知和基于人工智能的情感建模。基于基线论文中的生物物理数据洞察，该方法通过同步的脑电图（EEG）、心电图（ECG）、电测（EDA）、眼动追踪、面部表情和环境输入，数字化计算建模用户状态。手稿中的“空间-时间建模”一词指的是通过DCCA实现的空间多通道生理特征表示和模态间相关比对。时间编码：通过BiLSTM进行顺序编码，并在分段窗口内保持时间依赖性。这些多样的信号最初会被预处理并归一化，以考虑不同模态之间的时间和空间相关性。每种模态独立学习特征向量，捕捉与唤起、注意力和参与等情绪相关的模式。为了成功从跨异构数据流的共享情感表征中学习，采用了DCCA。DCCA将每个模态投射到潜在的共同子空间中，在该空间中相关特征得到最大化，同时通过增强的跨模态相关性保留模态特有的信息。这些与模态对齐的潜在嵌入随后传递到多模融合网络（MMFN），该网络通过混合BiLSTM和注意力层结合时间和上下文信息。这种融合使系统能够产生高层次的情感状态，这些状态转化为用户体验指标（例如无聊、兴趣、不适）。最后，分类模块估计情感用户体验状态，并为展览适应提供反馈，例如在计算建模中调整视觉或音频刺激。图1 展示了该方法的架构。

图1：拟议方法的架构。所提出的用户体验建模框架结构，融合了包括脑电图（EEG）、心电图（ECG）、电子电图（EDA）、面部表情和眼神凝视（eye gaze）在内的多模态输入，采用DCCA和MMFN。缩写;用户体验 = 用户体验;EEG = 脑电图;心电图 = 心电图;EDA = 电皮活性;DCCA = 深度正则相关分析;MMFN = 多模聚变网络。请点击此处查看该图的放大版本。

图1中提出的架构展示了一个端到端的情感用户体验（UX）系统，利用深度正则相关分析（DCCA）和多模融合网络（MMFN）进行互动展览中的感知-情感互动建模。该系统首先接收如脑电图（EEG）、心电图（ECG）和EDA生理信号等原始多模态输入;面部表情和眼神凝视的行为信号;以及视听和环境信息等上下文输入。这些信号随后被输入预处理和特征提取模块，执行信号特异性处理（如噪声去除、归一化、特征计算），以生成对每种模态有意义的描述符。其次，DCCA模块将模态成对投射到共同的潜在空间，学习最大相关的嵌入，编码跨模态的内在情感模式。这些多个DCCA模块的高相关性随后被多模融合网络（MMFN）融合，该网络通过层级式地将学习到的功能与深度学习层（可能是BiLSTM）、注意力机制或变换器融合，创建紧凑且高层次的情感表示。这种整合的表征随后被输入情绪和用户体验状态分类层，模型预测情感结果如价值、觉醒，或认知/情绪状态如投入、无聊或过载。在流水线终端可选地提供自适应用户体验反馈环路，使系统能够通过在展览环境中调整刺激或内容，交互式地响应用户状态。这种可扩展且模块化的架构通过关联感知表征学习和深度多模态集成保证了强有力的情感建模，非常适合在交互式或体验式环境中进行情感计算建模。

DCCA与MMFN融合的选择基于当前标准单峰和浅融合模型的局限性。虽然CNN-ResNet和LSTM-CNN能够提取时间或空间特征，但它们在平衡脑电图（EEG）、电子情感反应（EDA）以及不同环境刺激下的面部表情等异质模式方面表现较差。DCCA最大化跨模态相关性以确保潜在表征共享，而MMFN则利用层次融合和注意力机制动态突出最具信息量的信号。这些模块结合起来，为互动多感官环境提供了更可靠、易懂且广泛适用的情感用户体验建模方法。

数据采集
在建议的互动展览感知-情感互动模型框架中，公开可用的AMIGOS数据集²⁴被用作多模态情感数据的基础。AMIGOS数据集提供了来自人类参与者在经历情感诱发刺激（如视频片段）时的生理和行为测量的详尽集合。这些数据包含同步的脑电图、心电图和GSR信号、面部视频记录，以及以离散（如快乐、悲伤）和维度（价/觉醒）形式自我报告的情绪标签。这些模式与本文提出的系统需求高度契合，该系统旨在推断沉浸式多感官展览互动中的情感用户体验（UX）状态。数据集包含40名受试者的录音，每个受试者都暴露于短视频（视频片段<150秒）和长片（电影>14分钟）的情绪刺激，模拟现实生活中的媒体互动。本建议工作范围采用了数据集的预处理子集：30名受试者的记录，这些记录具有无伪造、高质量的脑电图、心电图和GSR信号，以及完整的面部视频和注释文件。这些样本是用来模拟展览场景中多模态情感动态的选用样本。该学习到的数据集是DCCA + 多模态融合网络（MMFN）流程的训练和基准测试基础，在模拟展览环境中，探索了如参与、无聊、困惑和唤起等情感状态作为对视觉、听觉和空间刺激的反应。表1 展示了所提方法的数据集描述。

参数	详情
数据集名称	AMIGOS（情感、人格与情绪研究数据集）
不。参与者名单	总计40个（30个用于包含完整多模态数据的拟议工作）
刺激类型	短视频和长视频片段（情感注释）
脑电图通道	14频道Emotiv EPOC脑电图耳机
心电图	心率传感器（用于心率变异和唤醒）
火药残留	皮肤电导传感器（测量交感神经活动）
面部视频	用于表情分析的高分辨率正面面部视频
情感标签	自我评估的价值、唤醒、优势（量表1–9），加上离散标签
采样率	脑电图：128Hz，心电图/GSR：1000Hz
数据格式	.mat 文件和同步时间戳日志
模态同步	是的——所有传感器和视频同步
每次会谈时长	短片（<150秒）和长片（>14分钟）
应用契合度	情感用户体验建模、多模态融合、实时感知-情绪映射

表1：AMIGOS数据集描述。 本框架中使用的AMIGOS数据集描述，包括参与者信息、模态、采样率及实验设计。缩写;AMIGOS = 一个针对个人和群体的情感、人格和情绪研究数据集。

所建议框架中公开的AMIGOS数据集包含从40名参与者收集的多模态行为和生理数据，其中33人基于记录的优良性和完整性被选入本研究。数据集记录了对短视频和长视频片段的情绪反应，并包含脑电图（来自14频道Emotive头显）、心电图（ECG）心率变异性、GSR皮肤电导以及高分辨率面部视频等信号。情绪状态在维度（价值、唤起、支配）和离散类别中自我报告。数据在不同模态中高度对齐，采样方式也相应——脑电图为128Hz，心电图为1000Hz，GSR为1000Hz。这种配置使数据集非常适合在互动展览中建模用户体验（UX），从而通过基于AI的多模态感知精确追踪感知与情感的交互。

数据预处理
所有预处理步骤、模型训练和评估均分别在定制编写的Python脚本（Python 3.10，PyTorch 2.0）中实现，每个模块分别用于信号预处理、基于DCCA的对齐、MMFN训练和性能评估;关键参数的设置和一些基本计算配置总结见表1。为了处理公开可用的AMIGOS数据集以进行互动展览的情感用户体验建模，首先应对脑电图（EEG）、心电图（ECG）、格雷（GSR）和面部视频等生理和行为模式实施系统性的数据预处理流程。首先，标准化并同步每种模态，然后进行特定模态的预处理。目前，上下文信息仅通过视频刺激中的内在视听线索获得，例如面部表情、视觉运动模式以及语音韵律和背景音频等声学特征。

信号归一化与重采样
所有模态的原始生理信号 x（t）被重新采样为共同频率fs=128 Hz，以实现跨模态的时间比对：

方程1 (1)

重采样使用标准信号处理库函数完成，而非定制算法。具体来说，实现方法是利用Python信号处理生态系统（SciPy）中的重采样工具，该工具采用傅里叶方法插值将信号转换为目标采样频率。选择目标采样率_fs是为了确保在分割和特征提取前，各模态间的时间分辨率一致。随后对每个信号进行z分数归一化，以消除受试者间的变异性：

方程2 (2)

其中μ_x和σ_x分别是信号的试窗均值和标准差。

脑电预处理
脑电图信号从14个通道捕获，经过带通滤波，选择4–45赫兹，以保持认知相关频率：

方程3 (3)

功率谱用于确定信号中的频率模式，这种模式会根据情绪类型不同而异，比如大脑信号，这可以为信号提供有用的信息。韦尔奇的技术是周期图方程3的一种优越技术，该方法提供了频谱密度的估计，并可用于获得频谱图。韦尔奇的技术将时域信号分割为离散的时间区间和构造。每个段都有一个声谱图，然后像方程4所示对所有声谱图进行平均。与完整的FFT方法相比，这一过程更为平滑，因此能够最大限度地发挥信号的功率。最后，使用韦尔奇技术计算功率谱密度（PSD）¹⁹ ，以捕捉频域特性：

方程4 (4)

PSD特征分布在五个频段：Theta（4–8 Hz）、Alpha（8–13 Hz）、Beta（13–30 Hz）、低伽马（30–45 Hz）。

基于视频的面部特征
利用多通道脑电图数据集或类似软件提取每帧视频的面部动作单元（AU）和眼球凝视矢量，随后将这些数据组合成时间序列：

方程5 (5)

情绪标签映射
AMIGOS给出了价性唤起评分和离散情绪标签。连续评级归一化为[0,1]：

方程6 (6)

其中，V 是归一化前的实际观测值， V_min 是数据集中变量的最小值， V_max 是数据集中变量的最大值， V' 是范围 0 到 1 的归一化值。这些标签被用作监督情感建模的真实基础。这些标签被用作监督情感建模的真实基础。

模态间同步
所有模态在必要时通过时间戳对齐或动态时间扭曲（DTW）进行同步：

方程7 (7)

预处理的特征丰富数据随后被输入深度正则相关分析（DCCA）模块，该模块学习模态间最大相关的表示。

使用DCCA进行特征提取
在互动展览情感用户体验建模的设想框架中，DCCA被用于学习脑电图（EEG）、心电图（ECG）、情绪波动（EDA）、面部表情和眼动追踪数据等异构模式中的关联潜在特征。目标是学习一个共同的表征空间，在该空间中，来自不同模态的信号，尽管个体上噪声较大或模态特有，但它们在感知的情绪状态上具有最大相关性和语义一致性。本研究中，DCCA应用于以下模态对：i）脑电-心电图，ii）脑电图-GSR，iii）脑电图-面部特征表现。这些配对的选择旨在捕捉与情感参与相关的互补神经生理和神经行为相关性。为了将DCCA扩展到多模态环境，计算了每个模态对的两对DCCA嵌入，然后使用拟议的MMFN融合，该方法允许在不改变核心DCCA表述的情况下高效整合多个模态。

通过在融合前进行相关驱动的潜在比对，DCCA在结构上将表征比对与决策融合区分开，这与直接处理可能错位表征的跨模态注意力网络或张量融合网络形成对比。这种两阶段架构减少了冗余，并提高了表示的一致性。此外，DCCA直接优化跨模态统计依赖性，而非仅依赖共享损失函数，后者更适合异构生理数据而非多任务学习框架。首先，DCCA²⁰ 用于通过多层叠加的非线性变换顺序处理多种模态来计算表示。图2 展示了本研究中使用的DCCA构建方法。我们采用网格搜索方法确定了深度学习模型设计中最优超参数，用于DCCA方法。经过全面的实验分析，作者选择了随机梯度下降优化器、交叉熵损失和调节参数1e5。接下来，作者选择了15个优化步骤，偏置向量为全零，验证为早期停止准则，Xavier初始化器为权重初始化器。图2 展示了DCCA的工作过程。

图2：DCCA的工作过程。 DCCA的流程流程，展示了将不同模态特征映射到共同潜在空间以最大化相关性。
缩写;DCCA = 深度典范相关分析。请点击此处查看该图的放大版本。

图2 直观地展示了深度正则相关分析（DCCA）内部工作框架，用于两种不同模态——EEG（模态A）和EDA（模态B）之间的共享表示学习。这两种模态都被输入各自的深度特征提取器网络（特征提取器A和B），这些网络有多个隐藏层，学习抽象的、特定于模态的特征。融合前，通过深度正则相关分析（DCCA）实现跨模态潜在比对。为每种模态对（脑电图-心电图、脑电图-EDA和脑电图-面部）构建了两个平行的深度投射网络。利用ReLU激活，每个投影网络由三个完全连通的层组成，尺寸为[256， 128， 64]。对于共享的潜在空间，64是最终的嵌入维度。以L2正则化系数为1e-5保证数值稳定性，目标函数最大化投影模态嵌入之间的典范相关。偏置矢量初始化为零，权重通过Xavier初始化初始化。为了稳定对齐学习，DCCA模块在MMFN培训前会单独进行培训。为了保持比对一致性，DCCA和MMFN之间没有端到端的微调。这些神经网络流水线并行接受输入数据流，但保持隔离。每个模态的特征提取器输出随后被投影到共同的潜在空间，将两种模态的特征映射为结构可比。投影根据DCCA的目标进行优化，即最大化脑电图与EDA潜在表现之间的相关性。通过获取这一高度相关的子空间，DCCA确保输出嵌入保留两种模态的互补且语义显著的模式，这对于情感识别或情感计算等后续应用至关重要。

在这项工作中，特征通过DCCA进行转换，然后进行积分以进行分类。DCCA模型（见图2）采用深度学习模型进行特征转换。CCA层计算相关性，随后用于特征组合和分类。假设矩阵方程8 存储脑电图模态的试验，矩阵方程9 包含人脸视频模态实验。在这种情况下，脑电图试验和面部视频片段中的特征维度分别表示为n1和_n2，而总试验次数则用MA表示。对于每种模态，作者创建了以下深度神经网络，以非线性方式重新排列输入特征：

方程10 (8)

其中非线性变换的参数表示为HT₁和HT₂;每个神经网络的后续特征表示为方程11 和方程12 ，DCCA 特征的测量为 n。递归学习参数 HT₁ 和 HT₂，由 DCCA 生成，尽可能提升了 ON₁ 与 ON₂ 之间的相关性：

方程13 (9)

通过反向传播算法训练 HT₁ 和 HT₂ 的参数相互学习。为了得到预期答案，目标函数的梯度被近似为建议。经过训练的超空间SP中，ON1和ON2∈SP被改造后。DCCA的作者主要未明确提及使用改变特征。修改后的特性可以以最适合用户应用的方式使用。在这项工作中，作者从变异特征中获得了以下融合特征：

方程14 (10)

其中α和β代表权重，保持α + β = 1。通过DCCA积分的ON特性会输入到SoftMax分类器中。情绪识别任务用于训练分类器。如前所述，构建跨多种格式的数据融合 DCCA 有一些优势。例如，为了观察以模态为中心的变换的特性和相关性，DCCA在特征层面的融合中明确获取了每种模态的ON1和ON2。此外，通过控制非线性映射函数 f1（·）和 f2（··）可以保留基于情感的数据。此外，作者在加权和融合中对每种模态使用了等价权重。多模态聚变网络（MMFN）用于预测用户体验状态，接收了这一合并空间。对于多模态比对，采用层次方法，首先通过重采样和时间戳对齐时间对齐原始信号，然后通过深度规范相关分析（DCCA）获得来自不同模态的语义丰富信号的比对。这确保了在MMFN中基于注意力的融合过程之前，模态感知表征被转化为一个共同的潜在空间。

多模态融合网络（MMFN）用于情感用户体验建模
MMFN分别编码每种模态，然后通过融合门和注意力机制融合，输出情绪预测的综合表征。

模态特定编码
设x^（i）∈R^di为第i模态（例如脑电图、EDA）的特征向量。每种模态都用神经编码器编码：

方程15 (11)

门控融合机制
为了管理每种模态的信息流，采用了融合门：

方程16 (12)

方程17 (13)

σ是乙状结肠激活功能。⊙以元素为特征。这使得网络能够动态地降低噪声模态或提升有用特征的权重。

跨模态注意融合
注意力层学习每种模态表征应赋予多少权重：

方程18 (14)

方程19 (15)

α（i）是注意力权重方程21 ，融合后的最终表示。

情感状态预测
融合向量被输入到输出层，用于预测价性/唤起或用户体验状态：

方程22 22(16)

其中方程23 可以用来表示：离散情绪类别（快乐、中性、悲伤）、连续尺度（价值/唤起）和用户体验类别（投入、分心、过载）。

图3：MMFN的结构。 MMFN结构结合模态特定编码器、门控融合和基于注意力的整合技术，用于情感状态预测。
缩写;MMFN = 多模聚变网络。请点击此处查看该图的放大版本。

图3 展示了多模融合网络（MMFN）的工作过程，该网络应用于情感计算框架中，用于情绪和用户体验（UX）预测。模态特定编码器、门控融合层、基于注意力的积分模块和最终分类头构成了MMFN的分层融合架构。它展示了各种异构输入模态，如脑电图（模态A）、EDA（模态B）和面部表情（模态C），如何通过各自的专用编码网络（编码器A、B和C）进行处理。由两层完全连接的独立编码器通过ReLU激活处理每种模态（脑电图、心电图、EDA和面部特征），然后再通过双向长短期记忆（BiLSTM）层捕捉时间依赖关系。每个编码器学习一种模态特定的特征表示，这些特征保留了对应数据流中重要的情感或生理特征。BiLSTM中的每个方向有128个隐藏单元，使每个模态拥有256维的上下文嵌入。为避免过拟合，BiLSTM层之后进行掉落（速率=0.5）。然后，将通过S形激活动态控制模态贡献的门控融合方法应用于编码模态表示。自注意层随后计算不同模态的注意力权重，以抑制噪声信号并突出相关信息。全连通层与用于价激回归任务的线性输出层或离散分类任务的Softmax输出层共同投影融合后的表示。每个编码器的输出随后被输入到多模态融合层，该层对所有模态特征进行串接，并应用注意力机制以突出更有信息量的信号和掩蔽噪声。该操作产生一个通用的潜在表征，将跨所有模态的情绪信号整合成一个高层密度向量。

应用于特定模态的顺序嵌入的BiLSTM层直接模拟时间动力学。BiLSTM通过捕捉分段生理序列中的正向和后向时间依赖关系，实现了情感状态变化的情境建模。此外，时间信息特征的自适应加权得益于其后基于注意力的融合层，该层在时间编码的表征上工作。作者最近更新了文本，使序列构建、重复编码和注意力加权如何协同支持时间建模更加清晰。

拟议的伪代码1以可复现的形式展示了使用DCCA-MMFN进行情感用户体验建模的整体过程。首先，多模态的生理和行为信号被输入一个独立的预处理步骤，涉及噪声减少和尺度归一化。这些特征随后被输入DCCA，在指定模态对中共同学习相关特征，旨在实现稳健的跨模态比对。对齐特征随后被整合到一个MMFN中，该MMFN由门控和注意力机制组成，用于特定模态的调制，旨在促进信息型和抑制噪声。最终的综合特征表示用于训练一个用于情感和UX相关状态估计的分类器，整体性能评估基于标准指标进行。该拟议伪代码的分步性确保了透明度、可行性以及所有技术知情者对该拟议协议感兴趣的人士的便捷复制。

本框架旨在利用AMIGOS数据集中的多模态生理和行为信号，基于以下步骤预测情感用户体验（UX）状态：第一步：输入的多模态数据包括脑电图（EEG）、心电图（ECG）、电光分析（EDA）、眼神凝视和面部表情信号。最初访问AMIGOS多模态数据集，每个模态都经过信号预处理，包括噪声滤波和归一化，以确保数据质量和一致性。步骤2：为了保持各模态间的时间一致性，所有信号被重新采样到标准频率。随后，会进行模态特异性特征提取，以获得对应每种信号类型的独特特征表示。步骤3：为捕捉跨模态关系，选定模态对（EEG–ECG、EEG–EDA和EEG–Facial）使用深度正则相关分析（DCCA）处理。DCCA网络被训练用于学习配对模态之间的相关潜在表示，从而为每个模态对实现对齐特征嵌入。这些对齐的表示随后被组合成统一的多模态特征空间。步骤4：聚合后的对齐特征作为多模融合网络（MMFN）的输入，采用注意力机制和门控融合策略，有效整合不同模态的互补信息。这种融合过程产生了全面的情感表征。步骤5：所得的表示随后用于训练带有标签的情绪数据分类器，以预测情感用户体验状态。最后，模型性能采用标准指标评估，包括准确率、精度、回忆率、F1评分和曲线面积（AUC）。预测的情感用户体验状态作为框架的最终输出返回。

使用所提出的DCCA-MMFN框架进行感知-情感建模
在互动展览的情感用户体验（UX）计算框架中，感知-情绪建模模块是连接用户对环境刺激的感知反应与其多模态生物物理衍生情绪状态的核心过程。该模块基于DCCA获得的常见生理和行为模态表征，如脑电图（EEG）、电图（EDA）、心电图（ECG）、面部表情和眼动，以记录用户的情感动态。同时，关于周围展览环境的元数据——视觉刺激、声景、互动模式和环境特征——被用来编码感知线索。通过多模融合网络（MMFN）将这些多模态表示结合起来，模型从感知刺激特征和情绪标签或维度（如价性、唤起、参与度）获取详细的非线性映射。这种映射使系统能够持续了解用户对各种展览元素的情感反应，并据此调整内容或界面，以增强参与度、满意度或认知共鸣。最后，感知-情感建模促进了情感感知的交互适应，这构成了计算建模和用户敏感展览系统的核心。

首先，DCCA模块被训练以学习每个模态对相关的潜在表示。所得嵌入作为MMFN的输入，随后进行后续顺序训练以完成情感预测任务。不进行端到端的微调以保持训练的稳定性。

类别	参数	价值 / 描述
信号预处理	脑电图带通滤波器	4–45 Hz
	重采样频率	128 Hz
	窗口长度	2 秒
	窗口重叠	50%
	归一化	Z分数归一化
DCCA 架构	隐藏层的数量	每个模态有3层
	每层神经元数	128–64–32
	潜在维数大小（n）	32
	正则化参数	1 × 10⁻⁵
	优化器	亚当
	学习速率	0.001
	批次大小	32
	最大训练时期	150
	早期停止耐心	15个时代
MMFN 配置	编码器类型	BiLSTM
	隐藏单位	64
	辍学率	0.3
	融合策略	带注意的门控聚变
	关注类型	脑电图、心电图、大胆神经反射、视频
培训与评估	损失函数	交叉熵损失
培训与评估	列车与试车分段	五重交叉验证
	评估指标	准确性、精准度、回忆、F1分数、科恩卡帕、AUC–ROC
可重复性检查点	脑电图输入张量形状	通道×时间采样（例如每个窗口14个×256个）
	DCCA输出表示	32维共享潜在嵌入
	MMFN输出	情感类概率（价性-唤起类或离散类）
	预期验证性能	85–90%的分类准确率

表2：拟议DCCA–MMFN算法的参数。 拟议情感用户体验建模框架中考虑的预处理、架构、融合、训练、评估和可重复性参数的总结。缩写;DCCA = 深度正则相关分析;MMFN = 多模聚变网络;用户体验 = 用户体验。

表2中列出了所提DCCA-MMFN框架内使用的所有参数，涵盖信号预处理、深度架构设计、聚变技术及训练条件。生理信号被均匀重采样并归一化，以使其与各自的模态同步。DCCA层配置为多层非线性变换，有助于学习最大相关的潜在空间，而MMFN组件则使用带有门控注意力机制的BiLSTM编码网络，动态权衡不同模态的价值。培训和评估的要求被明确定义，确保与现有选项进行公平对比。

所建议的框架旨在作为情感感知系统的计算基础，这些系统在多个维度中使用行为和生理信息。该架构在概念上可适应现实环境，如智能展览空间、自适应智能界面和情感感知人机交互系统，尽管本研究通过使用公开的AMIGOS数据集进行受控离线实验验证了模型。该框架可作为需要可靠情感推断的应用的基本模块，提供统一的融合技术、跨模态比对和结构化预处理。然而，本研究中将这些环境描述为可能的部署上下文，而非已实验性部署的系统。

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

对拟议系统的评估
为评估拟议系统，他们在公开的AMIGOS数据集上进行了实验，该数据集提供了40名暴露于情感刺激下的用户的脑电图、心电图、格雷达、视频和音频同步测量。本研究使用了33名参与者的数据（在预处理和未完成试验移除后），共计1320个价值和唤醒维度的有效样本。评估强调了情绪分类和情感用户体验状态预测，采用基于DCCA的表征学习层和多模融合网络（MMFN）。结果在所有情感状态的预测准确性和鲁棒性方面均显著优于预测。MMFN中注意力增强的融合过程是强调主导模态在每种情境中作用的关键。表3 展示了模拟环境。

组成部分	规格 / 工具
编程语言	Python 3....

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

空间、环境和物理交互情境，如空间布局、人群密度或环境条件，在AMIGOS数据集中未明确给出。因此，这些因素也未直接在当前实验中建模。所建议的情感用户体验（UX）建模计算框架远远超越了基础论文中关于基于生物物理情绪检测的用户任务导向儿童与机器人交互的基础概念。将情感计算推广到动态、互动的展览环境，所建议的模型扩展了应用范围、用户群体和条件。与基础论文使用结构化交互和动态贝叶斯混合模型（DBMM）静态干预逻辑不同，新框架集成了更具可扩展性和稳健性的架构，涉及深度正则相关分析（DCCA）和多模融合网络（MMFN）。这使得系统能够管理脑电图（EEG）、心电图（ECG）、电动信号（EDA）、面部表情、眼动追踪和情境环境信息等多种传感器模态上的复杂感知-情绪动态，提供更详细、连续且可迁移的情感状态建模。从二元干预转向持续情感剖析，代表了在实际沉浸环境中建模情感转变的理论突破。尽管AMIGOS能够严谨评估多模态情感动态，但它是在实验室环境中通过视听刺激收集的，无法捕捉真实展览环境的全部空间、多感官或社会复杂性。因此，本研究结果应被视为概念验证。尽管本文灵感来自沉浸式环境中的情感用户体...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

作者之间没有利益冲突。

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

作者感谢弘益大学空间设计学院和工业设计学院的支持。作者们还感谢展览合作伙伴和参与者对研究的贡献。

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
数据集	AMIGOS 数据集	40名参与者;脑电图（128 Hz）、心电图（1000 Hz）、GSR（1000 Hz）、面部视频、自我报告的价值/唤醒标签	多模态地面真实数据用于情感状态建模
生理传感器	脑电图耳机	Emotiv EPOC+（14声道，128赫兹）	捕捉与注意力、唤起和参与相关的大脑活动
	心电图传感器	Biopac MP150或同等型号（1000 Hz）	心率变异性与觉醒
	GSR/EDA传感器	闪光GSR+或同等（1000 Hz）	皮肤电导作为唤醒度量的衡量
行为传感器	眼动追踪装置	Tobii Pro X2-60 或同类设备	记录凝视与扫视
	面部表情记录	高分辨率摄像机;用OpenFace（AUs，凝视向量）进行分析	提取面部动作单元（AU）和凝视线索
环境投入	视听录制设备	麦克风+摄像机（与刺激同步）	展览期间捕捉情境刺激
软件 / 工具包	OpenFace	开源面部行为分析工具包	提取行动单元（AU），凝视方向
	MATLAB / Python（NumPy、SciPy、scikit-learn）	信号预处理（重采样、z分数归一化、PSD计算）	数据预处理与特征提取
	TensorFlowv2.13 / PyTorchv2.0	DCCA和MMFN的深度学习框架	模型实现与训练
算法 / 模型	深度正则相关分析（DCCA）	非线性特征对齐方法	学习跨模态的相关潜在表征
	多模聚变网络（MMFN）	BiLSTM + 基于注意力的融合层	异构模态的层级融合用于用户体验状态分类
评估指标	准确、精准、回忆、F1分数、科恩s 卡帕，AUC-ROC，混乱矩阵	通过 scikit-learn / TensorFlow 指标实现	模型性能评估
计算硬件	工作站 / GPU 集群	NVIDIA RTX 3080（10GB）或同等配置，32GB内存，Intel i9处理器	模型训练与仿真

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

利用多模态生理和行为信号对情感用户体验进行计算建模

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

Reprints and Permissions

Tags

Related Articles