ETrajEval评估框架
搜索文档
DeepSeek、Gemini谁更能提供情感支持?趣丸×北大来了波情绪轨迹动态评估
机器之心· 2025-12-07 04:33
论文成果与学术认可 - 趣丸科技与北京大学软件工程国家工程研究中心合作发表的关于大语言模型情感支持评估框架的论文,获人工智能顶级学术会议AAAI 2026录用 [2] - AAAI 2026会议投稿竞争激烈,共收到31000篇投稿,最终录用4167篇,录用率仅为17.6%,创历史新低 [3] 研究背景与问题定义 - 情感支持是人机交互的核心能力,但现有大语言模型评估多依赖简短静态对话,未能捕捉情感支持的动态和长期性质 [5] - 情感支持对话已从情绪识别和生成,扩展到角色扮演、心理陪伴等更广泛的以人为中心的任务 [5] - 开发有效的情绪支持不仅能减少负面情绪,还能通过持续高质量互动帮助维持积极的情绪状态 [5] 核心贡献与评估框架 - 团队提出了一套名为ETrajEval的全新评估框架,用于更科学系统地评估大语言模型在长期对话中提供情感支持的能力 [6] - 该框架旨在解决现有评估方法的两大局限:缺乏长期动态互动,以及过分强调以模型为中心的响应质量 [8][9] - 框架采用以用户为中心的视角,关注用户在整个交互过程中的情感轨迹,认为能持续改善并稳定用户情绪状态的模型才具备情感支持能力 [9] - 基于心理学理论,框架提出了三个轨迹层面的量化指标:平均情绪水平、情绪轨迹波动和情绪质心位置,用于表征用户情绪状态的动态变化 [11] - 动态评估框架由三大支柱组成:评估环境、动态交互和基于情感轨迹的指标 [12] 实验设计与数据集构建 - 构建了一个包含328个交互环境以及1152个可能影响人类情绪的干扰事件的大规模基准,以模拟真实情绪变化并评估模型的适应性 [14] - 利用基于心理学理论的情绪调节策略来约束模型响应,鼓励符合已验证治疗原则的支持性行为 [14] - 模拟了涉及重复情绪干扰的长期动态交互,用户情绪轨迹被建模为一阶马尔可夫过程,并应用因果调整的情绪估计来实现对情绪状态的无偏追踪 [14] - 主要贡献包括:提出了动态长期的评估框架与三个轨迹级指标;构建了大规模基准数据集;通过对业界领先模型的广泛评估,发现它们在长期情感支持能力方面存在显著差异 [15] 模型评估结果与关键发现 - 评估了包括闭源与开源在内的多款业界领先大语言模型,如ChatGPT-4o-Latest、Gemini-2.5-Pro、Claude-Opus-4、DeepSeek系列、Qwen系列、Kimi-K2-Preview等 [16] - 关键发现一:顶级的开源模型和闭源模型在整体情感支持能力方面没有显著差异 [16] - 关键发现二:专门为角色扮演设计的模型在维持用户积极情绪状态方面并未优于通用型大语言模型 [16] - 关键发现三:模型在英语对话中展现出比中文对话中显著更强的长期情感支持能力,大多数模型能帮助用户在英语对话中维持更高的平均情绪水平 [17] - 关键发现四:在具体策略应用方面,模型在英语对话中动态调整策略的能力不足;而在中文对话中,模型引导用户改变外部环境以改善情绪的策略应用明显较弱 [17] 可视化分析与深度洞察 - 通过情绪质心位置可视化分析发现,表现最佳的模型(如ChatGPT-4o-Latest、Kimi-K2-Preview)在引导用户达到积极稳定的情绪状态方面能力更强 [21] - 一些针对英语指令调整的模型的质心定位优于其对应的中文模型,表明不同语言的预训练和对齐方式在情绪调节策略上存在差异 [21] - 情绪轨迹可视化表明,情绪轨迹波动得分较高的模型能更有效地帮助用户从低落的情绪状态中恢复,并对多次干扰事件表现出更强的抵抗力 [22] 模型校准与人类一致性验证 - 为验证情感识别模型与人类感知的一致性,构建了一个包含近2000个中英文多轮对话的人工标注数据集 [26] - 提出的因果增强估计校准方法能有效降低混杂因素的影响,提升模型的情感识别性能,应用后不同模型的性能均得到提升 [26] - 评估模型结合校准方法后,与人类判断具有高度一致性,在中文对话上的准确率达到75%,在英文对话上的准确率达到90% [27] 总结与关联项目 - 提出的情感动态轨迹分析框架能更全面、多维度地评估模型的情感支持能力,且与人类评估结果高度一致 [28] - 团队还开源了关联项目,包括测评体系和框架PQAEF,以及情感陪伴能力测评基准和数据集MoodBench [29][30] - 同时开源了趣丸开天情感陪伴大模型供交流与体验 [32]