语义鸿沟
搜索文档
AAAI 2026 | 北航、东京大学填补AI「语义鸿沟」,过程感知视频理解如何找到「状态」锚点?
机器之心· 2025-12-06 01:15
文章核心观点 - 北京航空航天大学与东京大学联合团队提出名为TSS的新框架,通过引入“状态”作为视觉锚点,并采用渐进式“层级展开”预训练策略,有效解决了程序性视频理解中抽象文本指令与具象视频内容之间的语义鸿沟问题,该工作已被AAAI 2026接收[2][3][7] 现有方法的问题与挑战 - 现有程序性视频学习方法面临数据困境,依赖昂贵的时间密集型标注或利用WikiHow等外部知识库进行弱监督学习,将视频帧与“任务”或“步骤”文本描述强行对齐[2] - 弱监督方式存在优化空间,抽象语言描述与具体视觉像素之间存在断层,例如文本指令“切橙子”与视频中橙子从完整到果肉外露的连续形态变化不匹配,导致模型难以准确理解[2] - 传统“任务-步骤”二元结构过于抽象,视觉传感器捕捉到的是物体视觉状态的连续改变,与粗糙的步骤描述存在信息错位[5][7] TSS框架的核心创新 - 核心洞见在于重构过程性知识的层级结构,在“任务”和“步骤”之上引入了第三层语义——“状态”[3][7] - “状态”被定义为视觉可感知的物体属性具体变化,例如“切橙子”步骤可分解为“橙子完整”、“刀切入橙皮”、“橙子果肉外露变为切片”等状态快照,能够直接作为锚点将抽象步骤锁定在具体视频帧上[7][13] - 利用大语言模型基于现有WikiHow文本数据自动化生成“状态”描述,极大降低了数据成本,无需人工逐一标注[19] 渐进式“层级展开”训练策略 - 摒弃粗暴的“混合训练”,提出符合认知规律的渐进式训练策略,设计了一条Task → Step → State → Step → Task的U型学习路径[9][10] - 策略分为两个阶段:向下扎根,从高层任务出发学习到底层“状态”,迫使模型关注具体视觉证据;向上反哺,在掌握视觉细节后,带着“状态”知识回归高层,重新审视“步骤”和“任务”[11][14] - 实验证明,构建分析-综合闭环的路径(如Path-5: Task→Step→State→Step)性能最优,让模型学习“状态”可以反哺对“步骤”的理解[18][20] 实验验证与性能表现 - 在COIN和CrossTask数据集上进行了下游任务测试,包括任务识别、步骤识别和步骤预测[16] - 提出的方法在多项指标上全面超越基线模型,例如在COIN数据集上,使用下游MLP时,Path-5在任务识别、步骤识别、步骤预测的准确率分别达到83.78%、44.54%、38.07,显著优于未预训练的2.09%、1.37%、0.84以及基线模型Paprika的81.54%、42.39%、34.10[17][19] - 在CrossTask数据集上,Path-5的任务识别、步骤识别、步骤预测准确率分别为89.44%、57.92%、57.13,相较于Paprika模型,步骤识别和步骤预测分别提升1.71和1.36个百分点[17] - 对比实验表明,该方法提出的渐进式路径(如Path-5)性能优于混合训练,证明了TSS框架中的层级结构存在内在逻辑,通过渐进引导能更好地建立关联[21] 工程实现与技术应用 - 采用轻量化微调策略,训练轻量级Adapter模块作为预训练阶段的高效扩展组件,以提升模型表征能力[19] - 该方法为未来构建既能理解高层规划又能精准执行细节的智能系统提供了新思路,特别是在AI Agent需要执行复杂操作的背景下,通过显式建模物体状态变化来弥合自然语言与物理世界之间的鸿沟[23]