视频理解 - 财报，业绩电话会，研报，新闻

视频理解

搜索文档

AAAI 2026 | 北航、东京大学填补AI「语义鸿沟」，过程感知视频理解如何找到「状态」锚点？

机器之心· 2025-12-06 01:15

文章核心观点 - 北京航空航天大学与东京大学联合团队提出名为TSS的新框架，通过引入“状态”作为视觉锚点，并采用渐进式“层级展开”预训练策略，有效解决了程序性视频理解中抽象文本指令与具象视频内容之间的语义鸿沟问题，该工作已被AAAI 2026接收[2][3][7] 现有方法的问题与挑战 - 现有程序性视频学习方法面临数据困境，依赖昂贵的时间密集型标注或利用WikiHow等外部知识库进行弱监督学习，将视频帧与“任务”或“步骤”文本描述强行对齐[2] - 弱监督方式存在优化空间，抽象语言描述与具体视觉像素之间存在断层，例如文本指令“切橙子”与视频中橙子从完整到果肉外露的连续形态变化不匹配，导致模型难以准确理解[2] - 传统“任务-步骤”二元结构过于抽象，视觉传感器捕捉到的是物体视觉状态的连续改变，与粗糙的步骤描述存在信息错位[5][7] TSS框架的核心创新 - 核心洞见在于重构过程性知识的层级结构，在“任务”和“步骤”之上引入了第三层语义——“状态”[3][7] - “状态”被定义为视觉可感知的物体属性具体变化，例如“切橙子”步骤可分解为“橙子完整”、“刀切入橙皮”、“橙子果肉外露变为切片”等状态快照，能够直接作为锚点将抽象步骤锁定在具体视频帧上[7][13] - 利用大语言模型基于现有WikiHow文本数据自动化生成“状态”描述，极大降低了数据成本，无需人工逐一标注[19] 渐进式“层级展开”训练策略 - 摒弃粗暴的“混合训练”，提出符合认知规律的渐进式训练策略，设计了一条Task → Step → State → Step → Task的U型学习路径[9][10] - 策略分为两个阶段：向下扎根，从高层任务出发学习到底层“状态”，迫使模型关注具体视觉证据；向上反哺，在掌握视觉细节后，带着“状态”知识回归高层，重新审视“步骤”和“任务”[11][14] - 实验证明，构建分析-综合闭环的路径（如Path-5: Task→Step→State→Step）性能最优，让模型学习“状态”可以反哺对“步骤”的理解[18][20] 实验验证与性能表现 - 在COIN和CrossTask数据集上进行了下游任务测试，包括任务识别、步骤识别和步骤预测[16] - 提出的方法在多项指标上全面超越基线模型，例如在COIN数据集上，使用下游MLP时，Path-5在任务识别、步骤识别、步骤预测的准确率分别达到83.78%、44.54%、38.07，显著优于未预训练的2.09%、1.37%、0.84以及基线模型Paprika的81.54%、42.39%、34.10[17][19] - 在CrossTask数据集上，Path-5的任务识别、步骤识别、步骤预测准确率分别为89.44%、57.92%、57.13，相较于Paprika模型，步骤识别和步骤预测分别提升1.71和1.36个百分点[17] - 对比实验表明，该方法提出的渐进式路径（如Path-5）性能优于混合训练，证明了TSS框架中的层级结构存在内在逻辑，通过渐进引导能更好地建立关联[21] 工程实现与技术应用 - 采用轻量化微调策略，训练轻量级Adapter模块作为预训练阶段的高效扩展组件，以提升模型表征能力[19] - 该方法为未来构建既能理解高层规划又能精准执行细节的智能系统提供了新思路，特别是在AI Agent需要执行复杂操作的背景下，通过显式建模物体状态变化来弥合自然语言与物理世界之间的鸿沟[23]

TSS（Task-Step-State）框架

TSS（Task-Step-State）框架

理想汽车MCAF重构辅助驾驶视觉认知新范式

理想TOP2· 2025-04-25 12:43

以下文章来源于AcademicDaily ，作者AcademicDaily AcademicDaily . AcademicDaily是一个跟踪、推荐和解读大模型等AI成果的技术交流平台，致力于传播和分享前沿技术。 MCAF在理想内部被称为自动驾驶第三只眼。兼容理想自研的Mind GPT-3o 与 BEV 大模型，无需重新训练。 MCAF是一个多模态粗到细注意力聚焦框架，核心解决的是长视频理解的关键瓶颈。当前视频理解领域对长视频（>5分钟）的处理存在显著缺陷，主流方法（如Video-MLLM）依赖全局压缩或均匀采样，导致细节丢失和冗余计算。MCAF直接针对这一问题，通过多模态分层注意力和时间扩展机制，在信息保留与计算效率之间找到了平衡点，这是其核心价值。在平均时长达60分钟的Video-MME数据集上，MCAF超越其他代理方法（如VideoTree、DrVideo）约3-5个百分点。不同于VideoTree等需要额外奖励模型评估置信度，MCAF利用单一LLM完成生成-评估-调整闭环。这不仅简化了架构（如代码实现仅需1个LLM接口），还避免了多模型协同的兼容性问题，更适合实际部署。不过在NEx ...