Workflow
DeepMind率先提出CoF:视频模型有自己的思维链
量子位·2025-09-28 03:39

核心观点 - DeepMind首次提出帧链(CoF)概念 类比语言模型中的思维链(CoT) 使视频模型具备跨时空视觉推理能力 [1][2][3] - Veo 3视频模型展现通用视觉理解潜力 零样本解决全链条视觉任务 被视为视觉推理领域的"GPT-3时刻" [4][5][6] - 视频模型正发展通用基础模型能力 未来可能取代专用模型 遵循"通用价值+成本下降"的发展路径 [25][26][27] 技术原理 - CoF框架使视频模型像语言模型用符号推理一样 实现时间和空间维度的视觉推理 [2][6] - 采用与LLM相同的提示词驱动方法 仅通过"初始图像+文字指令"生成8秒720p视频 无需特殊训练 [7][8] - 通过18384个视频测试验证 覆盖62项定性任务和7项定量任务 [23] 模型能力 - 感知能力:零样本处理基础任务(图像去模糊)和复杂任务(多目标中定位特定物体) [10][11] - 建模能力:理解物理规则(物体沉浮)和抽象关系(物体容纳关系) [13][14] - 操作能力:实现图像编辑(添加属性/背景)和3D模拟(姿态变换) [16] - 推理能力:在5×5迷宫任务中成功率78%(Veo 2仅14%)展现跨时空推理潜力 [19][21] 性能表现 - 相比前代Veo 2实现显著提升 迷宫任务成功率从14%升至78% [21][24] - 多尝试策略(pass@10)显著提升性能 且随尝试次数增加仍有上升空间 [25] - 特定任务仍落后专用模型(如边缘检测精度)但差距正快速缩小 [25] 发展前景 - 视频模型遵循LLM发展轨迹 类似GPT-3从专用模型转向通用基础模型的演进路径 [25] - 推理成本每年下降9-900倍(基于Epoch AI数据)成本问题将逐步解决 [25][26] - 结合推理时缩放和RLHF指令微调等技术 性能有望进一步提升 [25]