Qwen负责人转发2025宝藏论文,年底重读「视觉领域GPT时刻」
量子位·2025-12-29 09:01

文章核心观点 - 谷歌DeepMind的研究论文《Video models are zero-shot learners and reasoners》及其提出的视频模型Veo 3,标志着计算机视觉领域的“GPT时刻”即将到来 [1][2][3] - 该研究通过借鉴大语言模型(LLM)的成功路径,使视频模型具备了跨任务的通用能力和零样本学习优势,有望解决视觉AI长期存在的任务碎片化问题 [12][15][16] - 论文提出的“思维链”变体Chain-of-Frames(CoF),让视频模型在逐帧生成视频的过程中进行可视化的推理,为统一处理多种视觉任务提供了基础 [17][18][23] 计算机视觉领域的现状与困境 - 在自然语言处理领域,大语言模型(LLM)通过大规模数据训练和生成式架构,实现了“一个模型通吃所有”的零样本学习,彻底改变了该领域 [7] - 相比之下,计算机视觉领域长期处于任务碎片化的困境,不同任务需要不同的专用模型,例如目标检测用YOLO,语义分割依赖SAM,图像超分和3D重建又需其他工具 [8][9] - 这种针对不同任务采用不同模型架构的模式,导致开发成本高,严重限制了视觉AI的泛化能力,其进步长期是单点突破,未能解决“多任务统一”的根本问题 [10][11] 视频模型Veo 3的技术突破 - 谷歌DeepMind的Veo 3模型通过大规模视频与文本数据的生成式训练,打通了视觉感知与语言理解的壁垒,使模型具备了跨任务的通用能力 [12][13] - Veo 3完美复刻了LLM的零样本学习优势,面对未经专门训练的任务,仅需用文字描述需求,模型就能直接输出结果,无需额外调参或数据微调 [15] - 该模型利用其感知、建模、操控、推理四大核心能力,能够处理62种未经学习过的视觉任务 [26] Chain-of-Frames(CoF)与可视化推理 - 论文指出视频模型的一个关键变化是:视频不再仅是输出形式,也开始体现推理过程,这一现象被称为Chain-of-Frames(CoF) [17][18] - CoF类似于语言模型中的思维链(CoT),但视频模型是通过连续生成的视频帧,将整个推理过程“演”出来,用可见的画面变化替代抽象的符号推理 [18][19] - 在解决如解迷宫、路径规划、规则外推等任务时,模型并非一次性输出结果,而是在连续的视觉变化中逐步逼近正确答案,推理过程被隐含地编码在视频序列中 [21][22] 统一生成框架带来的范式变革 - “逐帧生成即推理”的方式为视觉任务的通用性提供了基础,模型不再为具体任务计算结果,而是在统一的生成过程中不断更新对场景状态的理解 [23] - 在此框架下,分割、检测、编辑、路径规划等原本割裂的视觉任务,被统一到“生成下一帧视频”这一套生成机制中,模型始终只做这一件事 [24] - 在逐帧生成过程中,模型自然完成了感知、推理与决策的协同,因此不再需要为每类任务单独设计模型或系统 [24][25] - 论文观察到,无需针对具体任务进行专门训练或引入额外监督,视频模型已能通过不同形式的提示,在多种视觉任务中展现出零样本泛化能力 [25]