Workflow
思维链(Chain-of-Thought)
icon
搜索文档
张祥雨发现的多模态AI内耗难题,北大找到了解法
36氪· 2025-09-19 10:52
今年6月,阶跃星辰首席科学家张祥雨在访谈中谈及了他在近两年模型训练中遇到的最大困境——多模态AI的内部,一直有一场"内战"。 具体是,在大一统多模态模型训练中,视觉的"理解"与"生成"能力可以共存,却很少协作,甚至时常内耗 。在联合训练时,一方能力的提升甚至还会导 致另一方性能的下降 。 这和我们的认知完全相反。对于一个人类来讲,他对画面的理解越深入,作画也就可能更精妙。但在多模态模型中,理解和生成,二者之间没有形成有效 的"信息增益"和"相互促进"。 张祥雨对此作出的解释是,图像生成太复杂了,得有极其复杂的空间规划、物理常识和语义推理。而Transformer模型虽然强大,但它在一次前向传播中 能执行的逻辑推理步骤是有限的。你让它根据"画一个宇航员在月球骑方形轮子的自行车"这个指令,一次性生成符合所有物理、几何、语义约束的图像太 难了。 而在训练过程中,因为这种单次推理,导致梯度信号太粗糙,训练出来的理解模型根本没法给生成模型有效指导,而反向亦然,生成模块的失败,也无法 有效地帮助理解模块进步。 因此张祥雨给出的解决方法是多模态模型应该像语言推理一样,引入"思维链"(Chain-of-Thought)。让模 ...
端到端模型!GraphCoT-VLA:面向模糊指令的操作任务的VLA模型
具身智能之心· 2025-08-13 00:04
领域介绍 - 视觉-语言-动作(VLA)模型正成为机器人领域的核心范式,旨在实现自然高效的人机交互 [5] - 现有VLA模型基于预训练视觉-语言模型(VLMs)构建,利用其强大的视觉接地和语言理解能力 [5] - 当前模型依赖清晰结构化指令,难以处理现实场景中的模糊指令(如"我想吃辣味河鲜") [6] 技术挑战 - 现有模型无法关联多模态感知与上下文,导致动作规划脱离真实环境 [8] - 观测模态局限在静态二维视图,缺乏对三维交互的建模能力 [8] - 思维链(CoT)方法存在情境感知有限、无法处理模糊指令等缺陷 [8] 解决方案 - 提出GraphCoT-VLA模型,整合结构化CoT推理与实时3D姿态-物体图 [9] - 结构化CoT模块包含:高层任务理解与规划、失败任务反馈、低层未来想象推理 [3] - 姿态-物体图实时捕捉机器人关节配置与物体三维拓扑关系 [13] - 采用dropout混合推理策略平衡深度推理与实时控制需求 [15] 模型架构 - 姿态-物体图构建:通过YOLO-World检测物体,结合深度信息投影为三维点,与机器人末端执行器形成全连接图 [13] - 图编码器使用两层GNN处理空间关系,输出节点特征输入VLM [17][18] - CoT推理流程:场景理解→可行性分析→反馈生成→未来预测(间隔ΔT帧) [19][20] - 整体框架整合多视角图像、本体感受、语言指令和图数据,输出动作序列分布 [22][23] 训练策略 - CoT监督采用交叉熵损失,动作优化采用条件流匹配损失 [24][26] - 联合训练引入CoT监督dropout(概率p),支持推理引导与直接预测双模式 [27][28] - 推理时混合策略:首帧生成完整CoT,后续帧跳过推理直接预测动作 [28] 实验结果 - 在"食物准备"任务中成功率比最优基线Octo提升10%,"服装选择"任务比π₀提升18.33% [37] - 姿态-物体图使成功率最高提升18.33%,动作更连贯自然 [40] - CoT模块显著增强模糊指令下的任务规划能力,减少动作不足或持续挥舞等问题 [41] - 推理频率保持10Hz,与基线π₀相当,满足实时控制需求 [44][45] 技术验证 - 姿态-物体图可视化显示其有效编码机器人与物体的空间配置 [42] - CoT能根据环境变化动态调整决策,预测物体位置与实际高度匹配 [43] - 在双臂机器人上验证,涉及600个训练演示和20次/任务的测试协议 [29][36]