WAP框架

搜索文档
小模型也能超越GPT-4o!邱锡鹏团队WAP框架打造「世界感知」智能体
具身智能之心· 2025-08-22 00:04
核心观点 - 大规模视觉语言模型在具身规划任务中存在处理复杂场景的困难 但环境感知规划叙事增强框架通过四项认知能力注入全面环境理解 显著提升任务成功率 并在基准测试中超越专有系统 [2][6] 技术框架 - 环境感知规划叙事增强框架整合视觉外观建模 空间推理 功能抽象和语法接地四项认知能力 为模型提供全面环境理解 [2] - 仅通过课程学习使用原始视觉观测数据来开发和评估模型 不依赖与环境无关的模仿学习 [2] 性能表现 - 在EB-ALFRED基准测试中 Qwen2.5-VL实现60.7%的绝对任务成功率提升 [2] - 常识推理方面提升60.0% 长周期规划方面提升70.0% [2] - 增强后的开源模型大幅超越GPT-4o和Claude-3.5-Sonnet等专有系统 [2] 模型参数 - 框架将7B参数模型任务成功率提升60.7% [6] 应用领域 - 多模态模型在具身规划任务面临严峻挑战 该研究为具身规划带来新的可能 [6] - 研究涉及从视觉到行动的创新框架 突破多模态模型的具身规划瓶颈 [7]