DPPO(刻意训练)
搜索文档
性能超越GPT和Google,北京人形机器人创新中心开源全球最强具身VLM
具身智能之心· 2025-11-17 00:47
产品发布与核心定位 - 北京具身智能机器人创新中心于2025年11月14日正式发布全球最大规模开源的具身视觉语言模型 Pelican-VL 1.0,宣称其性能超越GPT-5同类模型和Google Gemini系列 [1] - Pelican-VL 1.0作为机器人的“视觉语言大脑”,负责将图像信息转化为可理解的语言指令并规划具体行动步骤,是实现具身智能(让机器人像人类一样感知、决策、执行)的核心技术 [1] 研发机构背景 - 北京人形机器人创新中心(国家地方共建具身智能机器人创新中心)于2023年11月成立,是中国首家省级人形机器人创新中心,由小米机器人、优必选科技、京城机电、中国科学院自动化所等企业共同组建,并于2024年10月10日挂牌为“国家地方共建具身智能机器人创新中心” [5] - 该中心已推出通用机器人母平台“天工”系列,这是全球首个全尺寸纯电驱拟人奔跑的人形机器人,实测奔跑速度达12公里/小时,其结构设计文档、软件开发接口等关键资料已全面开放,已有上百家机构基于此进行二次开发 [5] 核心技术:DPPO训练范式 - Pelican-VL性能突破的核心在于全球首创的DPPO刻意训练范式,该范式通过“观察-练习-纠错-提升”的闭环,让模型能够针对薄弱环节进行高效学习,仅用20万条数据就实现了性能超越,数据用量仅为同类模型(通常需100万至500万条数据)的1/10甚至1/50 [8][9] - 对比实验显示,采用DPPO训练的72B参数模型,在视觉理解准确率上提升20.3%,在动作规划合理性上提升25.1%,同时训练时间缩短40% [14] - DPPO范式的四大本质区别包括:具备元认知能力、错误驱动优化、高效数据利用以及部署后的自进化能力 [10][17] 技术资源与规模 - Pelican-VL的训练基于一个由1000多块A800 GPU组成的专用计算集群,单次完整的模型检查点训练耗费超过50000 A800 GPU-小时的计算资源,相当于单块GPU需连续工作近6年 [15] - 模型提供7B和72B两种参数版本,覆盖终端实时响应与云端复杂任务处理的不同需求,其72B参数版本在规模上优于GPT-5(约50B)和Google Gemini(34B/68B)的同类模型 [23] - 训练数据经过严格筛选和蒸馏,从12个领域提炼出包含数亿token的元数据集,数据更聚焦于具身任务,与任务匹配度高 [24] 性能表现与应用 - 在全球公认的具身智能评估基准测试中,Pelican-VL的综合性能超越GPT-5同类模型15.79%,比Google Gemini系列模型提升19.25% [25] - 在具体任务中表现出色,例如在“无序物体抓取”任务中展现精准的空间推理能力,在“复杂场景交互”任务中能完成包含视觉识别、自然语言沟通和连续动作规划的复合指令 [27] - 模型泛化能力突出,在训练数据未涉及的“沙地行走取物”和“斜坡环境操作”等陌生场景中,任务成功率仍保持在80%以上 [28] 产业生态影响 - Pelican-VL以开源方式发布,意味着全球开发者可免费获取模型代码、训练数据和使用手册进行二次开发,此举有望降低中小企业应用具身智能技术的门槛,加速技术迭代和创新应用落地 [33][34] - 模型与“天工”机器人平台结合,已能控制机器人在跑步机上平稳奔跑、上下楼梯,并通过语音交互完成如“递送红色文件”等复杂任务,展现了其作为VLA系统“大脑”连接视觉、语言与动作的强大能力 [29][32]