公司核心发布与产品 - 大晓机器人发布“具身超级大脑模组A1”和“开悟”世界模型3.0,前者是一个可搭载于不同品牌机器人本体的AI大脑,赋予机器狗“空间智能”和“自主决策”能力[2] - “开悟”世界模型3.0在AI模型中建立了物理世界的运行规律,使机器人能更快学会任务并适应新环境,其能力可应用于四足狗、双足人形等多样构型的机器人本体[2] - 公司发布的模组集成了传感器、通信、计算等能力,并包含全景相机以提升视野和事件检测能力[32][33] 技术路径与行业趋势 - 行业技术正从VLA模型向世界模型升级,VLA模型依赖海量“画面—指令—动作”配对数据,但难以理解物理规律,导致泛化能力差,当前具身智能的真机数据量困在10万小时量级,而自动驾驶数据可达数百万小时[3] - 世界模型让机器人从“死记硬背例题”转向“掌握通用公式”,能大幅降低对特定场景和海量真机数据的依赖[4] - 世界模型成为近期大热技术趋势,特斯拉等智能驾驶和具身智能公司也展示了相关布局[6] - 公司认为世界模型、端到端、强化学习是同一条技术链路在不同阶段的延伸,核心是让模型理解并预测真实世界的演化以用于决策与控制[12][13] 技术优势与验证 - 世界模型解决了VLA的短板,VLA偏短序动作学习且缺少对物理世界的结构化理解,世界模型则学会了环境与交互的规律,支持预测、推理、规划,并能在不同任务和场景中泛化[17][18] - 公司强调世界模型必须与下游验证形成闭环,此前在智能驾驶领域,公司将世界模型用于上汽智己的算法业务,攻克“过环岛”、“大车加塞”等高危场景,通过实车检验和校准模型[7][16] - 公司将同样的方法论用于具身智能,选择用“机器狗上街”作为商业化第一站,在真实任务执行中验证和迭代世界模型能力[7] - 公司推出的具身世界模型与Sora等生成式世界模型有本质区别,Sora是视频生成“黑盒”,不理解物理关系和因果规律,而具身世界模型旨在让机器人在真实世界里推理、规划和决策[21][22][23] 世界模型核心能力与架构 - 公司的具身世界模型具备三块多模块能力:多模态理解(理解世界深层属性)、多模态生成(生成可训练的数据和场景)、多模态预测(预测不同动作轨迹)[24] - 世界模型架构分为三个层次,对应不同数据采集:最底层是描述世界物理规律的文本数据;第二层是以人为中心采集的人类与物理世界交互的数据;第三层是配合不同本体的真机动作数据[26] - 公司强调主要数据“以人为中心”采集,因为人自己做动作的数据更容易规模化,可先训练一个有物理常识的大脑再迁移到不同机器人上,而“以机器为中心”采集效率低且数据难以跨本体复用[27][28] - 采用此方法后,对真机数据的需求可减少,真机部分数据可从万小时级别进一步压缩,很多情况下只需将现有真机数据用于校准[29] 商业化战略与路线图 - 公司商业化路线图明确:先用四足机器狗切入道路巡查等城市治理场景;2-3年后通过轮式双臂机器人拓展到无人物流仓;未来再考虑双足人形与更复杂的家庭场景[8][31] - 公司选择机器狗形态作为首发,因其技术更成熟、稳定性更高,能更快进入真实场景[34] - 商业模式上,公司倾向于直接进入场景服务客户,而非将世界模型卖给本体厂商,因为公司更熟悉场景客户需求,且能利用既有资源摊薄进入成本[38] - 公司业务先聚焦To B市场,如智慧城市、园区管理、文旅导览等领域,以驱动产业链成熟,未来会考虑出海,借助现有海外资源和团队顺势推进[41][42][43] 生态合作与竞争优势 - 公司采取软硬一体策略,但不同于苹果的封闭生态,会选择性地自研关键部分,并与生态合作伙伴协作,目标是交付可用的产品方案,降低成本并提升稳定性和安全性[36][37] - 公司认为当前与具身本体公司之间竞争不是主要问题,策略是以场景为导向寻找增量市场,不去争夺存量市场,找到场景后本体厂商反而愿意配合[40] - 公司并非从零开始,商汤科技过去11年的积累为其提供了可复用资源,例如“方舟”视觉平台在城市事件检测的落地应用有助于快速切入安防、巡检场景,海外市场布局也为机器人出海提供了通道[9]
王晓刚和他的“世界模型”:一人管十狗,先让四足机器人上街干活|智能涌现专访