Workflow
商汤王晓刚:世界模型将加快AI从数字空间进入物理世界,「悟能」想做那个桥梁
商汤商汤(HK:00020) 机器之心·2025-08-12 07:34

具身智能与世界模型 - 具身智能「大脑」以「世界模型」为内核,成为AI下一阶段竞争焦点 [1] - 世界模型被视为通往「类人智能」的解法,业界形成新共识 [1] - 2025年下半年具身智能「大脑」成为全球AI领域焦点 [1] - 世界模型技术研究曲线与具身智能产业发展路径交汇,引发行业争夺战 [2] 行业动态与厂商布局 - 谷歌推出具身智能RT-2模型,AI教母李飞飞聚焦具身智能创业 [3] - 国内厂商密集发布具身智能平台:智源研究院RoboBrain、华为云CloudRobo、字节跳动GR-3、京东JoyInside、商汤「悟能」、腾讯Tairos [3] - 商汤优势在于计算机视觉起家、多模态大模型打磨经验、智能驾驶沉淀、大装置算力支持 [3] - 商汤通过「悟能」平台将多年积累赋能行业 [3] 技术突破与挑战 - 大模型带来导航、人机交互、VLA端到端操作三方面技术突破 [7][8] - 自动驾驶技术进步使机器人导航功能提升 [9] - 多模态大模型带来全新人机交互方式 [10] - 世界模型通过学习物理规律和交通法则实现更高层次智能 [12] - 硬件质量和数据缺乏是主要挑战,尤其是规模化数据生产困难 [13] - 仿真数据与现实差距大,计算机视觉技术可带来新动能 [14] 商汤的技术布局 - 「开悟」世界模型应用于智能汽车,衍生出「悟能」具身智能平台 [5] - 平台包含10万3D资产,支持多视角学习,保持150秒时空一致性 [5] - 世界模型三大技术优势:时空一致性(11摄像头同步)、内容可编辑、反应速度实时 [21][23][24] - 「悟能」平台提供第一视角和第三视角数据,推动端到端VLA实现 [27][29] - 与机器人厂商合作形式为提供SDK软件功能API调用 [33] 应用场景与未来展望 - 机器狗可实现陪伴守护,家庭机器人建立情感连接 [30] - 具身智能成熟后将形成人机社交网络,机器人可完成多项家庭功能 [36] - 每项功能突破都将带来巨大市场想象空间 [37] - 商汤规划提供包含视觉、交互、导航、操作的「机器人大脑」 [39]