Workflow
世界模型
icon
搜索文档
Sim2Real,解不了具身智能的数据困境。
自动驾驶之心· 2025-10-03 03:32
核心观点 - 具身智能领域正面临仿真数据、真实数据与世界模型三种技术路线的选择与融合,行业专家普遍认为仿真数据在当前及可预见的未来具有不可替代的作用,尤其是在模型训练、测试和安全验证方面,而世界模型作为新兴方向,在长期规划和数据生成方面展现出潜力,但其发展仍受限于奖励机制设计、计算资源等因素 [4][19][27] 对Sim-to-Real Gap的理解 - Sim-to-Real Gap的核心在于仿真环境对真实世界模拟不完全,存在视觉细节(如物体摩擦力、光影效果)和物理细节还原不足的问题,导致模型泛化能力弱、仅适配特定场景 [8] - 缩小差距需围绕数据优化展开,包括结合模型需求设计虚拟与真实数据配比、借助AIGC生成丰富数据以兼顾体量与真实性等 [8] - 以阴影问题为例,不同光源位置会形成不同阴影,可作为判断模型对真实世界理解程度的有效依据 [8] - 解决数据问题的一种方案是借助AIGC强大的生成能力,通过替换桌面纹理、光照、物体摆放等方式,兼顾数据丰富性与真实性 [11] 仿真数据与真实数据的价值与应用 - 在自动驾驶等领域,仿真测试已被验证更快速、省时省力且安全,训练用真机更务实,测试用仿真更合适是核心观点之一 [19] - 从学术角度看,若真机数据能极大丰富,同等数量下其训练效果优于仿真数据,但现实是具身智能领域真实数据体量远不及自动驾驶,且机器人本体不易统一,行业期待高,导致真实数据缺口巨大 [20] - 仿真数据在当前阶段的关键作用在于基础模型迭代和测试,没有机构会训完模型不做仿真测试就直接上真机,可避免真机实验中烧电机、损坏关节等难以估量的损失 [21] - 仿真在强化学习规模化上价值更大,若仿真器构建良好,可通过大规模并行训练让模型学习到真实数据中难获取的场景(如物体被碰倒后如何处理) [24] - 仿真数据的核心优势包括代码复用性强(更换机器人时仿真代码基本无需改动)以及在教育领域的显著价值,能降低授课与学习门槛 [26] - 长期来看,仿真数据是更有效的解决方案,只有在仿真无法满足需求时才考虑使用真实数据进行补充 [26] 世界模型的未来研究方向与价值 - 世界模型应用于自动驾驶、具身智能的方向正确,但存在核心问题待解决,如“小世界模型”路径是否可行(即能否基于其直接生成轨迹或策略),以及奖励设计与下游任务衔接问题 [29] - 世界模型并非新概念,与过往相关模型概念相通,该领域研究无需大量计算资源,学术界应聚焦用小资源就能探索的学术问题 [29] - 引入力、触觉等新模态是值得关注的研究方向,可聚焦世界模型中物理规律的相关问题,在有限计算资源下开展尝试 [30] - 在未来12-18个月内,最重要的科学问题是如何在世界模型中引入reward,因为action和observation已有较好发展,而操作领域仍处于混沌状态,适合科研探索 [31] - Genie 3虽能渲染视频且三维一致性较好,但在面向机器人等场景时,当前动作维度(如六维、七维)不足,仍需数据引擎构建对应场景来生成高维度动作数据 [32] - 世界模型的研究对于通用视觉、长期规划和记忆功能等方面展现出潜力,但如何设计合适的奖励机制以及如何应用于更多场景是关键待解问题 [32] 对波士顿动力机器人技术的分析 - 波士顿动力机器人的技术实力体现在其执行任务的“丝滑”性,这不仅涉及单纯的抓取操作,还涉及全身运动,其遥操作部分技术难度很高,需要出色的运动控制作为支撑 [33][35] - 该系统的模型设计若不复杂,但结合出色的底层能力实现了好效果,比设计复杂模型更令人震惊,目前在遥操作素材采集上就落后于该系统 [35] - 具身智能领域的关键不在于算法,而在于数据和硬件,波士顿动力的硬件技术方案与教育界常用方案差异显著,其高度拟人化设计代表了正确发展方向,但核心问题在于其硬件产品并不对外出售 [37] - 实现丝滑效果的另一关键因素是推理层面的架构经过大量调整优化,“避免阻塞”这一问题即便有专门研究,开源方案仍有很大改进空间 [37] - 运动控制(运控)水平的差异是表现差异的重要原因,传统控制的相关技术值得被结合、借鉴到现代具身智能中,以提升机器人动作的流畅性 [38][39]
最新世界模型!WorldSplat:用于自动驾驶的高斯中心前馈4D场景生成(小米&南开)
自动驾驶之心· 2025-10-02 03:04
核心观点 - WorldSplat是一种前馈式4D生成框架,将生成式扩散与显式3D重建相融合,用于自动驾驶场景合成[6] - 该方法通过4D感知潜在扩散模型生成像素对齐的4D高斯分布,再通过增强型扩散模型优化新视角视频,实现高保真、具备时空一致性的多轨迹驾驶视频生成[4][6] - 在基准数据集上的实验表明,WorldSplat在FVDmulti指标上达到16.57,FIDmulti指标达到4.14,显著优于现有方法[31] 技术框架 - 框架包含三个关键模块:4D感知潜在扩散模型、潜在高斯解码器和增强型扩散模型[10] - 4D感知潜在扩散模型以边界框、道路草图、文本描述及自车轨迹为条件,生成多模态潜变量[14][16] - 潜在高斯解码器从潜变量中预测像素对齐的3D高斯分布,并聚合为4D高斯表示[20][22] - 增强型扩散模型对基于高斯分布渲染的视频进行优化,提升细节真实感和时间连贯性[24][27] 算法创新 - 提出动态感知高斯解码器,能直接从多模态潜变量推断精确的3D高斯分布,支持多达48个输入视角[12][21] - 采用静-动态分解方案,将高斯分布划分为静态背景与动态目标,实现4D场景重建[20][22] - 引入混合条件策略,融合退化视角与高质量视角,提升生成保真度与可控性[27] 性能表现 - 在主实验对比中,WorldSplat在FVDmulti指标上达到16.57,较DriveDreamer-2的55.70提升约70%[31] - 在新视角合成任务中,横向偏移±4m时FID T指标为13.38,显著优于Street Gaussian的67.44和OmniRe的67.36[32] - 在下游任务评估中,方法在mIoU指标上达到38.49,较MagicDrive-V2的20.40提升约89%[35] 应用价值 - 支持丰富条件输入包括道路草图、文本描述、动态目标放置与自车轨迹,成为高可控性驾驶模拟器[6] - 生成的合成数据能提升下游感知模型性能,使mAP指标从34.5提升至38.5,相对提升11.6%[35] - 框架无需逐场景优化,可直接沿任意用户定义相机轨迹渲染新视角视频,支持灵活闭环评估[6][23]
梦里啥都有?谷歌新世界模型纯靠「想象」训练,学会了在《我的世界》里挖钻石
机器之心· 2025-10-02 01:30
文章核心观点 - 谷歌DeepMind提出的世界模型Dreamer 4,是一种可扩展的智能体,通过在快速且准确的世界模型中进行想象训练来解决控制任务 [5] - Dreamer 4是首个仅从标准离线数据集(无需与环境交互)就在具有挑战性的电子游戏《我的世界》中获得钻石的智能体 [7] - 该模型利用新颖的shortcut forcing目标和高效的Transformer架构,准确学习复杂的物体交互,同时实现实时人机交互和高效的想象训练 [11] 模型设计概览 - Dreamer 4智能体由一个tokenizer和一个动力学模型组成,两者均使用相同的高效Transformer架构 [17] - tokenizer通过掩码自动编码进行训练,将视频帧压缩为连续表示 [17] - 动力学模型通过shortcut forcing目标进行训练,以实现少量前向传递的交互式生成,并防止随时间累积误差 [17] - 训练流程包括在视频和动作上预训练tokenizer和世界模型,然后将策略和奖励模型微调至世界模型中,最后通过想象训练对策略进行后训练 [19] 实验结果 离线钻石挑战 - 在《我的世界》钻石任务中,Dreamer 4在使用的数据量少100倍的情况下,大幅超越了OpenAI的离线智能体VPT [22] - Dreamer 4超越了利用Gemma 3视觉语言模型通用知识的VLA智能体,在制作铁镐的成功率上几乎是VLA智能体的三倍 [22] - 与基于行为克隆的方法相比,Dreamer 4在四个关键物品的成功率以及获取物品所需时间这两个指标上均表现更优 [24] 人类交互评估 - 在涵盖挖坑、建造墙壁、砍伐树木等16项多样化任务的评估中,Dreamer 4成功完成了14项任务,成功率为14/16 [29] - 相比之下,Lucid-v1模型成功率为0/16,Oasis(small)模型成功率为0/16,Oasis(large)模型成功率为5/16 [29] - Dreamer 4模型参数量为2B,支持640×360分辨率,上下文长度为9.6秒,帧率为21 FPS [29] 动作生成效率 - 仅使用10小时的动作训练时,Dreamer 4的PSNR达到53%,SSIM达到75% [32] - 使用100小时的动作训练时,性能进一步提升,PSNR达到85%,SSIM达到100% [32] - 结果表明世界模型从无标签视频中吸收了大部分知识,仅需要少量的动作标签 [32]
Sim,Real还是World Model?具身智能数据的“困境”与解法
具身智能之心· 2025-10-01 12:48
文章核心观点 - 具身智能领域正面临数据来源的根本性选择:是依赖仿真的效率、真实数据的真实性,还是寄希望于新兴的世界模型技术来弥合差距 [2] - 仿真数据与真实数据各有优劣,当前行业可能处于并将长期处于依赖仿真数据的阶段,但真实数据在特定场景下不可或缺 [14][15][20] - 世界模型(如Genie 3)被视为未来重要方向,但其在奖励机制设计、高维度动作生成等方面仍面临挑战,且计算资源限制其发展 [21][22][23][24][25] 对Sim-to-Real Gap的理解 - Sim-to-Real gap的核心是仿真对真实世界模拟不完全,存在视觉与物理细节还原不足的问题,例如物体的摩擦力、光影效果等差异 [3] - 该差距导致模型泛化能力弱,仅适配特定场景,缩小差距需围绕数据优化,包括结合模型需求设计虚拟与真实数据配比 [3] - 阴影问题可作为判断模型对真实世界理解程度的有效依据,例如通过观察模型能否正确利用阴影信息来停止操作 [3] 仿真数据与真实数据的价值与应用 - 真实数据在同等数量下训练效果优于仿真数据,但具身智能领域真实数据体量远不及自动驾驶,存在巨大缺口 [15] - 仿真数据在当前阶段的关键作用在于基础模型迭代和测试,可避免真机实验中烧电机、损坏关节等难以估量的损失 [15] - 仿真在强化学习规模化上潜力巨大,良好构建的仿真器可通过大规模并行训练让模型学习真实数据中难获取的场景 [18] - 仿真数据的核心优势包括代码复用性强(更换机器人时仿真代码基本无需改动)以及在教育领域可显著降低学习门槛 [21] - 长期来看,仿真数据是更有效的解决方案,只有在仿真无法满足需求时才考虑使用真实数据进行补充 [20] 世界模型的研究现状与挑战 - 世界模型应用于自动驾驶、具身智能的方向正确,但存在“小世界模型”路径是否可行以及奖励设计与下游任务衔接两大核心问题 [21][22] - Genie 3能够从文本生成可交互的动态环境,其核心优势是将“动作”与“观测”良好结合,但面向机器人场景时,当前动作维度(如六维、七维)不足 [24][25] - 未来12-18个月内,最重要的科学问题是如何在世界模型中引入reward(奖励机制),因为action和observation已有较好发展 [24] - 世界模型研究无需大量计算资源,学术界应聚焦用小资源就能探索的学术问题,这类研究更易出成果 [22] - 可引入力、触觉等新模态来丰富世界模型,聚焦其物理规律相关问题 [23] 技术案例分析与发展方向 - RoboTwin项目展示了数据配比的重要性:1.0版本服务小模型,虚拟与真实数据配比约300:20;2.0版本服务大模型,配比达上千:几十 [7] - 在自动驾驶领域,仿真测试已被验证更快速、省时省力且安全,大量安全性测试必然依赖仿真 [14] - 数字人技术中的Sim-to-Real应用是一大突破,可实现输入任意一句话指定表情,让数字人实时展示相应脸部动作 [11] - 波士顿动力机器人的“丝滑”表现得益于其出色的硬件技术方案、运动控制(运控)水平以及经过大量调整优化的推理架构 [26][28][30][31][32] - 传统控制的相关技术值得被结合、借鉴到现代具身智能中,以提升机器人动作的流畅性 [32]
有人在自驾里面盲目内卷,而有的人在搭建真正的壁垒...
自动驾驶之心· 2025-09-29 23:33
行业变革与人才流动 - 车企正经历新一轮组织架构调整 9月有48位高管发生变动 [1] - 头部公司积极调整技术团队架构 理想汽车将智驾团队拆分为11个二级部门 [1] - 人才竞争加剧 比亚迪从斑马智行挖来CTO负责智能座舱业务 [1] - 技术高管身兼多职 蔚来汽车任少卿同时负责公司自动驾驶业务并在中科大搭建实验室 [1] 技术演进趋势 - 自动驾驶算法快速迭代 三年前主流是BEV 两年前转向无图方案 一年前兴起端到端 当前聚焦VLA和世界模型 [1] - 前沿研究方向集中在VLA/VLM 端到端自动驾驶 世界模型 闭环仿真3DGS 强化学习等领域 [3] - 算法工程师面临持续学习压力 需要不断更新认知并跳出舒适圈 [1] 行业信息壁垒 - 学术界与工业界存在明显信息差距 在校学生和中小厂算法工程师对业内实际进展了解有限 [3] - 不同公司之间技术交流不畅 形成信息壁垒 [3] 自动驾驶社区生态 - 自动驾驶之心知识星球已运营三年 形成视频+图文+学习路线+问答+求职交流的综合社区 [5] - 社区规模超过4000人 目标两年内达到近万人规模 [5] - 社区汇集学术界和工业界资源 成员来自上海交大 北京大学 CMU 清华大学等知名高校以及蔚小理 地平线 华为等头部企业 [20][21] 技术资源体系 - 社区梳理40+技术方向学习路线 涵盖感知 仿真 规划控制等核心领域 [10][21] - 汇总近40个开源项目 近60个自动驾驶数据集 以及主流仿真平台 [21] - 提供七大福利视频教程 涵盖世界模型 自动驾驶大模型 Transformer等热门话题 [88] - 举办超过100场专业技术直播 邀请行业专家分享最新研究成果 [90] 职业发展支持 - 建立内推机制 与多家自动驾驶公司合作提供岗位内推服务 [13] - 社区内部交流活跃 成员可咨询行业应用 技术路线 求职跳槽等实际问题 [11][24] - 针对不同基础的学习者提供全栈方向课程 包括0基础入门和进阶提升内容 [12][21]
华尔街见闻早餐FM-Radio|2025年9月30日
搜狐财经· 2025-09-29 23:27
市场表现 - 美股三大指数连续两日上涨至一周高位 标普500涨0.26%报6661.21点 道指涨0.15%报46316.07点 纳指涨0.48%报22591.154点[1][6] - 科技股和芯片股表现强劲 英伟达涨超2% 美光涨超4% 芯片指数两连阳[1] - 中概股反弹 中概指数收涨2% 阿里巴巴涨超4%[1] - 欧洲STOXX 600指数涨0.18%报555.53点[6] - A股大幅上涨 沪指涨0.90%报3862.53点 深证成指涨2.05%报13479.43点 创业板指涨2.74%报3238.01点[7] - 港股科技股普涨 恒科指涨2%[1] 商品市场 - 黄金连续三日上涨创历史新高 现货黄金一度涨近2%首次突破3800美元 COMEX 12月黄金期货收涨1.21%报3855.2美元/盎司[1][8] - 白银续创2011年来新高 COMEX 12月白银期货收涨0.77%报47.016美元/盎司[1][8] - 原油大幅下跌 WTI 11月原油期货收跌3.45%报63.45美元/桶 布伦特11月原油期货收跌3.08%报67.97美元/桶 创三个月最大跌幅[1][8] - 伦铜反弹超2%至逾一年新高 收涨约2.3%报10414美元/吨 COMEX 12月期铜收涨约2.5%报4.892美元/磅[1][8] - 伦锡收涨约2.9%报35490美元/吨[8] 债券与外汇 - 美债收益率下行 十年期美债收益率约为4.14%日内降近4个基点 两年期美债收益率约为3.62%日内降约2个基点[1][8] - 美元指数继续跌离三周高位[1] - 比特币盘中涨近4000美元突破11.4万美元关口 以太坊一度反弹超4%[1] - 以色列谢克尔盘中涨近2%[4] 人工智能与科技 - 国家发改委推出5000亿元新型政策性金融工具 全部用于补充项目资本金 支持民营企业深度参与"人工智能+"行动[1][11] - DeepSeek大模型V3.2亮相 华为和寒武纪芯片同步适配开源 首次自研DSA注意力机制 API价格砍半超过50%[4][16] - Anthropic推出Claude Sonnet 4.5 号称"全球最佳编码模型"[4][17][23] - OpenAI计划推出Sora 2独立App 默认使用版权内容引发争议[4][17] - 科技巨头加码"世界模型"研发 英伟达高管称潜在市场规模高达100万亿美元[22] 平台经济与税收 - 国家税务总局规定平台企业不得以任何形式将自身涉税义务转嫁给平台内从业人员[2][12] - 互联网平台外卖员、快递员等人员年收入12万元以下基本无需纳税[2][12] - 平台企业将于10月1日起首次正式报送平台内经营者和从业人员身份信息及收入信息[12] 地缘政治与贸易 - 特朗普威胁对海外制片征收100%关税[2][13] - 瑞士为降低特朗普的39%关税提议投资美国炼金业 考虑将炼金厂利润率最低业务转移至美国[2][13] - 俄罗斯对乌克兰发动大规模袭击 发射590多架无人机和超过40枚导弹[4][15] - 美国正考虑向乌克兰提供"战斧"导弹 射程可达1500-2400公里[4][15] 半导体与硬件 - 深圳新凯来半导体公司发布30多款半导体设备 开始引入外部投资方[15] - 郭明錤将小米17出货量目标下调20% 原定目标约1000万台 主要因iPhone 17标准款在中国市场强势表现[5][17] - 小米集团港股收跌2%[17] 金融与政策 - 美国黄金储备价值触及1万亿美元 但官方账面价值仍固定在1973年的每盎司42.22美元[4][14] - 美国SEC主席呼吁放松监管 评估以半年报代替季报[19] - 美国8月成屋签约销售创五个月新高 按揭贷款利率下降提振住房市场[20] - 日本央行10月加息可能性约为60% 鸽派委员转向支持加息[21] 行业动态 - 教育数字化加速推进 国家智慧教育平台深化应用试点[24] - 全超导磁体实现35.1特斯拉中心稳态磁场 创造新的世界纪录[24] - 原子级制造可能纳入"十五五"规划 面向集成电路、航空航天等高端制造发展需求[25] - ChatGPT联手Etsy和Shopify开启AI购物时代 Etsy大涨16% Shopify涨超6%[23]
金融时报:超级智能的下一个入口,谷歌、Meta、英伟达......科技巨头都在加码“世界模型”
美股IPO· 2025-09-29 08:51
行业趋势转变 - AI研发重点正从大语言模型转向"世界模型",以理解和模拟物理世界 [1][3] - 大语言模型技术进步放缓,性能飞跃开始放缓,业界认为其正触及其能力天花板 [7][8] - 这一趋势标志着AI领域竞争焦点从语言领域转向物理世界,被视为推动机器实现"超级智能"的关键一步 [3][4] 主要参与者与战略布局 - 谷歌DeepMind发布Genie 3模型,能逐帧生成视频并考虑过去的交互,通过构建模拟环境训练AI [5] - Meta开发V-JEPA模型,模仿儿童被动学习方式用原始视频内容训练,并已在机器人上进行测试 [5] - 英伟达首席执行官黄仁勋断言公司下一个主要增长阶段将来自"物理AI",正利用Omniverse平台支持向机器人领域扩张 [5] - 英伟达高管表示"世界模型"潜在市场规模可能高达100万亿美元,覆盖制造、医疗等实体领域 [1][3] 技术进展与应用前景 - "世界模型"通过学习视频和机器人数据来理解物理世界,应用前景覆盖自动驾驶、机器人和制造业等领域 [1][4] - 近期应用包括娱乐行业,初创公司World Labs开发从单张图片生成3D环境的模型,Runway推出创建游戏场景的产品 [6] - 构建"世界模型"面临巨大的数据和算力挑战,但可通过仿真环境训练,无需承担在现实世界中犯错的后果 [4][5][9] 发展挑战与时间框架 - 实现由新一代AI系统驱动、具备人类水平智能的机器可能还需要十年时间 [9] - 大语言模型被警告永远无法实现人类那样的推理和规划能力 [9] - 构建模型需要收集海量物理世界数据和算力,是一项未被攻克的重大技术挑战 [9]
工业界大佬带队!三个月搞定端到端自动驾驶
自动驾驶之心· 2025-09-29 08:45
端到端自动驾驶行业趋势 - 2023年是端到端量产的元年,2024年将是端到端量产的大年,目前头部新势力和主机厂均已实现端到端量产 [1] - 工业界存在两种主要范式:一段式(如UniAD)直接从传感器输入建模自车轨迹输出,二段式则基于感知结果进一步输出自车和他车轨迹 [1] - 自2023年以来,一段式端到端发展迅速,衍生出基于感知、世界模型、扩散模型和VLA等多种方法,主流自动驾驶企业和车企均在发力自研量产 [3] 端到端与VLA技术核心 - 端到端与VLA涉及的核心技术栈包括BEV感知、视觉语言模型、扩散模型和强化学习等,代表了学术界和工业界最前沿的技术 [5] - 基于扩散模型输出多模轨迹是当前学术界和工业界追捧的热点,多家公司正在尝试落地 [11] - 视觉大语言模型相关的强化学习技术是重点,包括RLHF和GRPO等 [11] 课程内容与结构 - 课程涵盖二段式端到端与一段式端到端前沿算法的细致讲解,内容均为工业界和学术界的Baseline [5] - 第一章介绍端到端自动驾驶发展历史、概念起源及从模块化到端到端的演变,分析一段式、二段式及VLA范式的优缺点 [9] - 第二章重点讲解端到端涉及的背景知识,包括大语言模型、扩散模型、强化学习及BEV感知,为后续章节奠定基础 [9] - 第三章聚焦二段式端到端,解析经典算法PLUTO、CVPR'25的CarPlanner及最新工作Plan-R1,并对比其与一段式端到端的优缺点 [10] - 第四章为课程精华,深入讲解基于感知、世界模型、扩散模型及VLA的一段式端到端子领域 [12] - 第五章大作业为RLHF微调实战,涵盖预训练模块和强化学习模块的搭建与实验,该技术可迁移至VLA相关算法 [13] 技术细分领域进展 - 基于世界模型的方法应用广泛,可用于场景生成、端到端及闭环仿真,是近两年热门技术方向 [14] - 基于扩散模型的方法自2023年下半年兴起,通过输出多模轨迹更好地适应自动驾驶不确定环境,代表性工作包括DiffusionDrive、Diffusion Planner和吉大的DiffE2E [14] - 基于VLA的方法是端到端自动驾驶的皇冠,上限高且难度大,业内招聘需求旺盛,代表性工作包括小米的ORION、慕尼黑工大的OpenDriveVLA及最新的ReCogDrive [14] 行业影响与人才需求 - 学习端到端与VLA自动驾驶可掌握最前沿技术栈,第二章内容是未来两年求职面试频率最高的技术关键词 [10] - 完成课程期望能达到1年左右端到端自动驾驶算法工程师水平,掌握技术框架并对BEV感知、多模态大模型等关键技术有更深刻了解 [19] - 课程面向具备自动驾驶基础、熟悉Transformer大模型、强化学习、BEV感知等基本概念,并有一定数学和编程基础的学员 [18]
AI下一轮飞跃的引爆点:“世界模型”
财联社· 2025-09-29 08:44
世界模型的重要性与行业共识 - 人工智能先驱及行业领袖认为世界模型对打造下一代人工智能至关重要,是实现通用人工智能和物理人工智能的关键[3] - 世界模型被视为实现空间智能的核心,通过整合多模态数据为空间推理和操作提供环境表征,是物理推理的基础[5] - 该方法被认为是弥合人与机器之间认知对齐差异,使人工智能更接近类人智能的途径[5] 全球科技巨头的布局与进展 - 斯坦福大学教授李飞飞已筹集2.3亿美元创立世界模型初创公司World Labs[3] - 英伟达首席执行官黄仁勋认为世界模型能助力实现自主操控机器人、自动驾驶汽车等的物理人工智能[3] - Meta发布代码世界模型LLM,其超级智能AI实验室将与机器人团队合作构建模拟现实物理规律的世界模型[3] - 谷歌DeepMind开发了Genie 3系统,能够根据文本提示生成照片般逼真的开放世界虚拟景观,用于训练具身化人工智能[9] - 特斯拉在感知与决策间嵌入了AI世界模型,以构建虚拟环境进行自动驾驶的学习和验证[10] 世界模型的技术原理与应用价值 - 世界模型通过模拟世界来训练人工智能,使AI能像人类一样从环境中学习并在头脑中呈现抽象版本的世界[5] - 其关键价值在于让AI具备规划行动、执行操作及预测未来的能力,涵盖物理规律与时间维度[5] - 世界模型已对现实世界产生潜在巨大影响,在无人机战争、新型机器人和自动驾驶车辆等领域正从中受益[6] - 该方法可让人工智能在虚拟空间中通过强化学习无休止地玩耍、犯错并学习如何实现目标[9] 当前AI的局限性及世界模型的优势 - 当前基于Transformer架构的AI是在进行预测而非逻辑推理,只能建立世界运作的概率模型[6][7] - 现有AI学习的是输入数据间的关联性,对世界仅有模糊的近似认知,规则编码往往残缺或自相矛盾[6] - 世界模型方法可解决当前AI的薄弱环节,例如一台运行1979年程序的雅达利2600游戏机因其内部世界模型可在国际象棋中击败最先进的聊天机器人[7][8] 具体应用案例与行业影响 - Waabi公司构建了名为Waabi World的虚拟世界,专门用于训练人工智能驾驶卡车,可记录数百万英里的虚拟驾驶里程[10] - 具备世界模型智能的AI可能接管更多工作,包括卡车司机、水管工或护理员等蓝领岗位,这些岗位以往相对安全[10] - 中国世界模型领域玩家已经超过10家,显示出该技术在全球范围内的活跃发展[3]
在具身智能的岔路口,这场论坛把数据、模型、Infra聊透了
机器之心· 2025-09-29 02:52
行业核心观点 - 具身智能行业正处于技术路线分歧与探索阶段,面临数据稀缺、技术架构选择等关键议题 [1] - 行业已初步观察到具身智能的Scaling Law,预示扩大模型和数据规模可能有效 [24] - 阿里云作为云计算巨头,提前布局行业未来3到5年的基础设施需求,旨在为行业爆发做准备 [3] 数据路线之争:真机派 vs. 合成派 - 真机派主张通过遥操或互联网获取真实数据,基于VLA做模仿学习,认为真实数据是训练世界领先模型的根本 [5][14] - 合成派认为实现通用泛化能力需上万亿条数据,真机采集不可持续,主张通过仿真合成数据进行预训练,再用少量真实数据后训练 [5][8][9] - 真机派挑战“真机数据昂贵”共识,指出在国内供应链支持下,单个机器人成本可降至10万以下,规模化部署机器人采集数据成本可控 [12] - 合成派面临挑战:某些仿真数据获取依赖专业人力(如图形学博士),成本可能更高;仿真数据效率可能比真实数据差5-6个数量级 [11] 技术架构与模型形态 - 具身智能大模型被视为独立于语言模型的基础模型,因其需处理物理动作和接触的复杂性 [18] - 技术架构存在端到端与分层路线之争:分层架构考虑现实部署约束,符合生物进化规律;端到端架构旨在避免分层错误放大和层间理解鸿沟 [19] - 视觉语言动作模型(VLA)被视为当下更有潜力的路线,仅需100条数据即可见效,而世界模型需万级至亿级数据量,是更终局的路线 [21] - 世界模型被赋予重要作用,如辅助VLA进行自主学习探索、生成动作序列补充数据,与VLA是互补而非冲突关系 [20] 行业发展趋势与阿里云的角色 - 行业落地速度加快,多家公司分享了在工业制造、康复陪伴、教育竞赛等场景的实践 [24] - 阿里云基于智能驾驶行业经验,提前为具身智能行业的数据指数级增长和算力需求布局,提供全链路基础设施支持 [3][31][32] - 阿里云具备模型原厂优势,其开源模型Qwen-VL被大量具身智能公司用于后训练,最新Qwen3-VL模型针对具身智能需求优化 [37][38] - 阿里云将智能驾驶领域的工程经验复用至具身智能,提供从数据处理、模型服务到工具链集成的全套云上能力 [35][41][42] - 公司建议具身智能企业从第一天起规划云架构和AI基础设施,以应对量产阶段的数据激增和工程化挑战 [29][42]