世界模型

搜索文档
金融时报:超级智能的下一个入口,谷歌、Meta、英伟达......科技巨头都在加码“世界模型”
美股IPO· 2025-09-29 08:51
AI巨头如谷歌DeepMind、Meta和英伟达正将研发重点转向"世界模型",以期在通往机器"超级智能"的竞赛中领先一步。"世界模型"通过学习视频和机 器人数据来理解物理世界,应用前景广阔。英伟达高管表示,潜在市场规模可高达100万亿美元,覆盖自动驾驶、机器人和制造业等领域。 "世界模型"的潜在市场被认为极其庞大。英伟达Omniverse与仿真技术副总裁Rev Lebaredian表示,"世界模型"将技术带入制造、医疗等实体领域,其 潜在市场规模可能"高达100万亿美元"。 "世界模型"被视为推动自动驾驶、机器人和所谓"AI代理"取得进展的关键一步,但其训练同时也面临巨大的数据和算力挑战。 模拟物理世界:最新技术突破 近几个月,多家AI公司相继发布了在"世界模型"领域的进展,凸显了这一赛道的升温。 谷歌DeepMind 上月发布了Genie 3,该模型能逐帧生成视频并考虑过去的交互,改变了传统模型一次性生成整个视频的方式。Genie 3项目联席负责 人Shlomi Fruchter表示,通过构建模拟真实世界的环境,可以用更具扩展性的方式训练AI,且"无需承担在现实世界中犯错的后果"。 Meta 则试图模仿儿童 ...
工业界大佬带队!三个月搞定端到端自动驾驶
自动驾驶之心· 2025-09-29 08:45
Jason, C9本科+QS50 PhD,已发表CCF-A论文2篇,CCF-B论文若干。现任国内TOP主机厂算法专 家,目前从事端到端、大模型、世界模型等前沿算法的预研和量产,并已主持和完成多项自动驾驶 感知和端到端算法的产品量产交付,拥有丰富的端到端算法研发和实战经验。 如果说2023年是端到端量产的元年,那么明年将会是端到端量产的大年。目前头部的新势力和主机 厂端到端都已经量产了。工业界主要有两种大的范式,一段式和两段式。一段式最具代表性的就是 UniAD,直接从传感器输入(视觉/Lidar/Radar等)建模自车轨迹的输出,二段式基于感知结果进一 步输出自车和他车的轨迹。 而去年以来,一段式端到端发展很快,进一步衍生出基于感知的一段式、基于世界模型的一段式、 基于扩散模型的一段式和基于VLA的一段式方法。主流的自动驾驶企业,无论是智驾方案供应商还 是车企,都在发力端到端自动驾驶的自研量产。 我们花了三个月的时间设计了一套端到端与VLA的 学习路线图,从原理到实战细致展开。 端到端与VLA涉及的核心内容包括BEV感知、视觉语言模型VLM、扩散模型、强化学习等等。通过 学习端到端与VLA自动驾驶,可以掌握学 ...
AI下一轮飞跃的引爆点:“世界模型”
财联社· 2025-09-29 08:44
科创板日报 . 专注科创板和科技创新,上海报业集团主管主办,界面财联社出品。 人工智能先驱们几乎一致认为,世界模型对打造下一代人工智能正至关重要。许多人表示,该技术终将助力创造超越人类的"通用人工智 能"(AGI)。 早在去年,斯坦福大学教授、人工智能"教母"李飞飞已筹集2.3亿美元创立世界模型初创公司World Labs。英伟达首席执行官黄仁勋今年早 些时候也表示,世界模型能助力实现"物理人工智能",自主操控机器人、自动驾驶汽车等设备。 而就在上周,Meta官宣发布了一款名为代码世界模型(Code World Model)的LLM,探索如何使用世界模型改进AI代码生成性能。Meta新 成立的超级智能AI实验室将与机器人团队合作,构建一个"世界模型",模拟现实世界物理规律,为机器人提供空间感知和精细操作能力,弥 补现有机器人的不足。 在中国方面,全球知名增长咨询公司Frost & Sulllivan近期发布的《2025年中国世界模型发展白皮书》报告显示,中国世界模型领域玩家已 经超过10家。 以下文章来源于科创板日报 ,作者潇湘 优步前AI业务负责人、经常批评当前AI模式的Gary Marcus指出,无论当今 ...
在具身智能的岔路口,这场论坛把数据、模型、Infra聊透了
机器之心· 2025-09-29 02:52
机器之心原创 作者:张倩 当机器人成为各大科技展会最受瞩目的焦点,当具身智能论坛场场爆满、一票难求,我们不难发现:这个领域正在经历前所未有的关注热潮。 然而,热潮之下,仍有诸多关键议题悬而未决:面对 数据 稀缺,有人寄希望于合成数据的突破,有人坚持真机数据才是根本;在 技术路线 之争 中,有人押注端 到端的整体范式,有人则认为分层架构更符合演进规律;至于 模型 形态,有人视 VLA 为智能的最终归宿,也有人认为世界模型才是真正的未来。 现阶段出现这种分歧非常正常,因为整个行业的发展路径尚未收敛。有些问题甚至还没有来得及系统讨论,比如量产之后会出现哪些新的卡点,谁来解决? 正是因为存在这些问题,业界迫切需要一个开放的对话平台。在 今年 云 栖大会的 具身智能论坛 上,我们见证了这样一场深度交锋:不同派系的代表坐到同一张 桌子前,将技术分歧、商业思考和基础设施需求一并摊开讨论,试图在碰撞中寻找新的共识。 论坛过后,我们也和这场论坛的发起者 —— 阿里云 聊了聊。这家云计算巨头选择在此时深度介入具身智能领域,本身就值得关注。 聊完之后,我们发现,他们真正的入局其实是在四五年前,如今更是在提前为具身智能行业即将到来的 ...
大神爆肝一个月,复刻DeepMind世界模型,300万参数就能玩实时交互像素游戏
36氪· 2025-09-28 10:51
还记得 DeepMind 的 Genie 3 世界模型吗?它首次让世界模型真实地模拟了真实世界。 最近,X 博主 anandmaj 在一个月内复刻 Genie 3 的核心思想,开发出了 TinyWorlds,一个仅 300 万参数的世界模型,能够实时生成可玩的像素风格环 境,包括 Pong、Sonic、Zelda 和 Doom。 帖子附带演示视频,展示了模型通过用户输入实时生成视频帧的过程。 博主还分享了从架构设计到训练细节的完整经验,并开源了代码仓库。 代码: https://github.com/AlmondGod/tinyworlds 理解世界模型 世界模型是一类神经网络,它们通过生成视频来模拟物理世界。 DeepMind 在 Genie 3 上展示了这一理念的潜力:当世界模型在大规模视频数据上训练时,会出现类似 LLM 中的「涌现能力」。例如: 可控性:按下方向键,镜头会随之平移。 一致性:离开房间再返回,墙上的新油漆依旧存在。 质量:水坑中的倒影清晰可见。 在 Genie 出现之前,研究者普遍认为要扩展世界模型,必须依赖带动作标注或包含三维结构的数据。 然而 DeepMind 发现,只要足够规模化地 ...
大神爆肝一个月,复刻DeepMind世界模型,300万参数就能玩实时交互像素游戏
机器之心· 2025-09-28 10:29
机器之心报道 编辑:+0 还记得 DeepMind 的 Genie 3 世界模型 吗?它首次让世界模型真实地模拟了真实世界。 最近,X 博主 anandmaj 在一个月内复刻 Genie 3 的核心思想,开发出了 TinyWorlds ,一个仅 300 万参数 的 世界模型,能够实时生成可玩的像素风格环境,包括 Pong、Sonic、Zelda 和 Doom。 世界模型是一类神经网络,它们通过生成视频来模拟物理世界。 DeepMind 在 Genie 3 上展示了这一理念的潜力:当世界模型在大规模视频数据上训练时,会出现类似 LLM 中的「涌现能力」。例如: 在 Genie 出现之前,研究者普遍认为要扩展世界模型,必须依赖带动作标注或包含三维结构的数据。 然而 DeepMind 发现, 只要足够规模化地训练原始视频,这些高级行为便会自然涌现,就像语言模型会自 然习得语法和句法一样。 帖子附带演示视频,展示了模型通过用户输入实时生成视频帧的过程。 博主还分享了从架构设计到训练细节的完整经验,并开源了代码仓库。 代码: https://github.com/AlmondGod/tinyworlds 理解世界模型 ...
Meta押注“安卓式”机器人平台:数十亿美元打造通用软件
环球网资讯· 2025-09-28 04:24
战略定位 - Meta将人形机器人提升至与增强现实同级的战略优先级 [1] - 未来数年将投入数十亿美元打造可对外授权的通用软件平台 [1] - 目标成为机器人产业的"安卓"系统 [1] 商业模式 - 公司无意大规模生产硬件 采用开放授权路线 [2] - 任何符合技术规范的机器人本体均可搭载Meta操作系统 [2] - 通过快速扩大生态掌握行业标准制定权 [2] 技术挑战与突破 - 当前人形机器人在灵巧操控环节存在瓶颈 包括捏碎水杯或打翻物品等精细动作失灵 [2] - 无法稳定完成从牛仔裤口袋掏钥匙等日常动作 [2] - 成立超级智能AI实验室 与机器人团队共建模拟真实物理规律的世界模型 [2] - 通过大规模仿真训练提供空间感知 力控预测与实时决策能力 [2] - 世界模型旨在弥补传统传感器回路缺失 [2]
Meta CTO:人形机器人是下一个“AR级赌注” 瓶颈在于软件
新浪财经· 2025-09-27 06:46
公司战略方向 - Meta在首席技术官Andrew Bosworth领导下启动机器人研究计划 由扎克伯格直接指导 [1] - 公司明确硬件非技术瓶颈 软件能力构成主要发展障碍 [1] - 研发核心聚焦构建"世界模型"系统 通过软件模拟实现机器人灵巧手臂动作控制 [1] 技术发展路径 - 当前技术阶段专注于基础手臂动作模拟 未来计划扩展至复杂动作序列与多任务处理能力 [1] - 软件模拟技术成为机器人开发的核心突破口 硬件平台已具备基础支撑条件 [1] - 研究计划采用分阶段推进策略 从单一动作向综合任务执行能力演进 [1]
2025人工智能产业十大关键词
机器人圈· 2025-09-26 09:29
文章核心观点 人工智能技术、应用、生态三维共振 智能原生新世界加速形成[1] 基础超级模型 - 2024年底至2025年8月大模型综合能力提升超过30% 集成思考与非思考模式[3] - 头部模型GPT-5/Grok4/DeepSeek V3.1/Claude Opus 4.1/Qwen3-235B-A22B展现三大特征:自主选择处理模式、理解推理数学能力提升、内置代码与工具调用能力[3][4] - 技术采用路由融合与面向智能体的强化学习 显著增强真实业务场景表现[6] - 对用户产生三方面影响:使用门槛降低、工作流工具调用精准度提升、训练数据供应需求变化[6] 自主性更强的智能体 - 方升智能体基准测试显示当前智能体可自主完成复杂任务但能力仍有提升空间[9] - 通信协议成为交互桥梁 Anthropic的MCP与谷歌A2A协议实现互补协同[12] - 智能体任务处理长度每7个月翻一番 未来可完成人类数天至数周任务量[12] - 产品形态逐步清晰 成为消费端与企业端数字员工初级形态[10] 走向实训的具身智能 - 本体从实验室走向真实赛场与训练场 推进行业场景试点验证[15] - 蔚来世界模型NWM在Banyan榕车型全量推送 强化追尾预防与障碍物识别[15] - 智元机器人GO-1端到端VLA模型实现擦桌子/倒水任务 Figure AI Helix支持物流分拣等技能[16] - 面临三大挑战:高质量数据缺口需百万小时机器人数据、模型泛化难、软硬协同控制不稳定[18] 萌芽中的世界模型 - 被视为通向AGI的核心路径 需具备四大核心能力:数据生成/动作解释/环境交互/场景重建[21] - 技术路线百花齐放:大模型增强/大模型+物理引擎融合/物理世界表征探索[22] - 面临定义争议/技术路线不清晰/应用范围局限三大挑战 目前仅自动驾驶领域有规模应用[22] - 参考技术包括Sora/Marble/JEPA/Genie3/Cosmos/HunyuanWorld等[22] AI正在重塑软件 - AI深度渗透软件开发全生命周期 开发测试环节保持高比例应用[25] - AI研发工具从Copilot向Pilot演进 2025年密集发布AI IDE与智能体工具[25] - 软件交互方式变革 对话/多模态/具身智能交互成为主流[25] - 商业模式重构 从订阅模式转向按Token消耗量计费的定量模式[28] 开放智算生态 - 2025年形成多层次开源开放生态 涵盖开源框架/通信库/算子库/计算平台/互联协议[30] - 国产硬件性能显著提升 DeepSeek R1模型部署精度与规模基本持平英伟达系统[30] - 软硬件协同优化案例:DeepSeek对英伟达硬件提改进建议 智谱GLM4.5基于昇腾环境微调[32] 面向行业的高质量数据集 - 行业数据集质量问题成为垂类模型落地核心瓶颈 内容密集性问题占比82.50%[35] - 需建立新型数据供应链 包括三大训练数据集:交互轨迹/偏好对齐/基准评测[38] - 三大原生基础数据集:基础支撑/过程埋点/外部交互[38] 开源成为标配 - 全球性能前25大模型中我国开源模型占9席 Huggingface累计下载量突破3亿次[40] - 基于国产开源模型的微调模型占比从2024年初10%大幅上升至2025年7月45%[40] - 国内AI开源社区托管模型38万个/数据集5.3万个 活跃开发者2.2万人占全球18.7%[42] - 商业模式采用"开源免费+高阶服务收费"策略 推动云服务与芯片需求增长[42] 缓解模型幻觉 - OpenAI理论研究确认幻觉是LLM统计学习必然产物 方升测试显示推理模型幻觉率维持在10%以上[44] - 大参数模型幻觉问题明显 72b参数模型幻觉率超过14%[44] - 供给侧采取四维措施:数据过滤筛查/双向自回归训练/不确定性评估/对比增强解码[46] - 用户侧四层应对:测试选型/领域数据微调/推理约束提示/输出双重核验[46] 人工智能国际公共产品 - 人工智能被纳入12个全球多边机制核心议题 中国/沙特/印尼/美国/俄罗斯国际合作活跃[49] - 产业界通过生态基建/工具赋能/服务模式创新推动全球化发展[51] - 面临跨境合规认证复杂/ESG评估体系模糊/数据跨境流动受限等挑战[51]
把“会跑的代码世界”装进AI,Meta重磅开源首个代码世界模型:让AI像程序员一样思考
36氪· 2025-09-25 13:02
模型发布与核心特点 - Meta发布Code World Model(CWM),参数量为32B,支持最长131k token上下文,采用开放权重策略[1] - 模型核心目标是将"世界模型"思想引入代码生成与推理领域,使模型不仅能生成代码,还能模拟执行过程、推理程序状态并自我修复Bug[1][2] - 训练数据规模庞大:预训练阶段使用约8T tokens(代码占比30%),中期训练引入5T tokens世界建模数据,后训练阶段SFT使用100B tokens、RL使用172B tokens[3][4] 技术实现与数据构建 - 采用局部+全局交替机制和长序列稳定化技术处理超长上下文[3] - 世界模型能力依赖两类数据:Python执行轨迹(序列化中间栈帧与变量状态)和Agent环境交互轨迹(从10.2万张镜像和3.15万个仓库收集300万条轨迹)[6][8][9] - 后训练阶段引入工程优化:SFT阶段使用"推理token"区分直答与推理,RL阶段改用<think>标签并采用自举策略回流高质量数据[9] 性能表现与基准测试 - 在SWE-bench Verified测试中达到65.8% pass@1(启用多候选投票)和53.9%(未启用),接近GPT-4水平[10][12] - 在LiveCodeBench、Math-500和AIME 2024基准分别取得68.6%、96.6%和76.0%的亮眼成绩[10] - 模型专精于代码修复与数学推理,但在多语言和编辑格式场景存在局限,且Agent训练可能引入格式化噪声[12] 行业反响与开源意义 - Meta开源中期训练、SFT和RL阶段的权重检查点,为学术与工程复现提供重要支持[2][15] - 业界普遍认可其研究价值,但强调需与实际开发环境集成测试,并关注32B参数模型的计算资源需求[15] - 模型被视为推动代码生成从静态学习转向动态执行模拟的关键突破,可能重塑软件开发范式[2][13]