世界模型

搜索文档
大神爆肝一个月,复刻DeepMind世界模型,300万参数就能玩实时交互像素游戏
36氪· 2025-09-28 10:51
还记得 DeepMind 的 Genie 3 世界模型吗?它首次让世界模型真实地模拟了真实世界。 最近,X 博主 anandmaj 在一个月内复刻 Genie 3 的核心思想,开发出了 TinyWorlds,一个仅 300 万参数的世界模型,能够实时生成可玩的像素风格环 境,包括 Pong、Sonic、Zelda 和 Doom。 帖子附带演示视频,展示了模型通过用户输入实时生成视频帧的过程。 博主还分享了从架构设计到训练细节的完整经验,并开源了代码仓库。 代码: https://github.com/AlmondGod/tinyworlds 理解世界模型 世界模型是一类神经网络,它们通过生成视频来模拟物理世界。 DeepMind 在 Genie 3 上展示了这一理念的潜力:当世界模型在大规模视频数据上训练时,会出现类似 LLM 中的「涌现能力」。例如: 可控性:按下方向键,镜头会随之平移。 一致性:离开房间再返回,墙上的新油漆依旧存在。 质量:水坑中的倒影清晰可见。 在 Genie 出现之前,研究者普遍认为要扩展世界模型,必须依赖带动作标注或包含三维结构的数据。 然而 DeepMind 发现,只要足够规模化地 ...
大神爆肝一个月,复刻DeepMind世界模型,300万参数就能玩实时交互像素游戏
机器之心· 2025-09-28 10:29
机器之心报道 编辑:+0 还记得 DeepMind 的 Genie 3 世界模型 吗?它首次让世界模型真实地模拟了真实世界。 最近,X 博主 anandmaj 在一个月内复刻 Genie 3 的核心思想,开发出了 TinyWorlds ,一个仅 300 万参数 的 世界模型,能够实时生成可玩的像素风格环境,包括 Pong、Sonic、Zelda 和 Doom。 世界模型是一类神经网络,它们通过生成视频来模拟物理世界。 DeepMind 在 Genie 3 上展示了这一理念的潜力:当世界模型在大规模视频数据上训练时,会出现类似 LLM 中的「涌现能力」。例如: 在 Genie 出现之前,研究者普遍认为要扩展世界模型,必须依赖带动作标注或包含三维结构的数据。 然而 DeepMind 发现, 只要足够规模化地训练原始视频,这些高级行为便会自然涌现,就像语言模型会自 然习得语法和句法一样。 帖子附带演示视频,展示了模型通过用户输入实时生成视频帧的过程。 博主还分享了从架构设计到训练细节的完整经验,并开源了代码仓库。 代码: https://github.com/AlmondGod/tinyworlds 理解世界模型 ...
Meta押注“安卓式”机器人平台:数十亿美元打造通用软件
环球网资讯· 2025-09-28 04:24
战略定位 - Meta将人形机器人提升至与增强现实同级的战略优先级 [1] - 未来数年将投入数十亿美元打造可对外授权的通用软件平台 [1] - 目标成为机器人产业的"安卓"系统 [1] 商业模式 - 公司无意大规模生产硬件 采用开放授权路线 [2] - 任何符合技术规范的机器人本体均可搭载Meta操作系统 [2] - 通过快速扩大生态掌握行业标准制定权 [2] 技术挑战与突破 - 当前人形机器人在灵巧操控环节存在瓶颈 包括捏碎水杯或打翻物品等精细动作失灵 [2] - 无法稳定完成从牛仔裤口袋掏钥匙等日常动作 [2] - 成立超级智能AI实验室 与机器人团队共建模拟真实物理规律的世界模型 [2] - 通过大规模仿真训练提供空间感知 力控预测与实时决策能力 [2] - 世界模型旨在弥补传统传感器回路缺失 [2]
Meta CTO:人形机器人是下一个“AR级赌注” 瓶颈在于软件
新浪财经· 2025-09-27 06:46
公司战略方向 - Meta在首席技术官Andrew Bosworth领导下启动机器人研究计划 由扎克伯格直接指导 [1] - 公司明确硬件非技术瓶颈 软件能力构成主要发展障碍 [1] - 研发核心聚焦构建"世界模型"系统 通过软件模拟实现机器人灵巧手臂动作控制 [1] 技术发展路径 - 当前技术阶段专注于基础手臂动作模拟 未来计划扩展至复杂动作序列与多任务处理能力 [1] - 软件模拟技术成为机器人开发的核心突破口 硬件平台已具备基础支撑条件 [1] - 研究计划采用分阶段推进策略 从单一动作向综合任务执行能力演进 [1]
2025人工智能产业十大关键词
机器人圈· 2025-09-26 09:29
文章核心观点 人工智能技术、应用、生态三维共振 智能原生新世界加速形成[1] 基础超级模型 - 2024年底至2025年8月大模型综合能力提升超过30% 集成思考与非思考模式[3] - 头部模型GPT-5/Grok4/DeepSeek V3.1/Claude Opus 4.1/Qwen3-235B-A22B展现三大特征:自主选择处理模式、理解推理数学能力提升、内置代码与工具调用能力[3][4] - 技术采用路由融合与面向智能体的强化学习 显著增强真实业务场景表现[6] - 对用户产生三方面影响:使用门槛降低、工作流工具调用精准度提升、训练数据供应需求变化[6] 自主性更强的智能体 - 方升智能体基准测试显示当前智能体可自主完成复杂任务但能力仍有提升空间[9] - 通信协议成为交互桥梁 Anthropic的MCP与谷歌A2A协议实现互补协同[12] - 智能体任务处理长度每7个月翻一番 未来可完成人类数天至数周任务量[12] - 产品形态逐步清晰 成为消费端与企业端数字员工初级形态[10] 走向实训的具身智能 - 本体从实验室走向真实赛场与训练场 推进行业场景试点验证[15] - 蔚来世界模型NWM在Banyan榕车型全量推送 强化追尾预防与障碍物识别[15] - 智元机器人GO-1端到端VLA模型实现擦桌子/倒水任务 Figure AI Helix支持物流分拣等技能[16] - 面临三大挑战:高质量数据缺口需百万小时机器人数据、模型泛化难、软硬协同控制不稳定[18] 萌芽中的世界模型 - 被视为通向AGI的核心路径 需具备四大核心能力:数据生成/动作解释/环境交互/场景重建[21] - 技术路线百花齐放:大模型增强/大模型+物理引擎融合/物理世界表征探索[22] - 面临定义争议/技术路线不清晰/应用范围局限三大挑战 目前仅自动驾驶领域有规模应用[22] - 参考技术包括Sora/Marble/JEPA/Genie3/Cosmos/HunyuanWorld等[22] AI正在重塑软件 - AI深度渗透软件开发全生命周期 开发测试环节保持高比例应用[25] - AI研发工具从Copilot向Pilot演进 2025年密集发布AI IDE与智能体工具[25] - 软件交互方式变革 对话/多模态/具身智能交互成为主流[25] - 商业模式重构 从订阅模式转向按Token消耗量计费的定量模式[28] 开放智算生态 - 2025年形成多层次开源开放生态 涵盖开源框架/通信库/算子库/计算平台/互联协议[30] - 国产硬件性能显著提升 DeepSeek R1模型部署精度与规模基本持平英伟达系统[30] - 软硬件协同优化案例:DeepSeek对英伟达硬件提改进建议 智谱GLM4.5基于昇腾环境微调[32] 面向行业的高质量数据集 - 行业数据集质量问题成为垂类模型落地核心瓶颈 内容密集性问题占比82.50%[35] - 需建立新型数据供应链 包括三大训练数据集:交互轨迹/偏好对齐/基准评测[38] - 三大原生基础数据集:基础支撑/过程埋点/外部交互[38] 开源成为标配 - 全球性能前25大模型中我国开源模型占9席 Huggingface累计下载量突破3亿次[40] - 基于国产开源模型的微调模型占比从2024年初10%大幅上升至2025年7月45%[40] - 国内AI开源社区托管模型38万个/数据集5.3万个 活跃开发者2.2万人占全球18.7%[42] - 商业模式采用"开源免费+高阶服务收费"策略 推动云服务与芯片需求增长[42] 缓解模型幻觉 - OpenAI理论研究确认幻觉是LLM统计学习必然产物 方升测试显示推理模型幻觉率维持在10%以上[44] - 大参数模型幻觉问题明显 72b参数模型幻觉率超过14%[44] - 供给侧采取四维措施:数据过滤筛查/双向自回归训练/不确定性评估/对比增强解码[46] - 用户侧四层应对:测试选型/领域数据微调/推理约束提示/输出双重核验[46] 人工智能国际公共产品 - 人工智能被纳入12个全球多边机制核心议题 中国/沙特/印尼/美国/俄罗斯国际合作活跃[49] - 产业界通过生态基建/工具赋能/服务模式创新推动全球化发展[51] - 面临跨境合规认证复杂/ESG评估体系模糊/数据跨境流动受限等挑战[51]
把“会跑的代码世界”装进AI,Meta重磅开源首个代码世界模型:让AI像程序员一样思考
36氪· 2025-09-25 13:02
模型发布与核心特点 - Meta发布Code World Model(CWM),参数量为32B,支持最长131k token上下文,采用开放权重策略[1] - 模型核心目标是将"世界模型"思想引入代码生成与推理领域,使模型不仅能生成代码,还能模拟执行过程、推理程序状态并自我修复Bug[1][2] - 训练数据规模庞大:预训练阶段使用约8T tokens(代码占比30%),中期训练引入5T tokens世界建模数据,后训练阶段SFT使用100B tokens、RL使用172B tokens[3][4] 技术实现与数据构建 - 采用局部+全局交替机制和长序列稳定化技术处理超长上下文[3] - 世界模型能力依赖两类数据:Python执行轨迹(序列化中间栈帧与变量状态)和Agent环境交互轨迹(从10.2万张镜像和3.15万个仓库收集300万条轨迹)[6][8][9] - 后训练阶段引入工程优化:SFT阶段使用"推理token"区分直答与推理,RL阶段改用<think>标签并采用自举策略回流高质量数据[9] 性能表现与基准测试 - 在SWE-bench Verified测试中达到65.8% pass@1(启用多候选投票)和53.9%(未启用),接近GPT-4水平[10][12] - 在LiveCodeBench、Math-500和AIME 2024基准分别取得68.6%、96.6%和76.0%的亮眼成绩[10] - 模型专精于代码修复与数学推理,但在多语言和编辑格式场景存在局限,且Agent训练可能引入格式化噪声[12] 行业反响与开源意义 - Meta开源中期训练、SFT和RL阶段的权重检查点,为学术与工程复现提供重要支持[2][15] - 业界普遍认可其研究价值,但强调需与实际开发环境集成测试,并关注32B参数模型的计算资源需求[15] - 模型被视为推动代码生成从静态学习转向动态执行模拟的关键突破,可能重塑软件开发范式[2][13]
代码生成要变天了?被质疑架空后,Yann LeCun携320亿参数开源世界模型“杀回来了”
AI前线· 2025-09-25 08:04
整理|冬梅 在新一代代码生成模型不断涌现的当下,开发者们总会提出两个关键问题: 第一,它的代码编写能 力究竟有多强?第二,它是否真正理解代码在运行时会发生什么? Yann LeCun 团队 开源全球首个代码世界模型 美国当地时间 9 月 24 日,由 Yann LeCun 领导的 Meta FAIR CodeGen 研究团队正式发布了 代码世 界模型(Code World Model,CWM) ——一款拥有 320 亿参数的密集解码器自回归开放权重大语 言模型,旨在推动基于世界模型的代码生成研究。 值得一提的是,这是 Meta 将其 AI 业务重组后发布的首款模型。 长期以来,大多数大型语言模型在生成代码的能力上表现不俗,往往能输出结构清晰、语法正确的代 码片段。然而,真正的挑战在于"理解执行"。许多模型虽然能写出看似完美的代码,但在实际运行过 程中却频频出错,甚至无法完成需要多步骤推理的复杂软件工程任务。这种"纸面正确、执行失败"的 现象,也暴露出代码生成模型与真正的程序员之间仍存在明显差距。 如今,这个难题即将有新的解法。 与传统依赖静态代码训练的模型不同,CWM 在中期训练阶段引入了全新的方式:研究人员 ...
汽车业AI“狂飙”,“轮式智能生命体”即将到来
华夏时报· 2025-09-25 07:58
也许在不远的将来,汽车不再仅仅只是响应用户的指令,而可以主动与用户交谈,为用户分忧解难,甚 至在用户手握方向盘时,已经规划好最合适的路线、调节好最适宜的车内温度。这并非遥不可及的科幻 场景,而是一幅正由人工智能精心绘制的现实图景。 海尔集团董事、汽车之家董事会主席兼首席执行官刘斥表示:"当前汽车行业面临着技术路线快速演进 与产业格局深刻重塑的双重变革,机遇空前,挑战亦不容小觑。" 在这场以"Hi·Future"为主题的科技盛宴中,记者感受最强烈的就是,关于汽车行业的讨论焦点已经彻底 转变。 中国国际贸易促进委员会汽车行业分会会长王侠认为,汽车行业应跳出硬件参数与价格战的"内卷"漩 涡,而去关注一个更宏大的命题:如何让汽车从一台冰冷的机器,进化成为一个能思考、会学习、懂合 作的"轮式智能生命体"。 王侠认为,未来的汽车将不再是信息孤岛,而是智慧城市交通网络中的一个活跃节点,它能与道路、云 端、其他车辆实时"对话",共同编织一张安全、高效、绿色的出行网络。王侠举例表示:你的车可以提 本报(chinatimes.net.cn)记者刘凯 于建平 北京报道 前接收到前方路口红绿灯的配时信息,自动平滑车速,实现"绿波通行 ...
周鸿祎:语言是最重要的,语言掌握了就一通百通
新浪科技· 2025-09-24 05:09
责任编辑:江钰涵 新浪科技讯 9月24日下午消息,今日,罗永浩与周鸿祎深度对谈,周鸿祎表示,Meta的杨乐坤说要做什 么世界模型,李飞飞为什么要做世界模型?我觉得他们弄错了一个问题,就是语言是最重要的。因为人 类拿语言来干这么几件事,一个是来交流,一个是来做知识的传承,第三是做逻辑的推理,还有来描述 这个世界。其实通过语言,基本上你这个世界模型就能了解了。原来人工智能之所以不能取得进展,就 是因为没有了解语言这个金钥匙。一旦把语言了解了,就意味着对人类的知识了解了,对人类的世界能 有了解了,对人类的这个推理能力有了解了,就一通百通。 最近你看Google新出了一个叫nano banana的产品。他为什么很惊艳,就是说他对图形的理解超越了视 觉,他还是加了很多知识的这种融会贯通。所以为什么语言一旦突破,你看什么音乐模型、视频模型、 这种图形模型、视觉模型都获得很大的进展。(罗宁) ...
打算招聘几位大佬共创平台(4D标注/世界模型/VLA等方向)
自动驾驶之心· 2025-09-23 23:32
QS200以内高校,硕士及以上学历,手握顶会的大佬优先。 待遇说明 自动驾驶资源共享(求职、读博、出国留学推荐等); 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 业务合伙人 自动驾驶之心业务合伙人招募来啦!我们团队今年计划向国内外招募10名优秀的合伙人,负责自动驾驶相 关课程研发、论文辅导业务开发、硬件研发; 主要方向 如果您是大模型/多模态大模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D目标检测、 世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们; 岗位要求 丰厚的现金激励; 创业项目合作与推荐; 联系我们 更多欢迎添加微信咨询,备注" 机构/公司 + 自动驾驶合作咨询 "。 ...