Workflow
世界模型
icon
搜索文档
大神爆肝一个月,复刻DeepMind世界模型,300万参数就能玩实时交互像素游戏
36氪· 2025-09-28 10:51
文章核心观点 - 独立开发者成功复刻并简化了DeepMind的Genie 3世界模型,开发出仅300万参数的TinyWorlds模型,能够实时生成可交互的像素风格游戏环境 [1] - 该成果验证了世界模型通过大规模无监督视频训练可实现高级行为的涌现,并展示了小型化模型的可行性,为行业提供了可参考的开源实现方案 [2][6][23] 模型技术架构 - TinyWorlds采用自回归模型作为核心架构,因其推理速度快、训练高效且实现简洁,更适合实时交互场景 [14] - 模型由三个核心模块组成:视频分词器负责将视频压缩为token,动作分词器预测帧间动作,动力学模型结合历史信息预测未来帧 [14] - 核心技术包括时空变换器,通过空间注意力、时间注意力和前馈网络三层机制处理三维视频数据 [10] - 动作影响视频生成的方式采用了缩放与移位策略,效果优于简单的拼接动作与视频表示 [13] 训练方法与数据处理 - 模型训练数据集由处理过的YouTube游戏视频构成,涵盖Pong、Sonic、Zelda、Pole Position和Doom等多种游戏类型 [7] - 动作分词器的引入是关键创新,使模型能够利用互联网中海量的未标注视频数据进行训练 [3][18] - 训练过程中采用了掩码帧和方差损失等技术,以解决模型在训练初期容易忽略动作信号的问题 [20] - 动力学模型通过预测掩码token来学习时序关系,模型规模的扩大显著提升了生成效果 [21] 性能表现与行业意义 - TinyWorlds模型仅300万参数,已能生成可交互的像素风格世界,包括驾驶赛车、地图探索和3D地牢等场景 [23][25] - 尽管生成画面存在模糊和不连贯的问题,但已具备基本可玩性,证明了技术路径的可行性 [24] - 该成果印证了“规模与数据往往胜过技巧”的行业规律,暗示若扩展至千亿级参数并引入扩散方法,生成质量将有巨大提升空间 [24]
大神爆肝一个月,复刻DeepMind世界模型,300万参数就能玩实时交互像素游戏
机器之心· 2025-09-28 10:29
文章核心观点 - TinyWorlds项目成功复刻了DeepMind Genie 3世界模型的核心思想,仅用300万参数即实现了实时生成可交互的像素风格环境,证明了世界模型技术路径的可扩展性和巨大潜力 [1] - 世界模型通过在海量未标注视频数据上进行规模化训练,能够自然涌现出可控性、一致性和高质量生成等高级行为,其发展逻辑类似于大型语言模型 [5][7] - 项目采用自回归生成方式,并借鉴了大语言模型的优化技巧,其成功再次印证了“规模与数据往往胜过技巧”的行业经验 [20][32] 世界模型技术原理 - 世界模型是一类通过生成视频来模拟物理世界的神经网络,其关键挑战在于训练通常需要逐帧的动作标签 [5] - Genie的解决方案是先训练一个动作分词器来自动推断帧间动作标签,从而将海量未标注视频转化为可用训练资源,这是模型能够扩展至数百万小时YouTube视频的关键 [5][7] - 模型涌现出的高级能力包括:按下方向键镜头随之平移的可控性、离开房间再返回墙上新油漆依旧存在的一致性、以及水坑中倒影清晰可见的生成质量 [8] TinyWorlds架构设计 - 模型核心是一个时空变换器,通过空间注意力(同一帧内部token关联)、时间注意力(token关注前几个时间步信息)和前馈网络(token非线性处理提取高阶特征)三层机制捕捉视频三维信息 [15][21] - 最终架构由三个模块组成:视频分词器(将视频压缩为token)、动作分词器(预测两帧间动作)和动力学模型(结合历史视频和动作预测未来帧) [22] - 在动作影响视频生成的方式上,实验表明利用动作对表示进行缩放与移位比拼接动作与视频表示效果更好 [17] 训练与优化策略 - 视频分词器通过有限标量量化(FSQ)将图像划分为立方体来表示图像块,产生的小token信息密集,减轻了动力学模型的预测负担 [24] - 为解决动作分词器在训练初期易忽略动作信号的问题,引入了掩码帧(迫使模型依赖动作)和方差损失(鼓励编码器覆盖更多可能性) [28] - 动力学模型训练中通过预测掩码token学习时序关系,最初因模型过小导致性能停滞和输出模糊,扩大规模后效果显著提升 [30] 性能表现与未来展望 - 尽管生成的画面仍显模糊和不连贯,但TinyWorlds已能生成具备可玩性的环境,包括驾驶《Pole Position》中的赛车、在《Zelda》地图上探索以及进入《Doom》的3D地牢 [32][33] - 作者认为若将模型扩展至千亿级参数并引入扩散方法,生成质量将会有巨大提升 [32] - 项目完整经验已分享并开源代码,数据集由处理过的YouTube游戏视频构成,包括Pong、Sonic、Zelda、Pole Position和Doom等多类游戏 [3][12][15]
Meta押注“安卓式”机器人平台:数十亿美元打造通用软件
环球网资讯· 2025-09-28 04:24
战略定位 - Meta将人形机器人提升至与增强现实同级的战略优先级 [1] - 未来数年将投入数十亿美元打造可对外授权的通用软件平台 [1] - 目标成为机器人产业的"安卓"系统 [1] 商业模式 - 公司无意大规模生产硬件 采用开放授权路线 [2] - 任何符合技术规范的机器人本体均可搭载Meta操作系统 [2] - 通过快速扩大生态掌握行业标准制定权 [2] 技术挑战与突破 - 当前人形机器人在灵巧操控环节存在瓶颈 包括捏碎水杯或打翻物品等精细动作失灵 [2] - 无法稳定完成从牛仔裤口袋掏钥匙等日常动作 [2] - 成立超级智能AI实验室 与机器人团队共建模拟真实物理规律的世界模型 [2] - 通过大规模仿真训练提供空间感知 力控预测与实时决策能力 [2] - 世界模型旨在弥补传统传感器回路缺失 [2]
Meta CTO:人形机器人是下一个“AR级赌注” 瓶颈在于软件
新浪财经· 2025-09-27 06:46
公司战略方向 - Meta在首席技术官Andrew Bosworth领导下启动机器人研究计划 由扎克伯格直接指导 [1] - 公司明确硬件非技术瓶颈 软件能力构成主要发展障碍 [1] - 研发核心聚焦构建"世界模型"系统 通过软件模拟实现机器人灵巧手臂动作控制 [1] 技术发展路径 - 当前技术阶段专注于基础手臂动作模拟 未来计划扩展至复杂动作序列与多任务处理能力 [1] - 软件模拟技术成为机器人开发的核心突破口 硬件平台已具备基础支撑条件 [1] - 研究计划采用分阶段推进策略 从单一动作向综合任务执行能力演进 [1]
2025人工智能产业十大关键词
机器人圈· 2025-09-26 09:29
文章核心观点 人工智能技术、应用、生态三维共振 智能原生新世界加速形成[1] 基础超级模型 - 2024年底至2025年8月大模型综合能力提升超过30% 集成思考与非思考模式[3] - 头部模型GPT-5/Grok4/DeepSeek V3.1/Claude Opus 4.1/Qwen3-235B-A22B展现三大特征:自主选择处理模式、理解推理数学能力提升、内置代码与工具调用能力[3][4] - 技术采用路由融合与面向智能体的强化学习 显著增强真实业务场景表现[6] - 对用户产生三方面影响:使用门槛降低、工作流工具调用精准度提升、训练数据供应需求变化[6] 自主性更强的智能体 - 方升智能体基准测试显示当前智能体可自主完成复杂任务但能力仍有提升空间[9] - 通信协议成为交互桥梁 Anthropic的MCP与谷歌A2A协议实现互补协同[12] - 智能体任务处理长度每7个月翻一番 未来可完成人类数天至数周任务量[12] - 产品形态逐步清晰 成为消费端与企业端数字员工初级形态[10] 走向实训的具身智能 - 本体从实验室走向真实赛场与训练场 推进行业场景试点验证[15] - 蔚来世界模型NWM在Banyan榕车型全量推送 强化追尾预防与障碍物识别[15] - 智元机器人GO-1端到端VLA模型实现擦桌子/倒水任务 Figure AI Helix支持物流分拣等技能[16] - 面临三大挑战:高质量数据缺口需百万小时机器人数据、模型泛化难、软硬协同控制不稳定[18] 萌芽中的世界模型 - 被视为通向AGI的核心路径 需具备四大核心能力:数据生成/动作解释/环境交互/场景重建[21] - 技术路线百花齐放:大模型增强/大模型+物理引擎融合/物理世界表征探索[22] - 面临定义争议/技术路线不清晰/应用范围局限三大挑战 目前仅自动驾驶领域有规模应用[22] - 参考技术包括Sora/Marble/JEPA/Genie3/Cosmos/HunyuanWorld等[22] AI正在重塑软件 - AI深度渗透软件开发全生命周期 开发测试环节保持高比例应用[25] - AI研发工具从Copilot向Pilot演进 2025年密集发布AI IDE与智能体工具[25] - 软件交互方式变革 对话/多模态/具身智能交互成为主流[25] - 商业模式重构 从订阅模式转向按Token消耗量计费的定量模式[28] 开放智算生态 - 2025年形成多层次开源开放生态 涵盖开源框架/通信库/算子库/计算平台/互联协议[30] - 国产硬件性能显著提升 DeepSeek R1模型部署精度与规模基本持平英伟达系统[30] - 软硬件协同优化案例:DeepSeek对英伟达硬件提改进建议 智谱GLM4.5基于昇腾环境微调[32] 面向行业的高质量数据集 - 行业数据集质量问题成为垂类模型落地核心瓶颈 内容密集性问题占比82.50%[35] - 需建立新型数据供应链 包括三大训练数据集:交互轨迹/偏好对齐/基准评测[38] - 三大原生基础数据集:基础支撑/过程埋点/外部交互[38] 开源成为标配 - 全球性能前25大模型中我国开源模型占9席 Huggingface累计下载量突破3亿次[40] - 基于国产开源模型的微调模型占比从2024年初10%大幅上升至2025年7月45%[40] - 国内AI开源社区托管模型38万个/数据集5.3万个 活跃开发者2.2万人占全球18.7%[42] - 商业模式采用"开源免费+高阶服务收费"策略 推动云服务与芯片需求增长[42] 缓解模型幻觉 - OpenAI理论研究确认幻觉是LLM统计学习必然产物 方升测试显示推理模型幻觉率维持在10%以上[44] - 大参数模型幻觉问题明显 72b参数模型幻觉率超过14%[44] - 供给侧采取四维措施:数据过滤筛查/双向自回归训练/不确定性评估/对比增强解码[46] - 用户侧四层应对:测试选型/领域数据微调/推理约束提示/输出双重核验[46] 人工智能国际公共产品 - 人工智能被纳入12个全球多边机制核心议题 中国/沙特/印尼/美国/俄罗斯国际合作活跃[49] - 产业界通过生态基建/工具赋能/服务模式创新推动全球化发展[51] - 面临跨境合规认证复杂/ESG评估体系模糊/数据跨境流动受限等挑战[51]
把“会跑的代码世界”装进AI,Meta重磅开源首个代码世界模型:让AI像程序员一样思考
36氪· 2025-09-25 13:02
模型发布与核心特点 - Meta发布Code World Model(CWM),参数量为32B,支持最长131k token上下文,采用开放权重策略[1] - 模型核心目标是将"世界模型"思想引入代码生成与推理领域,使模型不仅能生成代码,还能模拟执行过程、推理程序状态并自我修复Bug[1][2] - 训练数据规模庞大:预训练阶段使用约8T tokens(代码占比30%),中期训练引入5T tokens世界建模数据,后训练阶段SFT使用100B tokens、RL使用172B tokens[3][4] 技术实现与数据构建 - 采用局部+全局交替机制和长序列稳定化技术处理超长上下文[3] - 世界模型能力依赖两类数据:Python执行轨迹(序列化中间栈帧与变量状态)和Agent环境交互轨迹(从10.2万张镜像和3.15万个仓库收集300万条轨迹)[6][8][9] - 后训练阶段引入工程优化:SFT阶段使用"推理token"区分直答与推理,RL阶段改用<think>标签并采用自举策略回流高质量数据[9] 性能表现与基准测试 - 在SWE-bench Verified测试中达到65.8% pass@1(启用多候选投票)和53.9%(未启用),接近GPT-4水平[10][12] - 在LiveCodeBench、Math-500和AIME 2024基准分别取得68.6%、96.6%和76.0%的亮眼成绩[10] - 模型专精于代码修复与数学推理,但在多语言和编辑格式场景存在局限,且Agent训练可能引入格式化噪声[12] 行业反响与开源意义 - Meta开源中期训练、SFT和RL阶段的权重检查点,为学术与工程复现提供重要支持[2][15] - 业界普遍认可其研究价值,但强调需与实际开发环境集成测试,并关注32B参数模型的计算资源需求[15] - 模型被视为推动代码生成从静态学习转向动态执行模拟的关键突破,可能重塑软件开发范式[2][13]
代码生成要变天了?被质疑架空后,Yann LeCun携320亿参数开源世界模型“杀回来了”
AI前线· 2025-09-25 08:04
代码世界模型技术突破 - Meta FAIR CodeGen研究团队发布全球首个代码世界模型,该模型拥有320亿参数,是密集解码器自回归开放权重大语言模型[4] - 与传统模型依赖静态代码训练不同,CWM在中期训练阶段引入Python解释器和代理Docker环境的大量"观察—动作"轨迹数据,通过动态交互提升代码理解和推理能力[7] - 模型采用多任务强化学习技术,在可验证编码、数学和多轮软件工程等场景中强化推理和规划水平,使其能模拟代码逐步执行过程[7] - CWM支持最高131k token的上下文输入,为复杂编程和推理任务提供更强语境理解能力[10] - 训练数据涵盖预训练、中期训练和后期训练阶段,特别通过Python执行轨迹和ForagerAgent两项大规模数据收集工作增强世界建模能力[10] 模型性能表现 - 在SWE-bench Verified任务中取得65.8%的分数,领先所有开源同规模模型,接近GPT-4水平[8] - 在LiveCodeBench上达到68.6%的得分,在Math-500上高达96.6%,在AIME 2024上取得76.0%的优异成绩[8] 行业技术演进 - 传统代码生成模型主要通过海量代码语料库学习统计模式预测标记,但存在合理但错误的代码、缺乏状态意识和多步骤任务困难三大陷阱[12][14][15] - CWM创新性地学习"代码是如何运行的"而不仅是"代码是如何编写的",通过代码执行轨迹和交互历史作为核心训练数据实现突破[14] - 模型训练采用标准三阶段流程:在8192上下文长度上预训练包含8T token,在131072上下文长度上中期训练包含5T token,最后通过监督微调和强化学习进行后训练[15][16] 公司战略调整 - 此次发布是Meta AI业务重组后首款模型,团队由博士生和经验丰富的资深员工组成[5][18] - Meta在6个月内进行第四次AI业务组织架构改革,将新成立的AI部门超级智能实验室分成四个小组:TBD实验室、FAIR实验室、PAR团队和MSL Infra基础设施团队[23][24] - 架构调整中首席AI科学家Yann LeCun的头衔未提及,被外界解读为边缘化或降级,象征基础研究在公司AI战略中地位相对弱化[24][25] - TBD实验室内部讨论下一代AI模型可能不再开源,意味着公司从"全面开源"转向"选择性闭源"战略重心出现重大转折[25] - CWM作为重组后首款开源模型表明Meta并未彻底放弃开源,仍在代码生成等关键领域通过开源维持学术界与开发者社区联系[26]
汽车业AI“狂飙”,“轮式智能生命体”即将到来
华夏时报· 2025-09-25 07:58
行业宏观背景与政策导向 - 国务院发布《关于深入实施"人工智能+"行动的意见》,提出到2027年人工智能与实体经济深度融合取得显著成效的目标,为汽车产业等重点领域指明发展方向 [2] - "全球AI科技大会"的举办被视为观察行业如何响应国家战略、探寻AI落地路径的重要窗口 [2] - 汽车行业面临技术路线快速演进与产业格局深刻重塑的双重变革 [2] 汽车产品形态的进化方向 - 未来汽车将从一个信息孤岛进化成能思考、会学习、懂合作的"轮式智能生命体" [2] - 汽车将成为智慧城市交通网络中的活跃节点,能与道路、云端、其他车辆实时"对话",共同编织安全、高效、绿色的出行网络 [2] - 具体应用场景包括车辆提前接收红绿灯配时信息,自动平滑车速实现"绿波通行",以省时省电并缓解拥堵 [4] 智能驾驶技术发展路径 - 文远知行CEO提出"L3是简化的L4,而不是复杂的L2"的观点,认为L3的"心智"成熟度更接近完全自主的L4 [4] - 商汤科技阐述"世界模型"可推动自动驾驶在数据瓶颈、验证技术边界和通过强化学习超越人类驾驶体验三方面取得突破 [4] - Momenta分享基于强化学习技术的R6飞轮大模型能够实现超越人类老司机的安全水平 [4] 中国智能电动车市场核心趋势 - 汽车之家研究院报告提出影响市场未来发展的五大核心趋势:智驾平权启动、AI大模型上车、智能座舱体验升级、超充等新兴配置成关键、RoboTaxi商业化加速 [6] - 智能化已取代传统认知成为用户选购新能源车的首要因素,认为"智能化是新能源车核心优势"的用户比例从30%大幅提升至73% [7] - 产业竞争格局正从传统的性能、配置比拼转向以智能化体验为核心的生态体系竞争 [6] 行业竞争规则与价值锚点的转变 - 行业已从电动化上半场进入以AI为主导的智能化下半场,价值锚点正在从"马力"转向"算力",从"配置表"转向"体验流" [7] - 消费者与汽车的关系进入"双向选择"新阶段,未来4S店试驾将转变为用户主导的、近乎严苛的"能力测试" [8] - RoboTaxi等"随需所用"的出行模式可能对传统汽车销售逻辑带来冲击,促使车企思考向"智慧出行服务"提供者转型 [7] 技术发展中的挑战与建议 - 报告显示高达85%的被测车型在辅助驾驶过程中出现过需人类紧急接管的危险场景,安全信任是根本前提 [8] - 行业建议跳出参数和价格内卷追求核心技术突破,从"单车智能"向"产业智能"拓展,加强开放合作构建共赢生态,守住安全与伦理底线 [8] - 汽车之家凭借数据资产优势与自研大模型,正通过AI技术系统性解决汽车消费体验与经营效率的结构性痛点 [9]
周鸿祎:语言是最重要的,语言掌握了就一通百通
新浪科技· 2025-09-24 05:09
核心观点 - 行业观点认为语言是人工智能发展的关键 语言突破将推动其他AI模型领域取得重大进展[1] 行业技术路径 - 行业观点指出语言在人类活动中承担交流 知识传承 逻辑推理和世界描述的核心功能 是理解世界模型的关键[1] - 行业观点认为人工智能过去未能取得突破的原因在于未理解语言的重要性 一旦掌握语言即可通晓人类知识 世界和推理能力[1] - 行业观察到Google近期发布的nano banana产品在图形理解方面表现惊艳 其能力超越了视觉层面并融合了知识[1] 技术突破影响 - 行业观点强调语言技术取得突破后 音乐模型 视频模型 图形模型和视觉模型等领域均获得显著进展[1]
打算招聘几位大佬共创平台(4D标注/世界模型/VLA等方向)
自动驾驶之心· 2025-09-23 23:32
QS200以内高校,硕士及以上学历,手握顶会的大佬优先。 待遇说明 自动驾驶资源共享(求职、读博、出国留学推荐等); 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 业务合伙人 自动驾驶之心业务合伙人招募来啦!我们团队今年计划向国内外招募10名优秀的合伙人,负责自动驾驶相 关课程研发、论文辅导业务开发、硬件研发; 主要方向 如果您是大模型/多模态大模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D目标检测、 世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们; 岗位要求 丰厚的现金激励; 创业项目合作与推荐; 联系我们 更多欢迎添加微信咨询,备注" 机构/公司 + 自动驾驶合作咨询 "。 ...