机器之心

搜索文档
大神爆肝一个月,复刻DeepMind世界模型,300万参数就能玩实时交互像素游戏
机器之心· 2025-09-28 10:29
机器之心报道 编辑:+0 还记得 DeepMind 的 Genie 3 世界模型 吗?它首次让世界模型真实地模拟了真实世界。 最近,X 博主 anandmaj 在一个月内复刻 Genie 3 的核心思想,开发出了 TinyWorlds ,一个仅 300 万参数 的 世界模型,能够实时生成可玩的像素风格环境,包括 Pong、Sonic、Zelda 和 Doom。 世界模型是一类神经网络,它们通过生成视频来模拟物理世界。 DeepMind 在 Genie 3 上展示了这一理念的潜力:当世界模型在大规模视频数据上训练时,会出现类似 LLM 中的「涌现能力」。例如: 在 Genie 出现之前,研究者普遍认为要扩展世界模型,必须依赖带动作标注或包含三维结构的数据。 然而 DeepMind 发现, 只要足够规模化地训练原始视频,这些高级行为便会自然涌现,就像语言模型会自 然习得语法和句法一样。 帖子附带演示视频,展示了模型通过用户输入实时生成视频帧的过程。 博主还分享了从架构设计到训练细节的完整经验,并开源了代码仓库。 代码: https://github.com/AlmondGod/tinyworlds 理解世界模型 ...
下一代推荐系统长这样,Meta最新研究RecoWorld,从「猜你喜欢」到「听你指令」
机器之心· 2025-09-28 10:29
大家每天都在和推荐系统打交道。无论是刷短视频、逛电商、听音乐还是看新闻,背后都有一套「聪明」的算法在猜测你可能喜欢什么。但你是不是偶尔觉得推 荐内容千篇一律?这其实暴露了传统推荐系统的一个核心问题:它们大多数是基于过去数据来预测,被动的「猜你喜欢」,而缺乏和你真正的互动。 最近,Meta 推荐系统团队提出了一个全新的思路 —— RecoWorld 。 RecoWorld的独特之处在于其双视图架构:模拟用户和智能体推荐系统 进行多轮交互,旨在最大化用户留存率 。 用户模拟器会查看推荐商品,更新其思维模式,并在察觉到用户可能脱离互动时生成反思性指令。智能体 推荐系统则通过整合这些用户指令和推理轨迹,调整其 推荐内容,形成一个主动吸引用户的动态反馈循环。这一过程利用了大语言模型出色的推理能力。 研究者探索了模拟器中的多样内容表示形式,包括基于文本、 多模态和语义ID建模,并讨论了多轮强化学习如何使推荐系统通过迭代交互来不断完善其策略。 RecoWorld还支持多智能体模拟,允许创作者模拟目标用户群体的响应。它标志着向一个新的推荐系统迈出了重要的第一步,在这个系统中,用户和智能体共同塑 造个性化的信息流。他们设想了一 ...
OpenAI被指欺诈,用户输入可能会被秘密路由到新模型GPT-5-Chat-Safety
机器之心· 2025-09-28 07:05
机器之心报道 编辑:Panda 今年 8 月,GPT-5 发布,其在多个任务和基准上都表现卓越,但几乎和人世间的所有事物一样,并不是所有人都满意。尤其是 GPT-5 发布后「OpenAI 移除 ChatGPT 中模型选择器」的做法更是备受诟病(尤其是移除了情感表达更佳的 GPT-4o),甚至引发了诸多用户的「网上请愿」,详见我们的报道《 用户痛批 GPT-5,哭诉「还我 GPT-4o」,奥特曼妥协了 》。 一位用户在 Reddit 愤怒发帖表示 OpenAI 的做法让他直接取消了订阅,并称「OpenAI 失去了我所有的尊重」。他指出,这些模型本有特定用例。「什么样企业会 连夜删除 8 个功能各异的模型,连付费用户都不提前通知?…… 就我个人而言,4o 负责创意发散,o3 处理纯逻辑问题,o3-Pro 用于深度研究,4.5 专职写作…… 尽管 OpenAI 声称系统会自动分配模型,但这仍剥夺了用户直接掌控权。」 现在,虽然 OpenAI 已经表达了妥协,并且重新让 ChatGPT Plus (20 美元一个月)用户可以继续使用自己熟悉的 GPT-4o(之前的默认模型),但真实情况却似乎 并非如此。 用户 Lex ...
放弃 CoT?Agentic 时代为什么更需要隐式推理?
机器之心· 2025-09-28 07:05
机器之心PRO · 会员通讯 Week 39 --- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 --- 1.放弃 CoT?Agentic 时代为什么更需要隐式推理? 为何显示推理无法打破「1Hz」壁垒?Agentic AI 与 CoT 存在哪些冲突?隐式推理为何重新开始流行?TiS 对比 TbS 有哪些优势?隐式推理成为「实时推理」主流路径还有哪些挑战?为什么隐 式推理能绕过「黑箱」困境?... 2. 先验+后验加持,大模型能否 hold 住推理预测的现实「溢出」? 静态考卷太简单,FutureX 能把「记忆型」模型拉到真正的未来考场吗?执行错误「积少成多」,大模型长程任务失效不能只让推理「背锅」?当推理「用兵」碰上财务预测等现实场景,模型 能否稳定「指挥」从而落地?过往的模型预测技术在往哪些方向发力?先验记忆与后验反思机制,未来能为模型预测带来新的突破吗?... 3. 站在巨人的肩膀上:Sergey Levine 预测机器人在五年内实现「完全自主」 为什么机器人的「全能时刻」是伪命题?Sergey Levine 为何更关注机器人「飞轮」?是什么让 Levine 预测机器人将「一年 ...
普通人也能「炼丹」了?我拿小红书文案喂给openPangu-Embedded-1B的模型,几步就把它变成了专属文案大师!
机器之心· 2025-09-28 07:05
机器之心发布 机器之心编辑部 嗨,各位 AI 发烧友和走在技术前沿的朋友们! 最近圈子里风很大,大家聊的都是千亿、万亿参数的巨无霸模型,感觉没个 A100 八卡阵列,都不好意思说自己在搞 AI。 但今天,我想聊个反向操作: 咱们 普 通人,如何用有限的资源,轻松驯服一个 AI 模型,让它变成我们专属的垂直领域小能手? 主角,就是最近华为刚刚开源的一个大小仅为 1B 的 模型 openPangu-Embedded-1B ,它不仅全面领先同规格模型,甚至与更大规模的 Qwen3-1.7B 也难分伯仲。 但你可能要问,1B?在现在这个 "大就是好" 的时代,1B 模型能干啥? 别急,看完我这个 "小实验",你可能会跟我一样,对它 "真香" 了。 我的目标:打造一个小红书文案生成器 大家都知道,小红书的文案风格独树一帜,充满了 "姐妹们"、"种草"、"yyds"、"氛围感" 这类独特的语调和情绪价值。让一个通用大模型直接去写,往往会显得 一本正经,差点那味儿。 所以,我的目标很简单: 能不能用一批小红书的文案数据,对我手头这个 1B 模型进行 "续训",让它快速学会 "小红书体"? 见证奇迹的 "三步走" 说干就干! ...
「从追赶者到引领者,路有多远?」 我们和CANN一线开发者聊了聊
机器之心· 2025-09-28 04:50
机器之心报道 编辑:Panda、泽南 AI 行业很多人相信,我们正在或已经进入所谓的「AI 下半场」。在这一轮 AI 的浪潮中,硬件的竞争早已不再是单纯的算力比拼,而是一场围绕软件、开发者与 生态的「护城河」之战。当国产 AI 生态的转型成为科技领域的时代呼声,华为昇腾及其异构计算架构 CANN 正站在了这场变革的聚光灯下。 2025 年 8 月 5 日,华为轮值董事长徐直军宣布, 昇腾硬件使能的 CANN 将全面开源 开 放 ,并承诺在 12 月 30 日 前完成。 从「砖」到「大厦」 这并非一次简单的技术路线调整,而是国产 AI 基础设施在生态战略上一次深刻的自我革命。它标志着昇腾正试图打破过去由硬件厂商自上而下主导的封闭模式, 转而拥抱一种更开放、更依赖社区共建、也更不确定的未来。这不仅是对行业领导者 CUDA 所建立的强大壁垒发起的挑战,更是对自身的一次考验:从「可用」 到「首选」的道路,关键不再仅仅是技术的迭代,更在于 能否真正构建起一个让开发者愿意参与进来的繁荣生态 。 为了探寻 CANN 开源的真实意义,以及它将为整个生态带来怎样的机遇与挑战,我们与三位身处不同位置的核心开发者与观察者进行了深度 ...
登上NeurIPS,Genesis开创无需OCC引导的多模态生成新范式,在视频与激光雷达指标上达到SOTA水平
机器之心· 2025-09-28 04:50
由华中科技大学与小米汽车提出了业内首个无需 OCC 引导的多模态的图像 - 点云联合生成框架 Genesis 。该算法只需基于场景描述和布局(包括车道线和 3D 框),就可以生成逼真的图像和点云视频。 为了以结构化语义引导生成过程,本文引入了 DataCrafter (一个基于 VLM 的数据标注模块),可提供场景级与实例级的信息描述。在 nuScenes 基准数据集上的大量 实验表明,Genesis 在视频与激光雷达指标上均达到了当前 SOTA 水平。 论文链接:https://arxiv.org/abs/2506.07497 Github 链接:xiaomi-research/genesis 论文题目:Genesis: Multimodal Driving Scene Generation with Spatio-Temporal and Cross-Modal Consistency Genesis 采用两阶段架构:第一阶段基于透视图投影的布局和场景描述等条件,利用基于 DiT 的扩散模型学习 3D 变分自编码器编码的环视图特征; 第二阶段将第 一阶段多视角视频序列转到鸟瞰图的特征空间,并结合场景描述和 ...
RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能
机器之心· 2025-09-28 04:50
一个月前,我们曾报道过清华姚班校友、普林斯顿教授 陈丹琦似乎加入 Thinking Machines Lab 的消息。有些爆料认为她在休假一年后,会离开普林斯顿,全职加 入 Thinking Machines Lab。 最近,陈丹琦在普林斯顿大学的团队发布了最新学术成果,表明了 RLVR 范式在可验证领域之外依然有效,提出了 基于模型奖励思维的强化学习(RLMT) 方 法,它将显式的思维链推理融入通用聊天模型之中。 论文标题:Language Models that Think, Chat Better 论文链接:https://www.arxiv.org/overview/2509.20357v1 众所周知,大型语言模型传统上遵循一种多阶段训练范式:首先在大规模文本语料上进行 预训练,然后通过 监督微调 来学习指令跟随,最后借助 强化学习 来对 齐人类偏好。 机器之心报道 编辑:冷猫 思考自身行为的后果,并在必要时进行修正 —— 这是人类智慧的核心特征之一。 这种方法确实催生了功能强大的对话式 AI 系统,但仍存在一个关键局限: 在数学、编程等领域通过 可验证奖 励的强化学习(RLVR) 所获得的推理能力, ...
一文读懂鲸智百应:驱动组织进化的企业AI操作系统,让企业从「用AI」到「是AI」
机器之心· 2025-09-28 04:50
机器之心发布 机器之心编辑部 「统一认知、智能执行、决策中枢、记忆进化、智能体工厂、 AI 治理」六大维度,让企业 彻底跳出「用 AI 」的工具思维,成为 「 AI 原生组织」。 走进任何一家大中型企业,「系统横跳」已成为日常:员工每天要在 5 个以上业务系统间切换完成工 作, 80% 的生产数据沉睡在 ERP 、 CRM 、 OA 的孤岛中无法调用, AI 工具仍停留在「问答式辅 助」而非「全流程执行」 ...... 本该驱动业务迭代的核心资产,成了看得见、用不上的「数据孤岛」, 企业数字化落地早已陷入「工具堆砌而非价值重构」的困境。 曾经一家企业 CTO 的感慨颇具代表 性:「每个系统都很专业,可当处理复杂业务时,却连一份完整的分析报告都凑不出来。」 2025 云栖大会上,在多数玩家还在聚焦「智能体」时,浩鲸科技正式推出的「鲸智百应」,以「企业 AI 操作系统」的定位撕开了差异化缺口。 据 浩鲸科技董事、云智能总裁杨名 介绍,鲸智百应并非简单的功能叠加,而是从「统一认知、智能执 行、决策中枢、记忆进化、智能体工厂、 AI 治理」六大维度,让企业彻底跳出「用 AI 」的工具思 维,成为 具备感知、思考、行动 ...
新一代AI教师是什么样?学而思让它从L2「助手」跃迁至L3「老师」
机器之心· 2025-09-28 00:32
机器之心报道 编辑:+0 自动驾驶有 L1-L5 的分级路径,现在教育 AI 也有了自己的版本。 然而,长期以来,这种 高频互动和个性化引导 几乎只是少数学生才能享有的「奢侈品」。 人工智能的加入正在改变这一切。AI 学伴不仅能提供全天候的回应,还能创造一个无须担心被评判的空间,让学生大胆试错、主动追问。更重要的是,它能把启 发式的交互和个性化的反馈规模化,让「因材施教」真正成为可能。 可以看到,全球科技巨头已将目光聚焦于此。从 OpenAI 到 Google,其 AI 应用界面均已部署学习板块。 如今,「AI 下半场」已成共识,应用落地正成为决定未来的关键。教育,作为关乎人类发展的根本基石,已然成为 AI 技术融合与创新的前沿阵地。 很多人可能都有过这样的经历: 课堂上,一个问题在嘴边盘旋,却因为害怕问得「太蠢」而最终选择沉默;或者,前面的内容还没听懂,老师已经跳到下一个知 识点了。 ChatGPT 学习板块。 这正是教育领域长期存在的无奈:大班授课下,个体的思考路径常常被淹没在统一的教学节奏中。教师想兼顾每一位学生的困惑,但心有余而力不足。 瑞士心理学家 Jean Piaget 提出的建构主义早已指出:知 ...