RL（强化学习） - 财报，业绩电话会，研报，新闻

RL（强化学习）

搜索文档

首席商业评论· 2025-12-12 11:21

文章核心观点文章通过解读OpenAI前首席科学家Ilya Sutskever的访谈，阐述了其对人工智能发展现状、未来方向及实现路径的核心观点。核心观点认为，AI发展正从依赖算力规模扩张的“规模化时代”转向依赖算法创新的“研究时代”，而实现安全、高级的通用人工智能（AGI）的关键在于探索新的学习机制（如价值函数）、理解并模拟人类智能的本质（如情绪、同理心），并保持专注的研究品味[10][17][22][24]。关于时代的转向 - AI发展历程分为三个阶段：2012-2020年为“研究时代”，尝试不同AI想法；2020-2025年为“规模化时代”，自GPT-3后算力规模扩张成为共识；2025年开始，因数据有限，预训练的规模定律失效，行业重新回归“研究时代”，竞争焦点将从比拼GPU数量转向寻找新算法[17] SSI的规划 - Ilya创立的SSI公司采取“Straight shot”策略，不发布中间产品，直接研发超级智能，以避免市场竞争带来的妥协[13] - 其对超级智能的定义更接近“超级学习者”，发布时类似“天才少年”，需在社会中学习进步，预计出现窗口期为5到20年[13] - SSI融资30亿美元，虽比大厂少，但资金将全部投入纯粹研究实验，在研发层面具备竞争力[13] 关于Taste（研究品味） - Ilya分享了判断研究方向的三个黄金标准：1) 生物学上的合理性（如神经元连接结构）；2) 方案的简洁与优雅美感；3) 基于第一性原理的“自上而下”信念，即在数据不符预期时能坚持理论，相信是代码问题，这是顶级与平庸研究者的关键区别[18] 关于Value Function（价值函数） - 预训练红利已尽，下一步重点是价值函数，旨在让AI具备人类式的直觉性中途判断能力，而非仅能在任务完成后评估对错，此举将大幅提升AI学习效率[16][19] - Ilya坚信只要信号存在，深度学习就能学到价值函数，尽管路径复杂[19] 关于RL（强化学习） - Ilya提出反直觉观点：当前的RL方法可能是在“弄傻”模型，因为它可能“撤销预训练的概念印记”，迫使AI讨好单一人类指标，牺牲了其原本宽广的通用智力，类似应试教育[20] - 行业现状发生重要转向：根据传闻，目前花在RL上的算力已超过预训练，因为RL需要长推演，算力消耗大但有效学习信号少[20] 情绪与同理心的作用 - 情绪被视为人类高效的“压缩算法”和终极的价值函数，能帮助快速决策。当前AI缺乏这种内在指引，导致其可能逻辑正确但缺乏常识[22] - 同理心是理解世界的最佳捷径。从计算效率看，复用理解“自我”的神经回路去模拟“他人”是最省资源的建模方式，因此同理心可能作为智能提升的涌现属性出现[24] - 将“关爱有感知生命”硬编码进超级智能是对齐问题的潜在解法。人类进化能将对“社会地位”等抽象概念的追求编码进大脑，这为将高级目标对齐给AI提供了可能性[24][25] 关于语言对思维的影响 - 行业术语会反向塑造研究方向，例如“AGI”一词可能导致过度追求全能基础模型而忽视动态学习能力；“Scaling”一词则曾让行业过度聚焦模型规模而停止探索其他可能性[27] 未来的市场格局 - 未来超级智能领域不会由一家公司垄断，竞争将促使专业化分工。在特定领域投入巨大算力形成高壁垒后，其他AI从头学习将不划算，从而形成类似自然界的生态平衡，这对垂直领域创业者是鼓励[28]

对谈 Macaron 创始人陈锴杰：RL + Memory 让 Agent 成为用户专属的“哆啦 A 梦”｜Best Minds

海外独角兽· 2025-09-11 12:02

AI Agent发展趋势 - ChatGPT加入memory功能后用户粘性显著增强 AI Agent开发进入更成熟阶段从依赖prompting构建基础Agent转向通过RL和memory开发Agentic能力更强的Agent [2] - AI角色正从写代码、做PPT的生产力助手向真正懂用户的个性化生活伙伴转变 [2] - Multi-agent系统可将Memory Agent和Coding Agent分开训练实现情商和智商的平衡 [3] - 不同的生活场景叠加会给Agent带来更大的商业价值 [3] Macaron产品定位 - Macaron定位为Personal Agent 专注于个人生活场景而非生产力方向 [13] - 产品核心特点是Memory强和有用性能帮助用户定制饮食记录、健身日志、心情日记等Sub Agent小工具 [14] - 产品最佳类比是多啦A梦既是用户朋友又是生活助手而非单纯工具 [23] - 采用multi-agent架构：高情商的Memory Agent作为用户朋友高智商的Coding Agent专注工具开发 [24] - 上线一周多已有7000多用户创建10000多个小应用主要集中生活记录与规划类需求 [51] Memory技术突破 - Memory不是目的而是方法目标是更好服务用户而非单纯记忆 [15] - 将Memory当作智能能力进行训练采用Memory强化学习技术 [16] - 在671B大模型级别进行Memory强化学习训练国内能做的团队不到5个 [33] - 训练中机器Memory与人的Memory需要拟合对齐用户强调的信息会被着重记录 [17] - 开发all-sync RL技术将训练时间从按周压缩到按天约30小时完成一次有意义的RL [39] 训练技术优势 - RL是智能提升下半场的核心在特定场景可推到智能最上限 [34] - 在700B大模型上进行RL训练才能迈过AGI门槛 200B是分水岭 [34] - all-sync RL通过通信与模型压缩实现训练与推理同步效率提升数倍原需512张卡现仅需48张卡 [42] - RL在场景优化中价值显著从85分往95分提升时RL效果最强烈 [47] 商业化路径 - 生活场景相比工作场景具有更大商业价值场景叠加能产生更大效果 [60] - 当前采用订阅制商业模式未来考虑社区分享回报和第三方接入等创新模式 [61] - 不是传统App Store模式而是生活方式分享平台创作者无需创作能力只需分享独特生活方式 [27] - Personal Agent赛道类似社交软件格局不同性格的Agent可并存 [63] 市场竞争格局 - ChatGPT已占据4亿DAU 处于Facebook式的统治地位但定位更偏向工作场景 [64] - Macaron定位生活陪伴场景与ChatGPT可并存甚至抗衡 [65] - 时间点正好作为第一批Personal Agent上市团队有三到六个月窗口期建立用户心智 [65] - 专业场景Agent仍有巨大机会但单纯工作流式小Agent会被大Agent覆盖 [66] 用户案例 - 用户创建多样化生活应用：高尔夫动作分析、搬家规划、家庭菜谱管理等个性化需求 [55][56][57] - 这些应用太个性化难以在传统应用商店找到解决方案但完美符合个人需求 [57] - 代码生成成本大幅降低像自来水一样流动普通用户也能造出合心意工具 [59] 技术架构 - 摒弃传统数据库系统设计让所有Sub Agent共享同一份个人数据的架构 [32] - 记忆传递机制复杂需实现Sub Agent间相互理解与信息反馈 [31] - 训练目标分离：Memory Agent优化更懂用户和聊天服务 Coding Agent优化200个真实案例工具开发 [25]