Workflow
RL(强化学习)
icon
搜索文档
对谈 Macaron 创始人陈锴杰:RL + Memory 让 Agent 成为用户专属的“哆啦 A 梦”|Best Minds
海外独角兽· 2025-09-11 12:02
AI Agent发展趋势 - ChatGPT加入memory功能后用户粘性显著增强 AI Agent开发进入更成熟阶段 从依赖prompting构建基础Agent转向通过RL和memory开发Agentic能力更强的Agent [2] - AI角色正从写代码、做PPT的生产力助手向真正懂用户的个性化生活伙伴转变 [2] - Multi-agent系统可将Memory Agent和Coding Agent分开训练 实现情商和智商的平衡 [3] - 不同的生活场景叠加会给Agent带来更大的商业价值 [3] Macaron产品定位 - Macaron定位为Personal Agent 专注于个人生活场景而非生产力方向 [13] - 产品核心特点是Memory强和有用性 能帮助用户定制饮食记录、健身日志、心情日记等Sub Agent小工具 [14] - 产品最佳类比是多啦A梦 既是用户朋友又是生活助手 而非单纯工具 [23] - 采用multi-agent架构:高情商的Memory Agent作为用户朋友 高智商的Coding Agent专注工具开发 [24] - 上线一周多已有7000多用户创建10000多个小应用 主要集中生活记录与规划类需求 [51] Memory技术突破 - Memory不是目的而是方法 目标是更好服务用户而非单纯记忆 [15] - 将Memory当作智能能力进行训练 采用Memory强化学习技术 [16] - 在671B大模型级别进行Memory强化学习训练 国内能做的团队不到5个 [33] - 训练中机器Memory与人的Memory需要拟合对齐 用户强调的信息会被着重记录 [17] - 开发all-sync RL技术 将训练时间从按周压缩到按天 约30小时完成一次有意义的RL [39] 训练技术优势 - RL是智能提升下半场的核心 在特定场景可推到智能最上限 [34] - 在700B大模型上进行RL训练才能迈过AGI门槛 200B是分水岭 [34] - all-sync RL通过通信与模型压缩实现训练与推理同步 效率提升数倍 原需512张卡现仅需48张卡 [42] - RL在场景优化中价值显著 从85分往95分提升时RL效果最强烈 [47] 商业化路径 - 生活场景相比工作场景具有更大商业价值 场景叠加能产生更大效果 [60] - 当前采用订阅制商业模式 未来考虑社区分享回报和第三方接入等创新模式 [61] - 不是传统App Store模式 而是生活方式分享平台 创作者无需创作能力只需分享独特生活方式 [27] - Personal Agent赛道类似社交软件格局 不同性格的Agent可并存 [63] 市场竞争格局 - ChatGPT已占据4亿DAU 处于Facebook式的统治地位但定位更偏向工作场景 [64] - Macaron定位生活陪伴场景 与ChatGPT可并存甚至抗衡 [65] - 时间点正好 作为第一批Personal Agent上市团队 有三到六个月窗口期建立用户心智 [65] - 专业场景Agent仍有巨大机会 但单纯工作流式小Agent会被大Agent覆盖 [66] 用户案例 - 用户创建多样化生活应用:高尔夫动作分析、搬家规划、家庭菜谱管理等个性化需求 [55][56][57] - 这些应用太个性化难以在传统应用商店找到解决方案 但完美符合个人需求 [57] - 代码生成成本大幅降低 像自来水一样流动 普通用户也能造出合心意工具 [59] 技术架构 - 摒弃传统数据库系统 设计让所有Sub Agent共享同一份个人数据的架构 [32] - 记忆传递机制复杂 需实现Sub Agent间相互理解与信息反馈 [31] - 训练目标分离:Memory Agent优化更懂用户和聊天服务 Coding Agent优化200个真实案例工具开发 [25]