经验时代(Era of Experience)
搜索文档
对话陈锴杰:做你的Personal Agent,更要做你的“高情商Agent”|NEXTA创新夜谈
36氪· 2025-11-19 07:33
AI行业范式转变 - AI行业正从依赖增加参数和数据的“规模定律”时代迈向“经验时代”,高质量数据消耗殆尽导致模型智能提升遇到瓶颈[3][4] - 未来智能系统的竞争力将不再由规模参数决定,而是取决于从真实用户经验中持续学习和进化的能力[3][6] - 互联网数据量有限,当前训练数据量级约为14TB,能训练的模型参数量上限约1万亿,主流模型参数量很难超过此上限[4] 经验时代与强化学习核心 - “经验时代”由DeepMind科学家提出,主张用真实产品和用户反馈数据推动模型进步,而非仅依赖预训练[6] - 强化学习通过真实互动提供蕴含因果关系的高质量数据,其信息价值密度远高于被动观看视频[7] - 强化学习的核心优势是目标对齐,能将训练目标与用户价值目标对齐,例如训练写代码或服务用户等真实任务[8] 奖励模型与训练机制 - 奖励模型(Reward Model)作为“教师模型”是关键环节,通过预测用户偏好来判定答案优劣,其本身是万亿参数级别的大模型[9] - Cursor采用“Agent RL”每两小时聚合用户数据迭代模型,使模型智能分从40分提升至60分,并有望超越顶尖模型[8] - 为解决“学生模型”欺骗“教师模型”的Hacking Problem,需在两者投入同级算力使其公平博弈共同进化[10] 马卡龙AI产品战略 - 马卡龙AI定位为“Personal Agent”(个人智能体),上线后用户已创建超过10万个覆盖旅行、健康、理财等场景的个性化小应用[11] - 产品刻意避免社区功能,专注于私密、专属的交流环境,以探讨恋爱、家庭等生活话题[3] - 公司明确产品非工作Agent,不做PPT或深度研究,而是专注“生活记录与规划”领域[13] 记忆系统技术创新 - 记忆系统不依赖传统关键词检索(RAG),而是将记忆内化为模型可训练的“记忆区块”,通过强化学习不断更新[11] - 系统以用户满意度为指标训练带推理能力的Reward Model,模型自主决定记忆内容并动态更新[11][14] - 技术采用蚂蚁集团开源的Text Diffusion技术,可同时生成千字文本并支持直接修改中间内容[12] 产品形态与未来愿景 - 长远愿景是让AI在聊天中交付各种小组件(如外卖卡片)来创造价值,而非仅通过文字回复[15] - 当前因技术限制将小应用生成功能独立为Mini App,未来目标是与对话系统融合[15] - 公司相信未来每个人都会拥有AI生活管家,可能替代手机大部分后排应用,形态包括设闹钟、管理日历、电商下单等[16]