Evaluation
搜索文档
豆包大模型 1.8 发布,通用 Agent 模型成为了 AI 行业的新叙事
Founder Park· 2025-12-19 07:22
兜兜转转,2025 年的 AI 行业,以 DeepSeek R1 和 Manus 开局,最终又回到了基模本身的主线叙事。 谁对 Agent 的支持能力更好、谁的 Coding 能力更强、谁能用好工具,谁才是今天开发者更愿意选择的模型。 不再只看榜单分数,解决现实世界复杂任务的能力,成为了衡量模型的新标准。 字节在昨天发布的豆包大模型 1.8,同样选择增强了对于 Agent 的支持能力,除了继续增强 Coding 和工具使用能力之外,豆包 1.8 选择了一个更有 想象力的场景——OS Agent。 一个不仅能搜索、能写代码,还能「看见」世界并且进行交互的 Agent。 不仅如此,随着模型同步发布的,还有一套基于现实世界任务的新的 Evaluation System,喊了一年的「AI 下半场」,或许这套评测集,是我们开启 下半场的方式之一。 如果 Agent 真的想成为人类现实世界复杂任务的助手,视觉能力是它们理解和执行这些复杂任务的有力保障。 过去,给大模型增加视觉理解能力一般是通过外挂的方式,在文本模型的基础上,加上 VLM 的能力,甚至单独发布一个 VLM 的模型。比如 OpenAI 在 2023 年发布的 ...
The Second Half:一位 OpenAI 科学家的 AI 下半场启示录
海外独角兽· 2025-04-17 06:26
AI发展阶段的划分 - AI发展已进入下半场,从单纯解决问题转向定义问题和评估模型效果 [6][7] - 上半场核心在于训练方法创新,如Transformer、AlexNet、GPT-3等模型突破 [9] - 上半场训练方法论文引用量远超benchmark论文,如Transformer引用16万次vs WMT'14的1300次 [9][11] 强化学习(RL)的突破 - RL获得泛化能力,能同时处理软件工程、创意写作、数学问题等多样化任务 [8] - RL三大要素中,先验知识(priors)重要性超过算法和环境 [13][14][15] - 语言模型pre-training为RL提供了关键先验知识,但直接应用于控制领域效果不佳 [20][21] AI有效配方 - 核心配方包含:大规模语言预训练、算力数据扩展、推理与行动理念 [12] - 语言通过agent reasoning实现泛化,如ReAct框架结合推理与行动 [25][26] - 环境设计重要性凸显,OpenAI曾开发Gym、World of Bits等标准化RL环境 [18][19] 评估方法的转变 - 传统i.i.d评估假设与现实不符,需开发考虑长期记忆和连续任务的评估方式 [30] - 自动评估假设被质疑,真实人机交互评估如Chatbot Arena更具现实意义 [28][30] - 效用问题成为关键,AI需从攻克benchmark转向创造实际经济价值 [28][30] 行业影响与趋势 - 通用配方使渐进式改进价值降低,5%专项优化可能不如30%的通用模型提升 [26][28] - 下半场将催生万亿级公司,通过智能产品化实现商业价值 [30] - 行业需重新思考问题定义,产品经理类技能将更受重视 [7][28]