聊聊 AI Agent 到底有多大创新？

AI Agent技术当前面临的核心挑战 - 规划阶段耗时巨大，工具增多后Turbo系列模型准确率堪忧，被迫使用旗舰模型进一步增加延迟 [1][2] - 规划质量不高，模型自主构建的复杂工作流可用率远低于人类水平，简单工作流使用判别式小模型性能更优 [2] - 反思策略易导致自我内耗和死循环，是一种以时间换取准确度的策略 [3] Planning延迟问题的本质与优化方案 - 核心是工具发现和参数对齐成本被低估，工具数量从5个增至50个，搜索空间呈指数级膨胀，导致弱推理模型准确率低，强推理模型延迟高 [5] - 解决方案包括工具层缩小范围进行分层治理，例如使用意图分类器将请求路由到具体域，每个域仅暴露5-10个核心工具 [5] - 将串行执行改为DAG并行，对于无依赖关系的工具调用，并行化可使整体链路耗时缩短20% [6] - 在项目起始节点增加路由策略，简单任务路由给SLM或专用执行器，复杂任务才使用强推理模型 [6] Planning质量问题的根源与提升路径 - 模型生成的文字描述计划缺乏可执行性和全局约束，传统人工设计的workflow具有明确的分支条件和异常处理机制 [8] - 采用HiPlan思路，将计划拆分为“里程碑+局部提示”两层，高层管战略目标，低层负责战术细节，里程碑可离线积累复用 [8] - 提供结构化计划框架（类似DSL），强制模型输出符合语法的计划，可将企业场景工具调用准确率提升平均20多个百分点 [10] - 引入搜索式规划（如LATS将MCTS引入Agent）和多轮RL训练（如RAGEN、LMRL-Gym），以提升长程任务的成功率 [12][14] Reflection死循环问题的成因与解决思路 - 根本原因是缺乏细粒度的可计算信号和明确的停机条件，反思仅依赖主观判断易强化错误假设 [15] - UFO研究采用最简单的一元反馈（如“Try again”）进行多轮RL，无需详细错误诊断即可实现自我改进 [17] - Tool-Reflection-Bench将反思过程结构化，让模型学会基于证据诊断错误并提出可执行的后续调用 [18] - 工程层面可设置硬性上限（max_rounds）、无进展退出（no-progress-k）、状态去重（state-hash）和成本预算（cost-budget）等终止机制 [20] AI Agent技术的价值与发展趋势 - AI Agent是LLM在现实场景业务落地最有价值的技术应用方向，其架构虽非重大创新，但同时降低了应用下限并提升了能力上限 [21] - 现阶段问题将随基于RL训练的Agent模型能力提升而逐步解决，但工程化的生产业务架构和Human-in-the-loop的优化仍至关重要 [21] - 通过RL训练，Agent模型在垂直领域（并逐步扩张至通用领域）具备很高的实用价值，且价值持续扩大 [21]