聊聊 AI Agent 到底有多大创新?
自动驾驶之心·2025-10-12 23:33

AI Agent技术当前面临的核心挑战 - 规划阶段耗时巨大,工具增多后Turbo系列模型准确率堪忧,被迫使用旗舰模型进一步增加延迟 [1][2] - 规划质量不高,模型自主构建的复杂工作流可用率远低于人类水平,简单工作流使用判别式小模型性能更优 [2] - 反思策略易导致自我内耗和死循环,是一种以时间换取准确度的策略 [3] Planning延迟问题的本质与优化方案 - 核心是工具发现和参数对齐成本被低估,工具数量从5个增至50个,搜索空间呈指数级膨胀,导致弱推理模型准确率低,强推理模型延迟高 [5] - 解决方案包括工具层缩小范围进行分层治理,例如使用意图分类器将请求路由到具体域,每个域仅暴露5-10个核心工具 [5] - 将串行执行改为DAG并行,对于无依赖关系的工具调用,并行化可使整体链路耗时缩短20% [6] - 在项目起始节点增加路由策略,简单任务路由给SLM或专用执行器,复杂任务才使用强推理模型 [6] Planning质量问题的根源与提升路径 - 模型生成的文字描述计划缺乏可执行性和全局约束,传统人工设计的workflow具有明确的分支条件和异常处理机制 [8] - 采用HiPlan思路,将计划拆分为“里程碑+局部提示”两层,高层管战略目标,低层负责战术细节,里程碑可离线积累复用 [8] - 提供结构化计划框架(类似DSL),强制模型输出符合语法的计划,可将企业场景工具调用准确率提升平均20多个百分点 [10] - 引入搜索式规划(如LATS将MCTS引入Agent)和多轮RL训练(如RAGEN、LMRL-Gym),以提升长程任务的成功率 [12][14] Reflection死循环问题的成因与解决思路 - 根本原因是缺乏细粒度的可计算信号和明确的停机条件,反思仅依赖主观判断易强化错误假设 [15] - UFO研究采用最简单的一元反馈(如“Try again”)进行多轮RL,无需详细错误诊断即可实现自我改进 [17] - Tool-Reflection-Bench将反思过程结构化,让模型学会基于证据诊断错误并提出可执行的后续调用 [18] - 工程层面可设置硬性上限(max_rounds)、无进展退出(no-progress-k)、状态去重(state-hash)和成本预算(cost-budget)等终止机制 [20] AI Agent技术的价值与发展趋势 - AI Agent是LLM在现实场景业务落地最有价值的技术应用方向,其架构虽非重大创新,但同时降低了应用下限并提升了能力上限 [21] - 现阶段问题将随基于RL训练的Agent模型能力提升而逐步解决,但工程化的生产业务架构和Human-in-the-loop的优化仍至关重要 [21] - 通过RL训练,Agent模型在垂直领域(并逐步扩张至通用领域)具备很高的实用价值,且价值持续扩大 [21]