LangChain Agent 年度报告:输出质量仍是 Agent 最大障碍,客服、研究是最快落地场景
Founder Park·2025-12-22 12:02

行业核心观点 - 2025年,AI Agent大规模应用的主要障碍已从成本转向输出质量,确保其输出可靠、准确是最大挑战[1] - 进入2026年,行业讨论焦点已从“是否采用Agent”全面转向“如何规模化、可靠且高效地应用”[2] Agent采用现状与趋势 - 超过一半(57.3%)的受访者已将Agent投入实际生产,另有30.4%正在开发且有明确上线计划,行业正从“概念验证”快速迈向“价值实现”阶段[4][5] - 规模越大的企业,Agent落地速度越快:万人以上大型企业中,67%已将Agent投入生产,24%正在积极开发;而百人以下小公司的比例分别为50%和36%[6] - 客户服务(26.5%)与研究及数据分析(24.4%)是目前最主流的Agent应用场景,两者合计占据所有应用场景的一半以上[10] - 在万人以上的大企业中,提升内部生产力(26.8%)反超客户服务,成为第一大应用场景[13] - 今年的应用场景分布更广,表明Agent应用正从早期领域向更多元化方向渗透[12] 应用挑战与障碍 - 输出质量(准确性、相关性、一致性、遵循规范的能力)是阻碍Agent大规模应用的最大障碍,三分之一的受访者视其为主要瓶颈[14] - 延迟(20%)是第二大挑战,尤其在客服或代码生成等实时交互场景中,响应速度直接影响用户体验[17] - 对于员工超过2000人的企业,安全问题(24.9%)的关注度超过延迟,成为仅次于质量的第二大挑战[18] - 对于万人以上企业,“幻觉”和生成内容的一致性被提及为保障质量的最大挑战,同时在上下文工程及大规模管理上下文方面也困难重重[20] - 随着模型价格下降和技术优化,成本已不再是大家最头疼的问题,行业关注点正从“省钱”转向如何让Agent运行得更好、更快[17] 技术实施与评估 - Agent执行流程的可观测性已成为行业标配:89%的企业已为其Agent实施某种形式的可观察性,其中62%拥有详细的追踪能力[21][23] - 在已有Agent投入生产的受访者中,可观测性部署比例更高:94%部署了可观察性,其中71.5%具备完整的追踪能力[23] - 超过半数(52.4%)的企业会通过测试集进行离线评估,而在线评估的采用率较低(37.3%),但后者比例正在增长[25][26] - 当Agent进入生产环境后,“不进行任何评估”的团队比例从29.5%下降至22.8%,进行在线评估的比例则上升至44.8%[28] - 在评估方法上,行业呈现混合模式:近四分之一的团队同时采用离线和在线评估,普遍依赖人机结合方法,如采用LLM-as-judge(53.3%)和人工审查(59.8%)[31][33] - 传统机器学习指标(如ROUGE和BLEU)采用率较低,因其不适合评估开放式、存在多个合规答案的Agent交互场景[34] 模型使用与开发模式 - OpenAI的GPT模型在采用率上占主导,超过三分之二的企业正在使用[36] - 超过四分之三的团队在生产或开发中会使用多种模型,倾向于根据任务复杂度、成本和延迟灵活分配任务,而非绑定单一平台[36] - 超过三分之一的组织仍在投资部署开源模型,主要出于成本优化、数据主权或行业监管合规的考虑[38] - 微调尚未成为主流:57%的组织没有进行微调,而是更依赖于提示工程和RAG技术[38] 日常使用与工具类别 - 编程类Agent是日常工作中使用最频繁的类别,如Claude Code、Cursor、GitHub Copilot等工具被广泛用于代码生成、调试和测试[40] - 研究类Agent是第二大常用类别,由ChatGPT、Claude、Gemini、Perplexity等工具驱动,用于探索新领域、总结文档及整合跨源信息[41] - 基于LangChain和LangGraph构建的自定义Agent也广受欢迎,用于QA测试、知识库搜索、工作流自动化等内部场景[42] - 仍有相当一部分受访者表示,除了聊天或编程助手,还没用过其他类型的Agent,表明“一切皆可Agent”的愿景仍处于非常早期阶段[44]