AI也能换岗了,Anthropic教智能体交接班,不怕长任务断片
36氪·2025-12-03 02:32

文章核心观点 - Anthropic公司设计了一套创新的双智能体长时运行框架,旨在解决AI智能体因缺乏长时记忆而无法有效完成持续数小时复杂任务的固有缺陷[1][3] - 该框架通过模仿人类优秀工程师的工作习惯,利用初始化智能体和编码智能体分工协作,并结合功能清单、渐进式推进、测试与环境管理等机制,使AI能够跨越多轮对话窗口渐进式地推进项目[11][12][13] - 在开发一个claude.ai克隆网页的示例中,该框架显著提升了全栈Web应用开发的稳定性和效率,为解决长期运行智能体的“记忆缺陷”问题提供了有效方案[24] 行业技术挑战与现有问题 - AI智能体普遍存在“记忆缺陷”,即模型没有真正的长期记忆,所有判断依赖当下能看到的文本片段,一旦上下文窗口关闭或填满,记忆即被清空,这导致其无法完成需要持续数小时、跨越多轮对话的复杂工程任务[1][2] - 即使使用Claude Agent SDK这类具备上下文压缩能力的强大框架,顶级的编码模型(如Opus 4.5)在开箱即用情况下,面对跨多个上下文窗口的模糊大指令(如“做一个claude.ai的克隆网页”)时,依然难以完成可上线的Web应用[5] - 智能体在长时任务中常出现两种失败模式:一是试图一次性做太多事,导致中途耗尽上下文,留下未完成的半成品;二是在项目后期错误判断“项目已完成”,仅因扫描到部分现有成果就宣布结束[6][7] Anthropic提出的解决方案框架 - 公司设计了一个双组件智能体架构,包括初始化智能体编码智能体。初始化智能体在第一次会话中负责搭建初始环境,生成初始化脚本、工作日志文件和初始Git提交;编码智能体则在后续会话中接手,每次只推进一小步,并为下一轮工作留下清晰信息[11] - 框架的核心突破在于利用claude-progress.txt工作日志文件和Git历史记录,使每次新启动的会话能在没有历史上下文的情况下快速理解当前项目状态,这一灵感来源于优秀软件工程师的日常工作习惯[12] - 该框架通过环境管理“三板斧”来确保智能体高效协作:功能列表渐进式推进测试[13] 关键实现机制与优化 - 功能列表:初始化智能体将用户的初始提示扩展成一个完整的功能需求文件(例如在claude.ai克隆示例中生成了超过200个功能),每个功能初始标记为“failing”,以明确待办事项。研究人员要求编码智能体只能修改passes字段状态,并选用JSON格式以防止AI误删或覆盖内容[14] - 渐进式推进:编码智能体被要求一次只做一个功能的小步骤改动,每次修改后需通过描述性信息提交到Git,并在进度文件中总结进展,以保持环境处于“干净状态”(即无显著bug、代码整洁、有清晰文档,可随时安全合并到主分支)[15][16][10] - 测试优化:为解决Claude经常在没有充分测试的情况下将功能标记为完成的问题,研究明确要求其使用浏览器自动化工具(如Puppeteer MCP)进行端到端的用户流程测试,而非仅停留在代码层面的单元测试。这能发现许多仅从代码文本无法看出的问题,尽管在识别如原生alert弹窗等特定场景时仍存在限制[19][21][22] - 快速上手流程:每次编码智能体启动时会执行一套标准化步骤:运行pwd确认工作目录、阅读Git日志和进度文件了解近期工作、阅读功能列表并选择最高优先级未完成的功能。此外,初始化智能体会编写init.sh脚本用于启动开发服务器和运行基本端到端测试,确保智能体在开始新功能前能判断并修复项目异常状态[23] 应用效果与未来展望 - 目前的双组件架构已显著提升了全栈Web应用开发的稳定性[24] - 该框架主要针对Web应用进行了优化,但其经验很可能同样适用于科研、金融建模等其他需要长时间运行的智能体任务[24] - 未来仍存在开放问题,例如不确定一个通用编码智能体是否足够强大,还是应该采用包含专门“测试智能体”、“质检智能体”或“代码清理智能体”的多智能体架构[24]