扒完全网最强 AI 团队的 Context Engineering 攻略，我们总结出了这 5 大方法

AI Agent开发痛点与Context Engineering需求 - AI Agent开发面临海量工具调用和长程推理(long horizon reasoning)产生的长上下文(long context)问题，严重制约Agent性能和成本，甚至导致模型能力下降[4] - 典型任务通常需要约50次工具调用，生产级Agent运行时可能需要多达数百次工具调用[11] - 单次运行可能消耗50万个token，成本达到1-2美元[11] Context Engineering核心概念 - Context Engineering定义为"在大语言模型的上下文窗口中放入正好适合它执行下一步所需的信息"[8] - 本质上是AI Engineering的子集，包含内循环(即时筛选所需context)和外循环(长期优化context window)[10][13] - 随着context长度增加，模型注意力会分散，推理能力下降，这种现象称为context衰减(context decay)[15] 五大Context Engineering策略 Offload(转移) - 将完整工具调用context转移到文件系统等外部存储，仅返回摘要或URL标识[21][26] - 使用文件系统记录笔记、跟踪进度、存储长期记忆[23] - 必须生成有效摘要描述文件信息，prompt engineering在其中起重要作用[28] Reduce(压缩) - 通过摘要(summarization)和剪裁(pruning)减少context内容[21][35] - Claude Code在95% context window占满时自动触发reduce机制[35] - 存在信息丢失风险，Manus选择先offload确保原始数据不丢失再进行reduce[37] Retrieve(检索) - 从外部资源检索与当前任务相关信息加入context window[21][46] - 包括经典向量检索、文件工具检索和context填充等方法[47] - 测试表明基于文本文件和简单文件加载工具的检索方法效果最佳[48] Isolate(隔离) - 在multi-agent架构中拆分context，避免不同类型信息相互干扰[21][59] - 不同角色agent各自压缩管理不同内容，避免单一agent承担全部context负担[59] - Cognition认为sub-agent获得足够context极其困难，需要大量精力在context摘要与压缩上[61] Cache(缓存) - 缓存已计算结果，降低延迟和成本[21][67] - 使用Claude Sonnet时缓存输入token成本为0.30美元/百万token，未缓存为3美元/百万token，相差10倍[69] - 只能优化延迟和成本问题，无法解决long context根本问题[70] The Bitter Lesson启示与实践经验 - 计算能力每五年增长十倍，scaling趋势是推动AI进步的关键因素[71] - 随着模型能力提升，早期添加的结构化假设可能成为发展瓶颈[74][81] - AI-native产品应在模型能力足够时从零构建，而非受限于现有流程[82] - Claude Code设计保持简单通用，为用户提供广泛模型访问权限[81] 记忆系统与检索关系 - Agent记忆分为情景记忆、语义记忆、程序记忆和背景记忆四类[50] - 大规模记忆读取本质上就是检索操作，复杂记忆系统就是复杂RAG系统[54] - Claude Code采用极简模式，启动时自动加载用户GitHub仓库，效果出奇地好[53][54] 框架选择与架构设计 - 应区分agent抽象(高级封装)和底层编排框架(精细控制)[77][78] - 开发者需要警惕agent抽象，但不排斥透明可自由组合的底层编排框架[79] - 大型组织推动标准化框架是为了解决实际协作问题，而非框架本身[80]