Workflow
Context Engineering
icon
搜索文档
扒完全网最强 AI 团队的 Context Engineering 攻略,我们总结出了这 5 大方法
Founder Park· 2025-09-28 12:58
以下文章来源于海外独角兽 ,作者Haozhen 海外独角兽 . 研究科技大航海时代的伟大公司。 当下 AI Agent 开发的一大痛点是, 海量的工具调用和 long horizon reasoning 所产生的 long context,严重地制约了Agent 的性能和成本,甚 至会导致模型能力的下降。 在正确的 时间为 Agent 提供正确的信息,是当下 「上下文工程」(context engineering)旨在实现的目标,也是 Agent 开发的核心关键。 这篇文章系统地梳理了来自 LangChain 工程师 Lance Martin、Chroma 的联合创始人 Jeff Huber、Manus、Anthropic、Cognition 等一线团 队的 「上下文工程」 实践经验。 本文来自 「海外独角兽」。 超 14000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。 邀请从业者、开发人员和创业者,飞书扫码加群: 进群后,你有机会得到: 01 Context Engineering 是什么? 很多人认为 2025 年是 agent 元年,但在实践中,开发者普遍发现虽然 agent 的搭 ...
RAG 的概念很糟糕,让大家忽略了应用构建中最关键的问题
Founder Park· 2025-09-14 04:43
文章核心观点 - Chroma创始人Jeff Huber批判RAG概念 认为其将检索、生成、结合硬性拼接导致概念混淆 且市场过度简化RAG为向量搜索[5][6][7] - 提出Context Engineering是AI应用构建的核心 通过动态管理上下文窗口内容提升模型性能[4][7][8] - 指出LLM存在Context Rot现象:随着Token数量增加 模型注意力分散且推理能力下降[5][8][13] - 强调未来检索系统将向持续检索和Embedding空间内操作演进[5][41][48] Context Engineering定义与价值 - Context Engineering属于AI工程学子领域 核心任务是在每一步生成时动态决定上下文窗口内容[7] - 包含内外双循环机制:内循环单次生成选择内容 外循环随时间积累优化信息选择策略[7] - 被视作头部AI初创公司核心能力 在聊天、文档等静态场景中尤为重要[4][9] - 与Agent概念存在交叉但无需刻意区分 因Agent定义尚不明确[9][10][12] RAG概念批判 - RAG本质仅为检索 其概念包装导致开发者困惑[5][6][7] - 市场对RAG存在误解 简化为单一向量搜索操作[5][7] - Chroma团队主动避免使用RAG术语[6] Context Rot现象分析 - LLM性能随Token数量增加而衰减 模型遵循指令能力下降[8][13][16] - 在SWE-Bench等多轮交互数据集中发现Token膨胀导致指令遗漏[13] - 实验室常选择性宣传基准测试结果 回避模型缺陷披露[14][15] - 不同模型衰减程度差异显著:Sonnet 4表现最佳 Qwen3次之 GPT-4.1和Gemini Flash衰减更快[16] Context Engineering技术实践 - 当前主流做法仍将全部内容塞入上下文窗口[23] - 采用两阶段检索优化:首阶段通过向量/全文/元数据过滤将候选从数万缩减至数百 第二阶段用大模型重排选出最终30个片段[25] - 重排成本极低:100万输入Token成本约0.01美元 因使用轻量模型[25] - 大模型重排将成趋势 专用重排模型可能边缘化[26][27] 多工具协同检索 - 索引本质是写入性能与查询性能的权衡[29] - 代码搜索中85%-90%查询适用正则表达式 Embedding可额外提升5%-15%效果[37][38] - Chroma原生支持正则搜索并优化大数据量性能 新增forking功能实现毫秒级索引复制[30][31] - 工具选择取决于用户熟悉度:已知名称时全文搜索高效 语义模糊时需Embedding匹配[34][35][36] 未来检索系统演进 - 检索将持续停留在潜在空间 避免返回自然语言[40][41] - 从"检索-生成"单次交互转向生成过程实时检索[41] - 需解决技术约束:检索器冻结或语言模型无法更新导致体验差[42] - GPU内存分页等硬件优化是5-10年方向[48] 记忆与Context Engineering关联 - 记忆本质是Context Engineering的结果 核心是将合适信息放入上下文窗口[50][53] - 生成式记忆与提示式记忆依赖相同数据源和反馈信号[53] - 避免过度类比人类记忆类型 强调压缩技术实用性[56][58][59] - 离线处理与再索引有价值 可通过后台计算优化系统[59][61] 生成式基准测试方法论 - 构建黄金数据集(查询-片段对)可量化评估检索策略[61][62] - 大模型可自动生成查询-片段对 解决人工标注不一致问题[63] - 小规模高质量数据集(数百条)即产生高回报 无需百万级数据[64][65] - 建议团队通过标注派对快速构建基准数据[65][66] Chroma产品定位 - 核心为解决AI应用从Demo到生产的工程化难题[69][70] - 定位为现代AI搜索基础设施 专注检索引擎构建[72][74] - 云产品采用无服务器架构 实现30秒建库、按实际使用量计费[82][83][84][86] - 免费额度支持10万文档导入和10万次查询[86][87] 搜索系统特性演进 - 现代性体现在分布式架构:读写分离、存储计算分离、Rust编写、租户模式[74] - AI搜索四维差异:工具技术、工作负载、开发者群体、结果消费群体[76] - 语言模型可消化数量级多于人类的信息 直接影响系统设计[76] 创业理念与设计哲学 - 创业需聚焦热爱领域 与优秀团队服务目标客户[90] - 设计体现文化一致性 创始人需作为品味把关人防止品牌分裂[98][99][100] - 信奉"做事方式即一切方式"原则 保持全环节体验统一[98][99]
Seedream 4.0 来了,AI 图片创业的新机会也来了
Founder Park· 2025-09-11 04:08
AI生图领域技术进展 - AI生图领域连续出现爆款产品 包括GPT-4o生成的吉卜力风格图像和Google旗下Nano Banana模型 [2][3][4] - Nano Banana模型具备文生图 图生图 多图合成 高保真文字渲染能力 并解决主体一致性问题 被媒体称为图片模型的ChatGPT时刻 [4] - 火山引擎推出豆包·图像创作模型Seedream 4.0 支持文本图像组合输入 实现多图融合创作 参考生图 组合生图 图像编辑等核心能力 [5] Seedream 4.0技术特性 - 首个支持4K多模态生图的模型 支持同时输入10张图片并一次性生成15张图片的高难度多图融合 [5][6] - 实现真正原生多模态支持 在同一模型框架下支持图像创作 编辑和多图融合生成 适配复杂场景 [14] - 支持多图输出能力 可根据简单提示生成系列故事分镜 [14] 多图融合与编辑能力 - 多图融合能力允许直接使用图片指导生成 如将钢铁侠与布拉德皮特照片结合参考姿势生成破次元壁图像 [10][12] - 支持产品使用场景搭建 如将设计好的衣服裤子搭配在给定模特身上查看效果 [16][18] - 精细编辑能力支持自然语言指令 精准执行图像局部元素的增删修改和替换 [21][23] - 主体一致性能力在插画 3D和摄影等形态下保持特征一致性 避免外观失真和语义错位 [28] 生成质量与商业应用 - 实现秒级出图 输出分辨率扩展至4K级别 达到商用出版水准 [36][39] - 引入自适应长宽比机制 自动识别生成对象结构特征 动态调整画布比例 杜绝构图畸变 [39] - 支持从品牌Logo自动衍生整套周边产品视觉设计 包括包装袋 帽子 纸盒等 [44][46] - 能够处理公式 表格 化学结构 统计图等复杂排版 提升文字渲染和排版精致度 [51][52] 生产力工具特性 - 支持产品说明书设计制作 产品包装盒演示图生成 以及二维线稿转化为三维手办造型图 [51][54][59] - 能够实现四格漫画一步生成 并基于连续生图能力用生成图片作为关键帧 [62][64] - 支持卡通风格多格连环画生成 以及带中文步骤说明的教程图生成 [64][66] API接口与创业影响 - Seedream 4.0同时支持图片生成API和流式响应API 支持多轮复杂对话任务 [70] - API接口范式变化允许在同一个对话中进行多轮图片修改和多图合成 提升开发效率 [69][76] - 模型能力提升使图片产品可从一次性调用工具升级为带上下文的项目式创作工具 [71] - 对ComfyUI和LoRA产生影响 Comfy更多用于批量重复任务 LoRA用于精细化风格微调 [74]
Vibe Coding两年盘点:Windsurf已死、Cursor估值百亿,AI Coding的下一步怎么走?
Founder Park· 2025-09-05 11:46
AI Coding行业发展阶段 - 2023年初处于核心能力和基建不足的草莽阶段 GPT-4存在高推理成本和小context window限制 指令遵循能力在生产场景表现欠佳[10] - 2024年中Claude 3.5 Sonnet发布成为转折点 其200K窗口和关键指标10%以上提升使其成为现象级模型 代码生成任务HumanEval达93.7% 软件工程任务SWE-bench达49%[36][37][38] - 2025年开源模型DeepSeek R1引发行业变革 API定价低至输入1元/百万token 输出16元/百万token 成本仅为OpenAI o1的1/20-1/30[58][59][60] - 2025年中行业出现第一波"缩圈" 商业模式面临重构 目标需支撑到2028年才可能诞生千亿美金级公司[7][75][83] 主要产品发展轨迹 - Cursor从基于VS Code的"套壳"产品转型为AI原生IDE 初期依赖GPT-4和Claude系列提供代码补全 后通过代码库分析能力保住市场份额[10][13][14] - Codeium从开源VS Code扩展起步 吸引超100万开发者 后转向混合模式 商业版编辑器Windsurf在2024年底ARR达1200万美元[21][41] - Devin作为首个AI软件工程师推出 端到端独立开发能力赢得高盛等大客户 五个月后估值达20亿美元 企业版定价500美元/月[42][43][52] - 2024年底主要玩家估值:Cursor 26亿美元 Windsurf 12.5亿美元 Devin 20亿美元 Replit约30亿美元[47] 技术演进与挑战 - Agent设计模式存在token消耗问题 复杂任务单轮消耗达百万token级别 日常任务可达千万token水平[49][51] - Claude Sonnet 3.7时代单用户日均成本10-50美元 高频用户可达每天100美元以上 与20美元订阅费形成严重倒挂[52] - 极端"坏用户"可使商业模式瞬间崩塌 单月可能造成8000美元损失 交付质量与token成本间平衡成为关键挑战[55][57] - CoT思维链对模型参数量要求较低 100亿参数即可受益 ToT和GoT需要千亿级参数支撑 但泛化成本较高[29] 商业模式与经济性分析 - 基础模型年均价格降幅达90% 但用户倾向使用最好模型 导致实际成本并未真正收敛[66][67] - 追求顶尖性能的代码应用仍处于成本爆炸状态 SOTA模型价格卡在10^1水平线[68] - 用户价值认同极限约100-200美元/月 但当前成本结构大多无法覆盖[66][74] - 订阅模式基于CPU服务时代边际效应 在AI时代已不适用 需要新的经济模型[78] 技术范式转换 - 从Workflow向CLI Code Agent演进 更依赖模型本身能力完成长时间自主工作[75][76] - 新一代Agentic Code CLI具备全流程任务执行能力 支持项目级架构理解和超长上下文[79][80] - Claude Code可连续工作7小时自主重构多文件代码库 Gemini CLI支持100万token分析整个项目[79] - 传统IDE插件向开发工具链原生融合转变 经济模型从订阅制转向按量付费/免费+开源策略[80] 核心竞争壁垒 - Knowledge Suggestion功能成为护城河 通过抽取方法论和行为准则创建"数字分身"[11][93] - 业务数据闭环是核心组成部分 与设计模式Agentic UI等形成"道"与"术"的区别[96] - 目标用户聚焦工作价值高的领域:AI芯片设计(中国50-150万元/年) 生物技术制药(美国中位数20万美元/年) 量子计算(美国10-25万美元/年)[98] - 需服务认知足够值钱的人群 为其创造十倍百倍价值和提高效率 而非普通用户[11][99] 行业关键洞察 - 欧美投资与技术绑定深厚 技术创业者在大模型成功前就已布局 国内项目多始于2023年LLM爆火后[23] - 模型需要显式提示 CoT对参数要求低更适合快速验证 ToT和GoT因泛化成本高逐步退出舞台[29] - 企业级市场存在刚需 中大型企业需要内部模型接入IDE 担心代码数据安全[18][19] - 在生产力领域 当执行变得廉价时 "术"不再重要 关键是找到正确人群提供极致价值[11][99]
Z Potentials|Sheet0.com王文锋,两人团队融资500万美元,要打造属于Agent的Google.com
Z Potentials· 2025-08-11 04:05
AI Agent行业趋势 - 数据已成为驱动Agent能力的核心燃料,但高质量数据的获取、清洗和组织仍是关键瓶颈[1] - 传统数据采集方式依赖工程团队或人工操作,难以满足信息碎片化和实时化需求[1] - 行业正快速验证从技术探索到应用落地的转变,OpenAI、Anthropic等公司推动通用型Agent发展[1] Sheet0产品定位与技术优势 - 定位为L4级Data Agent,提供实时数据收集与交付能力,类比自动驾驶L4级别的自主性[2][13] - 底层通过动态Workflow系统将用户需求翻译为可执行代码,具备自我修复能力[2] - 内部测试中2分钟内准确收集YC官网294家公司全量信息,成本与速度比其他产品低一个数量级[2] - 采用"多次确认,逐步对齐"策略确保100%准确、0幻觉的数据交付[14][19] - 动态生成可迭代的执行流程与Data Environment反馈机制是核心技术优势[19][20] 数据在Agent生态中的价值 - 对Agent而言,数据价值体现在模型训练、运行过程(Context组织)、工具调用三个层面[9] - 实时数据供给能力将成为Agent时代的"新后端",决定协作效率与能力边界[16][18] - 未来竞争重点不是数据存量,而是实时数据获取速度与精准度[18] - Sheet0目标成为Agent生态的高效数据聚合层,类比"Agent的Google.com"[4][18] 商业化与用户案例 - 短期采用Credit计费模式,长期探索结果付费的数据交易平台模式[25] - 典型场景包括:自由职业平台数据抓取(如Fiverr上20美元预算任务)、销售线索生成等[21][24] - 案例显示传统开发需数周的任务,通过Sheet0可快速串联数据采集到标注全流程[24] - 未做宣传情况下自然积累3000名waitlist用户,计划8月12日开放早期测试[24] 创始人创业历程与行业洞察 - 创始人王文锋具有AI、基础软件与分布式数据处理领域十年经验,曾创立LLM Programming和NPi项目[6][26][27] - 早期项目NPi提前半年实现后来MCP的功能,但因市场未成熟转向Sheet0方向[27][28] - 关键认知转变:从"AI写代码"到"Tool Use"再到"代码本质是操作结构化数据"[28][32] - 行业判断比市场领先约一年,强调需经历半年以上负反馈周期才能验证方向[32][33]
「All in AI」的 Shopify,分享了他们的全员 AI 落地实践,全是干货
Founder Park· 2025-07-28 08:32
核心观点 - Shopify全面拥抱AI战略,从高层到基层员工无差别使用AI工具,并取得显著成效 [1][4][8] - 公司通过三大策略推动AI落地:法务默认开绿灯、预算上不封顶、统一AI入口 [11][13][16] - AI已深度改变多个工作流程,包括销售线索开发、代码审查、周报撰写等 [18][28][24] - 公司特别注重培养"AI流利度",将AI使用与绩效挂钩,并雇佣更多初级人才发挥其创造力 [19][36][31] 全员AI策略 - 允许所有员工使用公司引入的每一款AI工具,不设任何限制 [9] - 最初采购1500个Cursor授权供不应求,后又追加1500个,增长最快用户来自客户支持和营收部门 [10] - 设立内部token消费排行榜,CTO Mikhail Parakhin曾进入前十 [13] - 认为工程师每月多花1000美元提升10%效率是极其划算的投资 [15] 三大落地策略 法务默认开绿灯 - 高层达成共识,法务团队以"如何促成"为出发点 [11] - 引入GitHub Copilot时法务团队直接配合解决问题,无任何反对意见 [11] - 其他公司CTO常抱怨法务阻碍,Shopify总法律顾问成为同行咨询对象 [12] 预算上不封顶 - 不设AI工具使用额度限制,通过消费榜衡量价值 [13] - 批评其他公司过分纠结token成本而收紧预算的做法 [14] - 认为能每月花费10000美元并创造价值的工程师值得学习 [15] 统一AI入口 - 构建内部LLM Agent作为统一平台,整合所有模型资源 [16] - 通过MCP服务器连接所有内部工具和数据 [18] - 员工可自由构建工作流,使用同事创建的Agent库 [16] AI改造的工作流程 销售线索开发 - 销售代表用Cursor开发网站审计工具,自动生成性能对比报告 [18] - 工具能调用内部文档,为销售沟通提供精准话术支持 [18] - 首席营收官称顶尖业务开拓者都具备"AI流利度" [19] - 改变追加销售场景,实时调取曾经难以获取的数据 [19] 代码审查 - 开发Roast框架,以"吐槽"方式提供代码改进建议 [28] - 将工作流拆解为可追溯的步骤,展示AI推理过程 [32] - 已用于分析数千个测试文件,自动修复常见问题 [28] - 该框架已开源,邀请社区共同塑造AI辅助开发未来 [28] 周报撰写 - AI自动抓取项目信息生成周报初稿,50%可直接使用 [24][26] - 通过追问促使负责人批判性审视,暴露潜在风险 [24] - 最终版本与初稿差异用于训练AI持续改进 [25] 人才培养与绩效 - 雇佣更多实习生,发现其能以最富创造力的方式使用AI [31] - 工程实习生规模从25人计划扩展至1000人 [33] - 建立工程活动仪表盘,追踪AI工具使用情况 [36] - 数据显示使用AI工具与员工影响力呈正相关 [36] - 已将"AI原生"表现纳入360度评估体系 [36] 流程重塑 - 认为企业运营效率仅20%,AI可帮助发现最佳模式 [38] - 网站审计工具可能彻底改变销售漏斗结构 [38] - 以丰田生产体系为例,AI可破解复杂组合问题 [38] - 追求发现"流程的力量",实现效率千倍提升 [38]
2万行App代码,Claude写了95%!老开发者:每月只花200美元,就像一天多出5小时,IDE要“变天”了!
猿大侠· 2025-07-10 04:10
AI编程工具发展现状 - Claude Code已实现95%代码生成率 在2万行代码的macOS应用中仅需手动编写不到1000行 [5][13] - 主流AI编程工具正从补全模式转向代理式开发 通过工具调用循环实现复杂任务 [3][4] - 新一代模型具备200k tokens上下文窗口 支持自动压缩和上下文预热优化 [24][26][28] 技术能力边界 - 在SwiftUI领域表现优异 但处理Swift并发机制时易混淆新旧API [15][16] - 通过CLAUDE.md规则文件可显著提升输出质量 现代API使用率提高30% [17] - 需配合XcodeBuildMCP等工具才能实现完整构建测试闭环 [39][40] 开发范式变革 - 编程语言门槛消失 系统设计和架构能力成为核心竞争力 [5] - 传统IDE功能被颠覆 未来开发环境将围绕上下文预热和反馈循环设计 [54] - 发布流程自动化程度提升 2000行发布脚本实现全流程管理 [51][52] 生产力跃升 - 开发周期从数月压缩至一周 实现10年未完成的业余项目发布 [5][56] - UI迭代效率提升 通过截图反馈可实现即时视觉优化 [22][43] - 模拟数据生成能力使原型设计速度提升80% [45][46] 行业影响 - 设计岗位需求面临重构 Figma等工具已能自动生成品牌识别系统 [5] - 开发者工具市场格局生变 终端式IDE挑战传统编辑器地位 [4][7] - 企业技术招聘标准将转向问题解决能力而非特定语言技能 [5]