上下文工程
搜索文档
Elastic(ESTC) - 2026 Q2 - Earnings Call Transcript
2025-11-20 23:00
财务数据和关键指标变化 - 第二季度总收入为4.23亿美元,同比增长16%(按报告计算)和15%(按固定汇率计算)[21] - 销售主导的订阅收入为3.49亿美元,同比增长18%(按报告计算)和17%(按固定汇率计算)[21] - 当前剩余履约义务(CRPO)约为9.71亿美元,同比增长17%(按报告计算)和15%(按固定汇率计算)[22] - 剩余履约义务(RPO)同比增长19%(按报告计算)和17%(按固定汇率计算)[23] - 非GAAP运营利润率为16.5% [5][24] - 调整后自由现金流约为2600万美元,利润率为6% [25] - 第二季度通过股票回购向股东返还约1.14亿美元现金,平均每股价格为84.45美元 [25] - 第三季度总收入指引为4.37亿至4.39亿美元,中点增长15%(按报告计算)和13%(按固定汇率计算)[27] - 第三季度销售主导订阅收入指引为3.64亿至3.66亿美元,中点增长17%(按报告计算)和16%(按固定汇率计算)[27] - 第三季度非GAAP运营利润率预计约为17.5% [27] - 第三季度非GAAP稀释每股收益指引为0.63至0.65美元 [27] - 2026财年总收入指引上调至17.15亿至17.21亿美元,中点增长约16%(按报告计算)和15%(按固定汇率计算)[28] - 2026财年销售主导订阅收入指引为14.17亿至14.23亿美元,中点增长18%(按报告计算)和17%(按固定汇率计算)[28] - 2026财年非GAAP运营利润率预计约为16.25% [28] - 2026财年非GAAP稀释每股收益指引为2.40至2.46美元 [28] 各条业务线数据和关键指标变化 - 在所有解决方案领域均实现稳健增长,AI对业务所有领域产生积极影响 [5] - 搜索和AI领域保持强劲势头,同时安全和可观测性领域的平台整合出现上升趋势 [6] - 生成式AI需求强劲,越来越多客户采用Elastic开发语义搜索和智能体应用 [10] - 超过2450名Elastic Cloud客户将Elastic用于生成式AI用例,其中超过370名属于年消费10万美元以上的客户群 [12] - 安全领域取得显著成功,签署了两笔价值超过2000万美元总合同价值的交易 [49] - 可观测性领域也取得成功,例如一家领先的美国市政技术机构签署了七位数的扩展交易 [14] - 本季度推出了包括Agent Builder和Streams在内的新AI功能 [13][15] - 引入了托管推理服务以及新的向量数据库功能,如DiskBBQ算法 [16] - 完成了对Jina AI的收购,以增强多语言和多模态嵌入能力 [16] 各个市场数据和关键指标变化 - 交易动能遍布全球,涉及企业级和公共部门领域 [23] - 尽管10月份美国政府停摆,团队仍与CISA达成了重要合作 [23] - 年合同价值超过10万美元的客户数量增长了约13%,在过去四个季度净增约180名客户 [23] - 年合同价值超过10万美元的客户群中,有23%将Elastic用于生成式AI用例,高于一年前的17% [24] - 美国公共部门业务表现强劲,需求旺盛 [77] 公司战略和发展方向和行业竞争 - 公司的战略是提供一个强大而灵活的平台,将AI和向量搜索能力整合其中 [17] - 专注于通过创新和战略收购成为AI时代领先的数据检索和上下文工程平台 [18] - 销售团队在五个季度中持续保持严格的销售执行力,专注于高价值机会 [7] - 公司继续投资于上市能力和AI工程差异化 [42] - 在IDC的多个MarketScape报告中被认可为领导者,包括全球可观测性平台报告和全球通用知识发现报告 [18] - 安全被视为一个数据问题,公司的搜索AI平台非常适合解决此问题 [9][54] - 可观测性和安全被视为同一枚硬币的两面,公司拥有最好的数据平台来处理各种遥测数据 [57][58] - 公司通过不断引入提高平台效率的功能(如Searchable Snapshots、LogsDB)来应对数据量的增长 [39][60] 管理层对经营环境和未来前景的评论 - 市场机会比以往任何时候都更强大,由稳健增长、清晰的生成式AI领导地位和独特的平台驱动 [19] - 企业对生成式AI采用和平台整合的持续关注推动了对公司平台的需求动能 [21] - 公司对平衡增长与审慎支出保持承诺,这转化为强劲的运营杠杆和良好的底线结果 [24] - 公司对2026财年剩余时间的执行和实现中期销售主导订阅收入目标增长率充满信心 [29] - 数据量正在以惊人的速度增长,公司通过提高平台效率来帮助客户管理数据 [60] - 承诺(而不仅仅是消费)是收入增长的关键驱动因素,本季度的承诺表现非常强劲 [32][63] 其他重要信息 - 公司开始提供销售主导订阅收入的指引,认为这是衡量公司与大型战略客户和高端商业客户成功的关键指标 [26][36] - 公司预计在2026财年使用5亿美元股票回购授权金额的50%以上 [25] - 净扩张率(NRR)为112%,保持稳定,并由稳定的毛保留率支撑 [70] - 第三季度(2026财年)的静默期从2026年1月16日营业结束后开始 [3] - 公司将于12月10日参加巴克莱全球技术会议,并于1月14日参加Needham增长会议 [4] 问答环节所有提问和回答 问题: 关于非AI原生客户的消费趋势 [30] - 公司观察到不仅仅是AI原生客户,传统业务(包括搜索、可观测性和安全)的消费也非常强劲 [30] - 本季度获得了大量大型承诺,客户将安全和可观测性工作负载整合到公司平台上,这些交易都是云交易,预计将推动未来的云收入和总收入 [31] - 销售主导订阅收入增长18%,消费和承诺表现强劲,对今年剩余时间充满信心 [31] 问题: 关于账单收入增长滞后于其他指标 [32] - 公司认为承诺和消费是关键,这两方面在第二季度都很强劲 [32] - CRPO增长17%,RPO增长19%,反映了多年承诺的实力 [32][33] - 本季度存在季节性因素,去年同期的账单和收入分布不典型,且美国政府停摆导致一些自托管续订从第二季度推迟到第三季度 [33][34] - 今年迄今的ACV增长强于去年同期,且销售渠道也在强劲增长,这使公司有信心提高下半年指引 [34] 问题: 关于销售主导订阅收入指引的构成和云增长假设 [35] - 公司首次提供销售主导订阅收入指引,因为这是公司的关键指标,驱动销售团队获取云和自托管的承诺 [36] - 月度云自助服务业务(主要面向SMB客户)预计将保持平稳 [36] - 对承诺和消费流向的预期已体现在指引中,公司对第二季度表现和全年指引的上调感到满意 [36] 问题: 关于第二季度销售主导订阅收入增长(18%)与第一季度(22%)的差异,以及生成式AI的收入贡献 [38] - 公司强调不应孤立看待定价,消费业务受多种因素影响(新工作负载、数据增加、平台效率功能等),净消费一直非常强劲 [39] - 不应过度关注单个季度的表现,因为本季度的季节性因素与上季度不同,且政府停摆导致的续订推迟影响了自托管收入的形态 [39][40] 问题: 关于一年前销售团队重组后的生产力现状以及是否计划增加销售容量 [41] - 六个季度前进行的改革已见成效,连续五个季度销售执行力强劲,承诺表现非常好 [41] - 本财年是投资年,公司将继续投资于上市销售能力和AI工程差异化 [42] 问题: 关于RAG(检索增强生成)机会的持久性以及AI搜索能力在RAG之外的货币化机会 [43] - 公司认为RAG和Agent Builder等是互补的,核心是将私有数据与LLM连接起来,公司专注于简化这一过程的复杂性 [43] - Agent Builder和收购Jina AI是货币化上下文工程核心优势的另一种方式,但这将是叠加的,而非替代 [44] 问题: 关于本季度业绩超出指引的幅度低于历史水平,以及是否有新的指引哲学或受推迟影响 [45] - 公司在第一季度末和一个月前的财务分析师日已经提供了更接近实际的指引,第二季度业绩比指引高出550万美元,并且两次大幅提高了全年指引 [46][47] - 本季度的推迟是预期内的波动,公司不过度关注单季度表现,推迟的续订将在本财年内完成 [47] 问题: 关于与CISA的大型安全合作胜利,是否是市场份额的夺取 [48] - 本季度两笔最大的交易(均超过2000万美元)都是安全领域的胜利,凸显了公司安全产品的成熟度和AI能力的优势 [49] - CISA选择Elastic是对公司平台实力、灵活性和AI能力的极大认可,这属于从现有厂商向公司平台的整合,是市场份额的夺取 [49] 问题: 关于生成式AI在客户(尤其是大客户)中的渗透率,以及未来的增长空间 [50] - 公布的23%渗透率仅针对Elastic Cloud客户,因为遥测数据清晰;自托管客户中有更多生成式AI用户未计入该统计 [51] - 在年消费10万美元以上的客户群中达到23%的渗透率已经很好,随着更多公司部署AI应用,渗透率和单客户收入都有望增长 [51] - 在AI用户群组中,观察到其增长速度高于其他群组 [52] 问题: 关于安全业务的竞争格局,对手是否是 observability 厂商或下一代安全平台厂商 [53] - 公司认为自己是领先的下一代安全SIEM平台,通常是在取代现有厂商 [53][54] - 优势在于后端数据平台的灵活性、可扩展性以及AI功能(如攻击发现) [55] - 在可观测性领域,公司以日志分析切入,然后扩展到指标和追踪 [55] - 本季度超过1000万美元的五笔交易中,两笔是安全,两笔是可观测性,一笔是AI,显示出各业务领域的成功 [56] 问题: 关于近期大型平台厂商收购(Chronosphere, ONUM)的看法 [57] - 公司认为这验证了可观测性和安全是同一枚硬币的两面 [57] - 公司的优势在于拥有最好的数据平台来引入和分析各种遥测数据,并且在此领域已有八年积累,AI功能和统一平台能力领先 [58][59] 问题: 关于产品优化(如LogsDB)对云收入轨迹的影响,以及客户是否已度过优化阶段 [60] - 数据量正在飞速增长,公司不断推出提高效率的功能是为了让客户能继续使用平台并吸引其他厂商的工作负载 [60][61] - 消费增长的关键驱动因素是承诺,本季度承诺表现非常出色,这给了公司信心并反映在指引上调中 [62][63] - 两笔最大的超过2000万美元的交易都是云交易 [63] 问题: 关于ACV增长是否强于报告的订阅收入增长 [64] - 是的,因为云收入会滞后于承诺,销售主导订阅收入增长通常会滞后于总ACV增长 [64] - ACV同比增长一直在加速 [64] 问题: 关于云和自托管在消费用例上的分布是否相同 [65] - 每个季度的分布会有变化,公司激励销售团队根据客户需求达成交易,无论是云还是自托管 [65] - 两种业务模式的混合轨迹没有发生有意义的变化,预计两者都将增长以达到中期目标 [65] 问题: 关于月度订阅收入的季节性以及本季度的下降 [66] - 月度订阅收入主要来自中小型企业的自助服务客户,公司预计这条业务线将保持平稳 [66] - 收入指引的重点是销售主导的订阅收入,因此将其单独列出并作为本季度开始的指引点 [66] 问题: 关于大型嵌入式生成式AI用例的演变、使用模式粘性/量级以及NRR趋势 [67] - AI用例本质上比文本搜索更消耗计算资源,AI用户群组的增长速度高于其他群组 [68] - 在各行各业都看到生产用例,而不仅仅是试点项目,公司功能的广度(不仅是向量搜索)创造了粘性 [69][70] - 净扩张率(NRR)为112%,保持稳定,背后是各群组的稳定扩张趋势 [70] 问题: 关于30笔超过100万美元的交易中,续约与新客户的比例,以及交易在不同季度间的变动 [71] - 交易在不同季度间自然会有一些推迟或提前,本季度情况正常 [71] - 在5笔超过1000万美元的交易中,2笔是安全,2笔是可观测性,1笔是AI;其中一笔最大的交易是新客户 [72] - 既有现有客户的扩展(交叉销售),也有全新客户,例如全球最大的化学品制造商之一就是全新客户 [72] 问题: 关于销售主导收入指引的细分(云 vs 自托管),以及第二季度在两者上的表现相对于内部目标如何 [73] - 公司内部不为销售团队设定云与自托管的分拆目标,他们只有一个配额,无论通过哪种方式完成 [74] - 公司以统一的方式思考这个指标,不区分云和自托管,也不关注迁移 [74] - 第三季度的销售主导指引基于承诺动能(包括大额交易)和消费动能 [75] 问题: 关于联邦业务(除CISA外)的表现以及政府停摆的影响是否会在第三季度恢复 [76] - 美国公共部门业务整体表现优秀,需求非常强劲 [77] - CISA交易在停摆前的9月份完成 [77] - 推迟的续订客户仍在继续使用产品,这些续订预计将在第三季度完成,业务没有风险 [78]
Which Attention is All You Need?
机器之心· 2025-11-09 01:30
注意力机制优化背景 - 当前大语言模型发展面临数据和算力扩展瓶颈 使得算法创新变得尤为重要[7] - Transformer架构的前馈神经网络模块已被混合专家模型成功优化 业界创新压力与投入因此集中于注意力机制[5][7] - 专家观点认为 注意力机制有望成为继混合专家模型之后AI架构的下一个重大突破方向[7] 注意力机制面临的挑战 - 标准自注意力机制的计算复杂度随序列长度呈O(N^2)增长 成为高效长序列建模的根本障碍[9] - 二次方复杂度导致长序列预填充阶段计算量巨大 解码阶段的关键值缓存占用大量内存带宽 构成推理瓶颈[9] 主流优化路径:线性注意力 - 线性注意力目标是通过重新参数化或近似softmax注意力为线性操作 将计算复杂度从O(N^2)降至O(N)[8][10] - 其设计思路主要分为三类:基于核函数的方法 带遗忘机制的方法 以及作为上下文学习器的方法[10] - 月之暗面团队提出的Kimi线性注意力采用门控Delta注意力核心 通过通道感知门控机制让每个通道学习独立遗忘速率[11] - Kimi线性注意力采用分层混合架构 每三层线性层后插入一个标准全注意力层 比例为3:1[12] - 测试显示Kimi线性注意力最多可减少75%的大型关键值缓存需求 在处理100万token上下文时速度是全注意力的6倍[13] 主流优化路径:稀疏注意力 - 稀疏注意力不试图近似整个注意力矩阵 而是将计算限制在完整键空间的一个子集上 仅计算被选中的token交互[8][14] - 主要方法包括固定模式 块稀疏和基于聚类的稀疏注意力[14] - DeepSeek团队从块粒度的原生稀疏注意力演进到token粒度的DeepSeek稀疏注意力[15][17] - DeepSeek稀疏注意力通过轻量级Lightning Indexer进行O(N)扫描 为每个token计算重要性代理分数 并对得分最高的k个token执行全注意力计算[17] - 在H800 GPU集群测试中 该方案在128k长上下文条件下将主模型注意力复杂度从O(L^2)降为O(Lk) 单位token计算成本最高下降60%-70%[17] 其他优化方案 - 除线性和稀疏路径外 也存在混合扩展方案[8] - MiniMax团队出于工程理性考量 在M2工作中选择重新拥抱全局注意力 尝试通过工程优化使O(N^2)复杂度在特定场景下能被高效利用[8]
一篇论文,读懂上下文工程的前世今生
36氪· 2025-11-07 07:11
上下文工程的定义与本质 - 上下文工程被定义为设计和优化上下文的收集、管理、使用,以提升机器理解和任务表现的努力 [4] - 其本质是通过建立更丰富有效的上下文,弥合人类高熵表达与机器低熵理解之间的认知鸿沟,达成系统性的熵减过程 [3] - 该学科并非全新概念,在AI技术出现前已发展超过20年,目前处于上下文工程2.0时代 [5] 上下文工程的发展阶段 - **1.0时代 (1990年代-2020年)**:核心是翻译,通过图形界面和编程语言将人类自然语言意图工程化为机器可理解的交互流程 [7] - **2.0时代 (2020年至今)**:随着GPT-3发布,用户可直接用自然语言对话,但熵减需求转移至用户身上,催生了提示词工程 [11][13] - 2.0时代典型系统包括ChatGPT、LangChain、AutoGPT,核心机制为提示工程、RAG、CoT、记忆代理,上下文容忍度和类人程度相对更高 [12] AI与人沟通的理解差距根源 - AI感官残缺,仅能获得用户明确输入,无法像人类一样接收文字外的大量环境信息 [14] - AI理解能力有限,难以处理和整合复杂逻辑及图像中的关系信息 [14] - AI存在记忆缺失,Transformer架构有长上下文性能瓶颈,缺乏长期记忆系统,难以捕捉长距离依赖关系 [14] - AI注意力涣散,面对海量信息时存在“上下文选择困难”,不知该关注何处 [14][15] 上下文工程的核心构件 - **构件一:上下文收集与记忆系统**:通过多模态融合和分布式收集修复感官残缺,通过分层内存架构解决记忆缺失 [16][18][21] - **构件二:上下文管理**:通过上下文抽象实现“自我烘焙”,将高熵上下文预处理为AI能理解的低熵结构,方法包括自然语言摘要、模式化提取、在线蒸馏 [23][24] - **构件三:上下文使用**:构建高效上下文选择机制,通过理解逻辑依赖、平衡新近度与频率、主动需求推断来解决注意力涣散问题 [25][26] 上下文工程的未来演进 - **3.0时代**:机器智能达到人类水平,能处理情绪等复杂上下文,主动理解场景并与人类协作,但长期记忆问题仍未完全解决 [30] - **4.0时代**:机器智能达到“超人智能”,人机交流的熵被彻底消除,上下文工程本身将消失或融入核心架构 [30][31] - 当前的技术如工具使用能力正从外挂演变为标准协议并融入模型核心,遵循脚手架最终融入基础架构的普遍技术发展模式 [32][33][34]
「上下文工程」 已经30岁了,而你可能刚知道它
量子位· 2025-11-02 04:23
文章核心观点 - 上下文工程是一个持续30年的进化过程,其本质是通过熵减少来弥合人机之间的认知鸿沟,将高熵的人类意图预处理为机器可理解的低熵表示[3][11][21] - 上下文工程的发展经历了从传感器时代到智能助手时代的演变,认知鸿沟从约90%缩小至约30%,并正向1%迈进[22][40][43] - 在大模型时代,上下文工程演变为2.0阶段,其系统化框架包含上下文收集、管理和使用三个正交维度[61][62][81] - 未来上下文工程将向认知密集型发展,AI可能超越人类并主动构建上下文,上下文的总和将构成新的数字身份[93][96][98] 上下文工程的本质与定义 - 上下文工程被定义为一种熵减少过程,旨在弥合人类与机器之间的认知鸿沟,而非简单的翻译[21][23] - 其核心功能是将高熵的人类意图和环境状态预处理为机器可理解的低熵表示,类似于“预消化”[21][23] - 认知鸿沟被量化为人类与机器上下文处理能力的差值,并分为四个等级,目前处于Era 2.0阶段,鸿沟约为30%[20][21][22] 上下文工程的历史演化 - 上下文工程的概念可追溯至1994年Bill Schilit提出的“上下文感知计算”,至今已有30年历史[8][11][12] - Era 1.0(1990s-2020)为传感器时代,机器是状态机,仅能执行预设的if-then规则,认知鸿沟约90%[27][31][36] - Era 2.0(2020至今)为智能助手时代,以GPT-3发布为标志,机器进化为“理解者”,认知鸿沟缩小至约30%[40][41][43] - 每一次技术突破引发的认知鸿沟缩小都会触发交互革命、上下文容量扩张和工程范式转移三重连锁反应[24][25][26] 上下文工程2.0的系统化框架 - 上下文工程2.0框架由收集、管理和使用三个正交维度构成,可在每个维度上独立优化[61][62][81] - 上下文收集维度关注如何从多设备、多模态源头获取有价值的信息,并从指令收集演进至意图和状态收集[62][64][68] - 上下文管理维度核心是存储和组织信息,策略包括分层记忆架构、子代理隔离上下文和轻量引用等[70][72][73] - 上下文使用维度经历了从Era 1.0的被动响应到Era 2.0的主动理解,并展望Era 3.0的流畅协作[83][86][87] 上下文工程的技术演进与突破 - Era 2.0实现了感知升级,从单一传感器到多模态融合,机器能看懂图片、听懂语音、读懂文档[45][46][47] - 关键突破在于“高熵上下文消费能力”提升,机器能从处理结构化数据进化到处理原始模糊信息[48][49][50] - 工作模式从“被动响应”转变为“主动协作”,机器能理解用户目标并协助达成,进入上下文协作阶段[51][86][91] - 当前面临上下文窗口限制(如GPT-3为4096个token),促使了Prompt Engineering等精选上下文艺术的发展[54][56][59] 上下文工程的未来展望 - 未来Era 3.0将实现无感采集和流畅协作,Era 4.0可能在某些任务上AI能力超越普通人类[68][87][93] - 发展形态将从硬件密集型、数据密集型向语言密集型和认知密集型演变[100] - 上下文将构成新的人类数字身份,个体的上下文总和将成为“数字化的你”,并可能在其后继续存在[94][96][104] - 下一次交互革命正在酝酿,设计出最佳“上下文容器”将定义新时代的交互范式[102][103]
为什么95%的智能体都部署失败了?这个圆桌讨论出了一些常见陷阱
机器之心· 2025-10-28 09:37
AI智能体部署失败的核心原因 - 95%的AI智能体在生产环境部署失败,主要问题并非模型能力不足,而是基础框架、上下文工程、安全性和记忆设计等支撑技术尚未成熟 [1] - 真正的差距在于上下文工程,多数创始人实际构建的是上下文选择系统而非AI产品 [3] - 成功部署的5%智能体共性在于采用人机协作设计,让AI扮演助手而非自主决策者,以解决信任问题 [3] 上下文工程的最佳实践 - 微调往往非必要,构建良好的RAG系统已足够高效,但绝大多数现有RAG系统过于粗糙 [7][8] - 高级上下文工程应被视为面向LLM的原生特征工程,使其成为可测试、可版本化、可审计的数据工件 [12][13] - 采用语义层加元数据层的双层架构,在混乱数据源间建立秩序,确保检索结果的相关性而不仅是相似性 [14][15] - text-to-SQL部署困难源于自然语言模糊性及企业术语的上下文依赖,成功方案需工程化的抽象与保护措施 [16][17] 信任与治理框架 - 安全、权限和数据溯源是AI系统落地的关键阻力,而非简单的合规清单项目 [18][19] - AI答案需根据员工权限和上下文进行差异化处理,避免组织性错误 [20] - 领先团队在统一目录中嵌入访问策略,并在索引和查询阶段同时生效 [21] - 信任问题是人性瓶颈,成功系统设计需包含人机协同环节,使AI可监督、可纠正、可解释 [21] 记忆系统设计 - 记忆是涉及用户体验、隐私和系统影响的设计决策,而非单一功能 [22][23] - 记忆分为用户层面(偏好)、团队层面(查询、仪表盘)和组织层面(知识、政策)三个层级 [27] - 记忆即个性化,可改善用户体验,但需平衡个性化与隐私保护,避免越界成为监控 [29][30] - 目前缺乏安全、可移植的记忆层原语,这是亟待解决的关键问题 [31] 多模型推理与编排 - 生产环境需基于任务复杂度、延迟限制、成本敏感度等因素运行模型路由逻辑 [34] - 模型编排更接近编译器设计,是在异构模型、工具和验证间运行决策DAG [34] - 采用自适应路由策略,将简单问题交给小型快速模型,复杂任务路由到前沿模型,并通过反馈循环持续优化 [34] 自然语言交互的适用场景 - 并非所有任务都需要聊天机器人,自然语言交互在降低复杂工具学习门槛时最具价值 [39][40] - 混合交互模式的核心逻辑是以聊天开启零学习门槛操作,再提供GUI控件进行精准调整 [41] - 自然语言处理理想应用场景包括偶发带情绪的任务(如客户服务)和探索性开放式查询 [50] 亟待解决的技术缺口 - 上下文可观测性缺失,团队缺乏系统方法衡量不同上下文对模型性能的影响 [43] - 可组合记忆需实现用户归属、可移植性与安全性,并设置权限层级区分不同层面的记忆 [44] - 应开发领域感知型DSL替代不稳定的text-to-SQL,直接映射到经过验证的业务逻辑流程 [45] - 需设计延迟感知型UX,区分即时响应任务和可接受延迟的深度分析任务 [46][47] 未来基础设施发展方向 - 即将出现记忆组件、编排层、上下文可观测性工具等基础设施工具浪潮 [49] - 生成式AI的下一个竞争壁垒将来自上下文质量、记忆系统设计、编排可靠性和信任导向型UX [52] - 创业者需重点关注上下文预算、记忆系统边界、输出溯源、多模型路由和用户数据信任度这五个硬核问题 [53]
微调已死!「共识机制」实现提示词自我进化,性能飙升
量子位· 2025-10-28 01:18
AI范式转变 - 人工智能领域正经历从“模型微调”向“上下文工程”的范式转变 [1] - “上下文工程”通过引入明确指令和丰富知识,无需高昂训练成本或开源模型参数,提供更强可解释性 [1] - “微调已死”成为AI领域近期广泛认可的热门话题 [2] 单一提示词的局限性 - 单一提示词表达能力有限,难以全面严谨地表述复杂任务的所有需求 [4] - 多提示词相互协作是自然解决方案,单个提示词无法处理的输入可由其他提示词弥补性能损失 [4] C-Evolve算法核心思想 - 基于“共识机制”的提示词组进化算法C-Evolve通过进化算法生成一组提示词 [6] - 该组提示词对输入信息独立处理后,通过提取所有输出结果的共识以实现最优任务性能 [6] - 算法创新性提出“共识表决得分”评估单个提示词在成组工作时的性能潜力,并采用海岛算法提升组内多样性 [6] 共识机制技术细节 - 共识机制由一组独立、同功能的提示词共同完成 [11] - 对于封闭回答类问题采用多数表决输出高频一致答案,对于开放式提问则用LLM表决筛选最具代表性的输出 [13] - 优化目标是寻找在共识机制下最优的一组提示词 [13] 基于海岛的进化算法 - 算法采用基于海岛的进化算法,在相互独立的海岛内并行迭代种群 [14] - 进化过程包含基于个体独立性能的预热阶段和基于跨海岛分组协作表现的共识进化阶段 [14] - 预热阶段将个体独立得分作为进化算法的适应度评分 [16] 共识表决阶段 - 共识表决阶段以个体组成提示组之后的性能作为进化的适应度 [23] - 算法构建提示组,从各岛屿中分别采样一个个体,并基于共识机制测试这些组的评估性能 [23] - 采用指数平滑后的共识表决得分作为适应度评分,赋予最新采样出的组更高权重以抑制早期历史结果影响 [26][28] 算法性能表现 - C-Evolve同时适用于Qwen3-8B开源模型和GPT-4.1-mini闭源模型 [29] - 在Qwen3-8B模型上,C-Evolve在IFBench任务得分为70.67,相比Baseline的50.03提升显著;在GPT-4.1-mini模型上,C-Evolve得分为70.64,相比Baseline的44.24提升显著 [30] - 算法在Hover、MATH、HotpotQA等多个任务上均取得性能提升,例如在Qwen3-8B的MATH任务上从37.66提升至50.33 [30] 算法优势与意义 - C-Evolve通过多提示词共识机制突破单一系统提示词的性能局限,显著提升系统整体性能 [7][32] - 该方法无需参数微调即可实现算法效能的显著提升,为挖掘成熟商业LLM的模型能力提供了新思路 [34] - “共识机制”模拟生物进化与群体协作,提升了提示词性能并增强了模型在复杂任务中的适应能力 [34]
长上下文窗口、Agent崛起,RAG已死?
机器之心· 2025-10-19 09:17
RAG技术演进与行业观点 - 行业出现“RAG已死”的论调,Chroma公司CEO Jeff Huber主张以“上下文工程”框架取代对RAG术语的狭义依赖 [1][2] - RAG自2022年以来成为解决LLM输入长度限制(如GPT-3.5的4K tokens)的行业标准解决方案,其核心逻辑类似于搜索引擎 [3][4] - 长上下文窗口的崛起和Agent能力的进化正在动摇RAG的核心地位,引发其是否过时的讨论 [5][6] RAG的进化:智能体检索 - LlamaIndex提出RAG正在演进为“智能体检索”,AI智能体成为更强大的RAG架构核心,超越了早期“朴素的区块检索”阶段 [7][8] - 技术演进分为四个阶段:从基础的Top-k检索,到引入轻量级agent的自动路由模式,再扩展到多个知识库的复合检索API,最终构建完全由agent驱动的双层智能系统 [9][10][11][13][15][17][18][19] - 高级检索服务通过分层、智能的能力,成为高级AI智能体不可或缺的“知识骨干”,简单的RAG已经过时 [21] RAG作为工程学科的深化 - 行业专家认为RAG正进化为构建可靠、高效AI应用的核心工程学科,其本质(为LLM提供外部知识)是永恒需求 [22][23][24] - 需要升级评估范式,传统搜索引擎基准(如BEIR)与RAG目标不符,新基准FreshStack更注重覆盖率、多样性和相关性等真实性能指标 [26][27][28][29][33] - 新一代检索模型具备推理能力(如Promptriever)和采用无损压缩技术(如延迟交互模型ColBERT),小模型(150M参数)在特定任务上可超越大模型(7B参数) [34][35][39] 对RAG架构的批判与替代方案 - 批评者指出RAG架构存在“原罪”:切分导致上下文割裂、向量搜索在专业领域失灵、系统复杂性和延迟问题突出 [37][38][41][48] - 智能体(Agent)和长上下文窗口(如Claude Sonnet 4达200K、Gemini 2.5达1M、Grok 4-fast达2M tokens)被视为更优替代方案,采用“调查”而非“检索”范式 [42][43][44][45][49] - 在新范式下,RAG被“降级”为Agent工具箱中的一个组件,与代码解释器、API调用等工具并列,场景需求决定架构选择 [47][50][51][52][54] 行业共识与未来展望 - 行业共识是初级的、朴素的RAG(Naive RAG)已无法满足复杂需求,但其核心思想——为LLM提供外部知识——是永恒的 [50][51] - 未来技术图景是多元化融合:Agent驱动的工程化RAG适用于海量数据初筛,而“长上下文窗口 + Agent调查”范式在深度分析场景具优势 [52][54] - 开发者需理解不同技术范式优劣,根据具体应用场景灵活组合,构建最高效可靠的解决方案 [52]
腾讯研究院AI速递 20251017
腾讯研究院· 2025-10-16 23:06
谷歌视频生成模型Veo 3.1 - 谷歌发布视频生成模型Veo 3.1,具备更强叙事与音频控制、首尾帧与多图参考等精控功能,并接入Gemini API与Vertex AI [1] - 模型支持720p或1080p分辨率24fps视频,原生时长4-8秒,使用Extend功能最长可扩展至148秒,可合成多人物场景并实现音画同步 [1] - 用户已在Flow中生成超过2.75亿个视频,但成片质感较Veo 3进步有限,基础物理表现有所改善但人物表演与复杂调度仍存在问题 [1] Anthropic轻量模型Claude Haiku 4.5 - Anthropic发布轻量级模型Claude Haiku 4.5,编码性能可与Claude Sonnet 4相媲美,成本仅为其三分之一(每百万输入token 1美元,输出5美元),推理速度提升一倍多 [2] - 在计算机使用基准OSWorld上得分50.7%超越Sonnet 4的42.2%,数学推理测试中借助Python工具成绩高达96.3%远超Sonnet 4的70.5% [2] - 模型主打实时低延迟任务场景如聊天助手、客服、协同编程,通过严格安全性评估,偏差行为发生率显著低于其他Claude模型 [2] 阿里通义千问记忆功能 - 阿里通义千问正式上线Qwen Chat Memory功能,使AI能够记录并理解用户在过去对话中的重要信息,包括个人偏好、兴趣方向或特定任务背景 [3] - 该功能可跨越多轮甚至多天对话保留个性化认知,是AI助手向长期陪伴型智能体迈出的关键一步 [3] - 所有记忆内容可由用户查看、管理和删除,用户拥有完整控制权,首先在网页版Qwen Chat上线,未来推广至更多终端 [3] 字节跳动语音模型升级 - 火山引擎升级豆包语音合成模型2.0和声音复刻模型2.0,通过Query-Response能力实现情境理解与语气把控,可通过细节描述精准生成对应情感 [4] - 语音合成2.0提供默认模式、语音指令和引入上文三种模式,可控制整段情绪基调、方言类型、语速音调等,模型能自动理解上下文情绪连贯生成 [4] - 声音复刻2.0可精准复现动漫人物和真人音色语速情绪,对公式朗读测试准确率接近90%,在教育场景专项优化 [4] 谷歌与耶鲁大学AI抗癌研究 - 谷歌与耶鲁大学联合发布270亿参数大模型Cell2Sentence-Scale(C2S-Scale),基于Gemma模型构建,提出并验证让肿瘤对免疫系统更易被识别的全新抗癌假设 [5][6] - 模型通过双环境虚拟筛选流程对4000多种药物进行模拟,发现激酶CK2抑制剂silmitasertib仅在免疫信号活跃环境中显著增强抗原呈递,该预测已在体外实验中多次验证 [6] - 研究展示AI模型生成原创科学假设的潜力,有望打开人类抗癌新途径,模型及代码已在Hugging Face和GitHub全面开放 [6] AI模型训练与工程挑战 - Anthropic预训练团队负责人强调预训练核心是推动损失函数下降,如何平衡预训练和后训练、各自作用叠加还是互补仍在早期探索阶段 [7] - 当前AI研究最大瓶颈是计算资源受限而非算法突破,真正的挑战在于如何有效利用算力并解决规模扩展中的工程难题 [7] - 对齐问题核心是让模型分享人类目标,预训练与后训练各有优势,后训练迭代快适合调整模型,某些对齐可融入预训练增强鲁棒性和智能性 [7] 上下文工程技术 - LangChain创始工程师与Manus联合创始人探讨上下文工程,强调AI Agents执行复杂长期任务时上下文窗口会因大量工具调用急剧膨胀导致性能下降 [8] - 有效的上下文工程通过卸载、精简、检索、隔离和缓存等技术,将恰到好处的信息填入上下文窗口,Manus设计了基于多层阈值的自动化流程协同使用压缩和总结 [8] - 核心设计哲学是避免上下文过度工程化,最大性能飞跃来自简化架构和信任模型,优先选择上下文工程而非过早模型专业化 [8] AI在开发领域的应用现状 - Google Cloud DORA 2025报告显示90%开发者已在日常工作中使用AI,每天中位数使用时长2小时约占工作日四分之一,但只有24%表示高度信任AI输出 [9] - AI不是单向效率药丸而是放大镜,在文化健康协作顺畅团队中作为加速器提升效率,但在环境存在问题的团队会放大裂缝导致交付更加不稳定 [9] - 报告首次提出七种典型团队人设和DORA AI能力模型,包括用户导向、版本控制、数据可用性等七项关键能力 [9] NVIDIA发展历程与AI战略 - 黄仁勋回顾1993年红杉100万美元投资NVIDIA,三十年后成长为超过1万亿美元市值实现100万倍回报,强调从第一性原理推演未来是突破关键 [10] - CUDA的诞生让GPU从图形设备变成通用加速平台,2012年AlexNet在ImageNet竞赛获胜成为转折点,NVIDIA为神经网络开发CUDNN库使模型训练速度成倍提升 [11] - AI工厂核心是系统整合而非芯片性能,从建筑供电到软件栈提供完整算力生产线,主权AI成为新一轮国家竞争核心 [11]
从技术狂欢到企业落地,智能编程的全球破局战
AI前线· 2025-10-13 13:54
行业现状与趋势 - 智能编程是AI应用领域增长最为迅猛的赛道之一 [2] - 全球已有60%的开发者在使用AI构建工具,行业渗透速度远超预期 [3][10] - 智能编程正从单一的代码补全功能阶段,加速迈向AI自主开发时代,重塑软件开发的底层逻辑 [3][5] - 智能编程的未来将成为数字世界与物理世界的连接器,随着物理世界智能化程度提升,设备控制、场景联动等需求将依赖大量代码生成,形成正向循环 [10] 技术能力与突破 - 在中简单任务(如基础代码补全、简单接口开发)中,国内模型的表现已与海外模型相近,阿里开源的通义千问AI编程大模型Qwen3-Coder编程能力登顶全球开源模型阵营,并超越GPT-4.1等闭源模型,比肩全球最强的编程模型Claude 4 [3][16] - 技术发展围绕解决真实软件构建痛点展开,通过三大核心能力突破实现开发流程系统性重构:面向真实软件构建的场景深耕、Spec驱动下的生产力质变、持续增强上下文工程 [5][6][7][9] - 阿里云的大语言模型已支持7小时不间断独立工作,使生产力提升10倍,开发者可同时委派8-10个任务 [7][8] - 上下文工程被定义为当前驾驭大语言模型的最重要能力,阿里云通过向量化检索+文件解锁的混合策略实现全球领先,能快速关联历史代码与业务规则 [9] 产品布局与市场策略 - 阿里云针对国内外市场需求差异,通过通义灵码、Qoder等产品进行破局 [3] - 通义灵码聚焦国内市场,强调合规适配与企业级服务,已服务超百万月活开发者,并服务了90%的上市商业银行和超过70%的中国车企 [19][21] - Qoder面向全球市场,定位为创新验证平台,上架5天就有超10万开发者使用 [20] - 公司通过全球创新→本土适配→生态落地的迭代闭环,以及工具+平台+服务的生态协同策略应对竞争 [17][18][19][20] 企业落地实践与成效 - 企业级落地面临复杂场景适配难、安全合规风险高、知识传承与资产复用不足等挑战 [10][11][14] - 中华财险代码生成占比达到41.26%,生成了257万行代码,代码生成占比从最初的28%提升至46%,平均每百名开发者可提升约6人的生产力 [12] - 海信集团开发人员中日均活跃用户占比78%,代码生成占比约48%,代码采纳率超过30%,整体提效成果远超预期 [13] - 企业在推广智能编程时采用分场景制定目标的方式,在新系统开发中提效幅度可达50%以上,但在维护老系统时提效幅度为10%~20% [11] 行业竞争与发展路径 - 国内工具厂商正通过模型追赶+数据优势+生态协同的路径实现突围 [17] - 国内中小模型在代码补全、语法纠错等专项任务上已达到全球SOTA水平 [17] - 智能编程领域的全球竞争已进入白热化阶段,企业对智能编程的需求已从提效工具升级为生产力伙伴 [16][21] - 行业核心演进路径是从辅助编程到系统编程,再到AI自主编程,终极目标是让代码生产不再成为创新的障碍,而是成为企业发展的加速器 [7][22]
硅谷一线创业者内部研讨:为什么只有 5%的 AI Agent 落地成功,他们做对了什么?
Founder Park· 2025-10-13 10:57
文章核心观点 - AI Agent在生产环境的部署失败率高达95%,主要瓶颈并非模型智能度,而是上下文工程、安全性、记忆设计等基础设施的缺失[2][3] - 成功的AI产品开发核心在于构建复杂而强大的“上下文选择系统”,而非简单的提示工程[3] - 行业即将迎来一波专注于记忆工具包、编排层、上下文可观测性等基础设施工具的浪潮[49] 上下文工程 - 精细调整模型的需求非常少见,设计完善的检索增强生成系统通常已能满足需求,但大多数现有系统设计过于初级[5] - 先进的上下文工程是为大语言模型量身打造的特征工程,需实现可版本化、可审计、可测试[9][10] - 应采用语义与元数据双层架构,统一处理杂乱输入格式,确保检索到的是高度相关的结构化知识,而非仅是相似内容[11][12] - 文本转SQL系统在生产环境部署挑战巨大,成功团队会构建业务术语表、带约束的查询模板、验证层及反馈循环作为支撑[13][20] 安全与信任机制 - 安全性、溯源能力与权限控制是阻碍系统部署的关键障碍,而非可有可无的功能[14] - 系统必须支持基于角色的行级别访问控制,即使问题相同,也需为不同权限用户提供定制化输出[16][21] - 信任的核心在于系统能否表现出一致、可解释、可审计的行为,而非原始技术能力[18] - 5%成功部署的AI Agent共同点是采用“人在回路”设计,将AI定位为辅助工具,并构建反馈循环[18] 记忆功能设计 - 记忆功能不是简单存储,而是涉及用户体验、隐私和系统整体架构的设计决策[22] - 记忆应分为用户级、团队级和组织级三个层级,优秀团队会将其抽象为独立的上下文层与行为层,实现版本化与自由组合[23][28] - 记忆能提升用户体验与Agent流畅度,但过度个性化会触及隐私红线,共享记忆若范围不当会破坏访问控制[30][34] - 当前技术栈缺失安全、可移植、由用户掌控的内存层,这是一个重要的创业机会点[30][42] 多模型推理与编排 - 模型编排是一种新兴设计范式,企业根据任务复杂度、延迟要求、成本敏感度等因素设计智能路由逻辑[31][32] - 典型模式包括:简单查询调用本地模型、结构化查询调用领域特定语言、复杂分析调用前沿模型,并采用双模型冗余设计作为回退[35][36] - 模型选择本身可通过追踪“哪些查询在哪些模型上表现更好”来持续学习优化,路由策略需自适应而非手动调整[37] 交互界面设计 - 并非所有任务都需要聊天机器人,自然语言交互的价值在于极大降低复杂工具的使用门槛[39] - 理想应用场景包括处理情绪化任务和进行探索性、开放式的查询[40][46] - 核心是理解用户选择自然语言的根本原因来设计交互,而非将所有交互塞进聊天框架,并应提供GUI控件支持后续精细化调整[40] 未来机会与待解问题 - 重要创业机会点包括:上下文可观测性、可组合记忆、领域感知的领域特定语言[41][42][44] - 善用延迟可创造价值体验,深度分析即使耗时10秒,只要展示思考过程并给出有效答案,用户也能接受[45] - 生成式AI的下一个护城河将源于上下文质量、记忆设计、编排可靠性和信任体验四方面[50][51]