Workflow
Scaling Law
icon
搜索文档
谁说Scaling Law到头了?新研究:每一步的微小提升会带来指数级增长
机器之心· 2025-09-16 04:01
Scaling Law的收益递减争议 - 很多人认为Scaling Law面临收益递减 继续扩大计算规模训练模型的做法被质疑[1] - 研究发现即使模型在单步任务准确率提升变慢 这些微小进步叠加能让完成任务长度实现指数级增长 这在现实中更有经济价值[1] - 虽然scaling law显示LLM在测试损失等指标存在收益递减 但模型现实世界价值源于智能体能完成任务的长度 从这个角度 更大模型能将单步准确率微小提升复合放大 在任务完成长度上实现指数级跃升[3] 论文核心发现 - 论文标题The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs 来自剑桥大学等机构[5][6] - 长期以来完成长程任务一直是深度学习致命弱点 自动驾驶demo炫酷但真正上路跑长途用了十多年 AI能生成惊艳图片但拍连贯一致长视频仍是难题[6] - 可以通过解耦推理或智能体任务中规划(planning)和执行(execution)需求来解决长程任务问题 规划涉及决定检索信息或使用工具顺序 执行是让规划变成现实[7] - 在思考的幻觉论文中 LLM显然知道规划 最初正确执行许多步骤 最终失败在于执行 随着任务变长 模型执行规划时更容易犯错[7] Scaling是否存在收益递减 - 虽然单步准确率提升幅度减小 但准确率微小提升可复合放大 导致模型能完成任务长度呈指数级增长[7] - 在显式提供所需知识和规划后 scaling模型大小仍显著提高模型成功执行轮次数量 说明scaling价值不仅体现在让模型记住更多知识或更会寻找问题解答上[8] - 当步骤准确率超过70%后 步骤准确率微小提升带来比指数级更快任务长度改善 即使在短任务问答基准测试中准确率提升似乎放缓 从数学角度仍可期待更长任务上取得显著收益[15] Self-Conditioning效应 - 随着任务推进 每步错误率本身会上升 这与人类形成对比 人类执行任务时通常通过练习进步[9] - 由于模型训练很大部分根据上下文预测最可能下一个token 让模型以自身容易出错历史为条件会增加未来出错可能性[9] - 随着历史中错误率升高 后续步骤准确率急剧下降 验证模型会进行self-condition设定[9] - 除了长上下文问题 self-conditioning设定还会导致模型在长程任务中性能下降 且这种性能下降不会通过增大模型规模缓解[9] 思考的影响 - 近期思考模型不会受到先前错误影响 能够修正self-conditioning限制[10] - 顺序测试时计算量显著提升模型在单轮对话中可完成任务长度[10] - 没有思维链情况下 DeepSeek V3等前沿大语言模型连两步执行都无法完成 而具备思考能力版本R1能执行200步 凸显行动前进行推理重要性[10] - GPT-5思考版本(代号Horizon)能执行超过1000步 远超能执行432步Claude-4-Sonnet[10] 经济价值衡量 - 人类劳动报酬往往按时间计算 如果智能体经济价值源于它能完成任务时长 那么单轮或短任务基准可能并非评估进一步投资大语言模型计算资源带来收益可靠参考[19] - 这些基准可能让人产生进展放缓错觉 而更能体现经济价值指标 模型能完成任务时长 实际上仍在快速增长[19] - 如果一个模型能完成任务长度表明其经济价值 那么持续投入增加计算量可能值得 即便短任务基准测试给人进展放缓错觉[11] 实验设计与结果 - 通过显式提供必要知识和规划隔离执行失败情况 将航班选择智能体示例中"先检索后组合"步骤串联起来[23] - 规划负责决定检索什么以及如何组合 而执行是实际执行这些操作 符合键值(key-value)词典抽象[23] - 即使去除了规划和知识要求 长时程任务执行对LLM仍具挑战性 所有模型第一步达到100%准确率 但任务准确率在后续回合迅速下降[25] - 更大模型在更多轮次保持更高任务准确率 导致任务长度呈现明显scaling趋势[27] - 随着轮次数量增加 各轮次准确率稳步下降 长上下文和self-conditioning都会导致准确率下降[28] - 当以无错误历史为条件时 模型在第100轮轮次准确率低于初始值 这与长上下文退化观察一致 随着上下文中注入错误比例提高 第100轮准确率持续下降 证明self-conditioning效应[28] 单轮任务执行能力 - 没有思维链情况下 不具备思考能力模型难以在单轮中完成两个步骤衔接[34] - 更大规模Qwen3 32B Gemma3 27B 以及DeepSeek-V3(670B)和Kimi K2(1026B)等前沿非思考型模型 连复杂度为2单轮任务都无法完成[34] - 借助思维链 模型在单轮中能执行步骤数量显著增加 对于智能体 行动前先进行推理至关重要[36] - 对于长时程执行任务 顺序性测试时计算比并行测试时计算更有效[36] - GPT-5(代号Horizon)与其他模型如Gemini 2.5 Pro Grok 4和DeepSeek R1之间存在巨大差距[36] - 经过强化学习训练思维模型DeepSeek R1性能显著优于其经指令微调对应模型DeepSeek-V3[36] - 长时程执行是挑战 开源权重模型仍在追赶仅通过API提供模型[37]
院士张宏江:Agent将替代企业流程,也会改变未来的人类组织构成
新浪科技· 2025-09-11 02:34
大模型成本与性能趋势 - DeepSeek R1模型成本仅为当时世界最佳推理模型的几十分之一,性能却非常接近[1] - 大模型使用成本快速降低,模型性能快速提高,该趋势将伴随大模型发展持续发生[1] - 以ChatGPT发布为标志,其日活跃用户在2025年3月已接近搜索引擎的30%,表明大模型已成为日常工具[1] Agent技术发展 - Agent规划能力呈指数性成长,出现摩尔定律3.0,其能力以任务长度衡量每7个月翻一倍[1] - 随着基础模型能力提高,Agent Scaling Law还将加速[1] - AI将从助理角色转变为伙伴角色,具备自身规划和行动能力,改变人机关系[2] 产业与经济影响 - 大模型生态推动多个产业发生Scaling Law,并带动整体经济发展[1] - Agent技术将替代企业流程,改变未来的人类组织构成和就业模式[2] - 无论是OpenAI的ChatGPT还是其他公司,大模型的使用都在加速[1]
国内外AI大厂重押,初创梭哈,谁能凭「记忆」成为下一个「DeepSeek」?
36氪· 2025-09-07 09:07
大模型记忆能力的技术演进 - 大模型记忆能力是指模型具备人类对记忆的组织、检索和应用方式 属于长期记忆或终身记忆范畴 区别于当前依赖长文本和外部数据库的短期记忆[3] - 技术演进背景是模型推理能力已成为行业标配 而通用Agent仍空缺 技术曲线放缓促使行业寻求通过记忆能力实现持续学习和长上下文理解[2] - 记忆能力研究自2023年底兴起 因Scaling Law边际效应下降 算力堆叠仅能带来不足10%的性能提升 需寻找新技术范式[12][19] 行业参与者布局动态 - 2024年8月多家厂商密集推出记忆功能:Anthropic的Claude支持对话记忆检索[4] 谷歌Gemini支持跨对话提炼用户偏好[4] 字节跳动Seed团队发布多模态M3-Agent系统[4] - OpenAI于2023年2月已在ChatGPT上线记忆功能 2024年Sam Altman明确将记忆作为GPT6重点[4][5] - 新兴玩家加速入场:马斯克xAI的Grok于4月实现多轮对话记忆[6] Mistral AI宣布与20多个企业平台集成记忆系统[6] 技术实现路径分析 - 参数化记忆路径:通过模型架构创新实现记忆存储 如Temp-Lora方法用临时模块记录历史交互[18] 非Transformer架构包括谷歌Titans三级记忆机制和Meta的记忆层替换方案[25] - 上下文工程路径:通过Prompt和KV cache管理实现记忆 如Manus公司极致化Agent间记忆复用 但依赖人工工程且错误归因困难[26] - 外部数据库路径:采用RAG和向量数据库存储信息 但存在检索准确性低 工程成本高且无法通过训练提升模型性能的局限性[27] 应用场景与商业前景 - 记忆能力是AI Agent突破的关键 需支持不依赖Context Window的终身记忆 满足游戏陪伴等长期交互场景需求[15][21] - 两类商业模式分化:OpenAI等C端厂商通过全局记忆或局部记忆增强用户粘性[31] 中间件服务商如MemOS和Zep提供开源框架推动去中心化记忆生态[32] - 技术成熟度需1-2年实现大规模应用 3-5年解决幻觉和隐私等治理问题 市场格局未定 存在黑马机会[34][35] 学术与产业研究进展 - 中国科学院院士鄂维南团队于2024年7月发布记忆分层模型Memory³ 将参数拆解为隐性/显性/外置记忆库 获Meta和谷歌跟进[8] - 腾讯AI Lab早期研究RAG提升记忆能力 2021年获ACL杰出论文奖 2024年1月开发出参数化记忆方法解决游戏Agent终身记忆需求[13][18]
国内外AI大厂重押,初创梭哈,谁能凭「记忆」成为下一个「DeepSeek」?
机器之心· 2025-09-07 05:12
大模型记忆能力的重要性 - 记忆能力成为AI技术演进的关键方向 是提升AI智能的核心 让AI能够持续学习积累经验 适应新任务而不遗忘旧知识 同时实现长上下文的高效理解[2] - 当前大模型依靠长文本和外部数据库的记忆属于"短期记忆" 而业界追求的是具备人类记忆组织、检索、应用方式的"长期记忆"或"终身记忆"[3] - 2024年8月成为记忆功能集中发布期 Anthropic在8月12日让Claude具有记忆功能 谷歌13日宣布Gemini配备记忆能力 字节跳动14日发布具备长期记忆的M3-Agent系统 OpenAI在20日将记忆作为GPT-6重点[4] 行业参与者布局情况 - OpenAI早在2023年2月就在ChatGPT上线记忆功能 马斯克的xAI在2024年4月宣称Grok能记住多轮对话 Mistral AI最新宣布引入记忆系统并与20多个企业平台集成[5][6] - 记忆张量是聚焦Agent Memory的初创企业 推出了业界首个记忆操作系统 其团队成员参与研发的记忆分层大模型Memory³在2024年7月发布[9] - 腾讯AI Lab是业界最早进行利用RAG提升模型记忆能力的研究团队之一 相关研究曾获得2021年ACL杰出论文奖[14] 技术发展驱动力 - 技术侧驱动力来自Scaling Law边际效应下降 通过堆算力、参数量获得性能提升的效果明显下降 即便再去堆成倍算力 都拿不到10%甚至5%的能力突破[20] - 应用侧需求来自AI Agent发展 用户希望AI能作为合作伙伴解决长期问题 需要记住之前的交互与反馈 模型终身记忆成为非常重要的事情[21][22] - 记忆能力是Agent取得突破性进展的必不可少环节 技术侧和应用侧形成双重诉求[7][23] 技术路线分析 - 参数化记忆路线基于基座模型架构驱动融合记忆创新 让模型从参数层面区分需要被记忆的内容 在推理过程中融合到前向推理过程[26] - 上下文记忆路线将信息以prompt方式放在Context Window中 典型代表Manus不断强调在Agent交互过程中做KV cache管理[28] - 外部数据库/RAG路线将信息存储在模型外部数据库中 通过RAG将相关内容取回注入到当前Context Window[28] - 各种路线都有优势与局限性 参数化记忆理论上限高但研发成本高 上下文记忆容易变成纯粹工程事情 RAG上限较低[27][28][29] 市场格局与商业模式 - 第一类玩家是OpenAI、Anthropic、Google等AI厂商 通过引入长短期记忆能力达成个性化服务目标 借助记忆的个性化能力来留住用户[33] - 第二类玩家是记忆中间件服务商 如Mem0、记忆张量的MemOS、Zep等开源记忆框架 面向更广泛开发者提供记忆能力增强[33] - Mistral AI宣布免费扩展企业级业务平台Le Chat 已与20多家平台集成 试图通过提供先进记忆功能打破AI市场竞争格局[35] 发展时间框架 - 距离真正能够大范围应用记忆能力 让用户感受到生活无处不在变化 还需要一到两年时间[36] - 要达到解决记忆幻觉问题、隐私保障和立法等治理层面 至少还需要三到五年时间[37] - 记忆能力竞赛中各类玩家互相角力 战况胶着 谁都有可能突破 未来乾坤未定 一切皆有可能是黑马[38]
实测阿里万亿参数大模型:开源路线跑通了吗?
钛媒体APP· 2025-09-06 11:32
模型技术突破 - 公司发布史上最大模型Qwen3-Max-Preview 参数量超过1万亿 较此前千亿级模型实现近四倍提升 [1][15] - 模型在SuperGPQA、AIME2025、LiveCodeBench V6、Arena-Hard V2和LiveBench等基准测试中全面超越竞争对手 包括Kimi K2、Claude Opus 4及DeepSeek-V3 [2][4] - 编程能力实现重大突破 直接反超此前业内公认最强的Claude模型 验证规模化扩展定律(Scaling Law)持续有效 [4][6][17] 商业化战略路径 - 公司采用"模+云"协同策略 形成从技术研发到商业化落地的最短路径 通过阿里云MaaS战略快速推动行业应用 [2][18][19] - 开源生态建设成效显著 自2023年起陆续开源70亿参数Qwen-7B至720亿参数模型 覆盖多模态场景并开放商业化授权 [16] - 开源模式快速抢占开发者心智 在Hugging Face等全球社区建立广泛影响力 为闭源模型提供数据反馈优势 [16] 基础设施与工程能力 - 万亿参数模型训练依赖超大规模计算集群稳定性 体现公司在分布式训练算法效率与数据处理精细度的深厚积累 [17] - 阿里云提供全链路工具支持 涵盖数据标注、模型开发、训练部署等环节 显著降低研发团队工程负担 [18] - 算力基础设施投入巨大 支撑模型在编程、推理等核心能力上实现对顶级竞品的反超 [17][18] 行业竞争态势 - 公司通过开源策略快速普及技术 但最先进模型难以与闭源竞争对手拉开绝对技术代差 [20] - 商业模式相较OpenAI等闭源API服务更为迂回 需客户优先认可云平台价值以实现变现 [20] - 顶尖AI人才争夺白热化 核心技术人员流失可能影响团队士气与技术战略延续性 [21]
他们在1993年就提出了Scaling Law
量子位· 2025-09-02 06:17
Scaling Law历史溯源 - Scaling Law概念最早于1993年由贝尔实验室团队提出,而非普遍认为的2020年OpenAI或2017年百度[1] - 核心理论发表于《Learning Curves: Asymptotic Values and Rate of Convergence》论文,揭示训练误差与测试误差随训练规模增加按幂律形式收敛[4] - 该理论与现代Scaling Law高度一致:通过增加模型参数量(N)、训练数据量(D)和计算量(FLOPS)可预测性提升模型性能[6] 理论框架与实验验证 - 研究初衷为节省分类器训练的计算资源,通过中等规模数据集训练结果外推预测大规模数据表现[8][9] - 提出误差收敛公式:测试误差$\mathcal{E}_{\text{test}}=a+\frac{b}{l^{a}}$,训练误差$\mathcal{E}_{\text{train}}=a-\frac{c}{l^{a}}$,渐近误差a值范围0.5-1[10] - 在线性分类器的布尔分类任务中预测准确率达极高精度[15] - 在多层神经网络(如LeNet)中,仅用12000样本训练即可预测60000样本规模下的CNN性能表现[19] - 任务难度与渐近误差呈正相关,困难任务收敛速率更小(学习更慢)[22] 核心研究人员背景 - Vladimir Vapnik为支持向量机(SVM)主要发明者,1964年与Chervonenkis提出原始SVM算法,1992年在贝尔实验室开发核技巧处理非线性分类[27][28] - Corinna Cortes现任Google Research纽约分部副总裁,2022年当选ACM Fellow表彰其对机器学习贡献[30][33] - John S Denker与Yann LeCun合作完成手写识别经典论文,涉及机器学习、系统安全、好莱坞特效等多领域[35][36][37] 贝尔实验室的技术遗产 - 卷积神经网络与支持向量机均诞生于贝尔实验室,曾存在技术路线竞争[38] - 1995年Vapnik与Larry Jackel以豪华晚餐打赌神经网络可解释性,2000年Vapnik胜出但2005年局势逆转[38] - LeCun作为赌局见证人,亲历了神经网络从质疑到主流的技术演进过程[39]
深度|Anthropic CEO:AI技术潜力巨大,但无序扩张才是风险所在,我将引导其走向正轨
Z Potentials· 2025-08-28 03:51
公司创始与治理结构 - 公司采用七位联合创始人的多创始人架构 所有创始人分配同等股权 这种架构基于长期建立的信任与默契 使公司能在快速增长中保持凝聚力与核心价值 [11] - 联合创始人Dario Amodei与Daniela Amodei为兄妹关系 分工明确 Dario负责战略制定 Daniela负责执行运营 充分发挥各自擅长领域 [9] - 创始人团队包含彼此认识多年且长期共事的成员 这种高度信任基础在科技行业中非常难得 [9][11] 业务表现与增长轨迹 - 年经常性收入已突破40亿美元 成为史上增长最快的企业之一 [12][24] - 营收增长呈现指数级特征:2023年从零营收达到1亿美元 2024年从1亿增长至10亿美元 2025年上半年已超过40亿美元 [24] - 编程领域是增长最快的应用方向 但业务覆盖范围远不止于此 [12] 应用场景与商业化 - 编程领域增长迅猛的原因包括技术投入、模型适配性及程序员作为新技术早期采用者的社会扩散速度 [12] - 在生物医学领域与制药公司合作 如与Novo Nordisk合作临床研究报告撰写 将传统9周流程缩短至5分钟初稿加数天审核 [13] - 客服领域与Intercom等企业合作 生物领域与Benchling及大型制药企业合作 [13] - 现有AI模型在大型企业的潜力远超当前应用程度 单个企业可创造数十亿美元价值 但受制于组织固化变革缓慢 [12][13] - 企业级AI采用率仍处于早期阶段 领导层普遍认同但员工熟悉度不足 市场规模有扩大100倍的潜力 [67] 商业模式与战略定位 - 更倾向定位为平台公司 类比云计算模式 同时通过直接产品接触终端用户以更好理解需求 [15] - 推出Claude for Enterprise广泛服务企业市场 Claude Code面向开发者及企业客户 Claude for Financial Services等垂直领域产品 [15][16][64] - 专注于认为本质上有益的领域 如科学和生物医学 尽管短期盈利能力可能不成比例 [20][21] - 与美国国防部及情报部门签订2亿美元合同 专注于对外防御方向并设定明确边界 [22][23] 技术发展与模型经济学 - 存在明显的缩放定律(Scaling Law)效应:投入5-10倍训练资源或数据可带来对应能力提升 从"聪明本科生"水平提升至"聪明博士生"水平 [26] - 每个模型可视为独立盈利单元:2023年投入1亿美元训练成本产生2亿美元收入 2024年投入10亿美元训练成本产生20亿美元收入 [34] - 模型回本周期约9-12个月 对企业来说是非常容易接受的投资回报周期 [40][42] - 持续增长的资本支出掩盖了模型业务本身的良好盈利能力 [43] 市场竞争格局 - 预计最终会有3-6个有能力构建前沿模型且拥有足够资本自我启动的玩家 [33] - 目前很可能占据API市场最大份额 甚至是企业级AI市场的领先者 [55] - 产品差异化明显 每个模型都有不同"个性" 相较于云服务 API业务产品差异化更明显 [55][58] 技术演进与产品哲学 - 突破多项技术"天花板":从无法写连贯长文到实现 从不能推理到能够推理 从不能做新发现到持续突破 [72][73] - AI模型实际已在持续进行"新发现" 只是程度不同 如医疗诊断案例 [74] - 产品构建需要以AGI为核心理念 避免做会被下一代模型取代的"包装产品" [91][92] - 用户界面尚未真正适应AI特性 仍处于类似"拟物化设计"的早期阶段 [93][94][97] 组织能力与人才策略 - 在所有AI公司中拥有最高员工留存率 扣除正常离职率后优势更加明显 [51] - 采取信息隔离管理措施 员工只被告知需要知道的信息 [48] - 通过使命信念和股权潜力凝聚团队 拒绝玩世不恭态度 [53] 行业前景与监管环境 - AI可能带来10%的年经济增长 监管需要在9%增长买保险与全速前进间取得平衡 [111] - 加州已通过SB53等相关法规 关注提高安全和保密措施透明度 [112] - 支持设立"护栏"式监管 防止技术过热或偏离轨道而非扼杀发展 [115]
OpenAI史上最大失误:放走这位MIT学霸,美国AI「三朝元老」,现实韦小宝
36氪· 2025-08-21 00:39
AI算力基础设施规模 - AI基础设施规模超越阿波罗登月与曼哈顿计划[1] - AGI算力投入年增速高达3倍[2] - 2027至2028年算力增长存在不确定性[3] Anthropic发展历程 - 公司由OpenAI前团队成员联合创立[4] - 初创团队仅7人且缺乏明确产品规划[5] - Claude系列产品现已成为全球开发者首选工具[7] - 公司员工规模已超2000人且保持使命驱动文化[36] 技术突破与市场表现 - GPT-3训练实现从TPU到GPU的算力架构转型[29] - Scaling Law证明算力规模与智能水平呈正相关[31] - Claude 3.5 Sonnet版本实现编程场景市占率从个位数升至80%-90%[37] - Claude Code通过"心智切换"理论实现智能体式编程突破[41][42] 人才发展与行业趋势 - 线性代数B-成绩者通过自学成为AI核心研发人员[3][19] - 分布式系统与机器学习复合型人才极为稀缺[25] - 行业更注重内在驱动而非传统学历认证路径[46][47] - FAANG公司职业路径价值在AI时代被重新评估[48]
GPT-5暴写“屎山代码”,14个Prompt,看穿GPT-1到GPT-5七年智商进化史
36氪· 2025-08-19 08:56
模型性能演进 - GPT-1至GPT-5在数学、软件工程、问答等基准测试中表现持续提升,Scaling Law未出现瓶颈[3] - 七年间模型从GPT-1到GPT-5,在14类Prompt测试中展现出显著的能力进化,包括写诗、代码生成、专业咨询等领域[5][6][7] 文学创作能力 - GPT-1生成内容碎片化且无韵律结构,GPT-2尝试连贯诗句但缺乏节奏感,GPT-3基本符合AABBA押韵格式,GPT-4增强画面感和幽默感,GPT-5严格遵循格式且叙事连贯[14][15][17][19] - 在解释牛顿物理定律时,GPT-3能准确复述但未遵循作诗指令,GPT-5通过分章节诗歌形式简洁解释三大定律并保持韵律[23][31][33][34] 代码生成能力 - GPT-1输出无关对话片段,GPT-2生成形式化乱码,GPT-3仅作空洞陈述,GPT-4拒绝生成恶意代码并强调伦理,GPT-5输出高度离谱但无害的Python代码并附加警告说明[46][47][49][53][54] - 生成代码示例包括重载print函数执行表达式、修改sum为乘积、在上下文管理器中篡改len函数返回值[53] 教育辅助能力 - 在解释分部积分法时,GPT-4通过公式推导和分步骤指南说明,GPT-5用乘积法则逆运算概念简化解释并提供选择u和dv的技巧[57][58][59][64][65] - 模型从早期越讲越乱演进到能提供结构化教学建议,包括分步骤指导和实际例题演示[57][64] 专业咨询能力 - 针对赌博赢税咨询,GPT-3给出基础解释但缺乏具体步骤,GPT-4提供详细申报流程和税率说明,GPT-5进一步明确预扣税率24%及潜在32-37%联邦税率[74][75][78][80] - 在跑步习惯培养计划中,GPT-4提供8周结构化训练表,GPT-5细化到分钟级跑走间隔方案并加入力量训练建议[126][127][129][140][141] 医疗健康咨询 - 关于全身核磁共振筛查癌症,GPT-4列举成本高、资源有限和假阳性风险,GPT-5补充缺乏生存率改善证据及特定基因人群适用性[173][174][183][184][188] - 针对麻醉意识问题,GPT-5明确说明全身麻醉通过抑制神经活动消除意识,区别于自然睡眠[198][199] 食品安全咨询 - 在生肉食用风险解释中,GPT-5详细分析肉类类型风险差异(禽类最高)、细菌寄生虫种类,并提供内部烹饪温度指南[207][210][211][212][213]
李建忠:关于AI时代人机交互和智能体生态的研究和思考
AI科技大本营· 2025-08-18 09:50
大模型推理范式转换 - 主流模型从训练模型转向推理模型,OpenAI o1通过强化学习实现推理能力大幅提升,DeepSeek R1成为全球首个开源推理模型[9] - 推理模型具备"讲逻辑"的慢思考能力,强化学习推动AI进入"经验数据时代",突破人类知识边界[11][13] - 强化学习在测试时和强化学习阶段的Scaling Law叠加,推动模型性能持续攀升[14] - 主流SOTA模型内置Agent和Tool Use能力训练,向智能体模型迭代[16][18] 应用开发范式转换 - 软件开发从AI辅助编程(AI Copilot)转向非专业人士使用的"氛围编程"(Vibe Coding)[22] - 氛围编程将开创"可塑软件"新市场,允许用户通过自然语言对软件底座进行个性化定制[24][26][27] - 上下文工程取代提示词工程成为发挥推理模型能力的关键,需提供全面准确的上下文信息[29][32] 人机交互范式转换 - 自然语言对话界面将成为AI时代的主要交互入口,涵盖智能眼镜、汽车语音等多种形态[36][38][39] - 传统GUI应用将演变为API服务,由Agent直接调用,打破孤立App壁垒[43][45][47] - 生成式UI(GenUI)将取代传统GUI,专注于图形化呈现结果而非交互和数据收集[54] - 交互设备可能进入"多元设备"时代,不同场景使用不同专用设备而非单一中心化设备[59] 智能体生态演进 - 智能体平台需要规划、工具、协作、记忆、行动五大能力矩阵[64][66][67] - MCP协议成为智能时代HTTP协议,标准化智能体与传统软件的交互[66] - A2A协议支持智能体间拟人化协作,构建去中心化智能体网络[66][70] - 智能体执行时长将从秒级扩展到数小时甚至数年,采用伴随式异步交互模式[73][75] - 互联网将从"信息网络"重构为"行动网络",网站主要访问者变为智能体[67]