卡帕西2025大模型总结火爆硅谷

文章核心观点 - 行业专家卡帕西认为，大模型的潜力仅被挖掘了10%，2025年将是AI技术范式、应用和交互方式发生关键变革的一年 [6][7] 大模型训练新范式：RLVR - 2025年，大模型训练范式从预训练、SFT、RLHF演进至RLVR（可验证奖励强化学习）阶段 [8][14] - RLVR使模型能在可自动验证的奖励环境中进行强化学习，自发形成复杂的推理策略（如问题分解、循环计算），这些策略在旧范式中极难实现 [8] - 与SFT和RLHF不同，RLVR涉及客观奖励函数训练，优化时间较长，但能带来更高的“能力/成本”比，并消耗原先用于预训练的计算资源 [10] - RLVR成为2025年大模型能力增长的重要驱动因素，在模型规模相当的前提下，强化学习的运行时间大幅延长 [11] - RLVR带来了新的调控手段和Scaling Law，可通过生成更长的推理轨迹和增加思考时间，来控制能力作为测试时间计算量的函数 [11] - 2024年末的o1模型是首个RLVR展示，而2025年初o3的发布是明显的拐点 [12] 对大模型智能本质的新认知 - 大模型的智能不应被简单类比为动物智能，其技术栈（神经架构、训练数据、训练算法、优化压力）的不同导致智能实体差异巨大 [13][16] - 人类神经网络为生存而优化，大模型神经网络则为模仿人类、获得奖励而优化 [17] - 随着RLVR在可验证领域的应用，大模型性能将快速爆发并呈现“锯齿状”特征，即“锯齿智能” [18] - “锯齿智能”模型既是通才，也存在认知局限，可能被越狱攻击导致数据泄漏 [19] - 基准测试因构建于可验证环境，极易受RLVR和合成数据影响，导致研发团队围绕基准测试优化，形成在测试集上训练的现象 [20][21] - 这解释了为何当前大模型能在基准测试中取得压倒性胜利，却仍未实现AGI [22] 应用层演进：Cursor与“Cursor for X” - Cursor的出现揭示了大模型应用的新层面，即“Cursor for X”，它不仅是模型接口，更是围绕模型调用构建的应用层 [23][24] - 该应用层能进行上下文工程、协调多个模型调用组成复杂DAG（需权衡性能与成本）、提供特定应用GUI、并带有自主性滑块 [24][30] - 行业在讨论新AI应用层的“厚度”，即其价值会被底层模型实验室榨干，还是为垂直领域应用开发者留下空间 [24] - 卡帕西预测，大模型实验室将趋向于培养“能力全面的大学毕业生”，而应用开发者则负责组织、微调，并让这支“学生团队”在特定行业（通过引入私有数据、传感器、执行器及反馈闭环）中成为可部署、可交付成果的专业人才 [24] 智能体发展：Claude Code加速端侧普及 - Claude Code是首个令人信服的大模型智能体范例，它采用循环方式结合工具使用与推理以解决复杂问题 [26][27] - 其关键优势在于能在个人电脑上运行，充分利用用户的私有环境、数据和上下文 [27] - 与OpenAI将精力集中于由ChatGPT编排的云部署容器不同，Claude Code专注于端侧部署 [28] - 尽管云端智能体集群被视为AGI的终极形态，但当前大模型能力参差不齐，发展处于缓慢过渡阶段 [29] - 在此现实下，Claude Code让智能体本地运行、适配开发者工作流，更贴合实际需求，并以美观简约的命令行界面改变了人们对AI的传统认知，使其如同栖息在个人电脑中的小精灵 [32][33] 编程范式变革：Vibe Coding - 2025年，AI跨越能力门槛，可通过自然语言构建程序，即“氛围编程” [34] - 氛围编程使编程不再局限于专业人士，任何人都能参与，专业人士也能借此编写更多有意思的软件 [37] - 例如，卡帕西在nanochat项目中，就用氛围编程的方式在Rust语言中编写了定制的高效BPE分词器，而无需采用现有库或学习更多Rust知识 [37] - 氛围编程将重塑软件行业并改变现有的工作内容 [38] 人机交互新范式：Nano Banana - 谷歌的Gemini Nano Banana是2025年最令人惊讶、最具范式转移意义的模型之一 [40] - 大模型被视为继计算机时代后的下一个主要计算范式，尤其在用户界面和用户体验方面与计算机有相似性 [42] - 由于人们喜欢以视觉和空间方式获取信息，大模型也应提供类似格式，对文本进行美化和视觉排版 [43] - Nano Banana展现了这一趋势，它并非只关注图像生成，而是将文本生成、图像生成和世界知识融合在一起，为未来大模型GUI发展提供了参考 [43]