卡帕西2025大模型总结火爆硅谷
量子位·2025-12-20 04:20

文章核心观点 - 行业专家卡帕西认为,大模型的潜力仅被挖掘了10%,2025年将是AI技术范式、应用和交互方式发生关键变革的一年 [6][7] 大模型训练新范式:RLVR - 2025年,大模型训练范式从预训练、SFT、RLHF演进至RLVR(可验证奖励强化学习)阶段 [8][14] - RLVR使模型能在可自动验证的奖励环境中进行强化学习,自发形成复杂的推理策略(如问题分解、循环计算),这些策略在旧范式中极难实现 [8] - 与SFT和RLHF不同,RLVR涉及客观奖励函数训练,优化时间较长,但能带来更高的“能力/成本”比,并消耗原先用于预训练的计算资源 [10] - RLVR成为2025年大模型能力增长的重要驱动因素,在模型规模相当的前提下,强化学习的运行时间大幅延长 [11] - RLVR带来了新的调控手段和Scaling Law,可通过生成更长的推理轨迹和增加思考时间,来控制能力作为测试时间计算量的函数 [11] - 2024年末的o1模型是首个RLVR展示,而2025年初o3的发布是明显的拐点 [12] 对大模型智能本质的新认知 - 大模型的智能不应被简单类比为动物智能,其技术栈(神经架构、训练数据、训练算法、优化压力)的不同导致智能实体差异巨大 [13][16] - 人类神经网络为生存而优化,大模型神经网络则为模仿人类、获得奖励而优化 [17] - 随着RLVR在可验证领域的应用,大模型性能将快速爆发并呈现“锯齿状”特征,即“锯齿智能” [18] - “锯齿智能”模型既是通才,也存在认知局限,可能被越狱攻击导致数据泄漏 [19] - 基准测试因构建于可验证环境,极易受RLVR和合成数据影响,导致研发团队围绕基准测试优化,形成在测试集上训练的现象 [20][21] - 这解释了为何当前大模型能在基准测试中取得压倒性胜利,却仍未实现AGI [22] 应用层演进:Cursor与“Cursor for X” - Cursor的出现揭示了大模型应用的新层面,即“Cursor for X”,它不仅是模型接口,更是围绕模型调用构建的应用层 [23][24] - 该应用层能进行上下文工程、协调多个模型调用组成复杂DAG(需权衡性能与成本)、提供特定应用GUI、并带有自主性滑块 [24][30] - 行业在讨论新AI应用层的“厚度”,即其价值会被底层模型实验室榨干,还是为垂直领域应用开发者留下空间 [24] - 卡帕西预测,大模型实验室将趋向于培养“能力全面的大学毕业生”,而应用开发者则负责组织、微调,并让这支“学生团队”在特定行业(通过引入私有数据、传感器、执行器及反馈闭环)中成为可部署、可交付成果的专业人才 [24] 智能体发展:Claude Code加速端侧普及 - Claude Code是首个令人信服的大模型智能体范例,它采用循环方式结合工具使用与推理以解决复杂问题 [26][27] - 其关键优势在于能在个人电脑上运行,充分利用用户的私有环境、数据和上下文 [27] - 与OpenAI将精力集中于由ChatGPT编排的云部署容器不同,Claude Code专注于端侧部署 [28] - 尽管云端智能体集群被视为AGI的终极形态,但当前大模型能力参差不齐,发展处于缓慢过渡阶段 [29] - 在此现实下,Claude Code让智能体本地运行、适配开发者工作流,更贴合实际需求,并以美观简约的命令行界面改变了人们对AI的传统认知,使其如同栖息在个人电脑中的小精灵 [32][33] 编程范式变革:Vibe Coding - 2025年,AI跨越能力门槛,可通过自然语言构建程序,即“氛围编程” [34] - 氛围编程使编程不再局限于专业人士,任何人都能参与,专业人士也能借此编写更多有意思的软件 [37] - 例如,卡帕西在nanochat项目中,就用氛围编程的方式在Rust语言中编写了定制的高效BPE分词器,而无需采用现有库或学习更多Rust知识 [37] - 氛围编程将重塑软件行业并改变现有的工作内容 [38] 人机交互新范式:Nano Banana - 谷歌的Gemini Nano Banana是2025年最令人惊讶、最具范式转移意义的模型之一 [40] - 大模型被视为继计算机时代后的下一个主要计算范式,尤其在用户界面和用户体验方面与计算机有相似性 [42] - 由于人们喜欢以视觉和空间方式获取信息,大模型也应提供类似格式,对文本进行美化和视觉排版 [43] - Nano Banana展现了这一趋势,它并非只关注图像生成,而是将文本生成、图像生成和世界知识融合在一起,为未来大模型GUI发展提供了参考 [43]