Karpathy 2025 年度盘点:o3 是真正拐点,Cursor 证明了应用层比我们想象的要厚
Founder Park·2025-12-20 08:59

文章核心观点 - 2025年是大语言模型发展令人兴奋的一年,行业远未实现其10%的潜力,仍有大量工作要做,将持续快速进步[2][4][6] - 大语言模型作为一种全新的智能形态浮现,其智能“形状”与生物智能截然不同,需要用全新的心智模型来理解[3][22] - 2025年行业经历了多个重塑格局的“范式转变”[7] 2025年大模型训练范式的转变 - 2025年初,行业训练大模型的标准流程为预训练、监督微调和基于人类反馈的强化学习[11] - 可验证奖励的强化学习在2025年成为训练流水线上的新主力环节[12] - RLVR的核心是让模型在答案可自动验证的环境中训练,促使模型自发学会思考,将复杂问题拆解为中间步骤[14] - RLVR训练对象是客观的奖励函数,模型无法投机取巧,可进行更长时间优化,性价比极高,吞噬了原本留给预训练的算力[16] - 2025年模型能力的提升主要源于消化RLVR带来的红利,而非参数规模增长[17] - RLVR带来了新的调节旋钮,通过生成更长的推理链条、增加“思考时间”,可在推理阶段用更多算力换取更强能力[19] - OpenAI的o1是RLVR模型的首次亮相,而o3则让人直观感受到质变[21] 对大模型智能本质的新认知 - 大语言模型的智能与生物智能不同,其神经网络架构、训练数据、算法及优化目标均不同,是在智能空间中截然不同的实体[22] - 大语言模型智能在可验证领域附近的能力会尖峰式飙升,整体呈现出参差不齐的特征[22] - 人类智能同样参差不齐,只是“形状”不同[24] - 2025年对基准测试产生了普遍的冷感与不信任,因其是可验证环境,易被RLVR或合成数据攻克,在测试集上训练已成为一门新艺术[25] 应用层的新机遇与产品形态 - Cursor的火箭般增长证明了在基础大模型之上,存在一个厚实且充满机遇的“应用层”[9][28] - 像Cursor这样的应用会针对特定垂直领域打包和编排大模型调用[30] - 大模型实验室倾向于培养能力全面的“毕业生”,而大模型应用则通过组织、微调并结合私有数据、传感器等,将其培训成特定领域的“专业人士”[30] - 这些应用负责上下文工程,编排多次大模型调用串联成有向无环图,提供特定图形界面及自主性滑块[32] - Claude Code首次令人信服地展示了大模型智能体的面貌,以循环方式串联工具调用与推理进行持续问题求解[9][34] - Claude Code运行在用户本地电脑,使用私有环境、数据和上下文,是一种与AI交互的全新范式,使其成为一个“住在电脑里的小精灵”[34][37] AI编程能力的范式转变 - 2025年是AI编程能力跨越关键门槛的一年[9] - “氛围编程”使人们可以纯用英语生成程序,将从根本上重塑整个软件行业,彻底改变软件工程师的工作方式[9][38] - 编程不再是高度训练专业人士的专属,普通人从大模型中获得的收益远超专业人士、企业和政府[40] - 氛围编程也让专业人士能写出大量原本不会被写出的软件,代码变得免费、短命、可塑、用完即弃[40] 大模型交互界面的未来可能 - Google Gemini Nano Banana是2025年最令人惊叹、最具范式转变意义的模型之一,给未来大模型图形化交互带来了可能[9][42] - 与LLM的文本聊天类似于1980年代在计算机控制台上敲命令,文本并非人类偏爱的格式[42] - 大模型应该用人类偏爱的格式交流,如图像、信息图表、幻灯片、白板、动画视频、Web应用等[44] - Nano Banana是一个早期雏形,其重要性在于文本生成、图像生成和世界知识三者融合在模型权重中所产生的联合能力[46]