近两百万人围观的Karpathy年终大语言模型清单，主角是它们

2025年大语言模型（LLM）发展的核心观点 - 2025年是大语言模型快速演进、重磅事件密集出现的一年，行业格局发生了真正的改变[2][6] - 大语言模型正在显现出一种全新的智能形态，其既比预期的聪明得多，又比预期的愚蠢得多[37] - 大语言模型已经极其有用，但行业甚至还没有发挥出它们10%的潜力[38] 可验证奖励强化学习（RLVR）成为新标配 - 2025年初，几乎所有实验室的LLM生产训练流程都包含预训练、监督微调（SFT）和基于人类反馈的强化学习（RLHF）[8][9] - 2025年，一种新的训练阶段——可验证奖励强化学习（RLVR）——浮出水面并迅速成为事实上的标配[10] - RLVR的核心是让模型在可自动验证的环境中接受强化学习训练，模型能自发学会类似“推理”的策略，如将复杂问题拆解成中间步骤并逐步逼近答案[10] - 与SFT或RLHF这类“计算量相对较小的薄层微调”不同，RLVR使用客观、难以被投机取巧的奖励函数，使得训练可以持续非常久[10] - RLVR提供了极高的能力/成本比，大量吞噬了原本准备用于预训练的算力[10] - 2025年的大部分能力提升，并非来自模型规模的暴涨，而是来自相似规模模型加上更长时间的强化学习训练[11] - RLVR带来了新的“旋钮”：通过在推理时生成更长的思考链条、投入更多测试时算力，模型能力可以继续提升，并呈现出新的扩展定律[11] - OpenAI的o1是第一个明确展示RLVR思路的模型，而2025年初的o3则是让人直观感受到质变拐点的版本[12] 对LLM智能“锯齿状”分布的新认知 - 2025年，行业第一次真正直觉性地理解了LLM智能的“形状”，认识到其与人类智能的优化目标完全不同[14] - 大语言模型的智能被描述为“锯齿状”明显的能力分布：它们可以在某些可验证领域表现得像博学的天才，同时在另一些地方像困惑的小学生，甚至容易被攻击[14] - 这种“锯齿状”智能也解释了为何在2025年对基准测试普遍不当回事与不信任，因为基准测试本质上是可验证环境，天然容易被RLVR或“合成数据训练”所攻破[15] - 模型团队往往会在基准所在的嵌入空间附近“培育能力突起”，把能力尖刺精准地长到测试点上，“在测试集上训练”已经演变成了一门艺术[15] Cursor揭示LLM应用新范式 - Cursor在2025年的爆发清晰地揭示了一种全新的LLM应用层[16] - 像Cursor这样的LLM应用，本质是在为特定垂直领域打包和编排LLM能力，引发了关于“这一层会有多厚”的大量讨论[17] - 基础模型会趋向于“一个通用能力很强的大学毕业生”，而真正把他们组织成专业团队、在具体行业中落地的会是应用层，通过私有数据、传感器、执行器和反馈回路将模型组织并投入实际工作流程[17] - 应用层的关键功能包括：上下文工程、在后台编排多次LLM调用形成复杂的有向无环图、提供面向人的领域专用图形用户界面、提供“自主性滑块”[18] Claude Code定义本地化智能体新形态 - Claude Code被认为是第一个“真正的LLM智能体”，它以循环方式将推理与工具调用串联起来，能持续解决长任务[19] - 更重要的是，它运行在用户的本地电脑上，直接使用用户的环境、数据和上下文[20] - 在一个能力锯齿、起飞缓慢的世界里，更合理的顺序是先让智能体成为开发者身边的伙伴，Claude Code用一个极其优雅、极简、极具说服力的命令行界面形态呈现了这一点[20][21] - 这代表AI不再只是一个访问的网站，而是一个住在电脑里的伙伴，是一次全新的交互范式转变[22][23] “氛围编程”重塑软件开发 - 2025年，AI跨过了关键门槛，使得人们可以只用英语构建复杂程序，甚至忘记代码本身的存在，这被称为“氛围编程”[24][25] - “氛围编程”让编程不再只是专业工程师的专利，同时也让专业工程师可以写出大量原本永远不会被写出来的软件[27] - 代码变得不值钱、短暂存在、并可随意改写与丢弃，这正在重塑软件形态和工作角色[28][29] Nano Banana预示LLM的图形用户界面未来 - Google Gemini的“Nano Banana”是2025年最令人震撼的模型之一，它被视为构建真正LLM图形用户界面的一个早期但重要的信号[31][33] - 其意义不只在于图像生成，而在于文本、图像与世界知识在同一模型中深度纠缠[34] - 在UI/UX层面，“聊天”就像80年代的命令行，而人们更喜欢视觉化、空间化的信息，因此LLM应该用人类偏好的形式（如图片、信息图、幻灯片）进行交流[32][33]