大模型的2025:6个关键洞察
36氪·2025-12-23 11:39

行业核心范式转移 - 2025年标志着AI训练哲学从单纯的“概率模仿”向“逻辑推理”的决定性跨越 [1] - 这一转变的核心动力源于可验证奖励强化学习(RLVR)的成熟,它通过数学与代码等客观反馈环境,迫使模型自发生成类似于人类思维的“推理痕迹” [1] - 长周期的强化学习已经开始蚕食传统的预训练份额,成为提升模型能力的新引擎 [1] 技术路径:可验证奖励强化学习(RLVR) - 基于可验证奖励的强化学习在2025年脱颖而出,成为大语言模型生产堆栈中事实上的核心新阶段 [4] - 通过在数学、代码谜题等大量可自动验证奖励的环境中训练,模型会自发形成人类视角下近似“推理”的策略,学会将复杂问题拆解为中间计算步骤 [4] - 与监督微调、基于人类反馈的强化学习等计算量相对较小的微调阶段不同,RLVR针对客观奖励函数开展训练,支持更长周期的优化过程 [4] - RLVR具备极高的“能力/成本比”,甚至占用了原本用于预训练的大量计算资源,2025年大语言模型能力的提升主要源于各实验室对这一新阶段“存量潜力”的挖掘 [5] - 2025年模型参数规模未发生显著变化,但强化学习训练的周期大幅延长 [5] - RLVR带来了全新的调节维度:通过生成更长的推理轨迹、增加模型“思考时间”,可灵活调控测试阶段的计算量,进而实现能力提升 [5] - OpenAI在2024年底推出的o1模型是RLVR技术的首次公开亮相,而2025年初o3模型的发布成为明确的拐点,使人们能直观感受到大语言模型能力的质性飞跃 [5] 智能本质与性能特征 - 大语言模型是智能空间中一类全新的实体,其技术栈的所有组成部分都与生物智能的演化逻辑截然不同,可比喻为“被召唤出的幽灵”而非“逐步进化成长的动物” [6] - 随着RLVR在可验证领域的普及,大语言模型在这些特定领域的能力会出现“爆发式增长”,整体呈现出“锯齿状性能特征”:既是精通多领域的天才博学家,也可能在基础常识上存在认知缺陷 [8] - 2025年对各类基准测试(Benchmarks)彻底失去了兴趣与信任,因为基准测试极易被RLVR训练或合成数据生成等方式“攻击”,“针对测试集进行定向训练”已成为一种新型技术操作 [8] 应用层演进:垂直整合与智能体 - 像Cursor这样的大语言模型应用,揭示了一个全新层级,核心价值在于为特定垂直领域整合并编排大语言模型调用逻辑 [9] - 具体体现在处理“上下文工程”、将多个大语言模型调用编排为有向无环图(DAG)、为“人机回圈”提供适配的图形用户界面、提供可调节的“自主权滑块” [9] - 行业讨论围绕大语言模型实验室是否会通吃所有应用场景,观点是大语言模型实验室培育“通识能力极强的大学生”式模型,而大语言模型应用则通过整合私有数据、传感器、执行器及反馈闭环,驱动它们成为特定垂直领域的“专业团队” [9] - Claude Code(CC)的问世令人信服地展现了大语言模型智能体(Agent)的核心能力,能够以循环方式串联工具使用与推理过程,完成长时间跨度的问题求解 [10] - CC的显著特点是其本地化运行模式:直接部署在用户电脑中,可访问本地私有环境、数据与上下文,这比云端运行的智能体集群在当前更具实用价值 [10] - Anthropic将CC封装为极简的命令行界面(CLI)形式,重塑了AI的用户认知,使其成为“栖息”在用户电脑中的智能实体,标志着一种全新的AI交互范式诞生 [11] 开发范式变革:氛围编程 - 2025年,AI突破了关键能力阈值,使得人们仅凭自然英语就能构建各类功能强大的程序,即“氛围编程” [12] - 氛围编程让编程不再是高训练门槛的专业技能,成为普通人也能掌握的通用能力,普通人从大语言模型中获得的收益超过专业人士、企业与政府 [12] - 氛围编程让专业开发者能够高效实现原本因技术门槛或成本问题不会尝试的软件项目,代码变得廉价、即时、可塑,支持“用完即弃”的轻量化使用场景 [13] - 氛围编程将彻底改造软件开发生态,并重新定义相关职业的核心价值 [13] 交互界面演进:大语言模型图形界面(LLM GUI) - 与大语言模型的“文本对话交互”类似20世纪80年代向电脑终端输入指令的操作模式,并非人类最易接受的交互形式 [14] - 人类更倾向于通过视觉化、空间化的方式获取信息,因此大语言模型也应采用人类偏好的格式进行交互——通过图像、信息图、幻灯片、白板、动画/视频、网页应用等可视化形态 [14] - 谷歌Gemini Nano Banana是2025年最具突破性、最可能引发范式转移的模型之一,是未来“大语言模型图形界面”的早期雏形 [14][15] - 其核心价值不仅在于图像生成能力本身,而在于模型权重中深度融合的文本生成、图像生成与世界知识的联合建模能力 [15] 行业现状与未来展望 - 当前的大语言模型既展现出远超预期的智能水平,也存在令人意外的认知短板,但已具备极高的实用价值 [15] - 即便以当前的能力水平,整个行业对大语言模型潜力的开发仍不足10% [2][15] - 该领域仍有无数创新想法等待探索,从概念层面来看,发展空间依然极为广阔 [15] - 随着RLVR等技术的普及,2026年的AI竞争将不再局限于算力的军备竞赛,而是转向对“如何让AI高效思考”这一核心逻辑范式的深度挖掘 [2]