大模型的2025:6个关键洞察
腾讯研究院·2025-12-23 08:33

文章核心观点 - 2025年标志着大语言模型训练哲学从“概率模仿”向“逻辑推理”的决定性跨越,其核心驱动力是基于可验证奖励的强化学习的成熟[2] - 行业对大语言模型潜力的挖掘尚不足10%,正处于从“模拟人类智能”向“纯粹机器智能”跨越的临界点,未来竞争将转向对核心逻辑范式的深度挖掘[3][4][25] 基于可验证奖励的强化学习 - 基于可验证奖励的强化学习在2025年脱颖而出,成为大语言模型生产堆栈中事实上的核心新阶段,它通过在数学、代码等可自动验证奖励的环境中训练,迫使模型自发形成近似人类“推理”的策略[6][7] - 该技术具备极高的“能力/成本比”,占用了原本用于预训练的大量计算资源,成为2025年模型能力提升的主要来源,模型参数规模未显著变化,但强化学习训练周期大幅延长[8] - OpenAI的o1模型是该技术的首次公开亮相,而2025年初o3模型的发布成为直观感受模型能力质性飞跃的明确拐点[9] 智能的本质与性能特征 - 大语言模型的智能形态本质被比喻为“被召唤出的幽灵”,而非“逐步进化成长的动物”,其优化目标与生物智能演化逻辑截然不同[10][11] - 在可验证奖励强化学习的驱动下,模型能力呈现“锯齿状性能特征”:在特定领域能力“爆发式增长”,表现如天才博学家,但在基础常识上可能脆弱如孩童,甚至可能被“越狱指令”诱导[12] - 2025年行业对各类基准测试失去兴趣与信任,因为其构建逻辑基于“可验证环境”,极易被针对性训练“攻击”,“针对测试集进行定向训练”已成为一种新型技术操作[12][13] 应用层的新范式与竞争格局 - Cursor的爆发式增长揭示了大语言模型应用的一个全新层级,其核心价值在于为特定垂直领域整合并编排大语言模型调用逻辑,包括处理上下文工程、编排复杂调用、提供人机回圈界面及自主权控制[14][15] - 行业围绕该应用层的“厚度”展开讨论:大语言模型实验室倾向于培育“通识能力极强的大学生”式模型,而垂直应用则通过整合私有数据、传感器等,将这些模型组织成特定领域的“专业团队”[15] 本地化智能体的实用化趋势 - Claude Code的问世令人信服地展现了大语言模型智能体的核心能力,其关键特点是本地化运行模式,可直接访问用户电脑的本地环境、私有数据与上下文[16][17] - 核心差异并非运算位置,而是对已启动设备、预装环境、本地上下文、私有数据及低延迟交互的利用,这重塑了AI的用户认知,使其从需要主动访问的网站转变为“栖息”在用户电脑中的智能实体,标志一种全新交互范式的诞生[18] 氛围编程的兴起与影响 - 2025年,AI突破关键能力阈值,使得“氛围编程”兴起,普通人仅凭自然英语就能构建功能强大的程序,编程成为通用能力[19][20] - 大语言模型正在逆转技术普及的传统逻辑,普通人从中获得的收益超过专业人士、企业与政府,氛围编程让代码变得廉价、即时、可塑,支持“用完即弃”的轻量化使用场景,将彻底改造软件开发生态并重新定义相关职业的核心价值[20][21] 大语言模型图形界面的演进 - 与大语言模型的“文本对话交互”类似20世纪80年代的电脑终端指令模式,并非人类最易接受的交互形式,人类更倾向于通过视觉化、空间化的方式获取信息[23][24] - 大语言模型应采用人类偏好的格式进行交互,如图像、信息图、幻灯片等可视化形态,谷歌Gemini Nano Banana是未来“大语言模型图形界面”的早期雏形,其核心价值在于文本生成、图像生成与世界知识的联合建模能力[24]