Reinforcement Learning with Verifiable Rewards (RLVR) - 财报，业绩电话会，研报，新闻

Reinforcement Learning with Verifiable Rewards (RLVR)

搜索文档

Andrej Karpathy年度复盘：AI大模型正在演变成一种新型智能，今年出现6个关键拐点

华尔街见闻· 2025-12-20 04:41

文章核心观点 - 2025年是大型语言模型领域蓬勃发展的关键一年，出现了六个改变行业格局的“范式转变”拐点，揭示了LLM正在演变成一种全新的智能形态 [1][3] - LLM展现出独特的“锯齿状”智能特征，既是博学的天才，又像思维混乱的小学生，其潜力目前实现尚不足10%，预计未来将持续飞速进展 [1][3] - 从训练范式、智能形态到应用层、交互界面，LLM技术栈的各个层面均发生根本性变革，标志着AI应用进入新的发展阶段 [3] 技术范式转变 - **拐点一：基于可验证奖励的强化学习成为训练新阶段**：传统的LLM生产流程（预训练、指令微调、基于人类反馈的强化学习）被改变，基于可验证奖励的强化学习成为新阶段 [4][5] - RLVR通过在数学题、代码谜题等可自动验证的环境中训练，使LLM自发演化出类似“推理”的策略，如将问题拆解为中间步骤并掌握多种解决方法 [5] - 与指令微调和基于人类反馈的强化学习不同，RLVR针对客观且不可作弊的奖励函数，允许更长周期的优化，具有极高的“能力/成本比” [5] - 2025年大部分能力提升源于各实验室将原本用于预训练的算力转向消化RLVR这一新阶段的“算力积压” [5] - OpenAI o3的发布是真正的拐点，RLVR带来了通过增加“思考时间”来控制推理能力的新调节旋钮 [6] LLM智能形态认知 - **拐点二：“幽灵智能”展现锯齿状性能特征**：业界开始理解LLM是一种与生物智能完全不同的全新智能实体，其神经架构、训练数据、算法和优化压力均不同 [7] - LLM展现出“锯齿状”性能特征：在可验证领域附近能力“激增”，但整体表现极不均衡，既是博学天才，又可能被简单提示词破解 [3][7] - 这种现象导致对基准测试产生信任危机，因为基准测试本质是可验证环境，极易受到RLVR攻击，“面向测试集训练”成为新艺术形式 [7] 应用层与交互范式革新 - **拐点三：Cursor引领新一代LLM应用层崛起**：Cursor的成功揭示了“LLM应用”的全新层级，标志着垂直领域LLM应用的兴起 [8] - 此类LLM应用为特定垂直领域封装并编排LLM调用，核心功能包括处理上下文工程、编排多个LLM调用串联成复杂有向无环图、提供特定图形界面以及提供“自主程度调节滑块” [8] - LLM实验室倾向于培养通用能力的“大学生”，而LLM应用则通过提供私有数据、传感器、执行器和反馈闭环，将这些“大学生”组织成特定领域的专业从业者 [8] - **拐点四：Claude Code开创本地AI智能体新范式**：Claude Code成为LLM智能体的首次令人信服展示，它以循环方式串联工具调用和推理进行长时间问题解决，且运行在用户电脑上，使用私有环境、数据和上下文 [9] - 这种本地化、个性化的AI交互范式改变了AI的样貌，使其从被动访问的网站变为“住”在电脑里的灵体，强调了隐私保护和个性化体验的重要性 [9] - **拐点五：Vibe Coding让编程能力普及化**：2025年AI跨越关键能力阈值，使人们仅凭英语就能构建复杂程序，“Vibe Coding”概念的流行标志着编程门槛的彻底降低 [10] - 编程不再是专业人士专利，普通人从LLM中获益远超专业人士、企业和政府，代码变得免费、瞬时、可塑，用完即弃，将重塑软件生态并让创意实现的成本接近零 [11] - **拐点六：Nano Banana开启LLM图形界面时代**：谷歌Gemini Nano Banana被称为2025年最震撼、最具范式转移意义的模型，预示着LLM交互界面的根本变革 [12] - 文本并非人类偏好的信息消费格式，真正的“LLM GUI”需要以人类偏好的图像、信息图、幻灯片、白板、动画视频、网页应用等方式进行交流 [12] - Nano Banana的显著特征不仅是图像生成，更是文本生成、图像生成和世界知识在模型权重中的交织融合，提供了多模态融合能力的早期雏形 [12]

Artificial Intelligence

Large Language Model (LLM)

Reinforcement Learning with Verifiable Rewards (RLVR)

Vibe Coding

Artificial Intelligence

DeepSeek R1

Artificial Intelligence

Large Language Model (LLM)

Reinforcement Learning with Verifiable Rewards (RLVR)

Vibe Coding

Artificial Intelligence

DeepSeek R1