Reinforcement Learning with Verifiable Rewards (RLVR)
搜索文档
Andrej Karpathy年度复盘:AI大模型正在演变成一种新型智能,今年出现6个关键拐点
华尔街见闻· 2025-12-20 04:41
文章核心观点 - 2025年是大型语言模型领域蓬勃发展的关键一年,出现了六个改变行业格局的“范式转变”拐点,揭示了LLM正在演变成一种全新的智能形态 [1][3] - LLM展现出独特的“锯齿状”智能特征,既是博学的天才,又像思维混乱的小学生,其潜力目前实现尚不足10%,预计未来将持续飞速进展 [1][3] - 从训练范式、智能形态到应用层、交互界面,LLM技术栈的各个层面均发生根本性变革,标志着AI应用进入新的发展阶段 [3] 技术范式转变 - **拐点一:基于可验证奖励的强化学习成为训练新阶段**:传统的LLM生产流程(预训练、指令微调、基于人类反馈的强化学习)被改变,基于可验证奖励的强化学习成为新阶段 [4][5] - RLVR通过在数学题、代码谜题等可自动验证的环境中训练,使LLM自发演化出类似“推理”的策略,如将问题拆解为中间步骤并掌握多种解决方法 [5] - 与指令微调和基于人类反馈的强化学习不同,RLVR针对客观且不可作弊的奖励函数,允许更长周期的优化,具有极高的“能力/成本比” [5] - 2025年大部分能力提升源于各实验室将原本用于预训练的算力转向消化RLVR这一新阶段的“算力积压” [5] - OpenAI o3的发布是真正的拐点,RLVR带来了通过增加“思考时间”来控制推理能力的新调节旋钮 [6] LLM智能形态认知 - **拐点二:“幽灵智能”展现锯齿状性能特征**:业界开始理解LLM是一种与生物智能完全不同的全新智能实体,其神经架构、训练数据、算法和优化压力均不同 [7] - LLM展现出“锯齿状”性能特征:在可验证领域附近能力“激增”,但整体表现极不均衡,既是博学天才,又可能被简单提示词破解 [3][7] - 这种现象导致对基准测试产生信任危机,因为基准测试本质是可验证环境,极易受到RLVR攻击,“面向测试集训练”成为新艺术形式 [7] 应用层与交互范式革新 - **拐点三:Cursor引领新一代LLM应用层崛起**:Cursor的成功揭示了“LLM应用”的全新层级,标志着垂直领域LLM应用的兴起 [8] - 此类LLM应用为特定垂直领域封装并编排LLM调用,核心功能包括处理上下文工程、编排多个LLM调用串联成复杂有向无环图、提供特定图形界面以及提供“自主程度调节滑块” [8] - LLM实验室倾向于培养通用能力的“大学生”,而LLM应用则通过提供私有数据、传感器、执行器和反馈闭环,将这些“大学生”组织成特定领域的专业从业者 [8] - **拐点四:Claude Code开创本地AI智能体新范式**:Claude Code成为LLM智能体的首次令人信服展示,它以循环方式串联工具调用和推理进行长时间问题解决,且运行在用户电脑上,使用私有环境、数据和上下文 [9] - 这种本地化、个性化的AI交互范式改变了AI的样貌,使其从被动访问的网站变为“住”在电脑里的灵体,强调了隐私保护和个性化体验的重要性 [9] - **拐点五:Vibe Coding让编程能力普及化**:2025年AI跨越关键能力阈值,使人们仅凭英语就能构建复杂程序,“Vibe Coding”概念的流行标志着编程门槛的彻底降低 [10] - 编程不再是专业人士专利,普通人从LLM中获益远超专业人士、企业和政府,代码变得免费、瞬时、可塑,用完即弃,将重塑软件生态并让创意实现的成本接近零 [11] - **拐点六:Nano Banana开启LLM图形界面时代**:谷歌Gemini Nano Banana被称为2025年最震撼、最具范式转移意义的模型,预示着LLM交互界面的根本变革 [12] - 文本并非人类偏好的信息消费格式,真正的“LLM GUI”需要以人类偏好的图像、信息图、幻灯片、白板、动画视频、网页应用等方式进行交流 [12] - Nano Banana的显著特征不仅是图像生成,更是文本生成、图像生成和世界知识在模型权重中的交织融合,提供了多模态融合能力的早期雏形 [12]