Workflow
一文读懂GPT-5的绝招,这是决定AI未来的隐形武器
36氪·2025-09-16 10:43

通用验证器的技术背景与需求 - 通用验证器被视为大模型能力提升的关键技术 旨在突破传统RLVR在开放性领域应用的局限性[2] - RLVR技术依赖二元奖励机制 在数学、编程等有标准答案的领域效果显著 但在医疗、教育、创意等主观领域表现不佳[2] - 通用验证器需具备多维度评估能力 将非结构化经验数据转化为有效学习信号 可能引发强化学习范式革新[2] 基于评分细则的验证器开发路径 - ScaleAI提出Rubrics as Rewards框架 通过"专家立法-模型释法-AI执法"三步构建多维评分体系[12][14] - RaR方法使Qwen2 5-7B模型在医疗领域得分从0 0818提升至0 3194 性能提升近四倍[21] - 在HealthBench-1k测试中 RaR相比Simple-Likert方法实现28%相对性能提升 接近需专家撰写参考答案的Reference-Likert方法效果[22] - 蚂蚁集团与浙江大学开发Rubicon系统 包含超10,000个评分标准 使用5,000+样本训练使Qwen-30B模型在开放式基准测试中实现5 2%绝对提升[27] - Rubicon通过否决机制、饱和度感知聚合和非线性函数解决奖励黑客问题和跷跷板效应 采用分阶段训练提升模型综合能力[28][30] 增强裁判模型的验证方法 - 阿里夸克团队提出Writing-Zero方法 通过强制生成批判性分析提升评分可靠性 解决传统奖励模型存在的Reward Hacking问题[36][38] - 采用BRPO算法进行成对比较偏好训练 在WritingBench测试集上达到8 29分 优于基准模型的6 89分[40][43] 基于模型自评的验证路径 - SEALab提出VeriFree方法 用模型自身对答案的自信度作为奖励信号 在Qwen3-8B测试中效果媲美传统强化学习方法[45][52] - UC Berkeley开发INTUITOR框架 通过自确定性指标实现无监督强化学习 在MATH500测试集达到61 2%准确率 接近GPRO的63 6%[55][59] - INTUITOR训练后的模型展现跨领域泛化能力 在LiveCodeBench代码任务上实现65%相对性能提升[60] 技术路径的局限性与发展方向 - 立法式验证方法依赖专家构建领域特定框架 扩展性存在挑战[24][69] - 内观式验证方法受限于预训练知识边界 无法验证未见过的外部事实[69] - Richard Sutton提出的OaK架构设想完全基于运行时经验的智能系统 通过8步循环实现自主认知构建[70][76] - 当前RaR的评分细则与INTUITOR的自信度指标分别对应OaK架构中子问题和价值函数的早期雏形[78]