Workflow
验证非对称性
icon
搜索文档
上海AI Lab、浙大EagleLab等提出RRVF:利用「验证非对称性」,只输入图片学习视觉推理
机器之心· 2025-08-09 03:59
验证非对称性与AI任务解决 - 验证非对称性(Asymmetry of Verification)的核心思想是:验证一个解的好坏远比从头创造一个解容易得多 [3] - 验证者法则(Verifier's Law)断言:所有可能被解决且易于验证的任务都将被AI解决 [3] - 具备客观真理、可快速验证、可规模化验证、低噪音、连续奖励等特性的任务为强化学习创造了完美训练场 [3] RRVF框架与多模态应用 - RRVF(Reasoning-Rendering-Visual-Feedback)框架利用验证的非对称性攻克复杂视觉推理难题 [4] - 框架构建端到端优化的闭环系统,通过推理、渲染、视觉反馈实现模型自我纠正学习 [9] - 相比传统依赖昂贵「图像-文本」配对数据的方法,RRVF无需教模型「怎么做」,而是构建自我验证环境 [7][9] RRVF工作流程 - 迭代式视觉推理:模型在<think>中写下思考过程,调用外部工具渲染并获取反馈,后续轮次修正代码 [11] - 视觉反馈:视觉裁判模型(72B Qwen2.5-VL)对比渲染图与原图,生成结构化自然语言反馈指导修正 [12] - 混合奖励函数:包含视觉相似度奖励(R_vision)、格式正确性奖励(R_format)、工具使用奖励(R_tool) [14][16] - GRPO算法优化:通过对8个候选答案比较打分直接优化策略,无需独立价值函数 [15] 实验结果与性能表现 - 在ChartMimic数据集上,RRVF代码执行率达97 83%,远超传统监督微调(SFT)的69 00% [21] - 7B模型综合得分64 36,超越为其提供反馈的72B模型(47 30) [22] - 零样本测试中,RRVF在未训练的Plot2Code数据集上执行率稳定在96 21%,而SFT模型从69%暴跌至49% [23] - 在CLIP Score和GPT Score指标上,RRVF分别达到88 29和91 50,接近顶级闭源模型水平 [20] 验证者法则的实践意义 - RRVF证明通过设计高效验证环境,小模型可超越大模型表现 [22] - 视觉反馈学习使模型掌握可迁移的底层视觉到代码生成逻辑,而非死记硬背 [21][23] - AI发展瓶颈可能在于能否将复杂问题转化为易于验证的问题,而非模型规模 [23]