Workflow
自适应思考
icon
搜索文档
DeepSeek、GPT-5都在尝试的快慢思考切换,有了更智能版本,还是多模态
机器之心· 2025-09-01 06:46
研究背景与问题 - 当前业界顶尖大模型面临"过度思考"难题,采用始终开启的详细推理模式,无论问题简单与否[3] - 现有解决方案如DeepSeek-V3.1需要用户手动介入快慢思考切换,GPT-5依赖庞大高成本的专家路由机制,距离真正智能思考仍有距离[3] - 这些方案或将判断压力转移给用户,或受限于复杂系统架构和高昂部署成本[3] 技术突破 - 腾讯混元团队与中科院自动化所合作研发R-4B多模态大模型,通过自适应思考(auto-thinking)机制实现智能思维模式切换[5] - 模型采用4.82B参数规模,基于Qwen3-4B语言模型和SigLip-400M视觉模型[11] - 在OpenCompass多模态学术榜单20B以内规模模型中性能排名第一,平均得分75.5[10][11] - 超越多个更大规模模型,包括InternVL3-14B(15.1B参数,得分75.2)和Kimi-VL-A3B-Thinking-2506(16.48B参数,得分74.3)[7][11] 核心创新 - 采用双模退火(bi-mode annealing)训练策略,使模型同时掌握思考与非思考能力[16] - 开发双模策略优化(BPO)强化学习算法,仅依赖基于规则的奖励信号,无需精心设计的奖励函数或特定数据[18] - 通过混合双模rollout机制,强制模型在训练中同时探索思考模式和非思考模式轨迹,避免单一模式偏好[18] - 模型能自动判别问题复杂度:简单问题直接响应,复杂任务自动切换到深度思考模式[21] 性能表现 - 在多项基准测试中表现卓越:MMMUval得分68.1,MMStar得分73.1,MMBenchV1.1-ENdev得分84.9[25] - 在推理效率方面实现提升,简单任务下无需消耗更多Token[25] - 在OpenCompass多模态推理榜单开源模型中位列第一,得分57.6[12] - 超越GPT-5-nano-20250807(60.7分)和Gemini-2.0-Pro(56.6分)等商业模型[12] 应用前景 - 适用于日常问答分析,自动切换简单查询和复杂推理模式,提升自动化处理效率[27] - 在科学研究中可解析科学图表的多步关系,精准解读数据[29] - 支持边缘设备部署,凭借较少参数和自适应思考降低延迟和能耗,适用于即时问答系统[29] - 消费级显卡即可运行,支持笔记本电脑、智能座舱、智能家居等低功耗场景[12] 技术影响 - 解决了多模态大模型的思考困境,在小尺寸模型上探索了自适应思考的可行性[33] - 在AI计算与推理成本飙升的背景下,提供轻量化、智能化设计解决方案[33] - 模型已全面开源,支持vLLM高效推理,下载量已突破10,000次[12][34]