链式思考
搜索文档
让LLM不再话痨,快手HiPO框架来了
机器之心· 2025-11-03 06:40
核心观点 - 快手与南京大学团队推出的HiPO框架解决了大语言模型普遍存在的“过度思考”问题,通过让模型自主决策何时启动深度推理,在显著提升效率的同时同步提高了准确率[4][5][25] 问题背景:LLM的“过度思考”困境 - 大语言模型在处理简单问题时习惯性启动冗长的链式思考,导致计算资源浪费、响应延迟增加和部署成本高昂[4][8] - 现有解决方案如基于训练的奖励机制或外部提示控制存在信号粗糙、依赖人工设计或属于事后补救等局限性[9][12] HiPO框架的核心组件 - **混合数据冷启动**:通过自动化流程为每个问题生成“思考”与“直接回答”两种模式的高质量响应,并引入模式选择的解释信号,使模型初步具备智能决策能力[11][14][15] - **混合强化学习奖励系统**:包含基础答案正确性奖励、防止“思考”惯性的动态偏差调整机制,以及分别指导模式选择合理性和答案质量的双重优势函数,实现精细化优化[16][17][18] 实验成果与性能表现 - 在AIME2024/2025、HumanEval等多个基准测试中,HiPO-8B模型平均准确率提升6.3%,同时平均令牌长度减少30%,思考率降低37%[22][23][25] - 模型展现出良好的任务自适应性,在AIME2024等复杂任务上“思考”模式激活率保持在70%以上,而在HumanEval等简单任务上该比率随训练显著下降[26] - 该方法在1.7B、8B和32B等不同参数规模的模型上均表现出一致的性能提升,证明了其强泛化能力[29][30] 行业影响与未来展望 - HiPO框架通过平衡推理的质与效,为LLM的大规模实用化部署提供了降低成本和延迟的直接解决方案[35] - 该研究为模型轻量化和增强元认知能力提供了新路径,代表LLM发展从“暴力计算”向“智能效率”的重要思路转变[32][33][35]
明日发布,关于GPT‑5的剧透都在这了
虎嗅· 2025-08-07 02:40
产品发布 - OpenAI将于太平洋时间8月7日10时(北京时间8月8日1时)通过直播发布GPT-5 [1] - 公司计划同步推出三个型号:标准版GPT-5、轻量版GPT-5 Mini及超轻量版GPT-5 Nano [2] - 新版本预计在发布后立即向开发者API和ChatGPT付费用户开放 [3] 技术特性 - GPT-5将引入"链式思考"可视化功能 使用户可观察模型推理过程 [4] - 公司计划统一模型家族 将现有o系列模型(如GPT-4o)纳入GPT体系 实现根据任务自动匹配最佳模型 [4] - 新模型采用"测试时计算"技术 在推理过程中动态调用更多算力处理复杂运算 [4] - 轻量版本可部署于移动设备及嵌入式场景 满足多样化性能需求 [3] 性能表现 - 早期测试显示GPT-5在编程、科学及数学领域表现显著提升 [4] - 模型在推理能力和上下文处理方面有明显改进 但性能提升幅度可能小于GPT-3到GPT-4的跨越 [4][6] - 微软Copilot已开始测试"Smart Mode" 该模式暗中调用GPT-5的推理能力 [3] 开发挑战 - 训练过程面临高质量训练数据短缺的瓶颈 互联网可用文本资源日益稀缺 [5] - 大规模模型训练存在硬件故障风险 故障可能在训练末期才被发现 [6] - 模型迭代成本高昂 为开发过程增加不确定性 [6] 商业化应用 - 美国政府通过总务管理局(GSA)以1美元年费采购ChatGPT Enterprise 供联邦机构使用 [7] - Perplexity、Cursor等第三方应用正在排队接入GPT-5 [8] - 轻量化版本将降低企业部署成本 适用于客服、办公助手、游戏及教育场景 [8] - 新模型有望提升ChatGPT响应速度与准确度 特别在复杂推理和长对话场景 [8]