推理优化
搜索文档
让大模型不再过度思考!上海AI Lab后训练新范式重塑CoT,推理又快又好
量子位· 2025-12-21 02:00
RePro团队 投稿 量子位 | 公众号 QbitAI 这篇论文将推理的过程视为模型内部状态的优化过程,从而对如何重塑大模型的CoT提供了一个全新视角: 核心观察:推理即优化 RePro 基于这样一个核心思想:将模型的推理轨迹 (Trajectory) 看作是在损失曲面上寻找最优解的路径。 然而,"长思考"并非总是完美的。我们常发现模型会陷入 "过度思考" (Overthinking) 的陷阱:为了得出一个简单的结论,模型可能会生成 数千个冗余Token,甚至在错误的路径上反复横跳 (Backtracking) 。这不仅浪费了宝贵的算力,还增加了推理延迟。 RePro的三大"矫正"机制 近年来,随着o1、DeepSeek-R1等模型的爆发,Long Chain-of-Thought (Long CoT) 已成为提升LLM复杂推理能力的标配。 如何让模型在"深思熟虑"的同时,保持"思维敏捷"? 基于上述视角,RePro设计了一套过程奖励机制,直接嵌入到RLVR (如PPO,GRPO) 流程中。 近日,上海人工智能实验室的研究团队提出了一种全新的后训练范式—— RePro (Rectifying Process- ...
AICon 2025 深圳回顾:AI Agent 爆火全场,管理与推理优化成新焦点
AI前线· 2025-09-06 05:33
大会概况 - 2025年8月22-23日AICon全球人工智能开发与应用大会在深圳举办 参会规模包括70余位嘉宾和800余名开发者与企业代表[2] - 议题覆盖AI Agent 推理优化 业务提效 企业管理 多模态创新等热点方向[2] - AI正深入企业核心业务与管理实践并重塑个人工作方式[2] 参会规模与热度 - 大会开幕式人气爆棚 开场致辞吸引800余人创两天最高峰[3][4] - AI Agent应用与生态成为最热议题 场均超200人次[3] - 企业管理与个人效能类议题成为黑马 单场人数高达236人[3] - Amazon Web Services 火山引擎 腾讯云等企业分享均突破200人[3] 技术趋势与行业应用 - 快手推出生成式推荐系统OneRec 以端到端方式重构传统推荐架构 将推理成本降至原来十二分之一[4] - 汇丰银行通过代码质量量化 根因分析与自动修复探索研发闭环的智能升级[4] - 微软亚洲研究院分享金融市场仿真引擎MarS 通过订单流建模构建数字孪生市场[4] - AI Agent在研发 数据 营销 评测等领域成为全场焦点 其中Amazon Web Services关于Agentic AI软件开发的演讲吸引291人[7][11] - 火山引擎Data Agent演讲吸引231人 腾讯云WeData Agent实践吸引207人[9] - 推理优化专题关注有限算力下性能提升 袁镱LLM分布式推理优化实践吸引151人 马腾长上下文推理优化方案吸引134人[12] 行业落地实践 - AI从互联网向金融 制造 游戏等行业快速渗透[16] - 金融行业智能体应用于风控 信贷和产品创新 参会人数稳定在百人以上[17] - 制造业大模型落地展示工业应用潜力 吴云演讲吸引161人[17] - 游戏行业AI赋能研发 蓝师师演讲吸引145人[17] 生态发展与技术支持 - 开发者展区展示智能眼镜 AI健身私教等前沿黑科技 吸引大量参会者体验交流[19] - 大会获得汇丰科技中国 Google Cloud 百道数据 神州数码等企业赞助支持[21] - 社区与媒体伙伴共同推动AI技术生态繁荣发展[23]