Qwen2 - 财报，业绩电话会，研报，新闻

Qwen2

搜索文档

环球网资讯· 2025-09-01 22:53

中国AI行业全球影响力提升 - 多位中国企业家与学者入选2025年度全球AI影响力榜单包括华为创始人任正非、DeepSeek CEO梁文锋、宇树科技CEO王兴兴等[1] - 中国上榜者数量显著增加且背景多元涵盖领导者、创新者、塑造者和思想者等类别[1] - 中国AI产业快速发展并不断靠近国际舞台中心反映全球技术格局"去地理化"扩散趋势[1] 开源技术推动行业变革 - DeepSeek开源技术路径增强AI行业开放性与参与性为建立包容性全球技术格局贡献中国经验[1] - 开源生态帮助企业以极低成本开发衍生模型阿里通义实验室开源超过200款模型且衍生模型数量突破10万个[1][4] - 中国开源模型Qwen2、Qwen2.5入选斯坦福报告2024年最具代表性AI模型[4] 东南亚AI市场快速发展 - 东南亚数字经济规模预计2030年达2万亿美元其中AI市场规模有望突破5800亿美元[2] - 新加坡推出国家AI战略2.0并与OpenAI合作设立亚太中心马来西亚发布AI治理指南并吸引字节跳动等投资[2] - 印度尼西亚制定人工智能国家战略蓝图预计2030年AI为印尼经济贡献3660亿美元[2] 人才格局变化 - 美国顶级AI研究机构中中国人才占比38% 高于美国本土的37%[3] - 美国STEM领域对中国学者签证收紧加速海外人才回流中国本土直培与人才回流战略显现成效[3] - 中国现存AI相关企业超442万家 2025年新增50.5万余家[3] 技术竞争力提升 - 中美大模型综合性能差距从2023年17.5%骤降至2025年0.3%[4] - 中国在开源生态建设和垂直领域应用形成独特优势实现跨越式发展[4] - 政策支持从要素驱动向系统赋能转变推动基础研究与应用转化双轮驱动[3] 创新生态建设 - 中国AI产业以顶层政策为锚点坚持自主创新和长期主义发展范式[3] - 发展模式以共建共享为核心兼顾效率与包容为全球科技领域提供中国案例[4] - 通过系统性技术突破打破外部垄断从根本上瓦解技术霸权架构[2]

ARPO：智能体强化策略优化，让Agent在关键时刻多探索一步

机器之心· 2025-08-09 06:02

研究背景与动机 - 大语言模型在单轮推理任务中表现亮眼，但在开放式多轮交互场景中仍存在长程规划与工具交互能力不足的问题 [8] - 现有强化学习方法在平衡模型推理与多轮工具交互方面存在局限性，常因奖励稀疏和工具过用导致价值低估 [8] - 研究发现模型在工具调用后的初始生成阶段熵值显著升高，这一高熵现象未被现有方法充分利用 [14][16] ARPO方法创新 - 提出熵驱动的自适应rollout机制，在高熵工具调用步骤加大探索力度，增强推理路径多样性 [20][24] - 引入优势归因估计，优化策略更新方式，更好理解工具交互中各步骤的价值差异 [28][29] - 算法在保持计算复杂度可控的同时，实现不确定性感知的高效探索 [27] 实验设计与结果 - 在13个高难基准测试中，ARPO仅使用一半工具调用预算即显著优于主流RL方法 [3][21] - 在Qwen2.5-7B模型上，ARPO相比GRPO方法工具调用效率提升明显，同时准确率更高 [37][39] - 多任务测试显示ARPO在计算推理（AIME24 71.4%）、知识推理（HotpotQA 67.4%）和深度搜索（GAIA 61.2%）任务中均保持稳定优势 [35][41] 技术实现细节 - 采用分层奖励设计，综合考虑答案正确性、工具调用格式及多工具协作，最高可获得0.1额外奖励 [32] - 软优势估计方法在训练中表现更稳定，被设为默认优势估计方式 [31] - 工具生态覆盖搜索引擎、网页浏览智能体和代码解释器三类代表性工具 [22] 应用前景与展望 - 未来可扩展至多模态Agentic RL，探索图像、视频等多模态场景下的工具调用优化 [42] - 通过引入代码调试器、数据分析工具等扩展工具生态，提升复杂任务表现 [42] - 算法展示出良好的大规模部署潜力，可进一步优化实时动态环境中的适配性 [42]

大语言模型

多轮推理智能体

Agentic Reinforced Policy Optimization

Agentic Reinforced Policy Optimization

ARPO

Qwen2

Qwen2.5