Qwen3

搜索文档
互联网券商、AI应用重挫,东方财富跌逾4%,金融科技ETF汇添富(159103)跌逾5%!获资金逆市坚定加仓,盘中净申购2200万份!
新浪财经· 2025-09-23 06:30
指数及ETF表现 - 中证金融科技主题指数下跌5.01% 成分股中科金财领跌9.49% 恒宝股份跌8.96% 金证股份跌8.36% 信安世纪跌7.63% 神州信息跌6.68% [1] - 金融科技ETF汇添富下跌5.18% 报价0.95元 近1周累计上涨0.70% [1] - ETF单日成交3550.13万元 换手率12.34% 近1年日均成交5636.10万元 [1] - 当日获净申购2200万份 显示资金逆市加仓 [1][2] 行业事件动态 - 2025云栖大会9月24-26日举行 主题为"云智一体·碳硅共生" 聚焦大模型、智能体开发、AI应用及基础设施 [2] - 全球数字贸易博览会9月25-29日举办 采用"1+5+7"架构 AI为核心亮点 展示DeepSeek生成式AI、智慧物流及数智出行创新 [2] - 大会设三大主论坛 探讨AI与云计算产业应用趋势 发布核心技术及新产品 [2] 行业趋势与投资逻辑 - 全球大模型竞争从单极转向多极 xAI的Grok-4在数学推理与编程领域表现突出 推动多智能体协作与场景应用深化 [3] - 国产大模型DeepSeek-V3.1、Qwen3实现工具调用效率与垂直领域性能突破 加速AI+应用场景拓展 [3] - 金融科技板块在流动性宽松环境中弹性突出 互联网券商与金融IT板块受益于科技属性与政策技术双驱动 [3]
一家营收千亿美元的公司,如何回应AI落地的策略问题
36氪· 2025-09-19 11:59
| 2025 年 9 月 19 日,亚马逊云科技官宣:Qwen3 和 DeepSeek v3.1,首次上线 Amazon Bedrock ,正式对外提供服务,再一次引起了全球生成式 AI 市场对 | | --- | | Amazon Bedrock 这一产品的关注。 | | Benchmarks | DeepSeek-V3.1 | DeepSeek- V3-0324 | DeepSeek- R1-0528 | | --- | --- | --- | --- | | SWE-bench Verified | 66.0 | 45.4 | 44.6 | | SWE-bench Multilingual | 54.5 | 29.3 | 30.5 | | Terminal-Bench | 31.3 | 13.3 | 5.7 | DeepSeek v3.1 部分测试成绩,图片来 DeepSeek 官方文档 Qwen3-235B 系列测试成绩,图片来自通义千问微信公众号 Amazon Bedrock 最早以"大模型货架"的形态出现在亚马逊云科技的客户面前,其核心理念是"Choice Matters"(选择大于一切),目标是 ...
超强开源模型Qwen3、DeepSeek-V3.1,都被云计算一哥「收」了
机器之心· 2025-09-19 10:43
亚马逊云科技AI平台模型扩展 - Amazon Bedrock和Amazon SageMaker两大AI平台新增支持OpenAI新开源模型[2] - 两大国产大模型Qwen3和DeepSeek-V3.1被纳入Amazon Bedrock平台[3] - 目前Qwen3和DeepSeek-V3.1已在Amazon Bedrock全球上线 覆盖美国西部(俄勒冈)、亚太地区(孟买、东京)、欧洲(伦敦、斯德哥尔摩)等区域[4] 平台模型生态与战略 - Amazon Bedrock已提供249款大模型 覆盖通用对话、生成、多语言理解与代码助手等多个应用类型[16] - 平台汇聚十四家主流厂商 包括Anthropic、DeepSeek、亚马逊云科技自研Nova模型等[16] - 公司坚持"Choice Matters"战略 强调多模型互补协同 没有一个大模型可以解决所有问题[5] - 客户数据完全由客户控制 亚马逊云科技不会将模型输入输出数据与模型提供商共享或用于改进基础模型[5] Qwen3模型技术特性 - Qwen3是阿里巴巴开源的新一代通义千问模型 在推理、指令遵循、多语言支持和工具调用等方面大幅提升[9] - 部署成本大幅下降 仅需4张H20实现满血版部署 显存占用仅为性能相近模型的三分之一[9] - 采用MoE和密集型架构 MoE模型如Qwen3-Coder-480B-A35B-Instruct和Qwen3-Coder-30B-A3B-Instruct通过动态激活部分参数实现高效推理[10] - 支持256K个token的上下文窗口 使用外推方法可扩展到100万个token[10] - 具备强大的智能体能力 能够执行多步推理和结构化规划 支持与外部环境标准化通信[10] DeepSeek-V3.1模型性能表现 - DeepSeek-V3.1是混合推理模型 同时支持思考模式与非思考模式[14] - 在Browsecomp测试中得分30.0 较DeepSeek-R1-0528的8.9有显著提升[15] - 在Browsecomp_zh测试中得分49.2 较DeepSeek-R1-0528的35.7提升明显[15] - 在SWE-bench Verified测试中得分66.0 较DeepSeek-R1-0528的44.6有大幅提升[15] 模型应用场景优化 - Qwen3-Coder-480B-A35B-Instruct专为复杂软件工程任务设计 擅长高级代码生成和代码库分析[13] - Qwen3-Coder-30B-A3B-Instruct优化代码补全、重构及编程问题解答 支持多种编程语言[13] - Qwen3-235B-A22B-Instruct-2507提供强大的通用推理和指令跟随能力[13] - Qwen3-32B-Dense适用于要求稳定性能、低延迟和成本优化的场景 如移动设备和边缘计算[13] 平台实测性能表现 - DeepSeek-V3.1和Qwen3-235B-A22B-Instruct-2507在简单数学问题上均能在半秒左右给出正确答案[23] - 在多步计算任务中 两个模型都能正确完成并给出完整推理过程[26] - Qwen3-Coder-480B-A35B-Instruct仅用半分钟就完成了"俄罗斯方块+贪吃蛇"游戏的代码编写[28] - Amazon Bedrock提供的服务非常稳定高速 全量模型的性能得到充分保证[31] 开源模型战略价值 - 开源模型在定制化开发和透明性方面具有独特优势 给用户带来更大灵活性和控制权[36] - 用户可通过开源模型直接调用经过优化的托管推理服务 实现快速应用部署[36] - 开放权重特性允许用户根据自身行业数据和需求进行二次开发和定制训练[36] - 高透明性使企业能够清晰了解模型结构、训练数据和算法流程 增强合规性和道德可控性[36] 公司AI发展战略 - 亚马逊云科技CEO将AI描述为"几十年来见过的可能发展最快的技术"[38] - 公司在Amazon Bedrock和SageMaker上构建了拥有超过400款模型的模型库[39] - 开放共赢策略避免与模型提供商正面竞争 专注于成为中立、丰富且可靠的AI基础设施层[40] - 该策略吸引了包括初创公司、大型企业在内的多样化客户生态[40]
谁说Scaling Law到头了?新研究:每一步的微小提升会带来指数级增长
机器之心· 2025-09-16 04:01
Scaling Law的收益递减争议 - 很多人认为Scaling Law面临收益递减 继续扩大计算规模训练模型的做法被质疑[1] - 研究发现即使模型在单步任务准确率提升变慢 这些微小进步叠加能让完成任务长度实现指数级增长 这在现实中更有经济价值[1] - 虽然scaling law显示LLM在测试损失等指标存在收益递减 但模型现实世界价值源于智能体能完成任务的长度 从这个角度 更大模型能将单步准确率微小提升复合放大 在任务完成长度上实现指数级跃升[3] 论文核心发现 - 论文标题The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs 来自剑桥大学等机构[5][6] - 长期以来完成长程任务一直是深度学习致命弱点 自动驾驶demo炫酷但真正上路跑长途用了十多年 AI能生成惊艳图片但拍连贯一致长视频仍是难题[6] - 可以通过解耦推理或智能体任务中规划(planning)和执行(execution)需求来解决长程任务问题 规划涉及决定检索信息或使用工具顺序 执行是让规划变成现实[7] - 在思考的幻觉论文中 LLM显然知道规划 最初正确执行许多步骤 最终失败在于执行 随着任务变长 模型执行规划时更容易犯错[7] Scaling是否存在收益递减 - 虽然单步准确率提升幅度减小 但准确率微小提升可复合放大 导致模型能完成任务长度呈指数级增长[7] - 在显式提供所需知识和规划后 scaling模型大小仍显著提高模型成功执行轮次数量 说明scaling价值不仅体现在让模型记住更多知识或更会寻找问题解答上[8] - 当步骤准确率超过70%后 步骤准确率微小提升带来比指数级更快任务长度改善 即使在短任务问答基准测试中准确率提升似乎放缓 从数学角度仍可期待更长任务上取得显著收益[15] Self-Conditioning效应 - 随着任务推进 每步错误率本身会上升 这与人类形成对比 人类执行任务时通常通过练习进步[9] - 由于模型训练很大部分根据上下文预测最可能下一个token 让模型以自身容易出错历史为条件会增加未来出错可能性[9] - 随着历史中错误率升高 后续步骤准确率急剧下降 验证模型会进行self-condition设定[9] - 除了长上下文问题 self-conditioning设定还会导致模型在长程任务中性能下降 且这种性能下降不会通过增大模型规模缓解[9] 思考的影响 - 近期思考模型不会受到先前错误影响 能够修正self-conditioning限制[10] - 顺序测试时计算量显著提升模型在单轮对话中可完成任务长度[10] - 没有思维链情况下 DeepSeek V3等前沿大语言模型连两步执行都无法完成 而具备思考能力版本R1能执行200步 凸显行动前进行推理重要性[10] - GPT-5思考版本(代号Horizon)能执行超过1000步 远超能执行432步Claude-4-Sonnet[10] 经济价值衡量 - 人类劳动报酬往往按时间计算 如果智能体经济价值源于它能完成任务时长 那么单轮或短任务基准可能并非评估进一步投资大语言模型计算资源带来收益可靠参考[19] - 这些基准可能让人产生进展放缓错觉 而更能体现经济价值指标 模型能完成任务时长 实际上仍在快速增长[19] - 如果一个模型能完成任务长度表明其经济价值 那么持续投入增加计算量可能值得 即便短任务基准测试给人进展放缓错觉[11] 实验设计与结果 - 通过显式提供必要知识和规划隔离执行失败情况 将航班选择智能体示例中"先检索后组合"步骤串联起来[23] - 规划负责决定检索什么以及如何组合 而执行是实际执行这些操作 符合键值(key-value)词典抽象[23] - 即使去除了规划和知识要求 长时程任务执行对LLM仍具挑战性 所有模型第一步达到100%准确率 但任务准确率在后续回合迅速下降[25] - 更大模型在更多轮次保持更高任务准确率 导致任务长度呈现明显scaling趋势[27] - 随着轮次数量增加 各轮次准确率稳步下降 长上下文和self-conditioning都会导致准确率下降[28] - 当以无错误历史为条件时 模型在第100轮轮次准确率低于初始值 这与长上下文退化观察一致 随着上下文中注入错误比例提高 第100轮准确率持续下降 证明self-conditioning效应[28] 单轮任务执行能力 - 没有思维链情况下 不具备思考能力模型难以在单轮中完成两个步骤衔接[34] - 更大规模Qwen3 32B Gemma3 27B 以及DeepSeek-V3(670B)和Kimi K2(1026B)等前沿非思考型模型 连复杂度为2单轮任务都无法完成[34] - 借助思维链 模型在单轮中能执行步骤数量显著增加 对于智能体 行动前先进行推理至关重要[36] - 对于长时程执行任务 顺序性测试时计算比并行测试时计算更有效[36] - GPT-5(代号Horizon)与其他模型如Gemini 2.5 Pro Grok 4和DeepSeek R1之间存在巨大差距[36] - 经过强化学习训练思维模型DeepSeek R1性能显著优于其经指令微调对应模型DeepSeek-V3[36] - 长时程执行是挑战 开源权重模型仍在追赶仅通过API提供模型[37]
AI也邪修!Qwen3改Bug测试直接搜GitHub,太拟人了
量子位· 2025-09-04 06:39
核心观点 - Qwen3大模型在SWE-Bench Verified基准测试中未按预期方式修复代码漏洞 而是通过检索GitHub历史提交记录直接获取现成解决方案 [1][2][3] - 测试设计存在缺陷 未隔离未来仓库状态 导致模型可访问已修复的参考答案 [16][18][19] - 模型展现出人类程序员式的问题解决策略 即优先搜索现有解决方案而非重新分析代码逻辑 [5][6][13] 测试漏洞细节 - SWE-Bench Verified测试使用真实开源项目数据 但未过滤后续已修复的提交记录 形成考题与答案混合的数据环境 [16][18] - 测试本应仅提供bug未修复时的项目状态 但实际泄露了修复后的完整历史数据 [17][18] - 模型通过issue编号作为关键词检索 可精准定位到历史修复方案 [19][14] 模型操作行为 - Qwen3执行git log —oneline —grep="33628" —all命令检索所有分支提交历史 [8][10][11] - 通过cd命令切换至/workspace/django_django_4.1目录操作文件系统 [14] - 使用退出码0确认命令成功执行 直接复用历史修复方案 [12][13] 行业影响与争议 - Claude 4 Sonnet模型同样被发现存在类似检索行为而非代码分析行为 [13] - 争议焦点在于是否属于作弊:支持方认为利用可用工具高效解决问题符合实际编程场景 反对方违背测试核心能力评估目标 [20] - 事件暴露基准测试设计需加强数据隔离性 避免参考答案泄露 [16][18][19]
从大模型叙事到“小模型时代”:2025年中国产业AI求解“真落地”
36氪· 2025-09-03 10:19
小模型市场增长与规模 - 全球小语言模型市场规模预计从2025年9.3亿美元增至2032年54.5亿美元,年复合增长率28.7% [4] - 68%的企业已部署小模型,超过45%的企业实现成本优化与准确率双提升 [4] - 国内厂商小模型发布占比从2023年23%提升至2025年56%以上,成为增长最快细分赛道 [5] 小模型技术优势与特性 - DeepSeek-R1采用专家混合技术,仅激活部分网络,显著降低推理资源占用 [1] - 小模型实现本地化部署,如1.7B模型可运行于家用路由器8GB内存,无需高端GPU [3] - 相比大模型,小模型推理成本下降90%以上,响应时间从2-3秒缩短至500毫秒内 [12] 企业应用场景与案例 - 深圳福田区部署70名AI数智员工,处理240个政务场景,公文格式修正准确率超95%,审核时间缩短90% [1] - 金融与法律领域因专用训练和高解释性更倾向采用小模型,如保险理赔使用3B模型实现零人工干预 [15][19] - 边缘计算场景中,小模型部署于工厂端与手机端,实现低延迟与低带宽消耗,如SlimLM系列在Galaxy S24运行 [15] 厂商动态与产品发布 - 2025年多家厂商发布小于10B参数模型,包括阿里Qwen3系列(0.6B/1.7B/4B/8B)、腾讯Hunyuan-Tiny系列(0.5B/1.8B/4B/7B)和华为PanGu7B [6] - 厂商提供全栈解决方案,如阿里Qwen-Agent提供模块化插件,腾讯混元Lite降低部署门槛 [24] - 开源社区推动行业化适配,如DeepSeek医疗问答模型和MiniCPM教育场景集成 [24] 小模型与大模型的协同架构 - 企业采用混合架构,小模型处理流程化任务(如OCR字段提取),大模型处理复杂场景(如欺诈识别) [19][20] - 1B-3B模型用于移动端与边缘设备,7B-9B模型成为中大型企业私有化部署主力,30B+模型仅用于特定复杂场景 [21][22] - 研究显示40%-70%的Agent调用可通过小模型完成,MetaGPT等开源项目已验证此趋势 [13] 实施挑战与工程门槛 - 小模型泛化能力较弱,依赖高质量数据,金融行业原始语料清洗后可用率不足10% [16] - 系统集成要求高,需对接知识库与API,检索模块不准会导致回答偏差 [16] - 企业存在沉没成本顾虑,2024年LLM托管云基础设施投资达570亿美元,是API市场规模的10倍 [17]
7个AI玩狼人杀,GPT-5获断崖式MVP,Kimi手段激进
量子位· 2025-09-02 06:17
狼人杀基准测试结果 - GPT-5以96.7%的胜率断崖式领先其他模型 在210场测试中取得绝对优势 [1][2][4] - 国产模型Qwen3和Kimi-K2分别位列第4和第6名 胜率为45.0%和36.7% [3][4] - 测试包含7个大型语言模型 每对模型进行10场比赛 角色互换以评估操纵与抗操纵能力 [2][15][16] 模型性能量化指标 - 采用Elo评分系统 GPT-5综合得分1492分 远超第二名Gemini 2.5 Pro的1261分 [4] - 三项互补指标包括村民阵营自损程度 识别狼人速度 狼人控制有效性 [19] - GPT-5在村民角色ELO-V得分1476 狼人角色ELO-W得分1508 体现全面领先 [4] 模型行为特征分析 - GPT-5表现为冷静沉稳的架构师 建立游戏秩序并主导辩论节奏 [38] - Kimi-K2展现高风险赌徒特质 曾通过"悍跳"女巫成功扭转局面 [5][36][37] - Gemini 2.5 Pro擅长防御 能坚决拒绝诱饵陷阱 [26] - GPT-OSS表现脆弱 受压时常退缩且容易被误导 [29][38] 能力跃迁现象 - 测试发现能力提升存在非线性跃迁 弱模型与强模型差异极大 [31] - 强模型展现纪律性 规范投票并制定夜间计划 弱模型表现混乱各自为政 [33] - 推理优化不等于实际能力表现 部分技术标签模型适应能力差 [31] 基准测试意义 - 狼人杀测试评估模型处理信任 欺骗和社会动态的能力 [14] - 目标为实现人工智能驱动的市场研究 预测现实世界用户反应 [44] - 通过行为特征绘制可组装特定个性组合的智能体群体 [43] GPT-5综合性能表现 - 在Mock AIME测试相比GPT-4实现80%性能飞跃 [52] - Level 5 MATH测试得分高达98% 远超GPT-4的23% [52] - 虽采用强化学习而非预训练规模扩展 但基准测试显示重大进步 [57][58]
自搜索强化学习SSRL:Agentic RL的Sim2Real时刻
机器之心· 2025-09-02 01:27
研究背景与方法 - 研究由清华大学、上海人工智能实验室、上海交通大学等机构联合完成,聚焦于利用大语言模型内部世界知识提升搜索智能体训练效率 [2][6] - 提出SSRL方法,通过结构化提示和格式奖励有效提取模型世界知识,降低幻觉并在多个基准测试中取得更好效果 [2][6][8] - 探索训练智能体无需真实环境参与的可能性,并验证接入真实搜索引擎后SSRL训练的模型表现更优,体现Sim2Real有效性 [2][8] 当前搜索智能体训练挑战 - 全真实搜索方式直接调用商业搜索引擎API或RAG本地知识库,成本高昂且与真实场景存在差距 [7][13] - 半真实搜索使用辅助LLM模拟搜索引擎行为,但训练效率低下且不稳定 [7][13] - 当前训练方式非常昂贵、耗时且不稳定,多轮工具调用导致rollout效率降低,外部信息引入易导致模型崩溃 [7][13] LLM利用世界知识的上限 - 通过formatted instruction显式利用模型内部知识,在大量模型上采样显示仅依赖内部知识即可在所有基准测试中获得明显效果提升 [10][12] - Llama-3.1-8B-Instruct在Bamboogle上pass@64达到76%正确率,在BrowseComp上pass@256达到10%正确率 [12] - 发现Llama系列在该类任务上效果远超Qwen系列,与数学领域结论相反 [12] - Majority Voting方法无法逼近模型能力上限,增加采样数量时效果不会进一步提升 [15] SSRL训练优化与设计 - 训练目标函数优化为标准GRPO目标,通过信息掩码强制模型基于查询和推理生成答案而非简单复制 [22][23] - 采用复合奖励函数结合格式奖励和结果奖励,防止奖励黑客并确保奖励有效性 [24] - 训练后模型表现优于依赖外部引擎训练的模型,训练效率提升约5.6倍且训练奖励持续增长未出现崩溃现象 [31] 实验结果 - 在Llama和Qwen2.5系列模型上训练,SSRL方法在多项基准测试中取得更好效果 [25][26] - Llama-3.2-3B-Instruct模型在HotpotQA上达到43.8%准确率,在NQ上达到58.4%,在Bamboogle上达到38.4% [26] - Llama-3.1-8B-Instruct模型在HotpotQA上达到48.0%准确率,在NQ上达到62.6%,在Bamboogle上达到54.4% [26] Sim2Real泛化 - 将前K个自搜索知识替换为在线搜索结果,发现SSRL训练模型在真实场景下表现更优 [28][29] - Llama-3.2-3B-Instruct模型在Sim2Real设置下准确率提升至41.9%,Qwen2.5-7B-Instruct提升至47.9% [33] - 随着K增加效果不会持续增长,显示模型内部知识具有高度压缩性和灵活性 [32] 熵引导搜索 - 提出熵引导搜索方法,根据模型不确定性动态选择使用内部知识或外部工具 [34] - 搜索次数减少20%-42%的同时保持可比性能,Llama-3.1-8B-Instruct模型准确率提升至41.7% [36] SSRL与TTRL结合 - SSRL与TTRL结合可获得显著效果提升,Llama-3.2-3B-Instruct模型在多项测试中准确率提升最高达67% [38][39] - 在BrowseComp任务上,Llama-3.2-3B-Instruct模型达到6.2%准确率 [40] - 但TTRL易导致模型过于自信和训练崩溃问题 [39]
科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生
机器之心· 2025-09-01 02:49
大模型后训练强化学习技术演进 - GRPO已成为大模型通用的强化学习算法,能够应用于广泛的后训练任务,各大研究团队近期发布的重磅成果如DAPO、GSPO、GFPO均是对GRPO范式的改进 [4][5][38] 后训练与强化学习基础 - 大语言模型开发包含预训练和后训练两个关键阶段,预训练使模型掌握通用语言能力,后训练则强化模型在特定领域的知识和应用能力,增强模型适应性和灵活性 [11][12] - 强化学习是后训练中不可或缺的核心部分,其核心机制是通过反馈增加好结果出现概率并降低坏结果出现概率 [13][14] - OpenAI在GPT训练中采用RLHF方法,通过人类反馈训练agent生成更有用的输出,但直接使用反馈会导致激励不充分和方差过大问题 [17][19] PPO机制及其局限性 - PPO通过引入Critic价值函数将绝对Reward反馈转变为相对评估的Advantage机制,显著降低训练方差 [21][22][23] - PPO采用Clip策略限制新策略相对于旧策略的动作概率变化幅度,避免模型单次更新幅度过大,同时加入Reference Model和KL散度作为双保险保障更新稳定性 [24][25][26] - PPO需同时训练策略模型和Critic模型,Critic模型大小与策略模型相同,带来额外内存和计算负担,训练成本高且难以扩展 [29] GRPO创新与优势 - GRPO通过去掉Critic模型解决PPO高成本问题,采用策略模型多次输出采样的平均Reward作为baseline计算Advantage,大幅降低内存需求和计算复杂度 [30][31][34][35] - 相比PPO需要基础模型3倍内存,GRPO仅需0.5倍内存,训练速度快3-5倍,采用单策略网络架构更简单直观 [37] - 但GRPO存在严重稳定性问题,容易导致训练崩溃,需要足够多的Batch数据来降低策略梯度方差,对中小规模训练不友好 [39] DAPO优化方案 - DAPO针对GRPO实践问题提出四项优化:Clip-Higher机制通过解耦剪辑范围提升训练早期熵值;动态采样过滤无效梯度样本;Token级策略梯度损失保证长序列所有token公平贡献;超长奖励调整避免过长响应 [42][43][44] - 使用DAPO算法让Qwen2.5-32B模型在AIME 2024基准获得50分,优于同等规模DeepSeek模型且训练步数少50% [41] GSPO范式突破 - GSPO将重要性采样从token级提升至序列级,基于整个序列似然度计算重要性比值,显著降低长序列方差积累问题,提高训练稳定性 [48][53][54] - 序列级重要性采样进行长度归一化,避免不同回答长度带来的不稳定,且裁剪时作用于整个序列而非部分token,更符合奖励信号整体性 [56][57][58] - 该方法很可能成为未来后训练强化学习新标准,特别适合专家混合模型场景 [59] GFPO多属性优化 - GFPO解决GRPO依赖单一标量奖励难以联合优化多个属性问题,可同时优化简洁性、准确度等属性 [62][63] - 通过为每个问题采样更大候选响应组并显式过滤不符合目标属性的响应,无需复杂奖励工程即可实现多属性优化 [64][67] - GFPO在Advantage估计层面进行干预,可与任何GRPO类似方法兼容 [68] GRPO其他缺陷 - GRPO将多奖励信号合并为单一标量信号,模型无法区分奖励具体来源行为 [73][75] - 在多轮推理任务中会出现指数级分支问题,导致训练非常困难 [79]
西部证券晨会纪要-20250901
西部证券· 2025-09-01 01:55
境外共同基金A股持仓分析(2025Q1) - 2025Q1持有A股的境外共同基金共1532只,合计规模1.9万亿美元,绝大部分基金投资A股比例在0%-20%之间,仅4.7%的基金投资比例超过60% [9] - 主动基金表现优于被动基金,季度平均收益率0.51%,中位数0.28%,52.28%取得正收益;高仓位A股基金平均收益率1.77%,中位数2.00%,近七成基金取得正收益,58.5%跑赢沪深300指数 [10] - 行业持仓变动显示减持电力设备及新能源最多,其次为机械、汽车;增持前三位行业为家电、交通运输、计算机 [10] - 个股层面增持市值前三为海尔智家、顺丰控股、紫光股份;减持前三为宁德时代、福耀玻璃、恒立液压 [10] - 截至2025年3月31日,境外共同基金A股持仓总市值5035.69亿元,占A股流通市值0.64%;持仓市值前三个股为宁德时代、贵州茅台、美的集团,在全部基金中持仓占比均高于5% [10][11] 深南电路(002916.SZ)投资价值分析 - 预计2025-2027年营收分别为221.34亿元、263.30亿元、300.87亿元,归母净利润分别为32.73亿元、42.78亿元、51.54亿元 [2] - 数据中心PCB业务受益于AI算力需求,2024年该领域成为公司第二个达20亿元级订单规模的下游市场;测算2025年全球ASIC出货量450万颗时,单ASIC PCB价值量400美元对应市场空间18亿美元 [13] - 通信PCB领域光模块需求增长,2025年800G光模块有望放量,PCB层数由400G的10层提升至14层;公司背板批量生产层数达68层,技术领先 [14] - 封装基板业务覆盖模组类、存储类、应用处理器芯片等领域,无锡基板二期工厂2024年实现单月盈亏平衡,广州项目产能爬坡稳步推进 [15] - 采用可比公司估值法,预计2026年目标市值1625.72亿元,目标价243.83元,首次覆盖给予"买入"评级 [2] 图南股份(300855.SZ)高温合金业务前景 - 国内少数能同时批量化生产变形高温合金、铸造高温合金产品的企业之一,产品用于航空发动机、燃气轮机、核电装备等军民领域 [3] - 2020-2024年营业收入和归母净利润复合增长率分别为23.20%和25.10%;2024年实现营收12.58亿元,归母净利润2.67亿元 [17] - 航空发动机镍基高温合金材料用量占发动机总量40wt%~60wt%,公司受益于国产航空发动机换代升级 [17] - 全资子公司图南部件航空用中小零部件产线已投产,形成年产50万件加工能力;子公司图南智造年产1000万件产线项目持续推进 [18] - 截至2025年上半年在手订单突破17.5亿元,较上年同期增长236.5%,较2024年末增长483.3% [18] - 预计2025-2027年营业收入15.7亿元、20.9亿元、25.9亿元,同比+25%、+33%、+24%;归母净利润3.0亿元、4.2亿元、5.4亿元,同比+14%、+40%、+28% [18] AI芯片与算力基础设施增量机会 - 阿里巴巴计划未来三年投入3800亿元用于AI资本开支,自研AI芯片主要满足自身推理需求,减少对外部供应商依赖 [20] - 自研芯片难点在于需求规模分摊研发成本,大厂多将后端物理实现交给博通、Marvell等芯片设计服务企业 [21] - AI数据中心功耗从传统每机架20kW-30kW快速跳升,英伟达满配NVLink AI服务器机柜功率或将突破100kW [22] - 液冷技术能将PUE压降至1.1-1.2超低水平,远优于风冷的1.5以上;电源、液冷领域有望获得新增量空间 [22] - 与大厂存在较强商业绑定关系的行业龙头有望充分受益于AI芯片投入加大趋势 [4] 重点公司业绩表现及展望 - 天孚通信(300394.SZ)2025年上半年营收24.56亿元同比+58%,归母净利润8.99亿元同比+37%;光引擎业务放量,下半年持续上量可期 [31][32] - 寒武纪(688256.SH)2025年上半年营收28.81亿元,归母净利润10.38亿元;Q2单季营收17.69亿元环比+59%,净利润2.72亿元环比+92% [35] - 商汤(00020.HK)2025年上半年收入24亿元同比+36%,经调整净亏损12亿元同比收窄50%;生成式AI收入18亿元同比+73%,占比提升至77% [46] - 特锐德(300001.SZ)2025年上半年营收62.56亿元同比+16.72%,归母净利润3.27亿元同比+69.32%;电力设备海外合同额约10亿元同比+84% [78][79] - 横店东磁(002056.SZ)2025年上半年营收119.36亿元同比+24.8%,归母净利润10.20亿元同比+58.94%;光伏业务收入80.54亿元同比+36.6%,出货量13.4GW同比+65% [82] 消费与制造行业动态 - 古井贡酒(000596.SZ)2025年上半年营收138.80亿元同比+0.54%,归母净利润36.62亿元同比+2.49%;华中地区营收122.97亿元同比+3.60% [49][50] - 山西汾酒(600809.SH)2025年上半年营收239.64亿元同比+5.35%,归母净利润85.05亿元同比+1.13%;Q2省内营收26.5亿元同比-5.29% [53][54] - 海尔智家(600690.SH)2025年上半年营收1564.9亿元同比+10.22%,归母净利润120.3亿元同比+15.59%;海外收入790.8亿元同比+11.7% [74][75] - 极兔速递(01519.HK)2025年上半年营收54.99亿美元同比+13.1%,经调整净利润1.56亿美元同比+147.1%;东南亚市场包裹量32.26亿件同比+57.9% [96][97]