大模型架构 - 财报，业绩电话会，研报，新闻

大模型架构

搜索文档

阿里巴巴(09988)开源新架构Qwen3-Next 训练成本大幅下降引入混合注意力机制

智通财经网· 2025-09-12 06:13

模型架构升级 - 阿里巴巴通义发布下一代基础模型架构Qwen3-Next 并开源基于该架构的Qwen3-Next-80B-A3B系列模型包含指令模型和推理模型两个版本 [1] - 新架构核心改进包括混合注意力机制高稀疏度MoE结构训练稳定友好优化以及多token预测机制(MTP) [1] - 高稀疏MoE架构实现1比50的极致激活比相比Qwen3系列此前1比16的专家激活比显著提升稀疏度 [2] 性能表现 - 新模型总参数80B仅激活3B 性能可媲美千问3旗舰版235B模型 [1] - 训练成本较密集模型Qwen3-32B大幅降低超过90% [1] - 长文本推理吞吐量提升10倍以上支持百万Tokens超长上下文处理 [1]

阿里巴巴开源新架构Qwen3-Next 训练成本大幅下降引入混合注意力机制

智通财经· 2025-09-12 06:12

模型架构升级 - 公司发布下一代基础模型架构Qwen3-Next并开源Qwen3-Next-80B-A3B系列模型包含指令模型和推理模型两个版本 [1] - 新架构核心改进包括混合注意力机制高稀疏度MoE结构训练稳定优化及多token预测机制(MTP) [1] - 高稀疏MoE架构实现1比50的极致激活比较此前Qwen3系列1比16的激活比显著提升 [2] 性能表现 - 新模型总参数80B仅激活3B 性能可媲美千问3旗舰版235B模型 [1] - 训练成本较密集模型Qwen3-32B大幅降低超90% [1] - 长文本推理吞吐量提升10倍以上支持百万Tokens超长上下文处理 [1] 技术突破 - MoE架构通过激活大参数中的小部分专家完成推理任务是主流大模型采用的技术路径 [2] - 高稀疏MoE架构是公司面向下一代模型的最新探索 [2] - 多token预测机制(MTP)有效提升模型推理效率 [1]

百度2026届校招重注AI，超4000份Offer，应届生直接触核心研发！

搜狐财经· 2025-07-12 00:03

百度2026届校园招聘 - 公司提供超过4000个工作岗位其中AI相关职位比例高达90% 创国内互联网巨头校招中对AI人才重视程度新高[1] - 招聘覆盖北京上海深圳成都等七大城市新增90个AI领域全新职位专注多模态跨模态及大模型架构等前沿技术[1] - 应届生将直接参与文心大模型飞桨平台数字人项目等核心产品研发[1] AI岗位技术布局 - 算力层提供AI异构计算云原生AI及底座研发岗位构建计算能力基础[3] - 框架层设置深度学习 AI训练岗位支撑上层模型与应用开发[3] - 模型层招聘模型算法工程师多模态大模型应用算法工程师等打造智能大脑核心[3] - 应用层覆盖搜索自动驾驶生物计算等领域推动技术落地[3] - 创新设立"AI大模型评估产品经理"等复合型职位要求技术背景与业务理解能力结合如电商领域智能推荐系统设计[3] 行业竞争格局 - 百度智能云2025年上半年中标48个大模型相关项目金额达5 1亿元在金融能源政务领域65%央企选择深度合作[5] - 公司构建包含3万台昆仑芯集群的算力底座服务招商银行等企业提升金融多模态数据分析智能客服场景效能[5] - 阿里云2025财年收入1180亿元 AI产品收入连续七季度三位数增长通义千问开源模型全球下载量超3亿次衍生模型突破10万个[5]