Workflow
大模型架构
icon
搜索文档
阿里巴巴(09988)开源新架构Qwen3-Next 训练成本大幅下降 引入混合注意力机制
智通财经网· 2025-09-12 06:13
模型架构升级 - 阿里巴巴通义发布下一代基础模型架构Qwen3-Next 并开源基于该架构的Qwen3-Next-80B-A3B系列模型 包含指令模型和推理模型两个版本 [1] - 新架构核心改进包括混合注意力机制 高稀疏度MoE结构 训练稳定友好优化以及多token预测机制(MTP) [1] - 高稀疏MoE架构实现1比50的极致激活比 相比Qwen3系列此前1比16的专家激活比显著提升稀疏度 [2] 性能表现 - 新模型总参数80B仅激活3B 性能可媲美千问3旗舰版235B模型 [1] - 训练成本较密集模型Qwen3-32B大幅降低超过90% [1] - 长文本推理吞吐量提升10倍以上 支持百万Tokens超长上下文处理 [1]
阿里巴巴开源新架构Qwen3-Next 训练成本大幅下降 引入混合注意力机制
智通财经· 2025-09-12 06:12
模型架构升级 - 公司发布下一代基础模型架构Qwen3-Next并开源Qwen3-Next-80B-A3B系列模型 包含指令模型和推理模型两个版本 [1] - 新架构核心改进包括混合注意力机制 高稀疏度MoE结构 训练稳定优化及多token预测机制(MTP) [1] - 高稀疏MoE架构实现1比50的极致激活比 较此前Qwen3系列1比16的激活比显著提升 [2] 性能表现 - 新模型总参数80B仅激活3B 性能可媲美千问3旗舰版235B模型 [1] - 训练成本较密集模型Qwen3-32B大幅降低超90% [1] - 长文本推理吞吐量提升10倍以上 支持百万Tokens超长上下文处理 [1] 技术突破 - MoE架构通过激活大参数中的小部分专家完成推理任务 是主流大模型采用的技术路径 [2] - 高稀疏MoE架构是公司面向下一代模型的最新探索 [2] - 多token预测机制(MTP)有效提升模型推理效率 [1]
百度2026届校招重注AI,超4000份Offer,应届生直接触核心研发!
搜狐财经· 2025-07-12 00:03
百度2026届校园招聘 - 公司提供超过4000个工作岗位 其中AI相关职位比例高达90% 创国内互联网巨头校招中对AI人才重视程度新高[1] - 招聘覆盖北京 上海 深圳 成都等七大城市 新增90个AI领域全新职位 专注多模态 跨模态及大模型架构等前沿技术[1] - 应届生将直接参与文心大模型 飞桨平台 数字人项目等核心产品研发[1] AI岗位技术布局 - 算力层提供AI异构计算 云原生AI及底座研发岗位 构建计算能力基础[3] - 框架层设置深度学习 AI训练岗位 支撑上层模型与应用开发[3] - 模型层招聘模型算法工程师 多模态大模型应用算法工程师等 打造智能大脑核心[3] - 应用层覆盖搜索 自动驾驶 生物计算等领域 推动技术落地[3] - 创新设立"AI大模型评估产品经理"等复合型职位 要求技术背景与业务理解能力结合 如电商领域智能推荐系统设计[3] 行业竞争格局 - 百度智能云2025年上半年中标48个大模型相关项目 金额达5 1亿元 在金融 能源 政务领域65%央企选择深度合作[5] - 公司构建包含3万台昆仑芯集群的算力底座 服务招商银行等企业 提升金融 多模态数据分析 智能客服场景效能[5] - 阿里云2025财年收入1180亿元 AI产品收入连续七季度三位数增长 通义千问开源模型全球下载量超3亿次 衍生模型突破10万个[5]
华泰证券:算力链高景气延续,下半年AI眼镜有望迎来拐点
快讯· 2025-07-02 00:01
电子板块2025年下半年展望 - 大模型架构持续迭代,Scaling Law有望再次加速叠加推理需求增长,算力链高景气度有望延续 [1] - 国内制造端先进工艺产能持续推进,新产能开出将提升国产设备商的国产化率 [1] - AI眼镜下半年或迎来拐点,智驾领域因价格带下探产业趋势有望加速 [1]