昇腾
搜索文档
SGLang原生支持昇腾,新模型一键拉起无需改代码
量子位· 2025-12-21 14:13
henry 发自 凹非寺 量子位 | 公众号 QbitAI 当Agent在应用侧不断加速,推理系统能否承受随之而来的真实负载,正在成为行业关注的焦点。 这是12月20日在杭州收官的 SGLang AI 金融 π 对 上,被反复提及的一个背景。 在这场聚焦大模型推理效率的"π对"上—— Agent的Vibe被暂时搁到一边,真正摆上桌面的,是推理系统在真实负载中的工程问题: 高并发请求 、 长上下文窗口 、 多轮推理 、 内存 管理, 以及在具体金融agent场景下的 一致性生成 问题。 同时,在活动讨论中,昇腾作为算力平台也被多次提及。 当前,昇腾已作为SGLang原生支持的后端之一进入主仓库,随着 SGLang推理引擎的更新,DeepSeek、Qwen、GLM等模型可以在不调整 模型参数、不引入额外插件的情况下直接运行,HiCache、Mooncake等系统能力也在对应版本中引入。 可以说,这次SGLang AI金融π对呈现的,并非零散技术点,而是一条清晰的推理工程演进路径——从缓存与内存体系,到权重更新、强化学 习效率,再到算力与模型生态的协同。 接下来,我们具体来看。 而在特定的部署场景,如 金融Agen ...
英伟达被批准入股英特尔 联手重塑全球芯片产业格局
中国经营报· 2025-12-21 13:58
《中国经营报》记者注意到,消息公布后,英特尔、英伟达股价连续两日持续上涨。截至12月19日收 盘,英特尔股价报收于36.82美元每股,近半年上涨74.67%;而英伟达股价报收于180.99美元每股,市 值达4.40万亿美元。 市场人士多认为,FTC的放行为这个被业界视为"芯片行业历史性联姻"的交易扫清了一道关键的监管障 碍。此举不仅将加速两家公司联合开发的下一代AI芯片落地,更将在中美科技博弈加剧的背景下,深 刻影响全球半导体产业链格局。 50亿美元押注:一场精密计算的战略合谋 根据双方于2025年9月18日公布的协议,英伟达将以每股23.28美元的价格认购英特尔新发行的普通股, 总投资额约50亿美元,获得接近4%的股权。 尽管持股比例并不高,但合作内容或远超财务投资范畴——双方将共同开发基于x86架构的定制化 CPU,并通过英伟达主导的NVLink高速互连技术与GPU深度集成,打造面向数据中心和AI PC的新一代 异构计算平台。 更引人注目的是,该合作几乎与美国政府动作无缝衔接。2025年8月,美国商务部与财政部依据《芯片 与科学法案》,以89亿美元注资英特尔,获得9.9%股份,实质上将其纳入"半国家化"轨 ...
拆解CANN:当华为决定打开算力的「黑盒」
机器之心· 2025-12-19 06:38
文章核心观点 - 华为昇腾将其底层AI基础软件CANN全面开源开放,旨在通过降低AI算力开发门槛、提供灵活的开发工具和构建开放生态,挑战现有计算架构格局,并推动一个独立于CUDA的AI算力生态快速成长 [2][31] CANN开源的核心价值与目标 - CANN作为连接上层AI框架与底层AI芯片的桥梁,其开源使开发者无需关心芯片细节即可调用底层算力,获得了定义算力的权力 [2] - 开源旨在构建“算力多元世界”,不仅仅是替代,更是邀请开发者共同构建新生态 [31] - 一个不同于CUDA路径的AI算力生态正在基于CANN快速成长 [31] 降低开发门槛:实现“AI算子开发自由” - CANN支持与PyTorch、TensorFlow、MindSpore、PaddlePaddle等主流AI框架无缝对接,并开放GE图开发接口,允许自定义图结构 [5] - 大模型支持覆盖广泛,包括Llama、Mistral、Phi等海外模型及Qwen、DeepSeek、GLM等国产模型,总计超过50种,并参与了超过10个大模型开源社区的生态构建 [6] - 为不同背景开发者提供三条算子开发路径 [7] - **路径一(Triton生态)**:实现与Triton深度对接,支持Python语法编写算子,原有Triton代码可低成本迁移至昇腾NPU [9] - **路径二(Ascend C)**:提供采用C/C++语法风格的原生编程语言,开放底层资源管理接口,允许原子级控制以追求极致性能 [10] - **路径三(模板库)**:提供基于Ascend C的CATLASS算子模板库,通过参数配置快速生成矩阵乘等算子,无需重写复杂逻辑 [11][13] - 针对MoE模型推出MLAPO融合算子,将多算子计算融合为单个高效算子,在DeepSeekV3模型量化场景下,能将计算耗时从109us缩减至45us,带来整网性能提升20% [13][15] - 已在AtomGit开放多个核心仓库,并发布官方容器镜像,提供开箱即用的开发环境 [16] - 已预置超过1400个基础算子、100多个融合算子及15个通信算法,提供“开箱即用”能力 [16] 架构创新:分层解耦带来的灵活性 - CANN的核心创新在于宏观架构上的“分层解耦”,将软件栈拆解为多个功能正交、独立演进的组件 [19][22] - 分层解耦贯穿全栈,从底层驱动到上层编译器、加速库,实现物理松耦合,允许按需引入或升级特定组件,降低系统集成和定制门槛 [22][23] - 具体变化体现在: - **加速库组件化**:算子库被精细拆分为ops-math、ops-nn、ops-cv、ops-transformer等独立组件,改变了过去“全量算子一个包”的发布方式 [24] - **通信库与图引擎独立**:HCCL通信库开放通信算子和框架层,支持自定义通信算法;GE图引擎开放图编译和执行接口,支持自定义图融合策略 [26] - **运行时极简化**:Runtime层剥离冗余模块,实现核心功能最小化,并开放aclGraph接口支持图模式下沉,减少Host与Device间交互开销 [27][28] - 架构解耦后,CANN共有20余个安装包,支持各功能独立演进和编译升级,使开发者能在模型、算子、内核、底层资源等多层级分别进行优化 [29] 开源进展与社区现状 - CANN的全面开源开放正在加速推进,其在AtomGit的代码库非常活跃,几乎每天都有新动态 [33] - 截至目前,CANN项目下已有27个子项目,总star数超过3700,总下载量突破35万 [35] - 开源版图持续扩大,例如核心组件GE(图引擎)以及新型编程范式PyPTO框架等正在建设中 [35] - 开源组件覆盖算子库、通信库、图引擎、编程语言和运行时等多个关键领域 [36]
长江之畔起新潮:马鞍山峰会上的数智实践答卷
搜狐财经· 2025-12-18 06:21
在江淮风华与时代新章的激荡之地,安徽以山河为卷、创新为锋,挥毫绘就自然与发展交相辉映的时代 长卷。 过去几年,安徽不仅闯出了"新赛道",还拼出了"新质生产力"的样板答案。 10月31日,以 "数智世界 徽创未来" 为主题的华为中国行 2025・安徽新质生产力峰会(马鞍山)在马鞍 山落下帷幕。从江淮智慧工厂的"数字孪生",到海螺水泥的首个建材行业大模型,再到皖北煤电的智能 化转型……皖山皖水之间,智慧浪潮正在以磅礴之势,激荡传统产业的革新之路。而这些创新实践,不 仅是安徽数智化成果的集中展示,更勾勒出数字技术与实体经济深度融合的一条独特的安徽路径。 早在 2017 年,华为便深度参与到"数字安徽" 的建设。从顶层规划的谋篇布局,到场景应用的孵化落 地,再到新型数据基础设施的扎实搭建,双方构建了多领域、深层次的合作生态,为政务服务、应急管 理、水利财政等领域的创新实践提供了核心支撑。 战略锚点:从"技术突破"到"生态共建" "DeepSeek的出现,让教育、医疗、制造等行业都能以低成本实现行业大模型训练,这正是AI平权的价 值。华为以自身在制造领域的数智化实践为基础,结合ICT技术优势,形成了从顶层方法论到底层技 ...
朗科科技(300042.SZ):与宝德等伙伴的业务合作内容涵盖鲲鹏、昇腾全系产品
格隆汇· 2025-12-16 08:13
公司业务布局 - 公司深耕存储核心领域,已构建覆盖SSD固态硬盘、DRAM内存条、嵌入式存储、移动存储等全系列产品矩阵 [1] - 公司业务延伸至可穿戴设备、电脑外设等消费电子领域 [1] - 公司已形成“存储主业 + 算力延伸”的发展格局 [1] 子公司业务拓展 - 公司全资子公司韶关乳源朗坤科技有限公司积极拓展服务器销售业务 [1] - 该子公司与宝德等伙伴的业务合作内容涵盖鲲鹏、昇腾全系产品 [1]
华为主席坦言:我们40多年的科技发展,实际上都在给外国企业打工
搜狐财经· 2025-12-12 16:50
文章核心观点 - 中国科技产业过去40年的繁荣建立在西方技术体系之上,本质是“寄生式繁荣”,在指令系统、芯片核心IP、生产工艺等底层技术上严重依赖外部,存在战略脆弱性[1][3] - 美国自2019年以来的系列制裁,包括切断GMS服务、将2000多家中国实体列入“实体清单”等,彻底暴露了依赖外部技术的风险,迫使中国科技企业走上自主创新的“被逼上梁山”之路[7][9] - 华为等中国科技公司正通过“软硬芯云垂直整合”和“非摩尔补摩尔”等策略,以软件和系统优化弥补硬件短板,并构建鸿蒙、欧拉、高斯、仓颉等自主技术体系,旨在为世界提供“另一个选择”,重构生态系统[11][15][21] 中国科技产业的历史依赖与战略短板 - 行业长期遵循“造不如买”的商业逻辑,在光刻机、操作系统等领域因市场小或可直接用而选择不投入,导致基础薄弱[3][5] - 信息技术体系呈现“头重脚轻”格局:应用层(电商、游戏、外卖)和整机层(联想、小米销量霸榜)全球领先,但底层的指令系统、芯片核心IP、生产工艺完全依赖外部[5] - 这种模式被比喻为“在别人的地基上盖楼”或“做插件”,企业赚取辛苦钱,而规则制定者(如Wintel、AA体系)赚取“过路费”和“房租”[1][5] 美国制裁的冲击与行业觉醒 - 自2019年起,美国采取一系列制裁措施:切断Google GMS服务、限制半导体制造工艺、将超过2000家中国实体列入“实体清单”,2025年3月又新增12家,包括浪潮、中科可控及北京智源人工智能研究院等科研机构[7][9] - 制裁行动彻底打破了企业融入全球体系的幻想,使其认识到生存权受到挑战,自主创新从商业选项变为生存必需[7][9] - 华为将开发鸿蒙、欧拉、高斯、仓颉等基础软件定义为“不得不打的战争”,是“被逼上梁山”的战略选择,而非纯粹商业决策[9] 自主创新的战略与路径 - 提出“非摩尔补摩尔”理念,通过系统级优化和软硬协同,用14nm工艺实现接近7nm的性能,以软件补偿硬件制程的不足[11] - 推行“软硬芯云垂直整合”战略,被迫向产业链上游延伸,自主研发指令集、操作系统、数据库、编译器等领域,从终端制造商向全能型生态构建者转型[11][13] - 以DeepSeek为例,其团队仅用139人,在未使用英伟达顶级H100集群和百亿美元训练费的情况下,通过算法与工程优化打造出具有世界级竞争力的R1模型,验证了“以软补硬”的可行性[11] 构建自主生态与未来展望 - 战略目标是为世界提供独立于美国Wintel/AA体系的“第二套方案”或“另一个选择”,核心是构建包括鸿蒙(万物互联底座)、欧拉(服务器)、高斯(数据库)、仓颉(编程语言)、昇腾(算力)在内的自主技术体系[15] - 利用中国全球最大的单一市场作为“大本营”和“战略纵深”,先养活、养大自主体系,再寻求全球影响力[17] - 未来竞争力将基于在数据、应用场景(如电信网络“自动驾驶”、智能汽车AI体、深入矿山油田的工业互联网)上的领先优势,而非单纯依赖算力[17][18] - 行业进入“生态系统重构”阶段,目标是从过去40年的“打工”模式转向未来“自己做老板”,尽管过程艰难,但被视为唯一出路[21]
多项成果登上国际榜单 中国大模型正跻身全球第一梯队
科技日报· 2025-12-08 02:12
中国大模型全球竞争力 - 中国大模型在全球竞技场排名名列前茅,例如百度文心大模型文本能力位列全球第二、国内第一,视觉理解能力位居国内第一、全球前列,智谱GLM-4.6模型在代码能力方面比肩国际主流模型 [1] - 中国大模型正进入全球第一梯队,成为引领生产力跃迁式发展的智能底座 [1] - 截至今年7月,中国已发布1509个大模型,数量位居全球首位,占全球大模型总数的40% [2] - 到2024年底,中外顶尖模型之间的性能已不相上下 [2] 技术创新与架构突破 - 技术迭代速度被视为唯一的“护城河”,大模型能力已逐步走出聊天机器人范畴,在数字人、代码智能体及寻找“全局最优解”等技术上均有长足发展 [1] - 百度文心大模型5.0作为新一代原生全模态大模型,参数量达2.4万亿,采用原生全模态统一建模技术,具备全模态理解与生成能力 [2] - 模型底层设计摒弃了“拼接”不同信息模块的思路,构建了单一连贯的框架,使其能同时理解和生成文本、图像、音频、视频等多元信息,为实现更深层次“通感”智能奠定基础 [2] 开源生态与全球影响力 - 过去一年,中国研发的开源人工智能模型全球下载量占比达到17.1%,超越美国的15.8%,位居全球第一 [3] - 百度文心多模态思考模型接连登顶Hugging Face全球模型总趋势榜和全球多模态模型趋势榜 [3] - 百度已主导1000多项开源项目,累计社区贡献者超2.1万 [3] 全产业链自主可控与生态构建 - 大模型的竞争是底层硬件、平台生态等的全方位竞争,国产AI算力芯片(如昆仑芯、昇腾、寒武纪)快速崛起 [3] - 百度最新发布的新一代昆仑芯产品在性能和成本上实现大幅改善,提供更具性价比的AI算力 [3] - 百度飞桨、华为昇思、旷视天元等自主AI开发平台为大模型落地提供了“好上手、接地气”的成套解决方案 [3] - 百度已构建覆盖“芯片—框架—模型—应用”的全链条自主可控能力 [4] 应用落地与市场规模 - 中国凭借超大规模人口和丰富行业应用场景,已成为全球规模最大、场景最丰富、发展最迅速的大模型“试验场” [3] - 在电力领域,百度支持国家电网推出光明电力大模型,建成覆盖总部及27家省级分公司的统一AI平台,推广无人机智能巡检实现年巡检杆塔500万基,减少人工登塔次数40% [4] - 大模型技术已广泛应用于教育、医疗、金融、智能制造等领域 [4] - 飞桨文心生态开发者已达到2333万,服务企业达到76万家 [4]
昇腾“淬火金种子”广深专场激活开发者创新血脉
环球网· 2025-12-04 08:58
昇腾AI生态建设与赋能活动 - 华为昇腾生态通过“淬火金种子”伙伴能力提升培训广深专场,对生态伙伴进行技术赋能,活动吸引38家伙伴的132位AI开发者通过线上线下方式参训[1] - 培训聚焦AI技术实操与生态共建,覆盖底层架构、模型应用、编程实战全维度技术内容[1] 华为昇腾生态策略与成果 - 公司生态策略为“硬件开放、软件开源、使能伙伴、发展人才”[1] - 生态成果包括联合60多家硬件伙伴发布150多款硬件产品,携手2900多家行业伙伴孵化6700多个行业解决方案,与主要客户/伙伴合作推动50多个基础模型基于昇腾高效开发[1] 培训具体技术内容 - 首日内容聚焦AI应用开发与优化,介绍昇腾基础软硬件平台架构,详解昇腾MindIE大模型推理引擎、vLLM Ascend昇腾插件及知识增强RAG SDK,并通过实操覆盖大模型部署、服务拉起及应用开发全流程[3] - 次日内容深耕大模型训练技术,围绕MindSpeed大模型分布式训练加速套件、昇思MindSpore全场景AI框架动态图能力及AscendCL编程语言展开,呈现大模型训练微调、强化学习及传统CV小模型落地的技术路径[5][6] - 第三日内容直击底层CANN算子编程能力,解读Ascend C编程语言以打造高性能算子,并介绍Triton算子编程语言以实现算子快速开发和跨平台高效迁移[8] 培训模式与反馈 - 活动打破传统单向培训模式,将“技术授课”、“开发者互动”和“需求共创”深度融合,每日课程均设置实操与答疑环节[10] - 现场开发者反馈积极,认为讲师专业、内容生动易懂、实操文档详尽,课程充实实用且能学以致用[10] 活动意义与未来展望 - 此次广深专场培训旨在帮助伙伴补齐技术断点,构建可“技术自闭环”的能力体系,加速产业链技术升级与创新[1] - 立足大湾区,昇腾将持续以开放姿态释放AI软硬件技术能力,用精准赋能破解产业落地痛点[13] - 未来昇腾将与伙伴及开发者并肩前行,让AI技术深度融入产业,加速智能升级,共筑自主创新的智能底座[15]
华为在强化半导体供应链
日经中文网· 2025-11-29 00:33
华为AI服务器与算力 - 华为展示名为"CloudMatrix384"的AI服务器群,搭载自研AI半导体"昇腾" [4] - 华为副董事长徐直军表示该AI服务器群拥有世界最大的算力 [5] - 昇腾研究院首席科学家黄哲学指出,由于美国技术封锁,中国需要依赖华为昇腾自行推进AI半导体开发 [5] 华为供应链投资战略 - 自2019年美国制裁起,华为通过全资投资公司"哈勃"对60多家半导体相关企业进行投资,意图构建自主供应链 [2][6] - 华为投资对象正加强收购同行和建设新工厂等攻势 [6] - 华为以符合国家政策的形式加强供应链,表面上未参与出资对象的投资 [9] 供应链企业动态 - 华为出资2%的华海诚科新材料将国内同行变为完全子公司,累计投资约16亿元,通过扩大规模提高效率 [9] - 华为投资4%的纵慧芯光半导体科技9月在江苏启动新工厂,投资5.5亿元生产光通信用化合物半导体 [10] - 玟昕科技(光刻胶)和中科艾尔科技(阀门及气体管道)均在扩建工厂,两者均由华为少量出资 [10] 政策与行业投入 - 中国在"十五五"规划草案中提出在2026-2030年加速AI半导体等领域自立自强方针 [10] - 中国政府已成立资本金超过7万亿日元的政策性基金支持半导体相关企业 [10] - 据SEMI数据,2026至2028年中国大陆将在300毫米晶圆制造设备投入940亿美元,在各地区中排名第一 [13] 行业竞争格局 - 英伟达等美国企业以与亚欧企业合作为基础实现高竞争力,而中国供应链以华为为核心力争覆盖所有领域 [13] - 目前中国自主技术与美国企业差距仍很大,技术提升存在不确定因素 [13]
一个月市值蒸发5万亿元 英伟达遭遇谷歌自研芯片冲击波
21世纪经济报道· 2025-11-27 23:25
AI芯片市场竞争格局变化 - 谷歌加速自研AI芯片TPU商业化步伐,正与Meta等科技公司洽谈外部采购合作,若合作落地TPU将进入谷歌体系外超大规模数据中心,可能冲击英伟达GPU主导的算力市场[1] - 谷歌推动TPU走向外部客户,Meta考虑从2027年开始在数据中心部署谷歌TPU,并可能最早于2025年通过Google Cloud租用TPU容量,潜在合同金额或达数十亿美元[4] - 全球科技巨头普遍加速自研AI芯片争夺算力主权,从训练到推理、从通用模型到专业应用,企业将掌握自有算力视为下一阶段竞争力关键[6] 英伟达市场反应与应对策略 - 谷歌TPU商业化消息导致英伟达股价震荡,周二美股早盘一度下滑7%,最终收跌约2.6%,自10月29日以来市值从5.03万亿美元跌至4.32万亿美元,缩水超7000亿美元[1] - 英伟达正面回应竞争,强调继续向谷歌供货,自称"领先行业整整一代",是唯一能运行所有AI模型并在所有计算场景中部署的平台[1] - 英伟达创始人黄仁勋指出AI ASIC企业虽多但极少有产品能真正投入生产,强调加速计算技术栈异常复杂[7] 技术路线与市场趋势演变 - 业内观点认为随着AI训练与推理负载增长和多元化,未来更可能呈现ASIC、GPU异构部署,而非单一架构一统天下[2] - 行业正从GPU单线制向多架构、多供应商异构化体系演进,Anthropic同时采用英伟达Blackwell、Rubin系统和谷歌Ironwood TPU,体现"多路线并行"采购趋势[7] - AI基础设施行业从单一硬件竞争转向系统级竞争,随着软件框架、模型体系、能效变化,AI芯片格局持续演变[8] 谷歌TPU发展现状 - 谷歌TPU研发始于2013年,与谷歌云服务紧密结合,最新一代为TPU v7(Ironwood),最近迭代出Gemini 3[4] - 谷歌通过模型和硬件耦合方式强化大模型时代技术闭环,Gemini 3已大量使用TPU完成训练和推理,为TPU商业化提供更强验证场景[4] - 谷歌表示自家定制TPU和英伟达GPU需求都在加速增长,谷歌依然采购英伟达GPU[5] 竞争对手动态 - AWS持续迭代Graviton、Trainium、Inferentia系列自研芯片,势头凶猛,微软在发布自研AI芯片Maia系列后新芯片计划有所推迟[7] - 中国市场后起之秀如华为昇腾、寒武纪、百度昆仑芯等正在快速推进[7] - TPU、Gaudi、Trainium等ASIC芯片往往根据特定框架或任务场景,在特定负载上取得极高效率[5]