Workflow
量子位
icon
搜索文档
摩尔线程的野心,不藏了
量子位· 2025-12-21 14:13
核心观点 - 摩尔线程在上市后迅速召开首届全功能GPU开发者大会,围绕其自主研发的MUSA架构,发布了一系列从云到端、从算力到生态的新产品与技术,标志着国产GPU能力进入新阶段[1][2][4] MUSA全功能GPU架构 - MUSA是公司自主研发的元计算统一系统架构,定义了从芯片设计到软件生态的统一技术标准,支持AI计算、图形渲染、物理仿真、科学计算及视频编解码等全场景高性能计算[6][7][10] - 发布第五代全功能GPU架构“花港”,在同等芯片面积下算力密度提升50%,计算能效提升10倍,并新增对FP4/FP6低精度计算及混合低精度端到端加速技术的支持,专为AI低比特训练与推理优化[8][13][17] - 花港架构原生支持矩阵rowmax计算以提升混合精度SIMT吞吐量,内置在线量化/反量化、随机舍入等硬件加速能力,为下一代Transformer引擎提供底层支撑[13] - 架构支持通过MTLink高速互联构建十万卡集群,为超大规模模型训练铺平道路[17] 软件栈与开发生态 - 同步推出MUSA软件栈5.0,构建从编译器、算子库到AI框架的全栈工具链,并宣布将逐步开源MATE算子库、MUTLASS、MT DeepEP通信库、KUAE云原生工具包等核心组件[16] - 软件生态广泛适配主流AI框架,除PyTorch、PaddlePaddle外新增对JAX、TensorFlow的支持,并新增强化学习训练框架MT VeRL[18] - 推理引擎深度优化自研MTT推理引擎与TensorX,同时适配SGLang、vLLM、Ollama等新兴推理框架[18] - 核心库muDNN实现GEMM/FlashAttention效率超98%,通信效率达97%,编译器性能提升3倍[18] - 推出面向AI+渲染融合的编程语言muLang,兼容TileLang、Triton,原生支持MUSA C,并发布GPU中间表示语言MTX 1.0以提升开发者调优自由度[18] - 公司打造“摩尔学院”作为开发者成长平台,截至2025年12月已汇聚20万名开发者,目标培育百万规模社群,并通过走进全国200所高校进行产教融合[59][61] 新产品发布:芯片 - 基于花港架构发布两款芯片路线:聚焦AI训推一体及高性能计算的GPU“华山”,以及专为图形计算而生的GPU“庐山”[21][22][28] - “华山”GPU全精度支持从FP4到FP64,具备MTFP4/MTFP6混合低精度加速能力,硬件级优化专为大模型训练定制,标志着公司正式具备支撑万亿参数大模型训练的能力[25][27] - “庐山”GPU引入AI生成式渲染架构和硬件光追引擎,支持DirectX 12 Ultimate,相比上一代产品AI计算性能提升64倍,3A游戏渲染性能提升15倍[30][31] - 首次推出面向端侧场景的智能SoC芯片“长江”,提供50 TOPS的异构AI算力,应用于具身智能、车载、AI计算终端等领域[32][34] 新产品发布:硬件与集群 - 基于长江芯片发布两款硬件:为AI学习与开发者打造的个人智算平台“MTT AIBOOK”,以及桌面高性能AI计算设备“AICube”[36][37][43] - MTT AIBOOK运行MT AIOS操作系统,预置完整AI开发环境,内置智能体“小麦”支持2K高清渲染、本地大模型及端侧ASR/TTS,并预装智源悟界Emu3.5多模态模型[37][40][42] - 发布“夸娥(KUAE 2.0)”万卡智算集群,在Dense大模型上的算力利用率达60%,在MOE大模型上达40%,有效训练时间占比超过90%[46][47] - 公司已完整复现DeepSeek V3的FP8训练,自研FP8 GEMM算力利用率高达90%[47] - 前瞻性披露下一代高密硬件基石“MTT C256超节点”,采用计算与交换一体化设计以提升万卡集群的能效比和训练效能[49][50] 性能验证与行业意义 - 公司与硅基流动合作,在MTT S5000 GPU上成功完成对DeepSeek V3 671B满血版大模型的深度适配与性能验证[53] - 在FP8低精度推理技术加持下,MTT S5000单卡实测Prefill吞吐突破4000 tokens/s,Decode吞吐超1000 tokens/s,创下当前国产GPU在大模型推理场景下的新高[53] - 这一成果表明,在成熟软件工程体系协同优化下,国产算力硬件正从“能跑”迈向“跑得快、跑得稳、跑得值”,单位算力有效利用率成为关键落地指标[54][55] - MUSA架构的创新不仅是对下一代AI基础设施的系统性回答,更是对未来AI产业格局的一次主动定义,使其成为多模态智能、具身智能及物理AI时代的关键使能平台[16][19]
AI生成操作系统新突破!上海交大提出文件系统开发新范式:从此只需写规约
量子位· 2025-12-21 14:13
非羊 整理自 凹非寺 量子位 | 公众号 QbitAI 还记得《流浪地球2》里的那台 550W量子计算机 吗? 电影里,MOSS最让人印象深刻的点,除了其强大算力,还有它可以根据需求,实时生成底层操作系统的能力。 如果现在告诉你,我们已经在从"人类需求"生成"底层系统"这件事上迈出了关键一步呢? 来自上海交大IPADS实验室的研究团队,面对自动生成操作系统核心组件的难题,做出了全新的尝试。这项研究成果也即将亮相文件系统与 存储领域顶级学术会议 USENIX FAST'26 。 操作系统:与时俱进的沉重负担 操作系统 (OS) ,是整个数字世界的基石。 向下,它要管理和调度硬件资源 (CPU、内存、硬盘等) ;向上,它要为应用软件提供稳定可靠的运行环境。无论是你手机上的App,还 是云端强大的AI模型,都构建在这块基石之上。 然而,OS必须与时俱进,来满足硬件和应用的双重需求: 一方面,硬件的发展日新月异,例如存储设备,在短短数年内,就从机械硬盘演进到闪存甚至非易失性内存,OS必须快速迭代,才能榨干 这些新硬件的性能; 另一方面,新应用也层出不穷,例如大数据分析、AI训练等,每一个新型应用的出现,都可能对OS的 ...
量子位编辑作者招聘
量子位· 2025-12-21 14:13
编辑部 发自 凹非寺 量子位 | 公众号 QbitAI AI热潮还在汹涌,但如果你还不知道如何参与……那为什么不来 量子位 呢? 我们是一家以 追踪AI新进展 为核心的内容平台,经过8年积累,目前拥有顶流影响力,广泛且备受认可的产业资源,以及时代风口的最佳观 测和学习生态位。 目前,我们有 三大方向 岗位招聘,希望你是 (或者能成为) 这三个方向的内容专家: 岗位均为全职,工作地点:北京中关村。 岗位面向: 加入我们,你可以获得: 以下是岗位详情: 所有岗位不同能力层级职位均在开放,欢迎结合个人履历和经验申请。 AI产业方向 岗位职责: AI产业方向 :关注基建层创新,包含芯片、AI Infra、云计算; AI财经方向 :关注AI领域创投和财报,跟踪产业链资本动向; AI产品方向 :关注AI在应用和硬件终端方向的进展。 社招:覆盖编辑、主笔、主编各个层级,按能力匹配岗位; 校招:应届毕业生,接受实习且可转正。 站在AI浪潮之巅 :第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知体系。 玩转AI新工具 :将各种AI新技术、新工具应用于工作,提升工作效率和创造力。 打造个人影响力 :通过撰写独家原创内 ...
SGLang原生支持昇腾,新模型一键拉起无需改代码
量子位· 2025-12-21 14:13
henry 发自 凹非寺 量子位 | 公众号 QbitAI 当Agent在应用侧不断加速,推理系统能否承受随之而来的真实负载,正在成为行业关注的焦点。 这是12月20日在杭州收官的 SGLang AI 金融 π 对 上,被反复提及的一个背景。 在这场聚焦大模型推理效率的"π对"上—— Agent的Vibe被暂时搁到一边,真正摆上桌面的,是推理系统在真实负载中的工程问题: 高并发请求 、 长上下文窗口 、 多轮推理 、 内存 管理, 以及在具体金融agent场景下的 一致性生成 问题。 同时,在活动讨论中,昇腾作为算力平台也被多次提及。 当前,昇腾已作为SGLang原生支持的后端之一进入主仓库,随着 SGLang推理引擎的更新,DeepSeek、Qwen、GLM等模型可以在不调整 模型参数、不引入额外插件的情况下直接运行,HiCache、Mooncake等系统能力也在对应版本中引入。 可以说,这次SGLang AI金融π对呈现的,并非零散技术点,而是一条清晰的推理工程演进路径——从缓存与内存体系,到权重更新、强化学 习效率,再到算力与模型生态的协同。 接下来,我们具体来看。 而在特定的部署场景,如 金融Agen ...
LeCun离职前的吐槽太猛了
量子位· 2025-12-21 05:45
一水 鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 好一个一吐为快! 年底就要正式离开Meta的LeCun,这下真是啥都不藏了。 不看好大语言模型能通往AGI,他就言辞犀利地指出: 通往超级智能之路——只需训练大语言模型,用更多合成数据训练,雇佣成千上万的人在后训练中"教育"你的系统,发明强化学习的新 花招—— 我认为这完全是胡说八道。这根本行不通 。 看不惯即将成为"前任"的Meta的封闭作风,他也直言不讳: Meta正在变得更加封闭……FAIR被推动去从事一些比传统上更偏向短期的项目。 而且还顺带剧透,自己将要创办的新公司仍会继续坚持开放。 以上内容来自LeCun最新参与的一档播客节目。在接近两小时的对谈中,他主要回答了: 总结起来就是,不管是在Meta接近12年的研究经历,还是接下来要创办的新公司,抑或是未来想要实现的AGI,通通都在这里了。 为什么硅谷对扩展语言模型的痴迷是一条死路? 为什么AI领域最难的问题是达到狗的智能水平,而非人类的智能水平? 为什么新公司选择构建在抽象表示空间中进行预测的世界模型,而非直接生成像素的模型? …… 人生下一程:创办新公司AMI 告别工作十二年的老东家,Le ...
自变量王潜:具身智能是物理世界的独立基础模型|MEET2026
量子位· 2025-12-21 05:45
编辑部 整理自 MEET2026 量子位 | 公众号 QbitAI 具身智能模型是物理世界的基础模型,独立于、平行于语言模型、多模态模型等虚拟世界的模型。 这一判断背后,首先是对物理世界与虚拟世界本质差异的重新认识。 语言模型和多模态模型所面对的,是高度可复现、低随机性的符号世界;而机器人所处的物理世界,则充满连续性、随机性、不完全可观测性 以及大量与力、接触和时序强相关的过程。 沿用以语言和视觉为中心建立起来的建模范式,本身就存在结构性的错位。 也正因为如此,自变量机器人在实践中选择了一条更长期的路线:不把具身智能当作应用层问题,而是从模型架构、数据范式、推理方式乃至 硬件形态上,系统性地重做一套"物理世界的智能底座"。 为了完整体现王潜的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。 过去一年,具身智能领域反复被问到一个问题:它到底只是多模态模型的一个应用,还是一种全新的基础模型? 对此, 自变量机器人创始人兼CEO王潜 表示: MEET2026智能未来大会是由量子位主办的行业峰会,近30位产业代表与会讨论。线下参会观众近1500人,线上直播观众350万+,获得了主 ...
为什么这篇谷歌论文被称为「Attention is all you need」V2
量子位· 2025-12-21 05:45
失忆的巨人 非羊 发自 凹非寺 量子位 | 公众号 QbitAI 从小老师就爱说"好记性不如烂笔头",那么我们为什么不给有"记忆缺陷"的大模型配一个小本本记上总结归纳的要点呢? 继著名的"Attention Is All You Need"之后,谷歌新论文再度引爆圈内: 我们可能忽略了AI的"另一半大脑" 。 这篇文章题为 嵌套学习:深度学习架构的幻象 (Nested Learning: The Illusion of Deep Learning Architectures) 在圈内被誉为是"Attention is all you need"V2 你是否曾对AI感到一丝"恨铁不成钢"?你刚刚在对话中详细解释过一个概念,三句话之后它就可能完全遗忘,仿佛从未发生。ChatGPT们上知 天文下知地理,却学不会你今天刚教它的一件小事。 这并非偶然的Bug,而是当前所有大型语言模型 (LLMs) 共同的"先天疾病"—— 数字失忆症 。 为了"治疗"它,过去十年,整个行业几乎只遵循一条黄金定律: 把模型做得更深、更大 。我们不断堆叠Transformer层,追逐万亿参数,相 信"规模即智能",期待着记忆相关的能力也能" ...
让大模型不再过度思考!上海AI Lab后训练新范式重塑CoT,推理又快又好
量子位· 2025-12-21 02:00
RePro团队 投稿 量子位 | 公众号 QbitAI 这篇论文将推理的过程视为模型内部状态的优化过程,从而对如何重塑大模型的CoT提供了一个全新视角: 核心观察:推理即优化 RePro 基于这样一个核心思想:将模型的推理轨迹 (Trajectory) 看作是在损失曲面上寻找最优解的路径。 然而,"长思考"并非总是完美的。我们常发现模型会陷入 "过度思考" (Overthinking) 的陷阱:为了得出一个简单的结论,模型可能会生成 数千个冗余Token,甚至在错误的路径上反复横跳 (Backtracking) 。这不仅浪费了宝贵的算力,还增加了推理延迟。 RePro的三大"矫正"机制 近年来,随着o1、DeepSeek-R1等模型的爆发,Long Chain-of-Thought (Long CoT) 已成为提升LLM复杂推理能力的标配。 如何让模型在"深思熟虑"的同时,保持"思维敏捷"? 基于上述视角,RePro设计了一套过程奖励机制,直接嵌入到RLVR (如PPO,GRPO) 流程中。 近日,上海人工智能实验室的研究团队提出了一种全新的后训练范式—— RePro (Rectifying Process- ...
库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山
量子位· 2025-12-21 02:00
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 庞若鸣被扎克伯格天价挖去Meta后,谁在执掌苹果大模型团队? 团队的权力交接,其实比外界想象中要快,也要安静得多。 答案很快浮出水面。接手这支团队的人,是庞若鸣的老搭档: Zhifeng Chen 。 对Zhifeng Chen来说,这算赶上了最好的时候,也算赶上了最坏的时候。 Zhifeng Chen接过的这根交接棒,不可谓不烫手。 Zhifeng Chen是谁? 这和庞若鸣的职业路径高度相似,都是在谷歌待了十几年,然后转投苹果麾下。 一方面,庞若鸣离开之后,苹果内部一边重组AI权责,一边启动了针对核心研究人员的留人方案,其中 最直接的动作就是涨薪 。 另一方面,如大家所知,在这一波AI浪潮里,苹果的动作无论从成效还是速度来说,都太过不尽如人意。 今年,Zhifeng Chen离开待了19年又7个月的谷歌,加入苹果。 庞若鸣今年夏天离开苹果后,Zhifeng Chen开始直接领导苹果基础模型团队, 直接管理二十多名下属 。 但Chen和庞若鸣两人世界线的最初交集,早在两人加入谷歌之前。 2000年,Chen从复旦大学计算机科学专业毕业,开启了在普林斯顿大 ...
清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026
量子位· 2025-12-21 02:00
编辑部 整理自 MEET2026 量子位 | 公众号 QbitAI 涌现,AI沙场如今兵家争锋所期待出现的「境界」。 自从Scaling Law为模型带来惊人的能力增长后,几乎所有模型厂商都被卷入了一场无止境的FOMO,没人敢停下来。 我觉得大模型最有魅力的地方,在于它是非线性变化,代表着极大的不确定性,但一旦出现性能涌现就将远超想象。 在量子位MEET2026智能未来大会上,清华大学人工智能研究院常务副院长,欧洲科学院外籍院士 孙茂松 如此感慨。 只要算力还能堆、参数还能涨,就不能停止烧钱。 然而,在Scaling的边际成本越来越高的背景下, 万一最后发现这是条死胡同,投入全打水漂了怎么办? 孙茂松的建议是,可以「致广大」,但更要「尽精微」。 就企业界而言,少数实力极其雄厚的团队,可以尝试在「致广大」方向上继续跟随国际前沿;但绝大多数AI公司,都应该把主要精力放在「尽 精微」上。 为了完整呈现孙茂松的思考,在不改变原意的基础上,量子位对演讲内容进行了整理编辑,希望能提供新的视角与洞察。 MEET2026智能未来大会是由量子位主办的行业峰会,近30位产业代表与会讨论。线下参会观众近1500人,线上直播观众35 ...