量子位

搜索文档
DeepSeek新模型上线!引入DSA新稀疏注意力,还又狙了CUDA一枪
量子位· 2025-09-29 10:44
编辑部 发自 凹非寺 量子位 | 公众号 QbitAI 刚发V3.1"最终版",DeepSeek最新模型又来了! DeepSeek-V3.2-Exp 刚刚官宣上线,不仅引入了新的注意力机制—— DeepSeek Sparse Attention 。 还开源了更高效的TileLang版本GPU算子 ! DeepSeek-V3.2-Exp基于上周刚更新的DeepSeek-V3.1-Terminus打造,核心创新是引入了 DeepSeek Sparse Attention(DSA)稀疏注 意力机制 。 DSA 首次 实现了 细粒度注意力机制 ,能在几乎不影响模型输出效果的前提下,实现长文本和推理效率大幅提升。 目前,官方App、网页端、小程序均已同步更新,同时还有 API大减价:5折起 。 这波DeepSeek国庆大礼包,属实有点惊喜了。 新注意力机制 V3.1-Terminus是在 DeepSeek-V3.1基础上的一个 强化版本 ,在稳定性、工具调用能力、语言一致性、错误修正等方面进行迭代改进。 与前不久更新的DeepSeek-V3.1-Terminus对比,在各领域公开测评集上,DeepSeek-V3.2-E ...
十亿级参数,千亿级性能,上海AI Lab发布新一代文档解析大模型,复杂场景解析精度媲美人类专家
量子位· 2025-09-29 10:44
MinerU2.5团队 投稿 量子位 | 公众号 QbitAI 大模型越来越大,参数量动辄千亿,但真要在实际场景里做到"高精度+高效率",却并不容易。 | Model Type | Models | Slides | Academic | Book | Textbook | Exam | Magazine | Newspaper | Notes | Financial | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | | | | Papers | | | Papers | | | | Report | | | Marker-1.8.2 [32] | 0.1796 | 0.0412 | 0.1010 | 0.2908 | 0.2958 | 0.1111 | 0.2717 | 0.4656 | 0.0341 | | Pipeline | MinerU2-pipeline [46] | 0.4244 | 0.0230 | 0.2628 | 0.1224 | 0.0822 | 0.395 | 0.0736 | 0.2603 ...
前馈3D高斯泼溅新方法,浙大团队提出“体素对齐”,直接在三维空间融合多视角2D信息
量子位· 2025-09-29 04:57
核心观点 - VolSplat通过体素对齐策略突破像素对齐方法的局限性 显著提升三维重建的视觉质量与几何一致性 并展现出优异的工程化潜力与跨数据集泛化能力 [2][4][15] 技术突破 - 采用体素对齐框架替代像素对齐策略 在三维空间直接融合多视角特征 解决二维特征难以三维对齐及高斯基元数量受像素网格限制的问题 [2][6][7] - 通过三维体素网格实现多视角特征聚合与多尺度细化 天然消除视图间不一致性 并支持高斯基元根据场景复杂度动态分配 [7][9][13] - 在RealEstate10K数据集上PSNR达31.30(较最佳基线27.47提升13.9%) SSIM达0.941(较基线0.889提升5.8%) LPIPS降至0.075(较基线0.114改善34.2%) [5] - 在ScanNet室内数据集上PSNR达28.41(较基线27.45提升3.5%) SSIM达0.906(较基线0.829提升9.3%) LPIPS降至0.127(较基线0.222改善42.8%) [5] 工程化优势 - 模块化设计分为三阶段:2D特征与深度估计 像素到体素的反投影聚合 体素级特征细化与高斯回归 便于分步调试与系统优化 [9][11][12][14] - 支持与外部3D信号(深度图 点云)自然融合 无需复杂投影操作 提升系统扩展性 [13] - 使用稀疏3D U-Net进行多尺度几何上下文融合 以残差形式预测体素修正项 提升计算效率与稳健性 [14] 应用前景 - 在机器人及自动驾驶领域可提供更稳定的三维感知输入 [19] - 在AR/VR领域可实现更流畅真实的渲染体验 显著减少浮空伪影与几何畸变 [17][19] - 在三维视觉研究中为多模态数据融合提供新途径 具备跨数据集零样本泛化能力(ACID数据集PSNR达32.65dB) [15][19]
华为盘古718B模型最新成绩:开源第二
量子位· 2025-09-29 04:57
华为openPangu大模型技术优势 - 在SuperCLUE中文大模型测评中 华为openPangu-Ultra-MoE-718B以58.87总分位列开源国产模型第二名 仅次于深度求索的61.44分[1][2][3][5] - 该模型采用718B参数规模的混合专家架构 在幻觉控制维度获得81.28高分 显著优于多数竞品[4][6] 核心训练方法论 - 采用质量优先原则构建后训练数据 建立"数据生成-科学筛选-精准增强"全流程方案[10][11][13] - 实施三阶段预训练策略:通用阶段构建世界知识 推理阶段强化逻辑能力 退火阶段扩展上下文长度至128K并增加指令数据[15][16][17] - 引入批判内化机制缓解幻觉 通过自我批判信号引导模型审视推理过程[19][20][22] 工具能力优化方案 - 采用ToolACE框架生成高质量多轮多工具调用数据 提升Agent复杂任务处理能力[23][24][26] - 通过领域工具组合 交互式目标轨迹生成和多智能体对话生成技术增强工具协同使用能力[30] 后训练优化体系 - 使用渐进动态微调(PDFT)平衡过拟合与欠拟合 从SFT平滑过渡到动态微调[28][29] - 采用GSPO算法提升MoE模型训练稳定性 避免性能衰退[31][32] - 通过黑盒优化模型融合方法整合多版本模型优势 自动搜索最佳融合权重[33][34] 行业技术标杆价值 - 系统性技术创新涵盖预训练 数据构建 幻觉控制 工具学习及后训练优化全环节[35] - 提供不依赖数据规模而注重思考质量的技术路径 为行业提供极致打磨技术细节的范本[6][35]
Flash Attention作者最新播客:英伟达GPU统治三年内将终结
量子位· 2025-09-29 04:57
英伟达市场地位与竞争格局 - 英伟达当前在AI芯片市场占据约90%主导地位,主要优势在于芯片设计、软件生态及网络通信技术[9][10] - AMD在推理端具备内存容量优势,但在训练端因网络通信瓶颈仍落后于英伟达[10] - 未来2-3年内AI硬件格局将转向多元化,专用芯片厂商如Cerebras、Grok、SambaNova将针对不同工作负载实现差异化竞争[23][24] AI芯片技术发展趋势 - 芯片设计将更适配Transformer、MoE等特定架构,工作负载集中化使专用芯片开发更易实现[10] - 稀疏计算(如MoE架构)增加芯片设计复杂度,需应对内存访问模式变化[13][14] - 硬件需支持三类工作负载:低延迟智能体系统(毫秒级响应)、高吞吐批量处理(海量数据生成)、交互式聊天机器人[24][96][111] 推理成本优化与技术突破 - 近三年推理成本下降约100倍,未来有望再降低10倍[73][90] - 量化技术推动参数表示从16位降至4位,GPT-oss模型1200亿参数仅需60GB存储空间[82][83] - 架构优化如Flash Attention减少内存访问,DeepSeek的multi-head latent attention压缩KV缓存规模[84] - MoE架构显著提升稀疏度,从Mistral的8专家激活2个(25%)演进至GPT-oss的128专家激活4个(1/32)[86][87] 模型架构演进方向 - Transformer仍是基础架构,但MoE、状态空间模型(如Mamba)等创新持续涌现[13][94][132] - 混合架构(Transformer+Mamba)在降低成本的同时提升推理性能[132] - 架构设计趋向"推理优先",以最大化每浮点操作的推理效率[131][133] AI工作负载分类与优化 - 三类核心工作负载形成:传统聊天机器人(中等延迟)、极低延迟场景(代码辅助等)、大规模批处理(合成数据生成)[96][111] - 低延迟场景用户愿支付更高成本,高吞吐场景注重批量折扣(如OpenAI批量API提供50%折扣)[24][110] - 代理型工作负载成为新焦点,需整合Web搜索、工具调用等外部能力[20][115] 开发工具与抽象层进展 - Triton成为跨芯片抽象层关键,支持英伟达、AMD、Intel GPU,但需牺牲约5%性能换取开发效率提升[38][40][41] - Mojo、Gluon等领域专用语言快速迭代,解决GPU内核开发痛点[45][50][52] - AI辅助编程工具(如Claude Code)提升开发效率约1.5倍,但全自动内核生成仍处早期阶段[56][67][68] 新兴应用场景与市场机会 - 实时视频生成成为消费端趋势,代表企业包括Pika Labs、Hetra[117][118] - 机器人领域存在重大机遇,需解决多分辨率数据处理与现实世界交互数据缺失问题[135][137][138] - 合成数据市场被低估,在航空、金融等专业领域具有经济价值[99][102][148] 学术与产业协同创新 - 基础突破多源于学术界(如Attention机制、Adam优化器、LayerNorm),产业界负责商业化落地[143][144][145] - 学术探索周期长(2-3年),产业执行速度快(周/月级),形成互补创新模式[140][145] - 政府资金支持早期探索(5-10%成功率),风险投资推动规模化应用[142][146]
8.9ms,推理速度新记录!1块钱百万token,浪潮信息AI服务器加速智能体产业化
量子位· 2025-09-29 04:57
产品发布与技术创新 - 浪潮信息发布超扩展AI服务器元脑HC1000 显著降低AI推理成本[2] - 推出元脑SD200超节点AI服务器 将DeepSeek-R1的Token生成时间缩短至毫秒级[3] - 元脑SD200采用多主机3D Mesh系统架构 显存统一地址空间扩增8倍 支持单机64路纵向扩展[19] - 元脑SD200通过极简三层协议栈实现百纳秒级通信延迟 并支持硬件级链路层重传[21][22] - 元脑HC1000通过计算流程解耦设计 将推理Prefill和Decode阶段分离 提升资源利用效率[38][39] - 元脑HC1000采用16卡计算模组设计 实现单卡成本降低60% 系统均摊成本降低50%[27][40] 性能突破与效率提升 - 元脑SD200将大模型端到端推理延迟控制在10ms以内 DeepSeek-R1的TPOT仅8.9ms[10] - 元脑SD200实现DeepSeek-R1 671B推理最高16.3倍超线性扩展率[10][25] - 元脑HC1000推理性能相比传统RoCE提升1.75倍 单卡算力利用率最高提升5.7倍[41] - 元脑HC1000将每百万Token输出成本降至1元人民币[27] 行业趋势与应用场景 - AI竞赛进入智能体产业化阶段 能力/速度/成本成为核心竞争要素[5] - 智能体时代Token消耗量暴增 辅助编程场景月消耗量同比增长50倍[30] - 企业部署单个智能体月均Token成本达5000美元 未来5年将呈指数级增长[31][32] - 金融交易等场景对响应时效要求苛刻 反欺诈算法需在10毫秒内完成风险识别[16] 架构演进与未来方向 - 通用GPGPU架构面临系统规模/电力压力/算效不平衡三大挑战[46][47] - 行业需从规模导向转向效率导向 发展AI专用计算系统[48] - 专用架构效率高但应用面窄 通用架构易推广但效率低 需协同发展[49] - 公司将针对核心算法算子进行硬件化设计 实现性能数量级提升[52]
GPT-5为量子计算提供关键思路!大牛盛赞:不到半小时给出“灵魂一击”
量子位· 2025-09-29 03:46
一水 发自 凹非寺 量子位 | 公众号 QbitAI GPT-5还是被低估了?? 难如量子复杂性理论,它也能在 不到半小时内给出关键证明思路 。 消息来自量子计算理论大牛Scott Aaronson的一篇博客,他在当中无限感慨道: 如果是一个学生把它 (GPT-5提供的思路) 交给我,我会说他很聪明。 而且通过对比一年前使用GPT的相似经历,Scott直言: 之前的结果远不如现在……在2025年9月,我可以凭经验告诉大家,AI终于攻克了最具人类特质的人类智力活动,即证明量子复杂度类 之间的预言分离。 所以,到底是什么样的问题被GPT-5给出了"灵魂一击"? 来看Scott讲述的完整事件经过—— GPT-5不到半小时给出关键思路 大约几天前,Scott和另一位伙伴Freek Witteveen (来自荷兰数学和计算机科学研究学会) 发表了一篇论文。 标题为《Limits to black-box amplification in QMA》,主要研究在量子复杂度类QMA中黑盒放大技术的局限性。 要想稍微搞懂这项研究,我们就不得不先了解啥是QMA (Quantum Merlin Arthur) ? 打个比方,想象你 ...
十位离职华为的「天才少年」
量子位· 2025-09-28 11:54
Jay 发自 凹非寺 量子位 | 公众号 QbitAI 聚是「天才少年」,散是满天星。 说「天才少年」不可谓不贴切。这个在华为最艰难时期被推出的人才计 划, 一度备受瞩目,一度千金市骨,一度吸引了最具才华和实力的 中国年轻人奔赴松山湖 ——华为公司 总部办公所在地。 但人如流水,有来有往。特别是在AI技术爆发的新周期里,「天才少年」开始四散江湖,成为了中国AI浪潮里的满天繁星。 有人创业,有人重返高校。 随便一盘点,就有10位身处江湖的华为天才少年。 聚是「天才少年」,散是满天星 根据公开资料,目前天才们有两个比较引人注目的就业方向—— 创业派和高校派 。 | 去向 | 姓名 | 入职华为时间 | 原职务方向 | 离职时间 | 现状 | | --- | --- | --- | --- | --- | --- | | 创业 | 彭志辉 | 2020年 | 昇腾计算 | 2022年 | 智元机器人 | | | 季宇 | / | 昇腾编译器 | 2023年 | 行云集成电路 | | | 丁文超 | 2020年 | 智能驾驶 | 2023年 | 它石智航 | | | 王乃行 | 1 | Al 算力 | 2024年 | ...
Transformer作者初创公司最新成果:开源新框架突破进化计算瓶颈,样本效率暴涨数十倍
量子位· 2025-09-28 11:54
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 开源框架实现样本效率提升数十倍! 同样的任务,以前要上千次的评估,现在150个样本就能完成。 Transformer作者Llion Jones带着自己的初创公司Sakana AI,又来搞事情了。(doge) 最新推出的开源框架—— ShinkaEvolve ,可以让LLM在自己写代码优化自己的同时,还能同时兼顾效率,be like为进化计算装上一个"加 速引擎"。 主要通过三项架构创新,在数学优化、智能体设计、竞争性编程等多个任务上证明了其性能优势。 可以说,性能比肩谷歌的 AlphaEvolve ,但样本更高效,而且还开源! 下面是更多具体细节。 三大创新技术的引入 想象一下,如果要让LLM通过进化计算找到问题的最优解,需要走多少步? 以AlphaEvolve为例,首先生成一个猜想,然后跑实验验证、吸取教训,再提出更好的猜想……循环往复,不断逼近真理。 这样下来即使是最简单的一个实验也要花费巨大资源,计算成本昂贵且耗时严重。 而ShinkaEvolve框架则针对上述问题,实现了性能与效率的双重程序进化,其核心在于三大关键技术: 平衡探索与利用的亲本抽样技 ...
机器人感知大升级!轻量化注入几何先验,成功率提升31%
量子位· 2025-09-28 11:54
当前基于显式深度输入的增强方案虽有效,但依赖额外传感器或深度估计网络,存在部署难度、精度噪声等问题。 Evo-0团队 投稿 量子位 | 公众号 QbitAI 在机器人学习领域,如何让AI真正"看懂"三维世界一直是个难题。 VLA模型通常建立在预训练视觉语言模型(VLM)之上,仅基于2D图像-文本数据训练,缺乏真实世界操作所需的3D空间理解能力。 为此, 上海交通大学和剑桥大学提出一种增强视觉语言动作(VLA)模型空间理解能力的轻量化方法Evo-0, 通过隐式注入3D几何先验 , 无需显式深度输入或额外传感器。 该方法利用视觉几何基础模型VGGT, 从多视角RGB图像中提取3D结构信息 ,并融合到原有视觉语言模型中,实现空间感知能力的显著提 升。 在rlbench仿真实验中,Evo-0在5个需要精细操作的任务上,平均成功率超过基线pi0 15%,超过openvla-oft 31%。 Evo-0:实现2D–3D表征的融合 Evo-0提出将VGGT作为空间编码器,引入VGGT训练过程中针对3D结构任务提取的t3^D token。这些token包含深度上下文、跨视图空间对 应关系等几何信息。 模型引入一个cross- ...