Workflow
量子位
icon
搜索文档
DeepSeek V3.1更新「最终版」!下一次是V4/R2了???
量子位· 2025-09-23 03:14
模型更新与性能改进 - DeepSeek-V3.1-Terminus版本发布 主要针对用户反馈问题修复 包括缓解中英文混杂和偶发异常字符问题[2][3] - 新版本优化Code Agent与Search Agent表现 提升AI Agent能力[7][8] - 模型评测显示Terminus版本在多数基准测试中表现提升 包括MMLU-Pro从84.8提升至85.0 GPQA-Diamond从80.1提升至80.7 Humanity's Last Exam从15.9大幅提升至21.7[9] - Agent能力显著增强 BrowseComp从30.0提升至38.5 SimpleQA从93.4提升至96.8 SWE Verified从66.0提升至68.4 SWE-bench Multilingual从54.5提升至57.8[9] 版本命名与未来规划 - Terminus版本名称暗示可能是V3系列最终版本 下一步可能推出V4或R2架构[5][7][11] - 公司被曝预计2024年底推出新模型 重点发展更强大AI Agent能力[8][14] - 部分基准测试出现性能波动 如Codeforces评分从2091下降至2046 引发用户讨论[9][10] 模型获取与行业动态 - 新模型已在Hugging Face和ModelScope平台开放下载[15] - 行业正在开展2025人工智能年度榜单评选 设立企业 产品 人物三大维度五类奖项[15]
全是套路!英伟达千亿美元投OpenAI,奥特曼拿钱买卡还让甲骨文赚差价
量子位· 2025-09-23 01:10
英伟达与OpenAI战略合作 - 英伟达计划向OpenAI投资最高1000亿美元 分阶段投入 首笔100亿美元将在首个1GW数据中心部署完成时支付 预计2026年下半年基于Nvidia Vera Rubin平台落地[1][3][13] - OpenAI承诺构建至少10GW的AI数据中心 全部采用英伟达系统 相当于部署400-500万个GPU[1][11] - 建成1GW数据中心的成本约为500-600亿美元[2][12] 三方供应链与资金循环 - OpenAI向甲骨文支付3000亿美元云服务订单 推动甲骨文单日股价暴涨36% 市值增长2510亿美元[16] - 甲骨文需向英伟达采购GPU以支持云服务 形成资金流动闭环:英伟达投资OpenAI→OpenAI支付甲骨文→甲骨文采购英伟达芯片[6][17][18] - 三方各获核心利益:OpenAI保障算力基础 英伟达锁定客户并巩固供应链地位 甲骨文提升云计算市场份额[18][23][24] 合作背景与战略意义 - OpenAI的ChatGPT周活用户达7亿 需大规模算力支持模型迭代与运维[22] - 英伟达通过投资强化与AI龙头企业的绑定 同时近期还对英特尔、Nscale等公司投资 并斥资超9亿美元收购AI Infra初创公司[30][31] - 双方强调计算基础设施为未来经济基石 合作将推动AI领域下一次飞跃[26][27][29]
百度开源视觉理解模型Qianfan-VL!全尺寸领域增强+全自研芯片计算
量子位· 2025-09-22 11:16
文章核心观点 百度智能云千帆推出全新视觉理解模型Qianfan-VL系列并全面开源 该系列包含3B、8B和70B三个版本 针对企业级多模态应用场景深度优化 在通用能力 垂直场景OCR和教育以及思考推理方面表现卓越 基于百度自研昆仑芯P800芯片实现高效计算 在多项基准测试中达到SOTA水平[1][2][3] 模型性能与效果 - 在通用能力基准测试中 模型性能随参数规模增大提升显著 3B 8B 70B版本在ScienceQA测试中精准度分别达95.19% 97.62% 98.76% 在RefCOCO物体识别测试中平均得分达85.94% 89.37% 91.01%[2][4] - 多尺寸模型满足不同场景需求 3B 8B 70B三种规格覆盖不同规模企业需求 8B和70B模型支持通过特殊token激活思维链能力 覆盖复杂图表理解 视觉推理和数学解题场景[3] - OCR与文档理解能力增强 具备全场景OCR识别能力 包括手写体 数学公式 自然场景文字和卡证票据信息结构化提取 在OCRBench测试中得分达831 854 873[3][5][6] 技术架构与计算能力 - 采用先进多模态架构设计 通过持续预训练和四阶段训练策略实现领域能力显著提升 构建面向多模态任务的大规模数据合成管线 涵盖文档识别 数学解题 图表理解等核心任务[9][12] - 基于百度自研昆仑芯P800芯片构建超大规模分布式计算系统 支持单任务5000卡规模并行计算 显著提升大模型任务处理性能与运行效率[1][12] 应用场景案例 - 数学推理场景中 8B和70B模型在MathVista-mini测试中得分达69.19%和78.6% 在MathVision测试中得分达32.82%和50.29% 展现卓越复杂图表理解和数学解题能力[7][8] - 文档理解场景中 模型可精准解析财务报表等复杂版面文档 实现自动版面元素分析和表格图表解析 支持文档智能问答与结构化解析[27][29][31] - 模型同样适用于图表分析 视频理解等场景 均呈现卓越效果[33] 开源与推广 - Qianfan-VL系列模型全面开源 提供3B 8B 70B三个版本 即日起至10月10日可在百度智能云千帆平台免费体验8B和70B模型[1][34] - 开源资源包括模型Blog GitHub主页 Hugging Face仓库和技术报告 全方位支持开发者使用和研究[34]
腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光
量子位· 2025-09-22 11:16
核心观点 - 腾讯混元3D Studio是一个专为3D设计师、游戏开发者和建模师打造的专业级AI工作台 通过集成七大核心技术模块实现从概念设计到动画生成的全流程自动化 将3D资产生产周期从几天缩短至分钟级 [3][4][6] 核心技术模块 组件拆分 - 利用连通性分析和语义分割算法自动拆解复杂模型为功能独立组件(如步枪的弹匣、枪管和枪托) 支持独立编辑和动画制作 [9] - 采用原生3D分割模型P³-SAM进行部件检测 包含特征提取器、三个分割头和IoU预测头 通过FPS生成点提示和NMS合并冗余掩码 [14][15][18] - 提出可控扩散框架X-Part 基于部件级提示和语义特征扰动实现有意义的部件分解 在多个基准测试中达到最优表现(CD1指标0.11 Fscore-0.1达0.80 Fscore-0.5达0.71) [21][25][26] 可控图像生成 - 支持文本或图像输入生成多视图设计图 专用A-Pose标准化模块确保角色骨架姿势一致性 风格迁移模块匹配目标游戏美术风格 [9][32] - 图像风格化模块通过三元组训练数据(输入参考图像 风格类型 风格化3D设计图)实现写实图像与风格化作品的精确映射 [33][34] - 姿态标准化模块采用分辨率递进训练(512×512至768×768) 结合SFT和DPO微调提升生成图像在面部、复杂服饰等细节的保真度 [40][41] 高保真几何生成 - 基于Hunyuan3D框架 包含ShapeVAE变分编码解码结构和DiT扩散模型 通过21层Transformer堆叠(含MoE子层)提升模型容量 [43][45][46] - 支持单视图/多视图图像条件生成 引入包围盒条件控制(编码高宽长为条件向量)和多视图图像条件约束(通过LoRA适配层合成多视角视图) [47][49][51] - 采用流匹配目标训练 将高斯噪声映射到形状潜变量 实现高效高质量采样 [47] 低模拓扑生成 - 采用自回归模型PolyGen从高模点云预测低模拓扑顶点和面 通过Blocked and Patchified Tokenization(BPT)方法提升训练推理效率 [57][59][60] - 网络结构包含点云编码器(Perceiver架构)和Hourglass Transformer解码器 采用截断训练策略(4k面序列片段)和滚动缓存推理 [60] - 基于拓扑感知掩码的DPO后训练 通过边界边比(BER)、拓扑分数(TS)和豪斯多夫距离(HD)指标优化网格质量 [61][62][63] 语义UV展开 - 提出SeamGPT框架 通过自回归方式生成艺术家风格裁切缝 将曲面裁切问题建模为序列预测任务 [71][72] - 采用交叉熵损失和KL散度损失训练 结合随机缩放(0.95-1.05区间)、顶点抖动和旋转等数据增强技术 [73] - 在Bowl(0.49)、Ball(0.31)等多个模型上达到最优平均分数(1.95)优于Xatalas(1.98)、FAM(8.52)等方法 [74][75] 纹理生成与编辑 - 将2D扩散模型扩展为几何条件多视角生成模型 支持文本和图像引导的PBR材质编辑(包括基础色、金属度、粗糙度和法线贴图) [77][80][81] - 基于8万份高质量PBR材质数据集训练 采用MoE架构自适应处理图像输入(通过CLIP相似度判断几何匹配度) [81][83][84] - 创新性适配3D VAE框架压缩多域材质数据 实现4K分辨率纹理合成 [95] 绑骨蒙皮与动画特效 - 分人形角色动画(基于22关节模板骨骼)和通用角色动画(自回归骨骼生成+几何拓扑感知蒙皮)两条处理路径 [97][98][99] - 显式融合骨骼特征、顶点特征和拓扑关系 提升蒙皮精度和稳定性 [99] - 支持姿势标准化(转换任意姿势为T型姿势)和动作重定向 输出可直接用于Unity或Unreal Engine的可驱动动画资产 [99][105] 系统集成与输出 - 通过统一资产图协同管理各模块输出元数据 实现参数化控制和增量式更新 无需全量重算 [103][104] - 最终输出可根据目标游戏引擎规范配置导出 支持专业流水线应用 [105]
首创双NPU架构一鸣惊人!联发科天玑9500重磅加码主动式AI体验
量子位· 2025-09-22 11:16
文章核心观点 - 联发科提出超性能+超能效双NPU架构 实现AI Always on 从硬件架构重构端侧AI运行基础 让AI成为系统常驻能力而非被动唤醒的功能模块[1][33][50] - 天玑9500通过双NPU协同工作 超性能NPU处理高强度推理任务 超能效NPU专注低功耗常驻场景 结合存算一体架构和硬件压缩技术 实现性能与能效双重突破[34][36][40] - 端侧AI正从"可调用"走向"默认在线" 需具备即时响应能力 联发科通过系统级技术方案解决模型加载慢 功耗高 训练难三大挑战 推动AI无缝融入多模态交互[49][55][61] 芯片架构创新 - 首发双NPU架构 超性能NPU搭载深层次AI引擎2.0 在ETHZv6.0.3测试中得分15015 相比天玑9400提升超过一倍[34][36][37] - 超能效NPU采用存算一体架构 将计算单元与缓存单元物理融合 减少数据搬移能耗 改善常驻AI任务下的发热与续航问题[40][42] - 引入四通道UFS 4.1 模型加载速度提升40% 结合硬件级压缩技术 4B大模型仅需1.6GB内存即可运行[44] 性能表现提升 - 3B大模型输出性能相比上一代提升100% 内容生成更快更流畅 支持128K上下文窗口 是上代的4倍 可处理相当于10小时录音的数万字文本[9][12] - DiT模型推理性能提升100% 首次实现端侧4K超高画质生图 仅需10秒完成生成 支持个性化风格生成 可将照片转为手绘 插画等艺术风格[16][20][22] - 通过1.58bit量化 Transformer专用电路和Eagle推理加速算法 生成速度比天玑9400提升2倍以上 在3~4W功耗区间内推理效率提升56%[44] 端侧AI落地应用 - 与vivo联合打造蓝心AI录音机 分钟级训练的定制美颜 全场景蓝心大模型端侧推理与训练能力 端侧训练内存需求降至2GB 首次实现终端侧完成个性化美颜训练[26][47] - 与OPPO合作小布识屏与AI意图搜索 进行异构计算和内存优化协同 多品牌正围绕天玑9500展开端侧AI能力部署探索[28] - AI能力常驻系统后台 实现帧帧追焦等单反级拍照体验 在不打扰用户的情况下持续提供帮助 推动无感交互成为可能[30][32][59] 行业趋势与共识 - 大模型下沉使端侧AI使用频率越来越高 从输入法预测补全到拍照构图建议 从锁屏摘要到图像生成 AI正从"调用一次"变为"时刻可用"[4][54] - AI需融入用户原生操作流程 成为交互一部分 响应需即时 不可依赖被动加载或临时唤醒 需常驻系统成为设备资源调度组成部分[55][56][57] - 端侧AI不再局限于特定任务 开始在系统各层持续参与 推动人机交互向更自然流畅方向演进 底层系统需为AI持续供能[60][62]
GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍
量子位· 2025-09-22 08:08
文章核心观点 - Scale AI发布的新软件工程基准测试SWE-BENCH PRO显著提升了难度 导致主流大语言模型的解决率普遍低于25% 远低于旧基准SWE-Bench-Verified约70%的水平[1][5][23] - 尽管整体表现不佳 但GPT-5在已提交的任务中准确率达到63% 显著优于Claude Opus 4.1的31% 显示其在优势领域的稳定性[3][4] - 新基准通过采用全新商业代码库、排除琐碎修改任务、增加多文件复杂场景以及严格防数据污染设计 更真实地反映工业级软件工程挑战[9][12][13] 基准测试设计特点 - 测试集包含1865个问题 分为公共集(731题)、商业集(276题)和保留集(858题) 覆盖消费者应用、B2B服务和开发者工具等多元化代码库[12][18] - 严格排除1-10行代码的简单修改 专注于需要大量多文件修改的复杂任务 更符合实际开发场景[13][8] - 采用人工增强的问题陈述 包含详细的需求说明和接口信息 确保模型获得充分上下文[16][19] - 测试环境容器化运行 每个任务在特定语言环境中评估 失败测试经人工筛选 偶尔失败的测试运行三次确保结果稳定性[20][21][22] 模型性能表现 - 在公共集上GPT-5以23.3%解决率领先 Claude Opus 4.1以22.7%紧随其后 Claude Sonnet 4达到16.3% Gemini 2.5 Pro Preview为13.5%[25][26] - 商业集表现更差 最优模型Claude Opus 4.1仅17.8% GPT-5为14.9% 显示模型在真实商业场景能力有限[26][27] - 老模型表现不佳 DeepSeek Qwen-3 32B和GPT-4o解决率分别只有3.4%和3.9%[24] - 编程语言差异显著 Go和Python表现较好(部分模型超30%) JavaScript和TypeScript波动大(0%-30%) 不同代码库解决率差异明显(低于10%至超50%)[30] 模型失败模式分析 - Claude Opus 4.1主要失败在语义理解(错误解答48.5%)和语法错误(32.7%) 显示技术执行强但算法理解存在挑战[31][34] - GPT-5未回答率高达63.1% 但提交答案的准确率较高 工具使用有效性存在差异[32][31] - Claude Sonnet 4主要问题为上下文溢出(61.6%)和无休止文件读取(29.5%) 显示上下文管理能力不足[31][34] - Gemini 2.5失败模式较均衡 含工具错误(38.8%)、语法错误(30.5%)和错误解答(18%)[34] - Qwen-3 32B工具错误率高达42% 凸显集成化工具使用的重要性[34]
奥特曼预告ChatGPT新产品!Pro会员也要额外收费,这次不计成本投入算力
量子位· 2025-09-22 05:54
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 奥特曼真·算力氪金玩家。 OpenAI已经花了 160亿美元 (约人民币1138亿)租用计算资源。 相当于每天一睁眼,就有几千万花出去租服务器。 但这还不是最夸张的。据The Information消息,OpenAI计划在未来五年 额外支出约1000亿美元 ,用于从云服务提供商处租用 备用服务器 在计划的3500亿美元算力投入之外,这么多钱租来的服务器还只是"备用"的…… 不过,OpenAI这波操作,也是为了能在AI算力需求暴增的时候不掉链子。 奥特曼预告未来几周新产品是计算密集型 OpenAI的首席财务官Sarah Friar在最近高盛的一次会议上就透露过,由于计算能力短缺,公司曾多次推迟新功能和新的AI模型的发布, 甚 至要刻意降低某些产品的运行速度 。 。 面对这些计算上的难题,OpenAI这也算是下血本了。 但今年的160亿美元还只是冰山一角。 从长远规划来看,OpenAI计划要在2024到2030年间砸下3500亿用于服务器租赁,仅2030单年,预计服务器租赁支出就高达1000亿美元。 就在前几天,OpenAI还和甲骨文签订了一份为期五年、价值3 ...
马斯克新模型性价比拉满:1折价格实现Gemini 2.5性能,支持2M上下文
量子位· 2025-09-21 13:29
产品发布与核心特性 - xAI推出新一代多模态推理模型Grok 4 Fast 支持2M上下文窗口并与X平台无缝集成[1][3] - 模型具备智能搜索能力 可实时浏览网页和X平台 处理图像、视频等多种媒体内容并快速整合分析结果[21][22] - 采用端到端工具使用强化学习训练 擅长判断调用代码执行或网页浏览等工具时机[20] - 通过统一架构设计 同一组模型参数可处理长链思维推理和快速响应非推理任务 显著降低延迟与Token成本[24][25] 性能表现与基准测试 - 在推理基准测试中全面超越Grok 3 Mini 平均思考Token数量较Grok 4减少40%[11][12] - 在Artificial Analysis"人工分析智能指数"榜单中呈现业界领先的"价格-智能"比[14] - 文本竞技场排名第8 性能与grok-4-0709相当 同体量模型中表现最优(其他同类模型排名均在第18位及以下)[17] - 搜索竞技场以1163分强势登顶 较第二名o3-search领先17分[18] - 在BrowseComp测试中达44.9%(Grok 4为43.0%) BrowseComp中文测试达51.2%(Grok 4为45.0%)[23] 定价策略与市场定位 - 实现1折价格追平Gemini 2.5 树立性价比新标杆[10] - 输入Token定价为每百万Token 0.20美元(<128k tokens)或0.40美元(≥128k tokens) 输出Token定价为每百万Token 0.50美元或1.00美元[27] - 缓存输入Token定价为每百万Token 0.05美元[27] - 已面向所有用户开放 Auto模式下复杂查询将自动调用该模型[26] 技术团队与人才储备 - 从谷歌挖角关键人才Dustin Tran 其曾助力谷歌Gemini获得IMO、ICPC金牌[28] - Dustin Tran为谷歌DeepMind工作8年的高级研究科学家 深度参与Gemini系列研发 推动模型在LMSYS排行榜首次登顶[30] - 学术论文被引用超过24281次 h-index达47 i10-index达60[31][34]
OpenAI神秘狠人,花名Bob
量子位· 2025-09-21 13:29
Jay 发自 凹非寺 量子位 | 公众号 QbitAI 在OpenAI,有一个神秘人专门负责推理用的CUDA内核。 同事们管他叫Bob,人们会把他写的注意力内核亲切地称为 Bob内核 。 这个内核每天可能在数十万张GPU上被执行 万亿次 。 要知道,这个环节对精度的要求非常高,如果出bug,需要回滚checkpoint重训,会浪费大量的算力资源。 有网友感叹: 全世界能写出高性能训练用CUDA内核的人,活着的不超过100个。 就是这么一个"地狱级难度"的东西,在OpenAI居然 只靠Bob一个人 。 Bob内核能力者 OpenAI前员工感叹,Bob轻轻松松在几分钟内修好了自己一周都没搞定的问题。 坊间传言,小扎已经知道了这个消息,已经火急火燎地安排上了,Meta明天招聘会议的Top 1事项就是:"Bob到底是谁!" 其他前员工也附议,表示OpenAI对Bob的依赖极高。 公司内部的Slack上专门有一个"Bob magic"表情包,用来来膜拜Bob——无人能不折服于他那"巫师"般的能力。 还有些员工打趣道: 如果Bob心血来潮想出去度假一周,那整个公司可就要准备好面临生死存亡的终极阶段了 。 既然是这么重磅级 ...
AI播客的未来是成为每个人的音频助手,事实性、完整性和活人感都很重要|对话ListenHub
量子位· 2025-09-21 08:01
量子位智库 . 连接AI创新,提供产业研究 分析师 刘萌媛 刘铁鹰 量子位智库 | 公众号 AI123All 随着豆包和元宝两大头部智能助手的入场,能够在短短数分钟内将任何内容(话题、链接或文档)转为对话式播客的AI播客工具从小众走向了 大众视野。但 疑问依旧重重 —— 为了回答这些疑问,量子位智库邀请了入围2025年H1 创新AI 100 榜单的AI播客工具 ListenHub ,进行了一场深入交流。 AI播客究竟是天花板有限的 伪命题 ,还是场景仍可持续拓展的 新一代交互方式 主打功能大差不差,如何在 产品细节 上进行区分 语音交互技术 看似进展迅猛,但距离全面、满分的产品化还有多远 当大厂纷纷入局,初创产品起步虽早,该如何利用 先发窗口期 ….. 以下文章来源于量子位智库 ,作者量子位智库 在这次访谈中,创始人橘子老师将ListenHub定义为未来 每个人的音频助手 ,可以涵盖播客、文章甚至长内容等任何用户需要的音频内容形 式。结合ListenHub的实例,我们也看到AI播客产品(包括未来的Agent形态)中包含的know-how和细节设计远超想象。 此外,橘子老师也分享了自己作为多年AI产品负责人和创 ...