Workflow
量子位
icon
搜索文档
榨干GPU性能,中兴Mariana(马里亚纳)突破显存壁垒
量子位· 2025-08-26 05:46
行业背景与挑战 - 大语言模型在行业应用中面临推理效率与显存成本的尖锐矛盾 尤其KV Cache技术成为显存消耗的主要瓶颈 每增加一个token都需要更多显存存储键值向量 制约模型规模扩张和并发能力提升 [1] 现有技术方案局限性 - Nvidia Dynamo项目采用多级缓存算法 将热数据存于显存、温数据在主机内存、冷数据在SSD或远端存储 但存在数据迁移流程复杂和延迟开销问题 [2] - 微软LMCache存储系统兼容vLLM等推理框架 但分布式存储支持度低且空间上限受限 [3] - 阿里巴巴方案将KV Cache扩展到Tair数据库 虽易于扩展存储空间 但读写性能难以满足低延迟需求 [3] 技术创新方案 - CXL高速互联技术凭借高带宽、低延迟和硬件级缓存一致性特性 为破解内存瓶颈提供新方向 但目前业界针对CXL存储加速LLM推理的研究仍较少 [5] - 中兴通讯与华东师范大学联合推出Mariana分布式共享KV存储技术 通过三项核心创新实现比现有方案高1.7倍吞吐量 尾延迟降低23% [6] - 细粒度并发控制方案将锁粒度从节点级降至条目级 通过RDMA_CAS竞争空闲槽位闩锁 显著减少写密集型和高偏斜工作负载下的争用 [8] - 定制化叶子节点数据布局采用分离式存储 Key连续存放可一次性加载至SIMD寄存器 Value与校验和另存内存块 大幅提升查找速度 [10] - 自适应缓存策略通过Count-Min Sketch算法快速感知热点数据 维护按热度排序链表 降低热点数据加载延迟 [11] 性能验证与应用 - Mariana支持将数据分布在远端CPU DRAM及PMem/SSD组成的共享内存池 理论存储空间无上限 [13] - 在vLLM框架测试中 GPU显存仅能存放50% KV数据时 Mariana多级存储方案显著提升大模型推理预加载阶段性能 [15][17] - 该技术通过硬件加速和智能缓存减少KV Cache查找的计算与网络开销 提升读吞吐量 其数据路径针对低延迟优化 延迟远低于需经远端CPU协议栈的解决方案 [19] 技术演进前景 - Mariana设计理念与底层硬件解耦 核心算法可直接从RDMA网络迁移至CXL硬件生态 仅需替换远程访问API即可利用CXL低延迟和一致性优势 [18] - 该技术重新定义大模型推理存储逻辑 使分布式存储在高吞吐与低延迟间找到平衡点 为百亿/千亿参数模型在普通硬件上高效运行奠定基础 [18]
马斯克起诉OpenAI和苹果垄断:App Store操纵排名,索赔数十亿美元
量子位· 2025-08-26 05:46
马斯克对OpenAI和苹果的反垄断诉讼 - xAI正式对OpenAI和苹果提起反垄断诉讼 指控苹果在Apple Store操纵应用排名榜单偏袒OpenAI和ChatGPT 同时打压自家Grok [1] - 诉讼指控两家公司去年签署的合作协议联手垄断AI市场 构成不正当竞争 [9] - 苹果被指控延迟应用程序更新 使Grok长期处于不利地位 [13] 苹果与OpenAI的合作协议 - 协议规定苹果将ChatGPT集成到iOS、iPadOS和macOS中 使其成为苹果设备上唯一的生成式AI聊天机器人 [10] - Siri将在必要时调用ChatGPT输出更复杂准确的回答 ChatGPT将被嵌入苹果写作工具中帮助用户起草生成内容 [11] - 基于苹果在智能手机市场的主导地位 该合作严重影响Grok对数十亿潜在用户的推广 [12] 苹果商店的排名争议 - 苹果商店铺天盖地都是ChatGPT广告 [3] - 多个榜单下ChatGPT名列前茅 其他生成式AI应用身影寥寥无几 [5] - AI应用程序推荐包含Gemini和Copilot 但没有Grok [26] - 整个商店像ChatGPT大卖场 马斯克嘲讽苹果是OpenAI旗下的公司 [28] 诉讼要求与赔偿 - xAI向OpenAI和苹果寻求数十亿美元赔偿 并要求法院认定两家公司的合作违法 [14] - 诉讼书长达61页 还暗指苹果AI创新不足 不能有效推出自家智能系统 只能靠和OpenAI捆绑销售 [15] 马斯克与OpenAI的历史矛盾 - 去年马斯克曾起诉OpenAI背弃非盈利初衷转而追求利润化 [16] - OpenAI最初作为非营利机构运营且免费提供技术 马斯克捐赠超4000万美元 [16] - 奥特曼攀上微软后将公司转向通过AGI获取商业利益 OpenA被视为微软赚钱的子公司 [17] - 马斯克大闹一场后撤诉 但未撤销未来再次起诉的权利 [19] 马斯克与苹果的历史矛盾 - 苹果造车项目疯狂挖特斯拉墙角 马斯克回击苹果是特斯拉的坟墓 苹果造车可能只造出高尔夫球车 [22] - 特斯拉濒临破产时马斯克希望讨论苹果收购可能 但库克未给见面机会 [23] - 马斯克曾公开批评苹果在App Store收取30%高昂佣金 威胁移除应用 后称误会解除 [23] 网友观察与市场反应 - 合作后AI应用榜单第一名并非全是ChatGPT DeepSeek曾强势上位 [30] - OpenAI迅速回应称诉讼和马斯克持续的骚扰模式一致 [7] - 苹果尚未对诉讼发表回应 [8]
世界首例!中国团队将基因编辑猪肺成功移植人体
量子位· 2025-08-26 05:46
研究突破 - 全球首例基因编辑猪肺成功移植至脑死亡人体并维持通气与气体交换功能达9天[1][12] - 移植肺通过六处CRISPR基因编辑沉默三个猪免疫触发糖基因并添加三个人类免疫调节蛋白基因以降低免疫风险[14][17] - 术后未出现超急性排斥反应且同步病原学监测无活跃感染迹象[21] 技术细节 - 患者接受多种免疫抑制药物包括兔抗胸腺球蛋白、利妥昔单抗、巴利昔单抗及糖皮质激素等[16][21] - 术后第3天和第6天出现抗体介导的排斥反应导致器官损伤[20] - 研究人员观察到促炎分子产生及白细胞浸润猪肺现象[18] 行业意义 - 该成果被国际专家评价为异种移植领域的里程碑[4][7] - 有望缓解全球肺移植供体短缺问题[5][9] - 异种肺移植因肺部暴露于空气及微妙的生理平衡而面临比心肾移植更大挑战[9][11] 研究背景 - 过去30年猪心瓣膜已广泛应用于人类移植但完整器官移植仍处探索阶段[9] - 此前异种移植试验限于肾脏心脏和肝脏且成效尚不显著[9] - 美国马萨诸塞总医院实验显示狒狒移植猪肺最长存活34天[23] 后续计划 - 研究团队将优化基因编辑策略与抗排异治疗方案以延长器官存活时间[13] - 计划应用无管技术减少机械通气对供体肺的损伤[13] - 需进一步临床前研究解决器官排斥和感染相关挑战[26]
英伟达咽喉上的苏州女人
量子位· 2025-08-26 05:46
公司背景与市场地位 - 英诺赛科是英伟达供应链中唯一的中国氮化镓功率半导体供应商,其出现在英伟达名单后股价单日暴涨63.64% [1][2][3] - 公司成立于2015年,从无技术、无量产经验、无客户基础的"三无"状态起步,7年内累计融资60亿元,投资方包括宁德时代(投资2亿元)、OPPO、小米等巨头 [3] - 2024年12月登陆港交所,市值达722.68亿港元,成为"中国氮化镓半导体第一股" [4][35] 技术突破与产能 - 全球首家实现8英寸硅基氮化镓晶圆量产的企业,量产进程仅用6年(业界普遍需10年以上)[30] - 2023年月产能达1.25万片晶圆,芯片累计出货量超10亿颗(2023年单年出货6.6亿颗)[31][37] - 采用IDM模式(设计-制造-封测全流程自主)和8英寸工艺,以掌握定价权并降低单位成本 [15][17][19] 市场表现与竞争格局 - 2023年全球氮化镓功率半导体市占率42.4%排名第一,2024年份额29.9%仍领先纳微半导体(16.5%)、英飞凌(10.3%)等 [31][34] - 营收从2021年6822万元增长至2023年5.93亿元,三年复合增长率超100% [31] - 客户覆盖消费电子(小米、OPPO、荣耀)、汽车(比亚迪、速腾)、激光雷达(禾赛)等140家企业 [3][95][99] 氮化镓技术优势与应用 - 氮化镓为第三代半导体材料,具备宽禁带、高电子迁移率、耐高压高温特性,比硅基器件能效更高、体积更小 [49][54][55] - 在AI数据中心应用中,可使800V直流架构输电能力提升85%、铜材需求减少45%、端到端效率提升5% [47] - 解决AI算力电力瓶颈:英伟达2027年全面转向800V架构,氮化镓芯片可缩减电感电容体积,为GPU释放主板空间 [44][56][57] 创始人与技术团队 - 创始人骆薇薇为NASA前首席科学家,专注火箭燃料燃烧研究15年,2015年放弃美国优渥待遇回国创业 [11][80][83] - 技术团队包括原LG北美总裁孙在亨、德国工程院院士Eicke Weber,CEO吴金刚为中芯国际"技术五虎"之一 [28] - 公司坚持"技术话语权"战略,通过车规级AEC-Q101认证(-40℃~125℃千小时测试)进入比亚迪供应链 [93][95] 行业趋势与增长动力 - 全球氮化镓功率半导体市场规模2023年仅18亿元(渗透率0.5%),但数据中心细分市场从2019年不足1000万元增至2023年7000万元 [61][64] - AI驱动电力系统换代:传统数据中心机架功率从千瓦级迈向兆瓦级,氮化镓器件需求爆发 [43][65] - 应用领域从充电器扩展至新能源汽车、激光雷达、储能等100多个细分场景 [52][99]
Meta万引强化学习大佬跑路!用小扎原话作为离别寄语,扎心了
量子位· 2025-08-26 04:36
核心人才流失 - Meta强化学习专家Rishabh Agarwal离职 其曾参与Gemini 1[4]5和Gemma 2等核心项目开发 论文总引用量达10[6]392次 h-index为34[6] 2021年获得NeurIPS杰出论文奖[4][14] - 另一名任职12年的Meta资深员工同期离职并加入竞争对手Anthropic推理团队[18][19] - 离职潮可能与新老员工薪酬待遇悬殊引发的内部矛盾相关 部分研究人员曾威胁辞职[23][24] 技术贡献与行业影响 - Rishabh Agarwal在Meta期间主导推理模型后训练工作 具体包括采用RL规模化训练将8B稠密模型性能提升至接近DeepSeek-R1水平 在训练中引入合成数据实现RL热启动 提出高效on-policy蒸馏方法[16][20] - 其2021年发表的深度强化学习统计不稳定性论文成为评估RL算法的里程碑工作[14] - 曾作为核心贡献者参与谷歌Gemini 1[4]5(上下文突破100万token)和Gemma 2(轻量级开源模型)开发[4][13] 人才流动趋势 - Meta近期组建超级智能实验室并大量引进人才 但同期出现资深技术骨干流失现象[1][22] - 高端AI人才更倾向选择创业或探索非传统技术路径 Rishabh Agarwal明确表示拒绝加入Meta新实验室并寻求"完全不同道路"[1][17] - 行业顶尖人才普遍具备跨机构任职背景 Rishabh Agarwal曾同时任职谷歌Brain[6]DeepMind[6]Meta[1]并兼任麦吉尔大学教授[13]
物理学又一乌云消散,希格斯玻色子衰变为μ子新证据出现,或超越标准模型
量子位· 2025-08-26 04:36
希格斯玻色子衰变新发现 - ATLAS团队发现希格斯玻色子衰变为μ子(H→μμ)的有力证据,观测显著性达3.4个标准差(统计波动可能性低于三千分之一)[1][8][13][14] - 该衰变过程极其罕见,约每5000次希格斯衰变中发生1次,为研究希格斯与第二代费米子相互作用提供关键机会[9][10] - 团队通过结合LHC的Run-2和Run-3数据集,并开发复杂背景建模与事件分类技术实现突破[12][13] 衰变过程探测灵敏度提升 - ATLAS同步提升希格斯玻色子衰变为Z玻色子和光子(H→Zγ)的探测灵敏度,观测过剩达2.5个标准差[3][19] - H→Zγ为稀有衰变过程,Z玻色子仅约6%时间衰变为可探测轻子,且LHC Run-3的复杂条件(如粒子堆叠)增加识别难度[18] - 该结果提供了迄今测量H→Zγ衰变分支比的最严格预期灵敏度[19] 科学意义与潜在突破 - 两项发现可能揭示超越标准模型的物理规律,统计上初步出现偏离标准模型预言的迹象[6][7][40] - 研究成果依赖于LHC提供的大量数据,探测难度被比喻为"大海捞针"[4][5] - 未来ATLAS将继续探索新物理规律,推动粒子物理学前沿发展[41] 希格斯玻色子背景知识 - 希格斯玻色子又名"上帝粒子",为自旋为零的不稳定玻色子,2013年被正式确认发现[23][24][25][33] - 其代表希格斯场的振动,该量子场通过希格斯机制赋予W/Z玻色子及费米子质量[34][35] - 标准模型描述强力、弱力、电磁力及基本粒子,希格斯玻色子通过对称性破缺机制赋予其他粒子质量[37][39]
视觉Token注入CLIP语义,走向多模态理解与生成新范式
量子位· 2025-08-26 04:36
核心技术创新 - 提出全新视觉分词器TokLIP 将低级离散视觉Token与高级CLIP语义结合 实现多模态理解与生成的高效统一 [1][2] - 通过语义化VQ token注入CLIP级别语义 使每个离散token同时携带底层结构信息和高层语义信息 [13][14][15] - 采用视觉tokenizer与ViT-based token encoder结合架构 通过蒸馏和对比学习损失优化模型 [17][18] 性能优势 - 训练数据量仅需同类方法的20% 在多项任务中达到SOTA性能 [3][24] - TokLIP-B版本在ImageNet分类达到76.4% Top1准确率 超越VILA-U的73.3%和QLIP的74.3% [23][27] - 在COCO检索任务中 TR@1达到64.06% IR@1达到48.46% 显著优于同类方法 [27] - TokLIP-L版本在384分辨率下实现80.0% ImageNet分类准确率 超越QLIP的79.1% [27] 架构设计特点 - 使用Causal Token encoder保证自回归生成过程无信息泄漏 [19] - 采用Freeze VQGAN设计保留生成能力 支持框架灵活替换 [26] - 继承预训练CLIP权重 在相同算力下更快收敛 训练pipeline更简洁高效 [26] - 无需专门重构损失保证token可逆性 避免训练冲突并降低复杂度 [26] 多模态任务表现 - 在7个下游多模态理解任务中展现竞争力 MLLM问答与推理更准确 [28] - TokLIP-L在MMB任务达到76.9% 显著优于Emu3-Chat的58.5%和VILA-U的60.8% [29] - TokLIP-XL在MMMU任务达到47.1% 超越TokenFlow-XL的38.7% [29] - 自回归图像生成任务FID指标显著改善 384分辨率下从14.48降至12.37 [30][31] 应用前景 - 可无缝接入现有LLM框架 极大降低多模态模型计算与数据门槛 [3][20] - 为构建下一代多模态通用模型提供重要基础组件 [3][32] - 支持端到端自回归训练 实现理解与生成能力的统一 [3][7][12]
最新智能体自动操作手机电脑,10个榜单开源SOTA全拿下|通义实验室
量子位· 2025-08-25 23:05
核心观点 - 通义实验室推出Mobile-Agent-v3智能体框架 在手机端和电脑端多个核心榜单取得开源最佳性能 实现自动化操作手机和电脑的突破性进展 [1][2] - 该框架通过图形交互基础模型(GUI-Owl)实现界面元素精准定位、复杂任务规划和多智能体协同 在10个主流GUI榜单中均取得开源SOTA水平 [9][17] - 采用自我进化轨迹生产基建和强化学习算法 构建自动化数据生产闭环 在OSWorld动态环境中成功率提升近8个百分点 [11][31][36] 技术架构 - 基于阿里云跨平台云环境基础设施 构建覆盖Android/Ubuntu/macOS/Windows的云端沙箱执行环境 [11] - 通过Self-Evolving GUI Trajectory Production系统实现数据采集与模型优化自动化闭环 包括高质量任务生成、轨迹正确性判断和任务指南生成模块 [13][14] - 采用轨迹感知相对策略优化(TRPO)算法 解决稀疏奖励和信用分配难题 在OSWorld-Verified基准测试中成功率从27.1%提升至34.9% [31] 核心能力 - 精准界面元素定位:整合开源数据集和无障碍树数据合成 采用SAM模型进行PC端密集定位 过滤IoU低于0.5的噪声框 [19] - 细粒度文字定位:支持单词和单字符级精确定位 可响应"点击第三段第二行的'提交'二字"类指令 [20] - 复杂任务规划:从历史轨迹提炼执行手册 通过Qwen3-235B等大语言模型生成详细执行计划 [22][23] - 动作语义理解:构建操作前后截图对 建立视觉差异到用户行为的因果映射能力 [24][25] 多智能体协同 - Mobile-Agent-v3框架包含Manager、Worker、Reflector和Notetaker四个智能体角色 均由同一GUI-Owl模型扮演 [33] - 形成拆解→执行→检查→记录→调整→再执行的闭环自动化流水线 在真实环境评测中带来7-8个百分点性能提升 [34][40] - 支持知识检索(RAG)、任务规划、子任务执行与反思推理等完整功能链 [33] 性能表现 - GUI-Owl-32B在Easy/Medium/Hard三个难度级别的综合得分分别为92.75%/91.74%/94.19% 全面超越GPT-4o(60.16%/57.24%/53.49%)和Claude-3.5(41.54%/41.26%/37.55%) [37] - 在跨平台评测中 GUI-Owl-32B在Windows/MacOS/Linux/iOS/Android/Web平台综合得分82.97% 显著领先InternVL3-72B(72.20%)和Qwen2.5-VL-72B(41.83%) [38] - 在细粒度操作任务中 GUI-Owl-32B在文本匹配(67.0%)、元素识别(64.5%)、布局理解(67.2%)等维度表现优异 [39] - Mobile-Agent-v3在OSWorld-Verified和AndroidWorld基准测试中分别达到37.7%和73.3%的得分 超越同类开源模型 [41]
售价2万5!英伟达推出机器人“最强大脑”:AI算力飙升750%配128GB大内存,宇树已经用上了
量子位· 2025-08-25 23:05
产品发布与性能参数 - 英伟达推出全新机器人计算平台Jetson Thor 基于Blackwell GPU架构 AI算力达2070 TFLOPS 较上一代Jetson Orin提升7.5倍 能效提升3.5倍 [1] - 配备128GB LPDDR5X内存 显存带宽273GB/s 在边缘计算设备中属前所未有配置 [2][13] - 支持多实例GPU技术 最高配置2560核GPU及96个第五代Tensor Core 精简版T4000配置1536核GPU及64个Tensor Core [11][13] - 功耗范围40-130W 支持移动平台到固定式机器人的多样化热设计 [13] - 开发者套件美国售价3499美元 T5000模组批量采购单价2999美元 [8][9] 技术特性与创新 - 通过FP4量化和推测解码技术 部分模型性能可再提升2倍 [15] - 响应速度达200毫秒内生成首个token 每秒生成超25个token 支撑实时人机对话 [16] - 支持多路4K/8K视频编解码 最多4个25GbE网络接口 实现多传感器数据超低延迟直传GPU内存 [13][22] - 原生集成NVIDIA Isaac仿真开发平台 Isaac GR00T人形机器人基础模型 Metropolis视觉AI及Holoscan传感器工作流 [14] 生态系统与合作 - 全球首批集成企业包括联影医疗 万集科技 优必选 银河通用 宇树科技等中国公司 以及波士顿动力 Agility Robotics等国际企业 [19][20][21] - 研华科技 米文动力 天准科技等正开发量产级Jetson Thor系统 亚德诺半导体 e-con Systems等提供传感器支持 [18] - 宇树科技反馈平台带来计算能力飞跃 银河通用机器人运动速度和流畅性显著提升 [19] 战略意义与行业影响 - 被定位为"机器人大脑" 与训练AI的DGX系统 测试AI的Omniverse平台构成物理AI三大计算支柱 [23] - 推动物理AI与通用机器人时代到来 支持构建可与物理世界交互的机器人系统 [3][4] - 支持所有主流生成式AI框架 包括Qwen DeepSeek等语言模型及视觉语言动作模型 [6] - 采用持续循环的开发模式:训练-仿真-部署 即使机器人部署后仍持续升级能力 [24][25]
为防AI刷题,Nature等顶刊最新封面被做成数据集,考验模型科学推理能力|上海交通大学
量子位· 2025-08-25 15:47
多模态大模型评估挑战 - 现有基准测试因预训练数据污染面临评估失效风险,需开发动态评估方法应对顶尖AI能力评估困境 [1] MAC动态基准设计理念 - 采用顶级学术期刊封面作为测试素材,利用科学前沿内容的持续演进特性构建动态评估基准 [3] - 覆盖188种顶级期刊,从25,000+图文对构建测试集,聚焦艺术化视觉元素与科学概念的深层关联理解 [3] - 通过年度更新机制(如MAC-2025涵盖2024年1月至2025年2月内容)减少数据污染,保持评估挑战性 [16] 测试任务设计与语义陷阱 - 设计看图选文(Image2Text)和看文选图(Text2Image)双任务评估跨模态理解能力 [17] - 采用CLIP等嵌入模型生成语义干扰项,要求模型区分表面相似但科学概念不同的选项(如"癌症耐药性机制"vs"癌症产生机理") [8][16] 多模态模型性能表现 - 顶尖模型表现显著低于常规基准:Step-3最高准确率79.1%,GPT-4o准确率74.3-75.1%,Gemini-1.5-Pro准确率70.4-72.8% [4][18] - 开源模型Qwen2.5-VL-7B准确率仅56.8-61.0%,显示与闭源模型存在明显差距 [4][18] - 模型普遍存在视觉识别与科学概念理解脱节问题,能识别"药丸""处方单"但无法关联"耐药性"核心概念 [16][19] DAD分步推理解决方案 - 提出描述-推理两阶段方法:先由多模态模型生成视觉描述,再由语言模型进行高层分析 [22][23] - 该方法显著提升模型准确率,模拟人类专家先观察后分析的思维过程 [22] 动态基准双机制验证 - 动态数据机制:所有模型在最新数据(MAC-2025)表现均差于早期数据(MAC-Old),证实新知识自然提升测试难度 [26] - 动态问题构建:采用更强嵌入模型(如SigLip2)重构干扰项后,所有模型准确率进一步下降,证明测试难度可与AI技术同步进化 [27] 学术影响与未来发展 - 研究成果将于2025年语言模型大会(COLM)发表 [5] - 计划扩展至更多科学期刊、学术会议论文及科学新闻,构建持续演进的评估平台 [27][28]