Workflow
量子位
icon
搜索文档
多模态推理最高加速3.2倍!华为诺亚新算法入选NeurIPS 2025
量子位· 2025-09-26 02:08
多模态大模型推理加速技术突破 - 华为诺亚方舟实验室提出视觉感知投机推理框架ViSpec 实现多模态大模型最高3.22倍无损加速[3][8][23] - 现有投机推理技术在VLM领域加速效果有限 普遍低于1.5倍[2][4] - 该研究已入选NeurIPS 2025 是业界首次在VLM投机推理领域取得显著加速成果[1][8] 技术原理与创新设计 - 引入轻量级视觉适配器 将成百上千个图像嵌入压缩为1个信息高度浓缩的紧凑视觉表征[9][11] - 设计全局视觉特征注入机制 解决草稿模型"中间遗忘"问题 确保视觉上下文持续影响[13][15][17] - 创新数据生成方法通过修改指令引导目标VLM生成千字长回复 降低训练集构建成本[18][19] 性能表现与实验验证 - 在LLaVA-1.6 7B/13B和Qwen2.5-VL 3B/7B等多个主流VLM上验证有效性[22][24] - 温度系数为0时GQA测试集加速比达1.85-3.22倍 平均加速比超2.5倍[23] - 消融实验显示图像嵌入压缩单项贡献30%性能提升 全局特征注入再提升7%[27][28] 行业应用前景 - 突破VLM在实时交互和边缘部署场景的计算成本与时间延迟限制[4] - 推动多模态大模型在手机 汽车 智能家居等边缘设备上的落地应用[29] - 从"能看懂"向"看得快 看得好"演进 引领VLM进入高效实用新阶段[30]
ChatGPT新功能,抢占你早上第一个打开的App
量子位· 2025-09-26 02:08
时令 发自 凹非寺 量子位 | 公众号 QbitAI ChatGPT新功能闪亮登场! ChatGPT Pulse (随时随地脉动回来) 。 号称无需提问就可以在你睡觉时带来个性化更新,并在每天早上为你送上一份精心整理的卡片。 效果是这样婶儿的: 奥特曼 也是为其疯狂打call,声称: 但网友好像不太买账,表示:这简直是广告推荐神器,可以在早上将广告更好地连接到聊天界面,为GPU来圈钱了。 这个功能是ChatGPT推出以来我最喜欢的功能,你可以把它看作一个非常称职的私人助理。 下面具体来看。 无需提问就可自动推送 OpenAI应用程序首席执行官 Fidji Simo 曾表示,"下一个前沿将是智能体,是能够代表你执行操作,并像队友一样与你并肩作战的AI助 手。" 但同时她也认为,过去ChatGPT很被动,基本是"你问什么,它答什么",需要用户自己琢磨该问啥、需要啥。 现在,ChatGPT Pulse一改往日被动模式,学会了 主动出击 。它无需提示,便能主动关注对你至关重要的事务,并及时提供相关信息、创 意灵感与行动指南。 简单来说就是,通过学习你的对话记录和手机活动(如关联的日历、邮箱、Google通讯录等),P ...
缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈
量子位· 2025-09-26 02:08
为此,研究团队提出了 SimpleVLA-RL 。基于veRL框架,他们实现了针对VLA模型的交互式轨迹采样与并行仿真渲染机制。 SimpleVLA-RL团队 投稿 量子位 | 公众号 QbitAI 视觉-语言-动作模型是实现机器人在复杂环境中灵活操作的关键因素。 然而,现有训练范式存在一些核心瓶颈,比如数据采集成本高、泛化能力不足等。 实验结果表明,该框架在LIBERO与RoboTwin等标准基准测试中均实现了 SoTA 的性能。更为关键的是,即便在有限数据的条件下, SimpleVLA-RL依然能够训练出表现优异的模型并具备极高的泛化能力。 在 "单轨迹 SFT"(每个任务仅1条演示数据)场景下,应用SimpleVLA-RL后,OpenVLA-OFT的LIBERO平均成功率 从48.9%提升至96.9% ,长时序任务LIBERO-Long 从17.3%提升至91.7% 。 降低对大规模演示数据的依赖,提升数据效率; 增强模型在分布偏移场景下的泛化能力; 实现高效的Sim-to-Real迁移,提升真实世界任务性能。 SimpleVLA-RL:端到端在线训练方案 VLA模型作为机器人操控领域的重要研究范式,旨 ...
小米17 4499开卖,首发五代骁龙8!雷军:500亿砸自研芯片
量子位· 2025-09-25 23:54
小米17系列产品发布 - 全系包括标准版、Pro和Pro Max三款机型 起售价4499元 [3][11] - 首发搭载全新第五代骁龙8至尊版移动平台 采用第三代3nm工艺 主频4.6GHz [14][15] - 超窄边直屏设计 边框窄至1.18mm 厚度8.06mm 重量191克 [18][19] - 采用四微曲中框与超大R角设计 正反覆盖自研龙晶玻璃 抗摔强度提升10倍 [24][25] - 标准版电池容量7000mAh Pro Max版7500mAh 实测连续使用12.2小时剩余26%电量 [34][35] - Pro/Pro Max新增120Hz刷新率妙享背屏 支持自拍预览、汽车控制等功能 [40][41] - 徕卡调校三摄系统 优化人像算法 新增人景分离与肤色还原技术 [44][46] 显示与材料技术突破 - 采用卢米蓝新型红色发光主材 发光效率提升11.4% 实现国产材料技术超越 [29][31] - 屏幕红得更正 色更通透 亮度与功耗表现提升 [30] 小米平板8系列发布 - 标准版与Pro版两款新品 起售价2199元 [51] - 11.2英寸3.2K高清屏 标准版厚度5.75mm 重量485g 比iPad Air更薄 [53][54][55] - 首发澎湃OS 3系统 支持本地运行浏览器、CAD、WPS等桌面级应用 [58][59] - 标准版搭载骁龙8s Gen 4处理器 Pro版采用骁龙8至尊版 CPU性能提升78% GPU性能提升105% [63] 公司战略转型 - 从互联网玩家向硬核科技公司转型 一次性发布多品类智能硬件全家桶 [4][6][7] - 自研手机SoC计划坚持10年 投入至少500亿元 从高端芯片切入 [68][69] - 玄戒O1芯片为第一步 长期投入直至成功 [70]
马斯克新模型背后算法来自英伟达???
量子位· 2025-09-25 23:54
核心观点 - Grok-4-fast在降本增效方面表现突出,可能采用了英伟达的算法技术Jet-Nemotron,实现高达53倍的推理速度提升和显著成本优化 [1][4][5] - 英伟达提出的PostNAS框架通过混合结构设计和硬件感知搜索,在保持模型准确率的同时大幅提升效率,适用于任何预训练Transformer模型 [10][34][35] - 该技术突破可能对行业产生深远影响,包括降低部署成本、提升吞吐量,并可能被主流AI公司采用 [40][43][47] 算法架构创新 - Jet-Nemotron-2B模型在MMLU和MMLU-Pro基准测试中表现优于Qwen3-1.7B-Base(准确率更高)和DeepSeek-V3-Small(参数量15B),同时实现47-53倍速度提升 [7][9] - PostNAS框架采用四步流程:全注意力层放置、线性注意力模块选择、优化模块设计、硬件感知架构搜索,训练成本降低数个数量级 [10][11][12] - 全注意力层放置实验显示,仅用2层全注意力时PostNAS准确率达49%,显著高于均匀放置策略的40% [13][14] 注意力模块优化 - 评估六种线性注意力模块(RWKV7/RetNet/Mamba2/GLA/DeltaNet/Gated DeltaNet),Gated DeltaNet因数据依赖门控机制和Delta规则获得最高准确率 [17][18][19] - 英伟达进一步开发JetBlock模块,采用动态卷积核生成器,在数学推理(准确率34.9%)和检索任务(准确率70.4%)上优于Gated DeltaNet [21][23][24] - 硬件感知搜索以生成吞吐量为目标,发现KV缓存大小是影响效率的关键因素,优化后参数量1.84B时数学准确率提升至34.8%(原1.7B模型为32.8%) [30][31][33] 行业影响与推测 - Grok-4-fast定价下降幅度(20-50倍)与Jet-Nemotron预测高度吻合,推测其采用类似技术,实现GPU使用时长减少47倍、内存需求降低和吞吐量提升 [38][40][42] - 技术具备普适性,可被OpenAI、Anthropic、Google等公司部署,但xAI未公开证实技术关联性 [43][44][47] - Jet-Nemotron代码和预训练模型将开源,法律审查完成后发布 [36] 研究团队背景 - 论文作者均为华人学者,一作为清华大学博士生顾煜贤,专注LLM效率提升研究;通讯作者为英伟达研究科学家Han Cai(论文引用超10,800次) [47][48][53][56] - 研究成果依托英伟达算法论文,核心突破来自算法创新而非硬件堆叠 [3][4][6]
OpenAI宋飏被Meta挖跑了!扩散模型崛起关键人物,加入MSL再会师清华校友赵晟佳
量子位· 2025-09-25 13:00
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 最新消息,扎克伯格再次从OpenAI重磅挖角了一名华人研究员。 这次是—— 宋飏 (Yang Song) ! 宋飏,何许人也? 16岁裸分上清华的少年天才,扩散模型崛起&攻克扩散模型短板的关键贡献者之一,OpenAI战略探索团队的带队人。 这次是真的要用"震惊"来表达我内心的感受了 (吃惊脸.jpg) …… 翻看他本人在上的最新一篇推文,还是上个月因GPT-OSS而激动。 现在再听闻他的消息,已经是宋飏 于本月初转会至Meta的MSL旗下,向MSL首席科学家赵晟佳汇报。 他被撬动这件事,咱听到后脱口而出一句"震惊"真不是夸张,而且相信大部分人听到这个消息几乎第一反应都这样。 业内人士称他是Meta从OpenAI挖来的最强大脑之一,还说"很多OpenAI的朋友得知他离开,都惊呆了"。 Meta前前后后不停歇挖来的这么多牛人,他们到底看中的是什么? 有网友评价道, 他们并非纯粹为了金钱利益 ,"一旦你达到一定的财富水平,金钱就不再驱动你的决策"——尤其是对于那些在OpenAI工作了 3年以上的员工来说。 持续攻克扩散模型短板 宋飏于2022年博士毕业后加入Op ...
GPT-5通过“哥德尔测试”!独创性解决博士生都得花几天时间的开放数学问题
量子位· 2025-09-25 13:00
henry 发自 凹非寺 量子位 | 公众号 QbitAI GPT-5,你这家伙! 究竟还有什么事是我不知道的? 在一篇最新论文中,研究人员让它挑战了5个尚未解决的优化猜想。 结果它居然解出了其中3个! 更令人吃惊的是,其中有一道题,它甚至给出了与研究者预期完全不同的、同样有效的证明方案。 它可不是"笨蛋"研究生,而是能展现出独创性的"聪明"博士生。 前微软研究副总裁、现OpenAI科学家Sebastien Bubeck表示: 和国际数学奥林匹克(IMO)那些为"人类天才高中生"准备的题目不同,这次的测试题需要博士水平的研究者花上几天才能完成。 在论文里,研究者们还特意"挑衅" 陶哲轩 对大语言模型数学能力的印象—— 这意味着GPT-5能够解决一些真正的开放性数学问题。 接下来,就让我们看看,这位AI数学天才是怎么炼成的。 "哥德尔"测试 如上所述,GPT-5这次挑战的并不是奥赛题,而是高等数学里的简单猜想。 求解这类问题不仅需要算术能力,还需要相当强的数学背景和逻辑推理能力。 研究人员把他们的测试称为: 哥德尔测试 。 哥德尔测试里的问题需要人自己动脑、经过训练才能解决,而且在现有文献中找不到现成答案。 ( ...
攻克结构化长文档检索难题!新框架让模型告别“结构性失明”
量子位· 2025-09-25 11:42
技术框架创新 - 提出SEAL对比学习框架 通过结构感知学习和元素感知对齐解决AI模型对HTMLMarkdown长文档的结构性失明问题 [1][8] - 该方法将文档宏观层级结构和微观元素语义同时融入统一Embedding空间 显著增强预训练语言模型对结构化数据的理解能力 [3] - 结构感知学习通过对比保留标签与去除标签的文档版本 使模型学习文档内在骨架和逻辑功能区分 [11][12][13] - 元素感知对齐采用基于元素的Mask机制 迫使模型通过上下文推断文档相关性 深化对文本片段语义角色的理解 [14][15] 性能表现 - 在BGE-M3模型上实现MRR@10指标从73.96%提升至77.84% 绝对提升3.88个百分点 [4][17][19] - SEAL框架在BGE-M3模型上实现HitRate@1达66.26% HitRate@5达93.77% NDCG@10达82.59% 全面超越基线模型 [4][19] - 在bge-large-zh模型上应用SEAL后 MRR@10从72.21%提升至76.57% HitRate@1从59.08%提升至64.30% [4][19] - 线上AB测试验证了该方法在实际应用场景中的有效性 [4][19] 数据集贡献 - 开源万词级别长文档数据集StructDocRetrieval 文档词数远超MS MARCO数据集(后者大多文档不足700字) [5][20][21][22] - 数据集采用HTML格式包含丰富结构语义标注 填补了长文档结构标注数据领域的空白 [21][23][24] - 该数据集为社区评估和开发长文档检索模型提供了新的Benchmark标准 [25] 应用前景 - 技术可应用于RAG等下游任务 为AI助手精准定位技术文档答案提供可靠信息来源 [25] - 在企业知识管理和法律科技等专业领域展现出广阔应用前景 [25]
机器狗腿被锯了也能继续走!最新机器人大脑来自320亿估值独角兽
量子位· 2025-09-25 11:42
时令 发自 凹非寺 量子位 | 公众号 QbitAI 不怕故障的机器人大脑来了! 肢体断裂?马达卡住?通通没问题。 只要机器人能动,大脑就能让它动 由于生活中总有很多事情是难以预料的,所以即使很多机器人在视频中表现惊人,但在现实生活中却不可避免要面临失败。 为什么会这样呢? 只要机器人身体能动,这个大脑就能让它动起来。 踩高跷?适应外力?负载重物?也是so easy。 除此之外,它还能完成更精细的动作,比如放置碗碟。 这个大脑,就是估值已达45亿美元(截至今年6月)的 Skild AI 新推出的Skild Brain,它在一个包含 十万种 机器人姿态的虚拟环境中,训 练了相当于 一千年 的时间才得以成型。 更值得一提的是,此模型从未在这些机器人上进行过训练,它对它们的控制能力完全是涌现出来的。 下面具体来看。 答案就在于机器人的编程方式。 以机器人的运动为例,大多数控制器都是针对特定机器人训练的,控制它的AI会记住该机器人的运动策略,就像是记住了考试答案一样,对通 过考试有用,但对学习如何得出答案却毫无帮助。 当AI面临从未见过的情况,例如马达卡住、肢体断裂或者是全新的身体时,记住的方案就毫无用处。 Skil ...
你的AI助手更万能了!天禧合作字节扣子,解锁无限新功能
量子位· 2025-09-25 11:42
天禧超级智能体与字节跳动扣子平台生态合作 - 天禧超级智能体是联想集团推出的新一代AI助手平台 作为智能终端设备的"AI大脑" 集成语音、文本、视觉交互能力 提供AI操控、AI搜索、AI翻译、AI笔记和AI服务五大功能 [1] - 合作旨在解决AI开发者"开发易 分发难"痛点 通过扣子平台可视化界面开发应用 并利用天禧平台流量入口实现一键部署和触达 [3] - 开发者只需在扣子平台选择"联想开放平台"渠道 智能体审核通过后即可上架天禧AI Space 形成从开发到商用的完整商业链路 [3] 用户体验升级与功能整合 - 天禧通过聚合扣子平台多元AI能力 实现"一个入口 万物可及"的体验效果 用户无需切换多个专项应用 [6] - 典型应用场景包括旅行规划助手自动安排机票酒店路线 以及AI外语陪练与天禧自带翻译功能的协同使用 [8] - 天禧3.1升级通过优化交互流程与生态整合 使AI功能从分散走向集中 大幅降低用户使用门槛 [8] 生态战略与行业影响 - 合作标志联想AI发展进入平台化、生态化整合阶段 强化AI生态赋能核心属性 [1] - 联想展现构建开放包容AI生态的决心 未来将吸引更多重量级合作伙伴与中小开发者加入生态 [9] - 天禧作为"硅基大脑"将持续串联设备、数据与场景 实现无缝AI功能融入生活 [9]