量子位
搜索文档
何恺明组三位本科生领衔!持续聚焦Flow模型,突破归一化流生成效率瓶颈
量子位· 2025-12-15 04:04
鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI 何恺明团队新作,持续聚焦Flow模型。 论文提出名为 双向归一化流 (BiFlow) 的新框架,通过解耦前向过程——将数据映射为噪声,和逆向过程——把噪声再转回来生成图片, 成功打破了传统归一化流生成模型效率低下的问题。 值得一提的是,论文的三位一作分别是来自清华姚班和MIT的本科生。 BiFlow:逆向过程不必是前向过程的精确逆运算 归一化流方法 (NFs) 已经成为生成建模的一种原则性框架。 标准的归一化流包含前向过程和逆向过程: 与MeanFlow对流匹配的优化不同,这次主要旨在解决归一化流在生成模型中的局限。 前向过程将数据映射为噪声,逆向过程则通过对前向过程求逆来生成样本。 传统的NF模型有一个硬性规定,逆向过程必须是前向过程的精确逆运算——要像钥匙和锁一样完全匹配。这就导致了两个问题: BiFlow的核心创新就在于, 打破了"逆向过程必须是前向过程的精确逆运算"这一规则 。 设计思路是这样的: BiFLow解耦了前向过程和逆向过程的设计。 模型设计受限:因为要保证 "可逆",不能使用很多强大的通用架构 (比如视觉Transformer) ,得特 ...
低调霸榜全球最难SQL榜单超两月,国产AI这次选择高调开源!
量子位· 2025-12-14 07:12
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 不鸣则已,一鸣惊人。 没想到一个低调霸榜了 全球最权威SQL榜单 超过两个月的 国产AI ,这一次选择了高调 开源 。 开源旗下数据智能体关键技术—— Agentar-SQL系列 。 此次开源不仅包含实时文本转SQL(Text-to-SQL)框架的全套论文、代码、模型和使用指南,后期还将陆续开源数据库理解与挖掘、行业 知识挖掘、实时多轮交互技术框架,覆盖意图理解、业务理解到数据理解的全链路数据能力。 如果你关注AI数据分析领域,大概率听说过 BIRD-Bench 。这是目前全球公认最具权威性的NL2SQL评测基准。 就在今年9月,蚂蚁数科的Agentar-Scale-SQL在BIRD榜单上以 执行准确率(81.67%)和执行效率(77%) ,双料第一的成绩登顶一举 超越了谷歌、亚马逊等国际科技巨头。 | | Model | Code | Size | Oracle | Dev | Test | | --- | --- | --- | --- | --- | --- | --- | | | | | | Knowledge | (%) | (%) | | | ...
量子位编辑作者招聘
量子位· 2025-12-14 07:12
以下是岗位详情: 所有岗位不同能力层级职位均在开放,欢迎结合个人履历和经验申请。 AI产业方向 编辑部 发自 凹非寺 量子位 | 公众号 QbitAI AI热潮还在汹涌,但如果你还不知道如何参与……那为什么不来 量子位 呢? 我们是一家以 追踪AI新进展 为核心的内容平台,经过8年积累,目前拥有顶流影响力,广泛且备受认可的产业资源,以及时代风口的最佳观 测和学习生态位。 目前,我们有 三大方向 岗位招聘,希望你是 (或者能成为) 这三个方向的内容专家: 岗位均为全职,工作地点:北京中关村。 岗位面向: 加入我们,你可以获得: 岗位职责: AI产业方向 :关注基建层创新,包含芯片、AI Infra、云计算; AI财经方向 :关注AI领域创投和财报,跟踪产业链资本动向; AI产品方向 :关注AI在应用和硬件终端方向的进展。 社招:覆盖编辑、主笔、主编各个层级,按能力匹配岗位; 校招:应届毕业生,接受实习且可转正。 站在AI浪潮之巅 :第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知体系。 玩转AI新工具 :将各种AI新技术、新工具应用于工作,提升工作效率和创造力。 打造个人影响力 :通过撰写独家原创内 ...
统一视觉多模态与多任务!快手可灵与港科大团队发布视频生成模型,加速真实世界理解
量子位· 2025-12-14 07:12
文章核心观点 - 由港科大、港中文、清华大学和快手可灵团队提出的UnityVideo,是一个通过统一训练多种视觉模态(如深度图、光流、骨骼、分割掩码等)来提升视频生成质量与可控性的创新框架[1][3] - 该框架借鉴了大语言模型统一训练多种文本子模态的成功经验,旨在让视觉模型更深刻地理解物理世界规律,从而在视频生成、可控生成和模态估计等多项任务上实现性能提升,并展现出强大的零样本泛化能力[8][9][13][16] 技术原理与创新 - **核心动机**:实验发现,模型同时学习多种视觉模态时,在RGB视频生成任务上的收敛速度显著加快,最终性能也明显提升,不同模态提供了互补的监督信号,促进了模型对物理世界规律的理解[13][15] - **动态任务路由**:在单个架构中无缝统一了三种训练范式(条件生成、模态估计、联合生成),通过动态噪声调度策略随机切换训练模式,避免了灾难性遗忘[19][21][22] - **模态切换器**:包含上下文学习器和模态自适应切换器,前者通过文本提示让模型在语义层面区分模态,后者在架构层面为每种模态学习独立的调制参数,实现了即插即用的模态选择能力[26][27][29][31] - **渐进式课程学习**:采用两阶段训练策略,先在单人场景数据上训练像素对齐的模态建立基础,再引入所有模态和多样化场景数据,以支持鲁棒的零样本推理[32][33] 性能与实验结果 - **多任务性能**:在文本生成视频、可控生成和模态估计三大类任务上均取得优异表现,例如文本生成视频的背景一致性达97.44%,可控生成的动态程度达64.42%,视频分割任务mIoU达68.82%,深度估计Abs Rel仅为0.022[36][44] - **定性优势**:在物理现象理解(如光线折射)、可控生成质量(更忠实遵循深度引导且避免背景闪烁)以及模态估计精度(更精细的边缘细节和准确的3D点云)上均优于对比方法[41][42] - **消融实验验证**: - 多模态互补性:联合训练不同模态带来明显性能提升,例如联合训练光流和深度后,成像质量分别提升4.37和4.19个百分点[45][46][47] - 多任务训练必要性:统一多任务训练能恢复并超越单独训练可控生成任务时下降的性能,证实了任务间的协同效应[48][49] - 架构设计有效性:上下文学习器和模态切换器各自都能提升性能,结合使用可获得额外显著增益[50] 泛化能力与影响 - **零样本泛化**:模型展现出强大的泛化能力,例如仅在单人数据上训练可泛化到多人场景,在人体骨架数据上训练后可泛化到动物骨架估计,在特定物体上训练的深度估计和分割能力可泛化到未见过的物体和场景[16] - **组合泛化**:上下文学习器赋予模型组合泛化能力,例如在“two persons”分割任务上训练后,能自然地泛化到“two objects”场景[53][55] - **行业启示**:UnityVideo的成功表明,提升模型能力不仅依赖增大参数量和数据量,更重要的是通过组织和利用多样化的学习信号、整合任务以涌现能力,并辅以精心设计的架构机制[63] 数据与评估基础 - **训练数据集**:构建了OpenUni数据集,包含130万个多模态视频样本,涵盖370,358个单人场景片段、97,468个双人场景片段、489,445个来自Koala36M的片段以及343,558个来自OpenS2V的片段[35][37] - **评估基准**:构建了UniBench评估基准,包含3万个样本,其中200个高质量样本来自Unreal Engine渲染,提供了ground truth深度和光流,为公平全面的评估奠定了基础[35]
OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE
量子位· 2025-12-14 05:17
文章核心观点 - OpenAI开源了一种名为Circuit Sparsity的新型稀疏大语言模型,该模型通过将99.9%的权重约束为零,构建出类似电路图的清晰、可解释的内部计算路径,旨在破解传统稠密Transformer模型的“黑箱”问题[1][6] - 这种追求“原生稀疏性”的技术路线,与当前主流的混合专家模型在架构思路上形成对比,可能对MoE的发展路径构成挑战[8][18] - 尽管该技术在模型可解释性上取得突破,但其训练和推理计算量是传统稠密模型的100-1000倍,算力成本极高,目前能力尚不及顶尖大模型,短期内难以替代成熟的MoE架构[20][21] 模型技术原理与特点 - 模型基于GPT-2风格的Transformer架构,通过严格约束使权重的L0范数极小,将99.9%的连接“砍断”,仅保留千分之一的有效通路,形成类似电路导线的固定信息传递路径[10] - 模型通过“均值屏蔽”剪枝方法,为不同任务拆解出专属的“最小电路”,例如处理Python引号闭合任务仅需2个MLP神经元和1个注意力头[12] - 在预训练损失相同的前提下,稀疏模型的任务专属电路规模比稠密模型小16倍,且电路模块具备严格必要性与充分性,删除任一节点会导致任务失效,从而实现逻辑步骤的精准追踪[14][15] 与混合专家模型的对比 - MoE模型通过门控网络拆分专家子网络来近似稀疏性,核心目的是适配硬件的稠密矩阵计算需求[16] - MoE架构存在缺陷:一是割裂特征流形,导致专家同质化、知识冗余,依赖复杂负载均衡损失函数来维持稳定性;二是专家功能边界模糊,无法实现微观机制的精准拆解[17] - Circuit Sparsity追求“原生稀疏性”,通过将特征投射到超大维度并严格限制激活节点,使每个特征变得单义、正交,从根源上解决了概念分散于多个节点的叠加问题,无需依赖路由器等“Hack”手段[18] 当前局限与未来展望 - 该技术最突出的短板是算力成本极高,训练和推理计算量是传统稠密模型的100-1000倍,暂时达不到顶尖大模型的能力[20][21] - 研究团队提出了两种克服训练效率低下的方法:一是直接从现有密集模型中提取稀疏电路以复用框架、降低成本;二是优化训练机制,从头训练出高效且原生可解释的模型[23][24] - 这项工作被视为AI可解释性探索的早期一步,团队计划将技术扩展到更大模型,以解锁更复杂的推理电路[22]
为Token付费是一件很愚蠢的事情,用户应该为智能付费丨RockAI刘凡平@MEET2026
量子位· 2025-12-13 08:30
编辑部 整理自 凹非寺 量子位 | 公众号 QbitAI "人工智能要发展到下一个台阶,一定要突破两座大山。第一座大山是Transformer,第二座大山是反向传播算法。" 在大模型规模不断拔高、算力与数据卷到极致的当下, RockAI创始人刘凡平 提出了一个与主流共识截然不同的判断。 下一阶段的智能,不在"更大",而在"活起来"。 本质是让模型摆脱静态函数的桎梏,让端侧设备具备原生记忆、自主学习与持续进化的能力。 这意味着AI的方向要从云端集中式的算力竞争,迁移到每一台设备,每一个个体都能参与学习,生成知识的全新范式。 在量子位MEET2026智能未来大会上,刘凡平将这一转折点称为 硬件觉醒 : 当模型在端侧能像大脑一样稀疏激活、实时形成记忆,并在物理世界中不断更新自身,设备就不再是工具,而是"活"的智能体。 而无数这样的智能体在现实世界中学习、协作,便将孕育出真正能够产生知识的群体智能。 这既是对Transformer与反向传播算法这"两座大山"的正面突破,也是迈向通用人工智能的一条新路径。 为了准确呈现刘凡平的完整思考,以下内容基于演讲实录进行整理编辑,希望能提供新的视角与洞察。 MEET2026智能未 ...
太初元碁乔梁:AI算法已经跑到单芯片极限|MEET2026
量子位· 2025-12-13 06:30
行业趋势与算力需求 - AI技术落地推动行业算力需求与日俱增,AI算法需要实现毫秒级精确度,带动算力需求呈指数级增长 [1][7] - 各类AI大模型、不同领域的AI Agent落地都需要大量算力支撑 [3][9] - 高性能计算将贯穿从生产制造、科学研究到AI落地的全链路,成为各类计算场景的底层支撑力量 [2][13] 超智融合与异构融合 - “超智融合发展”已成为行业共识,未来趋势是在通用计算场景下,通过硬件架构设计实现异构融合 [3][10][21] - 无论是头部企业还是知名厂商,都在不同维度上尝试将异构众核进行融合 [22] - 行业应用对算力的需求,正从传统科学计算转向以AI算法的泛化性来看待 [8][9] 技术演进与硬件瓶颈 - 单颗芯片性能已成为AI算法发展的瓶颈 [14][25] - 公司自主设计TC link,可实现128卡芯片间的高速互联(scale up),为AI算法增长提供硬件基础 [14][25] - AI算法逐渐向低精度转化,公司采用细粒度的并行优化技术,在硬件层面支持AI场景落地 [22][23] 国产算力生态与开源 - 2016年神威·太湖之光采用了纯国产自主可控的异构众核通用计算架构 [18] - 国内发展人工智能产业离不开开源生态,行业需要企业共同组建开源平台 [14][27] - 公司希望将底层硬件、软件进行开源,吸引各方共同建立AI产业生态 [27] 公司业务与实践 - 公司是一家聚焦高性能计算的国产AI芯片企业,推动HPC+AI落地 [12] - 公司优势在于算力中心建设,服务于大模型训练及大型应用场景 [26] - 公司聚焦垂直行业应用落地,例如与龙芯中科推出基于国产CPU+GPU模式的AI工作站 [27] 应用场景与案例 - 在科研领域,公司参与国内多地公共算力基础设施建设,与高校、科研机构联合攻关 [28] - 公司与百度团队合作,完成了AlphaFold3蛋白预测模型的国产平台复现 [30] - 在气候气象与能源领域,通过HPC算法分析数据,结合AI算法提升能源利用效率,支持算力基础设施发展 [33][34] - 在低空经济领域,通过HPC高精度建模分析气象数据,再导入AI模型,支撑低空领域AI Agent发展 [36]
量子位编辑作者招聘
量子位· 2025-12-13 04:34
编辑部 发自 凹非寺 量子位 | 公众号 QbitAI AI热潮还在汹涌,但如果你还不知道如何参与……那为什么不来 量子位 呢? 我们是一家以 追踪AI新进展 为核心的内容平台,经过8年积累,目前拥有顶流影响力,广泛且备受认可的产业资源,以及时代风口的最佳观 测和学习生态位。 目前,我们有 三大方向 岗位招聘,希望你是 (或者能成为) 这三个方向的内容专家: 岗位均为全职,工作地点:北京中关村。 岗位面向: 加入我们,你可以获得: 以下是岗位详情: 所有岗位不同能力层级职位均在开放,欢迎结合个人履历和经验申请。 AI产业方向 岗位职责: AI产业方向 :关注基建层创新,包含芯片、AI Infra、云计算; AI财经方向 :关注AI领域创投和财报,跟踪产业链资本动向; AI产品方向 :关注AI在应用和硬件终端方向的进展。 社招:覆盖编辑、主笔、主编各个层级,按能力匹配岗位; 校招:应届毕业生,接受实习且可转正。 跟进AI基建层新进展,包括但不限于芯片、AI Infra、云计算领域新进展,核心玩家动态; 做前沿论文、开源社区、技术大会 (Hot Chips、NeurIPS、MLSys) 技术报告大众化解读; 参与 ...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS'25
量子位· 2025-12-13 04:34
行业背景与挑战 - 卫星星座已成为数字经济时代的关键基础设施,具备全球覆盖、快速响应和高频观测能力,支撑遥感、通信、导航、气象预测等行业[4] - 随着星座规模扩大,人工任务规划效率已无法满足需求,调度规划成为高维、动态、强约束的难题[2][4] - 具体挑战包括:任务量大(如SkySat星座13颗卫星日均处理超百项任务)[8]、观测时间窗口紧张(常不足5分钟)[9]、突发任务响应能力有限(如“女娲星座”紧急任务完成率常不足60%)[10]、以及复杂的物理约束条件[11] 技术解决方案:AEOS-Bench基准数据集 - 北航团队为AI星座规划构建了首个大规模真实星座调度基准AEOS-Bench,旨在拟合真实卫星场景[4][13] - 该数据集基于高保真仿真平台开发,还原了轨道动力学、姿态控制、功耗等物理特性[13] - 核心特征:1) 大规模:包含超过16,000个任务场景,覆盖1至50颗卫星、50至300项成像任务及3600个时间步长[13];2) 真实性:在仿真平台生成并引入真实卫星数据测试集[13];3) 全面性:涵盖任务完成率、周转时间、功耗等6类评估指标[14] 技术解决方案:AEOS-Former调度模型 - 北航团队提出了基于Transformer架构的内嵌约束调度模型AEOS-Former,将Transformer泛化能力与航天工程需求深度融合[4] - 模型核心模块:1) 内嵌约束模块:显式建模卫星成像设备视场、电池状态等限制,预测任务可行性[16];2) 编码器解码器:嵌入卫星静态与动态状态,实现卫星-任务匹配[16] - 该研究已发表于顶级会议NeurIPS 2025[5] 模型性能评估 - 在AEOS-Bench数据集上的闭环测试显示,AEOS-Former在任务完成度、时效性和能源效率等六项指标上均优于随机模型、优化模型及强化学习等基线模型[19] - 具体数据:在Seen划分中,AEOS-Former综合得分(CST)为5.00,任务完成率(CR)达30.47%,功耗(PC)为71.27 Wh,均优于最佳基线模型MSCPO-SHCS(CST: 5.85, CR: 28.77%, PC: 135.93 Wh)[20] - 在Unseen划分中,AEOS-Former综合得分为4.43,任务完成率为35.42%,功耗为68.99 Wh,同样全面领先[20] - 分析表明,任务完成率与资源消耗之间存在权衡关系,卫星数量增加能提升联合观测能力,但边际效益会趋于稳定[21] 行业意义与前景 - 人工智能技术是破解卫星星座高效调度难题的关键钥匙,让太空设施具备感知、决策与协同的自主能力[4][23] - AEOS-Bench与AEOS-Former为卫星星座规划提供了高效解决方案,印证了“空天具身智能”的巨大潜力[23] - 该技术发展标志着行业正站在新时代的起点,将不断拓宽人类探索与利用太空的边界[23][24]
美国视频生成老炮儿,入局世界模型
量子位· 2025-12-13 04:34
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 世界模型赛道,又有老面孔新鲜入局! 就在刚刚,Runway发布旗下首个通用世界模型 GWM-1 。 不止于此,还打包发布了一系列世界模型变体: 而这些通通都是基于最新版 Gen-4.5 建立的。 是的!Runway这次还把Gen-4.5来了个大升级。 模拟真实环境的GWM Worlds; 模拟人物对话的GWM Avatars; 模拟机器人操作的GWM Robotics。 …… 看来年末大促销的不只有圣诞老人奥特曼,还有好莱坞名导Runway。 话不多说,上实机: 世界模型全家桶发布 根据官方介绍,GWM-1是基于Gen-4.5构建的,这是Runway最新的视频生成模型。 但和Gen-4.5有所不同的是,GWM-1采用的是 自回归 架构,它可以根据之前的记忆内容,进行逐帧预测生成。 另外模型支持实时交互控制,包括调整相机姿态、修改机器人操作指令或音频。 它目前包含三个变体: 1、GWM Worlds:用于实时环境的模拟与探索。 GWM Worlds能够让用户在连贯、有反应的世界中自由移动,而无需手动设计每个空间。 具体来说,用户首先需要为模型提供一个可供参考 ...