量子位 - 财报，业绩电话会，研报，新闻

量子位

搜索文档

顶会双盲评审大翻车！一个Bug审稿人信息全泄露，ICLR、NeurIPS、ACL都遭殃…

量子位· 2025-11-28 01:53

学术圈不眠夜啊。万万没想到，一个系统级大Bug，直接把ICLR、NeurIPS、ACL……各大顶会所有审稿人通通"开盒"了。事情是这样的。各大计算机顶会不都是双盲评审嘛，对于论文作者们而言，并不知道给自己打分的审稿人都是谁。但就在昨个晚上，一个Bug突然疯传：只要输入特定字段到一个API链接，系统就会把审稿人的个人信息一股脑全部吐出来，包括姓名、邮箱、单位…… 并且不限于某个顶会，而是用了OpenReview的全中招了。鱼羊发自凹非寺量子位 | 公众号 QbitAI 好家伙，约等于官方系统直接成了"人肉"平台了。事情迅速发酵，最先被发现出问题的ICLR 2026赶忙po出声明： 2015年11月27日，ICLR发现了一个软件漏洞，这个漏洞泄露了作者、审稿人和领域主席的姓名，并影响了所有托管在OpenReview上的会议。我们感谢OpenReview团队迅速修复了该问题。任何对泄露信息的利用和分享，都违反了ICLR行为准则，将立即导致所有投稿被拒，还会面临ICLR的多年期禁入惩罚。如果有任何作者或审稿人联系、威胁或贿赂您，请立即向program-chairs@iclr.cc报告。声明 ...

DeepSeek再破谷歌OpenAI垄断：开源IMO数学金牌大模型

量子位· 2025-11-28 01:53

文章核心观点 - DeepSeek开源了专注于可自验证数学推理的新模型DeepSeekMath-V2，其在多项国际顶级数学竞赛中取得超越人类和主要竞争对手的卓越成绩[1][7] - 该模型的核心创新在于通过迭代的强化学习循环，开发和利用强大的证明验证能力来指导和优化证明生成，克服了传统方法的局限性[7][9] - 模型的发布被视为对OpenAI和谷歌等行业巨头的重要市场动向，可能影响行业竞争格局[5] 模型性能表现 - 在Putnam 2024竞赛中得分118/120，超过人类最高分90分[2][43] - 在IMO 2025和CMO 2024竞赛中取得金牌级分数，其中IMO 2025的P1至P5题目正确率达到83.3%[2][44] - 在所有CNML级别问题类别（代数、几何、数论、组合学、不等式）上均优于GPT-5-Thinking-High和Gemini 2.5-Pro[2][34] - 这是第一个开源的IMO金牌模型[4] 技术方法创新 - 采用685B参数的大型语言模型架构，专注于自验证数学推理[7] - 开发迭代的强化学习循环，交替优化证明验证器和证明生成器[9] - 引入元验证机制作为二级评估过程，审查验证器生成的证明分析，使验证器分析的平均质量分数从0.85提升到0.96[14][21] - 训练验证器能够根据人类专家标准识别证明问题并评分，分数分为1、0.5和0三个级别[10] - 利用从AoPS竞赛收集的1.75万个奥赛级别数学问题构建初始数据集[12] 训练流程优化 - 实现完全自动化的数据标注流程，在最终训练迭代中取代耗时的人工标注[29][31] - 采用GRPO进行强化学习，迭代地优化证明验证和生成能力[32] - 通过拒绝微调巩固前次迭代中的验证和生成能力[33] - 证明生成器具备自我审查和修正能力，随着最大顺序尝试次数增加，Pass@1指标大幅提升[23][40] 团队背景 - 论文一作邵智宏是DeepSeekMath 7B的一作，提出了经典的GRPO方法[6][45][46] - 邵智宏目前是DeepSeek从事大模型推理研究的研究员，本科毕业于北京航空航天大学，博士毕业于清华[48]

Artificial Intelligence

Artificial Intelligence

第三波嘉宾来袭！等你一起MEET2026，速戳报名

量子位· 2025-11-27 09:30

大会基本信息 - 会议名称为MEET2026智能未来大会，聚焦AI与前沿科技，旨在回顾过去一年最值得关注的议题并更早看见未来科技趋势[1] - 大会将于2025年12月10日在北京金茂万丽酒店举办[31] - 作为年度影响力科技商业峰会，每年吸引上千名科技从业者参与，百万观众线上围观，近百家合作媒体联合曝光，已成为智能科技行业年度风向标[33] 嘉宾阵容 - 已有20+位行业专家大咖确认出席，包括Google Cloud大中华区企业与中国初创业务负责人Dennis Yue等[2] - Dennis Yue在云计算和IT服务领域拥有超过30年领导经验，曾任职IBM 21年担任多个高管职位，目前负责Google Cloud大中华区企业与中国初创业务[8][9] - PPIO联合创始人兼CEO姚欣是P2P-Streaming协议发明人，曾创办覆盖全球4.5亿用户的网络电视平台PPTV，现聚焦AI云计算领域推出高性能推理加速引擎等产品[13][14] - 云徙科技COO毛健拥有20多年管理咨询和技术落地经验，主导GOS.AI企业运营超级智能体产品研发，提出消费行业数字化增长飞轮体系[17][18][19] - 卓世科技创始人兼CEO屠静曾任百度多款核心产品高管，具备丰富AI行业实践经验，公司为国内领先的行业模型及智能应用科技创新企业[22] - 联汇科技CEO赵天成博士研发的Om多模态大模型是国内首个通过工信部信通院评测认证的预训练大模型，2025年发布开源视觉语言大模型VLM-R1等终端智能产品[26][27] - 其他确认出席的重磅嘉宾包括张亚勤、孙茂松等AI行业领袖，以及百度、京东、高通、亚马逊等头部AI企业和RockAI、太初元碁等业内新秀[34] 大会核心内容 - 大会将重磅发布人工智能年度榜单与年度AI趋势报告[28] - 人工智能年度榜单从公司、产品、人物三大维度评选五类奖项，为AI行业最具影响力榜单之一[29] - 年度AI趋势报告将结合技术成熟度、落地现状和潜在价值提名十大AI趋势，并进行深入分析及提名代表机构和最佳案例[30] - 大会诚邀技术、产业、投资领域具有代表性的企业和人物共论行业破局之道，洞见智能新未来[33]

Artificial Intelligence

Artificial Intelligence

大模型首次拥有“脖子”！纽大团队实现360度类人视觉搜索

量子位· 2025-11-27 07:30

研究核心概念 - 提出“类人视觉搜索”新任务，使智能体能在360度全景环境中通过自主旋转头部搜索目标物体或路径[6] - 该研究将视觉空间推理从“脱离身体的被动范式”转向“具身的主动范式”[9] - 旨在解决大模型目前只能处理单张静态低分辨率图像、无法改变初始视角获取视野外信息、缺乏物理实体移步换景的局限[12] 技术框架与特性 - 类人视觉搜索具备交互性和具身性两大特性：智能体从窄视角开始行动，每次头部旋转改变视觉输入；将视觉推理与物理动作结合，要求智能体有意识协调头部运动[13] - 具体分为两类搜索问题：类人物体搜索定位目标物体，难度根据初始可见度比率分为简单中等困难三个等级[12]；类人路径搜索识别可通行路径并调整身体朝向，难度分为四个级别由文本线索存在及一致性决定[16] - 将搜索问题构建为多模态推理任务，通过策略网络实现工具使用与头部旋转，仅利用决策点采集的单个360°全景图构建闭环搜索环境而无需3D模拟器或硬件[17] 基准测试与数据集 - 构建全新针对性基准测试H*Bench，突破传统测试多聚焦简单家庭场景的局限，涵盖交通枢纽大型零售场所城市街道公共机构等真实世界复杂环境[7][8] - H*包含约3000个带标注任务实例，来源于多样化高分辨率全景视频，通过为每个任务实例设置四个不同起始方向获得12000个搜索回合[21][22] - 数据来源于全球大都市地区自行采集素材及开放平台，场景包含零售环境交通枢纽城市街道公共机构办公室娱乐场所六个主要类别[22][24] 模型训练与性能表现 - 基于Qwen2.5-VL-3B-Instruct模型展开pipeline，经训练后目标搜索准确率从14.83%提升至47.38%，路径搜索准确率从6.44%提升至24.94%[28] - 训练流程包括监督微调灌输基本任务导向推理和工具使用能力，以及多轮强化学习精炼策略鼓励长程推理[31] - 研究发现更大模型尺寸并不保证更好性能，较小4B/3B模型在类人物体搜索任务中超越较大12B/7B模型，在类人路径搜索任务中表现持平[32][33] 错误分析与性能瓶颈 - 类人物体搜索错误主要源于感知能力不足和感知动作差距[36] - 类人路径搜索错误更为复杂，包括缺乏物理常识缺乏社会空间常识以及视觉动作不匹配[36] - 研究表明后训练能有效提高低级感知运动能力，但暴露了高级推理方面根本瓶颈，这些推理需要物理空间和社会常识[34]

类人视觉搜索

多模态推理任务

人工智能

Qwen2.5-VL-3B-Instruct模型

Qwen2.5-VL-3B-Instruct模型

Gemini 2.5 Pro模型

5亿热钱砸向清华AI Infra明星：最大化算力效能筑造智能体基建

量子位· 2025-11-27 07:30

融资情况 - 公司完成近5亿元A+轮融资[3] 累计融资金额近15亿元[1][7] - 本轮融资由珠海科技集团和孚腾资本领投惠远资本尚颀资本弘晖基金跟投洪泰基金达晨财智尚势资本&海棠基金联想创投君联资本申万宏源徐汇科创投元智未来等老股东继续加码[5] - 融资阵容实现国资与市场化基金双重背书既肯定公司技术创新也代表资本市场对其智能体基础设施路线的肯定[7] 资金用途与战略方向 - 融资资金将用于持续扩大软硬协同多元异构的技术领先优势推动AI云产品与AI终端方案在产业中的规模化拓展加大智能体基础设施研发投入[9] - 公司提出生产智能体协同智能体服务智能体的体系化战略完成面向智能体场景的原生基础设施转型[10] - 公司计划继续推进Agentic Infra战略布局加速智能体在数字世界与物理世界的融合[27] 技术能力与产品布局 - 公司在全国完成25,000P+算力纳管覆盖26座城市 53个核心数据中心服务百余家头部客户和多家科研机构[12] - 云端无穹AI云实现多元异构算力统一纳管高性能训练&推理优化智能体服务平台标准化和完整工具链[15] - 终端无垠终端智能解决方案包括无穹天权端侧大模型以3B计算成本与7B内存需求对标21B级智能水平无穹开阳终端推理加速引擎在主流硬件上实现3倍时延降低 40%能耗节省和40%内存占用无穹天璇自研端侧LPU IP实现能效翻倍[16] - 公司还发布Infra Agents云端基础设施智能体蜂群 Kernel Mind终端推理加速与优化平台 RLinf强化学习框架和Cache to Cache无损通信框架[16] 市场地位与客户基础 - 公司成为AI基础设施领域最受资本追捧的黑马企业之一[1] - 服务客户包括Kimi 百川智能 Lovart 理想汽车联想集团生数科技 Soul VAST 中国移动新华三中兴终端等头部企业支撑智源浦江实验室之江实验室上海算法创新院中关村学院等科研机构[12] - 投资方认为公司已在云+端全栈体系中构建成熟产品矩阵与多行业落地案例为下一代Agentic Infra深化布局奠定坚实基础[19] 创始团队背景 - 公司由清华电子工程系长聘教授系主任汪玉和其弟子夏立雪牵头创办[22][23] - 汪玉深耕智能芯片领域二十余年曾成功孵化AI芯片企业深鉴科技夏立雪本科到博士均毕业于清华大学电子工程系连续五年入选斯坦福全球学科Top2%科学家榜单连续两年入选AI2000人工智能全球最具影响力学者榜单[23]

人工智能

智能体

Artificial Intelligence

Artificial Intelligence

无穹天璇（Infini - Merak）

无穹AI云

无垠终端智能

月之暗面公开强化学习训练加速方法：训练速度暴涨97%，长尾延迟狂降93%

量子位· 2025-11-27 04:34

核心技术突破 - 月之暗面联合清华大学推出全新加速引擎Seer，旨在不改变核心训练算法的前提下，大幅提升大语言模型的强化学习训练速度 [1] - Seer框架通过其三大核心模块（推理引擎池、请求缓冲区、上下文管理器）和三项关键技术（分段生成、上下文感知调度、自适应分组推测解码）协同工作，从内存、调度、推理三个维度全面优化rollout效率 [9][10][11][20] - 该技术针对RL训练中耗时的生成阶段，解决了其固有的工作负载不均衡和长尾延迟问题，资源利用率较低 [6] 性能提升数据 - 实验结果显示，Seer在不同工作负载下，相比基线系统veRL，吞吐量提升74%至97% [3][23] - 在长尾延迟方面，Seer表现显著优于veRL，例如在Moonlight任务中，veRL最后10%请求耗时3984秒（占总时长约50%），而Seer仅需364秒，延迟降低85% [23] - 在Qwen2-VL-72B和Kimi-K2任务中，长尾延迟分别降低93%和75% [23][24] - 专项实验表明，Seer的上下文感知调度策略在吞吐量上可达到理想Oracle水平的95%，其长尾延迟仅为无上下文调度策略的13% [27][28] 公司融资与资本动态 - 月之暗面即将完成新一轮融资，融资金额高达数亿美元，完成后公司估值将提升至40亿美元 [32][33] - 公司正与IDG Capital等投资机构洽谈，潜在投资方包括现有股东腾讯 [36] - 预期本轮融资将于今年年底前完成，并计划在明年下半年启动IPO进程 [37]

量子位· 2025-11-27 04:34

公司概况与行业地位 - 公司是一家以追踪AI新进展为核心的内容平台，拥有8年行业积累[1] - 公司在微信公众号平台拥有超过240万订阅用户，全网用户超700万，日均阅读量达200万以上[12] - 公司在新榜和清博等第三方数据平台中，是AI及前沿科技行业的TOP1新媒体[12] 招聘岗位方向 - 公司开放三大方向的岗位招聘：AI产业方向、AI财经商业方向、AI产品方向[2][6] - 岗位面向社招和校招，社招覆盖编辑、主笔、主编各个层级，校招面向应届毕业生并提供实习转正机会[3][6] - 所有岗位不同能力层级的职位均在开放，工作地点为北京中关村[2][4] AI产业方向岗位详情 - 岗位职责为关注基建层创新，包括芯片、AI Infra、云计算领域新进展及核心玩家动态[5][6] - 需对前沿论文、开源社区、技术大会报告进行大众化解读，并参与核心采访，撰写AI云落地案例[6][7] - 任职要求包括对芯片、GPU、NPU、服务器、模型训练架构、云计算等有基本理解，熟悉AI行业供应链与生态，并能进行结构化表达[11] AI财经商业方向岗位详情 - 岗位职责为聚焦创投、AI创业公司、上市公司、商业模式及产业链资本动向，产出相关分析稿件[11] - 需进行访谈对话，对象包括投资人、创业者和产业分析人士[11] - 任职要求包括对数据敏感，对财报和战略规划感兴趣，具备强逻辑和商业叙事能力，并热爱采访[11] AI产品方向岗位详情 - 岗位职责为关注AI在软件应用和硬件终端的落地，撰写产品深度评测并跟踪多终端新品发布[11] - 需对话访谈AI应用创业者、产品专家及终端技术专家[11] - 任职要求包括对智能硬件和AI终端趋势敏锐，是重度AI产品体验人士，熟悉终端厂商生态并具备强表达能力[11] 员工福利与发展 - 员工可第一时间接触AI领域最新技术和产品，构建完整认知体系，并将AI新工具应用于工作[6] - 通过撰写原创内容可建立个人影响力，拓展行业人脉，参与重要科技活动[6] - 公司提供行业TOP薪资待遇，五险一金、餐补、项目绩效、商务绩效、加班补助等福利，团队氛围扁平开放[6] - 应届新人可获得主编级编辑的一对一指导，以更快获得成长[6]

Artificial Intelligence

AI芯片

AI Infra

云计算

Artificial Intelligence

AI芯片

AI Infra

云计算

10000个代码文件，我打几把游戏的功夫就搞成Wiki了！

量子位· 2025-11-27 04:34

产品核心定位与差异化 - 产品专注于解决“真实软件”研发痛点，即支撑商业价值、需要严肃迭代且存在大量历史积累（5-10年）的代码项目，而非从零生成新项目的场景[12][13][14] - 该定位旨在切入占开发者95%工作时间的核心研发领域，被认为是信息产业持续产生价值的“价值高地”[12][13] 核心功能与技术能力 - **仓库Wiki自动生成**：能够快速解析大型代码仓库（如包含约7500个文件的Microsoft Terminal项目）并自动生成包含项目概述、架构设计等内容的完整Wiki，支持共享协作[3][4][5][7][8] - **深度代码理解**：在IDE中通过自然语言提问（如“这个controller的findAll方法用到了哪些Service和Repository”），能自动检索并清晰呈现代码调用链和分析过程[20][21][22] - **Quest Mode（AI自主编程）**：基于自然语言需求描述（Spec），自动生成完整需求文档、逐步执行任务并提交总结，实现Spec驱动的自动化开发[25][26][27] - **大规模代码处理**：具备一次检索10万个代码文件的能力，可将电商网站级开发任务从数天压缩至约十分钟[24] - **Debugger集成**：在JetBrains插件中能理解调试上下文，直接引用内存中的变量和调用链提供智能调试建议，无需手动复制信息[38] - **代码安全与审查**：可分析代码风险（如SQL注入），并与GitHub深度集成进行自动代码审查，据称可提升2倍审查质量和10倍审查效率[39][49][50] 产品形态与覆盖范围 - 提供三种产品形态：IDE、JetBrains插件和命令行界面（CLI），覆盖不同开发者偏好[21][30][31][44] - JetBrains插件支持异步委派任务，具备记忆感知功能，能根据开发者习惯和项目特点形成记忆，实现“越用越懂你”的效果[32][40][41][42] - CLI形态内置轻量Agent，支持扩展插件和命令，可与GitHub Issues、Pull Requests交互，被描述为Claude Code的完美平替[44][49][52] 性能与性价比优势 - 采用“全球顶级模型+专项自研模型”组合，在效果评分上领先头部产品13.22%[21][53] - 在同样付费金额、使用SOTA模型的条件下，可完成205%的编程任务，性价比显著[21][54] - 提供模型分级选择器，包括基础轻量、经济高效、极致性能和智能路由四种模式，以匹配不同复杂度研发需求[24] - 据称其RepoWiki模型可节省93%的Credits消耗，SOTA模型耐用度比Cursor高104.9%[53][54] 行业贡献与标准制定 - 公司开源了“AI编程工具耐用度评测集”，为行业提供了可参考的评估标准，涵盖Python、JavaScript、TypeScript、Java和Golang等主流语言[58] - 评测集模拟真实开发环境和复杂场景，计划在明年3月前将真实开发场景案例数量扩展到50多个[58][60][61] - 基于该评测，公司在复杂工程、生成效果、Credits耐用度方面均宣称超过全球头部产品[60]

观众抢位中！锁定MEET2026，让我们畅聊AI｜最新嘉宾阵容

量子位· 2025-11-27 04:34

大会核心信息 - 大会主题为“共生无界，智启未来”，关注AI等智能科技如何穿透产业、学科与场景边界，成为社会演进核心动能[2] - 大会将聚焦强化学习、多模态、芯片算力、AI+行业、AI出海等年度热议话题[3] - 内容涵盖学术前沿与商业落地碰撞，以及来自Infra、模型、产品产业的领先技术成果[4] - 大会将权威发布人工智能年度榜单与年度AI趋势报告[5][93] 嘉宾阵容与研究方向 - 张亚勤：数字视频和AI领域世界级科学家，曾任百度总裁，发明多项图像视频压缩传输技术被国际标准采用[11][12] - 孙茂松：主持国家973项目、国家社科基金重大项目等20余项科研项目[15] - 王仲远：发表国际顶级学术会议及期刊论文100余篇，获得ICDE 2015最佳论文奖，研究兴趣包括大模型、多模态等[19] - 王颖：现任百度集团副总裁，负责百度文库、百度网盘等重点业务的产品创新和落地[23][24] - 何晓冬：发表论文200余篇，被引用6万余次，带领团队打造京东JoyAI大模型并应用于零售、物流、金融、健康等行业[28][29] - 韩旭：文远知行创始人，带领公司在全球11国超30城开展自动驾驶研发测试运营，并于2024年登陆纳斯达克[33][34] - Daniel Povey：小米集团首席语音科学家，著名开源语音识别工具Kaldi提出者，谷歌学术引用近52000次[38] - 方汉：昆仑万维董事长兼CEO，拥有31年互联网从业经验，是中文Linux奠基人之一[42][43][46] - 尤洋：潞晨科技创始人，曾获ACM-IEEE CS George Michael Memorial HPC Fellowship，曾任职谷歌、微软、英伟达等公司[48] - 杨帆：商汤科技大装置战略业务负责人，主导推动身份验证、娱乐、安防等核心业务规模化商业落地[51][52] - 万卫星：高通公司AI产品技术中国区负责人，负责高通智能终端侧人工智能引擎软硬件规划及生态系统建设[54][55] - 陈晓建：亚马逊云科技大中华区产品部总经理，负责云服务在大中华区落地、产品管理及业务拓展[58][59] - 朱宁：研究涵盖行为金融学、中国宏观经济等领域，所著《刚性泡沫》等畅销书被译为多国语言[62][63] - 赵俊博：首创数据库大模型TableGPT，参与过PyTorch早期研发，师从图灵奖得主Yann LeCun[66] - 喻友平：提出“平台+应用+服务”大模型落地三级引擎战略，带领公司入选2025《财富》中国科技50强[69][70] - 刘凡平：RockAI CEO，主导实现国内首个非Transformer架构大模型，首倡“群体智能”理念推动AGI发展[73][74] - 乔梁：太初元碁联合创始人，曾主导计算生物、流体力学等AI4S前沿领域国产应用研发及成果转化[78][79] - 王潜：自变量机器人创始人，致力于研发由端到端大模型驱动的通用机器人[81][82] - 杜知恒：小宿科技联合创始人，曾在红杉中国对冲基金、高瓴资本、百度等企业从事投资、战略岗位[86][87] - 徐达峰：蚂蚁集团平台体验技术部负责人，致力于通过AI驱动的前端研发范式革新实现企业级研发效能突破[90][91] 大会发布内容 - 将发布2025人工智能年度榜单，从公司、产品、人物三大维度评选五类奖项[94] - 将发布2025年度AI十大趋势报告，结合技术成熟、落地现状、潜在价值等因素提名十大AI趋势并进行深入分析[95] 大会影响力 - 每年吸引上千名科技从业者参与，百万观众线上围观，近百家合作媒体联合曝光[98] - 已成为智能科技行业年度风向标，汇聚技术、产业、投资领域代表性企业和人物[98]

视频大模型新基元：用Object Tokens重塑细节感知与指代理解

量子位· 2025-11-27 04:34

文章核心观点 - 北大和UCSD团队提出VideoOrion视频理解框架，通过将前景物体的时空动态显式编码为Object Tokens，并与Context Tokens并行输入大语言模型，解决了现有Video-LLM因下采样或特征聚合导致的细节丢失和语义纠缠问题[2][3] - 该方法在多个主流视频理解基准测试中性能全面领先，并自然演化出视频指代问答能力，为细粒度视频理解和需要锁定实例的任务提供了天然接口[4][6][17] 核心方法 - 采用双分支并行编码架构：Context Tokens承载背景/场景等泛化信息；Object Tokens通过检测-分割-跟踪流水线提炼对象随时间的演化特征，形成紧凑且语义解耦的Token[9][10] - 对象动态Token化使大语言模型能沿对象维度整合细节，提升细粒度问答能力，例如能清晰描述“红色三轮滑板车+拖地组件”的细节或“黑色泳装+跳板后空翻”的动作要素[6][7] - 针对视频中前景物体进出画面和场景突变，提出自适应切片策略以稳健检测与关联对象，避免均匀切段带来的跨段错配，最佳组合为RAM++分段 + GroundingDINO提案 + XMem跟踪[14] 性能表现 - 在7B LLM设置下，VideoOrion在MVBench、EgoSchema、Perception-Test、VideoMME、ActivityNet-QA上的准确率分别达到63.5%、65.1%、65.2%、54.6–55.3%、57.7%，相对同骨干网络的VideoLLaMA2/2.1等模型，相对涨幅分别为+10.1%、+14.6%、+15.6%、+8.7%、+7.8%[16][17] - VideoOrion+（使用SigLIP编码器和16帧）性能进一步提升，在上述基准上达到67.4%、65.0%、65.9%、58.9–61.5%、60.3%的准确率[17] - 得益于显式Object Token，模型在VideoRef45K指代理解基准上零样本即有效，经小规模微调后，多项指标（BLEU@4、METEOR、ROUGE_L、CIDEr、SPICE）全面领先Artemis、Merlin等方法[17][18] 消融分析与技术洞察 - 消融实验证实对象分支的必要性：在等数据量下，去掉对象分支的基础模型在各基准上均落后；对象分支预训练整体更优[19][20] - Object Token数量存在适度原则：模型在最多64个Object Token时表现最稳定，过少信息不足，过多分散注意力[21] - 双分支结构优势明显：仅用Object Token会损失背景信息，仅用视频分支缺乏细节，双分支协同在保证全局线索的同时抓取关键对象信息[22][25] - 不同流水线组件组合均显著优于仅视频分支，验证了方法鲁棒性，最佳组合为RAM++分段 + GroundingDINO提案 + XMem跟踪[14][23]

Object Tokens

Video Understanding Framework

Artificial Intelligence

VideoOrion

Object Tokens

Video Understanding Framework

Artificial Intelligence

VideoOrion

Previous Next