机器之心
搜索文档
AAAI 2026 | 北航、东京大学填补AI「语义鸿沟」,过程感知视频理解如何找到「状态」锚点?
机器之心· 2025-12-06 01:15
文章核心观点 - 北京航空航天大学与东京大学联合团队提出名为TSS的新框架,通过引入“状态”作为视觉锚点,并采用渐进式“层级展开”预训练策略,有效解决了程序性视频理解中抽象文本指令与具象视频内容之间的语义鸿沟问题,该工作已被AAAI 2026接收[2][3][7] 现有方法的问题与挑战 - 现有程序性视频学习方法面临数据困境,依赖昂贵的时间密集型标注或利用WikiHow等外部知识库进行弱监督学习,将视频帧与“任务”或“步骤”文本描述强行对齐[2] - 弱监督方式存在优化空间,抽象语言描述与具体视觉像素之间存在断层,例如文本指令“切橙子”与视频中橙子从完整到果肉外露的连续形态变化不匹配,导致模型难以准确理解[2] - 传统“任务-步骤”二元结构过于抽象,视觉传感器捕捉到的是物体视觉状态的连续改变,与粗糙的步骤描述存在信息错位[5][7] TSS框架的核心创新 - 核心洞见在于重构过程性知识的层级结构,在“任务”和“步骤”之上引入了第三层语义——“状态”[3][7] - “状态”被定义为视觉可感知的物体属性具体变化,例如“切橙子”步骤可分解为“橙子完整”、“刀切入橙皮”、“橙子果肉外露变为切片”等状态快照,能够直接作为锚点将抽象步骤锁定在具体视频帧上[7][13] - 利用大语言模型基于现有WikiHow文本数据自动化生成“状态”描述,极大降低了数据成本,无需人工逐一标注[19] 渐进式“层级展开”训练策略 - 摒弃粗暴的“混合训练”,提出符合认知规律的渐进式训练策略,设计了一条Task → Step → State → Step → Task的U型学习路径[9][10] - 策略分为两个阶段:向下扎根,从高层任务出发学习到底层“状态”,迫使模型关注具体视觉证据;向上反哺,在掌握视觉细节后,带着“状态”知识回归高层,重新审视“步骤”和“任务”[11][14] - 实验证明,构建分析-综合闭环的路径(如Path-5: Task→Step→State→Step)性能最优,让模型学习“状态”可以反哺对“步骤”的理解[18][20] 实验验证与性能表现 - 在COIN和CrossTask数据集上进行了下游任务测试,包括任务识别、步骤识别和步骤预测[16] - 提出的方法在多项指标上全面超越基线模型,例如在COIN数据集上,使用下游MLP时,Path-5在任务识别、步骤识别、步骤预测的准确率分别达到83.78%、44.54%、38.07,显著优于未预训练的2.09%、1.37%、0.84以及基线模型Paprika的81.54%、42.39%、34.10[17][19] - 在CrossTask数据集上,Path-5的任务识别、步骤识别、步骤预测准确率分别为89.44%、57.92%、57.13,相较于Paprika模型,步骤识别和步骤预测分别提升1.71和1.36个百分点[17] - 对比实验表明,该方法提出的渐进式路径(如Path-5)性能优于混合训练,证明了TSS框架中的层级结构存在内在逻辑,通过渐进引导能更好地建立关联[21] 工程实现与技术应用 - 采用轻量化微调策略,训练轻量级Adapter模块作为预训练阶段的高效扩展组件,以提升模型表征能力[19] - 该方法为未来构建既能理解高层规划又能精准执行细节的智能系统提供了新思路,特别是在AI Agent需要执行复杂操作的背景下,通过显式建模物体状态变化来弥合自然语言与物理世界之间的鸿沟[23]
IJCAI 2026每篇投稿收100美元,学术圈却评价颇高
机器之心· 2025-12-06 01:15
机器之心报道 大模型辅助写作,辅助审稿的出现,已经打破了原有学术会议投稿评审体系的良性循环。 简而言之,投稿到顶会的论文数量激增,导致审稿系统不堪重负,于是导致了低质量评审,大模型辅助评审,甚至完全的 AI 评审的大量出现,最离谱的就是被我 们反复鞭尸的 「Who's Adam」 经典笑话。 在这也不得不提最近处于风口浪尖的 ICLR 2026,有第三方机构在对 75800 篇论文的审稿意见统计中竟然有 21% 完全由 AI 生成、4% 重度由 AI 编辑、9% 中度由 AI 编辑、22% 轻度由 AI 编辑, 完全由人类( 审稿人)撰写 的仅占 43% 。 不光审稿如此,投稿论文数量暴增的情况下,很难说有多少论文是 AI 撰写的。 这极大程度影响了学术顶会的信誉,毕竟谁也不想被扣上一顶「水」的帽子。 各大顶会面对大模型带来的冲击,都有一些应对手段,例如: ICLR 2026 出台了大语言模型使用政策 ,是 ICLR 历来最严格的新规定,以明确规范论文作者与审 稿人在研究过程和审稿过程中使用 LLM 的做法。 但这依然很难突破眼下的困境,因为顶会的投稿数实在太多,早已不堪重负。 为了尝试打破学术论文投稿数暴增 ...
全球引才:Faster R-CNN、ResNet作者,中国科大任少卿,招募教授、学者和学生
机器之心· 2025-12-05 10:17
中国科学技术大学通用人工智能研究所(筹)及负责人介绍 - 中国科学技术大学通用人工智能研究所(筹)聚焦人工智能、世界模型、具身智能、AI for Science、自动驾驶等前沿方向,致力于开展引领性、原创性、颠覆性、前瞻性科学研究工作,并构建学科建设、科研突破、人才培养、产业应用、国际合作的一体化创新体系 [7] - 研究所负责人任少卿教授是中国科学技术大学讲席教授、博士生导师,于2025年9月加入该校担任二级教授,其在深度学习、计算机视觉及智能驾驶等领域做出了基础性、开创性贡献,研究成果已成为驱动自动驾驶、工业检测、医疗影像、安防监控、卫星遥感等关键领域的核心引擎 [4][5] 负责人学术成就与行业影响 - 截至2025年11月,任少卿教授的学术论文被引用超过46万次,位列全学科领域国内学者第一,并在AI 2000全球人工智能学者总榜排名第三 [5] - 其研究成果获得了多项国际顶尖荣誉,包括2023未来科学大奖—数学与计算机科学奖、2025 NeurIPS时间检验奖、2025 Helmholtz Prize(ICCV十年影响力奖)、2016 CVPR最佳论文奖,以及ImageNet竞赛与MSCOCO竞赛全球冠军 [5] - 其荣获NeurIPS 2025时间检验奖的论文《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》是计算机视觉领域的里程碑之作,自2015年发表以来已被引用超过98,000次,该研究首次用完全可学习的两阶段pipeline取代了传统方法,实现了高精度与接近实时(5 FPS)检测的统一,奠定了现代目标检测框架的核心范式,并深刻影响了后续十年视觉模型的发展方向 [6] 人才招募计划 - 研究所面向全球进行人才招募,名额充足且长期有效 [8] - 招募岗位涵盖教授、研究员、副教授、博后、工程师、博士生、硕士生、本科实习生等多个层次 [9] - 研究所提供顶配资源与顶格待遇,诚邀海内外优秀本科、硕士、博士研究生及博士后青年人才积极申请,并全力支持优秀青年学者申请海外优青、杰青等国家高层次人才项目 [10] - 工作地点可选上海或合肥 [11]
登顶SuperCLUE DeepSearch,openPangu-R-72B深度搜索能力跃升
机器之心· 2025-12-05 10:17
评测结果与行业动态 - 第三方评测机构SuperCLUE发布的11月DeepSearch评测报告显示,国产大模型openPangu-R-72B在模型榜单中名列第一,体现了国产昇腾算力的大模型研发实力 [1] - 在SuperCLUE-DeepSearch中文深度搜索测评模型总榜中,openPangu-R-72B以73.33的总分位列第一,领先于Google的Gemini-3-Pro-Preview(70.48分)和OpenAI的GPT-5.1(high)(70.48分)[2] - 该模型在人文社科、工程技术和自然科学三个子任务类别中得分分别为75.47、54.55和83.33 [2] 模型架构与技术底座 - openPangu-R-72B是基于昇腾集群训练的MoE(混合专家)模型,采用80选8的专家选择机制,在740亿总参数量的基础上,将激活参数量控制在150亿,以平衡效率与性能 [4] - 模型使用了24万亿tokens的训练数据,并具备128k长序列处理能力,为处理深度搜索任务中的长文本信息奠定了基础 [4] - 在注意力机制层面引入了参数式Sink Token技术,有效缓解极大激活值问题,提升了训练稳定性并对后续量化更亲和 [7] - 采用K-Norm与Depth-Scaled Sandwich-Norm组合的架构,其中K-Norm仅对attention的key施加RMS Norm,在达到与QK-Norm相当稳定性的同时降低了计算开销 [7] - 通过增加Query头数和注意力头维度来捕获细粒度语义关系,并引入Partial RoPE机制,仅对Query和Key中1/3维度应用位置编码 [7] - 通过将KV组数量减半,在Key头维度增加的情况下,实现了37.5%的KV cache缩减,平衡了推理阶段的显存占用、速度与模型效果 [7] - 采用Adaptive Aux Free负载优化技术的升级版本,通过自适应调整各个专家负载bias的更新幅度,有效减少均衡震荡,让专家负载分布更均衡 [8] 深度搜索能力专项优化 - 模型通过后训练阶段的长链难题合成、非索引信息处理、快慢思考融合三大策略,显著提升了DeepSearch能力 [10] - 在长链QA难题合成方面,通过query条件模糊化将问题平均难度提升10%,并引入verification agent以提升用于训练问答对的准确性 [12] - 针对非索引知识问答场景,训练中注入了“Planner聚焦关键URL + URL_crawler爬取网页 + Document_QA识别下一步浏览链接”的循环工作流,通过同一站点内的多跳浏览实现深度信息搜集 [12] - 采用步骤级快慢融合策略,在DeepSearch的ReACT执行过程中,为Document_QA步骤启用慢思考以保障精度,为其他工具调用步骤采用快思考以提升速度,实现精度与效率的平衡 [13] 国产算力与模型生态 - openPangu-R-72B是基于国产昇腾算力平台训练的代表模型,证明了该平台在支撑大参数量、高复杂度模型研发方面的坚实能力 [15] - openPangu系列的兄弟模型openPangu-718B在同期SuperCLUE通用榜单中斩获第二名,展现了该系列在不同任务场景下的全面实力 [15] - 随着大模型在企业服务、学术研究、政务处理等领域的深度落地,深度搜索能力被视为模型实用化的核心竞争力 [15]
基于文本AI的终结?Agent协作可直接「复制思维」,Token效率暴涨
机器之心· 2025-12-05 04:08
文章核心观点 - 普林斯顿大学等机构的研究者提出了一种名为LatentMAS的多智能体推理框架,其核心创新是将AI智能体之间的协作从传统的文本空间转移到了模型的潜在空间[5] - 该框架让智能体直接交换内部的隐藏层表示与KV缓存工作记忆,实现了近乎“心灵感应”式的协作,避免了传统文本交流的冗长、低效和信息丢失问题[5][7] - 实验结果表明,LatentMAS在多个基准任务上实现了更高的准确率、更低的token使用量以及显著提升的推理速度,展示了潜在空间协作的巨大优势[6] 方法介绍 - LatentMAS是一个端到端的潜在协作框架,所有智能体的推理与交流完全在潜在空间中进行,只有最终答案才会被解码为文本输出[14] - 框架建立在三个基本原则之上:推理表达能力(隐藏表示编码更丰富的连续思维)、通信保真度(实现跨智能体的无损信息传递)以及更低的协作复杂度[15][16] - 该方法使LLM智能体能够在潜在空间中生成具有超强表达能力的潜在思维,并以无损方式传递潜在工作记忆,同时保持显著更低的计算复杂度[16] 实验评估 - 在九个基准任务上的全面实验显示,LatentMAS相比单模型基线在顺序式与层级式MAS设置下准确率平均提升14.6%和13.3%[20] - 相比文本式MAS,LatentMAS在顺序式与层级式设置下分别实现4倍与4.3倍的推理加速,并减少70.8%与83.7%的token使用量[21][22] - 在具体任务如GSM8K上,使用Qwen3-14B模型的LatentMAS准确率达到95.2%,相比单模型基线提升11.5%,同时token使用量减少80.6%[23] 高效率潜在协作 - LatentMAS可实现2.6倍至7倍的额外加速,源于潜在推理只需较少的潜在步骤,而文本推理则需要大量逐token解码步骤[25] - 在AIME 24/25等高强度推理任务中,LatentMAS在不到50个潜在步骤的情况下就能达到甚至超过需要超过2万个输出token的文本MAS表现[25] - 相比TextMAS,LatentMAS可减少59.4%至87.9%的token使用量,相比单模型推理也能减少15.0%至60.3%的token使用量[28] 深入分析 - 潜在思维与对应文本响应的嵌入分布区域几乎重叠,表明潜在思维能有效捕捉文本语义,同时具有更高的多样性和表达能力[30][31] - 随着潜在步骤数量的增加,下游性能普遍提升,说明额外的潜在思维提高了AI协作的表达能力[32] - 该方法无需额外训练,可兼容任意HuggingFace模型,并可选择性地支持vLLM后端,通用性强[8]
字节前技术负责人创业,联手清华姚班校友,编程智能体世界登顶
机器之心· 2025-12-05 04:08
文章核心观点 - InfCode编码智能体定义了AI编程的“工程时代”,其多智能体体系标志着AI编程从“单体提效”走向企业“组织进化”的新范式[2][7] - 公司在SWE-Bench Verified和Multi-SWE-bench-CPP两项权威AI Coding基准中双双登顶,展现了面向企业场景设计的突破性技术能力[4][6] AI编程行业趋势与基准 - AI编程正从传统大模型生成代码片段转向强调自主性、全流程覆盖和工程实用性的新一代编码智能体(Coding Agent)[9] - SWE-Bench Verified基准来自真实GitHub项目,要求智能体解决问题且不破坏其他功能,是行业权威评测标准[9] - Multi-SWE-bench数据集覆盖七种编程语言共1632个修复任务,由68名专家从2456个候选样本中精挑细选[9] - C++项目通常需一次修改200多行、涉及7个文件,难度远高于JavaScript等高层语言,领先模型在C++上的解决率往往不足8%[10] InfCode技术突破与性能表现 - 在SWE-Bench Verified上以79.4%的Pass@1得分刷新SOTA,远高于公开排行榜上GPT-5、Claude等顶尖模型70%左右的成绩[6][13] - 在Multi-SWE-bench的C++子集上达到25.58%的解决率,大幅领先Claude 3.7 Sonnet的8.59%和DeepSeek V3的7.75%[6][13] - 针对系统语言(C、C++、Rust)在内存管理、模板机制和复杂编译链方面的难度,实现了语义定位与语法分析相结合的优势[15] 核心技术亮点 - 提出“代码意图分析(Code Intent Analysis)”机制,超越传统RAG的字面匹配,能理解自然语言背后的功能意图并映射到具体实现单元[17][18] - 自研基于抽象语法树(AST)的结构化检索引擎,通过Tree-Sitter构建完整语法树,提供FindClass、FindFunction等语法层API[21][22] - 首创对抗式双智能体架构,代码补丁生成器与测试补丁生成器在闭环中交替迭代,实现“越测越强、越修越稳”的工程级质量[24][25] - 修复流程采用生成与筛选两阶段范式,在真实构建和测试环境中重放每个补丁,最终选出具有更强工程完整性与可维护性的补丁[31][33] 团队背景与竞争优势 - 核心团队由清华姚班校友带队,汇聚来自字节、百度、微软等顶尖企业的精英及世界名校人才,构成“顶尖老将+新生代骨干”组合[35][37] - 团队领军人杨萍在字节跳动期间主导创立公司首个软件工程实验室,其孵化的内部AI Coding产品已全面覆盖公司研发体系[35] - CTO王伟在大模型与智能体领域深耕多年,此前带队在SWE-Bench曾斩获全球第二成绩[36] - 商业化负责人李莹拥有十余年AI产业落地经验,曾主导完成数亿元规模的大模型To B项目落地[37] - 团队对AI Coding赛道有清晰认知,竞争已从“工具效能”提升转向对软件工程全生命周期的重构(AI SWE)[38]
首帧的真正秘密被揭开了:视频生成模型竟然把它当成「记忆体」
机器之心· 2025-12-05 04:08
文章核心观点 - 视频生成模型的首帧并非时间起点,而是作为内部“概念记忆体”,存储后续帧需引用的所有视觉实体[2][3][9] - 模型天生具备多对象融合与内容定制能力,但默认状态下该能力极不稳定且难以触发[14][38][43] - FFGo方法通过极轻量级微调(仅需20–50个样本)即可稳定激活模型的潜在能力,无需修改模型结构或使用百万级数据[18][21][44] 研究方法与发现 - 团队通过对Veo3、Sora2、Wan2.2等主流视频模型的测试,验证了首帧作为内容缓存区的现象[11] - 研究发现,基础模型在极罕见情况下能成功完成多对象融合任务,证明能力已存在但无法稳定调用[35][37][38] - FFGo的作用被证实并非赋予模型新能力,而是通过学习“触发机制”使其固有能力变得可控和可靠[40][44][47] FFGo技术方案优势 - 方法仅需20–50个精心筛选的视频样本和数小时LoRA训练,即可实现最先进(SOTA)的视频内容定制[17][21][52] - 相比VACE、SkyReels-A2等现有方法,FFGo无需修改模型结构,且能处理多达5个参考实体,而现有方法限制在3个以内并易出现物体丢失[19][22][31] - 技术能有效保持物体身份一致性、避免灾难性遗忘,并在用户研究中以81.2%的票数大幅领先[31][52] 应用场景与技术实现 - 技术亮点覆盖自动驾驶模拟、航拍/水下无人机模拟、多产品展示、影视制作及多角色视频生成六大场景[24] - 采用VLM(如Gemini-2.5 Pro)自动构建高质量训练集,利用SAM2提取物体掩膜,大幅降低人工工作量[27] - 推理时仅需舍弃模型生成的前4帧压缩帧,真正的混合内容从第5帧开始[28]
告别「2D错觉」,SpatialActor通过解耦语义与几何,为具身智能注入强鲁棒空间基因
机器之心· 2025-12-05 03:02
核心技术:SpatialActor框架 - 提出“双流解耦-融合”架构,将语义信息(是什么)与空间几何信息(在哪里、形状如何)明确分离开来,实现语义流与空间流的解耦与后期融合 [4][7] - 引入显式的3D空间编码器与强大的视觉语言模型结合,使机器人不仅能理解指令,更能感知三维空间 [4] - 采用独立的视觉与深度编码器,通过语义引导几何模块和空间Transformer生成优化后的几何表征并实现精确的2D至3D映射 [10][11][13] 核心组件:语义引导几何模块 - SGM模块通过冻结的大规模预训练深度估计专家模型从RGB输入中提取鲁棒但粗粒度的几何先验,同时利用深度编码器提取细粒度但含噪的几何特征 [11] - 采用多尺度门控机制自适应地融合鲁棒的几何先验与含噪的深度特征,生成在保留细微细节的同时降低噪声的优化几何表征 [11] - 该设计解决了现实世界深度测量噪声问题,利用RGB图像的高信噪比语义线索来引导几何特征生成 [11] 核心组件:空间Transformer - SPT模块将视觉得到的空间特征与机器人本体感知信息融合,利用相机参数和深度信息将图像像素坐标转换为机器人基座坐标系下的三维坐标 [13] - 采用旋转位置编码技术将三维几何信息嵌入特征中,赋予其低层空间感知能力 [13] - 依次执行视图级和场景级注意力机制,优化单视图内部表征并聚合所有视图与语言指令特征,实现跨模态的全局上下文融合 [13] 性能表现:仿真基准测试 - 在RLBench仿真测试中取得87.4%的平均成功率,超越此前SOTA模型RVT-2达6.0个百分点 [16] - 在18个任务及其249种变体上表现优异,在需要高空间精度的任务中优势显著,如Insert Peg任务优于RVT-2达53.3个百分点,Sort Shape任务优于38.3个百分点 [16] - 整体性能达到SOTA水平,在多个具体任务上表现突出 [4][16] 性能表现:噪声鲁棒性 - 在不同强度噪声条件下性能显著提升,轻、中、重度噪声下平均成功率分别比RVT-2高出13.9%、16.9%和19.4个百分点 [19] - 在需要高精度对位的任务中优势更为突出,Insert Peg任务在三档噪声下分别高出RVT-2达88.0、78.6和61.3个百分点 [19] - 展现出对噪声干扰的强鲁棒性,特别是在复杂几何任务中表现稳定 [19] 性能表现:真实世界验证 - 真机实验中使用WidowX单臂机器人,在8个不同任务共计15种变体上测试,平均成功率比RVT-2提升约20个百分点,达到63% [23] - 在物体、接收物体、光照和背景变化的挑战性条件下仍保持高水平表现,证明其在复杂真实场景中的强大鲁棒性与泛化能力 [23] - 在具体任务如Pick Glue to Box任务成功率从50%提升至85%,Push Button任务从67%提升至90% [23] 行业意义与前瞻 - 该工作解决了机器人操作模型依赖2D图像导致的深度信息丢失和3D几何结构缺失问题 [2] - 论文已被收录为AAAI 2026 Oral,并将于近期开源,为行业提供新的技术解决方案 [4] - 团队还提出MemoryVLA,引入感知-认知记忆机制,解决机器人操作中的时序理解和长程决策问题 [28]
刚刚,2026年英伟达奖学金名单公布,华人博士生霸榜占比80%
机器之心· 2025-12-05 03:02
英伟达研究生奖学金计划2026年度获奖者概况 - 英伟达研究生奖学金计划已持续二十五年,旨在支持与公司技术相关的研究工作[1][2] - 2026年度评选出10位博士生获奖者,每人将获得最高6万美元资助[4] - 获奖者研究领域覆盖加速计算前沿,包括自主系统、计算机体系结构、计算机图形学、深度学习、编程系统、机器人技术和安全[4] 获奖者研究重点与背景 - 10位获奖者中有8位华人,去年有7位华人博士生入选[4] - Jiageng Mao(南加州大学)专注于利用互联网规模数据解决物理人工智能问题,研究方向包括机器人、计算机视觉和自然语言处理[5] - Liwen Wu(加州大学圣地亚哥分校)研究计算机图形学和三维视觉,重点在神经渲染、逆渲染和三维重建[7][8] - 陈思哲(加州大学伯克利分校)致力于AI安全性研究,开发防御提示词注入攻击的机制[10] - Yunfan Jiang(斯坦福大学)开发通过混合数据源构建通用机器人的可扩展方法,研究方向是机器学习和机器人技术交叉领域[12] - 邵奕佳(斯坦福大学)研究人机协作,开发能与人类沟通协调的AI Agent,并设计新的人机交互界面[14][15] - Shangbin Feng(华盛顿大学)推进模型协作,实现多个机器学习模型的协作、组合和互补[17] - Irene Wang(佐治亚理工学院)开发整合加速器架构、网络拓扑和运行时调度的协同设计框架,以优化分布式深度学习基础设施[19][20][21] - 耿晨(斯坦福大学)利用数据驱动算法和物理原理对4D物理世界建模,推进物理基础的3D和4D世界模型在机器人技术和科学应用中的发展[23][24] - Shvetank Prakash(哈佛大学)利用新算法和基础设施构建AI智能体,并推进硬件架构与系统设计,研究兴趣包括超低功耗机器学习系统[26] - Manya Bansal(MIT)设计面向现代加速器的编程语言,使开发人员能在编写模块化代码时不牺牲底层控制能力[28][29] 其他入围者 - 2026年度奖学金还有5位终选入围者,分别来自北京大学、MIT、马克斯普朗克计算机科学研究所、斯坦福大学和达姆施塔特工业大学[31]
DeepSeek-V3.2巨「吃」Token,竟然是被GRPO背刺了
机器之心· 2025-12-04 08:18
DeepSeek-V3.2模型性能表现 - 在相同任务上,DeepSeek-V3.2 Speciale消耗77,000 Token,而Gemini仅消耗20,000 Token,Token使用效率为竞争对手的3倍以上[1] - DeepSeek-V3.2 Speciale生成速度约为30 tokens/s,用户期望提升至100 tokens/s左右以改善使用体验[6] - 在AAII基准测试中,DeepSeek V3.2推理模式下输出Token消耗达8600万,较上一版本的6200万明显增加[7] 模型基准测试数据对比 - DeepSeek V3.2-Speciale极限分数85.89,中位分数76.38,中位差距11.07%,测试成本仅2.90元[7] - 相比GPT-5(high)的87.18极限分数和37.71元测试成本,DeepSeek在成本效益方面表现突出[7] - 在CodeForces测试中,DeepSeek-V3.2-Speciale获得2701评分但消耗77,000 Token,而Gemini-3.0-Pro获得2708评分仅消耗22,000 Token[13] GRPO算法技术缺陷 - GRPO算法存在长度偏置问题,导致模型响应长度在整个训练阶段持续增长[18][20] - 算法存在难度偏置,当问题回报标准差较小时会被赋予更大梯度权重,忽视难度适中的实际问题[21][22] - 长度偏置问题导致模型在错误样本中偏向生成更长的回答,受到惩罚反而更弱[26] - DeepSeek-V3.2技术报告显示难度偏置已被优化,但长度偏置仍然保留[23] 公司技术发展策略 - 为降低部署成本并减少推理时延,官方版DeepSeek-V3.2训练过程中施加了更严格的Token约束[14] - Token效率被确认为未来至关重要的研究方向[14] - 公司在技术报告中坦诚承认Token使用效率问题并做出数据对比[12]