Efficient AI
搜索文档
AAAI 2026 Oral:明略科技开创稀疏数据「信息瓶颈动态压缩」,精度+速度双SOTA
机器之心· 2025-12-02 06:47
文章核心观点 - 当前AI模型在机器人和具身智能领域面临计算和延迟过高的挑战,尤其是在处理稀疏数据时存在“双重冗余”问题[1][3] - 由东南大学、中南大学、明略科技联合提出的CompTrack框架创新性地解决了空间冗余和信息冗余问题,实现了更少算力、更高精度的效果[2][13] - CompTrack通过信息熵过滤空间冗余和信息瓶颈动态压缩信息冗余,在3D点云跟踪任务中达到80 FPS实时性能,计算量仅为0.94G FLOPs[8][10][15] - 该技术为高效AI提供了通用信息压缩范式,预示着从蛮力计算向信息效率的范式转变,适用于机器人传感器融合、多模态处理等多个领域[14] 技术挑战分析 - 当前AI模型普遍面临“双重冗余”挑战:空间冗余指海量无关背景点和空白区域浪费算力并污染特征[5] - 信息冗余指即便在前景目标上也存在大量重复和低价值信息,如车辆引擎盖上的100个点和500个点提供的有效几何信息几乎等价[5] - 现有方法大多只处理空间冗余问题,对前景信息冗余问题束手无策[7] CompTrack技术框架 - 空间前景预测器基于信息熵理论,通过高斯热图监督学习精准筛除信息含量低的背景噪声[8] - 信息瓶颈引导的动态令牌压缩模块基于信息瓶颈原理,只保留对最终预测有价值的信息[10] - 该模块利用在线奇异值分解实时分析输入数据的“内在秩”,实现数据依赖的动态压缩[11] - 通过可学习的Cross-Attention模块绕过SVD的不可微问题,实现端到端训练[12] 应用成效 - 在RTX 3090上达到80 FPS实时性能,相比SOTA方法的65 FPS实现1.3倍加速[15] - 计算量显著降低至0.94G FLOPs,IB-DTC模块是实现从48 FPS提升至75 FPS效率飞跃的核心[15] - 在nuScenes和Waymo两个大规模数据集上均刷新了SOTA性能[15]
3B Image Captioning小钢炮重磅来袭,性能比肩Qwen2.5-VL-72B
机器之心· 2025-10-28 04:31
核心技术突破 - 提出名为CapRL的创新强化学习框架,首次成功将DeepSeek-R1的强化学习方法应用于图像描述生成这类开放视觉任务[2] - 创新性地以“实用性”重新定义了图像描述生成的奖励函数,解决了为高度主观任务设计客观可验证奖励的重大挑战[6] - 训练得到的CapRL-3B模型在描述生成水平上达到了与Qwen2.5-VL-72B模型相当的水平,是图像描述生成领域的一大进展[2] 技术方案细节 - 采用高效的两阶段解耦式训练框架,首先由大型视觉语言模型生成图像描述,然后让纯语言模型基于该描述回答视觉多选题,并将回答准确率作为客观奖励信号[10][13] - 新的奖励设计思路认为,高质量的描述应能让纯语言模型正确回答视觉问题,从而避免了使用LVLM-as-a-Judge带来的奖励欺骗问题[9][10] - 该方法显著提升了生成描述的准确性、细节覆盖度,并减少了幻觉现象,例如在图表描述任务中能更准确地提取和呈现数据[10] 性能评估结果 - 使用CapRL-3B标注图片产生的CapRL-5M数据集对LVLM进行预训练,在全部12项基准测试中均取得显著性能提升[12] - 在Prism框架下的评估显示,CapRL-3B的性能与72B模型相当,并在平均水平上超越基线模型8.4%[12] - 与其他预训练数据集相比,CapRL-1M在全部三个设置中均显著优于其他数据集,且当数据规模扩展至5M时,模型性能进一步得到提升[14] 行业影响与应用 - 该技术为GRPO策略应用于开放任务提供了重要思路,解决了传统监督微调方法依赖大量人工标注数据、成本高昂且泛化能力不足的问题[2][7] - 图像描述生成是视觉Transformer训练以及大型视觉语言模型预训练的重要训练语料,该技术的突破对多模态AI发展具有重要意义[7] - 目前Huggingface上的模型和数据集总下载量已突破6k,并且正在迭代更强的基座模型以及升级训练方案[2]