Self-Supervised Reinforcement Learning
搜索文档
空间智能再进化!Spatial-SSRL帮助LVLM更好读懂空间
机器之心· 2025-11-30 06:00
技术突破与核心优势 - 提出名为Spatial-SSRL的全新自监督强化学习范式,无需任何外界标注,旨在提升视觉大语言模型的空间理解能力[2] - 该范式利用低成本、易采集的RGB和RGB-D图像,构建了五种自监督任务,包括打乱图块重排序、翻转图块识别等,从多方位全面提升空间理解能力[10] - 相较于传统方法,该技术具备高度可扩展性、成本低廉、轻量高效以及天然可验证性四大核心亮点,无需依赖已标注数据集或额外人工标注[16] 实验验证与性能提升 - 实验在Qwen2.5-VL(3B&7B)和最新的Qwen3-VL(4B)架构下进行,结果表明该范式成功提升了模型的空间理解能力[2][14] - 在Qwen2.5-VL-7B模型上,经过Spatial-SSRL训练后,其在空间理解基准上的平均性能提升达3.89%,而3B模型的提升更为显著,达到4.63%[15][17] - 对于Qwen3-VL-4B架构,在空间理解任务上实现了1.29个百分点的性能提升[19] 通用能力保持与开源进展 - 研究团队验证了模型在提升空间理解能力的同时,其原有的通用视觉能力基本保持稳定,甚至在通用视觉问答基准上平均表现略有提升(如7B模型提升0.57个百分点)[17][18] - 该工作的代码、模型和数据集均已开源,Huggingface平台上的模型和数据集总下载量已经突破1千次[3][20]