Workflow
强化学习与可验证奖励 RLVR
icon
搜索文档
给几何图片写标题就能让AI更聪明,UIUC发布高质量可泛化几何数据集
机器之心· 2025-09-25 23:54
多模态大语言模型几何推理研究突破 - 多模态大语言模型在视觉问答和图像描述任务中广泛应用,但现有方法依赖模板生成图像-文本对,存在泛化能力有限和视觉-文本信息不对齐问题 [1] - UIUC团队提出基于强化学习与可验证奖励(RLVR)的数据生成框架Geo-Image-Textualization,并发布首个完全对齐的高质量几何图像-文本数据集GeoReasoning-10K,包含1万对精心构建的图像与描述 [2] - 该框架具有强泛化性,训练后的模型不仅能处理几何任务,还能泛化至算术、代数、数值推理等非几何任务,甚至处理非几何图像输入 [8] 数据集与代码开源 - 研究团队已公开GeoReasoning-10K数据集及相关代码,数据集地址为https://huggingface.co/datasets/ScaleMath/GeoReasoning,代码地址为https://github.com/MachinePhoenix/GeoReasoning [3][5] - 论文标题为"Generalizable Geometric Image Caption Synthesis",论文链接为https://arxiv.org/abs/2509.15217 [5] 框架核心优势 - 生成样本由模板集字句组合而成,可以组合出任意复杂度的几何题,展现出卓越的可扩展性 [8] - 经过GeoReasoning训练过的模型在下游任务上性能超过其他同类型数据集,并且具有良好的缩放性质,体现高质量特性 [8] 实验验证结果 - 在MathVista和MathVers数学推理基准测试中,GeoReasoning-10K在相同数据量下均取得最优效果,展现出卓越的数据质量与扩展性 [12] - 使用GeoReasoning-10K微调后的Gemma3-4B模型在MMMU测评基准上显著提升多项能力 [14] - 具体样例显示模型能成功解决几何问题(如圆的角度计算)和算术问题(如车辆数量比较) [17][19] 研究意义与应用前景 - 该框架通过确保视觉和文本信息的完全对齐,不仅提升了模型在几何问题上的表现,还实现了向更广泛数学领域的泛化 [21] - 给几何图片写标题能增强AI的整体数学推理能力,为多模态AI在教育、科学计算等领域的应用铺平道路 [21]