模型开源与性能表现 - 小红书开源多模态大模型dots.vlm1 基于DeepSeek V3架构并配备自研12亿参数视觉编码器NaViT [1] - 模型在MMMU测试中得分80.11 接近Gemini 2.5 Pro的84.22和Seed-VL1.5 thinking的79.89 [5] - 在MathVision测试中达69.64分 超越Qwen2.5VL-72B的39.4分 接近Gemini 2.5 Pro的72.34分 [5] - OCR推理能力达66.23分 显著优于Qwen2.5VL-72B的38.02分 接近Seed-VL1.5的63.42分 [5] - 文本推理能力与DeepSeek-R1-0528相当 但在GPQA测试中72.78分低于Qwen3-235B-A22B-think-2507的81.1分 [4][5] 技术架构与训练 - 模型包含三大组件:12亿参数NaViT视觉编码器 轻量级MLP适配器 DeepSeek V3 MoE大语言模型 [5] - 训练分三阶段:视觉编码器预训练使用图文对和纯图像数据 VLM预训练使用大规模多模态数据集 VLM后训练通过有监督微调增强泛化能力 [5] 应用场景与能力 - 能解析复杂英文图表并计算数据 理解景区价目表规划购票方案 [6] - 可解读几何题图形颜色信息 对emoji等视觉信息进行推理 [6] - 具备文物画作背景识别能力 能分析产品配料表差异和表情包含义 [1] 开源战略与后续计划 - 模型已上传Hugging Face平台免费开放使用 [6] - 公司自6月6日起陆续开源OCR专用模型 视觉模型及奖励模型等研究成果 [6] - 后续将扩大跨模态互译数据规模 改进视觉编码器结构 探索新神经网络架构 [6] - 计划采用强化学习方法缩小文本与多模态提示的推理能力差距 [6]
小红书开源多模态大模型dots.vlm1:解锁图文理解与数学解题新能力
搜狐财经·2025-08-07 10:31