文章核心观点 百度智能云千帆推出全新视觉理解模型Qianfan-VL系列并全面开源 该系列包含3B、8B和70B三个版本 针对企业级多模态应用场景深度优化 在通用能力 垂直场景OCR和教育以及思考推理方面表现卓越 基于百度自研昆仑芯P800芯片实现高效计算 在多项基准测试中达到SOTA水平[1][2][3] 模型性能与效果 - 在通用能力基准测试中 模型性能随参数规模增大提升显著 3B 8B 70B版本在ScienceQA测试中精准度分别达95.19% 97.62% 98.76% 在RefCOCO物体识别测试中平均得分达85.94% 89.37% 91.01%[2][4] - 多尺寸模型满足不同场景需求 3B 8B 70B三种规格覆盖不同规模企业需求 8B和70B模型支持通过特殊token激活思维链能力 覆盖复杂图表理解 视觉推理和数学解题场景[3] - OCR与文档理解能力增强 具备全场景OCR识别能力 包括手写体 数学公式 自然场景文字和卡证票据信息结构化提取 在OCRBench测试中得分达831 854 873[3][5][6] 技术架构与计算能力 - 采用先进多模态架构设计 通过持续预训练和四阶段训练策略实现领域能力显著提升 构建面向多模态任务的大规模数据合成管线 涵盖文档识别 数学解题 图表理解等核心任务[9][12] - 基于百度自研昆仑芯P800芯片构建超大规模分布式计算系统 支持单任务5000卡规模并行计算 显著提升大模型任务处理性能与运行效率[1][12] 应用场景案例 - 数学推理场景中 8B和70B模型在MathVista-mini测试中得分达69.19%和78.6% 在MathVision测试中得分达32.82%和50.29% 展现卓越复杂图表理解和数学解题能力[7][8] - 文档理解场景中 模型可精准解析财务报表等复杂版面文档 实现自动版面元素分析和表格图表解析 支持文档智能问答与结构化解析[27][29][31] - 模型同样适用于图表分析 视频理解等场景 均呈现卓越效果[33] 开源与推广 - Qianfan-VL系列模型全面开源 提供3B 8B 70B三个版本 即日起至10月10日可在百度智能云千帆平台免费体验8B和70B模型[1][34] - 开源资源包括模型Blog GitHub主页 Hugging Face仓库和技术报告 全方位支持开发者使用和研究[34]
百度开源视觉理解模型Qianfan-VL!全尺寸领域增强+全自研芯片计算