百度开源视觉理解模型Qianfan-VL！全尺寸领域增强+全自研芯片计算

文章核心观点百度智能云千帆推出全新视觉理解模型Qianfan-VL系列并全面开源该系列包含3B、8B和70B三个版本针对企业级多模态应用场景深度优化在通用能力垂直场景OCR和教育以及思考推理方面表现卓越基于百度自研昆仑芯P800芯片实现高效计算在多项基准测试中达到SOTA水平[1][2][3] 模型性能与效果 - 在通用能力基准测试中模型性能随参数规模增大提升显著 3B 8B 70B版本在ScienceQA测试中精准度分别达95.19% 97.62% 98.76% 在RefCOCO物体识别测试中平均得分达85.94% 89.37% 91.01%[2][4] - 多尺寸模型满足不同场景需求 3B 8B 70B三种规格覆盖不同规模企业需求 8B和70B模型支持通过特殊token激活思维链能力覆盖复杂图表理解视觉推理和数学解题场景[3] - OCR与文档理解能力增强具备全场景OCR识别能力包括手写体数学公式自然场景文字和卡证票据信息结构化提取在OCRBench测试中得分达831 854 873[3][5][6] 技术架构与计算能力 - 采用先进多模态架构设计通过持续预训练和四阶段训练策略实现领域能力显著提升构建面向多模态任务的大规模数据合成管线涵盖文档识别数学解题图表理解等核心任务[9][12] - 基于百度自研昆仑芯P800芯片构建超大规模分布式计算系统支持单任务5000卡规模并行计算显著提升大模型任务处理性能与运行效率[1][12] 应用场景案例 - 数学推理场景中 8B和70B模型在MathVista-mini测试中得分达69.19%和78.6% 在MathVision测试中得分达32.82%和50.29% 展现卓越复杂图表理解和数学解题能力[7][8] - 文档理解场景中模型可精准解析财务报表等复杂版面文档实现自动版面元素分析和表格图表解析支持文档智能问答与结构化解析[27][29][31] - 模型同样适用于图表分析视频理解等场景均呈现卓越效果[33] 开源与推广 - Qianfan-VL系列模型全面开源提供3B 8B 70B三个版本即日起至10月10日可在百度智能云千帆平台免费体验8B和70B模型[1][34] - 开源资源包括模型Blog GitHub主页 Hugging Face仓库和技术报告全方位支持开发者使用和研究[34]