模型系列概述 - Qianfan-VL系列包含3B、8B和70B三个版本 参数量从小到大 分别对应不同应用场景 [1] 模型规格对比 - 3B版本支持32k上下文长度 不支持思考功能 适用于端上实时场景和OCR文字识别 [2] - 8B版本支持32k上下文长度 支持思考功能 适用于服务端通用场景和微调优化场景 [2] - 70B版本支持32k上下文长度 支持思考功能 适用于离线数据合成和复杂推理计算场景 [2] - 全系列模型均在百度自研昆仑芯P800芯片上完成训练 [2] 核心功能特性 - 多模态大模型具备图像理解和文字处理能力 可分析复杂图表数据与趋势 [3] - OCR能力实现全场景覆盖 支持印刷体、手写字、艺术字及数学公式识别 [3] - 教育场景深度优化 专注于K12阶段 擅长拍照解题、几何推理和函数分析 [3] 性能基准测试 - 在ScienceQA测试中70B版本达到98.76分接近满分 显著超越竞争对手 [4] - 中文多模态基准测试CCBench中70B版本获得80.98分 相比同级别对手70分左右优势明显 [5] - 数学解题测试(Mathvista-mini, Math Vision, Math Verse)中70B版本呈现碾压式领先 [5] - 具体测试得分:A-Bench_VAL(78.1) CCBench(80.98) SEEDBench_IMG(79.13) SEEDBench2_Plus(73.17) MMVet(57.34) MMMU_VAL(58.33) ScienceQA_TEST(98.76) ScienceQA_VAL(98.81) MMT-Bench_VAL(71.06) MTVQA_TEST(32.18) BLINK(59.44) MMStar(69.47) RealWorldQA(71.63) Q-Bench1_VAL(77.46) POPE(88.97) RefCOCO(91.01) [4] 硬件支撑体系 - 训练基于百度自研昆仑芯P800芯片 2025年4月建成国内首个3万卡P800集群 [6] - 模型训练在超过5000张昆仑芯P800卡集群上完成 [6] - 芯片参数:7nm制程 INT8算力256 TOPS 内存16/32GB GDDR6 内存带宽1.2 TB/s 功耗150/160W 互联带宽600 GB/s [7] - 功耗控制显著优于竞争对手 A100功耗250/400W H100功耗700W [7] 芯片架构创新 - 采用XPU-R架构 实现计算单元与通信单元硬件分离 [8] - "通算融合"技术通过精巧调度掩盖数据传输等待时间 大幅提高芯片利用率 [8] - "昆仑芯超节点"方案将64张P800集成单机柜 机内通信带宽提升8倍 单机训练性能提升10倍 [8] 模型架构设计 - 语言模型部分:3B版本基于Qwen2.5 8B和70B版本基于Llama 3.1 [10] - 视觉编码器采用InternViT 最高支持4K超高清图像处理 [10] - 采用创新"四阶段训练管线"提升模型性能 [10] 训练方法论 - 第一阶段跨模态对齐:冻结语言和视觉模块 仅更新MLP Adapter连接件 [14] - 第二阶段通用知识注入:投放2.66T tokens通用数据 全面开放参数训练 [14] - 第三阶段领域增强知识注入:精选OCR/文档理解/数学解题等高质数据专项训练 掺入通用数据防止灾难性遗忘 [14] - 第四阶段后训练:通过指令微调数据提升指令遵循能力 [14] - 专业数据通过高精度数据合成管线自主生成 [15] 开源与部署 - 全系列模型已在GitHub和Hugging Face平台全面开源 [16] - 百度智能云千帆平台提供在线体验和部署服务 [17] - 具体开源地址:GitHub(https://github.com/baidubce/Qianfan-VL) Hugging Face(70B/8B/3B版本) ModelScope(百度千帆组织) [17]
百度Qianfan-VL开源,纯国产自研昆仑芯跑出世界一流