混合强化学习策略

搜索文档
8B硬刚72B!MiniCPM-V 4.5技术报告正式出炉
量子位· 2025-09-23 11:01
MiniCPM团队投稿 发自 凹非寺 量子位 | 公众号 QbitAI 行业首个具备"高刷"视频理解能力的多模态模型 MiniCPM-V 4.5 的技术报告正式发布! 报告提出 统一的3D-Resampler架构实现高密度视频压缩 、 面向文档的统一OCR和知识学习范式 、 可控混合快速/深度思考的多模态强化 学习 三大技术。 基于这些关键技术,MiniCPM-V 4.5在视频理解、图像理解、OCR、文档解析等多项任务上达到同级SOTA水平,不仅以8B的参数规模超越 GPT-4o-latest和Qwen2.5-VL-72B,更在推理速度上具有显著优势。 模型一经开源,就广受社区好评,并直接登上HuggingFace Trending TOP2。 截至目前,MiniCPM-V 4.5在HuggingFace、ModelScope两大平台合计下载量超 22 万 。 接下来,就和我们一起看看报告里讲了什么。 研究背景 随着多模态大模型的迅速发展,其在模型架构、数据工程和训练方法上的高昂成本和效率瓶颈,正成为其广泛应用和技术迭代的核心障碍。 而在移动设备和边缘计算场景中,如何在保持出色性能的同时实现高效推理, 给多模 ...