MonkeyOCR v1.5
搜索文档
金山与华科发布多模态模型MonkeyOCR v1.5:文档解析能力超越PaddleOCR-VL,复杂表格解析首次突破90%
量子位· 2025-11-18 05:02
行业背景与需求 - 多模态文档解析领域在2025年6月以来迎来新一轮研究热潮,成为多模态理解及大模型数据来源的重要前沿课题[2] - 文档智能解析技术是信息抽取、检索增强生成和自动化文档分析的核心基石,但现实世界中的复杂文档(布局复杂、表格嵌套、内含图片公式、跨页分布)对现有OCR系统构成挑战[2] - 传统OCR系统采用串联式流水线容易导致错误累积,而端到端模型则因文档图像高分辨率面临巨大计算瓶颈[5] 技术核心突破 - MonkeyOCR v1.5采用高效的两阶段解析管道:第一阶段进行布局分析与阅读顺序预测,第二阶段进行区域级内容识别,实现全局结构理解与细粒度内容识别的解耦[7][8][9] - 针对复杂表格推出三大创新方案:基于视觉一致性的强化学习方案通过奖励模型自我优化提升解析保真性;图像解耦表格解析通过先遮住图片再解析结构完美解决图片干扰问题;类型引导的表格合并采用规则匹配+BERT语义判别混合决策流程精准合并跨页表格[11][13][14][16] - 新框架在嵌入式图像恢复、跨页表格重建以及多列表格合并等关键功能上展现出更强应用潜力[5] 性能表现数据 - 在OmniDocBench v1.5基准测试中以93.01%的整体得分登顶榜首,超越前最佳模型PPOCR-VL(92.86%)和MinerU 2.5(90.7%)[18] - 在专门测试复杂表格的OCRFlux-complex数据集上取得90.9%的得分,领先PPOCR-VL(81.7%)达9.2个百分点[19] - 在OCRFlux-Total数据集上取得91.8%的得分,显著高于Nanonets-OCR(82.8%)、OCRFlux(86.1%)和PaddleOCR-VL(86.3%)[20] 应用场景优势 - 布局分析能准确识别所有图像和表格区域,大幅避免将表格误判为孤立文本和图片的错误[21] - 嵌入图像恢复功能能完美还原表格结构和其中所有嵌入图像,解决其他模型常见的图像丢失、表头丢失或结构错乱问题[25] - 跨页表格合并功能能完整重建跨页表格,消除因页眉/页脚造成的结构中断,而其他方法易被中途"截断"[27]