Workflow
科研写作神器,超越Mathpix的科学公式提取工具已开源
机器之心·2025-08-05 08:41

行业挑战与现状 - 现有OCR方法在科学文献复杂公式识别中面临三大挑战:主流方法难以处理多学科高难度公式[2]、实际文档中的多行/长公式/分段公式及复杂排版未充分解决[2]、专用模型缺乏通用性和扩展性[2] 解决方案与技术突破 - 构建CSFormula数据集:覆盖数学/物理/化学等多学科,包含行级/段落级/页面级复杂排版,填补高难度多结构数据空白[3][11] - 提出DocTron-Formula模型:基于Qwen2.5-VL等通用大模型驱动,仅需简单微调即可适配多样化场景,突破专用架构限制[4][11] - 性能表现:在Im2LaTeX-160k数据集上SPE达0.985,CSFormula数据集平均指标0.873,超越Mathpix(0.733)和GPT-4o(0.536)等主流模型[12] 创新成果与数据支撑 - 首创多结构评测体系:在UniMER基准测试中SCE指标达0.958,段落级识别准确率89.7%,页面级复杂排版识别率77.4%[12][17] - 实现技术路径革新:验证通用大模型在公式识别中的适应性,减少80%以上专用工程设计需求[11][17] 应用场景与行业影响 - 推动科学文献解析边界:支持行级/段落级/页面级复杂公式识别,为科研/教育领域智能化提供基础设施[14][15] - 开源生态建设:项目已在HuggingFace和GitHub开源,覆盖文档/公式/图表/代码等多模态解析场景[7][10]