腾讯混元OCR模型宣布开源:参数量1B 支持14种小语种翻译
产品发布 - 公司于11月25日推出开源OCR模型HunyuanOCR,其参数量为10亿(1B)[1] - 该模型基于混元原生多模态架构构建,采用端到端训练推理范式,通过单次前向推理即可完成多项任务,相比传统级联方案更具效率优势[1] - 模型架构由原生分辨率视频编码器、自适应视觉适配器与轻量化语言模型三部分组成[1] 性能表现 - 在复杂文档解析评测OmniDocBench中获得94.1分,超过谷歌Gemini3-pro等模型[1] - 在涵盖文档、街景、手写等九大场景的测试集上,其文字检测与识别能力领先同类开源及商业模型[1] - 支持14种小语种翻译,并在ICDAR2025文档翻译比赛中获得小模型赛道冠军[1] 应用与开放 - 目前该模型已应用于票据字段抽取、视频字幕识别及拍照翻译等场景[1] - 模型已正式对外开放源代码[1]