腾讯混元OCR模型开源-品玩

腾讯混元OCR模型开源

2025年11月26日

品玩11月26日讯，腾讯混元团队宣布开源轻量级OCR模型HunyuanOCR。该模型参数仅1B，基于混元原生多模态架构开发，在多项核心能力上达到业界领先水平。

模型采用端到端设计，集成视频编码器、视觉适配器和轻量化语言模型，单次推理即可输出结果。在OmniDocBench复杂文档解析评测中以94.1分超越Google Gemini 3 Pro，覆盖文档、街景、手写等9大场景的文本识别任务，并支持14种小语种翻译，荣获ICDAR2025端到端文档翻译赛道冠军。

HunyuanOCR支持票据字段抽取、视频字幕识别、拍照翻译等功能，可对卡证票据实现JSON格式化解析，对复杂文档中的公式、表格进行LaTeX/HTML标准化输出。模型已开源至GitHub及ModelScope平台，为多模态OCR应用提供轻量化解决方案。