品玩11月26日讯,腾讯混元团队宣布开源轻量级OCR模型HunyuanOCR。该模型参数仅1B,基于混元原生多模态架构开发,在多项核心能力上达到业界领先水平。
模型采用端到端设计,集成视频编码器、视觉适配器和轻量化语言模型,单次推理即可输出结果。在OmniDocBench复杂文档解析评测中以94.1分超越Google Gemini 3 Pro,覆盖文档、街景、手写等9大场景的文本识别任务,并支持14种小语种翻译,荣获ICDAR2025端到端文档翻译赛道冠军。
HunyuanOCR支持票据字段抽取、视频字幕识别、拍照翻译等功能,可对卡证票据实现JSON格式化解析,对复杂文档中的公式、表格进行LaTeX/HTML标准化输出。模型已开源至GitHub及ModelScope平台,为多模态OCR应用提供轻量化解决方案。





0 条评论
请「登录」后评论