品玩

科技创新者的每日必读

打开APP
关闭
业界动态

百度千帆发布端到端文档智能模型Qianfan-OCR

3月19日消息,百度千帆正式发布全新端到端文档智能模型 Qianfan-OCR。该模型基于统一的视觉语言架构,以4B参数规模实现了对文档解析、版面分析、文字识别与语义理解的全面融合,在多项权威评测中取得领先表现。目前,Qianfan-OCR已在千帆平台上线,并同步在HuggingFace开源了模型权重,面向开发者与企业用户开放使用。

鸠鸠

发布于 7小时前

3月19日消息,百度千帆正式发布全新端到端文档智能模型 Qianfan-OCR。该模型基于统一的视觉语言架构,以4B参数规模实现了对文档解析、版面分析、文字识别与语义理解的全面融合,在多项权威评测中取得领先表现。目前,Qianfan-OCR已在千帆平台上线,并同步在HuggingFace开源了模型权重,面向开发者与企业用户开放使用。

据介绍,在核心Benchmark中,Qianfan-OCR表现尤为突出。在 OmniDocBench v1.5上取得 93.12分的成绩,端到端模型中位列第一;OCRBench远高于同尺寸通用视觉语言模型和专用OCR模型;在关键信息提取(KIE)的多个公开榜单总分上,超过了Google Gemini 3-Pro等商用模型。

在图表理解等复杂任务中,端到端模型的优势更加明显,Qianfan-OCR在ChartQA、ChartBench等6项图表理解复杂任务中,拿下了5项最佳成绩,展现了强大的结构理解与多模态推理能力。

传统 OCR 系统普遍沿用“检测+识别+LLM”三段式Pipeline架构。这一模式虽已工程成熟,但多阶段串联处理会在各环节不断放大误差,且文本逐块提取过程中原有的空间结构与视觉上下文信息往往遭到破坏,使得图表、复杂表格等内容的理解能力受到明显制约。

Qianfan-OCR 从底层架构出发进行重构,通过统一的端到端视觉语言模型,直接从文档图像生成结构化结果,完整保留视觉信息,实现从“看见文档”到“理解文档”的一步直达,在结构理解与推理任务中具备更高的一致性与准确性。

Qianfan-OCR在文档解析与理解一体化能力上的领先表现,进一步验证了端到端技术路线的可行性与先进性,标志着文档智能能力正从“流程拼接”迈向“模型统一”的新阶段。

目前,Qianfan-OCR已在百度千帆平台正式上线,并同步在 HuggingFace 开源模型权重,欢迎开发者与企业用户体验使用。

下载品玩App,比99.9%的人更先知道关于「业界动态」的新故事

下载品玩App

比99.9%的人更先知道关于「业界动态」的新故事

iOS版本 Android版本
立即下载
鸠鸠

这家伙很懒,什么也没留下,却只想留下你!

取消 发布
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测