百度发布新一代文字识别模型PP-OCRv5-品玩

百度发布新一代文字识别模型PP-OCRv5

9月15日

品玩9月15日讯，百度在Hugging Face发布新一代文字识别解决方案PP-OCRv5。该模型专为缓解大型视觉语言模型局限性而设计，具备高效、准确、轻量等特性。

PP-OCRv5参数量仅0.07B，能在CPU及边缘设备实现高性能，其移动版本在特定CPU上每秒可处理超370个字符。在OCR特定基准测试中，该模型性能优于Gemini 2.5 Pro等通用型VLM模型，在中英文及拼音文本识别上表现出色。它支持简体中文、繁体中文、英文、日文、拼音五种文字类型，可识别超40种语言，并能提供精确文本行边界框坐标，便于结构化数据提取。

PP-OCRv5由图像预处理、文本检测、文本行方向、文本识别四个核心组件构成，为文字识别领域带来新突破。