品玩9月15日讯,百度在Hugging Face发布新一代文字识别解决方案PP-OCRv5。该模型专为缓解大型视觉语言模型局限性而设计,具备高效、准确、轻量等特性。
PP-OCRv5参数量仅0.07B,能在CPU及边缘设备实现高性能,其移动版本在特定CPU上每秒可处理超370个字符。在OCR特定基准测试中,该模型性能优于Gemini 2.5 Pro等通用型VLM模型,在中英文及拼音文本识别上表现出色。它支持简体中文、繁体中文、英文、日文、拼音五种文字类型,可识别超40种语言,并能提供精确文本行边界框坐标,便于结构化数据提取。
PP-OCRv5由图像预处理、文本检测、文本行方向、文本识别四个核心组件构成,为文字识别领域带来新突破 。

0 条评论
请「登录」后评论