品玩1月28日讯,据科创板日报报道,DeepSeek团队正式开源新一代文档识别模型DeepSeek-OCR 2,并同步发布技术论文《DeepSeek-OCR 2: Visual Causal Flow》。
该模型采用创新的DeepEncoder V2编码器结构,突破传统视觉语言模型按固定栅格顺序处理图像的局限,可根据图像语义动态重排视觉信息处理顺序,模拟人类跳跃式阅读逻辑。
在OmniDocBench v1.5基准测试中,DeepSeek-OCR 2以更低的视觉token上限(256–1120)取得91.09%综合得分,较前代提升3.73%;阅读顺序编辑距离由0.085降至0.057,显著增强对复杂文档结构的理解能力,尤其在学术论文、表格及公式解析等场景表现突出。





0 条评论
请「登录」后评论