品玩

科技创新者的每日必读

打开APP
关闭
业界动态

让大模型“看懂”专业文档,OpenDataLab将与钉钉打造企业级解析工具DLU

高质量数据是AI大模型训练与应用的基础,更是企业向AI转型升级的 “燃料”。然而,众多企业在开发AI应用过程中,却因大模型难以读懂非结构化数据而面临困境。

鸠鸠

发布于 9月4日

高质量数据是AI大模型训练与应用的基础,更是企业向AI转型升级的 “燃料”。然而,众多企业在开发AI应用过程中,却因大模型难以读懂非结构化数据而面临困境。

能否让更多企业级用户用上一款更趁手的数据工具,从而实现AI-Ready数据自由?

近日,OpenDataLab和钉钉正基于MinerU,推出一款面向企业用户的文档解析工具——DLU(Document Language Understanding),共同助力企业破解AI-Ready数据难题,从而降低行业大模型训练及AI应用开发门槛,加速AI技术在各行业的规模化落地。

MinerU是上海人工智能实验室(上海AI实验室)OpenDataLab推出的智能文档解析引擎,因精准解析能力及广泛兼容性深受用户青睐,在GitHub上已累计获得超4万星标。

上海AI实验室作为国际级人工智能新型科研机构,在大模型、数据智能等方向具备深厚的技术积累。其自主研发的OpenDataLab平台为国内领先的人工智能大模型数据平台,拥有7700余个开源精标数据集,迄今已为超10万用户提供了200余万次数据获取服务。近期更新的MinerU2.0实现了解析速度和精度双提升,甚至以0.98B的参数达成性能比肩72B的主流大模型。

作为阿里巴巴集团旗下的企业级智能移动办公平台,钉钉拥有丰富的文档产品和广阔的企业用户基础。钉钉文档、AI表格等产品此前已深度集成MinerU能力,并通过开放平台向生态开发者开放文档解析功能,为DLU的联合研发提供了扎实的技术与场景基础。

基于MinerU打造的DLU将于近期开源,其具备良好的文件格式兼容性,深层次的内容理解与精准的结构化输出能力。DLU不仅支持主流的Office文档、PDF、Markdown及代码文件,还涵盖钉钉自有的文档、表格与AI表格格式;并支持提取纯文本内容,精准解析图表、公式、插图乃至专业领域的化学分子式等复杂视觉元素,将其有效转换为适合大模型训练的高质量语料。

接下来,DLU还将借助钉钉在企业服务场景上优势,深度融入办公协同生态,支持用户在同一平台内完成从文档创建、解析提取、知识库管理、数据标注到定制化模型训练的全流程闭环,提升AI应用开发与日常办公效率。

上海人工智能实验室青年科学家、OpenDataLab/MinerU开源项目创始人何聪辉表示:“MinerU拥有广泛的用户基础,我们希望进一步拓展其在企业场景中的应用,并充分发挥OpenDataLab平台的作用,与合作伙伴共同打造‘数据工具中的PyTorch’,助力更多企业级用户实现AI-Ready数据的自由。”

钉钉CTO朱鸿表示:“开源DLU,能有效解决企业在AI时代面临的数据准备难题,筑牢智能化转型根基。钉钉正积极构建AI新生态,期待携手更多技术伙伴与行业力量,共同为千行百业的数字化转型与智能化升级提供强劲支撑”。

下载品玩App,比99.9%的人更先知道关于「业界动态」的新故事

下载品玩App

比99.9%的人更先知道关于「业界动态」的新故事

iOS版本 Android版本
立即下载
鸠鸠

这家伙很懒,什么也没留下,却只想留下你!

取消 发布
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测