12月20日,在华尔街见闻与中欧国际工商学院联合主办的“Alpha峰会”上,金山办公助理总裁、资深技术专家朱熠锷发表主题演讲,AI应用正从“以模型为中心”转向“以数据为中心”,金山办公以“知识增强生成”(Knowledge-Augmented Generation)为技术支撑,帮助大模型真正“掌握”企业的知识资产,最终通过WPS 365完成知识建模、知识治理与多模态融合,为企业构建专属的“企业大脑”。
朱熠锷指出,当前AI应用正从“以模型为中心”转向“以数据为中心”。尽管大模型技术持续发展,前沿模型的综合智能已高于企业普通员工,但AI在实际应用中仍面临检索系统架构局限、企业自有数据量不足、知识检索与治理不当等问题,因此私域数据的准确挖掘、高效利用成为企业的核心挑战。
从数据到智慧的金字塔模型
针对这些痛点,金山办公提出了知识增强生成(KAG)的解决方案。与传统的检索增强生成(RAG)相比,KAG不仅让大模型“看到”文档,更通过知识治理和多源知识融合,实现对企业知识资产的深度“掌握”。KAG架构分为知识治理层与知识应用层,前者负责文档解析、知识抽取、图谱构建等工作,后者则通过多源融合检索引擎等核心组件赋能专业场景。
基于KAG架构,WPS 365打造的 AI Docs智能文档库涵盖知识治理、智能问答、智能抽取与智能写作四大模块,已在医药、法律等专业领域实现落地。例如,在医药法规问答中,系统能精准识别时间、地域等约束条件;在临床报告撰写中,通过智能抽取模板与数据精准搬运,将报告撰写效率提升60%以上,显著抑制AI“幻觉”。
朱熠锷强调,从RAG到KAG,是知识利用的升级。数据和知识成为AI可用的资产,是企业从数字化迈向智能化的基石。在DATA 2.0时代,企业需要像管理数据一样管理知识,形成数据湖与知识湖的双湖驱动,才能让AI在专业领域真正帮助企业及员工提升效率。
以下为演讲全文:
尊敬的各位来宾,下午好。我是来自金山办公的朱熠锷,今天我分享的主题是:WPS AI,迈向更高质量的知识增强生成。
金山办公从37年前求伯君编写十几万行代码,WPS1.0诞生至今,公司的产品矩阵在持续迭代升级。WPS 365 是面向组织和企业的办公新质生产力平台,包含WPS Office、最新发布的WPS AI企业版和WPS协作。它打通了文档、AI、协作三大能力,覆盖了一个组织的办公需求,从文档创作到即时通讯(IM)、会议、邮件,再到 AI 应用,正式升级为一站式 AI 协同办公平台。随着大模型技术的发展,2023年金山办公发布WPS AI。
谈到大模型,它具有很高的智能。关于如何定义智能或智慧,我们可以从“数据到智慧的金字塔”来分析。
位于金字塔最底层的是原始数据(DATA),经过加工处理带有逻辑的数据通常被称为信息(INFORMATION),而组织化的信息,能够知道How和Why,我们称之为知识(KNOWLEDGE),最后应用知识去解决问题、预测未来的能力,我们称之为智慧(WISDOM)。
有一个很关键的问题:今天的大模型中包含什么?一个7B大模型的模型参数权重文件经过4比特量化后,在磁盘上大概是4个GB的文件。那么它显然不可能包含互联网上所有公域知识中的原始数据,而是基于统计学规律存储的基于高频事件整理出的知识。这些知识必须结合真实数据才能在实际应用中发挥它的价值。
AI应用的三个核心要素是算法、算力和数据。我们一般认为今天的算法或大脑即更智能的大模型,如Deepseek V3.2、Qwen3、Kimi K2、GLM4.6等,大模型的技术仍在持续发展。算力是更快、更便宜的推理,在中国和美国可能有两种不同的业态,但我们看到国产算力已经产生显著的突破。而从数据的维度看,大模型本身已经包含非常丰富的公域数据及知识,核心挑战是对私域数据更好地挖掘和利用。但我们认为在这个方面的实际应用难度远超预期。
因此我们认为,AI应用未来会从“以模型为中心”转向“以数据为中心”。
大模型的能力在持续发展。前沿模型在知识储备、逻辑理解等方面的综合智能高于企业普通员工,且各家模型的能力水平差异并不显著,因此这类技术不易形成垄断。
第二点是以往基于海量数据开展行业、企业大模型预训练的做法,很可能是一个伪命题。原因在于,企业自有数据的量级,相较于基础模型完整训练所需的数据量只是沧海一粟;同时基础模型迭代速度极快,导致行业专属模型的训练始终处于追随基础模型版本升级的被动状态。
第三点是大多数AI应用效果不佳的问题,根源都与外部数据连接有关。比如,因解析问题导致数据错误,因知识检索不到与治理不当导致数据过少,以及面对数据过多时,如何更好地借助大模型的上下文工程筛选出适配的数据。
从数据连接的角度来讲,RAG(Retrieval Augmented Generation)已成为大模型结合外部、私域数据的标准架构。它有效解决了知识结合、知识更新、权限管控、事实核查四大问题,在很多领域中有着广泛的应用。RAG本身也在持续进化:从最初的Naive RAG,到Advanced RAG,再到模块化、Agent化的RAG。
但是,在企业应用RAG的过程中,我们仍然发现了很多挑战。第一个问题是:大量企业数据以“文档”形式存在,如文字、表格、PDF文档等,由于这些非结构化数据格式复杂、组织混乱、内容缺失或相互矛盾,文档本身并不等同于可用的知识,直接影响RAG的检索与生成效果。
第二个问题是:传统RAG方案存在语义局限性——它基于向量相似度(embedding)进行检索,而语义相似不等于逻辑相关,这不仅会导致召回很多碎片信息无法有效整合,还对数值、时间等逻辑关系不敏感,同时无法有效处理文本中的隐含关系。
这两类问题在实际场景比比皆是:面对复杂文档时,图文混排、阅读顺序推导、表格中的子表、表头检测,图示文档的有效解析和表达,如行业客户维修手册的子图与文本对应关系,流程图逻辑链路;文档库中还普遍存在知识冲突问题,既有事实、数值、时间、流程等维度的显式冲突,也有蕴含知识相互矛盾的隐式冲突,这些都会严重拉低 AI 应用的输出效果;此外,行业黑话、企业内部专属术语往往超出模型的理解范畴,而企业语境下的个性化需求,比如结合使用者的岗位、职级、归属地等信息给出适配答案,传统 RAG 也无法很好地满足。
结果是,当前很多AI应用都陷入了“一周出Demo,半年上不了线”的困境。
在企业既有知识资产的应用层面,GraphRAG 框架提供了一种新思路:它依托文档内容构建逻辑体系,通过生成知识图谱、基于图结构开展路径推理来提升生成质量。但它还存在两大难题:一是严重依赖原始文档的质量,二是在工程落地环节仍有诸多技术挑战亟待突破。除此之外,许多专业领域已沉淀的高质量结构化知识,例如专业知识图谱、标准化结构化标签、SOP 流程规范等,也具备巨大的应用潜力。若能实现多源知识的有效整合,将极大提升 AI 应用的生成质量与专业水准。
针对上述一系列痛点,我们认为更优的解决路径是:将 AI 能力进化到KAG(Knowledge Augmented Generation,知识增强生成) 阶段。它有两个核心观点:其一,知识必定需要治理,高质量输入才能支撑高质量输出;其二,打破“文档检索”的局限,系统性融合多模态、多结构的知识资产,为AI生成提供高质量输入。
从架构层面拆解,KAG可分为两大核心模块:知识治理层与知识应用层。知识治理层涵盖文档解析、知识抽取、图谱构建、标签体系,以及质量监控等相关工作,以获得高质量的底层知识;在此基础上,知识应用层以多源融合检索引擎、动态排序模块、上下文工程体系为核心组件,构建能够赋能各类专业场景的知识基座。
基于KAG架构打造的AI Docs智能文档库,核心能力在于知识治理、智能问答、智能抽取及智能写作四大模块,为企业提供全链路的智能知识管理与应用服务。
依托知识治理模块,AI可以提升企业原始资产的知识质量。该模块利用知识图谱建模的方法,不断地抽取文档中的逻辑三元组,通过分组过滤的流程找到实体之间可能有多种矛盾的属性或关系;再结合大模型清理重复内容、提取冲突内容、检测缺失知识,最后交由知识管理员做人工判别处理。例如在搭建企业知识库时,普通员工对知识资料往往不具备全局判断能力,此时大模型可凭借对公域知识的全面理解,检测内容缺失点,辅助员工补充并优化知识体系。
智能问答模块则致力于在专业领域提供更高质量的知识问答服务。我们对企业私域文档进行精细解析、构建文档图谱,同时完成专业领域知识的本体建模和知识结构化,将两者深度融合,形成具备逻辑性、完备性及专业性的核心知识。以医药法规专业知识库为例,系统接收用户输入的Query后,会先进行要素解析,提炼出约束条件和查询主体,再基于核心知识开展检索与后续处理。该过程中,系统能够精确识别“2025年6月之后”“浙江省”等约束条件,输出正确的答案,有效规避其他地区的法规内容干扰。
智能抽取模块的核心价值,在于从非结构化数据中精准抽取关键字段,并将其转换为结构化内容。针对企业生产过程文档中的复选框、多层级复杂表格、扫描件、手写体文本等特殊文档元素及格式,我们进行了细致优化,通过复杂识别和批量抽取功能大幅提升处理效率。模块采用支持添加自定义字段、可灵活适配各类场景的模板驱动抽取工作;在结果应用层面,既支持手动配置字段,也能实时获取抽取结果并自动汇总至指定文件夹或系统,适用于合同库、简历库等多场景的搭建。
某医药客户基于这套能力,搭建了“药物警戒 SAE个例报告信息提取系统”:临床阶段产生的各种不良事件报告,会通过邮件附件形式发送至药企,药企通过WPS 365自动化平台调用API,自动提取邮件附件并执行解析处理和智能抽取,输出JSON格式的结构化数据,再回调客户的药物管理系统实现自动化录入,极大提升了工作效率。
最后,智能写作模块依托大模型的创作能力,高效完成专业行业报告等各类文档的生成任务,目标是打造合规可控的通用报告撰写平台。多数报告有别于日常请假条、演讲稿,本身具有明确的格式要求,同时需要对大量数据或内容精准搬运及总结,人工撰写不仅费时费力,还容易出现疏漏;而大家普遍认为通用AI在此过程中存在“幻觉”问题。
为实现大量数据的准确搬运,AI Docs首先保证了原始数据查找的精准度。它通过以写作目标驱动的数据检索Agent,以多轮校验的方式确保信息准确性。对于文本内容,支持素材报告原文的无损引用;对于表格数据,可在搬运过程中完整保留原文格式。在报告撰写环节,系统严格遵循行业及企业规范,输出符合专业标准的内容;在章节配置上,能够智能化、规范化地生成报告大纲。
技术架构层面,我们构建了两个Agent协同工作:第一个Agent可以根据报告的写作模板、范例以及相应领域的法规/SOP要求,构造一个可以定义写作大纲、工作流、子任务清单、所需数据的智能模板体系。第二个Agent则基于智能模板,整合报告制作过程中的各类实验数据、表格数据、规划书数据,完成最终报告撰写。以医药行业临床研究报告(CSR)撰写为例,WPS AI能够通过这一整套机制,实现实验数据的“无损搬运”,模仿医药专业人员的思维逻辑做数据总结,有效抑制内容“幻觉”,将原本复杂的学术报告撰写,从“作文题”变成“填空题”,节省60%以上的报告写作时间。
最后,我做一个简单的总结。从 RAG 到 KAG,是知识利用的升级。RAG让大模型“看到”文档,GraphRAG让大模型“理解”文档间的逻辑,KAG让大模型真正“掌握”企业的知识资产。
数据和知识变成AI可用的资产,是企业从数字化迈向智能化的基石。在DATA 2.0时代,要像管理数据一样管理知识,形成数据湖与知识湖的双湖驱动,完成知识治理、知识建模、知识运用,并从单模态切换到多模态,让AI在专业领域真正帮助企业及员工提效。以上就是我今天分享的全部内容,谢谢大家!




0 条评论
请「登录」后评论