知识图谱增强在 360 文档知识问答及管理中的应用实践

news2025/1/11 20:53:54

主要内容包括以下几大部分:

  1. 360 文档云知识管理/问答应用场景

  2. KG 在文档 RAG 问答中的应用

  3. KG 在文档标准化、层次化、结构化应用

  4. KG 与 LLM 在文档场景下的挑战及展望

  5. 问答环节


01

360 文档云知识管理/问答应用场景

首先来介绍一下 360 文档云知识管理问答的应用场景。

1. 业务痛点

(1)非结构化数据快速增长,有效管理和价值挖掘面临挑战

  • 非结构化内容管理难扩展:企业非结构化数据管理的主要挑战是数据的储存、访问、控制、共享和协同,IDC 预测到 2025 年全球数据量将增长至 175 ZB(2018 年 33ZB),80%-90% 为非结构化数据。这些挑战需要高效的技术和策略来解决。
  • 非结构化数据利用率低:非结构化数据格式复杂,如文本、图像,数据处理成本高,数据分析难度高,数据创新空间低。55%-80% 的组织业务数据处于沉睡状态,价值待挖掘。

(2)大模型落地应用老大难问题

  • 不懂企业,缺乏行业深度:大模型是万事通,对行业知识和专业知识做不到精通;大模型与组织内部的知识不互通、业务结合不紧密,不能满足企业内部业务开展的要求。
  • 数据安全隐患,容易造成内部数据泄露:组织内部的 Know How 是核心竞争力,不适合训练到大模型中,容易造成内部数据泄露。
  • 上下文关联,缺失用户业务行为数据:完全结合问题上下文的推理周期长及准确度不高,上下文的长度受限,对用户的业务行为数据不了解。

360 文档云在多种场景中具有诸多优势:

  • 存储和管理海量的高质量企业数据资产:企业文档包含大量高质量私域语料数据;Office 文件、PDF 等数据统一结构化处理能力;只要持续产生新文档,就有新的数据生成。
  • 基于组织和权限保护企业数据安全:文档云对文件的9 级权限校验;文档云全生命周期安全防护;覆盖云端扫描+本地态势感知及外发等。
  • 用户行为记录形成结合上下文的关联:用户最新的使用文档;用户的收藏文档及常用标签;记录用户的所有操作行为。

2. 360 智能文档方案

(1)360 智能文档云方案:从企业网盘到智能文档

以往大家使用网盘/文档云,可以将文档等上传至网盘,企业内部也可以部署私有网盘。企业网盘/文档云帮助企业从基础工具到数字资产管理平台的升级,比如实现上传文档到文档归类的升级;提供一站式文件全生命周期管理及知识协作服务,为企业打造文档云、知识库、大数据平台等解决方案;构建企业非结构化数据中台,提升企业内外部协同效率。

现在大家开始用大模型做智能文档云,将文档云融合 GPT,实现文件助手和智能知识库;打造文件助手,助力知识洞察/发现/创作场景,解锁企业内容价值;满足企业和个人用户的生产力需求,实现云盘向企业/个人知识大脑全面升级,加速产业知识智能方案进化。

(2)360 智能文档方案:读得懂、搜得到、答的准

360 智能文档借助大模型,实现了以下三个层次的能力:

  • 第一层是读得懂,对文档内容进行深度解读和总结;
  • 第二层是搜得到,能够快速从海量知识文档中获取答案;
  • 第三层是答得准,可以提供准确匹配的搜索结果。

图片

3. 360 智能文档应用

(1)一站式知识问答、AI 助手、智能推荐

360 智能文档知识管理应用上的功能包括:一站式知识问答、AI 助手、智能推荐。比如通过创建知识号把文档上传后进行提问,也有默认助手应用,可做应用推荐,可加入大模型相关推荐,还可以集合 Agent 平台的产品。在云盘文档类有很多应用场景,比如图片转文字、PDF 转 DOC 等。

图片

360 智能文档的所有界面均可随时随地唤起 AI 助手,还可做大模型通用问答,接入 360 搜索及外部搜索能力,融合用户、场景、上下文感知做问答。

图片

(2)文档总结、翻译、推荐

360 智能文档还可应用于文档总结、文档翻译、文档推荐。

  • 文档总结:在科研领域,快速进行论文总结,以及快速了解外文文献核心内容,提升论文筛选效率。在自媒体领域,很多公众号使用大模型自动生成问题,做成 FAQ 放到公众号。
  • 文档翻译:在完成文档总结之后,使用全文翻译进行精读。
  • 文档推荐:当预览某篇文档时,自动推荐相关文档给用户,还可以运用知识图谱关联网络做推荐。

图片

图片

(3)智能撰写、智能样式、人工监督及进度跟踪

在大模型到来之后,360 智能文档在智能撰写、智能样式、人工监督、进度跟踪等方面可以发挥作用。

  • 智能撰写:设定文档智能撰写需求,根据要求编写大纲,并后完成大纲细化及段落撰写。
  • 智能样式:调用文档理解引擎,实现文档标题识别和样式转换。
  • 人工监督:自动撰写流程可以人工干预,调整大纲及参数设定,达到更好的生成效果。
  • 进度跟踪:跟踪文档生成流程环节及进展。

图片

(4)文档搜索

360 智能文档还可应用在文档搜索。

  • 划词搜索:利用大模型对选中的内容进行分段和内容提取,然后调用搜索。
  • 搜索模式升级:利用大模型将搜索内容扩展为多个相关问题;基于上述多个问题调用搜索;使用大模型将得到的多个搜索结果进行相关性排序处理,返回给用户。

图片

02

KG 在文档 RAG 问答中的应用

1. 回顾知识图谱

在说明 KG 在文档 RAG 问答中的应用之前,先回顾一下知识图谱。

知识图谱需求的根源在于一系列数据挑战,比如非结构化数据计算机难以理解、多源异构数据难以融合、数据模式动态变迁困难、数据使用专业程度过高、数据高度重复性等。

此时需要有一个中间态用知识图谱进行统一化管理,图谱包括两层:第一层是知识图谱网络里节点包括的各种知识;第二层是知识图谱里的结构化数据。基于统一化管理之后经过转换等处理可以得到标准化知识库,可以实现语义理解、数据关联探索、业务动态扩展、智能检索与问答等。

图片

360 知识图谱平台通过标准化构建定结构化数据、通过抽取式构建定非结构化数据,之后分析文本做知识抽取,再进行统一的图谱管理,进行知识映射、知识标准化、知识融合等,最后可以做图分析工具、图谱存储、知识应用等。但当时 360 知识图谱平台在市场上推广不太好,因为难度太大。

图片

2. 现实及方向:知识图谱与大语言模型

大模型来了之后,有一篇很火的文献综述《Knowledge Graphs》梳理了大模型和知识图谱的优势、劣势。大模型知识边界不敏感,优势在于超高度超数化、容易起量,但不精细;知识图谱很精细、很结构化,但是不完整。现在有很多模型出来,包括 ERNIE3.0 做知识图谱增强,Doctor AI 做知识图谱增强、融合。

图片

知识图谱与大模型结合范式包括两种:KG-enhanced LLMs、LLM-augmented KGs。

图片

3. 结合方案

(1)RAG 知识增强的文档问答

搜索问答最强的是 RAG。RAG 知识增强的文档问答流程为:首先将文档根据策略进行分块,Chunks 之后使用一些比较好的 Embedding 策略包括:M3E \Text2Vec \ E5,再去做文档召回。文档召回完后制定上下文生成策略,包括要检索的块数、处理重叠块等,接着选特定的模型比如 360 智脑、ChatGLM、Llama2、ChatGPT 等,然后使用所有可能的组合比如分块策略、嵌入策略、上下文生成策略 LLM 选择等生成响应,之后再做结果评估,最后根据带分数的模型得到最佳应用。

图片

(2)使用知识图谱增强文档问答的全链路

文档问答中实际的问题包括:

  • 大模型进行私有化文档问答常受到长尾问题的影响,容易出现幻觉。
  • 私有化文档内容结构十分复杂,层级结构较多,且元素众多,大模型区分能力有限。
  • RAG 流程很长,受到文档标准化、chunck 切分、lost in middle 影响,chunck 之间语义隔断。

使用知识图谱增强大模型的问答效果:

  • 在知识整理阶段,用知识图谱将文档内容进行语义化组织;
  • 在意图识别阶段,用知识图谱进行实体别称补全和上下位推理【受控改写】;
  • 在 Prompt 组装阶段,从知识图谱中查询背景知识放入上下文【精准召回】;
  • 在结果封装阶段,用知识图谱进行知识修正和知识溯源。

图片

03

KG 在文档标准化、层次化、结构化应用

1. 支撑方案

(1)复杂文档版面分析

文档标准化有很多支撑方案。就复杂文档版面分析来说,需要对不同图文混排、多段落划分等版式进行识别,并进行存储,以此来满足用户提问时更准确的答复。

针对复杂文档后续做跨模态搜索时,需要将代表同一个事物的图片或文本实现 link 关系。此时可以把内容进行对齐,比如页面文本内容、目录文本内容等,以及图片内容抽取、表格内容抽取、文档内容页码抽取等。

图片

2)细粒度知识体系构建及知识问答

版面分析之后还需要做问答增强。问答增强很多文档有高品质问答需求,此时需要基于文档生成问题,或者基于问答记录生成问题,基于问题泛化为相似问题。在做问答增强时需要构造很多错误样例,可以通过图谱的方式来实现。

图片

(3)分阶段海量知识库管理

还有一个支撑方案就是知识管理,需要判断知识管理走微调路线还是走 RAG 路线。

图片

2. KG 增强方案

(1)基于知识图谱生成文档微调问答对

知识管理可以通过图谱生成微调问答对。我们通常基于结构化数据生成 QA 对,通过人工定义模板,快速生成 QA 对;基于百科 infox 数据与正文,生成 RAG 微调数据;让模型针对 Q 进行改写,缓解领域微调数据荒的问题。

构成微调问答对的数据量不需要太多,几百条数据就能取得比较好的效果。

图片

2)基于知识图谱存储文档复杂层级信息

第二点是基于知识图谱存储文档的复杂层级信息。通常阅读文档时有很多复杂的信息,比如文字、图片、表格等,此时可以基于知识图谱实现智能文档处理。智能文档处理是指通过计算机自动识别、分析、处理文档中的文字、图片、表格等信息,实现自动化处理文档。文档中包括图表、标题、目录、表格、段落等层级信息,利用知识图谱结构存储文档布局信息,从文档中提取出逻辑层级结构、文本内容、表格内容、Key-Value 键值字段、样式信息等。基于对文档的内容信息、版面信息和逻辑信息的分析理解,以结构化数据的形态输出抽取结果。

图片

3)基于知识图谱实体链接、召回方案实现问答

还有一个点是基于知识图谱实体链接、召回方案实现问答。相关方案可参考:《Biomedical knowledge graph-enhanced prompt generation for large language models》

(https://arxiv.org/pdf/2311.17330.pdf)(https://mp.weixin.qq.com/s/UsZy6TdnUaqQ3PtSq6F4yA)

实现的思路很简单:对用户输入的 query 提取实体,然后构造子图形成上下文,最后送入大模型完成生成。使用 LLM(或 bert)模型从问题中提取关键实体(实体识别、链接)。根据实体检索子图,子图很多时,进行排序、剪枝排序。利用获得的上下文利用 LLM 产生答案。

针对图片右下方的医疗场景,可以先做医疗 entity 的识别,接着生成图 Graph Database,然后去搜索 Disease Graph。有时大模型对图不是太敏感,此时可以把 Disease Graph 转换成 Graph to Natural language,之后再去计算相似度,处理后放到 LLM 里,最终得到比较好的效果。

图片

3. 进一步延伸:融合 KG 的泛 AI 搜索几种方案思考

最后一个点,和大家分享融合 KG 的泛 AI 搜索的几种方案思考:

  • 以结构化知识为中心的 magi 知识搜索:magi 搜索引擎围绕知识 (knowledge) 构建。《也谈 Magi 系统:知识(非搜索)引擎下的别样高度与落地批判》

(https://mp.weixin.qq.com/s/8b1UW74P5bkMVGYhuQDBSQ)

  • 以摘要为核心的 perplexity 等大模型搜索:输入用户 query:首先,使用进行 query 意图理解,这个过程包括 query 的分析(去停用词、实体识别、关键词提取、归一化等)、query 的扩展(一个 query 扩展成多个 sub query,以扩大召回面),形成标准和多样化的 query 集合。接着,使用并发检索的方式,针对 query 进行检索,检索后再进行粗排、精排等方式,召回出符合特定阈值的相关网页文档。最后,将相关网页文档追加至 prompt,然后让大模型进行总结回答,回答出答案以及对应的链接。
  • 将图谱影子纳入到 AI 搜索的第三种形式:在 query 泛化上的不受控,可以借助预先建设好的知识图谱进行控制;也可以在结果整理阶段,加入一些知识图谱的例子(metaso,360AI 搜索);一种 schema 驱动的 AI 搜索(global explore)。

图片

04

KG 与 LLM 在文档场景下的挑战及展望

最后来探讨一下 KG 和 LLM 在文档场景下的一些现实挑战:

1. 知识图谱可以在问题改写、问题泛化受控上具有直接收益

  • 如果问题涉及到多个实体,如何做好实体链接?通常需要 case by case 做实体链接。
  • 如果实体的关系或者属性很多,如何做好实体关系属性的 ranking,以防止检索爆炸。

2. 基于结构化好的知识图谱可以在文档问答的微调数据上有帮助,尤其是在拒答方面

  • 如何更快、更好地自动化构建好结构化知识图谱。
  • 如何保证知识图谱的实时性和准确性。

3. 知识图谱本体 schema 在进行搜索内容组织上会有直接收益,将搜索内容进行重整

  • 知识图谱本体 schema 的自动化构建一直是个老大难的问题。
  • 如何规模化地进行知识图谱 schema 生成。

4. 知识图谱可以作为单独知识召回源参与到文档问答当中

  • 如何正确检测已有大模型中的知识是否与现有结构化知识图谱相冲突。
  • 两个召回源得到的问答结果如何进行取舍,如何 ranking。

05

问答环节

Q:PPL对 query 做搜索扩展的摘要,扩展后的摘要如何评估?

A:首先做 query 扩展时,先计算相关性,只能用量化指标去做。扩展后的摘要如何评估,也是通过相关性的评估方式。扩展之后经过大模型生成结果,可以通过结果看全局的用户体验好不好,再由人工进行评价比对。

以上就是本次分享的内容,谢谢大家。

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2131364.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

K1计划100%收购 MariaDB; TDSQL成为腾讯云核心战略产品; Oracle@AWS/Google/Azure发布

重要更新 1. 腾讯全球数字生态大会与9月5日-6日举行,发布“5T”战略,包括TDSQL、TencentOS、TCE(专有云 )、TBDS(大数据)、TI (人工智能开发平台)等 ( [2] ) ; 并正式向原子开源基金…

【无人机设计与控制】基于PID控制的四旋翼无人机系统Matlab仿真

摘要 本文基于PID控制设计了一种四旋翼无人机控制系统,并通过Matlab进行仿真验证。研究了姿态控制和位置控制的性能,仿真结果表明该系统在稳定性和响应速度方面具有良好的表现。本文的主要贡献是验证了PID控制器在多轴飞行器控制中的有效性,…

基于mongodb+flask(Python)+vue的实验室器材管理系统

实验室器材管理系统是一个现代化的、高度集成的软件解决方案,它结合了Flask作为后端框架,MongoDB作为数据库,以及Vue.js作为前端用户界面,专为优化和精简实验室设备及耗材的管理流程而设计。此系统旨在为实验室管理员、研究人员和…

3.C++入门(内联函数,c++11,auto,范围for,nullptr)

⭐本篇文章为C学习的第三篇:主要了解内联函数和部分c11新特性 ⭐本人c代码的Gitee仓库:c学习 橘子真甜/yzc的c学习 - 码云 - 开源中国 (gitee.com) 一. 内联函数 以inline修饰的函数称为内联函数,编译的时候c编译器会在内联函数的地方展开&a…

AI 平台 formulabot 介绍

AI 平台 formulabot 介绍 FormulaBot.com 是一个基于人工智能的数据分析平台,旨在简化数据处理和分析任务 主要功能 数据分析与可视化: Formula Bot 提供工具来分析、可视化和转换数据,使用户能够快速理解数据背后的信息。公式生成: 用户可以通过自然…

别再过度复杂化了,实体SEO其实就是SEO

“实体SEO”。听起来有点可怕,是不是?不仅“实体”这个词听起来有点陌生,还感觉又是要在你永无止境的SEO待办清单上再添加一项。你在SEO方面已经捉襟见肘了,但天啊,又有一个新事物需要你投入稀缺的资源。 不过我有好消…

springboot-创建连接池

操作数据库 代码开发步骤: pom.xml文件配置依赖properties文件配置连接数据库信息(连接池用的是HikariDataSource)数据库连接池开发 configurationproperties和value注解从properties文件中取值bean方法开发 service层代码操作数据库 步骤&am…

component 和slot -----vue3

前言: 辗转几个公司发现基本上有点规模的公司都会有自己的平台,无论是开发平台还是其他什么,都脱离不了一个功能点,那就是组件;无论你是自己从0到1建立的平台还是基于别的已有的平台,都是这样;无非是组件的套娃,只要你梳理清楚平台的主要枝干,熟悉一些前端基本知识,然后掌握组件…

2024年CAD图纸加密软件大盘点:10款高效CAD加密工具大揭秘!

在当今数字化时代,CAD图纸的安全性变得尤为重要。随着设计数据的不断增长,保护这些敏感信息免受未经授权的访问和泄露已成为企业必须面对的挑战。为了应对这一需求,市场上涌现了众多CAD图纸加密软件。本文将为您盘点2024年最值得关注的10款高…

OpenAI 的 o1 大模型在数学和编码方面有了几乎 10 倍的能力提升!

你有没有想过,有一天人工智能可以在数学和编程这两个领域里,真正成为人类的“得力助手”,甚至是超越我们?最近,OpenAI 发布的 o1大模型在这方面取得了几乎 10 倍的能力提升。10 倍!你没有看错。这样的进步让人不禁怀疑:AI 真的能做到“秒懂”数学和编程吗?今天,我们就…

骨传导耳机品牌排行榜前五名,有哪些好用的骨传导耳机品牌值得入手?

我是一名专业的数码产品测评博主,在多年的职业生涯中,发现很多人在使用骨传导耳机后都出现了佩戴不舒服的现象。对此,我希望大家能重视骨传导耳机款式的挑选,因为市面上不专业的产品数量众多,它们纷纷打着保护听力的旗…

【Python爬虫系列】_019.生产者和消费者模型

课 程 推 荐我 的 个 人 主 页:👉👉 失心疯的个人主页 👈👈入 门 教 程 推 荐 :👉👉 Python零基础入门教程合集 👈👈虚 拟 环 境 搭 建 :👉👉 Python项目虚拟环境(超详细讲解) 👈👈PyQt5 系 列 教 程:👉👉 Python

服务器数据恢复—Linux操作系统环境下网站数据的恢复案例

服务器数据恢复环境: 一台linux操作系统服务器上跑了几十个网站,服务器上只有一块SATA硬盘。 服务器故障: 服务器突然宕机,尝试再次启动失败。将硬盘拆下检测,发现存在坏扇区。找当地一家数据恢复公司处理后&#xff…

Application pool xxx has been disabled

现象: 项目采用分布式应用,总共三台服务器,第一台的某个应用无法访问报错Error: Service Layer is under maintenance,第二三台可以正常访问 问题排查: 通过排查ETW(无任何报错)和EventLog发现…

一款免费试用的答题小程序

一款可以免费试用的答题PK小程序。适用于各类知识竞赛答题活动。如网络安全知识竞赛、安全生产知识竞赛、交通知识竞赛答题、企业文化学习答题等。 其功答题功能丰富多彩,除了个人学习答题外,还有好友PK答题、排位升级PK答题、专题1V1pk答题、团队多人…

Android Framework(五)WMS-窗口显示流程——窗口布局与绘制显示

文章目录 relayoutWindow流程概览应用端处理——ViewRootImpl::setView -> relayoutWindowViewRootImpl::setViewViewRootImpl::performTraversalsViewRootImpl::relayoutWindow Surface的创建WindowManagerService::relayoutWindow了解容器类型和Buff类型的SurfaceBuff类型…

为什么要引入lims系统?第三方检测实验室lims系统的好处

第三方检测机构面临多样化的管理和数据处理问题,实验室信息管理系统(LIMS)成为了提升效率和准确性的关键工具。本文将探讨第三方检测机构为什么要引进LIMS系统,并详细介绍白码LIMS系统的优势及应用案例,帮助各类检测机构解决实际难题。 白码…

低代码平台与AI融合:企业如何快速实现数字化转型?

引言:数字化转型的迫切性 在当今高度竞争的市场环境中,数字化转型已成为企业生存与发展的关键因素。无论是中小型企业,还是跨国巨头,都面临着相似的挑战:如何在信息技术飞速发展的背景下,快速适应市场变化&…

Docker容器技术1——docker基本操作

Docker容器技术 随着云计算和微服务架构的普及,容器技术成为了软件开发、测试和部署过程中的重要组成部分。其中,Docker作为容器技术的代表之一,以其简便易用的特点赢得了广大开发者的青睐。 Docker允许开发者在轻量级、可移植的容器中打包和…

举个例子简单告诉你什么是期货期权?

期权,本质上是一种在未来是否决定行使的权益,它预设了当前对未来某一经济行为的权利选择。期权分为买权(或称看涨期权)与卖权(或称看跌期权),分别代表了未来买入或卖出资产的权利。 以黄豆市场…