第4章:知识融合:概述、方法

news2024/12/24 0:20:28

💗💗💗欢迎来到我的博客,你将找到有关如何使用技术解决问题的文章,也会找到某个技术的学习路线。无论你是何种职业,我都希望我的博客对你有所帮助。最后不要忘记订阅我的博客以获取最新文章,也欢迎在文章下方留下你的评论和反馈。我期待着与你分享知识、互相学习和建立一个积极的社区。谢谢你的光临,让我们一起踏上这个知识之旅!
请添加图片描述

文章目录

  • 🍀知识融合概述
    • 🍀知识融合定义
    • 🍀知识融合的任务
  • 🍀知识融合的方法
    • 🍀本体对齐方法
    • 🍀实体对齐方法

操千曲而后晓声,观千剑而后识器。 ——《文心雕龙》

🍀知识融合概述

🍀知识融合定义

知识融合(Knowledge Fusion)的概念最早出现1983年发表的文献中,并在20世纪
90年代得到研究者的广泛关注。

在维基百科中“知识融合”的定义是,“对来自多源的不同概念、上下文和不同表达等
信息进行融合的过程
”。除此之外,有一些专家提出知识融合的目标是产生新的知识,是对
松耦合来源中的知识进行集成,构成一个合成的资源,用来补充不完全的知识和获取新知
识。还有一些专家认为,知识融合是知识组织与信息融合的交叉学科,它面向需求和创新,
通过对众多分散、异构资源上的知识进行获取、匹配、集成、挖掘等处理,获取隐含的或
有价值的新知识,同时优化知识的结构和内涵,提供知识服务。

总之,知识融合是一个不断发展变化的概念。尽管以往研究人员的具体表述不同、所
站角度不同、强调的侧重点不同,但这些论述中还是存在很多共性。这些共性反映了知识
融合的固有特征,可以将知识融合与其他类似或相近的概念区分开来。知识融合一般通过
冲突检测、真值发现等技术消解知识集成过程中的冲突,再对知识进行关联与合并,最终
形成一个一致的结果。

知识融合的研究工作开始于本体对齐,初期主要针对本体类别的语义相似性的匹配的
研究。但随着 Web 2.0和语义Web 技术的不断发展,越来越多的语义数据具有丰富实例和
相对薄弱的本体模式,促使本体对齐的研究工作慢慢地从概念层转移到数据层。不同数据
源的实体可能会指向现实世界的同一个对象,这时需要使用实体对齐将不同数据源中相同
对象的数据进行融合。


🍀知识融合的任务

由于数据源不同,构建方式不同等其他因素所在,所以导致知识的质量会有一定的分歧,例如重复、缺失、不明确等问题,以下的几个典型的问题:

  • 相同的实体有不同的名称:laptop和notebook等
  • 同名指代不同实体:苹果(公司、水果、歌曲等)
  • 实体定义的粒度不同:飞机、飞机类型、飞机型号
  • 相同的属性在不同的知识库有不同的判别能力
  • 相同的类别在不同的知识库中具有不同数量的属性
  • 缩写名词、单位、大小写、空格、录入错误等不同

正因为不同的太多了,所以需要将其统一融合为一个知识图谱,要不然就会尴尬了,下图是知识融合任务执行流程

在这里插入图片描述

  • 输入:无论是结构化还是半结构化的数据,只有能转换为DRF数据都可以作为输入
  • 预处理:这部分就是做数据的清理把那些无效冗余数据通通搞掉
  • 对齐:这部分包括本体对齐任务实体对齐任务

本体对齐侧重发现概念层等价或相似的类
本体对齐任务通过本体概念之间的相似性度量发现异构本体间的对齐关系
实体对齐通常是在本体对齐的基础上进行的,因为实体的对应关系需要建立在本体中概念的对应关系之上
后面在知识融合方法上会详细讲到

  • 后处理:通过冲突检测、真值发现等技术消解知识图谱融合过程中的冲突,再对知识进行关联与合并,对匹配结果进行抽取及评估,最终形成一个一致的结果

🍀知识融合的方法

接下来简单介绍一下本体对齐方法和实体对齐方法


🍀本体对齐方法

a. 基于规则的方法:

手工制定规则: 通过人工定义一些规则来指导本体对齐,例如同一属性、同义词等。
语言技术: 使用自然语言处理(NLP)技术,如词嵌入,来理解和比较本体中的文本描述。

b. 基于相似性的方法:

相似性度量: 利用相似性度量方法,如编辑距离、余弦相似度等,比较本体中概念和属性之间的相似性。
结构相似性: 比较本体的结构,如子类关系、属性等,来确定相似性。

c. 基于机器学习的方法:

监督学习: 使用已标注的本体对齐样本进行训练,以学习对齐模型。
半监督学习: 利用部分标注数据进行训练,减轻标注成本。

d. 基于语义推理的方法:

本体推理: 利用本体中定义的语义关系进行推理,从而找到潜在的对齐关系。
推理引擎: 使用专门的推理引擎执行推理操作。

🍀实体对齐方法

a. 基于相似性的方法:

字符串匹配: 使用字符串相似性度量(如编辑距离、Jaccard相似度)来比较实体名称的相似性。
语义相似性: 使用语义相似性度量,如词向量,来捕捉实体之间的语义关系。

b. 基于图匹配的方法:

图匹配算法: 将本体表示为图,利用图匹配算法来找到实体之间的对应关系。
子图匹配: 在图中寻找相似的子图结构,以确定实体的对齐关系。

c. 基于学习的方法:

机器学习: 使用机器学习方法,如支持向量机(SVM)、深度学习等,从数据中学习实体对齐的模型。
迁移学习: 利用一个本体中的已知对齐信息来帮助在另一个本体中进行对齐。

d. 基于规则的方法:

手工规则: 制定一些启发式规则,如相同属性、相同类型等,来进行实体对齐。
本体规则: 利用本体中定义的语义规则,如同义词关系、属性关系等。

请添加图片描述

挑战与创造都是很痛苦的,但是很充实。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1301875.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据库 02-03 补充的SQL的集合运算,字符串计算,更名计算

集合运算: 01.union,并运算 union运算自动去重,是包括两个集合的全部部分。 如果不要去重,union all 02.交运算,intersect intersect运算是去重,只保留两个集合的相同部分。 intersect all 保留重复…

分割均衡字符串 - 华为OD统一考试(C卷)

OD统一考试(C卷) 分值: 100分 题解: Java / Python / C 题目描述 均衡串定义:字符串只包含两种字符,且两种字符的个数相同。 给定一个均衡字符串,请给出可分割成新的均衡子串的最大个数。 约定字符串中只…

15:00面试,15:06就出来了,问的问题太变态了。。。

刚从小厂出来,没想到在另一家公司我又寄了。 在这家公司上班,每天都要加班,但看在钱给的比较多的份上,也就不太计较了。但万万没想到5月一纸通知,所有人不准加班了,不仅加班费没有了,薪资还要降…

Spring Cloud切换内嵌Tomcat为宝兰德Application Server

目录 替换Tomcat中间件Tomcat是什么Spring Cloud剔除tomcat引入宝兰德Application Server打包运行授权 替换Tomcat中间件 Tomcat是什么 Apache Tomcat (called “Tomcat” for short) is a free and open-source implementation of the Jakarta Servlet, Jakarta Expression …

报错:AttributeError: ‘DataFrame‘ object has no attribute ‘reshape‘

这个错误通常发生在你试图在 Pandas DataFrame 上直接使用 reshape 方法时。reshape 方法通常与 NumPy 数组相关联,而不是 Pandas DataFrame。 如果你正在使用 Pandas DataFrame 并希望重新塑造它,你应该使用 Pandas 的重塑函数,如 pivot、m…

connection error;reply-code=503;unknown exchange type ‘x-delayed-message‘

错误原因 这个错误表明你的 RabbitMQ 服务器不认识交换机类型 “x-delayed-message”,这通常是因为你的 RabbitMQ 服务器没有启用 rabbitmq_delayed_message_exchange 插件,或者插件版本与你的 RabbitMQ 服务器不兼容。 解决方法 启用 RabbitMQ 延迟队…

Django 模型操作-分页(七)

一、连接MySql数据库 1、先安装MySQL 2、再安装MySQL驱动 使用mysqlclient pip install mysqlclient 如果上面的命令安装失败, 则尝试使用国内豆瓣源安装: pip install -i https://pypi.douban.com/simple mysqlclient 二、在settings.py中配置 三、 book表的数据…

MyBatis `saveBatch` 性能调优详解

文章目录 1. 引言2. MyBatis saveBatch 简介3. 常见性能问题3.1 SQL 语句拼接3.2 参数传递3.3 数据库连接数 4. MyBatis saveBatch 性能调优4.1 使用批量插入语句4.1.1 代码示例 4.2 使用MyBatis的foreach标签4.2.1 代码示例 4.3 使用VALUES构造器4.3.1 代码示例 4.4 调整批量大…

机器学习算法性能评估常用指标总结

考虑一个二分问题,即将实例分成正类(positive)或负类(negative)。对一个二分问题来说,会出现四种情况。如果一个实例是正类并且也被 预测成正类,即为真正类(True positive&#xff0…

轻松通关Flink第24讲:Flink 消费 Kafka 数据业务开发

在上一课时中我们提过在实时计算的场景下,绝大多数的数据源都是消息系统,而 Kafka 从众多的消息中间件中脱颖而出,主要是因为高吞吐、低延迟的特点;同时也讲了 Flink 作为生产者像 Kafka 写入数据的方式和代码实现。这一课时我们将…

张驰咨询:掌握流程改进的关键,深入了解六西格玛绿带培训

尊敬的读者,当您寻求提升个人能力,加强企业流程管理时,六西格玛绿带培训无疑是您的不二选择。本文将带您深入了解六西格玛绿带培训的核心内容、必备工具和实际案例,以助您在职业生涯中一帆风顺。 六西格玛绿带培训主要针对中层管…

【SQL开发实战技巧】系列(四十八):Oracle12C常用新特性☞多分区操作和管理

系列文章目录 【SQL开发实战技巧】系列(一):关于SQL不得不说的那些事 【SQL开发实战技巧】系列(二):简单单表查询 【SQL开发实战技巧】系列(三):SQL排序的那些事 【SQL开发实战技巧…

风险评估是什么,为什么被称为保护网络安全的重要一环!

随着互联网的普及和信息技术的快速发展,网络已经成为人们生活和工作中不可或缺的一部分。然而,网络在为我们带来便利的同时,也存在着各种安全风险。因此,进行网络风险评估是保护网络安全的重要一环。而为什么说风险评估是保护网络…

Gti GUI添加标签

通过Git Gui打开项目,通过菜单打开分支历史,我这里是名为"develop"的分支 选中需要打标签的commit,右键-Create tag即可 但貌似无法删除标签,只能通过git bash,本地标签通过git tag -d tagname,…

《使用ThinkPHP6开发项目》 - 创建应用

《使用ThinkPHP6开发项目》 - 安装ThinkPHP框架-CSDN博客 《使用ThinkPHP6开发项目》 - 设置项目环境变量-CSDN博客 《使用ThinkPHP6开发项目》 - 项目使用多应用开发-CSDN博客 根据前面的步骤,我们现在就可以开发我们的项目开发了,根据项目开发的需要…

晶圆划片机助力LED陶瓷基板高效切割:科技提升产业新高度

博捷芯半导体划片机在LED陶瓷基板制造领域,晶圆划片机作为一种先进的切割工具,正在为提升产业效率和产品质量发挥重要作用。通过精确的切割工艺,晶圆划片机将LED陶瓷基板高效地切割成独立的芯片,为LED产业的快速发展提供了有力支持…

大数据分析与国际市场:跨境电商如何精准洞察需求

随着数字化时代的来临,大数据分析已经成为跨境电商的一项关键工具,为企业提供了更深入、更精准的市场洞察。在国际市场竞争激烈的环境中,了解和满足消费者需求是取得成功的关键。本文将探讨大数据分析在跨境电商中的作用,以及如何…

奇迹进化宝石怎么用

奇迹进化宝石的用法是: (一)先用再生宝石点在想要强化的物品上生成强化属性。 (二)点击进化石放到想要进化的具有强化属性的物品上。 进化过程存在一定概率的成功/失败,高级进化石的成功概率比低级进化石的成功概率低。 进化成功时,强化的属性会提高。…

配置本地端口镜像示例

目录 实验拓扑 组网需求 配置思路 配置步骤 1.配置观察端口 2.配置镜像端口 实验拓扑 组网需求 如实验拓扑所示 某公司行政部通过Switch与外部Internet通信,监控设备Server(Router)与Switch直连。 现在希望通过Server对行政部访…

微信小程序:模态框(弹窗)的实现

效果 wxml <!--新增&#xff08;点击按钮&#xff09;--> <image classimg src"{{add}}" bindtapadd_mode></image> <!-- 弹窗 --> <view class"modal" wx:if"{{showModal}}"><view class"modal-conten…