全网最全知识图谱讲解!

news2024/11/28 6:49:50

什么是知识图谱

知识图谱标准化白皮书定义:知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。

简单讲,知识图谱由节点(point)和边(edge)组成,每个节点表示一个实体,实体可以指客观世界中的人、事、物,每条边表示一种关系,关系可以表达不同实体间的联系。本质上,知识图谱可以理解为以图结构存储的语义网络。

在这里插入图片描述

知识图谱诞生背景

知识图谱源于20世纪50年代,发展至今可大致分为三个阶段。第一阶段(1950年-1977年)是知识图谱的启蒙期,这一时期文献索引的符号逻辑被提出,并逐渐成为研究当代科学发展脉络的常用方法。第二阶段(1977年-2012年)是知识图谱的成长期,这一阶段语义网络得到快速发展,知识本体的研究成为计算机科学的重要领域,在其期间出现了例如WordNet、Cyc、Hownet等大规模的人工知识库,使得知识更易于在计算机之间和计算机与人之间进行交换流通。第三阶段(2012年-至今)是知识图谱的繁荣期,2012年Google公司率先提出知识图谱(Knowledge Graph,KG)概念,谷歌公司通过知识图谱技术,改善了搜索引擎性能,增强了用户搜索体验,同时也拉开了现代知识图谱的篇章。

当前,随着大数据时代的到来,数据量呈现井喷式增长,知识图谱也从学术圈朝着适合现代化企业的广义大规模知识图谱转变。在人工智能技术的蓬勃发展下,底层图数据库存储、算力规模化部署等知识图谱关键技术难点得到一定程度解决。在搜索引擎领域之外,知识图谱技术已成为电商、医疗、金融、能源等领域的热点技术,解决行业生产环节中的核心痛点。

知识图谱的表达方式

上文有说,知识图谱本质是是一种语义网络,其节点代表实体,边代表实体间的语义关系,基本的逻辑结构分为模式层和数据层。模式层在数据层之上,为知识图谱的核心,存储的是经过提炼的知识类数据模型,包括实体、关系、属性等层次结构。数据层主要由事实数据信息组成,即现实世界的真实信息,通常以“实体-关系-实体”或“实体-属性-属性值”三元组作为基本表达方式。

目前表示知识图谱的两种主要图数据模型是RDF图和属性图,下文将讲解两种模型的表达方式、区别和局限性。

RDF全称为Resource Description Framework,即资源描述框架,它最初是在语义网背景下设计出来,以主谓宾三元组形式描述资源的一种数据模型,下图为RDF图示例。用RDF图模型表示知识图谱时,需要先构建数据字典,定义数据建模的元数据项{元数据项主要包括两种类型:class和property,class指对象实例的集合,property分为两种子类型:一个是表示 class 的属性 (attribute),另一个是表示多个 class 之间的关系 (relationship)}。例如,用RDF描述一本书,RDF数据字典就需要定义一本书要包含的作者、书名、页数、出版时间、语言类型等,定义完成后,再把具体的书本数据映射进去。所以RDF数据字典的定义本身就是一个RDF Graph Schema,有了完整的Schema后,方便用户将现实世界的知识映射进图内。
在这里插入图片描述

属性图,由顶点表示实体,边表示实体间的关系,属性作为一个键值对,顶点和边都支持属性,下图为属性图示例,表达内容与上文RDF图一致,人物“吴京”和电影“长津湖”作为顶点,出演电影作为边,人物顶点上具有属性“性别”、“年龄”信息,电影顶点上具有属性“上映时间”、“票房”信息。用属性图模型表示知识图谱时,需要先构建图模型,定义好图模型的点边结构和属性信息,再将数据映射进去。当业务人员面对需求变更需要调整图模型时,仅对点边和属性进行调整即可,无需重写图模型结构。

在这里插入图片描述
在学术领域,存储的往往是结构固定的静态化数据,并提供标准化的接口,RDF Schema可以复用,实现数据的开放共享,避免人员重复劳动。但在其它行业领域,RDF图具有局限性,由于没有可复用的数据字典,开发一个全新的RDF数据集代价非常高,并且RDF的顶点上不存在标签或类型的概念,属性是通过另一个主谓宾来完成的,当业务需要增加属性时,RDF图需要修改点边结构来增加属性,图模型会发生改变,容易导致以前的查询语句不可用,对业务入侵性强,而在属性图上,可以直接在图模型上进行修改,不影响业务正常使用。举例说明,需要在出演电影的边上增加“角色”属性,在属性图上,直接在边上添加属性即可,如下图所示。
在这里插入图片描述
而RDF图由于边上不支持设置属性,相同类型的边都是相同的,边会被重复的使用。如果简单的在“出演电影”边上增加“吴京”和“长津湖”之间的角色关系,会在所有“出演电影”这一谓词上添加相同的属性。在RDF中,常规的方法是通过新建一个顶点”ex:xxx”来表示语句,如下图所示。

在这里插入图片描述
可以看到,RDF图在新增属性时,会改变原有图模型结构,原本一跳就能完成的查询,需要2跳以上才能完成。考虑到现阶段行业知识图谱朝着数据规模大、实时变动多、业务模型复杂的方向发展,以RDF图模型架构的知识图谱面临发展瓶颈,且部署完成后的运维成本高昂,而以属性图模型表达的知识图谱逐渐获得客户认可。

知识图谱的广泛应用

上文提到,Google公司利用知识图谱技术,优化了搜索引擎性能,大幅度提高用户搜索准确度。此外,大规模知识图谱技术早已在各行业实现广泛应用。

金融领域,知识图谱提供金融知识的提取、融合、分析、推断、决策等功能,打通金融领域内孤立的多源数据,通过数据抽取、信息提取、语义消歧、知识融合、知识加工等技术,构建金融知识图谱,实现智慧金融中的信用卡反欺诈、风险预测、智能营销等应用。例如,知识图谱根据手机号码、联系号码、IP地址、设备、申请件等主要欺诈要素构建信用卡反欺诈关系图谱,欺诈团伙考虑到犯罪成本,可能会共用IP、手机号码、设备等信息,根据这些既定规则对欺诈行为进行判定,挖掘出潜在欺诈用户,从而做到提前预警。

工业领域,随着大数据时代的到来,越来越多的传统工业领域迎来数字化转型。知识图谱通过深度分析生产过程中的关联参数,计算出与产品良品率强相关的决定因子,并根据影响因子搭建出结果的曲线模型,将最优解应用到最终的落地生产中。除此之外,知识图谱在工业领域还具备优化供应链、提高生产工艺、降低设备故障率等应用场景。

能源领域,现代电网是以物理电网为基础,结合先进的传感器技术、信息技术、数据分析技术、计算机控制技术等形成的智慧电网。它应当以满足区域性用电需求、优化电力配置、保证电力供应灵活稳定性为目的,确保用户用电安全、可靠、经济。知识图谱应用其中,通过整合调度范围内变电站间输送电关系、变电站内设备接线关系、发电厂内设备接线关系等信息,结合电网实时运行状态构建电网数字孪生图谱,在全局视角下实现最优应急复电策略、跨业务数据贯通、设备缺陷预警、影响范围分析等功能。

社交领域,社交网络自从在互联网上出现,即成为发展最快的互联网应用。相信我们平时接受过不少舆论信息,可能也当过一把网络键盘侠,社交环境下用户不仅是信息的接收方,同时也是信息的生产者、加工者、传播者,社交用户通过互相关注的方式形成庞大的用户关系网,例如Twitter-2010。知识图谱利用社交网络内的海量信息构建关联关系图谱,实现社交信息分析、兴趣用户推荐、网络舆论预警等功能。例如,知识图谱可根据用户的搜索习惯、消费习惯、娱乐习惯等构建出兴趣图谱,精确细分由特定爱好的人或组织,从而为用户推荐感兴趣的人、事、物。在短视频软件、流媒体中,我们总是会不断刷到自己感兴趣的视频,而低相关度的内容出现次数极低,这就是知识图谱在根据你的喜好做推荐,从而增加用户粘性。

零售领域,不同于以往的卖家市场,如今的电商模式是买家市场,电商平台如何从海量的商品中挑选出用户感兴趣的几十件商品,满足用户个性化的购物需求,成为零售领域商品推荐的难题。电商知识图谱从用户需求出发,整合用户的浏览习惯、购买历史、社交行为等数据,分析出各品类商品的潜在用户群体,实现智能推荐和精准营销,为买家提供良好购物体验的同时,也使商家利益最大化。

以上是知识图谱的广泛应用场景简介,创邻科技官网提供了信用卡申请反欺诈、电网智能调度等图谱的demo演示,感兴趣的读者可以登录官网自行探索。当然知识图谱在医疗、政务、教育、公安等领域也有广泛应用,后续将根据具体的落地场景,从实体建模、数据映射、可视化展示、业务分析等角度,详细讲解知识图谱的应用案例。

知识图谱行业现状

伴随着数字经济的持续发展和深度学习技术、NLP技术的成熟,知识图谱产业化已成为当前市场布局的重点。据艾瑞咨询发布的《2022年中国知识图谱行业研究报告》,2021年,知识图谱核心市场规模预计达到107亿元,而到2026年,相应规模将超过296亿元,2021-2026年复合年均增长率达到22.5%,金融和公安两大知识图谱强相关行业是市场规模的主要拉力,行业规模呈现高速发展态势。未来,随着数字政务的深入推进与产业成熟,政务知识图谱也将成为市场的重要拉力之一。

结合当前研报内容,知识图谱建设主要的难点在于数据治理、行业专家储备、底层图数据库存储、算法生产流程和性能待提升、客户认知待培养以及产品封装待优化。攻克上述知识图谱建设难点,有利于从源头保证数据的真实可靠性,同时也能为行业培养复合型人才,底层图数据库存储方式的升级、算法性能的提升、产品易用性的优化也有助于知识图谱行业的壮大。

提及底层图数据库存储方式的升级,目前图技术发展已进入Graph3.0时期,这一时期的原生图数据库呈现运算快、高扩展、智能化的特点。由于图数据库采用原生图存储的方式,数据直接以图结构在底层存储,并针对图结构数据在算法层做查询优化,可以实现低数据膨胀及高算法性能。当前国内Graph3.0代表的图数据库产品有Galaxybase,采用原生图存储的架构,一定程度上解决了知识图谱建设过程中底层图数据库存储的难题。

知识图谱发展趋势

未来是认知智能到来的时代,感知智能犹如四肢,认知智能犹如大脑,大脑能够对信息进行知识抽取和业务场景推理分析,提高AI的理解分析能力。知识图谱在其中,将起到关键的破局作用,为认知智能洞察隐性关系与逻辑,赋能业务决策。同时,知识图谱作为认知智能时代的底层技术,也将迎来高速发展。

我们相信,随着数据量的指数级增长,变化稍纵即逝,未来的知识图谱不仅要大,还要快,为企业抓住机遇,创造价值。图数据库作为知识图谱的底层支柱,应持续优化存储与运算性能,为即将到来的需求做好准备。

当然,没有一项技术是完美的,技术融合也是未来行业发展的趋势。各项技术的取长补短,也将更好的服务于知识图谱应用,让其在打磨中不断进步,复制成功经验从而诞生更多解决方案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1028551.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Jmeter怎么实现接口关联?

用于接口测试时,后一个接口经常需要用到前一次接口返回的结果,应该如何获取前一次请求的结果值,应用于后一个接口呢,拿一个登录的例子来说明如何获取。 1、打开jmeter,新建一个测试计划,在测试计划里新建一…

分享基于SringBoot足球训练俱乐部系统Python训练打卡系统(源码+调试+lw)

💕💕作者:计算机源码社 💕💕个人简介:本人七年开发经验,擅长Java、Python、PHP、.NET、微信小程序、爬虫、大数据等,大家有这一块的问题可以一起交流! 💕&…

SMS--短信服务

1 短信服务介绍 短信服务(Short Message Service)是阿里云为用户提供的一种通信服务的能力。 2 短信服务使用 接下来,我们使用短信验证码功能来演示短信服务的使用。流程如下: 2.1 准备工作 2.1.1 实名认证 https://help.aliyun.com/document_detail…

智能箱式浪涌保护器综合行业解决方案

智能箱式浪涌保护器是一种集成了多种功能的浪涌保护装置,它可以对电力系统、通信系统、计算机系统、工业控制系统等设备提供有效的防雷和过电压保护。本文将详细介绍智能箱式浪涌保护器的作用和原理,以及在不同行业中的应用方案,并参考相关的…

【Hash表】两数之和-力扣 1 题

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kuan 的首页,持续学…

【国产32位mcu】电动车控制芯片CS32F031C8T6的应用

近年来,随着“新国标”的落地,双轮电动车在智能化、强性能、安全性等方面不断演进,带动了新一轮的换车高峰。电动车控制器作为双轮电动车的核心部件,迎来新的增长。 芯海科技32位MCU CS32F031C8T6,作为电动车控制器的…

多因素身份验证MFA功能

随着信息技术的不断进步,网络威胁也随之不断升级和演化。为了保护敏感数据和网络资源,企业和组织需要采取更多的安全措施强化信息安全。多因素身份验证(MFA)已经成为了现代安全战略的核心组成部分之一。 在这篇文章中&#xff0…

软件工程第一次作业参考答案

题目 名词解释:软件危机、软件、软件工程、软件生命周期、瀑布模型、原型模型、增量模型、喷泉模型、敏捷过程模型。 答案 软件危机:软件危机是指在软件开发过程中所面临的一系列问题和挑战,包括成本超支、进度延误、质量不达标等。 软件…

机器学习之感知机原理及Python实现

机器学习算法感知机(perceptron)。感知机是一种较为简单的二分类模型,但由简至繁,感知机却是神经网络和支持向量机的基础。感知机旨在学习能够将输入数据划分为1/-1的线性分离超平面,所以说整体而言感知机是一种线性模型。因为是线性模型&…

全志H3 Linux编译尝试

全志H3 Linux编译尝试 主要参考:https://blog.csdn.net/qq_40731414/article/details/118684473部分内容介绍来自GPT,但是代码部分都会进行测试 一、简介 Linux编译的作用: 生成可执行的内核映像:编译Linux内核的主要目的是从源代…

使用GPT训练中秋古诗写作讲解

🏆作者简介,黑夜开发者,CSDN领军人物,全栈领域优质创作者✌,CSDN博客专家,阿里云社区专家博主,2023年6月CSDN上海赛道top4。 🏆数年电商行业从业经验,历任核心研发工程师…

Linux CentOS7 lrzsz工具

一、简介 对经常使用linux系统IT人来说,linux系统的文件上传下载是很频繁的,linux默认支持sftp上传下载,CRT等工具集成了SecureFX,Xftp与xshell都可以实现文件的上传下载。今天要介绍的lrzsz是一款在linux里可代替ftp上传和下载的…

开发需知的文件加密与解密

背景 最近团队遇到一个小需求,存在两个系统 A、B,系统 A 支持用户在线制作皮肤包,制作后的皮肤包用户可以下载后,导入到另外的系统 B 上。皮肤包本身的其实就是一个 zip 压缩包,系统 B 接收到压缩包后,解压…

【xshell7】设置语法高亮(突出显示集)方式

设置高亮方式 增加文件路径 将下面内容起名 以.hls结尾,放入截图位置,然后按照步骤一选择即可 [Keyword_0] TermBackColor1 Underline1 Bold0 Strikeout0 Keyword[_a-z0-9-](.[_a-z0-9-])*[a-z0-9-](.[a-z0-9-])* DescriptionEmail address BackColorIn…

本地docker注册证书docker login连接到harbor仓库、利用shell脚本批量将镜像pull、tag、push到私有harbor仓库

1. 本地docker注册证书docker login连接到harbor仓库: 我们使用docker login/push/pull去与Harbor打交道,上传下载镜像等。 但是可能会出现x509: certificate signed by unknown authority之类的错误。 [roottest01 harbor.dev]# docker login harbor.d…

linux和windows选哪个?

linux和windows选哪个? 每年在大学中都会有这么一批学生: 沉浸在安装Linux系统,安装双系统,使用Linux系统看看电影,搞一搞炫酷的桌面效果。 最后收获了啥? 怕是啥也没有,命令学会了几个&…

免费的AI写作软件-智能AI写作工具

我们要谈的话题是AI写作,尤其是免费AI写作,以及147SEOAI写作免费工具。您是否曾经为了创作文章而感到煞费苦心?是否一直在寻找一种能够轻松生成高质量文章的方法? 147GPT批量文章生成工具​www.147seo.com/post/2801.html​编辑ht…

C++运算符优先级一览表

VC常用功能开发汇总(专栏文章列表,欢迎订阅,持续更新...)https://blog.csdn.net/chenlycly/article/details/124272585C软件异常排查从入门到精通系列教程(专栏文章列表,欢迎订阅,持续更新...&a…

CDH集群初始化oozie失败表结构不存在

文章目录 1. 背景2. 初始化数据库2.1 生成表结构2.2 初始化数据库 3. CDH管理页面始化 oozie 服务 1. 背景 安装CDH 6.3.2 版本时初始化集群服务过程中出现oozie server启动失败的情况,第一次创建集群成功,第二次失败了,分析日志信息 SERVER…

基于51单片机多路DTH11温湿度检测控制系统

一、系统方案 1、本设计采用51单片机作为主控器。 2、DHT11采集温度度,支持3路温度度,液晶1602显示。 3、按键设置报警阀值。 4、系统声光报警。 二、硬件设计 原理图如下: 三、单片机软件设计 1、首先是系统初始化 //初始化LCD*********…