知识图谱——语义知识库的开端(1)

news2024/9/22 13:45:47

        从最初的 Google 搜索,到如今的聊天机器人、大数据风控、证券投资、智能医疗、自适应教育、推荐系统等各个领域,知识图谱的应用无处不在。知识图谱(Knowledge Graph)的概念由 Google 在 2012 年正式提出,旨在打造更智能的搜索引擎,并在 2013 年后逐渐在学术界和工业界得到了广泛的关注和应用。如今,随着智能信息服务的快速发展,知识图谱已经被广泛应用于智能搜索、智能问答、个性化推荐、情报分析以及反欺诈等诸多领域。

        通过知识图谱,可以将 Web 上的信息、数据以及它们之间的链接关系整合为有意义的知识,使得信息资源更容易被计算、理解和评估,从而形成一个 Web 语义知识库。知识图谱凭借其强大的语义处理能力和开放互联能力,为构建万维网上的知识互联提供了坚实的基础,使得 Web 3.0 提出的“知识之网”愿景成为可能。

什么是知识图谱

        知识图谱是结构化的语义知识库,是一种基于图的数据结构,用于迅速描述物理世界中的概念及其相互关系。知识图谱通过对错综复杂的文档的数据进行有效的加工、处理、整合,转化为简单、清晰的 “ 实体,关系,实体 ” 的三元组,最后聚合大量知识,从而实现知识的快速响应和推理。

        下面我们看一张简单的知识图谱:

        我们可以从图中看到,如果两个节点之间存在关系,就会被一条无向边连接在一起,那么这个节点,我们就称为实体(Entity),它们之间的这条边,我们就称为关系(Relationship)。知识图谱的基本单位,便是 “ 实体(Entity)-关系(Relationship)-实体(Entity)” 构成的三元组,这也是知识图谱的核心。其中实体指的是具有可区别性且独立存在的某种事物,而关系是连接不同的实体,指代实体之间的联系。

如何构建知识图谱

         知识图谱的构建方式主要有两种:自顶向下和自底向上。

  • 自顶向下构建:这种方法依赖于结构化的数据源,例如百科类网站。这些高质量的数据源提供了已经整理好的信息,从中可以直接提取出知识的本体和模式,并将其加入到知识库中。  例如:在构建医学知识图谱时,可以利用医学百科全书、药物数据库等已经结构化的数据源,从中获取疾病、药物、治疗方法等的信息,这些信息本身已经按照一定的模式整理好,方便直接应用于知识图谱的构建。

  • 自底向上构建:这种方法从公开采集的海量数据中提取信息,通过一定的技术手段(如自然语言处理、机器学习)识别出潜在的资源模式。然后,选择其中置信度较高的新模式,经过人工审核确认后,再将其纳入知识库。

    例如:在电商领域构建知识图谱时,可以从用户评论、产品描述等非结构化数据中提取有用的信息。比如,通过分析大量用户评论,可以识别出某产品的优点或缺点。将这些信息与已有的产品知识结合,经过人工审核后,加入到知识图谱中,以改进产品推荐系统。

        通俗而言,从下图我们可以了解到:

  • 自顶向下方法:强调了来自结构化数据源的信息,如百科全书、数据库、学术期刊等,这些信息直接被用来构建知识图谱,包含明确的类别,例如“疾病”、“药物”、“治疗方法”、“地理”、“历史事件”等。
  • 自底向上方法:展示了来自非结构化数据源的信息,如社交媒体图标、用户评论片段、新闻头条、博客文章等,这些信息通过“自然语言处理与机器学习(NLP & ML)”技术进行处理,最终形成知识图谱,包含“产品反馈”、“用户情感”、“热门话题”、“新兴趋势”等类别。

        这两种方法相辅相成,自顶向下方法保证了知识图谱的质量和可靠性,而自底向上方法则可以帮助快速扩展知识图谱的覆盖范围和丰富度。 

数据类型和存储方式

        知识图谱的原始数据类型一般来说有三类(也是互联网上的三类原始数据):

  • 结构化数据(Structed Data):如关系数据库
  • 半结构化数据(Semi-Structed Data):如XML、JSON、百科
  • 非结构化数据(UnStructed Data):如图片、音频、视频、文本

        如何存储上面这三类数据类型呢?一个是通过RDF(资源描述框架)的规范存储格式来进行存储,还有一种方法是使用图数据库来进行存储,常用的有Neo4j等。

        接下来介绍一下如何构建一个知识图谱,用到的工具是Neo4j。Neo4j作为一个图数据库,为了数据的储存、读写等操作更合理高效,在设计逻辑上和知识图谱有一些差别,所以这里先介绍一下Neo4j的一些概念。

        node:不仅仅是一个单一的实体或者属性,它包括了label和property。

        label:根据label把node划分成一个个集合,比如说"学生"可以是一个label,"国家"也可以是一个label,label具体是什么由我们来设计,我们可以通过指定label对这一批数据进行特定的操作。除此之外,一个node可以拥有多个label,为node设计什么label,主要还是要根据实际情况判断,看如何设计能方便数据的查询和修改等操作:

        relationship:连接两个node的边,而且这是有向边,relationship中包含relationship type,比如"acted_in",就是表示Tom Hanks是Forrest Gump中的一个演员:

 

        property:是一个键值对,在之前node的介绍中也提到,node由label和property构成。node和relationship都可以有property。其中,如果node没有name的话,在可视化界面是不会显示这个node的名称的。

from py2neo import Graph, Node, Relationship

# 连接Neo4j
g = Graph(
    host='127.0.0.1',
    http_port=7474,
    user='neo4j',
    password='neo4j')

# 创建节点
da_vinci = Node('person', name='DA VINCI')
mona_lisa = Node('art', name='MONA LISA')
louvre = Node('place', name='LOUVRE')

g.create(da_vinci)
g.create(mona_lisa)
g.create(louvre)

relation1 = Relationship(da_vinci, 'painted', mona_lisa)
relation2 = Relationship(mona_lisa, 'is_in', louvre)

g.create(relation1)
g.create(relation2)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2081859.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2024最新VSCode实用插件推荐,开发效率遥遥领先!超全面,快收藏~

大家好,我是石小石!作为前端开发,vscode好比我们的衣食父母,不可或缺。我相信大家都试过给编译器装一些插件,用来提升开发效率。 这篇文章,我将结合自己的工作经验,向大家推荐我工作中用到的一…

【C++第十三课-二叉树进阶】二叉搜索树

目录 二叉搜索树概念增,删,查1、删2、查3、增 拷贝构造析构函数赋值增,删,查(递归)1、增(递归)2、删3、查 k搜索模型kv搜索模型 二叉搜索树 概念 二叉搜索树又称二叉排序树&#x…

创建微服务组件

1.1 数据库表 shop_order订单表 shop_product商品表 shop_user⽤户表 1.2 服务模块 1.2.1 创建模块 创建公共⽗模块springcloud_alibaba 创建公共模块 shop_common ,⽤于存放公共的实体类和⼯具类 创建订单微服务模块 shop_order 端⼝809X 创建商品微服务模块 shop_product …

同鑫eHR人力资源管理系统 GetFlowDropDownListItems SQL注入漏洞复现

0x01 产品简介 同鑫eHR,聚焦人力资源管理痛点,首创提出人力资源管理系统一体化概念,打造应用一体化、数据一体化、流程一体化、终端一体化的人力资源管理系统一体化解决方案。为广大企业解决系统功能分散不同步、业务数据零散无价值、流程可自定义程度低、行业深度问题无法…

【ceph学习】ceph如何进行数据的读写(1)

版本 ceph版本为17. ceph如何进行读写接口的实现 Ceph的客户端通过librados的接口进行集群的访问,这里的访问包括: 1)对集群的整体访问 2)对象的访问 两类接口,这套接口(API)包括C、C和Pytho…

在读本科生可以考PMP吗?

PMP认证与学历无关,但在报考条件上需要留意以下几点: 学历要求:年满23周岁/高中毕业5年以上/ 大专毕业3年以上,只需满足其中一个条件即可; 证明要求:必须具备35学时(PDU)证明&…

值得收藏 猫咪浮毛异味难清理?三种有效的除毛工具来帮你

养猫一时爽,除毛火葬场!我接老大布偶回家以来,都没怎么掉毛,还挺开心的。然后觉得可以负担得起第二只小猫,就养多一只老二银渐层。结果没接回来多久,我的”报应“来了...遇上换毛季,两只猫像是觉…

操作系统识别——CSP-J1真题讲解

【题目】 以下哪个不是操作系统?( ) A. Linux B. Windows C. Android D. HTML 【答案】 D 【解析】 操作系统(Operating System,缩写:OS)相当于电脑的管家,管理着计算机的硬件与软件资源,以供电…

分享一个基于springboot的中小学数字化教学资源管理平台java互动式教学资源学习与交流平台(源码、调试、LW、开题、PPT)

💕💕作者:计算机源码社 💕💕个人简介:本人 八年开发经验,擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等,大家有这一块的问题可以一起交流&…

俄罗斯市场应用程序翻译的特点

向俄罗斯市场扩张为应用程序开发人员带来了一系列独特的挑战和机遇。俄罗斯人口众多,精通技术,具有巨大地增长潜力。然而,为了在这个市场上取得成功,开发人员必须确保他们的应用程序得到有效地翻译和本地化,以满足俄罗…

【IoT】将各类遥控器(红外,频射,蓝牙,wifi,Zigbee)等设备接入米家,实现家庭物联网设备控制(以极米Z7X投影仪为例)

【IoT】将各类遥控器(红外,频射,蓝牙,wifi,加密)等设备接入米家,实现家庭物联网设备控制(以极米Z7X投影仪为例) 文章目录 1、三种主流遥控方式(红外&#xff…

差旅费用报销之合规性管理

除了在差旅报销流程简化和效率提升方面表现抢眼,差旅费用报销平台分贝通在报销方案的合规性管理方面也有自己的“专长”,以确保合作企业的费用报销流程符合预算规则和法规政策,降低差旅管理成本和风险。 费用报销合规性之政策合规 首先&…

信息安全数学基础(1)整除的概念

前言 在信息安全数学基础中,整除是一个基础且重要的概念。它涉及整数之间的特定关系,对于理解数论、密码学等领域至关重要。以下是对整除概念的详细阐述: 一、定义 设a, b是任意两个整数,其中b ≠ 0。如果存在一个整数q&#xff0…

C++ | Leetcode C++题解之第375题猜数字大小II

题目&#xff1a; 题解&#xff1a; class Solution { public:int getMoneyAmount(int n) {vector<vector<int>> f(n1,vector<int>(n1));for (int i n - 1; i > 1; i--) {for (int j i 1; j < n; j) {f[i][j] j f[i][j - 1];for (int k i; k &l…

深度学习速通系列:标准化和归一化

在数据处理中&#xff0c;“标准化”&#xff08;Standardization&#xff09;和"归一化"&#xff08;Normalization&#xff09;是两种常用的数据预处理技术&#xff0c;它们用于调整数据的尺度&#xff0c;使得数据在分析或模型训练中更加公平和有效。 下面是两种…

《系统架构设计师教程(第2版)》第17章-通信系统架构设计理论与实践-01-局域网网络架构

文章目录 1. 局域网络架构概述2. 网络组成3 网络架构3.1 单核心架构3.2 双核心架构3.3 环型架构3.4 层次局域网架构 4. 网络协议的应用 通信系统网络架构 包括&#xff1a;局域网、广域网、移动通信网等 1. 局域网络架构概述 特点&#xff1a; 覆盖地理范围小数据传输速率高…

自定义校验--校验json长度

mysql8中支持json格式的字段&#xff0c;某些情况下使用很方便&#xff0c;但也带来一个问题&#xff0c;就是它的最大长度不能设置&#xff0c;最大支持4GB&#xff0c;如果有恶意程序保存一条4GB的数据进去&#xff0c;估计这张表就要卡死了,所以要加一个自定义校验&#xff…

人体行走步态周期转换为不同相位描述

目录 一、步行周期 二、相关论文描述 三、参考文献 一、步行周期 人体行走时的步态状态通常采用传感器进行判断&#xff0c;比如Dong Jin Hyun等[1]通过嵌入两个力感应电阻的鞋垫来估计的步行状态&#xff0c;其中一个检测脚趾接触&#xff0c;另一个检测脚后跟接触[5]。Con…

制造企业SRM系统中如何进行供应商的管理

一、供应商选择与评估 在SRM系统中&#xff0c;供应商的选择和评估是第一步。企业需要建立一套科学的评估体系&#xff0c;涵盖以下几个关键方面&#xff1a; 1. 质量&#xff1a;评估供应商的产品质量、质量控制体系和质量改进能力。 2. 成本&#xff1a;分析供应商的价格竞…

华为2024 届秋招招聘——硬件技术工程师-电源方向-机试题(四套)(每套四十题)

华为 2024 届秋招——硬件-电源机试题&#xff08;四套&#xff09;&#xff08;每套四十题&#xff09; 岗位——硬件技术工程师 岗位意向——电源 真题题目分享&#xff0c;完整版带答案(有答案和解析&#xff0c;答案非官方&#xff0c;未仔细校正&#xff0c;仅供参考&am…