浙大知识图谱基础:学习笔记

news2024/12/24 16:12:10

0 基础知识

  • 知识图谱中,知识的结构化表示主要有符号表示向量表示两类方法。符号表示包括:一阶谓词逻辑,语义网络,描述逻辑和框架系统等。当前主要采用基于图的符号化知识表示,最常用的是有向标记图

  • 有向标记图分为:属性图(property graph)和RDF图(Resource Description Framework,RDF)。

    • 属性图:图数据库Neo4j实现的图结构表示模型,工业界最常用的知识图谱建模方法。优点:允许为实体或边添加属性,易于存储和查询。缺点:缺乏工业标准规范的支持,不关注更深层次的语义表达、不支持符号逻辑推理。
      • 顶点(vertex)/节点(node)
      • 边(edge)/关系(relation):有向边和对应标签
      • 标签(label)
      • 属性(property):键值对
    • RDF:W3C推出的语义数据交换标准与规范,支持逻辑推理。RDF的基本组成单元是 (S,P,O)三元组,(Subject主,Predicate谓,Object宾)。
      • 在RDF的基础上还提供了RDFS(Resource Description Framework Schema)。定义了Class、subClass、Property、subProperty、domain、range、type…等概念。
  • OWL(Ontology Web Language): 在RDFS的基础上增加了更多的语义表达构建,如一对多、多对一、多对多等关系,全称量词和存在量词,互反关系、传递关系、自反关系、对称性等。

1 图数据存储

  • 知识图谱的存储分为:基于关系数据库的存储和基于原生图的存储。图数据库对于知识图谱并非必须项。
  • 考虑存储结构主要考虑:存储的物理结构、存储的性能问题、图的查询问题。

基于关系数据库的存储

  • 一般不用这种方式,除非场景非常简单。
  • 图上的查询语言:SPARQL。
  • 最简单的存储:SPO三元组
  • 属性表存储:把同一实体类型的属性组织为一张表进行存储。优点:self-join减少了。缺点:空值多,对Subject聚类比较复杂,不易处理多值属性。

  • 二元表存储:对三元组按属性分表。优点:无空值,不用聚类,对subject-subject-join性能好,缺点:insert代价高,subject-object join性能差。
  • 全索引结构存储:

基于原生图的存储

  • Neo4j 定义了图查询语言:Cypher。
  • 实现原理:免索引邻接(index-free adjacency),为每个节点维护了一组指向相邻节点的引用,这个引用可以看作相邻节点的微索引。



2 知识抽取

  • 文本知识抽取:命名实体识别、概念抽取、关系抽取、事件抽取。

命名实体识别

  • 最朴素的做法是定义规则进行正则匹配,但规则难以维护。因此一般用AI来进行序列标注。

  • 基于机器学习的方法有:HMM、CRF;目前主要研究基于深度学习的序列标注算法,如CNN/RNN/Transformer,如:BiLSTM+CRF,基于预训练模型。

  • 参考文献:《A Survey On Deep Learning for Named Entity Recognition》(TKDE2020)

关系抽取与属性补全




  • 实体-关系联合抽取


  • 多元关系

  • 半监督
  • 属性补全:

  • 参考资料:开源中文关系抽取框架 deepke

概念抽取


事件识别与抽取






知识抽取前沿问题






3 知识图谱推理



基于本体的推理




基于规则的推理







基于embedding的推理




基于规则学习的推理

本章后续略。

4 知识融合




本体匹配


  • 距离度量:编辑距离、汉明距离、字串相似度、dice距离、jaccard系数等等;

实体对齐



  • 知识融合工具:silk


技术前沿



5 基于知识图谱的智能问答系统







基于查询模板的知识图谱问答

  • TBSL














基于语义解析的知识图谱问答

  • 一步解析的困难:
  • 更合理的方式是两步解析:






  • 短语重写:

基于检索排序的知识图谱问答


  • 实体链接






基于深度学习的知识图谱问答








6 图算法与图数据分析

图神经网络与图表示学习


























图神经网络与知识图谱










7 知识图谱前沿

多模态知识图谱





知识图谱与语言预训练







事理知识图谱









知识图谱与低资源学习











Reference

  1. 浙大 知识图谱
  2. 知识图谱:知识表示

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/591619.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot统一功能处理(统一处理用户登陆权限验证、统一异常处理以及统一数据返回格式)

目录 1. SpringBoot统一功能处理简介 2. 统一处理用户登陆验证 2.1 原生SpringAOP实现统一登陆验证的问题 2.2 Spring拦截器实现用户统一登陆验证 2.3 扩展: 统一访问前缀添加 3. 统一异常处理 4. 统一数据返回格式 4.1 统一数据返回格式的必要性 4.2 实现统一数据返…

C++ vector类成员函数介绍

目录 🤔vector模板介绍: 🤔特点: 🤔vector的成员函数: 🔍vector构造函数: 🔍vector赋值函数 🔍vector容器的判断函数 resize函数的重点内容: …

chatgpt赋能python:Python中的并:优化代码执行效率的利器

Python中的并:优化代码执行效率的利器 Python作为一种优秀的编程语言,被广泛使用于各种各样的项目中。然而,随着程序的不断扩张,代码的复杂度日益增加,执行效率也愈加遇到了严峻的挑战。在这种情况下,Pyth…

Linux系统下imx6ull QT编程—— Ubuntu 下编写程序(一)

Linux QT编程 文章目录 Linux QT编程前言一、C简介二、C环境设置1.安装编译 C 语言和 C的环境。2.创建文件编写代码3.编译运行代码 总结 前言 绍在 Ubuntu 在终端窗口下使用 vi/vim 编辑一个 C源文件。通过编写最简单的示例“Hello,World QCX”。 一、C简介 C (c…

【分布式应用】ELK企业级日志分析系统

一、ELK 简介 ELK平台是一套完整的日志集中处理解决方案,将 ElasticSearch、Logstash 和 Kiabana 三个开源工具配合使用, 完成更强大的用户对日志的查询、排序、统计需求。 1.1 ELK各组件介绍 ElasticSearch: 是基于Lucene(一个…

Scala初识

1.scala简介 是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机)并兼容现有的Java程序。 scala特点 1.Scala是面向对象的 Scala是一种纯粹的面向对象语言,每一个…

Node.js 中的代码调试

目录 1、启用 Inspector 2、安全隐患 3、Inspector 客户端 4、启用远程调试的情形 5、以前的Debugger 1、启用 Inspector 当使用 --inspect 开关时,Node.js 进程开始侦听调试客户端,默认情况下侦听 127.0.0.1:9229 的域名和端口号;每个…

华为OD机试真题B卷 Java 实现【Linux 发行版的数量】,附详细解题思路

一、题目描述 Linux 操作系统有多个发行版,distrowatch.com 提供了各个发行版的资料。这些发行版互相存在关联,例如 Ubuntu 基于 Debian 只开发而 Mint 又基于 Ubuntu 开发,那么我们认为 Mint 同 Debian 也存在关联。 发行版集是一个或多个…

用Python求最大公约数和最小公倍数(51)

小朋友们好,大朋友们好! 我是猫妹,一名爱上Python编程的小学生。 和猫妹学Python,一起趣味学编程。 今日主题 什么是最大公约数? 如何用Python求最大公约数? 什么是最小公倍数? 如何用Pyt…

chatgpt赋能python:Python中的连接符:介绍与应用

Python中的连接符:介绍与应用 在Python编程中,连接符起着关键性的作用,它是连接不同代码部分的纽带。本篇文章将重点介绍几种常用的Python连接符。 一、加号连接符() 加号连接符最常见,用于连接不同的字…

一文读懂TSC时钟: (x86_64/arm64)实现介绍和编程使用

Linux(16)之Time Stamp Counter Author:Once Day Date:2023年5月30日 参考文档: 4. Environment Abstraction Layer — Data Plane Development Kit 23.03.0 documentation (dpdk.org)DPDK: lib/eal/include/generic/rte_cycles.h File Reference测量…

交换机安全功能介绍

今天海翎光电的小编来给大家聊聊以太网交换机安全功能。 交换机作为局域网中最常见的设备,在安全上面临着重大威胁,这些威胁有的是针对交换机管理上的漏洞,攻击者试图控制交换机。有的针对的是交换机的功能,攻击者试图扰乱交换机的…

新手快速学会使用DDL对数据库和表的操作

前言 SQL是一种操作关系型数据库的结构化查询语言。今天这篇文章将详细讲述数据定义语言DDL对数据库和表的相关操作。 文章目录 前言1. DDL-操作数据库1.1 查询1.2 创建数据库1.3 删除数据库1.4 使用数据库2.1 数据类型2.2 查询表2.3 创建表2.4 删除表2.5 修改表 3. 实战案例详…

统计学的假设检验/置信区间计算

假设检验的核心其实就是反证法。反证法是数学中的一个概念,就是你要证明一个结论是正确的,那么先假设这个结论是错误的,然后以这个结论是错误的为前提条件进行推理,推理出来的结果与假设条件矛盾,这个时候就说明这个假…

Navicat 15获取用户的密码

我使用Navicat连接好了mysql但是密码忘记了;可以通过如下操作找回密码 我使用的Navicat版本是 15.0.27 1、选择文件 --> 导出连接 2、选择你要知道密码的连接  勾选导出密码(默认位置是桌面) 3、 在Password 这栏找到加密后的密码 …

基于Android应用开发实现UWB(超宽带)通信

什么是超宽带UWB 超宽带通信是一种无线电技术,专注于设备之间的精确测距(测量位置的精度为 10 厘米)。这种无线电技术可以使用低能量密度进行短距离测量,并在大部分无线电频谱上执行高带宽信号传输。UWB 的带宽大于 500 MHz(或超过 20% 的小数带宽)。 从 Android 13 开…

[GXYCTF2019]Ping Ping Ping解题过程

1、来看看靶场 发现就只有这个提示,尝试一下在url输入框进行测试 页面返回ping的结果,然后我之前也做过另外一道类似的题 链接:[ACTF2020 新生赛]Exec1命令注入_[actf2020 新生赛]exec 1_旺仔Sec的博客-CSDN博客 尝试用管道符 果然是可以的…

chatgpt赋能python:Python中语句太长之续行符的使用

Python中语句太长之续行符的使用 如果你是一位有10年Python编程经验的工程师,那么你一定会遭遇语句太长的问题。这是导致程序出错的常见问题。在很多情况下,一条语句的长度会超过Python规定的最大长度,这时候我们就需要使用续行符进行换行了…

C语言——数据在内存中的存储(上)

数据在内存中的存储 1. 数据类型的介绍 之前已经介绍过C语言中的基本数据类型了,主要有: char //字符数据类型short //短整型int //整形long //长整型long long //更长的整形float //单精度浮点数double //双精度浮点数 注意:C语言中是是没…

JVM学习笔记(中)

1、垃圾回收算法 标记清除法 特点: 速度较快会产生内存碎片 注意:这里的清除并不是真正意义上的清除,即每个字节都清0,而是记录一下被清除的对象的起始和结束的地址,当下一次分配给一个新对象时,新对象…