知识图谱-KGE-语义匹配-双线性模型（打分函数用到了双线性函数）-2014 ：MLP

news2026/2/7 14:55:50

Knowledge Vault & MLP

【paper】 Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion

【简介】 本文是谷歌的研究者发表在 KDD 2014 上的工作，提出了一套方法用于自动挖掘知识，并构建成大规模知识库 Knowledge Vault（KV）；KV 的构建包括知识提取器、基于图的先验及两者的融合。本来打开这篇文章是为了看 MLP 模型，但 MLP 只是其中的一个组合部分。

overview

本文的主要贡献如下：

KV 从 web 及自由文本中抽取事实三元组（带有噪声），并与先验知识融合，利用先验知识判断新挖掘知识的正确性；
本文构建的 KV 比其他 KB 的规模更大；
评价了不同的抽取方法和先验方法的效果。

KV 包括三部分组成成分：

Extractors. 抽取器从 web 资源中抽取三元组，并为三元组计算置信度分数。
基于图的先验。基于 KB 中已有三元组为可能的候选三元组计算先验概率。
知识融合。基于不同的抽取器和先验边计算三元组为真的概率。

本文的框架遵循局部封闭世界假说（Local closed world assumption, LCWA）。封闭世界假说是指不存在于 KB 中的事实都被判定为 false。但由于 KB 本身就是不完整的，因此这种假说不合理。因此本文提出一种启发式假说，定义了 O(s,p)O(s,p)，对于给定的候选三元组，按照如下规则打标签：

从 web 中抽取事实

对不同的 web 资源提出了不同的处理方法：

对于自由文本 text documents，首先用 NLP 工具进行命名实体识别、词性标注、共指消解等处理，然后使用远程监督训练关系抽取器，并用 bootstrapping 方式挖掘更多实体对。
对于 HTML trees（DOM），和自由文本的处理方法一样，唯一不同的是从 DOM 树中连接两个实体获取特征而不是从自由文本。
对于 HTML tables，首先进行命名实体链接，然后识别表的每列表示的关系。
人工标注页面（ANO）。只有14个不同属性的子集，三元组的打分由实体链接系统给出。

抽取器融合： 对上面介绍的4种抽取器进行整合，对每个抽取出的三元组分配一个特征向量，并用二分类器计算该特征向量代表的三元组的得分：

分类器为每个抽取器分配一个权重，且每种属性适配一个单独的分类器，最后进行整合。

基于图的先验

介绍了两种对三元组进行打分的先验模型：PRA 和 MLP

Path ranking algorithm（PRA）

PRA 学到的路径可以被视为规则，根据规则做推断，进行链接预测。

Neural network model（MLP）

将 KB 表示为 3d 矩阵 G，若从 s 到 o 的链接 p 存在，则 G(s,p,o)=1G(s,p,o)=1，否则 G(s,p,o)=0G(s,p,o)=0。

三元组成立的概率通过元素点积计算：

其中，激活函数 σσ 为 sigmoid 或 logistic 函数：

K 约为 60，为隐藏层维度。

还有一种是 NTN 的形式：

本文使用的 MLP 形式为：

实验发现，两种用于计算先验概率的图模型的效果相差无几，MLP 的 AUC 是 0.882，PRA 的 AUC 是 0.884。

和抽取器融合类似，也对图模型 priors 进行了融合。

融合抽取器和 prior

对抽取器和 prior 进行融合，对三元组打分的结果：

与单使用抽取器相比，融合 priors 和抽取器增加了高置信度事实的数量。

【总结】 本文提出了 Web 规模的概率知识库 Knowledge Vault 的构建过程，将多个抽取器与先验知识打分模型结合，自动化构建知识库。

双线性模型（三）（MLP、TATEC） - 胡萝不青菜 - 博客园

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/71283.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【Linux】期末复习

【Linux】期末复习

文章目录1. 认识Linux系统2. Shell命令3. VI编辑器的使用4. Shell脚本编程5. 实验部分1. 认识Linux系统 Linux特点完全免费开发性多用户、多任务丰富的网络功能可靠安全、性能稳定支持多种平台 2.Linux系统的组成内核Shell应用程序文件系统 3.Linux版本 Linux版本由形如x1.x2…

阅读更多...

（00）TCL脚本运行环境介绍

（00）TCL脚本运行环境介绍

（00）TCL脚本运行环境介绍 01-TCL简介 02-TCL编辑器 03-TCL运行环境 04-TCL文件 05-结语（01）TCL简介 Tcl 语言的全称 Tool Command Language，即工具命令语言。这种需要在 EDA 工具中使用的相当之多，或者说几乎每个 EDA 工具都支持 Tcl 语言。所以对于 IC 专业的…

阅读更多...

Android Gradle 学习笔记（三）语言和命令

Android Gradle 学习笔记（三）语言和命令

Gradle 支持使用 Groovy DSL 或 Kotlin DSL 来编写脚本。所以在学习具体怎么写脚本时，我们肯定会考虑到底是使用 Kotlin 来写还是 Groovy 来写。不一定说你是 Kotlin Android 开发者就一定要用 Kotlin 来写 Gradle，我们得判断哪种写法更适合项目、更适…

阅读更多...

Kubernetes那点事儿——日志管理

Kubernetes那点事儿——日志管理

K8s日志管理前言一、日志二、K8s应用日志标准输出应用日志收集1、emptyDir挂载收集2、边车容器收集前言程序运行中输出的日志默认暂存在Pod中，当Pod销毁重建时，日志也会丢失。所以需要一些持久化的方法保存程序日志。一、日志 K8s系统日志 kubelet组件…

阅读更多...

如何使用 rust 写内核模块

如何使用 rust 写内核模块

近年来，Rust 语言以内存安全、高可靠性、零抽象等能力获得大量开发者关注，而这些特性恰好是内核编程中所需要的，所以我们看下如何用rust来写Linux内核模块。01Rust 与内核模块Aliware虽然 Rust 支持已经在 LinuxKernel6.1 版本合并到主线了&a…

阅读更多...

酷开科技不断革新，引领营销新动向

酷开科技不断革新，引领营销新动向

不管渠道如何变迁，不管场景如何碎片化、多样化，只要家庭文明不解体，只要我们的审美不发生颠覆性变迁，家庭大屏就会是主要营销战场。随着行业软硬件技术的更迭，智能化OTT终将打通互联网消费场景，带动智能电…

阅读更多...

Linux 文件与目录

Linux 文件与目录

我们知道Linux的目录结构为树状结构，最顶级的目录为根目录 /。其他目录通过挂载可以将它们添加到树中，通过解除挂载可以移除它们。在开始本教程前我们需要先知道什么是绝对路径与相对路径。绝对路径： 路径的写法，由根目录 /…

阅读更多...

186：vue+openlayers 小汽车移动轨迹动画，带开始、暂停、结束控制键

186：vue+openlayers 小汽车移动轨迹动画，带开始、暂停、结束控制键

第186个点击查看专栏目录本示例的目的是介绍演示如何在vue+openlayers中实现轨迹动画，这里设置了小汽车开始，暂停，结束等的控制键，采用了线段步长位置获取坐标来定位点的方式来显示小车的动态。直接复制下面的 vue+openlayers源代码，操作2分钟即可运行实现效果；注意…

阅读更多...

全国计算机等级考试-Python

全国计算机等级考试-Python

计算机二级python 一、题型及分值分布1. 单选题共40道，1到10题为公共基础知识，11到40题是python相关的知识，比如数据结构与算法、python基础知识。每道题1分，共40分；2. 基础编程题共3道，题目会…

阅读更多...

DocArray 和 Redis 联手，让推荐系统飞起来

DocArray 和 Redis 联手，让推荐系统飞起来

在DocArray中使用Redis后端，基于向量相似性搜索可以快速搭建一个实时商品推荐系统。现在，跟上我们的脚步，一起了解搭建系统的关键步骤，并且深入了解推荐的原理吧！推荐系统会根据用户画像、历史行为（如购买、…

阅读更多...

人工智能和数据分析成为 2023 年最大的计划投资

人工智能和数据分析成为 2023 年最大的计划投资

©网络研究院到 2023 年，新兴技术系统将继续投资和发展，人工智能将引领私营公司计划利用的技术。 IT 分析公司 Info-Tech Research Group 对 2023 年的新行业预测进行了详细说明，预计私营部门公司将继续在其日常业务运营中采用更先进…

阅读更多...

科普篇｜法治宣传线上答题活动小程序界面功能全介绍

科普篇｜法治宣传线上答题活动小程序界面功能全介绍

科普篇|法治宣传线上答题活动小程序界面功能全介绍为深入学习贯彻二十大精神，努力使尊法学法守法用法在全社会蔚然成风，切实推动全民法治宣传教育深入开展，xx举办全民法治宣传线上答题活动。第一、主界面展示 ①标题、主题、单位名称落款…

阅读更多...

数据结构与算法之《二叉树》详解

数据结构与算法之《二叉树》详解

标题：二叉树的思路及代码实现作者：Ggggggtm 寄语：与其忙着诉苦，不如低头赶路，奋路前行，终将遇到一番好风景文章目录一、树的概念及结构二、二叉树的概念及结构 2、1 二叉树的概念 2、2 二叉树的特点 2、…

阅读更多...

机器学习之单变量线性回归

机器学习之单变量线性回归

1、线性回归基础概念： 回归模型：regression model数据集：包含feature（输入变量）和与之对应的target（输出变量）训练集：training set输入数据：x（feature or in…

阅读更多...

玩转redis（二）——redis持久化

玩转redis（二）——redis持久化

文章目录前言一、RDB1.save 和 bgsave对比2.RDB的优点和缺点2.1 优点2.2 缺点二、AOF1.AOF重写2.AOF的优点和缺点2.1 优点2.2 缺点3 RDB和AOF对比三、AOFRDB混合持久化1 原理2 如图Redis数据备份策略（其实就是去备份我们的rdb/aof两个文件）：四…

阅读更多...

LeetCode刷题复盘笔记—一文搞懂完全背包之139. 单词拆分问题（动态规划系列第十六篇）

LeetCode刷题复盘笔记—一文搞懂完全背包之139. 单词拆分问题（动态规划系列第十六篇）

今日主要总结一下动态规划完全背包的一道题目，139. 单词拆分题目：139. 单词拆分 Leetcode题目地址题目描述： 给你一个字符串 s 和一个字符串列表 wordDict 作为字典。请你判断是否可以利用字典中出现的单词拼接出 s 。注意：…

阅读更多...

（附源码）SSM失物招领平台毕业设计 271621

（附源码）SSM失物招领平台毕业设计 271621

SSM失物招领平台的设计与实现摘要信息化社会内需要与之针对性的信息获取途径，但是途径的扩展基本上为人们所努力的方向，由于站在的角度存在偏差，人们经常能够获得不同类型信息，这也是技术最为难以攻克的课题。针对失物招领等问…

阅读更多...

红队隧道应用篇之MsfPortfwd端口转发(三)

红队隧道应用篇之MsfPortfwd端口转发(三)

简介 Meterpreter shell中的portfwd命令最常用作透视技术，允许直接访问攻击系统无法访问的机器, 例如不出网的内网主机, 前提是你要有一个此内网网段的能出网的主机的Meterpreter shell 命令参数 add: 增加端口转发 delete: 删除指定的端口转发 list: 查看端口转…

阅读更多...

Spring Cloud Alibaba Nacos 安装

Spring Cloud Alibaba Nacos 安装

1.Nacos 官网下载地址 Releases alibaba/nacos GitHub 2.使用 rz 命令上传到虚拟机上 3.解压 tar -zxvf nacos-server-2.1.2.tar.gz 注：解压后，可以直接启动，访问地址：http://192.168.10.121:8848/nacos/ 用户名:nacos 密码:n…

阅读更多...

JavaEE进阶：Bean 作⽤域和⽣命周期

JavaEE进阶：Bean 作⽤域和⽣命周期

文章目录一、Bean 的作用域问题1、案例2、分析二、作用域定义1、Bean 的 6 种作用域① singleton② prototype③ request④ session⑤ application⑥ websocket⑦ 单例作用域(singleton)和全局作用域(application)区别2、设置作用域3、案例修改三、Bean 原理分析1、Bean 执行流…

阅读更多...

推荐文章

最新文章