三、NLP中的句子关系判断

news2024/11/19 13:15:50

句子关系判断是指判断句子是否相似,是否包含,是否是问答关系等,常应用在文本去重、检索(用户输入和文档的相关性)、推荐(和用户喜好文章是否相似)等场景中。

3.0、文本相似度计算

3.0.0 传统机器学习判断句子相似度

首先,将句子对转换成向量,参考第零章节给出的方法。

其次,计算句子间的距离,计算距离的常用方式:

(1)欧式距离:

(2)曼哈顿距离:

(3)切比雪夫距离

(4)余弦相似度

(5)Jaccard系数(词袋模型适用)

(6)皮尔逊相关系数

以下是计算示例

两个向量:X = [80, 85, 90, 75, 95]
Y = [70, 75, 85, 60, 90]
平均分:
meanX = (80 + 85 + 90 + 75 + 95) / 5 = 85
meanY = (70 + 75 + 85 + 60 + 90) / 5 = 76
协方差:
Cov(X, Y) = [(80-85)*(70-76) + (85-85)*(75-76) + (90-85)*(85-76) + (75-85)*(60-76) + (95-85)*(90-76)] / 5
= (-5 * -6 + 0 * -1 + 5 * 9 + -10 * -16 + 10 * 14) / 5 = 75
标准差:
σX = √[((80-85)^2 + (85-85)^2 + (90-85)^2 + (75-85)^2 + (95-85)^2) / 5]
= √[(25 + 0 + 25 + 100 + 100) / 5]
= √[50] ≈ 7.07
σY = √[((70-76)^2 + (75-76)^2 + (85-76)^2 + (60-76)^2 + (90-76)^2) / 5]
= √[(36 + 1 + 81 + 256 + 196) / 5]
= √[114] ≈ 10.68
皮尔逊相关系数:
r = Cov(X, Y) / (σX * σY) = 75 / (7.07 * 10.68) ≈ 1.06

(7)汉(海)明距离(需要基于one-hot编码)

就是对两个向量中每一位进行异或(xor)运算,并计算出异或运算结果中1的个数。例如[1,1,0]和[0,1,1]这两个向量,对它们进行异或运算,其结果是110⊕011=101,海明距离即为2

(8)编辑距离

Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑(加词、减词、移词)操作次数,如果它们的距离越大,说明它们越是不同。RD最常见的算法题之一。

(9)SimHash

一种搜索常用的相似度算法【深度好文】simhash文本去重流程

3.0.1 深度模型判断句子相似度

总的可以分为单塔和双塔模型。

单塔模型:先将输入文本合并,然后输入到单一的神经网络模型。在单塔模型下,我们需要把两句文本通过[SEP]进行拼接,将拼接好的数据喂给模型,通过output中的[CLS] token做一个二分类任务。准确率高,计算慢。因为有多少对相似的句子,就需要拼接多少次。

双塔模型:对输入文本分别进行编码成固定长度的向量,通过文本的表示向量进行交互计算(计算方式可参考少一节(1)中的内容)得到文本之间的关系,也可训练自己的分类器,如LR/GBDT/SVM等等进行进一步的分类。图中的brt可以换成ernie等其他模型,计算的快,工业界常用的方式,但准确率不如单塔。

其余方法,可参考:21个经典深度学习句间关系模型

3.1 语义关系推理

任务描述:从前提句中推理得到假设句子,通常推理包括蕴含、中立和矛盾。

常用方法:单塔和双塔模型,和相似度判断类似,可参考3.0的内容,只需将相似的二分类判断改为三分类即可。

3.2 问答对判断等

方法与句子关系判断类似。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1514522.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

白嫖AWS云服务器,验证、注册指南

背景 不知道你想不想拥有一台属于自己的云服务器呢,拥有一台自己的云服务器可以建站,可以在上面搭建个人博客,今天我就来教大家如何申请亚马逊 AWS 免费云服务器,这个云服务器可以长达12个月的免费。而且到期后可以继续换个账号继…

Vulnhub - DC-1

希望和各位大佬一起学习,如果文章内容有错请多多指正,谢谢! 个人博客链接:CH4SER的个人BLOG – Welcome To Ch4sers Blog DC-1 靶机下载地址:DC: 1 ~ VulnHub 0x01 信息收集 Nmap扫描目标主机,发现开…

OPENCV(0-1之0.2)

OPENCV-0.2 学习安排图像基础像素访问和修改像素值 色彩空间转换RGB到灰度的转换RGB到HSV的转换 图像操作裁剪缩放旋转和翻转 图像滤波平滑和模糊图像边缘检测 图像变换仿射变换透视变换 总结 官方文档 学习安排 图像基础 像素:了解像素的概念,包括像素…

Filebeat(Beats)详细介绍与使用

1. 什么是 Beats? Beats 是开源数据传送器,将其作为代理安装在服务器上,以将操作数据发送到 Elasticsearch。 Elastic提供Beats用于捕获: 审核数据:Auditbeat 日志文件和日志:Filebeat 云数据:Functio…

【物联网学习笔记】CubeMx6.10+STM32F407ZGT6+LWIP最最最基础配置

使用正点原子探索者开发板 板载芯片:STM32F407ZGT6 PHY芯片:LAN8720 LWIP版本:2.1.2 本次目标:先ping通开发板再说! 文章目录 一、CubeMX配置1、时钟配置2、ETH配置3、LWIP配置4、添加LAN8720的复位引脚 二、Keil工…

单链表——增删查改

本节复习链表的增删查改 首先, 链表不是连续的, 而是通过指针联系起来的。 如图: 这四个节点不是连续的内存空间, 但是彼此之间使用了一个指针来连接。 这就是链表。 现在我们来实现链表的增删查改。 目录 单链表的全部接口…

JVM之调优(一)

背景:生产环境由于堆内存较大,fullgc 垃圾回收导致程序卡顿问题(假死) 目录 一、程序卡顿导致的影响 前端页面空白后端数据重复 二、解决方法 降低堆内存大小使用合适的垃圾回收器(可以尝试,还未进行测试…

【毕设级项目】基于嵌入式的智能家居控制板(完整工程资料源码)

基于嵌入式的智能家居控制板演示效果 基于嵌入式的智能家居控制板 前言: 随着科技的不断进步,物联网技术得到了突飞猛进的发展。智能家居是物联网技术的典型应用领域之一。智能家居系统将独立家用电器、安防设备连接成一个具有思想的整体,实现…

Android Studio入门——页面跳转

1.工程目录 2.MainActivity package com.example.demo01;import android.content.Intent; import android.os.Bundle; import android.view.View; import android.widget.TextView;import androidx.appcompat.app.AppCompatActivity;public class MainActivity extends AppCo…

数据集成工具 ---- datax 3.0

1、datax: 是一个异构数据源离线同步工具,致力于实现关系型数据库(mysql、oracle等)hdfs、hive、hbase等各种异构数据源之间的数据同步 2、参考网址文献: https://github.com/alibaba/DataX/blob/master/introduction.mdhttps:/…

pycharm配置解释器

pycharm配置解释器 1.mac配置解释器 1.mac配置解释器

【C++庖丁解牛】STL简介 | string容器初次见面

🍁你好,我是 RO-BERRY 📗 致力于C、C、数据结构、TCP/IP、数据库等等一系列知识 🎄感谢你的陪伴与支持 ,故事既有了开头,就要画上一个完美的句号,让我们一起加油 目录 1. 什么是STL2. STL的版本…

扫描全能王发布2023“绿色数据”:减碳超12万吨,相当于多种700万棵树

近年来,“绿色转型”“低碳生活”成为全民热议话题。从全国覆盖率越来越高的“垃圾分类”,到蓬勃发展的“无纸化办公”,低碳生活、绿色消费的环保风尚不断兴起。植树节将至,合合信息旗下扫描全能王发布了年度用户文档扫描数据&…

详细分析Mysql中的LOCATE函数(附Demo)

目录 1. 基本概念2. Demo3. 实战 1. 基本概念 LOCATE()函数在SQL中用于在字符串中查找子字符串的位置 它的一般语法如下: LOCATE(substring, string, start)LOCATE()函数返回子字符串在主字符串中第一次出现的位置 如果未找到子字符串,则返回0 具体的…

如何在群晖用Docker本地搭建Vocechat聊天服务并无公网ip远程交流协作

文章目录 1. 拉取Vocechat2. 运行Vocechat3. 本地局域网访问4. 群晖安装Cpolar5. 配置公网地址6. 公网访问小结 7. 固定公网地址 如何拥有自己的一个聊天软件服务? 本例介绍一个自己本地即可搭建的聊天工具,不仅轻量,占用小,且功能也停强大,它就是Vocechat. Vocechat是一套支持…

【BFS二叉树】113路径总和II

113路径总和 II 给你二叉树的根节点 root 和一个整数目标和 targetSum ,找出所有 从根节点到叶子节点 路径总和等于给定目标和的路径。 思路: 题目最终输出的是路径,因此用BFS遍历的时候,需要记录走到每个节点的路径&#xff1…

ISIS单区域实验简述

ISIS 中间系统到中间系统,也是链路状态协议,工作在数据链路层,不依赖IP地址;与OSPF一样采用最短路径SPF算法,收敛速度快。 实验基础配置: r1: sys sysname r1 undo info enable int g0/0/0 ip add 12.1.1.1…

基于XMind的E-R图制作【笔记】

基于XMind的E-R图制作【笔记】 前言版权基于XMind的E-R图制作1.打开XMind2.选择模板3.插入一个自由主题4.为它插入子主题5.快速插入子主题6. 统一设置子主题样式 最后 前言 2024-3-11 10:36:33 以下内容源自《【创作模板】》 仅供学习交流使用 版权 禁止其他平台发布时删除…

js【详解】ajax (含XMLHttpRequest、 同源策略、跨域)

ajax 的核心API – XMLHttpRequest get 请求 // 新建 XMLHttpRequest 对象的实例 const xhr new XMLHttpRequest(); // 发起 get 请求,open 的三个参数为:请求类型,请求地址,是否异步请求( true 为异步,f…

程序语言设计

一、程序设计语言及其构成 1.程序设计语言 2.高级程序设计语言划分 3.常见的高级程序语言 4.标记语言 5.程序设计语言的构成 二、表达式 表达式的类型及转换规则 三、传值和传址调用 1.数据类型 2.传值和传址调用 四、语言处理程序 1.语言处理程序 语言处理程序&#xff1…