NLP 文本匹配任务核心梳理

news2025/1/6 20:26:20

定义

  • 本质上是做了意图的识别
    判断两个内容的含义(包括相似、矛盾、支持度等)
  • 侠义
    • 给定一组文本,判断语义是否相似
    • Yi 分值形式给出相似度
  • 广义
    • 给定一组文本,计算某种自定义的关联度
    • Text Entailment
      判断文本是否能支持或反驳这个假设
    • 主题判断

神经网络方法

  • 表示型文本匹配
    • 特点
      • 只需要对用户新输入的问题送入模型,运行一次
        实际查找中,对输入文本做一次向量化
      • 运行结果与知识库中的标准问向量分别计算 loss
      • 最后排序,找到最 match 的结果
      • 更适用智能问答
      • 用于需要分别看到两句话的场景
        计算两句话相似性
      • 类似于二分类任务
    • 方式
      • 共享encoder 参数
        • 即孪生网络
        • encoder 层
          两句话分别输入encoder(LSTM、CNN+pool、bert) 得到句向量
        • matching layer 层
          • 对两个句向量进行预期分值计算
            相同文本用相同参数,余弦值夹角为0,值为1,欧式距离为0
          • 可以完全没有可训练参数
            在评估阶段进行 cosine loss 或 欧式距离等向量分值计算
      • triplet loss
        在这里插入图片描述
        • 目标
          • 使具有相同标签的样本在 embedding 空间尽量接近
          • 使具有不同标签的样本在 embedding 空间尽量远离
        • 方式
          三元组<a, p, n>
          - a 原点
          - p 与a 同一类别的样本
          - n 与a 不同类别的样本
        • 在cv也用于人脸识别模型训练
  • 交互型文本匹配
    • 特点
      • 用户输入新问题,与知识库中的n 个标准问分别拼接送入模型,计算 n 次
        对比把握句子重点
      • 更适合问题与答案的匹配场景
        因为答案长度与问题长度差异,答案与问题是两个概念的东西,共用 encoder 参数就不合适,可能需要补太多 padding
      • 用于需要同时看到两句话的场景
        用于计算两句话相关性
    • 方式
      • 每次计算需要两个输入
      • 将两个句子拼接成长文本
        在模型中判断两句话关联性,输出关联性得分

非神经网络算法

  • Jaccard 相似度
    核心逻辑:文本中元素的交集/文本中元素的并集
    在这里插入图片描述

  • word2vec
    核心逻辑:从词向量相似度得到句子相似度,将文本中所有的词的词向量相加取平均

    • 获取句子向量之间 余弦值
    • 两个句子的相似度,等同于两个向量的余弦距离
      在这里插入图片描述
  • BM25算法
    对 TF-IDF 的改进
    在这里插入图片描述

  • 编辑距离
    动态规划算法

def edit_distance(s1, s2):
    m, n = len(s1), len(s2)
    dp = [[0] * (n + 1) for _ in range(m + 1)]
    for i in range(m + 1):
        dp[i][0] = i
    for j in range(n + 1):
        dp[0][j] = j
    for i in range(1, m + 1):
        for j in range(1, n + 1):
            if s1[i - 1] == s2[j - 1]:
                dp[i][j] = dp[i - 1][j - 1]
            else:
                dp[i][j] = min(dp[i - 1][j - 1], dp[i - 1][j], dp[i][j - 1]) + 1
    return dp[m][n]
  • 优点
    • 可解释性强
    • 跨语种
    • 不需要训练模型
  • 缺点
    • 字符之间没有语义相似度
    • 受无关词、停用词影响大
    • 受语义影响大
    • 文本长度对速度影响很搭
  • 由一个字符串转成量一个所需的最少编辑操作次数
    核心是比较两个序列相似性

应用

  • 应用方向
    • 短文本 vs 短文本
      • 知识库问答
        • 不使用文本分类的原因
          • 拓展性不强
            新增问题时需要重新训模型
          • 相同问题的有效性
            会出现无法命中相同问题的情况
        • 可以使用GPT模型
          RAG 思路:检索增强
      • 聊天机器人
    • 短文本 vs 长文本
      • 文章检索
      • 广告推荐
    • 长文本 vs 长文本
      新闻、文章的关联推荐
  • 实际应用
    • 信息检索
      搜索引擎
    • nlp 最成熟的落地任务:智能问答
      • 落地形式
        • 人机对话
        • 智能客服
        • 智能音箱
        • 聊天机器人
        • 车载导航
        • 手机助手
      • 基础资源
        • faq 库
          • 多个问答对组成的集合
            一个标准问对应一个标准审核好的标准答案
          • 运行逻辑
            • 用户提问
            • 提问内容预处理
              根据算法决定处理方式
            • 找到最相似的问题
            • 输出答案
          • 核心
            • 进行语义相似度计算
              即 文本匹配
        • 书籍文档
        • 网页
        • 知识图谱
        • 表格
        • 特定领域知识
        • 人工规则
      • 答案产出方式
        • 检索式
        • 生成式
        • 检索+生成
      • 相关技术划分
        • 单轮问答
        • 多轮问答
        • 多语种问答
        • 事实性问答
        • 开方性问答
        • 多模态问答
          问题是文字答案是语音或视频
        • 选择性问答
        • 抽取式问答
        • 生成式问答
  • 落地应用
    • 信息检索
    • 知识库问答
      Faq 知识库

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2160262.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Windows系统修改Tomcat虚拟机内存参数

文章目录 I 修改Tomcat虚拟机内存参数基于tomcat管理程序进行配置基于setenv文件进行配置II 查看服务器状态/manager/status 查看服务器状态manager/jmxproxy 查询Tomcat指标I 修改Tomcat虚拟机内存参数 基于tomcat管理程序进行配置 查看堆内存分配情况: jmap -heap pid jst…

【Kubernetes知识点】解读HPA的 thrashing(抖动)问题

【Kubernetes知识点】解读HPA的 thrashing&#xff08;抖动&#xff09;问题 目录 1 概念 1.1 什么是 Thrashing 现象&#xff1f;1.2 HPA 中 Thrashing 产生的原因1.3 解决 Thrashing 的优化措施 1.3.1 设置合适的阈值1.3.2 使用自定义指标和基于负载的自动扩缩1.3.3 增加扩…

增强GPT4v的Grounding能力,video-level

开源链接&#xff1a; appletea233/AL-Ref-SAM2: AL-Ref-SAM 2: Unleashing the Temporal-Spatial Reasoning Capacity of GPT for Training-Free Audio and Language Referenced Video Object Segmentation (github.com) In this project, we propose an Audio-Language-Refe…

力扣最热一百题——最小覆盖子串

目录 题目链接&#xff1a;76. 最小覆盖子串 - 力扣&#xff08;LeetCode&#xff09; 题目描述 示例 提示&#xff1a; 解法一&#xff1a;滑动窗口 1. 初始化 2. 构建 mapT 3. 滑动窗口 4. checkT 方法 5. 返回结果 Java写法&#xff1a; 运行时间 C写法&#x…

[Python学习日记-29] 开发基础练习2——三级菜单与用户登录

[Python学习日记-29] 开发基础练习2——三级菜单与用户登录 简介 三级菜单 用户登录 简介 该练习使用了列表、字典、字符串等之前学到的数据类型&#xff0c;用于巩固实践之前学习的内容。 三级菜单 一、题目 数据结构&#xff1a; menu { 北京: { 海淀: { …

纯css实现选项卡

<span class"flex tab" ><view :class"tabStyle(1)" click"tabClick(1)">变形监测</view><view :class"tabStyle(2)" click"tabClick(2)">渗流渗压</view></span>tabIndex:1tabClick…

src漏洞挖掘 | 记某学校网站的一次漏洞挖掘

&#x1f497;想加内部圈子&#xff0c;请联系我&#xff01; &#x1f497;文章交流&#xff0c;请联系我&#xff01;&#x1f36c; 博主介绍 &#x1f468;‍&#x1f393; 博主介绍&#xff1a;大家好&#xff0c;我是 hacker-routing &#xff0c;很高兴认识大家~ ✨主攻领…

【附实例】Python字典的各种操作

一、字典理解 Python 字典是一种可变容器模型&#xff0c;且可存储任意类型对象。字典的每个键值对用冒号 : 分割&#xff0c;每对之间用逗号 , 分割&#xff0c;整个字典包括在花括号 {} 中。 二、访问字典 ①.访问键名 my_dict {name: Alice, age: 30, city: New York} k…

显示数量以及坐标区间

import re import numpy as np import matplotlib.pyplot as plt from matplotlib.font_manager import FontProperties# 动态加载字体文件 font_path /usr/local/sunlogin/res/font/wqy-zenhei.ttc # 替换为实际字体路径 my_font FontProperties(fnamefont_path)# 定义日志…

【折腾笔记】雷池WAF+FRP+Nginx实现安全可靠的内网穿透

前言 在网上看了许多关于WAFFRPNginx的方式来保护内网穿透的Web服务&#xff0c;但是在网上搜寻的结果都是将WAF部署在了源站上面&#xff0c;由于我的Web服务都是部署在NAS上面&#xff0c;然后使用Frp来穿透访问的&#xff0c;我认为WAF应该部署在服务器上面比较合适&#x…

基于STM32F103C8T6单片机的农业环境监测系统设计

本设计是基于STM32F103C8T6单片机的农业环境监测系统&#xff0c;能够完成对作物的生长环境进行信息监测和异常报警&#xff0c;并通过手机APP来实现查看信息和设定阈值的功能。为了实现设计的功能&#xff0c;该系统应该有以下模块&#xff1a;包括STM32单片机模块、水环境PH值…

css禁止图片保存,CSS中的图片保存方法

“css中的图片”指的就是镶在CSS样式表中的图片。在我们用在浏览器保存网页时&#xff0c;很多时候&#xff0c;下载网页里的图片都下载不到&#xff0c;这样的话就会使网页非常不美观。所以&#xff0c;今天小编就给大家介绍集中保存方法。 以下是几种保存方法。 (一)使用网…

Unity 设计模式 之 行为型模式 -【中介者模式】【迭代器模式】【解释器模式】

Unity 设计模式 之 行为型模式 -【中介者模式】【迭代器模式】【解释器模式】 目录 Unity 设计模式 之 行为型模式 -【中介者模式】【迭代器模式】【解释器模式】 一、简单介绍 二、中介者模式&#xff08;Mediator Pattern&#xff09; 1、什么时候使用中介者模式 2、使用…

java项目之基于springboot的医院资源管理系统源码

风定落花生&#xff0c;歌声逐流水&#xff0c;大家好我是风歌&#xff0c;混迹在java圈的辛苦码农。今天要和大家聊的是一款基于springboot的医院资源管理系统。项目源码以及部署相关请联系风歌&#xff0c;文末附上联系信息 。 &#x1f495;&#x1f495;作者&#xff1a;风…

计算存款利息-C语言

1.问题&#xff1a; 假设有本金1000元&#xff0c;想存一年&#xff0c;有三种方法可选择&#xff1a; A活期&#xff0c;年利率为0.0036&#xff1b; B一年期定期&#xff0c;年利率为0.0225&#xff1b; C存两次半年定期&#xff0c;年利率为0.0198。 请分别计算出一年后…

Ubuntu的基本用法与指令(为后面学习ROS打基础)

目录 0.声明&#xff1a;此博客的部分内容来自B站up主 机器人工匠阿杰&#xff0c;欢迎大家前往up主视频区学习&#xff08;本人正在跟随此up主的视频学习无人机的部分相关知识&#xff09; 1.win空格&#xff08;切换中英文&#xff09; 2.终端指令 1.ls&#xff1a;显示主…

ATTCK实战系列-Vulnstack三层网络域渗透靶场(一)

ATT&CK实战系列-Vulnstack三层网络域渗透靶场&#xff08;一&#xff09; 一、环境搭建1.1 靶场拓扑图1.2 靶场下载链接1.3 虚拟机配置1.3.1 Windows 7 (web服务器)1.3.2 Windows 2008 (域控)1.3.3 Win2k3 (域内主机) 二、外网打点突破2.1 信息搜集2.2 phpmyadmin 后台 Get…

netfilter和iptables--netfilter源码篇

netfilter和iptables–netfilter源码篇 防火墙是保护服务器和基础设施的重要工具&#xff0c;在Linux系统下&#xff0c;目前广泛使用的防火墙工具是iptables&#xff0c;但实际进行规则实施并产生实际作用的是Netfilter&#xff0c;iptables与内核中的netfilter框架中Hook协同…

❤Node11-登录人token信息接口

❤Node11-登录人token信息接口​ 上一章我们已经从登录部分拿到了用户的登录jwt返回的token信息&#xff0c;接下来我们就通过token来换取用户信息 这里我们可以将其理解为一种加密以及解密的思想来思考这个jwt和token的关系&#xff0c;token就是一个加密的字符串&#xff0c…

【JavaEE】——内存可见性问题

阿华代码&#xff0c;不是逆风&#xff0c;就是我疯&#xff0c;你们的点赞收藏是我前进最大的动力&#xff01;&#xff01;希望本文内容能够帮助到你&#xff01; 目录 一&#xff1a;内存可见性问题 1&#xff1a;代码解释 2&#xff1a;结果分析 &#xff08;1&#xf…