【论文阅读 CIKM‘2021】Learning Multiple Intent Representations for Search Queries

news2024/12/23 23:31:17

文章目录

    • Original Paper
    • Motivation
    • Method
      • Task Description and Problem Formulation
      • NMIR Framework: A High-Level Overview
      • Model Implementation and Training
    • Data

Original Paper

Learning Multiple Intent Representations for Search Queries

More related papers can be found in :

  • ShiyuNee/Awesome-Conversation-Clarifying-Questions-for-Information-Retrieval: Papers about Conversation and Clarifying Questions (github.com)

Motivation

The typical use of representation models has a major limitation in that they generate only a single representation for a query, which may have multiple intents or facets.

  • propose NMIR(Neural Multiple Intent Representations) to support multiple intent representations for each query

Method

Task Description and Problem Formulation

  • training query set: Q = { q 1 , ⋯   , q n } Q = \{q_1,\cdots,q_n\} Q={q1,,qn}
  • D i = d i 1 , ⋯   , d i m D_i = {d_{i1},\cdots,d_{im}} Di=di1,,dim be the top m retrieved documents in response to the query q i q_i qi
  • F i = { f i 1 , ⋯   , f i k } F_i=\{f_{i1},\cdots,f_{ik}\} Fi={fi1,,fik} denote the set of all textual intent descriptions associated with the query q i q_i qi
    • k i k_i ki is the number of query intents

NMIR Framework: A High-Level Overview

  • one straightforward solution:
    • using an encoder-decoder architecture
      • input: query q i q_i qi
      • output: generates multiple query intent descriptions of the query by taking the top k i k_i ki most likely predictions
    • drawback: These generations are often synonyms or refer to the same concept
  • another straightforward solution:
    • task as a sequence-to-sequence problem
      • input: query q i q_i qi
      • output: generate all the query intent descriptions concatenated with each other(like translation)
    • drawback:
      • different intent representations are not distinguishable in the last layer of the model.
      • most existing effective text encoding models are not able to represent long sequences of tokens, such as a concatenation of the top 𝑚 retrieved documents

NMIR Framework:

  • 𝜙 (·) and 𝜓 (·) denote a text encoder and decoder pair

Step1: NMIR assigns each learned document representation to one of the query intent descriptions f i j f_ij fij ∈ 𝐹𝑖 using a document-intent matching algorithm 𝛾:

在这里插入图片描述

  • C i ∗ C_i^* Ci is a set of documents and each C i j ∗ C_{ij}^* Cij is a set of documents form D i D_i Di that are assigned to f i j f_{ij} fij by 𝛾.

Step2: NMIR then transforms the encoded general query representation to its intent representations through a query intent encoder 𝜁.

  • the representation for the j t h j^{th} jth​ query intent is obtained using 𝜁 (𝑞𝑖 , C i j ∗ C_{ij}^* Cij ;𝜙).

Train: training for a mini-batch 𝑏 is based on a gradient descent-based minimization:

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

  • q i j ∗ q_{ij}^* qij​ is a concatenation of the query string, the first 𝑗 −1 intent descriptions, and 𝑘𝑖 − 𝑗 mask tokens
    • given the associated cluster C i j ∗ C_{ij}^* Cij and the encoded query text plus the past 𝑗−1 intent descriptions.
    • helps the model avoid generating the previous intent representations and learn widely distributed representations

where L C E L_{CE} LCE is the cross-entropy loss

在这里插入图片描述

  • f i j t f_{ijt} fijt is the t t h t^{th} tth token in the given intent description f i j f_{ij} fij.

Inference: q i j ∗ q_{ij}^* qij s are constructed differently.

  • first feed“𝑞𝑖 …” to the model and apply beam search to the decoder’s output to obtain
    the first intent description f i 1 f_{i1} fi1'.
  • then use the model’s output to iteratively create the input for the next step “𝑞𝑖 f i 1 f_{i1} fi1’ …”and repeat this process

Model Implementation and Training

在这里插入图片描述

Figure1(a) represents the model architecture.

  • use Transformer encoder and decoder architectures(pre-trained BART) for implementing 𝜙 and𝜓, respectively

The intent encoding component 𝜁 : use N ′ N' N layers Guided Transformer model

  • Guided Transformer is used for influencing an input representation by the guidance of some external information.
    • we use 𝜙 ( q i j q_{ij} qij ) as the input representation and 𝜙 (𝑑) :∀𝑑 ∈ C i j ∗ C_{ij}^* Cij as the external information.

The document-intent matching component 𝛾 : develop a clustering algorithm

  • encodes all the top retrieved documents and creates k i k_i ki clusters, using a clustering algorithm(use K-Means).

    在这里插入图片描述

    • C i j = { C i 1 , ⋯   , C i k i } C_{ij} = \{C_{i1},\cdots,C_{ik_i}\} Cij={Ci1,,Ciki}​ denotes a set of clusters and each C i j C_{ij} Cij contains all the documents in the 𝑗 th cluster associated with the query 𝑞𝑖 .
    • M i = { μ i 1 , ⋯ μ i k i } M_i=\{\mu_{i1},\cdots\mu_{ik_i}\} Mi={μi1,μiki}is a set of all cluster centroids such that μ i j \mu_{ij} μij = centroid( C i j C_{ij} Cij).
  • K-Means requires the number of clusters as input.

    • consider two cases at inference time
      • assume the number of clusters is equal to a tuned hyper-parameter 𝑘∗ for all queries
      • replace the K-Means algorithm by a non-parametric version of K-Means
  • Issue: The component 𝛾 requires a one-to-one assignment between the cluster centroids and the query intents in the training data, all clusters may be assigned to a single most dominant query intent. So we use the intent identification function I:

    • my view: the problem is how to assign centroids to query intents after clustering.

    在这里插入图片描述

  • output:

    在这里插入图片描述

𝛾 is not differentiable and cannot be part of the network for gradient descent-based optimization. We move it to an asynchronous process as figure1(b) below:

在这里插入图片描述

Asynchronous training: use asynchronous training method to speed up(the clustering of document representations is an efficiency bottleneck) described as figure1(b)

Data

  • training data: We follow a weak supervision solution based on the MIMIC-Click dataset, recently released by Zamani et al. MIMICS: A Large-Scale Data Collection for Search Clarification
  • evaluation data: Qulac dataset

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/66238.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于Electron的桌面端应用开发和实践

引言 如果开发跨桌面端的应用开发的话,我相信,electron目前绝对是不可避免的技术方案。web应用大家都知道,通过浏览器访问的应用就是web应用,那什么是桌面端?桌面端有两个重要特点: 具备独立运行于操作系…

学习压力容器中卡箍快开结构的强度计算

导读:压力容器的设计一定要考虑安全性、经济性、环保及健康问题。首先安全是核心问题,在保证安全的前提下尽可能的再做到经济合理。 本文从强度计算软件SW6-2011 V3.1补丁二(单机版)和(网络版)所解决的问题&#xff0…

Redis 性能问题优化方案

Redis性能问题&优化方案前言Redis真的变慢了吗?使用复杂度过高的命令操作bigkey集中过期实例内存达到上限fork耗时严重开启内存大页开启AOF绑定CPU使用Swap碎片整理网络带宽过载其他原因频繁短连接运维监控其它程序争抢资源总结前言 Redis 作为优秀的内存数据库…

Java高效率复习-MySQL上篇[MySQL]

前言 本文章是用于总结尚硅谷MySQL教学视频的记录文章,主要用于复习,非商用 原视频连接:https://www.bilibili.com/video/BV1iq4y1u7vj/?p21&spm_id_frompageDriver&vd_sourcec4ecde834521bad789baa9ee29af1f6c https://www.bilib…

Spring Boot 项目优化和 JVM 调优,亲测!真实有效。。

三、Jvm调优实战 1、未设置JVM参数的情况 我现在有一个项目,默认情况下,没有设置任何Jvm参数。 下面我来启动看一下。 看一下堆栈分配: 很明显默认的最大堆内存分配了8个G。很明显的不合理嘛。 2、下面我们来设置下Jvm参数 例如要配置JVM…

vue2 ElementUI 表单标签、表格表头添加问号图标提示

文章目录1. 问题背景2. element-ui悬浮提示定义3. 基础4. 延申5. 参考1. 问题背景 使用element-ui有时候需要对表格的表头、表单的标签进行自定义,添加问号的悬浮提示。 要达到的效果,如图所示: 2. element-ui悬浮提示定义 https://elemen…

【菜菜的sklearn课堂笔记】聚类算法Kmeans-基于轮廓系数来选择n_clusters

视频作者:菜菜TsaiTsai 链接:【技术干货】菜菜的机器学习sklearn【全85集】Python进阶_哔哩哔哩_bilibili 我们通常会绘制轮廓系数分布图和聚类后的数据分布图来选择我们的最佳n_clusters from sklearn.metrics import silhouette_samples,silhouette_s…

c++还原简单的vector

文章目录vectorvecotor的介绍vector的模拟实现类的框架成员变量迭代器构造函数析构函数size()capacity()operator[]重载扩容resize()尾插验证是否为空尾删clear 清除swap交换insert插入erase删除迭代器区间初始化构造函数拷贝构造赋值运算符重载n个val构造函数再谈构造函数vect…

数仓日记 - 数仓理论

寒刃尽断处,吾心作剑霜作锋🏂 目录 一、数仓简介 二、关系建模与维度建模 1. 关系建模   2. 维度建模    • 三种模型    • 事实表    • 维度表   3. 事实表的分类    • 事务型事实表    • 周期型快照事实表    • 累积型快照事实表…

Python操作Excel表格

本文介绍如何通过轻量级、零依赖(仅使用标准库)的 pylightxl 库操作Excel表格。 官网:Welcome to pylightxl documentation — pylightxl 2019 documentation 目录 一、入门 1. 读写CSV文件 2. 读Excel文件 3. 获取工作表和单元格数据 3…

前端css实现特殊日期网页变灰功能

前端变灰效果在网页实际使用过程中使用的比较少,但有时候又缺一不可,一般在大型哀悼日或纪念日的时候使用,使用后的网站页面会变成灰色(黑白色)。 我们先看下各大网站是怎么实现的: 1.csdn实现方式 2.淘宝 3.人民网 4.京东 5.掘…

Unity【Multiplayer 多人在线】服务端、客户端通用架构的使用指南

文章目录🚩 Import🚀 protogen使用方法🪐 客户端接口🌈 服务端接口🧭 数据处理🎨 Example🚩 Import 下载SKFramework框架,导入到Unity中; 在框架Package Manager中搜索并…

osgEarth示例分析——osgearth_colorfilter

前言 osgearth_colorfilter颜色过滤器示例。本示例中,主要展示了6种颜色过滤器的使用,分别是:HSLColorFilter、RGBColorFilter、CMYKColorFilter、BrightnessContrastColorFilter、GammaColorFilter、ChromaKeyColorFilter。 执行命令 // 一条命令是一…

Docker日常运维小技巧

一、故障定位 1、查看容器内部 https 请求响应时间 docker exec -t $(docker ps -f nameblog_web -q) curl -H X-Forwarded-Proto:https \-w %{time_total} -o /dev/null -s localhost 2、查看容器日志 docker logs --tail 50 --follow --timestamps mediawiki_web_1 3、删…

深圳SMT贴片行业MES系统解决方案~MES系统服务商~先达智控

随着我国工业的迅速发展,所有电子行业都离不开SMT贴片生产,SMT贴片生产是电子行业的至关重要的一道工业环节,我国作为一个工业制造大国,有着完备的SMT现代产业体系。SMT贴片领域是我国支柱性产业其一,SMT贴片产品涵盖工…

【JavaWeb开发-Servlet】day01-使用TomCat实现本地web部署

目录 1、准备java web开发环境 (1)下载javaJDK(推荐使用JDK1.8,企业常用且稳定) (2)下载TomCat服务器 2、创建web服务器TomCat (1)创建一个项目文件夹 (2)在文件夹中新建一个记事本并编以下…

算法大神左程云耗尽5年心血分享程序员代码面试指南第2版文档

前言 学习是一种基础性的能力。然而,“吾生也有涯,而知也无涯。”,如果学习不注意方法,则会“以有涯随无涯,殆矣”。 学习就像吃饭睡觉一样,是人的一种本能,人人都有学习的能力。我们在刚出生…

移动WEB开发之rem布局--苏宁首页案例制作(技术方案1)

案例:苏宁网移动端首页 访问地址:苏宁易购(Suning.com)-家电家装成套购,专注服务省心购! 1. 技术选型 方案:我们采取单独制作移动页面方案 技术:布局采取rem适配布局(less rem 媒体查询&am…

用 TensorFlow.js 在浏览器中训练一个计算机视觉模型(手写数字分类器)

文章目录Building a CNN in JavaScriptUsing Callbacks for VisualizationTraining with the MNIST DatasetRunning Inference on Images in TensorFlow.jsReferences我们在《在浏览器中运行 TensorFlow.js 来训练模型并给出预测结果(Iris 数据集)》中已…

数字源表如何测试MOS管?

MOSFET(金属—氧化物半导体场效应晶体管)是 一种利用电场效应来控制其电流大小的常见半导体器件,可 以 广 泛 应 用 在 模 拟 电 路 和 数 字 电 路 当 中 。 MOSFET可以由硅制作,也可以由石墨烯,碳纳米管 等材料制作,是材料及器件…