LARA:多语言多轮对话意图分类的新突破

news2024/12/26 14:42:10

人工智能咨询培训老师叶梓 转载标明出处

多轮对话意图分类面临的主要挑战在于对话的复杂性和上下文的不断变化。如图 1 所示。在多轮对话中,意图可能随着对话的进展而变化,这就需要注释者不仅要理解每条消息的内容,还要把握整个对话的上下文。由于意图种类繁多,且对话可能非常长,手动注释这样的数据集既耗时又容易出错,这对构建高质量的训练数据集构成了挑战。

由新加坡Forth AI和Shopee的研究人员共同提出了名为LARA(Linguistic-Adaptive Retrieval-Augmented Language Models)的新方法,旨在提高多轮对话中意图分类的准确性。

LARA框架

LARA通过零样本上下文学习与单轮示例相结合,由精心设计的指令提示引导。图 2展示了LARA的流程。LARA框架通过以下步骤处理多轮意图识别任务:

  1. 候选意图选择:使用基于XLM(Cross-lingual Language Model)的单轮意图分类模型Mc,从用户话语中选择可能的候选意图。

  2. 上下文学习(In-context Learning, ICL):通过检索增强机制,选择与多轮测试样本语义相似的单轮示例作为上下文示例,以促进大型语言模型(LLM)的上下文学习。

  3. 提示构建和LLM推理:将任务指令与上下文示例结合,形成输入提示P,然后输入到LLM进行推理,以识别最终的用户查询意图。

算法 1 候选意图选择。候选意图的选择过程需要一个查询组合集Qc,它由最后一个查询qn和每个历史查询的组合构成。对于Qc中的每个查询qi,算法执行以下步骤:

  1. 获取XLM-RoBERTa基础模型的[CLS]标记嵌入H,其中d表示隐藏维度。
  2. 将嵌入通过一个线性层传递,得到类别概率P。
  3. 选择具有最高概率的意图。

这个过程返回一组候选意图Ic。

Mc是在标注的单轮数据集D上训练得到的文本分类模型。给定一个查询q,模型采用XLM-RoBERTa基础模型的[CLS]标记嵌入H作为文本表示。这个嵌入通过进一步的对比学习预训练,以提供有意义的[CLS]标记表示。

算法 2 ICL示例检索。对于每个候选意图Ii,算法执行以下步骤:

  1. 从数据集D中获取每个意图的标注样本。
  2. 计算每个训练样本与测试查询的余弦相似度。
  3. 根据相似度分数选择最近的示例。
  4. 将每个候选意图的示例收集起来,并按分数排序。

任务指令T与示例E、对话上下文C和查询qn结合,形成大模型的输入提示P。为了适应实时应用的延迟要求,探索了两种额外的方法来限制模型生成代表意图的单符号标记。模型输出是贪婪解码的,确保了意图识别的效率和准确性。

想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。实战专家1小时讲解让您轻松上手,学习如何使用 Llama Factory 微调模型。

评论留言“参加”或扫描微信备注“参加”,即可参加线上直播分享,叶老师亲自指导,互动沟通,全面掌握Llama Factory。关注享粉丝福利,限时免费录播讲解。

实验

实验所用数据集包括八个市场(巴西、印尼、马来西亚、菲律宾、新加坡、泰国、台湾和越南)的本地语言用户查询。这些查询与电子商务领域相关。表 1: 各市场的主要语言、意图数量和样本数量。

所有数据均由各市场的本地客户服务团队手动标注。这些单轮样本将作为上下文学习的示例池。为了评估方法的有效性,研究者还让客户服务团队手动标注了一些真实的多轮在线会话作为测试集。每个会话查询Q只有最后一个查询qn被标注。

基于每个会话Q中最后一个查询qn的标签评估方法的准确性。不考虑类别不平衡的其他指标,因为采样会话预计将反映每个意图的在线流量,从而更好地模拟真实的在线性能。

据目前所知,还没有直接解决具有大量类别的多轮意图识别挑战的工作。由于缺乏标注数据,这是一个具有挑战性的任务。

在这项工作中,提出了两种直观且现实的方法作为基线:

  • 朴素连接: 单个会话Q中的所有查询都使用上面提到的◦操作连接起来,并将连接结果输入单轮模型Mc进行推理。
  • 选择性连接: 在这种方法中,只选择Cq中的一个查询与qn连接。这种直觉认为,并非所有历史查询都有助于理解最后一个查询,过度使用它们可能会引入不必要的噪声。训练了一个连接决策模型来选择最合适的历史查询。根据模型的置信度,可能有时根本不需要扩展。

传统的单轮模型、检索器和连接决策模型都使用以ΦXLMR初始化的主干网络,这是一个多语言特定领域的XLM-RoBERTa基础模型,继续通过对比学习进行预训练。使用AdamW对主干网络和所有其他模块进行微调,学习率分别为5e-6和1e-3。在LARA中,使用的大模型是Hugging Face上的vicuna13b-v1.5,拥有13B个参数。所有测试都在一块Nvidia V100 GPU卡上运行,拥有32GB的GPU内存。在这次实验中,为每个意图检索的示例K设置为10。由于GPU内存限制,上下文学习示例的总标记数限制为2300个标记。如果超过限制,每个候选意图的示例数量将从与qall余弦相似度分数最低的示例开始平均削减。在推理过程中,如果生成的意图与提供的选项都不匹配,将考虑Mc对qn的意图作为最终结果。

实验结果揭示了LARA与基线方法相比,在多轮意图识别任务上的性能表现。表 2展示了LARA在不同提示变体下的性能与基线方法的对比。LARA在平均性能上超越了基线方法,这证明了LARA在多语言环境下的有效性和适应性。

朴素连接方法并不总是比选择性连接方法更有效,这表明简单地加入所有历史查询会产生噪声,从而降低性能。同时,对于选择性连接方法,虽然需要仔细地进行数据集的伪标签化,但这一额外步骤并不总是比朴素方法更有效。

LARA在大多数数据集上无需复杂的伪标签化过程就能取得良好结果,这突显了其在不同语言上的适应性。然而,在印尼市场上,LARA未能超越基线方法,这可能归因于开源大模型处理当地俚语和缩写的能力有限。

实验还发现,使用Psymbolic提示时,将标签名替换为无关符号会显著降低上下文学习的性能。而Pprepend提示对性能的影响则不显著,并且将推理时间从0.75it/s提高到了1.32it/s,提高了77%。有趣的是,模型在使用Pformatted提示后,不再生成与示例中提供的选项不匹配的标签,这在使用P提示时平均发生率为1.6%。

最终,基于Pprepend的Pformatted提示在所有数据集上都优于其他提示变体,表明适当调整提示格式可以更好地利用上下文信息。这说明了未来对提示格式的进一步优化可能会带来性能的提升。

论文链接:https://arxiv.org/pdf/2403.16504

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2180389.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-27

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-27 目录 文章目录 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-27目录1. VisScience: An Extensive Benchmark for Evaluating K12 Educational Multi-modal Scientific Reasoning VisScience:…

Android开发国家手机号归属地列表

Android开发国家手机号归属地列表 国家手机号归属地列表需求不多,但是还是有一些 一、思路: 本地的国家归属号json 二、效果图: 三、关键代码: // 联系:893151960 public class ChooseCountryActivity extends Ap…

golang 获取证书的生效及过期时间

测试样例 func TestGetCertVaildTime(t *testing.T) {certPEM, err : ioutil.ReadFile("aa.bbb.com.crt")if err ! nil {fmt.Println("读取证书文件出错:", err)return}// 解码PEM格式的证书block, _ : pem.Decode(certPEM)if block nil {fmt.Println(&q…

Deep Tone Mapping Operator for High DynamicRange Images

Abstract 计算快速的色调映射算子 (TMO) 可以快速适应各种高动态范围 (HDR) 内容,对于在电影屏幕或标准显示器等各种低动态范围 (LDR) 输出设备上进行可视化至关重要。 现有的 TMO 只能成功地对有限数量的 HDR 内容进行色调映射,并且需要进行广泛的参数…

Mac通过ssh连接工具远程登录服务器( Royal TSX安装及使用)

一、Royal TSX软件下载地址 Royal Apps 二、Royal TSX 汉化 汉化包地址:GitCode - 全球开发者的开源社区,开源代码托管平台 三、基础配置 Royal TSX 是一款基于插件的应用,刚安装时还不具备使用条件,需要进行一些基础配置 1 安装基础插件…

银行CRM系统的核心功能解析与应用价值

在当今竞争激烈的金融市场中,银行业务的成功与否,越来越依赖于高效而精准的客户关系管理系统(CRM)。Zoho CRM系统不仅帮助银行提升服务质量、增强客户满意度,还能有效地促进业务发展和风险控制。为了帮助读者更好地理解…

蓝鹏螺纹钢测径仪的三大测量要点 纵肋 横肋 基圆

关键字:螺纹钢测径仪,螺纹钢纵肋测量,螺纹钢横肋测量,纵肋间隙测量,横肋间隙测量,螺纹钢基圆测量, 螺纹钢测径仪在测量螺纹钢时,主要关注纵肋、横肋和基圆这三大要点。以下是针对这三个方面的详细测量要点: 一、纵肋的测量要点 纵肋是螺纹钢表面上的凹陷…

Ktor快速上手1 - 第一个服务端项目

Ktor 快速上手 第一个APP 工程创建 首先你需要创建一个Ktor工程,这里有两种办法创建: 网页创建后下载包到本地,作为工程打开:Ktor: Project Generator直接在IDEA里面创建Ktor工程 为了方便操作,这里直接在IDEA里面…

SpringAOP学习

面向切面编程&#xff0c;指导开发者如何组织程序结构 增强原始设计的功能 oop:面向对象编程 1.导入aop相关坐标&#xff0c;创建 <!--spring依赖--><dependencies><dependency><groupId>org.springframework</groupId><artifactId>spri…

数学建模研赛总结

目录 前言进度问题四分析问题五分析数模论文经验分享总结 前言 本文为博主数学建模比赛第五天的内容记录&#xff0c;希望所写的一些内容能够对大家有所帮助&#xff0c;不足之处欢迎大家批评指正&#x1f91d;&#x1f91d;&#x1f91d; 进度 今天已经是最后一天了&#xf…

MySQL 慢查询日志:洞察性能瓶颈的利器

在 MySQL 数据库的管理和优化中&#xff0c;慢查询日志是一个非常有用的工具。它可以帮助我们找出执行时间较长的查询语句&#xff0c;从而针对性地进行优化&#xff0c;提高数据库的性能。那么&#xff0c;什么是 MySQL 的慢查询日志呢&#xff1f;又该如何配置和使用它呢&…

广西容县霞烟鸡,品牌兴农,助力乡村振兴!

在两广与港澳地区,流传着一句深入人心的饮食谚语——“无鸡不成宴”,它不仅是一种习俗的体现,更是对餐桌礼仪与待客之道的深刻诠释。每逢家宴欢聚、祭祖庆典或盛宴宾客,一只精心烹制的鸡总是不可或缺的主角,其缺席往往被视为对宾客的不敬。在这片美食文化的沃土上,广西容县的霞…

spark-sql建表数据同步到hive

1、基础环境 组件版本备注hadoop3.4.0官方下载hive3.1.3自编译sparkspark-3.5.3-bin-hadoop3官方下载&#xff0c;需要内置hive的jar相关内容paimon0.9.0Maven官方下载jdk1.8.0_41maven3.9.6固定版本 2、停止服务、清理日志 先停止&#xff0c;清理数据 sudo kill -9 $(ps -ef…

kafka 换盘重平衡副本 操作流程

一、起因 kakfa某块数据盘损坏&#xff0c;且数据无法恢复&#xff0c;需清空换新盘 二、梳理操作流程 查看topic信息 sh ./kafka-topics --bootstrap-server ***:9092 --list --exclude-internal 查看某个topic数据分布情况 sh ./kafka-topics --bootstrap-server ***:…

vscode+stfp插件,实现远程自动同步文件代码

概述 远程同步代码&#xff0c;将本地代码实时保存到同一局域网内的另一台电脑&#xff08;linux系统&#xff09;&#xff0c;这里的本地代码也可以是远程服务上的代码&#xff0c;即从一个远程ip同步到另一台远程ip服务器。 工具 vscode&#xff0c;SFTP插件 安装 vscod…

优可测白光干涉仪:激光陀螺仪提升良率与精度的关键

在当今科技日新月异的时代&#xff0c;高精度导航与定位技术已成为航空航天、军事防御、海洋勘探、自动驾驶乃至日常生活中不可或缺的一部分。而在这背后&#xff0c;激光陀螺仪作为核心元件之一&#xff0c;以其卓越的稳定性和极高的精度&#xff0c;正引领着导航技术的新一轮…

Java设计模式概述

设计模式&#xff08;Design pattern&#xff09;代表了最佳的实践&#xff0c;通常被有经验的面向对象的软件开发人员所采用。设计模式是软件开发人员在软件开发过程中面临的一般问题的解决方案。这些解决方案是众多软件开发人员经过相当长的一段时间的试验和错误总结出来的。…

python 自定义多线程的传参方式是什么

在 Python 中&#xff0c;threading 模块提供了多线程编程的支持&#xff0c;允许我们通过创建线程类的方式来实现并发操作。当我们自定义线程类时&#xff0c;可以通过修改类的构造方法和运行逻辑来传递和处理参数。 以下面这个实际的代码片段为例来说明&#xff1a; import…

BootROM清除密码

目录 一、组网需求 二、操作步骤 1. console连接设备 2.重启设备 3. 进入BootROM菜单 a. 选择第4项&#xff0c;进入Startup Select菜单 查看系统使用的配置信息 重命名系统使用的配置文件 启动设备 停止Auto-Config 将重命名的配置文件改为可执行文件 恢复配置 重…

迈巴赫 S480 的奢华升级之旅头等舱行政独立 4 座

《迈巴赫 S480 的奢华升级之旅&#xff1a;头等舱行政独立 4 座》 迈巴赫 S480&#xff0c;作为豪华轿车的典范&#xff0c;一直以来都以其卓越的品质和尊贵的体验而备受推崇。而对于那些追求极致奢华与舒适的车主来说&#xff0c;将其升级为头等舱行政独立 4 座的配置&#x…