【电商搜索】现代工业级电商搜索技术-EMNLP2024-无监督的用户偏好学习

news2025/1/22 14:51:14

【电商搜索】现代工业级电商搜索技术-EMNLP2024-无监督的用户偏好学习

0. 论文信息

Title: Unsupervised Human Preference Learning
Authors: Sumuk Shashidhar, Abhinav Chinta, Vaibhav Sahai, Dilek Hakkani Tur
Comments: EMNLP 2024 Main Conference
https://arxiv.org/pdf/2410.03731
在这里插入图片描述

1. 摘要:

本文提出了一种新颖的方法,使用小型参数模型作为偏好代理,以生成指导大型预训练模型的自然语言规则,实现个性化内容的高效生成。该方法通过一个小型的本地“方向盘”模型来指导一个更大的基础模型,以产生符合个人偏好的内容,同时利用大模型的广泛知识和能力,且无需对大模型进行微调。实验结果表明,该技术在数据和计算效率方面显著优于现有的个性化方法。

2. 研究背景:

大型语言模型(LLMs)在推理、知识检索和内容生成方面展示了令人印象深刻的能力,但在适应个体用户偏好方面存在挑战。现有的个性化技术,如上下文学习和参数高效微调,难以捕捉人类偏好的复杂性,尤其是在个人数据集较小的情况下。

3. 问题与挑战:

LLMs通常在大规模、通用的数据集上进行训练,这促进了中立性,但限制了它们学习和适应个体细微差别的能力。此外,现有的个性化技术在面对有限的个人数据时,难以实现有效的个性化。

4. 如何解决:

研究者提出了一种基于偏好代理的概念的新方法。这些代理是小型的、本地可训练的语言模型,旨在学习和编码个体用户的偏好到简洁的自然语言规则中。这些代理充当小型“方向盘”,引导更大、更通用的LLMs的输出,以期望的个性化风格和内容为目标。

5. 创新点:

  • 提出了一种新的微调目标,利用提取的偏好信息而非传统的输入-输出对,促进了用户偏好的有效学习。
  • 通过偏好代理的使用,实现了显著的性能提升,尤其是在将LLMs与个体风格和偏好对齐方面。
  • 发布了三个大型、人类意图注释的偏好数据集,以促进未来个性化研究。

6. 算法模型:

该方法涉及两个关键组件:生成捕获用户偏好的自然语言规则,并使用这些规则指导一个更大的预训练语言模型。这种模块化架构允许在不进行广泛重新训练的情况下进行有效的个性化。
在这里插入图片描述
文章中提到的小型参数模型,即偏好代理(preference agents),是用来学习和编码用户个性化偏好的小型语言模型。这些模型的工作方式如下:

  1. 任务定义:偏好代理的目标是将用户意图(u)和相关的任务元数据(m)映射到自然语言偏好规则(P)。这些规则将用来引导大型预训练模型(ML)的输出,以匹配用户的个性化需求。

  2. 模型训练

    • 零样本响应:首先,让大型模型(ML)对训练数据集(D)生成零样本(zero-shot)响应。这些响应是基于模型的预训练知识,不包含任何用户特定的偏好信息。
    • 提取偏好规则:然后,利用ML的能力提取零样本输出(Yz)和真实输出(G)之间的差异。这个差异代表了需要由小型模型(MS)学习的偏好规则(P)。
    • 训练小型模型:接下来,训练小型模型(MS)来生成这些偏好规则。训练数据由输入-偏好规则对组成,MS学习将用户意图和任务元数据映射到自然语言偏好规则。
  3. 模型对齐:训练完成后的偏好代理(MA)用于将大型模型的输出与未见过的用户数据对齐。对于新的输入(x),首先使用训练有素的代理生成偏好规则(p),然后将这些规则作为额外的上下文与原始输入一起提供给大型语言模型(ML),生成考虑用户偏好的输出(ya)。

  4. 量化对齐:使用一个评估函数(Eval)在未见过的测试集(T)上评估对齐效果。对于T中的每个例子,该函数比较考虑偏好规则的输出(ya)和不考虑偏好规则的零样本输出(yz)。通过在测试集上聚合这些分数,得到一个总体的对齐分数(Score(T))。

  5. 偏好规则的生成:偏好代理通过分析零样本响应和真实响应之间的差异来生成规则,这些规则以自然语言的形式提供具体的指导,例如调整语气、长度、风格等。

这种方法的关键在于,它允许使用小型模型来有效地学习和适应个体用户的偏好,而无需对大型模型进行全面的微调。这样,个性化的过程既高效又实用,因为它不需要大量的计算资源,并且可以轻松地集成到各种应用中。

7. 实验效果:

  • 在包括电子邮件、新闻文章和产品评论在内的三个不同的数据集上评估了该方法。
  • 结果表明,偏好引导的LLMs在自动指标、GPT-4o评估和人类判断方面,显著优于微调基线和标准提示技术。
  • 在某些情况下,与现有个性化方法相比,性能提升高达80%。

在这里插入图片描述

8. 重要数据与结论:

  • 在不同的数据集和LLMs上,偏好代理显著提高了与用户偏好对齐的LLM输出。
  • 该方法在数据和计算效率方面显著优于现有方法。

9. 小结

这篇文章提出了一个创新的方法来解决个性化LLMs的挑战,这对于希望在不牺牲个性化的情况下扩展LLMs应用的研究人员和实践者来说是非常有价值的。


后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2197548.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

『网络游戏』Tips弹窗队列【10】

修改脚本:DynamicWnd.cs 修改脚本:GameRoot.cs 运行项目 - Tips提示消息按顺序依次弹出显示 修改代码:GameRoot.cs 修改代码:LoginSys.cs 运行项目 设置初始化函数 将CreateWnd设置为隐藏 运行项目 本章结束

YOLO 二元分类器

YOLO 二元分类器 在评估二元分类器性能时,TP、FP、TN和FN是四个核心指标,它们分别代表真阳性、假阳性、真阴性和假阴性。以下是这些指标的定义、计算方法以及在实际应用中的意义: 定义 TP(真阳性):模型正…

【多重循环在Java中的应用】

多重循环在Java中的应用 介绍 多重循环是将一个循环嵌套在另一个循环体内的编程结构。Java中的 for、while 和 do...while 循环均可作为外层循环和内层循环。建议使用两层嵌套,最多不超过三层,以保持代码的可读性。 在多重循环中,外层循环执…

POST注入通过sqli-labs靶场less-11

POST注入原理 原理介绍 进入第十一关靶场,我们发现是一个登录窗口,随意提交数据,显示 在url地址进行get提交,发现一直是登录窗口,页面无其他变化,想到post提交注入。 通关原理 打开靶场源码文件。 查看…

ChatGPT+AI项目实战:打造多端智能虚拟数字人

ChatGPTAI项目实战:打造多端智能虚拟数字人 越是就业难的情况下,就要越不断的提升自己的能力。前端开发饱和,Java开发饱和,还有什么不饱和呢,AI开发! 本文将详细介绍一门旨在通过项目实战,融合…

图片压缩王2.1.5 | 高效图片处理,无广告无登录

图片压缩王是一款专为安卓用户设计的高效图片处理工具。支持批量压缩、格式转换、缩放和裁剪等功能,无广告无登录,让你专注图片处理。 大小:25M 百度网盘:https://pan.baidu.com/s/1cfNJmy6-KeNtlMJRknMZOA?pwdolxt 夸克网盘&am…

【Linux基础】03 Linux环境基础开发工具使用

1. yum ——软件包管理器 yum 是我们 Linux 预装的一个指令,搜索、下载、、安装对应的软件 yum 相当于 Linux 的应用商店! 安装与卸载 yum list | grep command 通过 yum list 命令可以罗列出当前一共有哪些软件包. 由于包的数目可能非常之多, 这里我…

微知-如何通过systemctl查看是否存在某个服务?如何全局查看所有的服务?(systemctl list-units --type=service, )

背景 本文介绍在某些场景需要查看是否启动某个服务, 命令 可以全局服务查看:(常用在记不清命令名字,只能记住片段) systemctl list-units --typeservice | grep rsh也可以直接查看 systemctl status rshim 或者&a…

【数据分享】1901-2023年我国省市县三级逐月最高气温数据(免费获取/Shp/Excel格式)

之前我们分享过1901-2023年1km分辨率逐月最高气温栅格数据(可查看之前的文章获悉详情),该数据来源于国家青藏高原科学数据中心,很多小伙伴拿到数据后反馈栅格数据不太方便使用,问我们能不能把数据处理为更方便使用的Sh…

Cannon-ES中RaycastVehicle的深入探索与实践

本文目录 前言1、RaycastVehicle1.1 概念1.2 核心特性1.3 应用场景 2、前置代码准备3、RaycastVehicle的使用3.1 代码3.2 效果 4、监听施加力4.1 代码4.2 效果 前言 在三维物理引擎的世界里,Cannon-ES以其轻量级、高效和易于集成的特点,赢得了众多开发者…

小红书推广7种策略让你在竞争中脱颖而出-华媒舍

1. 小红书(Redbook) 小红书是中国一家以时尚生活为主题的社交电商平台,为用户提供购物、分享、评论和推广的综合服务。用户可以在平台上发布和浏览心得、评价和购买链接。随着用户数量的不断增加,如何在竞争中脱颖而出&#xff0…

远程控制软件推荐:亲测好用!

无论是在家办公、技术支持还是远程协助家人,一个好的远程控制工具都能让我们的工作更加高效。下面,我将分享我对几款流行的远程控制软件的个人体验,并给出我的推荐。 向日葵远程控制 直达链接:down.oray.com 向日葵远程控制是…

《重生到现代之从零开始的C语言生活》—— 联合体和枚举

联合体 像结构体一样,联合体也是由一个或多个成员构成 但是只会给最大的成员分配内存,联合体的特点就是所有成员共用一块内存空间,所以也叫共同体 由于所有的成员共用一块内存空间,所以如果给其中的一个成员赋值的话&#xff0…

外贸财务管理必备,6款热门软件优势对比

外贸企业的财务管理面临着多币种结算、汇率波动、跨境支付等复杂问题。本文将盘点Zoho Books、KashFlow、Sage Intacct等六款热门的外贸财务软件,并探讨它们各自的优势与特点,以帮助外贸企业做出明智的选择。 一、Zoho Books Zoho Books是一款面向中小企…

集合框架05:List接口使用、List实现类、ArrayList使用

视频链接:13.11 ArrayList使用_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1zD4y1Q7Fw?p11&vd_sourceb5775c3a4ea16a5306db9c7c1c1486b5 1.List接口使用代码举例 package com.yundait.Demo01;import java.util.ArrayList; import java.util.List;pu…

DAMA数据管理知识体系(第8章 数据集成和互操作)

课本内容 8.1 引言 概要 数据集成和互操作(DII)描述了数据在不同数据存储、应用程序 和组织这三者内部和之间进行移动和整合的相关过程数据集成和互操作是新兴大数据管理领域的核心业务驱动因素 数据集成和互操作的主要目的是为了对数据移动进行有效的管…

open3D release版配置及简单使用

open3D release版配置及简单使用 0 引言1 open3d库文件获取及配置到VS1.1 open3d库文件获取1.2 open3d库配置到VS 2 测试open3d库3 结语 0 引言 💻💻AI一下💻💻 Open3D是一个用于处理3D数据的开源库。它提供了一系列算法和工具&a…

职场中的人情世故,你懂了多少?

职场如战场,稍有不慎,满盘皆输。 职场如江湖,不是打打杀杀,而是人情世故。 成年人的世界里没有“容易”二字,我们也需要懂得哪些人情世故和。 职场上的各种光怪陆离现象,有很多职场人吐槽:“…

云岚到家,使用Elasticsearch实现服务的搜索功能,使用Canal+MQ完成服务信息与ES索引同步。MQ

为什么使用elasticsearch?数据很多么? 项目使用Elasticsearch是实现了门户上对服务的搜索。 平台上的服务数据是并不是很多,全国所有区域下的服务信息加一起几千条,之所以使用Elasticsearch是因为: 1、公司架构师在系统架构时…

九、5 USART串口数据包

数据包作用:把一个个单独的数据给打包起来,将同一批的数据进行打包和分割,方便接收方进行识别,方便我们进行多字节的数据通信。 1、串口收发HEX数据包 (1)数据包的格式是个人规定的,如以FF为包…