理解和处理不同类型的上下文的新型的语言模型ReALM

news2024/11/23 21:48:29

在人类的日常交流中,模糊的代词如“他们”或“那个”常常出现,它们的意义通常依赖于上下文才能明确。这种上下文的理解对于对话助手来说至关重要,因为它们旨在提供一种自然的交流体验。然而,现有的对话助手在处理这类模糊引用时往往面临挑战。为了克服这一难题,苹果公司的研究者们提出了ReALM(Reference Resolution As Language Modeling),这是一种新型的大型语言模型(LLM),它专门针对引用解析问题进行了优化。ReALM通过将传统的多阶段流程转换为语言建模问题,不仅简化了处理流程,还在不同类型的引用解析任务上取得了显著的性能提升。

用户和智能助手之间的一些示例对话展示,用以说明上下文理解和引用解析在对话中的重要性

ReALM的提出,正是为了解决对话助手在理解用户屏幕上内容以及背景实体时面临的挑战。通过创新的算法,ReALM能够将屏幕上的实体及其位置编码为文本,即使没有视觉输入,也能使LLM“看到”屏幕上的内容,从而在对话中准确捕捉用户的意图。

尽管传统的引用解析系统在对话和视觉/指示引用方面已经取得了一定的进展,但它们在处理屏幕上的引用时仍然存在不足。ReALM通过将屏幕上的实体转换为文本表示,为LLM提供了丰富的上下文信息,使得模型能够更好地理解用户的查询。

ReALM的核心任务是,基于给定的相关实体和用户想要执行的任务,提取与当前用户查询相关的实体。这些实体被分为三种类型:屏幕上的实体、对话中的实体和背景实体。屏幕上的实体可能包括用户正在查看的网页上的链接或电话号码;对话中的实体则来源于用户与虚拟助手之间的交流历史;而背景实体可能包括那些不在用户当前视野内,但与用户操作相关的信息,如后台运行的应用程序或服务。通过精确地识别和解析这些不同类型的实体,ReALM能够提供更加精准和自然的对话体验。

数据集

ReALM的数据集构建是实现其高效引用解析能力的关键。这些数据集由两部分组成:合成数据和注释者创建的数据。合成数据是通过自动化模板生成的,而注释者创建的数据则涉及到人工的参与和判断,两者共同为模型提供了丰富的学习和验证材料。

eALM模型训练和测试所用数据集的大小细节。这些数据集是构成模型学习过程的基础,并且对模型性能有着直接的影响。数据集按照三种不同类型进行划分:对话数据集(Conversational)、合成数据集(Synthetic)和屏幕数据集(On-screen)。每种类型的数据集都进一步被分为训练集和测试集,以便于模型的训练和最终效果的评估

合成数据的生成过程利用了模板,这些模板定义了可能的用户查询和相关实体。模板中的占位符被动态替换为具体的实体信息,从而创造出各种可能的查询场景。这种方法在处理类型基础的引用时特别有效,因为用户查询和实体类型本身就足以解析引用,无需依赖额外的描述信息。合成数据的另一个优势在于它可以快速产生大量的训练样本,有助于模型学习并泛化到各种不同的上下文。

与合成数据相对的是注释者创建的数据,这一部分数据的生成过程需要人工对屏幕上的实体进行识别和分类。注释者会根据屏幕上显示的信息,如电话号码、电子邮件地址等,提供与之相关的用户查询。例如,如果屏幕上显示了一个商家列表,注释者可能会生成类似“请拨打列表中最后一个商家的电话号码”的查询。这种人工生成的数据有助于捕捉更自然、更多样化的语言使用模式,并确保模型能够处理真实世界中的复杂情况。

每个数据点都包含了用户查询和与之相关的实体列表,以及一个真值,即用户查询所指的正确实体或实体集。这些真值对于模型的训练至关重要,因为它们提供了反馈信号,帮助模型学习如何准确地识别和解析引用。

在收集对话数据时,注释者会根据提供的合成列表中的实体生成明确的查询。这些查询需要能够清晰地指向列表中的特定实体,例如,如果列表中包含一系列商家或闹钟,注释者需要构造出能够明确指向列表中特定商家或闹钟的查询语句。

屏幕上的数据收集则更为复杂,它涉及到从网页上提取信息,并将这些信息作为实体与用户查询相关联。注释者需要根据屏幕上的截图,识别并分类信息,然后为这些信息提供独特的查询语句。在后续的注释项目中,注释者需要根据第一阶段收集的查询和对应的截图,判断查询是否自然,并且是否引用了屏幕上的某个实体,同时还需要从列表中识别出查询所指的实体,并标记出查询中引用该实体的部分。

用于注释过程的屏幕截图示例

模型

ReALM模型的竞争对手:两种基线方法,它们为ReALM的评估提供了基准。这两种方法包括基于MARRS的重新实现和基于ChatGPT的模型,它们各自代表了不同的技术和方法论。

MARRS是一种专门为引用解析任务设计的系统,由Ates等人在2023年提出。它代表了一种非LLM的方法,即它不依赖于大型语言模型来处理引用解析。MARRS的设计考虑了引用解析的特定需求,包括对不同类型的引用进行分类和解析。在ReALM的研究中,MARRS作为一个重要的参照点,帮助研究者们评估新模型相对于传统方法的优势和不足。

ChatGPT,包括其GPT-3.5和GPT-4变体,是另一种基线方法。这些模型以其强大的语言理解和生成能力而闻名,它们能够通过上下文学习来预测和生成文本。在ReALM的研究中,研究者们使用ChatGPT的这两个变体来探索大型预训练语言模型在引用解析任务上的表现。特别是,GPT-4的图像理解能力使其在处理屏幕上的引用时具有潜在的优势,因为它能够将视觉信息与文本信息结合起来进行决策。

与前两种方法不同,ReALM采用了一种基于FLAN-T5模型的微调方法。这种方法的核心在于将用户查询和相应的实体转换为适合LLM训练的句子格式。通过在特定任务上继续训练预训练模型,以提高其在该任务上的性能。ReALM没有进行广泛的超参数搜索,而是使用了默认的微调参数,这有助于简化模型训练过程并保持其通用性。

对于每个数据点,包含用户查询和相应的实体列表,ReALM将这些信息转换成适合LLM处理的句子格式。这一步骤是至关重要的,因为它允许模型以一种结构化的方式接收输入,从而更好地理解和预测相关的实体。

ReALM区分了两种类型的引用:对话引用和屏幕引用。对话引用可能基于实体类型或描述性信息,而屏幕引用则依赖于屏幕上实体的位置和属性。

  • 对话引用:ReALM假设对话引用可以是类型基础的或描述性的。类型基础的引用侧重于使用用户查询和实体类型来识别相关的实体,而描述性引用则使用实体的属性来唯一确定它。

  • 屏幕引用:对于屏幕引用,ReALM提出了一种新颖的算法(见算法2),该算法通过解析屏幕上的实体及其位置,生成一个纯文本表示,这个表示在视觉上能够反映出屏幕内容,同时保留实体的相对空间位置。

ReALM使用了一个创新的方法来编码屏幕上的实体。算法首先识别屏幕上所有文本框的位置,然后根据这些位置对实体进行排序,先按垂直方向(从上到下),再按水平方向(从左到右)。通过这种方式,算法能够在文本中模拟屏幕上实体的空间布局。

在准备训练数据时,实体被随机打乱,以防止模型过度拟合到特定的实体位置。这种随机化确保了模型在预测时不会依赖于实体在列表中的特定顺序。

用户屏幕上的元素,并且通过屏幕解析器-提取器可被检测到

通过这些步骤,ReALM模型不仅能够有效地解析对话中的引用,还能够理解和解析屏幕上的视觉信息,使其成为一个全面且强大的引用解析系统。这种方法的创新之处在于它将传统的文本处理任务扩展到了多模态领域,展示了LLM在理解复杂上下文方面的巨大潜力。

结果

在评估ReALM模型的性能时,研究者们通过一系列实验,展示了其在不同数据集上的表现,并与其他基线方法进行了比较。这些数据集包括对话数据集、合成数据集和屏幕数据集,以及一个针对未见过领域的测试集。

不同模型在各种数据集上的准确性。这些数据集包括对话数据集(Conv)、合成数据集(Synth)、屏幕数据集(Screen)以及未见过的领域数据集(Unseen)。准确性的评估标准是模型是否能够正确预测所有相关的实体,如果全部预测正确则为正确,否则为错误

ReALM模型在所有类型的数据集上均展现出了卓越的准确性。在对话数据集上,ReALM的准确度达到了96.7%,而在合成数据集上,准确度更是高达99.5%。在屏幕数据集上,ReALM也表现出色,准确度为88.9%。此外,即使在未见过的领域测试集上,ReALM也显示出了强大的泛化能力,准确度达到了99.3%。

与之相比,MARRS模型在对话数据集上的准确度为92.1%,在合成数据集上为99.4%,在屏幕数据集上为83.5%,在未见过的领域测试集上为84.5%。这表明,尽管MARRS在某些领域表现良好,但ReALM在所有领域都显示出了更高的性能。

GPT-3.5和GPT-4作为基线模型,其表现则各有不同。GPT-3.5在对话数据集上的准确度为84.1%,在合成数据集上为34.2%,在屏幕数据集上为74.1%,在未见过的领域测试集上为67.5%。而GPT-4在对话数据集上的准确度为97.0%,在合成数据集上为58.7%,在屏幕数据集上为90.1%,在未见过的领域测试集上为98.4%。这些结果表明,尽管GPT-4在某些方面与ReALM相当接近,但在屏幕数据集上,ReALM的性能显著优于GPT-4,尤其是在纯文本域中。

研究者们还探讨了模型大小对ReALM性能的影响。他们发现,随着模型大小的增加,所有数据集上的性能都有所提升。具体来说,ReALM-80M、ReALM-250M、ReALM-1B和ReALM-3B这几种不同大小的模型,在对话、合成和屏幕数据集上的准确度分别为96.7%/99.5%/88.9%、97.8%/99.8%/90.6%、97.9%/99.7%/91.4%和97.9%/99.8%/93.0%。这表明,更大的模型能够更好地捕捉数据中的复杂模式,尤其是在处理屏幕数据集时。

ReALM在新领域和特定领域查询上的性能同样不俗。作为一个案例研究,研究者们探索了ReALM在未见过的闹钟领域的零样本性能。结果显示,所有基于LLM的方法在这一测试集上的表现都优于MARRS模型。特别是ReALM和GPT-4在这一领域的性能非常相似,这表明ReALM能够很好地泛化到新的上下文中。

此外,ReALM在处理特定领域的查询时也显示出了其优势。例如,在处理与家庭自动化设备相关的查询时,ReALM能够更准确地识别出相关的实体,而GPT-4则可能因为缺乏特定领域的知识而无法正确解析。

一个用户请求的示例,以及模型如何根据不同的实体类型和用户请求来预测正确的实体

综上所述,ReALM模型在引用解析任务上的表现非常出色,无论是在熟悉的领域还是在未见过的新领域。其性能的提升不仅得益于模型的规模,还得益于其创新的文本编码方法,这种方法使得ReALM能够在纯文本域中有效地处理屏幕上的实体。这些结果证明了ReALM作为一种实用的引用解析系统的巨大潜力,尤其是在需要在设备上本地运行以保证性能和隐私的应用场景中。尽管ReALM在编码屏幕上实体位置方面有效,但仍存在丢失信息的问题,未来可能需要探索更复杂的编码方法。

论文链接:https://arxiv.org/abs/2403.20329

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1861769.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java HashMap 简介

HashMap 简介 HashMap 主要用来存放键值对,它基于哈希表的 Map 接口实现,是常用的 Java 集合之一,是线程不安全的。 HashMap;可以存储 null 的 key 和 value ,但 null 作为 key 只能有一个,null 作为值可以…

非强化学习的对齐方法

在文章《LLM对齐“3H原则”》和《深入理解RLHF技术》中,我们介绍了大语言模型与人类对齐的“3H原则”,以及基于人类反馈的强化学习方法(RLHF),本文将继续介绍另外一种非强化学习的对齐方法:直接偏好优化&am…

深度学习语义分割算法之基础知识

文章目录 前言一、图像分割介绍1.语义分割2.实例分割3.全景分割 二、常见数据集格式1.PASCAL VOC2.MS COCO 三、语义分割结果四、语义分割常见评价指标1.Pixel Accuracy2.mean Accuracy3.mean IoU 五、语义分割标注工具结束语 💂 个人主页:风间琉璃🤟 版…

FireFox 编译指南2024 Windows10篇-环境准备(一)

1. 引言 在开源浏览器项目中,Firefox因其高性能和灵活性而备受开发者青睐。为了在本地环境中编译和定制Firefox,开发者需要做好充分的环境准备工作。这不仅是编译成功的基础,也是后续调试、优化和二次开发的关键步骤。 编译Firefox是一个复…

硬核实力再亮,玩出梦想科技发布全球首款安卓系统空间计算机

6月25日,玩出梦想科技在新加坡召开全球新品发布会,正式发布全球首款安卓系统空间计算机——玩出梦想MR,填补了空间计算机在安卓生态的空白。 作为品牌沉淀两年的破晓之作,玩出梦想MR以业内领先软硬件配置,强大自研算法…

kafka--发布-订阅消息系统

1. Kafka概述 1. kafka是什么 kafka是分布式的、高并发的、基于发布/订阅模式的消息队列软件系统。 kafka中的重要组件 Producer:消息生产者,发布消息到Kafka集群的终端或服务Consume:消费者,从Kafka集群中消费消息的终端或服…

CAN报文的发送类型-OnChange、OnWrite、IfActive、Repetition

CAN报文的发送类型分为基本发送类型和混合发送类型两大类 CAN基本发送类型包括Cyclic周期发送、OnChange变化时发送、OnWrite写入时发送和IfActive有效时发送。基本发送类型中的Cyclic称为周期型,而其他3个类型称为事件型(Event)。发送次数是通过定义Repetition重复次数来实…

AI 编程探索- iOS动态标签控件

需求分析: 标签根据文字长度,自适应标签居中显示扩展 超过内容显示范围,需要换行显示,且保持居中显示 AI实现过程 提问: 回答: import UIKit import SnapKitclass DynamicLabelsContainerView: UIView…

python基础篇(5):None类型

1 None类型 Python中有一个特殊的字面量&#xff1a;None&#xff0c;其类型是&#xff1a;<class NoneType> 无返回值的函数&#xff0c;实际上就是返回了&#xff1a;None这个字面量 None表示&#xff1a;空的、无实际意义的意思 函数返回的None&#xff0c;就表示…

[MYSQL] MYSQL库的操作

前言 本文主要介绍MYSQL里 库 的操作 请注意 : 在MYSQL中,命令行是不区分大小写的 1.创建库 create database [if not exists] database_name [charsetutf8 collateutf8_general_ci] ...] create database 是命名语法,不可省略[if not exists] 如果不存在创建,如果存在跳过…

基于CRITIC-TOPSIS法的各地区评价

1.CRITIC-TOPSIS法原理 1.1 基本理论 CRITIC-TOPSIS法是一种结合CRITIC&#xff08;Criteria Importance Through Intercriteria Correlation&#xff09;法和TOPSIS&#xff08;Technique for Order Preference by Similarity to Ideal Solution&#xff09;法的综合评价方法…

盲盒小程序开发:解锁未知,探索无限惊喜

一、开启新篇章 在追求独特与新颖的时代&#xff0c;盲盒以其神秘感与未知性&#xff0c;成为了年轻人热衷的购物新方式。为了满足这一市场需求&#xff0c;我们精心打造了一款全新的盲盒小程序&#xff0c;带您步入一个充满未知与惊喜的购物新领域。 二、产品亮点 精选商品&…

B端系统:日历组件设计,小组件蕴含大学问。

B端日历组件在企业级应用中具有重要作用&#xff0c;它可以用于管理和展示企业内部的日程安排、会议安排、任务分配等。 设计B端日历组件时&#xff0c;可以考虑以下几点&#xff1a; 显示方式&#xff1a;提供多种显示方式&#xff0c;例如月视图、周视图、日视图等&#xf…

FineReport聚合报表与操作

一、报表类型 模板设计是 FineReport 学习过程中的主要难题所在&#xff0c;FineReport 模板设计主要包括普通报表、聚合报表、决策报表三种设计类型。 报表类型简介- FineReport帮助文档 - 全面的报表使用教程和学习资料 二、聚合报表 2-1 介绍 聚合报表指一个报表中包含多个…

解决了!暗影精灵8 Pro酷睿版无声音,扬声器和麦克风都没有声音!

困扰好几天的问题解决了&#xff01; 暗影精灵8 Pro酷睿版无声音&#xff0c;扬声器和麦克风都没有声音&#xff01;&#xff01;方法适用于OMEN by HP Gaming Laptop 16-k0xxx&#xff08;暗影精灵8 Pro酷睿版&#xff09;的Windows 10声卡驱动&#xff01; 朋友们&#xff…

启动VMWare虚拟机报错

1. 无法打开内核设备“\\.\VMCIDev\VMX”: 操作成功完成。是否在安装 VMware Workstation 后重新引导? 模块“DevicePowerOn”启动失败。 未能启动虚拟机。 解决办法: 解决办法: 将 Ubuntu 64 位.vmx 找到vmci0.present"TRUE"这行改成 vmci0.present "FAL…

pinia.js报patchToApply.hasOwnProperty is not a function

vue3 ts pinia.js 先看报错> patchToApply.hasOwnProperty is not a function 错误信息&#xff1a; pinia.js?v91704efd:913 Uncaught (in promise) TypeError: patchToApply.hasOwnProperty is not a functionat mergeReactiveObjects (pinia.js?v91704efd:913:23)…

【学习】软件测试中常见的文档类型及其作用

在软件开发的生命周期中&#xff0c;软件测试是确保产品质量的关键步骤。为了系统地进行测试活动&#xff0c;并保证测试结果的有效性和可追溯性&#xff0c;产生了一系列标准化的测试文档。这些文档不仅为测试人员提供了执行指南&#xff0c;而且为项目管理者和利益相关者提供…

外部建筑3D 渲染的 5个关键角度,让你的效果图更具吸引力

对于建筑师和房地产专业人士来说&#xff0c;拥有大量高质量的项目图片至关重要&#xff0c;因为这可以吸引更多的潜在客户。。在展示您的3D效果图时&#xff0c;摄像机角度是一个关键因素。不同的视角影响细微的细节、当地环境和建筑亮点&#xff0c;最终影响项目的感知。那么…