Selective Generation for Language Models 语言模型的选择性生成

news2024/11/5 12:13:28

生成式语言模型(Generative Language Models, GLMs)在文本生成任务中取得了显著进展。然而,生成内容的“幻觉”现象,即生成内容与事实或真实语义不符的问题,仍是GLMs在实际应用中的一个重大挑战。为了解决这一问题,本文提出了一种新颖的选择性生成方法——神经选择性生成(NSeGen),并使用逻辑蕴含(entailment)来更好地控制生成内容的假阳性率(FDR),提高了模型的生成可靠性。

一、研究背景和挑战

1. 生成式语言模型的“幻觉”问题

生成式语言模型,如GPT-3和Alpaca-7B,虽然在生成自然语言内容上取得了突破,但生成内容的可信度一直令人担忧。尤其是在一些关键领域(如医疗诊断、法律咨询、新闻传播等),生成内容必须精准可靠,否则会产生严重后果。GLMs生成的“幻觉”指的是模型在缺乏真实信息支撑时生成错误内容,这种现象在生成模型中非常普遍。

传统上,解决这一问题的方式包括:

  • 校准(Calibration):调整模型输出的置信度,使生成内容与真实情况更吻合。但校准主要解决的是模型过度自信的问题,并不能从根本上控制生成内容的准确性。

  • 符合预测(Conformal Prediction):使用统计方法量化预测内容的置信区间。这种方法在回归或分类任务中有效,但在生成式任务中无法保证生成内容的语义正确性。

本文的创新点在于提出一种新的生成机制,利用逻辑蕴含关系来控制生成内容的正确性,避免传统方法仅依赖于表面词汇的精确匹配问题。

二、方法概述:逻辑蕴含与选择性生成

本文提出了一个新的选择性生成方法——NSeGen,其核心在于通过逻辑蕴含关系实现语义层面的准确性控制。以下是NSeGen的三个核心部分:

1. 逻辑蕴含与假阳性率控制

逻辑蕴含是一种语义层面的判断方法,通常用于自然语言推理任务。通过判断生成内容是否能在语义上蕴含真实答案,NSeGen能够在语义正确性上做出更精确的选择。本文提出了基于逻辑蕴含的假阳性率(FDR-E),即计算生成内容在语义上不符合真实答案的比例,从而避免生成错误内容。

2. 选择性生成的监督与半监督方法

为实现上述假阳性率控制,NSeGen设计了两种生成方式:

  • 监督选择性生成:该方法利用带有蕴含标签的标注数据来训练模型,使得生成的内容在语义上更符合真实答案。然而,标注逻辑蕴含标签成本较高,导致监督方法难以大规模应用。

  • 半监督选择性生成:为降低标注成本,NSeGen提出了半监督学习方法,即构建“蕴含集合”(entailment set)作为伪标签。该集合包含了语义上与真实答案一致的生成内容,用于替代部分标注数据。这种半监督方法能够在无标签数据的基础上实现更高的生成准确性和效率。

3. 神经选择性生成(Neuro-Selective Generation)

传统的选择性生成方法多依赖于单一的参数化模型,而NSeGen使用神经网络设计选择函数(neuro-selection functions),能在多特征的高维空间中灵活选择符合逻辑蕴含的生成内容。这种多参数组合提高了选择函数的精确性和生成内容的合理性。

三、实验设计与结果分析

1. 实验数据与模型

论文选用GPT-3.5和Alpaca-7B两个生成模型,数据集选用了Natural Questions开放问答数据集。具体实验包括了27,000条无标签数据和数千条带有逻辑蕴含标签的数据。为了验证NSeGen的有效性,论文设计了以下对比实验。

2. 假阳性率控制

在假阳性率控制方面,NSeGen表现出显著优势。在图2中,可以看到NSeGen在数据规模较大时依然保持了较低的假阳性率(FDR-E),与传统选择性生成方法相比,展示了更高的稳定性和生成效率。这些实验表明,NSeGen通过半监督学习构建的蕴含集合,能够有效减少标注需求的同时,显著提高生成内容的语义正确性。

3. 生成效率与语义准确性

NSeGen在生成复杂答案任务中的表现也远优于传统方法。通过表1和表2中的生成示例可以看到,NSeGen能够在复杂问答任务中生成符合真实语义的答案,避免依赖于精确匹配。例如,在回答“电影《玛丽·玛格达琳》中的耶稣是谁扮演的?”这一问题时,NSeGen生成了正确的“杰昆·菲尼克斯”,而其他方法可能拒答或生成错误答案。

4. 不同选择函数的对比

为了进一步分析神经选择性函数的优越性,实验进行了多特征神经选择函数和传统单一参数化选择函数的对比。多特征选择在无标签数据情况下表现出更高的生成准确性和效率,特别是在语义匹配任务中表现尤为明显。

四、方法优势与局限性

  • 优势 NSeGen在语义层面确保了生成内容的正确性,适用于对生成内容可靠性要求较高的场景(如医疗、法律等)。此外,半监督方法的引入降低了对标注数据的依赖,使得该方法具备更强的实际应用潜力。

  • 局限性 NSeGen依赖于i.i.d.样本的假设,而实际应用中未必能满足该条件。此外,逻辑蕴含标签的获取仍存在高成本问题,即便通过半监督学习减轻了这一问题,标注需求依然对实际推广构成了限制。

五、未来展望

未来研究可以继续优化NSeGen的半监督生成机制,进一步降低对蕴含标签的依赖。此外,将NSeGen推广到跨领域、多任务的生成应用中,甚至引入多模态信息(如图像、视频等),都有望进一步提升生成内容的语义准确性和丰富性。

总结

本文提出了一种基于逻辑蕴含的选择性生成框架,通过语义匹配而非精确匹配,在语义正确性上显著提升了生成内容的可信度。NSeGen结合了监督与半监督方法,在保证生成内容高准确性的同时有效控制了假阳性率,为生成式语言模型在关键领域的实际应用提供了新的可能。

论文下载

  • 论文地址:openreview.net/pdf?id=jHU3tpL5Of

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2232559.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

git clone,用https还是ssh

前言 在使用Git去克隆项目时,会遇到https和ssh等形式,这两种又有何种区别呢,本文将重点讨论在具体使用中的问题。 注:第一次使用Git 时,需要先设置全局用户名和邮箱,否则后续使用命令时会报错,也是提醒先添…

最新整理:Selenium自动化测试面试题

1.selenium中如何判断元素是否存在? find_elements查找到的元素个数为0,find_element报错意味着元素不存在 2.如何判断元素是否出现? 判断元素是否出现,存在两种情况,一种是该元素压根就没有,自然不会出现;另外一种是有这样的…

业绩代码查询实战——php

一、一级代码显示职员 foreach($data_职员信息 as $key > $value){//$where_查询分类$where_查询通用;//$dat分类one $业绩提成->where($where_查询分类)->order("CreateDate desc")->select();if($value[haschildname]0 && $value[key] !"…

如何彻底删除gitbash中所有的命令记录、以及彻底删除Windows powerShell或者cmd中的所有命令记录

文章目录 1. 文章引言2. 彻底删除gitbash中所有的命令记录3. 彻底删除Windows powerShell或者cmd中的所有命令记录1. 文章引言 有时,我们使用外部电脑从gitbash中下载代码,假设使用history -c命令: 可以清除当前弹框的历史记录,但也无法彻底删除命令记录。打开gitbash后,通…

工作管理实战指南:利用Jira、Confluence等Atlassian工具打破信息孤岛,增强团队协作【含免费指南】

如果工作场所存在超级反派,其中之一可能会被命名为“信息孤岛”,因为它们能够对公司的生产力和协作造成严重破坏。当公司决定使用太多互不关联的工具来完成工作时,“信息孤岛”就会出现,导致团队需要耗费大量时间才能就某件事情达…

OceanBase V4.3.3,首个面向实时分析场景的GA版本发布

在10月23日举办的 OceanBase年度发布会 上,我们怀着激动之情,正式向大家宣布了 OceanBase 4.3.3 GA 版的正式发布,这也是OceanBase 为实时分析(AP)场景打造的首个GA版本。 2024 年初,我们推出了 4.3.0 版本…

最新最全面的JAVA面试题免费下载

面对求职市场的激烈竞争,掌握全面且深入的Java知识已成为每一位Java开发者必不可少的技能。《2023最新版Java面试八股文》是一份精心整理的面试准备资料,旨在帮助广大开发者系统复习,从容应对Java及相关技术栈的面试挑战。这份文档不仅汇聚了…

Spring Security 框架篇-深入了解 Spring Security 的授权核心功能(RBAC 权限模型、自定义异常处理器、校验权限方法)

🔥博客主页: 【小扳_-CSDN博客】 ❤感谢大家点赞👍收藏⭐评论✍ 文章目录 1.0 权限系统 1.1 引入 1.2 RBAC 权限模型 1.3 数据库设计 2.0 Spring Security 核心功能-授权 2.1 思路分析 2.2 编写 SQL 语句 2.3 将用户权限进行封装 2.4 获取用户…

博捷芯MIP专机:精密划片技术的革新者

BJX8160 精密划片机作为MINI行业的专用机,凭借其全自动上下料、高精度高速度um级无膜切割以及兼容多种上下料方式等特点,成为了工厂无人值守自动化的理想选择。同时,MIP专机作为博捷芯的独创产品,展现了博捷芯在精密划片机领域的领…

【嵌入式】STM32中的SPI通信

SPI是由摩托罗拉公司开发的一种通用数据总线,其中由四根通信线,支持总线挂载多设备(一主多从),是一种同步全双工的协议。主要是实现主控芯片和外挂芯片之间的交流。这样可以使得STM32可以访问并控制各种外部芯片。本文…

Android 虚拟化框架(AVF)指南

Android 虚拟化框架(AVF)指南 一、项目介绍二、项目特色三、如何使用AVF四、总结 随着移动设备的普及和应用场景的多样化,安全性和隐私保护成为了移动操作系统的重要课题。Android作为全球最广泛使用的移动操作系统之一,一直在不断…

explain执行计划分析 ref_

这里写目录标题 什么是ExplainExplain命令扩展explain extendedexplain partitions 两点重要提示本文示例使用的数据库表Explain命令(关键字)explain简单示例explain结果列说明【id列】【select_type列】【table列】【type列】 【possible_keys列】【key列】【key_len列】【ref…

1.2 图像处理基本操作

在本实战中,我们将学习如何使用OpenCV进行基本的图像处理操作。首先,我们将通过cv2.imread()函数读取图像,并使用cv2.imshow()在窗口中显示它。接着,我们将探索如何通过cv2.imwrite()保存图像,并设置不同的参数以控制图…

[Unity Demo]从零开始制作空洞骑士Hollow Knight第十八集:制作UI系统的主菜单界面和选择存档界面

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、制作UI系统的主菜单界面 1.选择存档界面制作 2.代码的逻辑处理二、制作UI系统的选择存档界面 1.选择存档界面制作2.代码的逻辑处理总结 前言 hello大家好久…

Unity照片墙效果

Unity照片墙效果,如下效果展示 。 工程源码

华为HarmonyOS打造开放、合规的广告生态 - 贴片广告

场景介绍 贴片广告是一种在视频播放前、视频播放中或视频播放结束后插入的视频或图片广告。 接口说明 接口名 描述 loadAd(adParam: AdRequestParams, adOptions: AdOptions, listener: AdLoadListener): void 请求单广告位广告,通过AdRequestParams、AdOptions…

基于 Transformer 的语言模型

基于 Transformer 的语言模型 Transformer 是一类基于注意力机制(Attention)的模块化构建的神经网络结构。给定一个序列,Transformer 将一定数量的历史状态和当前状态同时输入,然后进行加权相加。对历史状态和当前状态进行“通盘…

【天线&运输】冲浪者检测系统源码&数据集全套:改进yolo11-DySnakeConv

改进yolo11-SCConv等200全套创新点大全:冲浪者检测系统源码&数据集全套 1.图片效果展示 项目来源 人工智能促进会 2024.11.03 注意:由于项目一直在更新迭代,上面“1.图片效果展示”和“2.视频效果展示”展示的系统图片或者视频可…

计算机毕业设计Hadoop+Spark大模型微博情感分析 微博舆情分析 微博爬虫 微博可视化 微博大数据分析 微博大数据 大数据毕业设计 Hive数据仓库

温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…

WPF中如何简单的使用MvvmLight创建一个项目并进行 增删改查

第一步:创建项目后下载如下两个NuGet程序包,然后删除删掉using Microsoft.Practices.ServiceLocation; 并且引入using CommonServiceLocator; 第二步:删除原来的XAML文件并创建如下的包结构然后创建一个在View文件夹中创建一个Main窗体 再将…