别再被大模型骗了,一个小技巧,让LLaMa3诚信度提升65%

news2024/12/22 17:17:10

人工智能正以惊人的速度发展,大语言模型(LLM)作为其中的"明星",展现了令人赞叹的语言理解和生成能力。然而,在享受大语言模型带来便利的同时,我们也必须正视其在诚实性和安全性方面所面临的挑战。

近期,华中科大研究团队提出了一个全新框架,从理论和实验两个层面来提升大语言模型的诚实性和有益性。他们构建了一个全新的评测数据集HoneSet,并设计了面向开源和商业模型的优化方法。实验表明,经过两阶段微调之后的llama3诚信度提升65%。

随着人工智能的发展,诚实可靠的AI助手将成为人们的刚需。我们期待看到更多研究者投身于这一领域,共同推动大模型技术走向成熟,更好地造福人类社会。

图片

论文标题:
The Best of Both Worlds: Toward an Honest and Helpful Large Language Model

论文链接:
https://arxiv.org/pdf/2406.00380

大语言模型的诚实性挑战

大语言模型(LLM)以其出色的语言理解和生成能力在自然语言处理领域崭露头角,在对话、写作、问答等方面展现出广阔的应用前景。然而,大语言模型在实际应用中所面临的诚实性挑战,也逐渐成为人们关注的焦点。

图片

这些模型有时会生成似是而非的错误信息,并在面对超出能力范围的问题时,未能坦诚表达自身的局限。这可能影响用户对其输出的信任,用户不会将大模型应用到需要高信任度的任务中。因此,如何提升大语言模型的诚实性,使其成为更可靠、有益的助手,成为了一个亟待解决的问题。

"诚实"大模型的"修炼"之道

针对上述挑战,来自华中科技大学、Notre Dame大学和Lehigh大学的研究者们提出了一个全新的框架,从理论和实践两个层面入手,来提升大语言模型的诚实性和有益性。

首先,研究者从理论层面对诚实的大模型应具备的特点进行了系统梳理和定义。他们指出:

  1. 诚实的大模型应该能够认识到自身的局限性,对超出能力范围的问题给予合理的回应;
  2. 不盲从用户输入,而是秉持客观中立的立场;
  3. 此外还要有清晰的自我认知,不将自己等同于有感知和情感的人类。

基于这些原则,研究者构建了一个全新的评测数据集HoneSet,涵盖了6大类型的"刁钻"问题,对大模型的诚实性进行多角度考察。如下图所示,HoneSet包含了Latest Information、User Input、Professional Capability、Modality Mismatch、Interactivity Sensory和Self Identity这六个类别的问题,旨在全面评估模型在不同场景下保持诚信的能力。

在这里插入图片描述

下图展示了HoneSet数据集的构建过程,其主要包含三个步骤:

  1. 候选数据集构建,即针对6个类别由人工定义种子查询,并利用GPT-4进行上下文学习扩充数据。
  2. 数据过滤和增强,使用OpenAI文本嵌入模型过滤重复数据,并对查询进行复述扩充。
  3. 人工评估,专家对生成的查询进行筛选和完善,以保证数据质量。

在这里插入图片描述

其次,研究团队从实践层面设计了两种优化方法,分别面向开源模型和商业模型:

  1. 开源模型

    面向开源模型,他们提出了一种"好奇心驱动"的提示优化方法。该方法分为两个阶段:好奇心驱动的提示生成和答案优化。

    图片

    在第一阶段,通过设计巧妙的提示,引导模型阐述对问题的疑惑和不确定性。具体而言,提示模板会鼓励模型仔细分析问题,表达自己的困惑,例如缺乏实时信息、用户输入不足或有误、缺乏特定领域知识等。这一步旨在唤起模型对自身局限性的认知。

    在第二阶段,研究者将模型的疑虑和原始回答结合,再次输入给模型,并给出一个"宪法导向"的提示,引导模型基于预设的诚信原则优化回答。优化后的回答应包含对局限性的坦诚交代,以及对用户的有益引导。

  2. 商业模型

    面向商业模型,研究者提出了一个包含两个阶段的微调流程:

    (1)第一阶段通过优化对比损失函数,在HoneSet上训练模型区分诚实和不诚实的回答;

    (2)第二阶段通过优化基于人类偏好的奖励函数,进一步提升模型回答的有益性。

    图片

    整个过程借鉴了课程学习的思想,使模型由浅入深地学习诚信、助人的品质。同时,图中也比较了两阶段微调与直接端到端微调的效果,表明分阶段训练能取得更好的性能提升。

该研究从理论和实践两个层面,系统地探索了打造诚实助人的大语言模型的方法。通过定义诚信准则、构建评测数据集、设计提示优化和微调方法等一系列工作,为提升大模型在实际应用中的可信度和有益性提供了新思路。

诚信"修炼"初见成效

为验证该方法的有效性,研究者在包括GPT-4、ChatGPT、Claude等在内的9个主流语言模型上展开了详尽的实验。

下图展示了基于提示优化方法的实验结果。从图中可以看出采用好奇心驱动的提示后,各模型在HoneSet上的诚实度均有显著提升。如GPT-4和Claude的诚实度升至100%,达到了近乎完美的诚信对齐;而参数量较小的Llama2-7b的诚实度也从43%大幅提高到83.7%。几乎所有模型的诚实度都超过了60%,证明了该方法的普适性。

图片

之后作者进一步比较了优化前后的回答在人工评估中的表现。结果显示,优化后的回答在成对比较中的胜出率普遍高于原始回答,体现了更高的诚实度和有益性。

图片

除此之外,文中还定量展示了回答在解释、解答、指导三个维度上的进步。从结果可以看出,各模型在坦诚解释局限性、提供解题思路、给出具体指导等方面均有长足进展,充分显示了提示优化方法的成效。

图片

下表汇总了Llama3-70b和Mistral-7b等模型在两阶段微调前后的诚实度和评分变化。从表中可以看出,采用两阶段微调后,两个模型在各个得分区间的分布都有明显改善。

图片

采用两阶段微调后,Llama3-8b的诚实度从49.2%提高到91.7%,提升了42.5个百分点,在评估中,其总分也从4.975分升至8.225分,提高了65.3%。Mistral-7b的表现更为亮眼,诚实度从32.5%飙升至85.8%,总分从3.308分翻了一番多,达到7.433分,提升幅度高达124.7%。

值得一提的是,仅用1000对数据进行两阶段微调,就能取得如此显著的效果,展现了该方法的数据效率。

下表进一步展示了不同类别数据在各评分阈值下的表现变化。可以看到,微调后各类别的得分均有不同程度的提高,尤其在User Input、Modality Mis.、Interactivity Sen.等类别的进步最为明显。

图片

除上面表格外,下图则直观地对比了不同阈值设置下,两阶段微调与直接端到端微调的性能差异。无论阈值如何变化,两阶段微调始终优于直接微调,再次印证了循序渐进训练的优越性。

图片

综合以上实验结果,本文提出的提示优化方法和两阶段微调方法都在提升语言模型的诚实性和有益性方面取得了显著成效。一方面,提示优化巧妙利用语言模型的"好奇心",引导其直面自身局限并给出有建设性的回应,无需重训练模型即可实现诚信对齐。另一方面,两阶段微调通过课程学习式的渐进优化,使模型在1000对数据的小样本上即展现出色的诚信助人品质。更重要的是,所提方法在包括开源模型和商业模型在内的各类主流语言模型上都取得了一致的性能提升,证明了其广泛的适用性。

总结与展望

这项研究工作为构建更值得信赖、有益人类的大语言模型探索了一条新路径。随着人工智能触角的不断延伸,诚实可靠的AI助手将成为人们工作和生活中不可或缺的一部分。用户需要AI能开诚布公地认识到自身的局限,同时又能创新性地给出有针对性的协助。

当然,塑造一个诚实守信的AI助手并非一蹴而就。譬如,随着大模型应用场景的拓展,我们需要持续更新对诚信AI的要求;在技术层面,还要进一步探索更高效、更精准的优化算法。这需要学界和业界的通力协作。

如何学习大模型

现在社会上大模型越来越普及了,已经有很多人都想往这里面扎,但是却找不到适合的方法去学习。

作为一名资深码农,初入大模型时也吃了很多亏,踩了无数坑。现在我想把我的经验和知识分享给你们,帮助你们学习AI大模型,能够解决你们学习中的困难。

我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习,等录播视频免费分享出来,需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势,它不仅能够为我们提供更多的机会和挑战,还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型,我们可以深入了解深度学习、神经网络等核心概念,并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时,掌握AI大模型还能够为我们的职业发展增添竞争力,成为未来技术领域的领导者。

再者,学习AI大模型也能为我们自己创造更多的价值,提供更多的岗位以及副业创收,让自己的生活更上一层楼。

因此,学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1885280.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CSF视频文件格式转换WMV格式(2024年可用)

如果大家看过一些高校教学讲解视频的话,很可能见过这样一个难得的格式,".csf ",非常漂亮 。 用暴风影音都可以打开观看,会自动下载解码。 但是一旦我们想要利用或者上传视频的时候就麻烦了,一般网站不认这…

3个企业级最佳实践,教你ByteHouse云数仓这么用

随着各业务场景各行业数字化转型加快,数据量呈爆炸式增长。在拥有庞大数据的同时,业务也在分析、查询与响应层面,对数据库系统性能提出了更高要求。云原生技术推动了分布式数据库系统的迭代升级,对云数仓技术而言,“写…

MacBook关闭谷歌浏览器双指左右移动(扫动)前进后退功能

这个功能真的很反人类,正常上下滑动页面的时候很容易误操作,尤其是当你在一个页面上做了很多的编辑工作后误触发了此手势,那真叫一个崩溃! 其实这应该是 Macbook 触控板提供的一个快捷操作,跟浏览器本身估计没关系&am…

mysql-sql-第十三周

学习目标: sql 学习内容: 37.查询各科成绩最高分、最低分和平均分: 以如下形式显示:课程 ID,课程 name,最高分,最低分,平均分,及格率,中等率,优良率,优秀率 及格为>60,中等为:70-80,优良为:80-90,优秀…

使用Comsol进行边坡稳定性分析的例子——详细步骤(第二部分)

使用Comsol进行边坡稳定性分析的例子——详细步骤 研究1方法结果书接上回 在FOS参数的帮助下,对材料强度进行参数化。在第二个研究步骤中添加 FOS 的辅助扫描。对于某些 FOS 值,解不会收敛,并且设置为最后一个 FOS 值的默认图将给出错误。禁用此研究的默认绘图以避免出现错误…

65、基于卷积神经网络的调制分类(matlab)

1、基于卷积神经网络的调制分类的原理及流程 基于卷积神经网络(CNN)的调制分类是一种常见的信号处理任务,用于识别或分类不同调制方式的信号。下面是基于CNN的调制分类的原理和流程: 原理: CNN是一种深度学习模型&a…

root密码忘了怎么办(从系统引导过程解决)

目录 1.Linux系统密码忘记 2.系统引导过程 2.1 systemd 2.2 GRUB和GRUB2 2.3 运行级别 3.修复MBR扇区故障和GRUB引导故障 3.1 MBR扇区故障 3.2 GRUB引导故障 1.Linux系统密码忘记 我们在生活中经常遇到这类困扰,就是某个账号还是账户密码忘了,这…

Llama也能做图像生成?文生图模型已开源

导读 基于next-token prediction的图像生成方法首次在ImageNet benchmark超越了LDM, DiT等扩散模型,证明了最原始的自回归模型架构同样可以实现极具竞争力的图像生成性能。 Llama也能做图像生成?文生图模型已开源 香港大学、字节跳动提出了基于自回归模…

【AI大模型】大型模型飞跃升级—文档图像识别领域迎来技术巨变_图像识别大模型

写在前面 2023年12月31日,第十九届中国图象图形学学会青年科学家会议在广州举行,由中国图象图形学学会主办。 该会议的目标是促进青年科学家之间的交流与合作,以提升我国在图像图形领域的科研水平和创新能力。 由中国图象图形学学会和上海合合…

如何将音频文件发送至摄像头

目前再很多互联互通的场景下,如AI盒子再从摄像头上取视频分析,分析出发生某个事件,需要反向通过摄像头的喇叭播放语音,发出告警提示,使用场景如下 盒子上对于此类场景的需求往往不能满足,或者为这个需求需要…

Day8: 232.用栈实现队列 225. 用队列实现栈 20. 有效的括号 1047. 删除字符串中的所有相邻重复项

题目232. 用栈实现队列 - 力扣(LeetCode) class MyQueue { public:MyQueue() {}void push(int x) { // 出栈input.push(x);}int pop() {// 如果出栈为空,把入栈元素全都转移到出栈if (output.empty()) {while (!input.empty()) {int itop i…

【WEB前端2024】3D智体编程:乔布斯3D纪念馆-第52课-语音控制机器人

【WEB前端2024】3D智体编程:乔布斯3D纪念馆-第52课-语音控制机器人 使用dtns.network德塔世界(开源的智体世界引擎),策划和设计《乔布斯超大型的开源3D纪念馆》的系列教程。dtns.network是一款主要由JavaScript编写的智体世界引擎…

彭涛 | 2024年6月小结

6月是忙碌的一个月,换办公室,买家具,群发售,新小伙伴入职等等 1、出海小报童 这个月时间主要做小报童,从刚开始设计内容大纲,到写作,后续拉新花费了大量时间。 比如我们要去调研同行&#xff0c…

新能源行业必会基础知识-----电力市场概论笔记-----中长期合约电力市场

新能源行业知识体系-------主目录-----持续更新(进不去说明我没写完):https://blog.csdn.net/grd_java/article/details/139946830 目录 1. 合约市场2. 双边交易3. 集中交易4. 挂牌交易及互联网中长期电力交易平台5. 中长期交易的优势 1. 合约市场 什么是合约市场 …

从选题到定稿:软考高级系统架构设计师论文写作全攻略

一、论文考试概述 软考系统架构设计师考试的最后一门是论文写作,安排在下午进行,时长两小时,要求撰写约3000字的论文,以45分为及格线。时间紧迫,不容过多犹豫与思考,因此需迅速选定并着手撰写。论文题目通…

【数据结构】C语言实现二叉树

C语言实现二叉树 导读一、二叉树的数据类型二、二叉树的初始化2.1 补充知识点——传址传参2.2 补充知识点——指针传参 三、二叉树的创建3.1 通过添加结点创建BST3.2 通过结点序列创建二叉树3.2.1 由遍历序列手算构建二叉树3.2.1.1 构建步骤3.2.1.2 习题演练3.2.1.3 小结 3.2.2…

在C#/Net中使用Mqtt

net中MQTT的应用场景 c#常用来开发上位机程序,或者其他一些跟设备打交道比较多的系统,所以会经常作为拥有数据的终端,可以用来采集上传数据,而MQTT也是物联网常用的协议,所以下面介绍在C#开发中使用MQTT。 安装MQTTn…

yolov5实例分割跑通以及C#读取yolov5_Seg实例分割转换onnx进行检测部署

一、首先需要训练yolov5_seg的模型,可以去网上学习,或者你直接用我的, 训练环境和yolov5—7.0的环境一样,你可以直接拷过来用。 yolov5_seg算法 链接:https://pan.baidu.com/s/1m-3lFWRHwg5t8MmIOKm4FA 提取码&…

第十四届蓝桥杯省赛C++B组D题【飞机降落】题解(AC)

解题思路 这道题目要求我们判断给定的飞机是否都能在它们的油料耗尽之前降落。为了寻找是否存在合法的降落序列,我们可以使用深度优先搜索(DFS)的方法,尝试所有可能的降落顺序。 首先,我们需要理解题目中的条件。每架…

tcpdump命令详解及使用实例

1、抓所有网卡数据包,保存到指定路径 tcpdump -i any -w /oemdata/123.pcap&一、tcpdump简介 tcpdump可以将网络中传送的数据包完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤,并提供and、or、not等逻辑语句来去掉无用的信…