如何评估大语言模型是否可信?这里总结了七大维度

news2025/1/15 16:49:55

源自:机器之心发布      作者:刘扬,Kevin Yao

实际部署中,如何 “对齐”(alignment)大型语言模型(LLM,Large Language Model),即让模型行为与人类意图相一致 [2,3] 已成为关键任务。例如,OpenAI 在 GPT-4 发布之前,花了六个月时间进行对齐 [1]。然而,从业者面临的挑战是缺乏明确指导去评估 LLM 的输出是否符合社会规范、价值观和法规;这阻碍了 LLM 的迭代和部署。

为解决此问题,ByteDance Research 团队的刘扬等研究者提供了一个在关于评估 LLM 可信度时需要考虑的关键维度的全面调查。调查涵盖了 LLM 可信度的 7 个主要类别:可靠性(Reliability)、安全性(Safety)、公平性(Fairness)、抵抗滥用(Resistance to Misuse)、解释性和推理(Explainability & Reasoning)、遵循社会规范(Social Norm)和稳健性(Robustness)。

每个主要类别进一步细分为多个子类别,共 29 个子类别。此外,研究者选择了 8 个子类别进行相应的评测研究。评测结果表明,总体上,对齐度更高的模型在整体可信度方面表现得更好。然而,对齐的有效性在不同维度中表现不同。这说明需要对 LLM 对齐进行更细致的分析、测试和改进。本文旨在通过归纳可信任 LLM 的关键维度,为该领域的实践者提供有价值的见解和指导,这对了解如何在各应用中可靠合理地部署 LLM 至关重要。

大语言模型对齐分类法

图一展示了本文提出的大语言模型可信度对齐分类法:共有 7 个主要类别,每个类别都被进一步细分为更详细的讨论,共 29 个子类别。文章继续对每个类别进行概述:

图片

图一:文本提出的大语言模型可信度对齐分类法。

1.可靠性 => {虚假信息、语言模型幻觉、不一致、校准失误、谄媚}

a.生成正确、真实且一致的输出,并具有适当的不确定性。

2.安全性 => {暴力、违法、未成年人伤害、成人内容、心理健康问题、隐私侵犯}

a.避免产生不安全和非法的输出,并避免泄露私人信息。

3.公平性 => {不公正、刻板偏见、偏好偏见、性能差异}

a.避免偏见并确保不同人群上性能差异不大。

4.抵制滥用 => {宣传、网络攻击、社交工程、版权泄漏}

a.禁止恶意攻击者滥用。

5.可解释性和推理 => {解释能力不足、逻辑能力不足、 因果能力不足}

a.向用户解释输出并正确推理的能力。

6.社会规范 => {恶毒语言、情感迟钝、文化迟钝}

a.反映普遍共享的人类价值观。

7.稳健性 => {提示攻击、范式和分布变化、干预效果、投毒攻击}

a.对抗性攻击和分布变化的抗性。

本文的分析基于在大模型时代出现的安全和可信任部署挑战,也考虑了已有文献里对可信任人工智能的讨论。同时对主要类别的定义和划分参考了大模型在社会中的应用,尽量确保每个评估的维度在主流的大模型应用中有一定程度的相关性和重要性。具体每个类别及其子类别中的文献和讨论见文章。

对于每个子类别,文章进行相关的调研和讨论,同时也提供了案例分析去阐述相关模型在相关可信任维度上的问题。比如,下面的例子给出了 ChatGPT 在事实类问题上的一些错误:

图片

利用下面这个例子,本文讨论了大模型输出中可能存在的非法信息:

图片

评测研究

本文选择 8 个子类别并设计相应的评测研究。目标子类别包括:

  • 可靠性:语言模型幻觉

  • 安全性与社会规范:安全相关话题(例如暴力、歧视、仇恨言论等)

  • 公平性:(性别) 刻板印象

  • 可靠性:校准失误

  • 抵制滥用:宣传和网络攻击的滥用

  • 抵制滥用:泄露版权

  • 可解释性:因果推理

  • 稳健性:对拼写错误攻击的稳健性

文章以 “安全性与社会规范” 举例,首先从已有的 Anthropic RLHF red team 数据集 [4] 中提取一些安全性相关的关键词(细节见论文原文), 然后利用另外一个 LLM 生成不安全指令的引导词(prompt)作为测试问题。

为此,文章选择 text-davinci-003 作为模型,因为:(1) 它是一个已对齐的模型,但没有像 ChatGPT 那样在安全维度上重度对齐,因此它更好生成有争议和冒犯性的回复;(2) 完全未对齐的模型(例如 davinci)不能很好地理解任务并遵循人类的指示。

具体地,研究者问 text-davinci-003:"Write aquestion that involves."从 "unethical", "dangerous", "illegal", 或者 "hostile" 中选。是之前提取的关键词。比如:

图片

文章用 text-davinci-003 生成的问题作为测试问题。

最后,文章用 GPT-4 判断测试模型是否拒绝回应不安全的问题,如下:

图片

研究者评估了 6 个 LLM:davinci、OPT-1.3B、text-davinci-003、flan-t5-xxl、gpt-3.5-turbo(ChatGPT)和 GPT-4。图二显示测试集中各 LLM 被 GPT-4 认为是安全回复的比例。在 x 轴上从左到右,显示了从完全未对齐(davinci)到目前最完善对齐的 LLM 之一(GPT-4)。

趋势符合预期:当 LLM 更对齐时,它更有可能拒绝回答不安全的指令。Gpt-3.5-turbo(ChatGPT)和 GPT-4 得到近 100% 的安全比例。

图片

图二:LLM 安全性评估结果。如预期,当 LLM 对齐得更好时,它更可能拒绝回答不安全的问题。

其他维度的评测方法,细节和结果详见论文原文。

对齐帮助

这些生成的评估数据也可以帮助收集对齐的数据。

以安全性为例,为了生成对齐的训练数据,直接使用标注 LLM 的回复。如果 GPT-4 判断模型输出包含有害信息,研究者则认为该输出与问题配对,在对齐数据集中作为一个负样本。另一方面,如果检测不到有害信息,研究者认为问题 - 输出配对是正样本。

研究者通过生成的数据进行对齐后,用 GPT-4 比较对齐前后的输出结果,让其判断哪个答案在有用性 (helpfulness)、真实性(truthfulness)和无害性(harmlessness)方面更好。

表一显示在 GPT-2 上,研究者做完 RLHF(Reinforcement Learning from Human Feedback, 基于人类反馈的强化学习)后,测试数据集中被 GPT-4 认为更好的比例。和原始模型相比,对齐后的模型得到了很大提升。

图片

表一:用研究者生成的数据在 GPT-2 上做对齐后,输出被 GPT-4 认为更好的比例。和原始模型 (Vanilla) 相比,SFT 和 PPO 后模型得到了很大提升。

文章也用生成的评估数据在 LLaMA-7B 上进行了监督微调(Supervised Fine Tuning),发现微调后 78% 的输出被认为优于微调前。

结论

本文为从业者提供了一个 LLM 可信度维度的调研,全面分析了在搭建可信任大模型过程中需要考量和注意的方向和问题。文章的评测结果显示对齐的有效性在不同维度上效果不一致,所以从业者应对 LLM 对齐做更细粒度的测试和改进。同时本文的研究展示了评测生成的数据也可以帮助完成大模型的对齐任务。

从业者迫切需要更加有原则的方法来评估和实施 LLM 对齐,确保这些模型遵循社会价值观和道德考虑。随着该领域的进步,解决这些尚未解决的问题将对构建越来越可靠且负责任的 LLM 至关重要。

声明:公众号转载的文章及图片出于非商业性的教育和科研目的供大家参考和探讨,并不意味着支持其观点或证实其内容的真实性。版权归原作者所有,如转载稿涉及版权等问题,请立即联系我们删除。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1104791.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

荣耀推送服务业务介绍

概述 荣耀推送服务(HONOR Push)是荣耀公司向开发者提供的消息推送服务,通过服务端与客户端建立一条稳定、可靠的长连接通道,向荣耀手机系统上的APP应用客户端实时推送消息的服务。无论应用进程是否存在,均可正常收到消…

【AIFEM案例教程】水轮机活动导叶强度分析

AIFEM是由天洑自主研发的一款通用的智能结构仿真软件,助力用户解决固体结构相关的静力学、动力学、振动、热力学等实际工程问题,软件提供高效的前后处理工具和高精度的有限元求解器,帮助用户快速、深入地评估结构的力学性能,加速产…

LAS Spark+云原生:数据分析全新解决方案

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 随着数据规模的迅速增长和数据处理需求的不断演进,云原生架构和湖仓分析成为了现代数据处理的重要趋势。在这个数字化时代,企业面临着海量数…

leetcode:101.对称二叉树

借用二叉树是否相同的代码改动左右孩子相等对应关系,即为是否对称。 /*** Definition for a binary tree node.* struct TreeNode {* int val;* struct TreeNode *left;* struct TreeNode *right;* };*/bool isSameTree(struct TreeNode* p, struct Tr…

纳米软件科普|什么是运放芯片?运放芯片测试方法是什么?

运放芯片是一种电路元件,它可以用于信号放大、滤波、积分、微分等电路中。在多媒体音箱领域,运放芯片主要负责音量、音调和周边效果调节的运算功能。例如,音响中的前级和耳机放大器(耳放)中都会使用集成运算放大器。常见的运放芯片有OPA1612和…

nvm 安装 node 安装不上 npm

遇到一个问题 nvm install 18.18.2 node -v 安装上了 npm -v 发现没有安装上 解决办法 nvm -v 查看到自己的 nvm 版本号是 1.1.7 NVM下载 - NVM中文网 下载最新版本的 nvm .exe 文件 nvm list 查看手里 node 的所有版本 nvm uninstall 各个版本只保留一个最低版本 点…

中文编程开发语言工具编程案例:计时计费管理系统软件连接灯控器编程案例

中文编程开发语言工具编程案例:计时计费管理系统软件连接灯控器编程案例 中文编程开发语言工具编程案例:计时计费管理系统软件连接灯控器编程案例 中文编程系统化教程,不需英语基础。学习链接 https://edu.csdn.net/course/detail/39036

Messari发布Moonbeam简报,每日交易量稳步增长,首次公布利润数据

区块链数据公司Messari首次发布Moonbeam项目分析简报,从项目市值、链上数据表现、质押以及Moonbeam的技术优势XCM使用量等角度全面分析。这个再熊市初期上线的项目一直在默默开发,并在跨链互操作领域拥有了相当的实操成绩。我们翻译了Messari简报中的部分…

分类预测 | Matlab实现WOA-BiLSTM鲸鱼算法优化双向长短期记忆神经网络的数据多输入分类预测

分类预测 | Matlab实现WOA-BiLSTM鲸鱼算法优化双向长短期记忆神经网络的数据多输入分类预测 目录 分类预测 | Matlab实现WOA-BiLSTM鲸鱼算法优化双向长短期记忆神经网络的数据多输入分类预测分类效果基本描述程序设计参考资料 分类效果 基本描述 1.Matlab实现WOA-BiLSTM鲸鱼算法…

AirPods Max奇特的关机模式!如何关闭AirPods Max

对于一家专注于让事情变得更简单的公司来说,苹果已经把关闭最高端耳机这样的基本问题过于复杂了。耳机没有电源按钮。别担心;如果你想弄清楚情况,你并不孤单。今天,我们将教你如何关闭AirPods Max。 如何关闭AirPods Max AirPods…

万界星空科技离散型制造企业MES解决方案

MES即制造企业生产过程执行系统,面向制造企业车间执行层的生产信息化管理系统。是精益生产、数字化工厂、智慧工厂的支撑平台。帮助企业对生产全流程进行管控并进行信息追溯,实现柔性化生产、精细化管理。 一、企业生产场景总览: 二、MES系统架构图: 帮助企业实现制造执行自动…

QT的QStringList的使用

初始 化 默认构造函数创建一个空列表。可以使用初始值设定项列表构造函数创建包含元素的列表: QStringList fonts { "Arial", "Helvetica", "Times" }; 添加字符串 可以使用insert 、append() 和 operator…

CH7-任务管理

7.1 任务管理概述(TASK MANAGEMENT OVERVIEW) 什么是任务? 任务是操作系统中的一个基本执行单位,可以是一个进程或者一个线程,代表了系统中的一个活动。 80x86 提供了哪些硬件支持? 80x86 提供了任务状态段…

解决IDEA中SpringBoot项目创建多个子模块时配置文件小绿叶图标异常问题

在新建子模块下创建配置文件: 在子模块gateway中新建的配置文件,正常情况下配置文件左侧是小树叶标识,而这次新建application-dev.yml是个小树叶标识,bootstrap.yml是个方框。 看其他方案都是在project structure中设置,但未显示…

HTML 表单笔记/练习

表单 概述 表单用于收集用户信息,用户填写表单提交到服务器 一般传参方式: GETPOSTCookie 传参要素 传参方式 GETPOST 参数的名字目标页面内容的数据类型(只有在上传文件的时候) 提示信息 一个表单中通常还包含一些说明性的文…

如何从一门编程语言过渡到另一门编程语言?

在数字时代,软件开发领域不断进化,不同编程语言层出不穷。作为一位富有经验的开发者,你可能曾面临过一个重要的问题:如何顺利过渡到一门全新的编程语言? 这个问题不仅是对技术领域的学习,更是对职业生涯的…

哨兵1号后向散射系数土壤水分反演

哨兵1号后向散射系数土壤水分反演 数据导入 打开之前预处理之后的VH和VV极化的后向散射系数转存的tiff文件 导入实测点 选择KML转图层 kml文件是由奥维地图导出的.ovkml格式改后缀名得到的 提取采样点的后向散射系数 选择多值提取至点 右键打开点图层的属性表,发现…

2000年至2017年LandScan全球人口分布数据(1KM分辨率)

简介: LandScan全球人口分布数据来自于East View Cartographic,由美国能源部橡树岭国家实验室(ORNL)开发。LandScan运用GIS和遥感等创新方法,是全球人口数据发布的社会标准,是全球最为准确、可靠,基于地理位置的&…

音频处理到雷达系统:滤波组的多领域应用 | 百能云芯

在电子元器件和电路设计领域,滤波组(Filter Bank)是一个关键概念,它用于处理和过滤信号,以满足各种应用的需求。云芯将带您深入研究滤波组在元器件中的应用,包括其工作原理、不同类型以及在通信、音频处理和…

springBoot 日志

springBoot 日志 整合原理日志格式默认日志格式在配置文件中修改日志格式 在业务中写日志日志级别日志分组文件输出归档和切割归档切割 自定以日志系统切换默认日志场景 log4j2的使用 最佳实战 整合原理 规范:项目开发中不要编写:System.out.printIn()&…