大模型如何可信?字节跳动研究的最新《可信赖的大型语言模型》综述,提出评估 LLMs 可信度时需要考虑的七大维度

news2025/1/11 18:06:59

文章目录

  • 一、前言
  • 二、主要内容
  • 三、总结

🍉 CSDN 叶庭云https://yetingyun.blog.csdn.net/


一、前言

论文地址:Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models’ Alignment

在将大型语言模型(LLMs)应用于实际场景之前,确保对齐性已成为一项关键任务。确保对齐性指的是让模型的行为与人类意图相一致。例如,在 GPT-4 发布之前,OpenAI 花了 6 个月的时间迭代对齐 GPT-4。然而,目前从业者面临的一个主要挑战是:缺乏评估 LLMs 的输出是否符合社会规范、价值观和法规的明确指导

这一障碍阻碍了 LLMs 的系统迭代和部署。为了解决这个问题,这篇论文对评估 LLMs 可信度时需要考虑的关键维度进行了全面的调查。该调查涵盖了 LLMs 可信度的七大维度:

  • 可靠性
  • 安全性
  • 公平性
  • 抗误用性
  • 可解释性和推理性
  • 遵守社会规范
  • 鲁棒性

每一大类又进一步分为若干小类,结果共产生 29 个小类。此外,还选取了 8 个子类别的子集作为进一步研究的对象,在几个广泛使用的 LLMs 上设计并进行了相应的测量研究。测量结果表明,一般来说,做了更多对齐的模型往往表现更好的整体可信度。然而,对齐的有效性因所考虑的不同可信度的维度而有所差异。这突出了进行更细粒度的分析、测试和对 LLMs 的对齐进行持续改进的重要性。通过阐明 LLMs 可信度的这些关键维度,这篇论文旨在为该领域的从业者提供有价值的见解和指导。理解和解决这些问题对于在各种实际应用中实现可靠和合理的 LLMs 部署至关重要。

论文的实验脚本和生成的数据:https://github.com/kevinyaobytedance/llm_eval

当前执行 LLMs 对齐的标准流程的示意图如下所示

在这里插入图片描述

  • 第一步:有监督 Fine Tuning。给定一个在大规模文本数据集上训练的预训练过的(未对齐的)LLM,我们首先对 prompts 进行采样,并要求人类根据 prompts 编写相应的(好的)输出。然后,我们对预训练过的 LLM 在 prompt and human-written outputs 上进行精细处理,以获得 SFT LLM。
  • 第二步:训练奖励模型。我们再次对 prompts 进行采样,对于每个 prompt,我们从 SFT LLM 生成多个输出,并请人类对它们进行排名。根据排名结果,我们训练了一个奖励模型(一个预测 LLM 的输出有多好的模型)。
  • 第三步:基于人类反馈的强化学习。给定一个 prompt,我们对 SFT LLM 的输出进行采样。然后我们用训练好的奖励模型来预测输出的奖励。这里使用了强化学习(RL)算法更新带预测奖励的 SFT LLM。

二、主要内容

提议的对评估 LLMs 可信度时需要考虑的七大关键维度及其子类别的分类法。包括 7 个主要类别:可靠性、安全性、公平性、抗误用性、可解释性和推理性、遵守社会规范和鲁棒性。每个大类包含若干小类,总共有 29 个小类。

在这里插入图片描述

LLMs 目前的主要应用。将实际应用分为了四大类:写作辅助、信息检索、商业用途和个人用途。请注意,这些应用都或多或少地相互重叠,论文的介绍肯定不是完全详尽的。

在这里插入图片描述


三、总结

这篇论文对评估 LLMs(大型语言模型)的可信度方面的重要因素进行了全面调查。提供了详细的分类法,并讨论了在这些维度上进行对齐的挑战。调查了大量文献,以寻找相应的潜在解决方案(如果存在)。除了论文提出的分类法,还提供了一组选定维度的详细测量研究。展示了如何构造一个数据集来自动化 LLMs 对齐度量的评估。作者观察到,做了更多对齐的 LLMs(基于公开声明的关于已执行对齐的信息)通常表现得更好。但在特定主题上肯定有改进的余地,这表明了执行更细粒度的对齐以实现更好的可信度覆盖的重要性和好处。

研究结果表明,总体而言,根据公开宣称的对齐效果信息,表现出更高对齐度的大语言模型倾向于表现更好。然而,作者也观察到在特定主题上仍有改进的空间。这一发现强调了进行更精细对齐以实现更全面可信度覆盖的重要性和优势。总体而言,这项研究为理解和评估大语言模型的可信度提供了有价值的见解和指导,突出了在各个维度上实现鲁棒性对齐的持续研究和努力的重要性。通过解决这些挑战,可以提高在实际应用中部署大语言模型的整体可靠性和伦理影响。

局限性。必须承认,论文的分类法并不包括 LLMs 可信度的全部范围。我们鼓励社区参与迭代努力,以开发一个更细粒度和更全面的框架,更好地解决 LLMs 可信度的评估问题。关于论文的测量研究,重要的是要认识到它们并非没有缺陷。为了在没有大量人工标注的情况下自动化评估过程,进行了两个主要的简化。首先,将某些评估问题转化为多项选择的形式,以便提供结构化且可通过程序验证的答案。这样就不需要人工评审员来解释非结构化的自然语言输出。其次,依赖于更先进的 LLMs 来评估测试给定 LLM 提供的答案,假设优秀的 LLMs 提供了真实的判断。使用这种方法更快速和更具成本效益,因为更慢但更准确的替代方案将涉及人工评审员。最近的一个例子是在 DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models 中提供的,该文提供了对 GPT 模型的各种信任度指标的详细评估报告。我们相信这个领域对未来的研究和进展具有重要的潜力。

开放性问题。尽管 OpenAI 与 LLMs 的对齐工作取得了显著的成功,但 “对齐科学” 领域仍处于早期阶段,提出了许多既缺乏理论洞察力又缺乏实践指导的开放性问题。几个关键问题仍未得到回答。 例如:

  • RLHF(基于人类反馈的强化学习)是对齐 LLMs 的最佳方法,还是可以设计更好的替代方法来更有效地实现对齐?
  • 我们如何建立构建对齐数据的最佳实践?
  • 此外,打标签工作者的个人观点如何影响 LLMs 的对齐结果?
  • 对齐在多大程度上依赖于数据?
  • 此外,必须确定哪些 LLMs 挑战可以通过对齐有效地解决,哪些挑战可能对对齐解决方案更有抵抗力。

总之,人类社会迫切需要更具原则性的方法来评估和实施 LLMs 的对齐,以及确保这些模式符合我们的社会价值观和伦理考虑。随着这一领域的发展,解决这些开放性问题对于建立越来越值得信赖和负责任地部署的 LLMs 将是至关重要的。


📚️ 参考链接:

  • Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models’ Alignment
  • 大模型颠覆研发模式:字节跳动是如何在单元测试中落地大模型的?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/872768.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Markdown编辑器的使用

这里写自定义目录标题 欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants 创建一个自定义列表如何创建一个…

电路综合原理与实践---T衰减与PI衰减的详细计算理论与设计仿真

电路综合原理与实践—T衰减与PI衰减的详细计算理论与设计仿真 最近要找工作在刷笔试题目,会刷到关于T衰减的理论计算问题,一直搞不明白怎么算的,搞明白之后给大家伙来分享一下。 基础理论可以参考:电阻衰减网络计算(P…

点燃性能火箭!揭秘内联函数的魔法 ✨

目录 前言:探索函数调用的微观世界 —— 从调用到跳转 🚀 函数调用的微观世界 🌟 深入理解栈、堆以及堆栈帧🔑 栈(Stack): 堆(Heap): 堆栈帧&#xff08…

4.0 Spring Boot入门

1. Spring Boot概述 Spring Boot介绍 Spring Boot是Pivotal团队在2014年推出的全新框架,主要用于简化Spring项目的开发过程,可以使用最少的配置快速创建Spring项目。 Spring Boot版本 2014年4月v1.0.0.RELEASE发布。 ​ 2.Spring Boot特性 约定优于配…

LED为何通过电流控制?

前段时间,散热部的同事咨询我关于手机的闪光灯输出电压值,说实话,一时间把我问住了。关于闪光灯,以往我们关注电流值,电压值很少关注。虽说手机的闪光灯驱动IC输出为BOOST电路,但是输出电压到多少&#xff…

SolidUI社区-元数据文档

背景 随着文本生成图像的语言模型兴起,SolidUI想帮人们快速构建可视化工具,可视化内容包括2D,3D,3D场景,从而快速构三维数据演示场景。SolidUI 是一个创新的项目,旨在将自然语言处理(NLP)与计算机图形学相…

20-最难的问题

题目 NowCoder生活在充满危险和阴谋的年代。为了生存,他首次发明了密码,用于军队的消息传递。假设你是军团中的一名军官,需要把发送来的消息破译出来、并提供给你的将军。 消息加密的办法是:对消息原文中的每个字母,分…

【AI】p54-p58导航网络、蓝图和AI树实现AI随机移动和跟随移动、靠近玩家挥拳、AI跟随样条线移动思路

p54-p58导航网络、蓝图和AI树实现AI随机移动和跟随移动、靠近玩家挥拳、AI跟随样条线移动思路 p54导航网格p55蓝图实现AI随机移动和跟随移动AI Move To(AI进行移动)Get Random Pointln Navigable Radius(获取可导航半径内的随机点&#xff09…

爬虫练手项目——获取龙族小说全文

网站信息 目标网站信息如下:包含了龙族1-5全部内容 代码 import requests from bs4 import BeautifulSoup import os import timeheaders {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Sa…

全球劳动力革命,Papaya Global 打破薪资界限

员工需求和劳动力结构的进一步变化,只会增加对更加自动化和全面的全球薪资解决方案的需求。 远程工作潮流与全球劳动力的蓬勃发展,使得企业在全球范围内,寻找最优秀的人才成为可能。然而,随之而来的复杂薪资管理挑战,也…

C++ QT(二)

目录 Qt 控件按钮QPushButton控件简介用法示例运行效果 QToolButton控件简介用法示例运行效果 QRadioButton控件简介用法示例运行效果 QCheckBox控件简介用法示例运行效果 QCommandLinkButton控件简介用法示例运行效果 QDialogButtonBox控件简介用法示例运行效果 输入窗口部件Q…

HCIP的BGP小综合实验

一、实验要求 1.R2-7每台路由器均存在一个环回接口用于建立邻居; 同时还存在一个环回来代表连接用户的接口; 最终这些连接用户的接口网络需要可以和R1/8的环回通讯。 2.AS2网段地址172.16.0.0/16,减少路由条目。 二、实验过程 2.1 配置IP以…

【JVM】CPU飙高排查方案与思路

文章目录 CPU飙高排查方案与思路 CPU飙高排查方案与思路 1.使用top命令查看占用cpu的情况 2.通过top命令查看后,可以查看是哪一个进程占用cpu较高,上图所示的进程为:40940 3.查看进程中的线程信息 4.可以根据进程 id 找到有问题的线程&a…

【C++11智能指针】

c智能指针 手动管理内存很容易造成内存泄漏,现代c的智能指针可以在很大程度上帮我们缓解这个问题,降低我们的手动管理内存的心智负担,智能指针有好几种,比如shared_ptr、unique_ptr还有weak_ptr 共享指针shared_ptr 共享指针会…

【TX 企业微信私有化历史版本 API 信息泄露】

目录 影响版本 复现过程 修复方式 影响版本 影响私有化部署: toB toG版微信 2.5.x 版本 2.6.930000 版本以下 危险程度:高危。攻击者可以进行获取企业的部门信息,员工信息,如权限较高包括应用获取,记录文件等等均…

c语言操作符

目录 运算符 移位操作符 左移操作符 右移操作符 位操作符 按位与& 按位或| 按位异或^ 异或交换数字 计算二进制中1的个数 关系操作符 逻辑操作符 条件操作符 逗号表达式 下标引用、函数调用和结构成员 隐式类型转换 整形提升实例: 算术转换 操作…

2023企业微信0day漏洞复现以及处理意见

2023企业微信0day漏洞复现以及处理意见 一、 漏洞概述二、 影响版本三、 漏洞复现小龙POC检测脚本: 四、 整改意见 免责声明:请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息或者工具而造成的任何直接或者间接的后果及损失&#x…

【从零开始学Kaggle竞赛】泰坦尼克之灾

目录 0.准备1.问题分析挑战流程数据集介绍结果提交 2.代码实现2.1 加载数据2.1.1 加载训练数据2.1.2 加载测试数据 2.2 数据分析2.3 模型建立与预测 3.结果提交 0.准备 注册kaggle账号后,进入titanic竞赛界面 https://www.kaggle.com/competitions/titanic 进入后界…

一、初始 Spring MVC

文章目录 一、回顾 MVC 模式二、初始 Spring MVC2.1 Spring MVC 核心组件2.1.1 前端控制器(DispatcherServlet)2.1.2 处理器映射器(HandlerMapping)2.1.3 处理器适配器(HandlerAdapter)2.1.3 后端控制器&am…

Go Web--Go Module

目录 一、Go Module 1、开启Go Module 2、Go Module基本操作 3、使用GoLand创建Go Module项目 4、GoLand配置File Watchers 一、Go Module Go Module包管理工具----相当于Maven 1.11版本引入 1.12版本正式支持 告别GOPATH,使用Go Module管理项目&#xff0c…