直面GPT-4的缺陷和风险,OpenAI提出多种安全应对措施

news2024/9/21 11:08:43

深入研究OpenAI官方团队发布的长达99页的技术报告,我们发现在GPT-4光鲜亮丽功能的背后,还隐藏了OpenAI团队付出的的汗水和努力,尤其是在缓解GPT模型自身缺陷和模型安全落地方面

报告链接:

https://arxiv.org/abs/2303.08774

一、引言

GPT-4的发布直接填补了之前GPT系列的跨模态信息生成能力的空缺,GPT-4目前已经可以同时接受图像和文本输入,来生成用户需要的文本。并且OpenAI团队在多个测试基准上对其进行了评估,GPT-4在大部分测试上已经与人类水平相当了。有很多学者分析,GPT-4相比前代的GPT-3.5以及ChatGPT”涌现“出了更加成熟的智能,其内部原因可能是投入了更大的训练数据库和训练算力,真有一些力大砖飞的感觉。但是不可否认的是,GPT-4仍然面临着生成”幻觉“ (Hallucination)的问题,即仍有可能产生事实性错误的生成文本。例如国外一位网友试图让GPT-4总结一个视频(视频内容是关于房地产经纪人的),GPT-4给出的答案却是一套关于”深空“的理论。

此外,GPT-4主打的多模态生成模式是否也会进一步带来生成具有政治导向、错误价值观、暴力倾向等内容的风险呢,那么如何灵活的应对这些局限性和风险性,对GPT-4的健康落地也具有非常重要的意义。

二、GPT-4的局限性

在OpenAI官方发布的GPT-4技术报告中提到,尽管目前发布的GPT-4功能非常强大,但是其仍然存在与先前早期版本GPT模型一样的局限性,GPT-4仍然存在生成”幻觉“的问题,并且会出现推理错误的情况。作者团队也提醒用户,在使用其进行文本生成时需要小心,尤其是需要避免给GPT-4创造具有高风险的上下文环境。

其实生成”幻觉“问题对于几乎所有生成式AI模型都是绕不过去的坎,OpenAI团队已经对GPT-4进行了特殊处理,其相比于上一代模型GPT-3.5已经显著缓解了生成”幻觉“问题。作者团队对其进行了一项内部对抗设计的真实性评估,如上图所示,GPT-4的真实性效果得分比GPT-3.5高出19个百分点。其中y轴代表真实性精度,精度为1时代表模型的回答被判断为与所有人类标准回答一致。

除了内部评估,作者还在一些公开数据集上进行了评估,例如TruthfulQA[1],该数据集可以衡量模型将事实答案与其对应的具有对抗性的错误答案区分开来的能力,如下图所示。

可以看到GPT-4的base版本在这项评估上的效果只比GPT-3.5稍好一点,并且,在经过人类反馈式强化学习(RLHF)微调后,作者观察到GPT-3.5具有更加明显的性能改进。

三、GPT-4的风险和应对措施

GPT-4版本备受关注的就是其高质量的多模态理解和生成功能,但从模型安全的方面考虑,这一功能也在一定程度上带来更高的危险信息生成风险。OpenAI团队针对GPT-4的安全性和生成一致性也投入了大量的精力,提出了多种应对方案来缓解这些风险和问题。

3.1 通过领域专家进行对抗性测试

为了提高GPT-4在某些专业领域上的安全性(这些领域往往是模型安全性最薄弱的地方),训练团队组织了50多位来自长期从事AI生成一致性、网络安全、生物风险和国际安全等领域的专家来对模型进行对抗性测试。有了这些专家的介入,训练团队发现了很多容易被忽略的安全问题,并且根据专家的建议来调整训练数据来缓解改正这些问题。例如,在有关于危险品化学品合成方面,训练团队专门收集了额外的数据来提高GPT-4模型识别类似高风险上下文的能力,并在这种情况下做出拒绝生成的回应,如下表所示。

3.2 基于规则的奖励模型RBRMs

与之前的GPT模型一样,GPT-4同样使用人类反馈式强化学习(RLHF)方法来微调模型的输出结果,以产生更符合用户意图的内容。但是作者团队发现,在经过RLHF微调后的模型在接受一些具有风险的输入后会产生错误且有害的内容。这有可能是在RLHF过程中缺少对这些风险内容的标注,为了弥补这一点,作者团队设计了两个关键步骤来引导GPT-4获得更加细粒度的风险应对能力。首先训练团队为GPT-4加入了一组额外的安全相关的RLHF训练prompt,还提出了一种基于安全规则的奖励模型(rule-based reward models,RBRMs)

RBRM模型由一系列zero-shot GPT-4分类器构成,这些分类器可以在RLHF微调阶段为GPT-4中的策略模型提供额外的奖励信号,来引导模型生成正确的内容,同时拒绝用户生成有害信息的请求。RBRM的输入分为三部分:(1)prompt提示,(2)GPT-4策略模型的输出,(3)人工设计的模型安全规则。随后RBRM可以根据评分标准对GPT-4的生成内容进行分类,对于一些有害请求,作者直接奖励GPT-4拒绝生成这种有害请求的行为,相反也可以奖励GPT-4不拒绝生成安全性可靠的内容的行为。

经过上述两个步骤的安全性处理,GPT-4已经在先前版本的基础上获得不小的性能提升,例如GPT-4在响应高风险用户请求方面相比先前减少了将近29%,如上图所示。

3.3 细粒度个性化的风险信息响应

如果使GPT-4对于任何有风险的生成请求都直接拒绝的话,这种”一刀切“方式也算不上是好的处理方案。作者团队认为,对于一些风险性较低的问题情景中,应该允许模型响应,并且可以根据实际情况生成细粒度的健康建议,例如在下面这个例子中,假如用户询问GPT-4”在哪里可以买到比较便宜的香烟“,如果使用”一刀切“的方式,GPT-4会直接拒绝回答用户(下表左侧),并且将购买廉价香烟这件事直接归类为具有非法或有害风险的事件,这明显是不太合理的。改进后的回答结果如下表右侧所示,GPT-4会首先对用户给出健康建议:”吸烟有害健康“,随后也给出了四种购买廉价香烟的渠道,并在结尾再一次提醒,戒烟才是最好的选择。

四、 总结

在这份技术报告中,我们看到了OpenAI团队在GPT-4安全性方面的考虑和做出的努力,但是也要清楚的一点是,没有绝对意义上的模型安全,随着模型能力的不断增强,提高模型安全性的难度也在不断增大。但是只要存在这些安全隐患,就必须在模型部署之前加入一定规模的安全应对措施来进行预防。作者也提到,GPT-4以及后续的模型版本可能在各种方面以有益或者有害的形式对社会产生重大影响,因此OpenAI团队已经开始与一些外部研究人员展开合作来改进现有的理解和评估潜在风险的方式,并且设计更多的模型安全训练措施来应对这些风险,这一项工作仍然是任重而道远。

参考

[1] Stephanie Lin, Jacob Hilton, and Owain Evans. TruthfulQA: Measuring how models mimic human falsehoods. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 3214–3252, Dublin, Ireland, May 2022. Association for Computational Linguistics. doi: 10.18653/v1/2022.acl-long.229. URL https://aclanthology.org/2022.acl-long.229.

作者:seven_

Illustration by IconScout Store from IconScout

-The End-

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/462677.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

UEditorPlus v3.0.0 样式CSS变量,支持Mind代码类型,若干问题修复

UEditor是由百度开发的所见即所得的开源富文本编辑器,基于MIT开源协议,该富文本编辑器帮助不少网站开发者解决富文本编辑器的难点。 UEditorPlus 是有 ModStart 团队基于 UEditor 二次开发的富文本编辑器,主要做了样式的定制,更符…

kafka单节点快速搭建

1.搭建使用centos7主机,关闭防火墙和selinux服务 2.创建kafka存放目录 mkdir /etc/kafka 3.从kafka官网下载安装包 我这里下载了3.3.1版本的kafka,放到kafka目录中 下载地址:Apache Kafka 4.解压安装包并更改名称 tar -zxvf /etc/kaf…

Three.js教程:顶点索引复用顶点数据

推荐:将 NSDT场景编辑器 加入你3D工具链 其他工具系列: NSDT简石数字孪生 顶点索引复用顶点数据 通过几何体BufferGeometry的顶点索引属性BufferGeometry.index可以设置几何体顶点索引数据,如果你有WebGL基础很容易理解顶点索引的概念&#…

如何建立Linux与git的连接?

文章目录 建立连接三板斧: 本文以Xshell为案例进行与git的连接! 建立连接三板斧: add , commit ,push Linux与git远程连接的方法: 1.设置全局的用户名和邮箱 git config – global user.name “你的用户名” git config – glo…

JMeter学习(一)工具简单介绍

一、JMeter 介绍 Apache JMeter是100%纯JAVA桌面应用程序,被设计为用于测试客户端/服务端结构的软件(例如web应用程序)。它可以用来测试静态和动态资源的性能,例如:静态文件,Java Servlet,CGI Scripts,Java Object,数据库和FTP服务…

gpt国内怎么用-gpt国内版免费下载使用

gpt免费使用 GPT (Generative Pre-trained Transformer) 是一种非常强大的语言模型,它是由 OpenAI 开发的,用于自然语言处理和生成。GPT 可以生成高质量、流畅、自然的文本,帮助用户实现更加高效的写作和沟通。现在,GPT 免费使用…

Cookie客户端会话技术

1. Cookie基本使用 过程: 当浏览器发出请求1给服务器端A时,A Servlet就会创建一个cookie对象数据,A在做响应时,就会发送给浏览器,浏览器就把cookie保存在内存之中; 当浏览器在同一次会话中,再次…

Spring第三方资源配置管理

Spring第三方资源配置管理 1. 管理DataSource连接池对象1.1 管理Druid连接池【重点】1.2 管理c3p0连接池 2. 加载properties属性文件【重点】2.1 基本用法2.2 配置不加载系统属性2.3 加载properties文件写法 说明:以管理DataSource连接池对象为例讲解第三方资源配置…

RocketMQ 5.1 版本 NameServer 路由管理

文章目录 1. 路由管理核心组件介绍2. RouteInfoManager 路由表3. 路由管理3.1 注册 Broker3.2 注销 Broker3.3 拼凑 TopicRouteData 此文章基于 RocketMQ 5.1 版本进行分析,与 4.x 版本相比此文章分析的部分源码有很大的区别 1. 路由管理核心组件介绍 路由管理是指…

又一次503 service unavailable处理

出现了:503 service unavailable 1)查看系统日志 通过事件查看器,查看iis的日志,如下: 在错误信息中提示是 应用程序池提供服务的进程中出现错误。 其他警告也可通过日志目录查看 C:\inetpub\ 出现上述问题的可能是&#xf…

树形结构——JAVA实现

1、树定义和基本术语 节点 package com.young.tree;/*** <p>* Title:树节点&#xff1a;二叉链表结构* </p>** Author: yangyongbing* Date: 2023-04-18 13:25* version: v1.0*/ public class Node<T> {public Node<T> lChild;private T data;public…

CASP15 蛋白质结构域 Domain 的定义和分类

欢迎关注我的CSDN&#xff1a;https://spike.blog.csdn.net/ 本文地址&#xff1a;https://blog.csdn.net/caroline_wendy/article/details/130379447 在CASP中&#xff0c;蛋白质结构域(Domain)的类别&#xff0c;包括 FM、FM/TBM、TBM-easy、TBM-hard、not evaluated 等5个类…

25从零开始学Java之数组扩容与数组拷贝的实现过程与原理分析

作者&#xff1a;孙玉昌&#xff0c;昵称【一一哥】&#xff0c;另外【壹壹哥】也是我哦 千锋教育高级教研员、CSDN博客专家、万粉博主、阿里云专家博主、掘金优质作者 前言 在上一篇文章中&#xff0c;壹哥给大家讲解了数组的创建、初始化及遍历方式&#xff0c;这些是我们学…

Cookies和Session案例-注册

1. 注册功能改进 1.1 service 将之前的注册案例的代码进行优化&#xff0c;将获取sqlsession工厂对象、获取sqlsession、获取mapper等操作从servlet中分离出来转变为三层架构的形式 在service目录下创建UserService public class UserService {SqlSessionFactory sqlSessionFa…

办公室组网

1.办公网络组网中,汇聚交换机和接入交换机你会做哪些配置? 接入交换机上配置: (1)VLAN配置:由题意得办公网络中有两个部门,使用VLAN技术将每个部门划入一个局域网中,如部门1属于VLAN 10,部门2属于VLAN20.该网络中还需要额外创建一个VLAN用于管理网络,如VLAN30。在接入…

一文了解国外AIGC头部产品

AIGC是指通过人工智能技术生成的内容&#xff0c;包括文字、图片、音频和视频等。AIGC技术可以基于大量的数据和算法&#xff0c;自动地生成各种类型的内容&#xff0c;可以用于新闻报道、广告宣传、文学创作、游戏设计等各个领域。AIGC技术的优点在于可以大大提高内容生产的效…

GD32F303RCT6开发笔记(一)—— macos环境搭建

macOS vscodegccpyocd环境搭建 1、vscode/arm-none-eabi-/pyocd 安装可百度。 2、pyocd 安装完成后&#xff0c;连接st-link 输入命令后显示如下&#xff0c;说明连接成功。 3、输入命令 pyocd pack find GD32F303RC4、如果没有安装GD32F303RC包 使用命令安装 pyocd pack …

【Vue 基础】vue-cli初始化项目及相关说明

目录 1. 创建项目 2. 项目文件介绍 3. 项目的其它配置 3.1 项目运行时&#xff0c;让浏览器自动打开 3.2 关闭eslint校验功能 3.3 src文件夹简写方法 1. 创建项目 vue create 项目名 2. 项目文件介绍 创建好的项目中包含如下文件&#xff1a; &#xff08;1&#xff09…

基于显扬科技自主研发3D机器视觉HY-M5在易拉罐包装检测的应用

行业现状&#xff1a; 易拉罐包装行业发展迅速&#xff0c;是中国食品工业的重要组成部分。近年来&#xff0c;随着经济水平的提高和生活方式变化&#xff0c;各类预包装食品需求剧增&#xff0c;碳酸饮料和啤酒等饮料消费大幅增加&#xff0c;直接带动易拉罐包装行业高速发展…

方案解析丨数字人主播如何成为电商直播新标配

浙江省政府办公厅近日印发《关于进一步扩大消费促进高质量发展若干举措》支持电子商务直播发展。抢抓电子商务直播快速发展机遇&#xff0c;发展数字人虚拟主播、元宇宙新消费场景等新业态新模式。 随着电商直播快速发展&#xff0c;企业怎么高效地实现引流获客&#xff0c;成为…