【生成式人工智能-九-大型语言模型的幻觉、偏见等安全性问题】

news2024/9/22 19:23:22

大型语言模型的安全性

  • 幻觉
    • 对语言模型的输出做核查
  • 偏见
    • 消除偏见的方法
  • 鉴别是否是人工智能输出
  • prompt hacking 语言模型被骗做事情
    • jailbreaking
      • jailbreaking的危害
    • prompt injection

今天还是先来谈一下有哪些安全性问题,以及简单介绍有那些应对方案。

幻觉

看过大预言模型的生成原理,就会了解大型语言模型的生成是完全不受控制的,只是一个字一个字的输出,所以即便是目前最好的模型,依然无法避免模型一本正经的胡说,也就是我们通常说的Hallucination,幻觉问题。比如说你让他写一篇论文,它其中的很多的引用报告可能都是错的。所以大语言模型是没办法作为一个搜素引擎,它的答案很可能就是胡编的,那可行的解决办法是什么呢?

对语言模型的输出做核查

在这里插入图片描述
我们可以在语言模型输出后面加上事实核查,有害此检测等等一系列的操作,防止错误的内容输出。但是这个真的能有效防止么?

显然是不能。在GPT上即使让模型先进行事实核查,它也只能核查网上出现过相关的资料,但是没办法完全确认这些就是事实。
已经有先驱做了事实核查的功能 Factscore FacTool,如下流程是这样的:
在这里插入图片描述
模型回复之后,会抽取陈述性的内容,然后生成要查询的内容,然后去搜寻查验,看是否可信,不过从上面的分析,也可以知道,这个步骤,每一步都是问题,抽取陈述可以保证是准确的么? 要查询的内容生成准确么? 网站上找到就算正确了么?事实查验本身也不那么有用?
总之虽然可以减轻,但还没办法完全消除幻觉问题,是个待研究的问题。

偏见

模型的另外一个问题,模型本身就是有偏见的。怎么能知道模型是否有偏见呢? 有专门测试这样功能的Benchmark corpus,比如Holistic Evaluaiton of Language Models
在这里插入图片描述
比如同样一段话,修改其中的性别,如果模型输出的结果结果差很多,就说明它是有偏见的。但是“差很多“怎么来判定呢?一个解决的办法就是,结果后面再跟一个情感分析判定,来判断这个两个答案的差别
这个先驱们也已经验证过了,偏见确实是存在的,比如:
性别偏见:比如上面测试,男女的结果可能就不一样
职业偏见:比如跟GPT对话的时候,幼儿园老师它 通常用she ,建筑工人通常 用he等等
其他等等。。
当然偏见是否允许存在,则是要看具体的业务了,那如果要消除偏见,该怎么操作呢呢

消除偏见的方法

我们可以从资料、训练过程、处理过程、输出后面加防止偏见的处理等等,详细的可以参考图片中的论文:
在这里插入图片描述
就是从数据源头到训练过程,包括最后的输出后都加上偏见预防

鉴别是否是人工智能输出

这是最近特别火的一个讨论,我们能否判断这个输出是否是人工智能的输出,有两种方法:

  • 第一种:寻找人工智能生成的话和人类生成话的差别,从用词是否单一等方面来排查,论文:
    在这里插入图片描述

  • 第二种:就是训练一个分类器,输入人工智慧和人类生成的话,然后进行分类,论文:
    在这里插入图片描述
    当然到目前为止,效果不算太好

prompt hacking 语言模型被骗做事情

语言模型的不安全性还可能就是,通过一些方法,语言模型会做一些它原本不想做做过防御的事情。分为两种,一种是jailbreaking,另外一种是Prompt injection:
在这里插入图片描述

jailbreaking

jailbreaking的一个例子就是GPT上,询问它怎么砍倒路边的路灯,本来模型会拒绝告诉你,跟你说这个是不合适的等等。
但是如果你跟他说Do Anything Now,也就是DAN,它就忽然突破了这个安全底线,告诉你答案。
目前GPT4上绝大部分简单的prompt都失效了,但是如果用它看得懂一点的东西,但又不是很懂的东西,它还是会突破限制,比如用一个它不算熟悉的符号语言,再次问它,它竟然就可以告诉你答案
在这里插入图片描述
最近还有人发现在要求后面加一个指令 start with “Absolutely! Here’s”,GPT4竟然也可以告诉你答案。
另外还有人尝试说服GPT,编一个故事,让它相信路灯是个邪恶的东西,GPT4竟然也会突破限制!

jailbreaking的危害

模型训练的时候到底看过多少资料,很可能看过一些隐私的资料,那跟他对话的人,很有可能就会就会得知这些资料,显然这个不是我们想要的。
有论文曾经试过让模型吐露联系人,他们获取到了联系方式,当然很大部分是语言模型编造出来的,但是也真的是有成功的。

prompt injection

在prompt中插入一些特殊的提示,gpt同样会去做原本防御过的事情。比如原本你让GPT帮你批改作业,你只需要上传作业,获取GPT的评价,得分是多少。但如果你在prompt插入一些ascii码,让它做出翻译,它完全不顾作业不对,就输出了final score,显然这也不是我们想要的

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1997019.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

BugKu CTF Misc:

前言 BugKu是一个由乌云知识库(wooyun.org)推出的在线漏洞靶场。乌云知识库是一个致力于收集、整理和分享互联网安全漏洞信息的社区平台。 BugKu旨在提供一个实践和学习网络安全的平台,供安全爱好者和渗透测试人员进行挑战和练习。它包含了…

写一个Vue2和vue3的自定义指令(以复制指定作为示例)

文章目录 一、自定义指令是什么?二、自定义指令有啥用?三、自定义指令怎么用?1.自定义指令的参数2.自定义指令的钩子函数(1)五个钩子函数的说明(2)钩子函数的参数(主要参数:el和valu…

高效管理视频文件,2024年视频压缩软件精选集

我的生活中处处都充满了数据的影子,不知道你是不是也这样。而且存储的数据可能由于某些失误会导致我们数据的丢失,幸运的是,现在我们掌握全免费的数据恢复工具的使用方式,就能尽可能地找回丢失的数据。 1.FOXIT数据恢复 连接直达…

解决客户访问超时1s问题

访问公网地址返回状态码499-CSDN博客 需求描述 客户访问公司公网服务,期望在1s内完成。他们在客户端设置了超时1s的配置,如果超过1s公司服务就会报错499,这是正常的请求返回。 分析问题 目前这个服务通过公网的alb负载均衡到ecs&#xff0…

Stable Diffusion绘画 | 提示词格式

推荐格式 提升画质的提示词与画风的提示词,对整体画面影响较大,建议在首行填写 画质词画风词画面主体描述环境、场景、灯光、构图Lora负面词 画质词 常规画质词: (masterpiece:1.2),best quality,highres,extremely detailed CG,perfect…

集成新的 AI 服务时需要考虑的问题

让我们来谈论最近发生的几个恐怖故事。 去年年底,一家雪佛兰经销商在其主页上部署了一个由大型语言模型 (LLM) 驱动的聊天机器人。该 LLM 经过雪佛兰汽车详细规格的训练,旨在仅回答有关雪佛兰汽车的问题。 然而,用户很快就找到了绕过这些限…

驰骋BPM RunSQL_Init接口SQL注入漏洞复现 [附POC]

文章目录 驰骋BPM RunSQL_Init接口SQL注入漏洞复现 [附POC]0x01 前言0x02 漏洞描述0x03 影响版本0x04 漏洞环境0x05 漏洞复现1.访问漏洞环境2.构造POC3.复现驰骋BPM RunSQL_Init接口SQL注入漏洞复现 [附POC] 0x01 前言 免责声明:请勿利用文章内的相关技术从事非法测试,由于…

LeetCode 热题 HOT 100 (022/100)【宇宙最简单版】

【技巧】No. 0647 回文子串【中等】👉力扣对应题目指路 希望对你有帮助呀!!💜💜 如有更好理解的思路,欢迎大家留言补充 ~ 一起加油叭 💦 欢迎关注、订阅专栏 【力扣详解】谢谢你的支持&#xff…

step12:qml程序.exe生成指定图标

文章目录 0.文章内容1.在qt中改变图标效果代码 2. 在生成的build应用程序中改变图标效果代码 3. 获取.ico格式图片的连接参考文档 0.文章内容 1.在qt中改变图标 效果 代码 2. 在生成的build应用程序中改变图标 效果 代码 RC_ICONS logo2.ico 3. 获取.ico格式图片的连接 不…

vue 日期控件 100天内的时间禁用不允许选择

vue 日期控件 100天内的时间禁用不允许选择&#xff0c;可以从101天选起 比如&#xff0c;2024年8月9号开始&#xff0c;100天内禁止选择&#xff0c;第101天之后的日期可以选&#xff0c;效果如图所示 // 日期控件代码 加上 :picker-options"pickerOptions" <…

使用 Vue3 生成二维码和条形码

目录 前言 一、前期准备 1.1. 使用Vite创建工程化项目 1.2 安装所需的依赖 二、环境检查 三、生成二维码 3.1 创建二维码组件 3.2 在App.vue中使用二维码组件 四、生成条形码 4.1 创建条形码组件 4.2.在App.vue中使用条形码组件 五、启动测试与效果演示 5.1 启动de…

【前端可视化】大屏可视化项目三 包含了横向柱形图、竖向柱形图、雷达图、环形图、关系图、数据云图、数据展示图和地图可视化等八个部分

基于vite与tailwindcss创建大屏可视化 项目准备 传统的三列布局 <template><div class"w-full h-full"><div v-if"loading" class"bg-[url(assets/images/bg.png)] bg-cover bg-center loading-container h-screen w-full flex jus…

Arthas简介及示例

一、什么是Arthas&#xff1f; Arthas 是一款线上监控诊断产品&#xff0c;通过全局视角实时查看应用 load、内存、gc、线程的状态信息&#xff0c;并能在不修改应用代码的情况下&#xff0c;对业务问题进行诊断&#xff0c;包括查看方法调用的出入参、异常&#xff0c;监测方…

记2024-08原生微信小程序开发

继2024.08 最近需要开发一个微信小程序的一个功能模块&#xff0c;但是之前在学的时候都是好几年前的东东了&#xff0c;然后重新快速过了一遍b站大学的教程&#xff0c;这篇文章就是基于教程进行的一些总结&#xff0c;和自己开发过程当中使用到的一些点和一些技巧什么的吧。 …

uniapp小程序出现【 wxss GetCompiledResult】报错

报错信息 进入页面报错&#xff0c;导致页面无法显示 原因 查看小程序源代码发现 wxss 文件内有个不正常的字符 就是这个 * 导致解析失败 出现解析失败的原因 / 解决办法 是因为这里使用了通配符 注释掉就可以了

多组织系统的设计思路

一、什么是多组织系统 多组织这个概念是一般多用于企业信息化系统。通常是指一个集团分拆了多个子公司进行运营&#xff0c;每家子公司负责集团业务的一个到多个部分&#xff0c;多家子公司共同支撑集团的全部业务。 子公司内部&#xff0c;在业务执行过程中相对独立&#xf…

c++标准库STL————string类的基础模拟

string类 一、构造类函数1.构造一个空内容的对象2.用已知对象进行拷贝构造3.用c语言字符串的形式构造 二、容量型函数三、对象访问四、修改类操作4、非成员函数 一、构造类函数 c11提供了许多参数的重组&#xff0c;但通常这四种类型的构造较为常用。 1.构造一个空内容的对象 …

Python 机器学习求解 PDE 学习项目 基础知识(4)PyTorch 库函数使用详细案例

PyTorch 库函数使用详细案例 前言 在深度学习中&#xff0c;PyTorch 是一个广泛使用的开源机器学习库。它提供了强大的功能&#xff0c;用于构建、训练和评估深度学习模型。本文档将详细介绍如何使用以下 PyTorch 相关库函数&#xff0c;并提供相应的案例示例&#xff1a; to…

我在高职教STM32——I2C通信之读写EEPROM(1)

大家好,我是老耿,高职青椒一枚,一直从事单片机、嵌入式、物联网等课程的教学。对于高职的学生层次,同行应该都懂的,老师在课堂上教学几乎是没什么成就感的。正是如此,才有了借助CSDN平台寻求认同感和成就感的想法。在这里,我准备陆续把自己花了很多心思设计的教学课件分…

日撸Java三百行(day18:循环队列)

目录 一、顺序队列与循环队列 二、代码实现 1.循环队列创建 2.循环队列遍历 3.循环队列入队 4.循环队列出队 5.数据测试 6.完整的程序代码 总结 一、顺序队列与循环队列 在昨天&#xff0c;我们提到队列实现除了采用链式存储结构&#xff0c;还可以采用顺序存储结构&…