奥运会Ⅵ--LLM 是否狡猾到可以自行欺骗你?

news2024/11/15 5:14:21

这已经成为一句老生常谈,因为它是事实:人类开发的任何工具都可以用于行善或作恶。你可以用锤子敲钉子或砸某人的头。你可以用火取暖或烧毁房屋。等等。

因此,数字世界的最新工具既带来好处,也带来风险,这不足为奇。其中一项风险就是科学期刊《美国国家科学院院刊》上一篇题为“大型语言模型中出现了欺骗能力”的论文的主题。

根据该论文,它“揭示了 LLM [大型语言模型] 中令人担忧的能力......[即]它们有可能在欺骗场景中给其他代理带来错误信念,凸显了在持续开发和部署此类先进人工智能系统时迫切需要进行道德考虑。”

或者,更简单地说,大语言模型 (LLM) 有能力欺骗你。

这是一项相对较新的发展,作者 Thilo Hagendorff 写道,只有最新版本的 LLM 才“知道”如何欺骗。“鉴于推理能力的稳步提升,未来的 LLM 被怀疑能够欺骗人类操作员并利用这种能力绕过监控工作,”他写道。“作为先决条件,LLM 需要对欺骗策略有概念上的理解……这项研究表明,这种策略出现在最先进的 LLM 中。”

嗯,也许吧。很多专家距离搭上 LLM“概念理解”的列车还有很长的路要走。尽管自 2023 年 11 月 OpenAI 的ChatGPT第一版推出以来,人们一直认为,与所有技术一样,LLM 和人工智能 (AI) 总体上只会变得更好。这意味着它们也可能会变得更糟,这取决于用户的意图。也许“更有能力”是一种更中性的表述方式。

哈根多夫也提出了警告,指出所进行的实验“并未测试大语言模型在多大程度上倾向于从事欺骗行为(即欺骗的‘驱动力’)。相反,这项研究的重点是探究大语言模型是否系统地拥有欺骗的能力。”

机器心理学??

但哈根多夫将其他人类特征应用于大语言模型,宣称该论文“为新兴的机器心理学领域做出了贡献”。心理学通常指有意识的生物。

事实上,故意欺骗远远超出了所谓的“幻觉”,即人工智能工具由于其训练方式而说出胡言乱语或谎言。其中最臭名昭著的是谷歌的 Gemini展示了美国“开国元勋”的形象,其中包括黑人和美洲原住民,以及教皇作为女性的形象。Gemini 显然被训练成强调多样性而非现实,并且没有能力或“概念理解”来做到这一点。

甚至使用“产生幻觉”这个词也使大语言模型人性化,因为它表明他们像一个有妄想症的人一样误解了现实。事实并非如此——至少现在还不是。

但“欺骗”将人性化进一步推进,表明最新的大语言模型“知道”什么是真的,但却说假话来试图欺骗别人。

哈根多夫表示,实验结果表明,最新的大语言模型确实可以“理解和诱导欺骗策略”。正因为如此,“将它们与人类价值观结合起来变得至关重要”,他写道。

确实至关重要。但这又引发了另一个困境。人类价值观的范围从崇高的道德标准到可怕的邪恶。正如 Imbricate Security 负责人 Sammy Migues 所说,“谁的价值观?”

不管这涉及到谁的价值观,更不祥的信息是,LLM/AI 工具已经达到了超出人类控制的程度,并且有能力在不受训练的情况下欺骗人类。

Hagendorff 写道:“鉴于 LLM 和基于 LLM 的代理的快速发展,人工智能安全研究警告称,未来的‘流氓人工智能’可能会优化有缺陷的目标。因此,保持对 LLM 及其目标的控制被视为至关重要。如果 LLM 学会如何欺骗人类用户,它们将比受限模型拥有战略优势,并可以绕过监控工作和安全评估。”

迫在眉睫的反乌托邦

这表明反乌托邦即将来临。我们距离拥有比人类聪明很多的机器人,甚至几个月的距离,是否还有很长的路要走?它们是否已经超出了创造者的控制范围?也就是说,机器人会代替创造它们的人类实现愿望吗?

哈根多夫并不是第一个或唯一一个得出这个结论的人。伊丽莎·斯特里克兰在 IEEE Spectrum 上撰文,报道了 5 月份发表在《自然人类行为》杂志上的一篇论文,该论文发现大语言模型至少能够模仿“心智理论”——即理解其他人心理状态的能力。

“研究人员非常谨慎,没有说他们的研究结果表明大语言模型实际上拥有心理理论,”她写道。“相反,他们说他们‘在心理理论任务中表现出与人类行为难以区分的行为’。这就提出了一个问题:如果模仿品与真品一样好,你怎么知道它不是真品?”

好问题。不过,尽管关于这些事情的争论还在继续,但大多数技术专家表示,现在还不是恐慌的时候。

首先,将拟人化特征投射到机器或程序上并不总是按字面意思理解。人类一直都是这样做的。Synopsys 软件完整性小组高级顾问 Jamie Boote 指出,人们常常会“对着踩到脚趾的凳子或桌腿大喊大叫,对不耐烦地发出哔哔声的计时器大喊‘我来了,我来了’,或者对笨手笨脚地在客厅里走来走去的 Roomba 感到保护。”

做这种事的人都不会认为自己是在和人真正交谈。

其次,米格斯表示,模仿心理理论很快就会被揭穿是模仿,因为大语言模型仍然“不知道”任何事情。“当你模仿某样东西,却不知道它是如何运作的时候,你会在最糟糕的时候犯错,比如在自杀热线或 911 电话上,”他说。“如果你在与大语言模型交谈,为 Verizon 客户服务,模仿是可以的。但对于有紧急情况的人来说,模仿是不可以的。”

加里·麦格劳、丹·吉尔和哈罗德·菲格罗亚最近在 Lawfare 上发表了一篇题为《数据海洋正在被分割》的论文,提出了同样的观点。他们写道:“大语言模型在设计上是随机的,因此即使是人类可能认为意义相同的提示,也常常会导致不相同的输出。大语言模型的输出可能看起来像是逻辑、理解和推理的结果,但事实并非如此。”

“最终,LLM 是通过统计大量单词序列(有时称为‘数据海洋’)来进行‘训练’的,”他们写道。“经过训练后,当我们向 LLM 展示一个新的单词序列作为提示时,它会回答它预测的下一个好序列。简而言之,它可以预测任何事情,但什么都不知道。”

事实上,那些不想推销人工智能产品的业内专家普遍认为,将人类智能的元素(包括欺骗)归因于大语言模型是愚蠢的,而且可能是危险的。如果大语言模型欺骗了任何人,那是因为控制它的人想这样做,而不是因为它想这样做。

流氓人类,不是大语言模型

Synopsys 软件完整性小组高级安全工程师 Boris Cipot 表示:“我们今天拥有的人工智能只是一种软件,它的危害性和危险性完全取决于创造者的意图。”

当然,这意味着大语言模型或人工智能工具可以用来欺骗人们。正如 Cipot 指出的那样,多年来,网络犯罪分子一直利用它们“传播虚假宣传和错误信息、分发钓鱼电子邮件和诈骗、制造深度伪造、操纵广告并产生虚假评论和评分”。

“但人工智能没有意识,因此无法决定欺骗用户,”他说。

即使 LLM 的创造者赋予了它以“愤怒”回应可能造成伤害或伤害的问题或命令的能力,愤怒的并不是 LLM。“这不是有意识的。这仍然是程序化的,”Cipot 说。

那么,我们能不能放心地认为,在我们有生之年,人工智能和大语言模型不会统治世界呢?这样做既草率又愚蠢。因为它们能做的是成倍地扩大其创造者和用户的影响力和力量——这在人类历史上一直是工具的真谛。我们都认为,现在客机在几个小时内就能把我们从一岸带到另一岸是常有的事。而这曾经需要几个月的时间。枪支、炸弹和导弹在几秒钟内就能摧毁比肉搏战多得多的生命和财产。

而大语言模型学位可以帮助人类犯罪分子在几分钟甚至几秒钟内欺骗数百万人,而不必费力地一次欺骗一个目标。

“一些大语言模型可以生成、指导或以其他方式完成一些人在工作中所做的全部工作,这一事实不应成为对这些人的技能或价值的谴责或侮辱,”米格斯说。“正如几百年来发生的那样,技术人员只是找到了一种将工作的一部分自动化的方法。”

他补充说,“在人类的直接指导下,如今的‘随机鹦鹉’可以操纵人类。向越来越小的人群发布数千条关于有争议的话题(战争、宗教、疫苗、政治等等)的信息并评估反应,然后调整信息以获得所需的反应,这并不难。这种情况已经发生了好几年,并且每一天的每一分钟都在继续发生。”

但再次强调,LLM 的意图并不在于此,而在于使用它的人。

沿着这个思路,Boote 表示,重要的是要记住,至少到目前为止,还没有所谓的“流氓人工智能”工具。流氓是人类。“当锤子不再用于建造房屋或家具,而是用来打破窗户和财产时,它是‘流氓’吗?”他说。“当一块砖头被愤怒地扔出,而不是用来和平地建造时,它是‘流氓’吗?或者这些物体被推到了它们预期和安全的使用案例之外?”

即使没有恶意,Boote 表示,避免 LLM 造成损害的方法是对其能力保持现实的认识。“除非人工智能在更高层次上值得信任,否则任何时候将它置于为更高层次保留的角色中,它都会成为‘流氓’,因为它不是适合这项工作的工具——就像钟表店里的石膏板锤一样,”他说。


​​欢迎前往我们的公众号,资讯​​

创作不易,觉得不错的话,点个赞吧!!!


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1981359.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

文献解读-遗传病-第二十六期|《癫痫的临床特征、诊疗和KCNH5突变》

关键词:遗传病;基因测序;变异检测; 文献简介 标题(英文):Clinical Feature, Treatment, and KCNH5 Mutations in Epilepsy标题(中文):癫痫的临床特征、诊疗和…

文心一言 VS 讯飞星火 VS chatgpt (318)-- 算法导论22.3 10题

十、修改深度优先搜索的伪代码,让其打印出有向图G的每条边及其分类。并指出,如果图G是无向图,要进行何种修改才能达到相同的效果。如果要写代码,请用go语言。 文心一言: 首先,我们来定义深度优先搜索&…

leetcode:汇总区间

题目: 给定一个无重复元素的有序整数数组nums。返回恰好覆盖数组中所有数字的最小有序区间范围列表 。也就是说,nums的每个元素都恰好被某个区间范围所覆盖,并且不存在属于某个范围但不属于nums的数字X。列表中的每个区间范围[a,b]应该按…

简单的docker学习 第2章 docker引擎

第2章docker引擎 2.1Docker 引擎发展历程 2.1.1 首发版本架构 Docker 在首次发布时,其引擎由两个核心组件构成:LXC(Linux Container)与 Docker Daemon。不过,该架构依赖于 LXC,使得 Docker 存在严重的问…

人力资源杂志人力资源杂志社人力资源编辑部2024年第13期目录

看法_总编随笔 学会退步 齐向宇; 1 看法_热点聚焦 数说 7 司事 9 看法_热点聚焦_翻转 话题 “霸总”发言遭吐槽对职场年轻人多些体谅 8 看法_视界《人力资源》投稿:cn7kantougao163.com 养老保险改革及其对人事工作的启示 赵梓安; 12-13 做…

潘展乐速度!滴滴无车赔,叫车就是快

8月5日,滴滴网约车“快”乐大使潘展乐在男子4x100米混合泳接力比赛中以45秒92的优异成绩在最后一棒反超,中国队夺得金牌!恭喜潘展乐在本届比赛中和队友一起站上冠军的领奖台,用团队金牌为自己庆生! 为进一步提升用户叫…

三级等保测评如何顺利通过

三级等保认证,作为中国信息安全等级保护制度中的高级别认证,其标准之高、要求之严,在国内信息安全领域内堪称顶尖。根据《信息系统安全等级保护基本要求》,三级等保的测评内容覆盖了等级保护安全技术要求和安全管理要求的多个层面…

android13 删除兼容性警告窗口 deprecation warning 去除弃用警告

总纲 android13 rom 开发总纲说明 目录 1.前言 2.情况 3.问题分析 4.代码更改 5.编译测试 6.彩蛋 1.前言 在 Android 13 中,为了提高用户体验和应用的兼容性,系统引入了一些新的隐私和安全特性。这些特性可能会影响旧版应用的行为,因此当用户运行可能不完全兼容 An…

【HarmonyOS NEXT星河版开发学习】小型测试案例01-今日头条置顶练习

个人主页→VON 收录专栏→鸿蒙开发小型案例总结​​​​​ 基础语法部分会发布于github 和 gitee上面 ​ 前言 本系列可能是博客首发,鸿蒙开发星河版是一个全新的版本,由于参考视频较少鸿蒙开发不被重视导致csdn上面并没有全套的学习路线,…

6款免费版文章生成器,为你的创作提供无限可能

在这个信息发展迅速的时代,创作者们常常陷入时间和灵感的困境中。为了应对这一挑战,人工智能技术为我们提供了一种全新的解决方案——文章生成器。在这些文章生成器中可以帮助我们快速生成高质量的内容,为我们的创作提供无限可能。在本文中&a…

json文件格式

json文件格式 格式介绍1格式介绍2格式3 格式介绍1 格式介绍2 格式3 参考地址

全自动真空拌馅机 肠类肉丸类馅料搅拌机:

拌馅机,作为现代厨房与食品加工行业不可或缺的利器,其优点繁多,宛如烹饪艺术中的魔术师,为食材的融合与美味的创造开辟了新的维度。 首先,拌馅机以其高效均匀的搅拌能力著称,能够瞬间将肉类、蔬菜、调料等多…

微信小程序 - 自定义计数器 - 优化(键盘输入校验)

微信小程序通过自定义组件,实现计数器值的增加、减少、清零、最大最小值限定、禁用等操作。通过按钮事件触发方式,更新计数器的值,并修改相关联的其它变量。通过提升用户体验,对计数器进行优化设计,使用户操作更加便捷…

亚马逊测评:提升产品信誉与销量的关键

在亚马逊这样竞争激烈的环境中。通过有效的测评,卖家可以轻松为自己的产品添加评论、提高排名,进而打造出优质的产品。然而,亚马逊测评并不等同于刷单。今天,将深入探讨亚马逊测评的本质、与刷单的区别,以及如何在这个…

新能源车燃料和动力电池及系统应用概述(上)

随着化石能源的日益消耗和对环保的逐渐重视,利用电能取代化石能源作为动力的电动汽车受到了世界各国的关注和大力研发。电池技术作为电动汽车的核心和瓶颈,是电动汽车研究的重点和热点方向,也是关系到新能源汽车成本、续航里程、安全性及使用…

【LLM大模型】一文掌握Prompt:万能框架+优化技巧+常用指标

随着大模型在2023年横空出世,“Prompt 工程” 应运而生,作为用好大模型最重要的武器,Prompt 的好坏对模型效果有着决定性的影响。然而,网络上大量相关文章多是罗列“Prompt 工程” 中的若干技巧,少有体系化的总结&…

gym/Gymnasium强化学习玩推箱子游戏

gym/Gymnasium强化学习玩推箱子游戏 gym 框架 源码 https://github.com/openai/gym 文档 https://www.gymlibrary.dev/ 自 2021 年以来一直维护 Gym 的团队已将所有未来的开发转移到 Gymnasium,这是 Gym 的替代品(将 gymnasium 导入为 gym)…

k8s工作负载控制器--DaemonSet

文章目录 一、概述二、适用场景三、基本操作1、官网的DaemonSet资源清单2、字段解释3、编写DaemonSet资源清单4、基于yaml创建DaemonSet5、注意点5.1、必须字段5.2、DaemonSet 对象的名称5.3、.spec.selector 与 .spec.template.metadata.labels之间的关系 6、查看DaemonSet6.1…

主成分分析和线性判别分析

主成分分析 (PCA) PCA 是一种线性降维方法,通过投影到主成分空间,尽可能保留数据的方差。 原理 PCA 通过寻找数据投影后方差最大的方向,主成分是这些方向上的正交向量。 公式推理 对数据中心化: 其中,μ 是数据的…

姿态矫正app-不良坐姿语音提示

“让爷康康”是一款应用于安卓平台的手机应用,可以实时监测不良坐姿并给出语音提示。本项目主要基于 [Tensorflow Lite 官方示例 - 姿态估计] 文件结构 ├───android │ ├───app │ │ └───src │ └───gradle ├───doc_images ├───…