重磅!OpenAI最新研究:用GPT-4解释神经元行为,网友:AI套娃?

news2024/11/26 17:20:39

来源 | 机器之心

这就是 GPT 的「抽象」,和人类的抽象不太一样。

alt

虽然 ChatGPT 似乎让人类正在接近重新创造智慧,但迄今为止,我们从来就没有完全理解智能是什么,不论自然的还是人工的。

认识智慧的原理显然很有必要,如何理解大语言模型的智力?OpenAI 给出的解决方案是:问问 GPT-4 是怎么说的。

各个大模型的研究测试传送门

阿里通义千问传送门:
https://tongyi.aliyun.com

百度文心一言传送门:
https://yiyan.baidu.com

ChatGPT传送门(免墙,可直接测试):
https://yeschat.cn

GPT-4传送门(免墙,可直接测试,遇到浏览器警告点高级/继续访问即可):
https://gpt4test.com

5 月 9 日,OpenAI 发布了最新研究,其使用 GPT-4 自动进行大语言模型中神经元行为的解释,获得了很多有趣的结果。

alt

可解释性研究的一种简单方法是首先了解 AI 模型各个组件(神经元和注意力头)在做什么。传统的方法是需要人类手动检查神经元,以确定它们代表数据的哪些特征。这个过程很难扩展,将它应用于具有数百或数千亿个参数的神经网络的成本过于高昂。
所以 OpenAI 提出了一种自动化方法 —— 使用 GPT-4 来生成神经元行为的自然语言解释并对其进行评分,并将其应用于另一种语言模型中的神经元 —— 此处他们选择了 GPT-2 为实验样本,并公开了这些 GPT-2 神经元解释和分数的数据集。

alt
  • 论文地址:https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html
  • GPT-2 神经元图:https://openaipublic.blob.core.windows.net/neuron-explainer/neuron-viewer/index.html
  • 代码与数据集:https://github.com/openai/automated-interpretability

这项技术让人们能够利用 GPT-4 来定义和自动测量 AI 模型的可解释性这个定量概念:它用来衡量语言模型使用自然语言压缩和重建神经元激活的能力。由于定量的特性,我们现在可以衡量理解神经网络计算目标的进展了。
OpenAI 表示,利用他们设立的基准,用 AI 解释 AI 的分数能达到接近于人类的水平。

alt

OpenAI 联合创始人 Greg Brockman 也表示,我们迈出了使用 AI 进行自动化对齐研究的重要一步。

具体方法
使用 AI 解释 AI 的方法包括在每个神经元上运行三个步骤:

步骤一:用 GPT-4 生成解释

alt

给定一个 GPT-2 神经元,通过向 GPT-4 展示相关文本序列和激活来生成对其行为的解释。
模型生成的解释:对电影、角色和娱乐的引用。

步骤二:使用 GPT-4 进行模拟

再次使用 GPT-4,模拟被解释的神经元会做什么。
alt

步骤三:对比

根据模拟激活与真实激活的匹配程度对解释进行评分 —— 在这个例子上,GPT-4 的得分为 0.34。
alt

alt

主要发现

使用自己的评分方法,OpenAI 开始衡量他们的技术对网络不同部分的效果,并尝试针对目前解释不清楚的部分改进技术。例如,他们的技术对较大的模型效果不佳,可能是因为后面的层更难解释。

alt

OpenAI 表示,虽然他们的绝大多数解释得分不高,但他们相信自己现在可以使用 ML 技术来进一步提高他们产生解释的能力。例如,他们发现以下方式有助于提高分数:

  • 迭代解释。他们可以通过让 GPT-4 想出可能的反例,然后根据其激活情况修改解释来提高分数。

  • 使用更大的模型来进行解释。随着解释模型(explainer model)能力的提升,平均得分也会上升。然而,即使是 GPT-4 给出的解释也比人类差,这表明还有改进的余地。

  • 改变被解释模型(explained model)的架构。用不同的激活函数训练模型提高了解释分数。

OpenAI 表示,他们正在将 GPT-4 编写的对 GPT-2 中的所有 307,200 个神经元的解释的数据集和可视化工具开源。同时,他们还提供了使用 OpenAI API 上公开可用的模型进行解释和评分的代码。他们希望研究界能够开发出新的技术来生成更高分的解释,同时开发出更好的工具来通过解释探索 GPT-2。
他们发现,有超过 1000 个神经元的解释得分至少为 0.8 分,这意味着根据 GPT-4,它们占据了神经元的大部分顶级激活行为。这些得到很好解释的神经元中的大多数都不是很有趣。然而,他们也发现了许多有趣但 GPT-4 并不理解的神经元。OpenAI 希望随着解释的改进,他们可能会迅速发现对模型计算的有趣的定性理解。

以下是一些不同层神经元被激活的例子,更高的层更抽象:

alt
alt
alt
alt

看起来,GPT 理解的概念和人类不太一样?

OpenAI 未来工作

目前,该方法还存在一些局限性,OpenAI 希望在未来的工作中可以解决这些问题:

  • 该方法专注于简短的自然语言解释,但神经元可能具有非常复杂的行为,因而用简洁地语言无法描述;

  • OpenAI 希望最终自动找到并解释整个神经回路实现复杂的行为,神经元和注意力头一起工作。目前的方法只是将神经元的行为解释为原始文本输入的函数,而没有说明其下游影响。例如,一个在周期(period)上激活的神经元可以指示下一个单词应该以大写字母开头,或者增加句子计数器;

  • OpenAI 解释了神经元的这种行为,却没有试图解释产生这种行为的机制。这意味着即使是得高分的解释在非分布(out-of-distribution)文本上也可能表现很差,因为它们只是描述了一种相关性;

  • 整个过程算力消耗极大。

最终,OpenAI 希望使用模型来形成、测试和迭代完全一般的假设,就像可解释性研究人员所做的那样。此外,OpenAI 还希望将其最大的模型解释为一种在部署前后检测对齐和安全问题的方法。然而,在这之前,还有很长的路要走。

参考资料

[1]https://openai.com/research/language-models-can-explain-neurons-in-language-models/
[2]https://news.ycombinator.com/item\?id=35877402
[3]https://www.reddit.com/r/MachineLearning/comments/13d4b3o/language\_models\_can\_explain\_neurons\_in\_language/
[4]https://techcrunch.com/2023/05/09/openais-new-tool-attempts-to-explain-language-models-behaviors/

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/513489.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

K8S 部署 seata

文章目录 创建 Deployment 文件创建 ConfigMap 文件创建 Service 文件运行访问高可用部署踩坑 官方文档 k8s中volumeMounts.subPath的巧妙用法 创建 Deployment 文件 deploymemt.yaml namespace:指定命名空间image:使用 1.5.2 版本的镜像ports&#xf…

加密算法和非对称加密的简单学习

加密算法和非对称加密的简单学习 前言对称加密算法DES特点:为什么不使用: 3DES(Triple DES 或者 DESede)特点:使用场景:为什么不用: AES(Advanced Encryption Standard)特…

SoLVES模型的详细使用教程

SoLVES(Social Values for Ecosystem Services)模型是由美国地质调查局落基山地理科学中心(RMGSC)和科罗拉多州立大学联合研究开发,主要用于评估生态系统服务的社会价值,能够量化美学、生物多样性、休闲生活…

鸿蒙Hi3861学习十一-Huawei LiteOS-M(内存池)

一、简介 LiteOS将内核与内存管理分开实现,操作系统内核仅规定了必要的内存管理函数原型,而不关心这些内存管理函数是如何实现的。 LiteOS内存管理模块管理系统的内存资源,包括:初始化、分配、释放。 不采用C标准库中的内存管理函…

精准锁定证件材料篡改位置,合合信息智能图像处理技术助力金融机构防范违规开户

得知帮助他人办理几张银行卡、电话卡,就能坐等“分红”,许多人怀着“吃馅饼”的心态掉入了陷阱。今年4月,海南一男子出借银行卡帮助不法分子进行电信网络诈骗,涉案资金流水近10万元,被警方抓捕。此前,西安某…

如何在VUE中使用andflow流程设计组件

andflow_js 是基于js、css、html开发的一个前端流程设计组件,目的是方便前端开发流程设计器。实现各种流程设计的样式风格,以及对设计结果的读取和显示,以便于与将设计结果提供给后端保存和执行。 由于VUE框架在许多实际项目中经常使用&…

安卓稳定性技术栈

涉及技术内容: framework java层 语言:Java 1.开机启动流程:Android 7.0平台开机启动_android7.0开机自启_jamousjang的博客-CSDN博客 Android系统启动流程解析 基于Android13的系统启动流程分析 2.Watchdog机制 3.Anr 机制 4.AMS四大…

Monte carlo 求解积分

Monte carlo 求解积分 文章目录 Monte carlo 求解积分[toc]1 单变量情形2 多变量情形 1 单变量情形 假设待求解积分形式为 θ ∫ 0 1 f ( x ) d x \theta\int_0^1 f(x) \mathrm{d} x θ∫01​f(x)dx 其中 θ \theta θ为积分值。引入随机变量 X ∼ U ( 0 , 1 ) X\sim U(0,1)…

服务攻防-应用协议-远控软件漏洞向日葵VNCTV-平台漏洞KibanaZabbix-附真实案例演示

目录 一、导图 二、远程控制-向日葵&Vnc&Teamviewer 1、向日葵 ▶漏洞利用工具下载地址: ▶实例展示: 2、Vnc ▶Vnc简介: ▶实例展示: 3、Teamviewer ▶Teamviewer简介: ▶实例展示: 三、设备…

小灰的基金,亏了67W。。。

2022年基金市场有多差?相信大家都有目共睹。小灰的基金在去年也赔得很惨,还每次写过几篇文章: 跌吧,继续跌吧,小灰的基金已亏损64万。。。 基金亏损84万,小灰反手把银行客户经理投诉了 今年是疫情结束的第一…

成为Smartbi合伙人,现金奖励可达15000元

2023年Smartbi推出合伙人计划即日起至2023年12月31日只要您成为思迈特软件合伙人推荐有效商机即有机会赢取上万元现金奖励商机奖励1000元,合同签约奖励可达15000元同时我们将为您提供全方位的支持和帮助实现共谋、共创、共赢!*点击https://www.smartbi.c…

长文多图一步步讲清楚:DDD理论、建模与代码实现全流程

欢迎大家关注公众号「JAVA前线」查看更多精彩分享文章,主要包括源码分析、实际应用、架构思维、职场分享、产品思考等等,同时欢迎大家加我个人微信「java_front」一起交流学习 1 六个问题 1.1 为什么使用DDD DDD方法论核心是将问题不断分解&#xff0c…

院内导航移动导诊服务体系,院内导航怎么实现?

院内导航怎么实现?经过多年发展,医院规模愈加庞大,尤其是综合性医院,院区面积较大,门诊、医技、住院等大楼及楼区内部设计复杂,科室、诊室数量众多,对于新患者犹如进入了迷宫,客观环…

《花雕学AI》Poe:一个让你和 AI 成为朋友的平台,带你探索 ChatGPT4 和其他 八种AI 模型的奥秘

你是否曾经梦想过,能够在一个平台上,和多种不同的 AI 模型进行有趣、有用、有深度的对话,甚至还能轻松地把你的对话分享给其他人?如果你有这样的梦想,那么 Poe 一站式 AI 工具箱就是你的不二之选! Poe 是国…

让AI来告诉你什么叫幽灵堵车

使用环境参考 CocosCreator v3.7.2 ChatGPT 正文 什么是幽灵堵车 堵车,大家都不陌生! 堵车时我就思维发散,用 CocosCreator 模拟下堵车应该挺好玩,网上总说高速上最前面如果有个龟速的车,后面能堵车堵个两三公里。…

计算机毕业论文选题推荐|软件工程|系列四

文章目录 导文题目导文 计算机毕业论文选题推荐|软件工程 (***语言)==使用其他任何编程语言 例如:基于(***语言)门窗账务管理系统的设计与实现 得到:基于JAVA门窗账务管理系统的设计与实现 基于vue门窗账务管理系统的设计与实现 等等 题目 基于(***语言)的人脸识别系统…

python定时任务2_celery flower计划任务

启动worker: celery -A tasks worker --loglevelerror --poolsolo worker启动成功 启动beat celery -A tasks beat --loglevelinfo beat启动成功 启动flower celery -A tasks flower --loglevelinfo flower启动成功,然后进入http://localhost:5555 可…

手把手教你怎么搭建自己的ChatGPT和Midjourney绘图(含源码)

AI程序采用NUXT3LARAVEL9开发(目前版本V1.1.7) 授权方式:三个顶级域名两次更换 1.AI智能对话-对接官方和官方反代(markdown输出)PS:采用百度与自用库检测文字 2.AI绘图-根据关键词绘图-增加dreamStudio绘画-增加mid…

每日一个小技巧:1分钟告诉你图片怎么转语音

随着科技的不断进步,人们对于信息的获取方式也越来越多样化。而在这些方式中,图片和文字无疑是比较常见的两种。图片以其生动直观的特点吸引了许多人的眼球,而文字则以其更为详尽的信息呈现方式成为了人们了解事物的首选。然而,对…

金融行业数据分类分级“五步走” | 盾见

文|查浩奇 《数据安全法》明确提出,国家要建立数据分类分级保护制度,根据数据在经济社会发展中的重要程度,以及一旦遭到篡改、破坏、泄露或者非法获取、非法利用,对国家安全、公共利益或者个人、组织合法权益造成的危害程度&…