OpenAI新研究破解GPT-4大脑,分解1600万个特征打开“黑匣子”,Ilya 、Jan Leike也参与了!

news2025/4/21 8:53:20

6月7日凌晨,OpenAI在官网发布了一个新的研究成果,首次破解GPT-4的神经网络活动。通过改进大规模训练稀疏自动编码器将GPT-4的内部表示分解为 1600 万个特征。而且,前段时间离职的Ilya Sutskever、Jan Leike也是作者之一!

图片

这不是破译了GPT-4的大脑吗!

听起来好像很有意思,于是奶茶赶紧搬运来,让我们一起来看下!

 3.5研究测试:
hujiaoai.cn
4研究测试:
askmanyai.cn
Claude-3研究测试:
hiclaude3.com

图片

稀疏自编码器

神经网络一直被视为人工智能领域的“黑匣子”,其运作机制复杂难懂,与机械设备不同,神经网络的设计和训练充满了未知。在设计和训练神经网络时,对最终结果的理解非常有限。

为了揭开这个“黑匣子”,OpenAI的研究人员一直在寻找神经计算的基本构建块。然而,语言模型内部的神经激活模式复杂多变,似乎同时代表了多个概念,并且这些激活是密集的,每次输入都会触发多个激活。这与现实世界中遇到的稀疏概念形成鲜明对比,在任何给定情境中,只有少数几个概念是相关的。

于是,OpenAI研究团队开始了关于从语言模型中提取可解释特征的研究:

论文标题
Scaling and evaluating sparse autoencoders

论文链接:
https://cdn.openai.com/papers/sparse-autoencoders.pdf

开源地址:
https://github.com/openai/sparse_autoencoder

图片

论文首先指出,虽然稀疏自编码器在提取语言模型中的可解释特征方面表现优异,但其极端稀疏性使得训练过程非常困难。传统方法难以处理大型语言模型中的复杂特征。因此,研究团队使用了TopK稀疏自编码器N2G等方法进行了大规模的训练,训练后能够识别出神经网络中对生成特定输出至关重要的少量特征,将GPT-4的内部表示分解为1600万个通常可解释的模式,这些模式被称为“特征”,展示了GPT-4如何处理和理解各种信息。

这种方法提高了大语言模型的透明度和可解释性,能够识别与特定概念相关的特征,例如人类不完美、价格上涨、修辞问题等。

大家如果感兴趣这篇论文的话,可以在评论区告诉我们~我们速速安排论文解读!

有趣的样例

OpenAI制作了一个在线的Demo查看器,允许用户分析GPT-4内部表示的特定特征,从而理解这些特征在模型内部的作用和解释:

图片

▲SAE查看器Demo

Demo地址:
https://openai.com/index/extracting-concepts-from-gpt-4/

而且OpenAI在官网展示了一些可视化界面,让我们打开其中一个《人类的不完美》的例子来看下:

图片

我们点进去【完整的可视化】可以看到对应主题文本的激活函数权重的完整可视化界面:

图片

绿色高亮的文字是已经准备好的标识点,当鼠标挪到对应的文字上可以看到其对应的真实的激活的权重:

图片

界面上还显示了一些宏观上的数值:

  • 直方图:展示了特征激活值的分布情况,X轴表示激活值的大小,Y轴表示对应激活值的频次。大多数激活值集中在较低的范围内,随着激活值的增加,频次逐渐减少。

  • Density:5.54e-5,表示特征激活的密度。

  • Mean:8.40e-5,表示激活值的平均值。

  • Variance:1.64e-4,表示激活值的方差。

  • Skew:2.08e+2,表示激活值分布的偏度。

  • Kurtosis:6.00e+4,表示激活值分布的峰度。

看起来真的很酷哎!大家感兴趣的话可以看看官网其他的例子:

https://openai.com/index/extracting-concepts-from-gpt-4/

仍存在限制

研究团队表示很高兴可解释性最终能够提高模型的可信度和可操作性。然而,这仍处于早期阶段,存在许多局限性:

  • 与之前的研究一样,许多发现的特征仍然难以解释,许多特征的激活没有明确的模式,或者表现出与它们通常编码的概念无关的虚假激活。此外,我们也没有很好的方法来检查解释的有效性。

  • 稀疏自动编码器无法捕获原始模型的所有行为。目前,将 GPT-4 的激活通过稀疏自动编码器可获得与使用大约 10 倍计算量训练的模型相当的性能。为了完全映射前沿 LLM 中的概念,我们可能需要扩展到数十亿或数万亿个特征,即使使用改进的扩展技术,这也具有挑战性。

  • 稀疏自动编码器可以在模型的某一点找到特征,但这只是解释模型的一步。还需要做更多的工作来了解模型如何计算这些特征,以及这些特征如何在模型的其余部分中下游使用。

小结

虽然稀疏自动编码器研究令人兴奋,但前路漫漫,还有许多未解决的挑战。OpenAI希望发现的特征能够实际用于监控和控制语言模型行为,并计划在更前沿模型中测试这一点。希望有一天,可解释性可以为推理模型的安全性和稳健性作出贡献,并通过对它们的行为提供强有力的保证,显著提高人类对强大语言模型的信任。

此外,6月6日凌晨,OpenAI还在官网公开了名为 AccessManager 的服务,作为管理内部授权和实现最小权限授权的可扩展机制。这也是OpenAI首次系统性地公布大模型开发安全方面的高级细节。再结合今天的大语言模型可解释性的研究,OpenAI似乎也在开始展示自己在安全方面的一些努力!让我们一起期待吧~

图片

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1798379.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机专业本科就业还是考研?考研有哪些热门方向?

考研并不是一个逃避就业的避难所,也不是一个简单的提升待遇的手段。考研是提升自我的途径,特别是对于那些对特定技术领域有浓厚兴趣并愿意深入研究的人来说 一个本科生能够认真学三年,那么他们所掌握的技能和知识不应该逊色于那些通过短期培…

Faiss框架使用与FaissRetriever实现

Faiss是一个由Facebook AI Research开发的库,用于高效相似性搜索和稠密向量聚类。它为机器学习和深度学习中的向量检索问题提供了一种高效的解决方案,特别是在处理大规模数据集时。Faiss支持多种索引类型,包括基于量化的索引、基于聚类的索引…

Apache Doris 基础 -- 数据表设计(模式更改)

用户可以通过schema Change操作修改现有表的模式。表的模式主要包括对列的修改和对索引的修改。这里我们主要介绍与列相关的Scheme更改。对于与索引相关的更改,可以查看数据表设计/表索引,查看每个索引的更改方法。 1、术语 基本表(Base Ta…

命运2联机出错、无法组队?命运2频繁卡顿、延迟高的解决方法

命运2是一款由Bungie制作的第一人称射击游戏,昨日玩家们期待的最新DLC在全球发布,steam同时在线人数几乎打破历史记录达到314K,但是有不少玩家遇到联机失败、无法联机、匹配不了的情况,不知道怎么解决,下面提供几种解决…

Hi3519DV500 学习摘录

文章目录 一、问题1、open-vm-tools 安装2、pushd: not found3、autoreconf4、编译util-linux源码时报错 ERROR: You must have autopoint installed to 二、NFS1、服务器搭建2、u-boot常用命令3、配置4、问题 三、补缺1、make 一、问题 1、open-vm-tools 安装 open-vm-tools…

Phpstorm使用xdebug断点调试

一、目标 1、在浏览器地址栏里操作页面访问接口时,可以在项目代码对应入口处断点拦截调试; 2、在postman调用接口时,可以在项目代码对应入口处断点拦截调试; phpstorm版本:PhpStorm 2024.1.2 二、具体操作 1、安装…

2种方法!一键批量下载1688主图、sku图、视频和详情页

最近关于如何一键下载1688主图、sku图、视频和详情页相关的问题被商友们问爆了。店雷达直接上实操教程,建议收藏,不迷路! 方法一:通过选品中心下载 1、在店雷达选品中心(如果想在1688进货的就在1688选品库中选品&…

激发AI创新潜能,OPENAIGC开发者大赛赛题解析

人工智能(AI)的飞速发展,特别是AIGC、大模型、数字人技术的成熟,不仅改变了数据处理和信息消费的方式,也为企业和个人提供了前所未有的机遇。在这种技术进步的背景下,由联想拯救者、AIGC开放社区、英特尔共…

图标绘制软件draw.io中文安装包

Draw.io(也称为Diagrams)是一款功能强大的免费在线图表绘制工具。它支持绘制多种类型的图表,如流程图、UML图、组织结构图等,满足了从商务到工程设计的多领域需求。软件界面直观友好,操作简单,用户无需安装…

若依框架改造多租户模式

当前使用版本3.6.416.20.2 (Currently using 64-bit executable)https://doc.ruoyi.vip/ruoyi-cloud/document/hjbs.html 一、若依Cloud改为多租户模式 当前使用版本3.6.4,既然要改为多租户模式,多租户重点是什么,数据隔离,那么…

​【JS重点知识04】JS执行机制(重点面试题)

学前案例: console.log(111); setTimeout(function () {console.log(222); }, 1000) console.log(333); //输出结果:1111 333 222 console.log(111); setTimeout(function () {console.log(222); }, 0) console.log(333); //输出结果:111 33…

各行业万能预约门店小程序源码系统 支持多门店预约 前后端分离 带完整的安装源码包以及搭建教程

在移动互联网快速发展的今天,小程序以其轻量级、即用即走的特点,成为了企业连接用户、提供服务的重要桥梁。特别是在服务行业,如美容美发、餐饮、医疗、教育等领域,门店预约系统的重要性不言而喻。为了满足各行业对门店预约系统的…

C语言实现map数据结构 key—value对应

1.首先43行 createKeyValuePair(char*key ,int value)这个函数就是给一个keyValuePair *pair的指针来通过内存分配将数据key和value存入这个pair指针所对应的内存空间 2.52行freeKeyValuePair这个函数是释放内存空间 3.头文件 struct结构体KeyValuePair就是一个指针一个值 4…

node-mysql的批量插入

此前我批量插入都是用类似这样的命令: sqlcmdinsert into table(field1,field2,...) values ? indata[["f1v1","f2v1"],["f1v2","f2v2"],...] mysqlconn.query(sqlcmd,[indata],(err,res)>{...})但是感觉不太舒服&…

Puffer Finance 如何凭借“再质押”,化解以太坊节点运行难题?

去中心化、DeFi 增强、全链化等 LST 赛道竞争背景下的市场争夺热点频现,以太坊该如何化解节点中心化的现实困境?一起来看看 TinTin AMA 第 10 期活动看看原生流动性再质押平台 Puffer Finance 的技术解决方案,以再质押理念优化用户参与项目流…

银河麒麟V10_系统如何自定义添加桌面右键菜单选项

本篇博客取自《银河麒麟桌面操作系统软件适配常见问题指导手册》官网可以下载。 环境 系统版本 适用系统:V10(SP1)适用架构:X86、ARM、MIPS 其他版本和架构可做参考。 解决方案 使用下面的这个demo 编译就可以看到效果 peony…

基于jeecgboot-vue3的Flowable流程-已办任务(二)

因为这个项目license问题无法开源,更多技术支持与服务请加入我的知识星球。 接上一节,这个部分主要讲功能代码 1、注册列表数据显示 //注册table数据const { prefixCls, tableContext, onExportXls, onImportXls } useListPage({tableProps: {title: …

2559. 统计范围内的元音字符串数(前缀和) o(n)时间复杂度

给你一个下标从 0 开始的字符串数组 words 以及一个二维整数数组 queries 。 每个查询 queries[i] [li, ri] 会要求我们统计在 words 中下标在 li 到 ri 范围内(包含 这两个值)并且以元音开头和结尾的字符串的数目。 返回一个整数数组,其中…

【2024PythonPycharm详细安装教程】

1.打开官网 https://www.python.org/ downloads——>Windows 2.找到 Download Windows installer (64-bit) 下载 3.下载完成双击安装包 勾选Add python.exe to PATH(自动配置系统变量) 点击Install Now(默认安装) 然后看到安装成功&#xff0…

【权威出版/投稿优惠】2024年社会发展与公共文化国际会议(SDPC 2024)

2024 International Conference on Social Development and Public Culture 2024年社会发展与公共文化国际会议 【会议信息】 会议简称:SDPC 2024 截稿时间:点击查看 大会地点:中国上海 会议官网:www.icsdpc.com 会议邮箱&#x…