[AI OpenAI] 提取GPT-4中的概念

news2024/10/7 4:34:44

总结:

研究人员采用新的可扩展方法,将GPT-4的内部表示分解为1600万个通常可解释的模式,这些模式被称为“特征”,目的是提高语言模型的透明度和可解释性。通过使用稀疏自编码器,研究人员能够识别与特定概念相关的特征,例如人类不完美、价格上涨、修辞问题等。尽管这些特征提高了模型的解释性,但仍然存在挑战,包括特征的准确解释、自编码器对原始模型行为的完整捕捉,以及对模型如何计算和使用这些特征的理解。


我们使用新的可扩展方法将GPT-4的内部表示分解为1600万个通常可解释的模式。

稀疏自编码器封面

目前,我们还不理解如何理解语言模型内部的神经活动。今天,我们分享了改进的方法来找到大量“特征”——我们希望这些活动模式对人类来说是可解释的。我们的方法比现有工作更具可扩展性,我们使用它们在GPT-4中找到了1600万个特征。我们与研究社区分享了论文(打开新窗口)、代码(打开新窗口)和特征可视化(打开新窗口),以促进进一步的探索。

解释神经网络的挑战

与大多数人类创造物不同,我们并不真正理解神经网络的内部工作原理。例如,工程师可以根据组件的规格直接设计、评估和修复汽车,确保安全和性能。然而,神经网络并不是直接设计的;我们设计的是训练它们的算法。产生的网络并不被很好理解,也不能轻易分解成可识别的部分。这意味着我们不能像推理汽车安全那样推理AI安全。

为了理解和解释神经网络,我们首先需要找到神经计算的有用构建块。不幸的是,语言模型内部的神经激活以不可预测的模式激活,似乎同时代表了许多概念。它们也密集地激活,意味着每个激活在每个输入上总是被触发。但是现实世界的概念是非常稀疏的——在任何给定的上下文中,只有一小部分概念是相关的。这促使了稀疏自编码器的使用,这是一种方法,用于识别神经网络中对产生任何给定输出重要的少数“特征”,类似于一个人在推理情况时可能想到的一小组概念。它们的特征显示出稀疏的激活模式,自然地与人类易于理解的概念对齐,即使没有直接的解释性激励。

博客稀疏自编码器神经光

然而,训练稀疏自编码器仍然存在严重挑战。大型语言模型代表了大量概念,我们的自编码器可能需要相应地巨大,以接近前沿模型的概念全覆盖。学习大量稀疏特征是具有挑战性的,过去的工作并没有显示出良好的可扩展性。

我们的研究进展:大规模自编码器训练

我们开发了新的最先进的方法论,允许我们将稀疏自编码器扩展到前沿AI模型上的数千万个特征。我们发现我们的方法论展示了平滑和可预测的扩展,比先前技术有更好的规模回报。我们还引入了几个新的特征质量评估指标。

我们使用我们的配方在GPT-2小型和GPT-4激活上训练了各种自编码器,包括GPT-4上的1600万特征自编码器。为了检查特征的解释性,我们通过展示特征激活的文档来可视化给定特征。这里是我们找到的一些可解释特征:

限制

我们对可解释性最终能够提高模型的可信度和可控性感到兴奋。然而,这仍然是一项早期工作,存在许多限制:

  • 与之前的工作一样,许多发现的特征仍然难以解释,许多特征在没有明显模式的情况下激活,或者表现出与它们似乎通常编码的概念无关的虚假激活。此外,我们没有好的方法来检查解释的有效性。
  • 稀疏自编码器并没有捕捉到原始模型的所有行为。目前,将GPT-4的激活通过稀疏自编码器处理得到的结果相当于一个计算量减少约10倍的训练模型。为了全面映射前沿大型语言模型中的概念,我们可能需要扩展到数十亿甚至数万亿个特征,即使使用我们改进的扩展技术,这也是一项挑战。
  • 稀疏自编码器可以在模型的某一点找到特征,但这只是解释模型的一步。需要更多的工作来理解模型是如何计算这些特征的,以及这些特征是如何在模型的其余部分中被使用的。

展望未来,并开放我们的研究

尽管稀疏自编码器研究令人兴奋,但前面还有一条漫长的道路和许多未解决的挑战。短期内,我们希望我们发现的特征能够实际用于监控和引导语言模型的行为,并计划在我们前沿模型中测试这一点。最终,我们希望有一天,可解释性能够为我们提供新的方式来推理模型的安全性和鲁棒性,并通过提供关于它们行为的强大保证,显著增加我们对强大AI模型的信任。

今天,我们分享了一篇论文(打开新窗口),详细介绍了我们的实验和方法,我们希望这将使研究人员更容易大规模训练自编码器。我们正在发布一套完整的GPT-2小型自编码器,以及使用它们的代码(打开新窗口),和特征可视化工具(打开新窗口),以了解GPT-2和GPT-4特征可能对应的内容。


  • 原文
  • 博客 - 从零开始学AI
  • 公众号 - 从零开始学AI

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1797550.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《今日科技》是什么级别的期刊?是正规期刊吗?能评职称吗?

问题解答 问:《今日科技》是不是核心期刊? 答:不是,是知网收录的正规学术期刊 问:《今日科技》是什么级别的? 答:省级。主管单位:浙江省科学技术厅 主办单位:浙江省…

免费分享一套SpringBoot+Vue校园论坛(微博)系统【论文+源码+SQL脚本】,帅呆了~~

大家好,我是java1234_小锋老师,看到一个不错的SpringBootVue校园论坛(微博)系统,分享下哈。 项目视频演示 【免费】SpringBootVue校园论坛(微博)系统 Java毕业设计_哔哩哔哩_bilibili【免费】SpringBootVue校园论坛(微博)系统 Java毕业设计…

Cesium401 (Unauthorized)https://api.cesium.com/v1/assets/2/endpoint未授权问题

目录 前言1.原因分析2.解决问题1.禁用默认的imageryProvider2.禁用图层切换3.移除所有默认图层4.使用自己的地形(可选) 3.最终解决方案4.总结 前言 在初始化Cesium的Viewer以后,Viewer会自动去访问Cesium官网的资源,如果访问不到官网的资源,就…

parseInt函数

貌似遇到问题了,在Java中,parseInt方法是java.lang.Integer类的一个静态方法,它用来将字符串转换为基本数据类型int。如果字符串不能被解析为有效的整数,parseInt会抛出一个NumberFormatException。 原来是取整串转换,…

Lab_ Exploiting an API endpoint using documentation

https://portswigger.net/web-security/learning-paths/api-testing/ 开局一个页面 打开代理和burp,查看功能点,然后看HTTPhistory 然后使用题目已知的账号去登录一下 My account 登录 然后发现 /api 路径 那么我们访问一下 URL/api ,发现…

宋仕强论道 之 AI(人工智能)

《宋仕强论道 之 AI(人工智能)如何赋能新质生产力》于6月3日由新华瞭望网首发后,被环球科技新闻网等多家媒体转载;随后又分别以《宋仕强论道 之 AI如何赋能新质生产力》《宋仕强:AI赋能新质生产力的理论探索与实践路径…

有关大学的搜题软件?六个不限次的公众号和软件分享啦 #其他#职场发展

有些同学虽然喜欢刷题,但是如果参考答案遗失、找不到参考答案,导致做好的题目无法校对,就会比较烦恼了。不过不用担心,今天就给大家分享一些超好用的搜题工具 1.彩虹搜题 这是个老公众号了 它不仅可以查到大学题目,…

【机器学习】朴素贝叶斯算法及其应用探索

🌈个人主页: 鑫宝Code 🔥热门专栏: 闲话杂谈| 炫酷HTML | JavaScript基础 ​💫个人格言: "如无必要,勿增实体" 文章目录 朴素贝叶斯算法及其应用探索引言1. 朴素贝叶斯基本概念1.1 贝叶斯定理回顾1.2 朴…

【Unity实战篇 】 | Unity实现UGUI颜色渐变,支持透明渐变

前言 【Unity实战篇 】 | Unity实现UGUI颜色渐变,支持透明渐变一、双层颜色渐变1.1 组件属性面板1.2 效果及代码 二、多层颜色渐变2.1 组件属性面板2.2 效果及代码 总结 前言 在Unity中UGUI的实现图片和文字颜色渐变效果是一个很常见的需求。下面就来看一下颜色渐变…

【微前端实战总结篇】

微前端现有的落地方案可以分为三类,自组织模式、基座模式以及模块加载模式。 一、为什么需要微前端? 这里我们通过3W(what,why,how)的方式来讲解什么是微前端: 1.What?什么是微前端? 微前端就是将不同的功能按照不同的维度拆分成多个子应用。通过主应…

面向AI应用开发实战分享 - 基础篇

“前端转AI,第一讲来了” 引言 如果你是一名前端开发,同时又对AI开发很感兴趣,那么恭喜你,机会来了。 如果不是也没关系,同样能帮大家了解AI应用的开发思路。 本文将带大家从面向AI开发的基础知识开始,再…

1、旋转在三维空间中的表现形式

有4种表达方式:旋转矩阵SO(3)、四元数、旋转向量和欧拉角。 一、旋转矩阵SO(3) 定义:旋转矩阵是一个33的正交矩阵,且行列式为1。表示:可逆矩阵,逆矩阵和转置矩阵相同,表示相反的旋转。优点:可…

卫星通信频段有哪些

卫星通信使用到的频段涵盖L, S, C, Ku, Ka等,而最常用的频段是C(4~8GHz)和Ku(12~18GHz)频段,而Ka(27-40GHz)频段是后起之秀。目前地球赤道上空有限的地球同步卫星轨位几乎已被各国占满,C和Ku频段内的频率资源被大量使用,而Ka频段的…

1347:【例4-8】格子游戏

【解题思路】 该题为判断无向图是否有环。可以使用并查集来完成。学习并查集时,每个元素都由一个整数来表示。而该问题中每个元素是一个坐标点,由(x, y)两个整数构成。 将二维坐标变为一个整数,通过一个公式将二维坐标换算为一个整数&…

弘君资本:20家退市!港交所迎“新”扫“旧”

港交所行政总裁陈翊庭周三到会彭博亚洲财富峰会时表明,对研制开支大的企业和许多科技企业来说,香港商场仍是具备招引力的上市渠道,上市规矩18C章可满足特专科技企业需求。 值得一提的是,首家特专科技新股晶泰科技已于6月4日正式进…

抖音小红书淘宝拼多多商家订单对接ERP|获取电商平台订单信息(商家授权)

custom-自定义API操作 支持抖音拼多多淘宝小红书 公共参数 名称类型必须描述keyString是调用key(必须以GET方式拼接在URL中)secretString是调用密钥api_nameString是API接口名称(包括在请求地址中)[item_search,item_get,item_…

恢复误删和格式化的文件的利器

一、简介 1、一款由Piriform开发的免费文件恢复工具,它能够帮助用户恢复那些不小心从电脑上删除的文件,包括从回收站清空的文件,以及因用户错误操作而从存储设备中删除的图片、音乐、文档等多种格式的文件。Recuva支持对硬盘、闪存卡、U盘等多种存储介质进行扫描与恢复,并且…

AI魔法相机:实时3D重建与场景魔法化

一、产品概述 AI魔法相机是一款创新的硬件产品,它结合了AI技术和3D重建扫描技术,能够实时捕捉并重建3D场景和物理世界。用户只需通过简单的点击操作,即可捕捉现实物体或环境,并将其无缝融合到任何场景中,创造出全新的想象现实。 二、核心功能 实时捕捉:一键式操作,迅速…

Redis限流方案

限流简介 限流算法在分布式领域是一个经常被提起的话题,当系统的处理能力有限时,如何阻止计划外的请求继续对系统施压,是一个需要重视的问题。 除了控制流量,限流还有一个应用目的是用于控制用户行为,避免垃圾请求&a…

java版spring cloud 知识付费平台的功能模块与子模块划分

随着互联网技术的飞速发展,知识付费平台已经成为了我国在线教育领域的一颗新星。这些平台以用户需求为出发点,围绕高质量的内容打造,利用互联网技术为用户提供了一个便捷、高效的学习环境。它们汇聚了丰富的专业知识,覆盖了职业技…