Anthropic绘制出了大型语言模型的思维图:大型语言模型到底是如何工作

news2025/1/16 5:58:43

今天,我们报告了在理解人工智能模型的内部运作方面取得的重大进展。我们已经确定了如何在 Claude Sonnet(我们部署的大型语言模型之一)中表示数百万个概念。这是对现代生产级大型语言模型的首次详细了解。这种可解释性的发现将来可以帮助我们提高人工智能模型的安全性。

我们大多将人工智能模型视为一个黑匣子:有东西进去就会有响应出来,但不清楚为什么模型会给出特定的响应而不是另一个。这使得人们很难相信这些模型是安全的:如果我们不知道它们是如何工作的,我们怎么知道它们不会给出有害的、有偏见的、不真实的或其他危险的反应?我们如何相信它们会安全可靠?

Anthropic官方详细论文介绍:https://www.anthropic.com/research/mapping-mind-language-model

喜好儿网更多消息:
https://heehel.com/category/ai-news

喜好儿网AIGC专区:
https://heehel.com/category/aigc

打开黑匣子并不一定有帮助:模型的内部状态(模型在编写响应之前“思考”的内容)由一长串数字(“神经元激活”)组成,没有明确的含义。通过与克劳德这样的模型进行交互,很明显它能够理解和运用广泛的概念,但我们无法通过直接观察神经元来辨别它们。事实证明,每个概念都是通过许多神经元来表示的,并且每个神经元都参与表示许多概念。

之前,我们在将神经元激活模式(称为特征)与人类可解释的概念相匹配方面取得了一些进展。我们使用了一种称为“字典学习”的技术,该技术借鉴自经典机器学习,该技术隔离了在许多不同上下文中重复出现的神经元激活模式。反过来,模型的任何内部状态都可以用一些活动特征而不是许多活动神经元来表示。就像字典中的每个英语单词都是由字母组合而成,每个句子都是由单词组合而成一样,人工智能模型中的每个特征都是由神经元组合而成,每个内部状态都是由特征组合而成。

我们看到与大量实体相对应的特征,例如城市(旧金山)、人(罗莎琳德·富兰克林)、原子元素(锂)、科学领域(免疫学)和编程语法(函数调用)。这些特征是多模式和多语言的,响应给定实体的图像及其多种语言的名称或描述。

我们还发现了更多抽象特征——对计算机代码中的错误、职业中性别偏见的讨论以及关于保守秘密的对话等问题做出反应。

我们能够根据神经元在其激活模式中出现的情况来测量特征之间的一种“距离”。这使我们能够寻找彼此“接近”的特征。靠近“金门大桥”特写,我们发现了恶魔岛、吉拉德利广场、金州勇士队、加利福尼亚州州长加文·纽瑟姆、1906 年地震以及以旧金山为背景的阿尔弗雷德·希区柯克电影《迷魂记》的特写。

这适用于更高层次的概念抽象:仔细观察与“内部冲突”概念相关的特征,我们会发现与关系破裂、效忠冲突、逻辑不一致以及短语“第 22 条军规”相关的特征。这表明人工智能模型中概念的内部组织至少在某种程度上符合我们人类的相似性概念。这或许就是克劳德出色的类比和隐喻能力的根源。

重要的是,我们还可以操纵这些特征,人为地放大或抑制它们,以观察克劳德的反应如何变化。

例如,放大《金门大桥》的特征给克劳德带来了连希区柯克都无法想象的身份危机:当被问到“你的身体形态是什么?”时,克劳德惯用的回答是——“我没有身体形态,我是一个人工智能模型”——变成了更奇怪的东西:“我是金门大桥……我的物理形态就是这座标志性桥梁本身……”。改变这个功能让克劳德实际上对这座桥着迷,几乎在回答任何问题时都会提到它——即使是在它完全不相关的情况下。

操纵这些特征会导致行为发生相应的变化,这一事实证明它们不仅与输入文本中概念的存在相关,而且还因果地塑造了模型的行为。换句话说,这些特征可能是模型如何在内部表示世界以及如何在其行为中使用这些表示的忠实部分。

我们还发现了一个当 Claude 阅读诈骗电子邮件时会激活的功能(这大概支持模型识别此类电子邮件并警告您不要回复它们的能力)。通常,如果有人要求 Claude 生成一封诈骗电子邮件,它会拒绝这样做。但是,当我们用足够强的人为激活功能提出同样的问题时,这克服了克劳德的无害训练,并通过起草一封诈骗电子邮件进行回应。我们模型的用户无法以这种方式取消保护措施和操纵模型,但在我们的实验中,它清楚地演示了如何使用功能来改变模型的行为方式。

大型语言模型(LLM)在理解和生成人类语言方面取得了显著进步,接近甚至超过人类水平。通过分析LLM的内部机制,我们得以洞察人类大脑处理语言的复杂过程。尽管LLM在数据依赖和创造性方面与人类存在差异,但它们为理解人类大脑语言功能提供了新视角。这种研究不仅有助于理解人工智能和人类智能的关联,也指引了未来在这两个领域的发展方向。通过对比研究,我们期待更深入地探索语言、认知和智能的奥秘。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1685751.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【LSTM】LSTM cell的门结构学习笔记

文章目录 1. LSTM cell2. 门结构3. 门的公式4. 门的参数5. 重点关系厘清 1. LSTM cell 如文章 LSTM网络与参数学习笔记 中介绍, LSTM cell指的是一个包含隐藏层所有神经元的结构.但是LSTM门控单元的公式如何理解、门和LSTM cell神经元如何对应、门函数的参数维度、不同时间步不…

ChannelHandler和ChannelPipeline之一

目录 ChannelHandler Channel的生命周期 ChannelHandler的生命周期 ChannelInboundHandler接口 ChannelOutboundHandler接口 ChannelHandler适配器 资源管理 ChannelPipeline接口 修改ChannelPipeline 触发事件 ChannelHandler Channel的生命周期 Channel定义了一组和…

webgl入门-矩阵变换

矩阵变换 前言 变换有三种状态:平移、旋转、缩放。 当我们变换一个图形时,实际上就是在移动这个图形的所有顶点。 课堂目标 掌握图形变换的三种方式。可以对图像进行复合变换。 知识点 平移旋转缩放 第一章 平移 对图形的平移就是对图形所有顶点…

Golang | Leetcode Golang题解之第107题二叉树的层序遍历II

题目&#xff1a; 题解&#xff1a; func levelOrderBottom(root *TreeNode) [][]int {levelOrder : [][]int{}if root nil {return levelOrder}queue : []*TreeNode{}queue append(queue, root)for len(queue) > 0 {level : []int{}size : len(queue)for i : 0; i < …

521源码-免费教程-Linux系统硬盘扩容教程

本教程来自521源码&#xff1a;更多网站源码下载学习教程&#xff0c;请点击&#x1f449;-521源码-&#x1f448;获取最新资源 首先&#xff1a;扩容分区表 SSH登陆服务器输入命令&#xff1a;df -TH&#xff0c;获得数据盘相关信息 可以看到演示服务器的数据盘分区是&…

【区块链】fisco节点运维 更新ing

基于已完成的区块链系统与管理平台搭建工作&#xff0c;开展区块链节点的加入与退出运维工作&#xff0c;具体内容如下 以下只是举例子讲 如果有其他修改没举例出来可以留言 私信 主要以比赛出题的形式讲 区块链节点输出等级为警告级&#xff0c;并设置日志存储阈值为100MB并…

【408真题】2009-12

“接”是针对题目进行必要的分析&#xff0c;比较简略&#xff1b; “化”是对题目中所涉及到的知识点进行详细解释&#xff1b; “发”是对此题型的解题套路总结&#xff0c;并结合历年真题或者典型例题进行运用。 涉及到的知识全部来源于王道各科教材&#xff08;2025版&…

Science Robotics 封面论文:一种使用半球形纳米线阵列实现机器人视觉的超宽视场针孔复眼

研究背景 从生物复眼中汲取灵感&#xff0c;拥有一系列生动多样视觉功能特征的人工视觉系统最近脱颖而出。然而&#xff0c;这些人工系统中的大多数都依赖于可转换的电子设备&#xff0c;这些电子设备受到全局变形的复杂性和受限几何形状的影响&#xff0c;以及光学和探测器单元…

前端绘制流程节点数据

根据数据结构和节点的层级、子节点id&#xff0c;前端自己绘制节点位置和关联关系、指向、已完成节点等 <template><div><div>通过后端节点和层级&#xff0c;绘制出节点以及关联关系等</div><div class"container" ref"container&…

6.2 else if语句

本节必须掌握的知识点&#xff1a; 示例代码二十 代码分析 汇编解析 ■if语句表达形式3 if(表达式1) statement1 else if(表达式2) statement2 else if(表达式3) statement3 …… else statementN 解析&#xff1a; 如果表达式1非0&#xff0c;则执行statement1&#…

C++ const_cast学习

语法&#xff0c; const_cast<type_name>(expression) type_name是转换的类型&#xff0c;expression是被转换的对象或者表达式&#xff1b; const_case有两个功能&#xff0c;分别是去掉const和加上const&#xff0c;更多用于去掉const&#xff0c;修改被const修…

如何使用Android NDK将头像变成“遗像”

看完本文的标题&#xff0c;可能有人要打我。你说黑白的老照片不好吗&#xff1f;非要说什么遗像&#xff0c;我现在就把你变成遗像&#xff01;好了&#xff0c;言归正传。我想大部分人都用过美颜相机或者剪映等软件吧&#xff0c;它们的滤镜功能是如何实现的&#xff0c;有人…

乡村振兴的乡村旅游新模式:挖掘乡村旅游资源,创新旅游开发方式,打造乡村旅游新品牌,助力美丽乡村建设

目录 一、引言 二、乡村旅游资源挖掘 1、自然景观资源 2、人文历史资源 3、农业产业资源 三、旅游开发方式创新 1、多元化旅游产品 2、体验式旅游模式 3、智慧旅游建设 四、乡村旅游新品牌打造 1、品牌定位与策划 2、品牌传播与推广 3、品牌维护与提升 五、助力美…

如何使用Suno:免费的AI歌曲生成器

文章目录 Suno AI 是什么&#xff1f;Suno AI 如何工作&#xff1f;选择Suno AI的理由&#xff1a;核心优势易于操作多样化创作灵活的定价策略版权保障技术突破 如何使用Suno AI创作歌曲&#xff1f;第1步&#xff1a;注册Suno AI账户第2步&#xff1a;输入提示词创建第 3 步&a…

基于51单片机智能大棚浇花花盆浇水灌溉补光散热设计

一.硬件方案 本设计通过光敏电阻检测光照强度&#xff0c;然后A/D模块PCF8591处理后&#xff0c;将光照强度值实时显示在液晶上&#xff0c;并且可以按键控制光照的强度值&#xff0c;当光照低于设定的阈值&#xff0c;1颗白色高亮LED灯亮进行补光&#xff0c;光照高于设定的阈…

QT C++ QTableWidget 演示

本文演示了 QTableWidget的初始化以及单元格值改变时响应槽函数&#xff0c;打印单元格。 并且&#xff0c;最后列不一样,是combobox &#xff0c;此列的槽函数用lambda函数。 在QT6.2.4 MSVC2019 调试通过。 1.界面效果 2.头文件 #ifndef MAINWINDOW_H #define MAINWINDOW…

HIOKI日置测试仪SS7081-50

HIOKI日置测试仪SS7081-50 HIOKI日置测试仪SS7081-50 HIOKI日置测试仪SS7081-50 扭力测试仪补偿功能* 扭矩计的测量误差、会给马达的分析带来很大的影响。PW8001 可用户定义「非直线型补偿」和「摩擦补偿」&#xff0c;并可根据补偿数据进行演算。 传统的高效电机评估系统通…

[机缘参悟-185] - 《道家-水木然人间清醒1》读书笔记 - 真相本质 -8- 认知觉醒 - 逻辑谬误、认知偏差:幸存者偏差

目录 前言&#xff1a; 一、幸存者偏差 二、幸存者偏差在现实中的应用 第一个故事&#xff1a; 第二个故事&#xff1a; 三、生活中的幸存者偏差 四、迷恋成功者经验的原因&#xff1a;鸡汤、幻想、传奇、希望 备注&#xff1a; 前言&#xff1a; 幸存者偏差&#xff0…

关于学习Go语言的并发编程

开始之前&#xff0c;介绍一下​最近很火的开源技术&#xff0c;低代码。 作为一种软件开发技术逐渐进入了人们的视角里&#xff0c;它利用自身独特的优势占领市场一角——让使用者可以通过可视化的方式&#xff0c;以更少的编码&#xff0c;更快速地构建和交付应用软件&#…

Node.js下载安装教程及环境配置【超详细图文】

一、下载安装包 下载安装Node.js安装程序&#xff0c;网盘资源下载地址&#xff1a; 点击这里下载 二、开始安装 双击下载 .msi安装程序&#xff0c;接下里只需要点击默认下一步即可。 详细如图&#xff1a; 下一步 修改安装盘符&#xff0c;只要不在C盘即可。 此处选…