人工智能的新兴能力:我们是在追逐神话吗

news2024/12/26 21:12:44

大型语言模型的新兴能力

图片由作者使用 DALL-E 拍摄

模型的涌现属性

突现属性不仅是人工智能的一个概念,也是所有学科(从物理学到生物学)的一个概念。这一概念一直让科学家着迷,他们既在描述这一概念,也在试图理解其起源。诺贝尔物理学奖得主PW Anderson用“更多即不同”这一观点综合了这一思想。从某种意义上说,它可以被定义为一种突现属性,即随着系统复杂性的增加而出现的属性,并且无法预测。

例如,你可以用小分子编码信息,但 DNA(大分子)编码的是基因组。或者少量的铀不会引起核反应。

大型语言模型的新兴能力

“雪花中复杂的对称和分形 图案的形成体现了物理系统的涌现”。图片来源:此处

最近,人工智能模型也观察到了同样的行为,最常用的定义之一是:“如果某种能力在较小的模型中不存在,但在较大的模型中存在,那么这种能力就是新兴的。”

这意味着什么以及如何观察?

OpenAI 在一篇文章中指出,模型的性能遵循一个缩放定律:数据和参数越多,性能越好。在涌现属性的情况下,预期的是一种特定的模式:随着参数数量的增加,性能几乎是随机的,直到在某个阈值处观察到某种属性(性能开始明显改善)。基本上,我们会看到曲线的急剧转变(称为相变)。这也被称为涌现,因为通过检查小规模模型是无法预测的。

大型语言模型的新兴能力

大型语言模型的新兴能力。图片来源(此处)

简而言之,如果一个属性满足以下两个条件,我们可以说它被认为是突发的:

  • 锐度,存在与不存在之间的过渡是不连续的。
  • 不可预测性,随着参数的增加,其出现无法预测

此外,扩展 Transformer 主要考虑三个因素:计算量、模型参数数量和训练数据集大小。

这三个因素使得模型成本高昂。另一方面,这些特性尤其受到追捧,也被用来作为增加参数数量的理由(尽管模型并没有得到最佳训练)。

大型语言模型的新兴能力

图片来源:这里

一些研究也关注了为什么会出现这些特性,为什么会这样出现,以及为什么会出现在特定的阈值上。根据一些研究,可以预测某些特性的出现:

例如,如果多步骤推理任务需要 l 步连续计算,则可能需要深度至少为 O (l) 层的模型。(来源)

有人提出了其他解释,比如参数数量越多越有助于记忆。随着数据的增加,模型会获得知识,并在某个时候达到临界质量,从而能够支持该属性

此外,一些作者提出,不同的架构和更好的数据质量可能导致这些属性在更小的模型中出现。

LLaMA 就体现出了这一点,其中一个明显较小的 GPT-3 模型表现出了可比的特性和性能。

META 的 LLaMA:打败巨人的小型语言模型

META 开源模型将帮助我们理解 LM 偏见是如何产生的

medium.com

无论如何,问题仍然存在,为什么会出现这些属性?

Anthropic 在一项研究中指出:

大型生成模型具有高可预测性和高不可预测性(特定模型的能力、输入和输出无法提前预测)的矛盾组合。高可预测性是指模型损失随着训练资源的消耗而改善,并且往往与许多任务的性能提高呈松散相关。(来源)

简单来说,对于LLM来说,有些事情我们可以预测,有些事情我们无法预测。例如,缩放定律允许我们预测增加参数数量将提高规模性能,但同时,我们无法预测某些属性的出现,这些属性反而会随着参数的增加而突然出现。

因此根据这个原则,我们甚至不应该试图预测它们。

大型语言模型的新兴能力

缩放定律可靠地预测模型性能。图片来源:此处

大型语言模型的新兴能力

三个突发特定能力扩展属性的示例。图片来源:此处

为什么我们对预测这些属性如此感兴趣?

第一个原因是纯粹的经济学:如果某个属性仅在一定数量的参数下出现,我们就不能使用较小的模型。这会大大增加训练和硬件的成本。另一方面,如果无法预测某个属性,我们甚至无法估算获得该属性的成本。

其次,它证明了在寻找新属性的过程中参数过度增加的合理性,这些新属性出现在数万亿个参数中。毕竟,这可能是获得某些属性的唯一方法。

此外,这还会带来安全问题,因为我们无法预测模型在一定规模下会具有什么属性。模型可能会产生有问题的属性,并且可能不适合部署。此外,如此大的模型更难测试是否存在偏见和危害。

此外,缩放定律和突现特性一直是人们热衷于大型模型的原因之一。

大型语言模型的新兴能力

这开启了一个可怕的场景,一方面,我们拥有大量开源模型,其训练成本降低,聊天机器人的使用增加。但另一方面,我们无法预测这些模型的属性。

无限巴别法学硕士图书馆

开源、数据和关注:法学硕士的未来将如何改变

towardsdatascience.com

如果新兴房地产只是海市蜃楼怎么办?

大型语言模型的新兴能力

图片来自Unsplash 上的Nick Fewings

2020 年,谷歌研究人员意识到了法学硕士的潜力,并预测法学硕士将带来变革。因此,他们要求社区提供既不同又困难的任务示例,然后可以用来测试法学硕士的能力。因此,超越模仿游戏基准(BIG-bench) 项目诞生了。

该项目实际上也专注于研究突发事件和令人惊讶的特性并试图了解它们的起源。

大型语言模型的新兴能力

图片来源:此处

事实上,数据集和文章讨论了概率的出现并试图提供解释。例如,超过一百亿个参数的模型可以解决三位数加法或两位数乘法问题。

基于这篇文章,斯坦福大学的研究人员在最近的一篇论文中对语言模型的突现属性的概念本身提出了质疑。

大型语言模型的突发能力只是幻象吗?

最近的研究表明,大型语言模型表现出新兴能力,这种能力在小规模模型中并不存在……

arxiv.org

事实上,作者注意到,突现属性似乎仅出现在非线性或不连续的度量中。

作者为这些特性的出现提供了另一种假设。他们认为,关键在于性能测量的选择。换句话说,随着模型规模的增加,每个标记的错误率平稳、连续且可预测地增长。但随后,研究作者使用不连续的指标来衡量任务的性能,因此看起来模型执行任务的速度突然加快了。

换句话说,小模型在某项任务上表现不错,但我们无法检测到它,因为所选的指标是不连续的,并且只有在一定的误差(在一定的模型尺寸上实现)下我们才能观察到任务中的表现。

大型语言模型的新兴能力

图片来源:这里

据作者称,测试示例数量较少也导致小模型无法得到正确的评估。

为了证明这一点,作者从缩放定律开始,根据该定律,性能(或错误)随着指标数量的增加而增加,并且确实在不同量级上表现出一致性。正如作者所指出的,许多指标要求序列中的所有标记都是正确的,尤其是在处理长序列时会导致急剧增加。

他们之所以能够使用 InstructGPT/GPT-3 进行这些实验,是因为遗憾的是无法访问 LaMDA、Gopher 和 Chinchilla 等模型。这阻止了他们对不同模型进行广泛的评估。由于 LLM 仅针对文本进行训练(而 GPT 针对预测下一个单词进行训练),因此 LLM 的令人惊讶的能力之一是整数算术任务。正如 GPT-3 介绍文章所示,此属性被定义为随尺度函数而出现的/

大型语言模型的新兴能力

不同大小模型在小样本设置下所有 10 个算术任务的结果。图片来源:此处

如图 (顶部) 所示,当使用非线性度量来衡量性能时,我们会看到一种突发属性。另一方面,当使用线性度量 (底部) 时,我们会看到性能随着规模的扩大而持续且可预测地增加。

大型语言模型的新兴能力

图片来源:这里

此外,作者指出,即使使用非线性指标,通过增加小模型评估的数据,效果也不会那么明显。换句话说,如果测试数据集较大,即使使用非线性指标,我们也不会观察到如此显著的效果。

事实上,低分辨率(少量测试数据)更有可能帮助小模型实现零精度,这支持了某个属性在某个阈值之后立即出现的说法。

大型语言模型的新兴能力

图片来源:这里

然后,作者决定使用 BigBench(因为它是公开的并且也有很好的记录)对新兴特性进行元分析。此外,该数据集提供了多个评估指标。当作者查看非线性指标(精确字符串匹配、多项选择等级、ROUGE-L-Sum)时,可以观察到新兴特性。另一方面,使用线性指标则没有观察到新兴特性。

最令人惊讶的发现是,92%的声称的新兴能力来自于使用两个不连续的指标——多项选择等级和精确字符串匹配。

大型语言模型的新兴能力

因此,如果出现特性的原因确实是使用不连续指标,那么只需更改指标就足以使它们消失。保持模型和任务不变,只需更改评级指标,出现的特性就会消失。在这种情况下,作者只是重复使用了 LaMDA 系列模型的输出,并将指标从不连续(多项选择等级)更改为连续(Brier 分数)。

大型语言模型的新兴能力

最后一个问题:但是如果通过选择不连续度量出现了突发属性,我们可以使用不连续度量来创建突发属性吗?

作者以手写数字数据集(MNIST 或数据科学家最喜欢的数据集)的分类能力为例。任何尝试在这个数据集上训练卷积网络的人都注意到,即使只有几层,也能获得不错的结果。增加层数可以提高准确性。如果它是一种突发属性,我们预计一开始准确度会接近于零,通过将参数增加到某个阈值以上,准确度将开始显着提高。

作者使用了LeNet系列(多个模型,参数数量不断增加)。他们只是选择了一个称为子集准确率的新指标:“如果网络正确分类了 K 个(独立)测试数据中的 K 个,则为 1,否则为 0。”

在使用测试准确度时,我们注意到准确度呈现典型的 S 形趋势,而采用新的不连续度量,似乎对手写数字进行分类的能力是一种新兴特性。

大型语言模型的新兴能力

作者提供了另一个例子:使用自动编码器进行图像重建。只需创建一个新的不连续度量,重建自动编码器的能力就成为一种新兴特性。

大型语言模型的新兴能力

作者总结道:

突发能力可能是研究人员选择的产物,而不是特定任务模型家族的基本属性(来源)

换句话说,如果有人想要一种突发属性,他们所要做的就是选择一个不连续的度量,然后神奇地他们会看到一个属性出现在某个参数阈值之上。

作者保守地表示,“这篇论文应该被解读为声称大型语言模型无法表现出突发能力。 ”他们只是声称迄今为止看到的属性是通过度量选择产生的。

现在确实如此,除非你看到黑天鹅,否则所有天鹅都是白的。但是,下一次出现新出现的属性时,必须检查它是在什么条件下出现的。此外,这再次呼吁重新考虑现在可能不适合衡量模型质量的基准。其次,法学硕士应该是开源的,因为任何主张都可能只是由于评估的选择。

临别感想

长期以来,涌现特性一直被认为是大型语言模型 (LLM) 最令人惊讶的行为之一。超过一定数量的参数就会出现一种能力,这一事实是一个令人着迷但同时也令人恐惧的概念。事实上,一方面,这进一步证明了寻找越来越大的模型的合理性。另一方面,潜在危险能力的出现毫无征兆,这是有问题的。

本文意外地展示了评估指标的选择如何导致属性的出现。这促使我们重新思考基准,并将重点放在评估指标的选择上。其次,涌现属性可能不存在。

更广泛地说,一直以来,许多作者都选择让他们的数据脱颖而出的评估指标。因此,只有当模型及其输出向公众开放以供独立科学调查时,我们才能确定声明的有效性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2051170.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

bootchart抓Android系统启动各阶段性能数据

最近在做Android系统启动优化,首要任务是找到启动过程中各阶段耗时点,进而有针对性地进行优化。主要用bootchart抓开机数据,本文主要记录下工具的使用方法。 1.抓开机数据 adb root adb shell ‘touch /data/bootchart/enabled’ adb rebo…

HDFS的透明加密

一、HDFS透明加密原理 Hadoop的透明加密(HDFS Transparent Data Encryption) - TDE 1.HDFS中的数据明文存储 HDFS中的数据会以block的形式保存在各台数据节点的本地磁盘中,但这些block都是明文的。 通过Web UI页面找到Block的ID和副本位于的机器信息 如果在操作系统中直接访…

2024年运营技术与网络安全态势研究报告:遭遇多次网络威胁的比例暴增

随着 OT 组织不断在其业务环境中集成各种数字工具和技术,它们面临的安全挑战也日益变得愈加复杂和多样化。正如 NIST 指出, “虽然安全解决方案旨在解决典型 IT系统中的一些问题,但将这些相同的解决方案引入不同的 OT 环境时,必须…

excel实现图片转文字功能/excel 实现导出图片功能/excel导出图片不失真(解决excel导出图片模糊的问题)

excel实现图片转文字功能 excel实现图片转文字功能:方法1:使用QQ的在线文档进行图片转文字方法2:使用WPS的excel文档进行图片转文字pdf图片转表格 使用excel 导出图片的方法(使用Excel内置的“复制为图片”功能)1. 复制…

Java序列化流和反序列化流

序列化流: 序列化:将一个对象转换成网络中传输的流 对象输出流:ObjectOutputStream 反序列化:将网络中传输的流还原成一个对象 对象输入流:ObjectInputStream 一个类对象将来…

轻松上手MYSQL:MYSQL权限配置全攻略,打造安全的数据库环境

​ 🌈 个人主页:danci_ 🔥 系列专栏:《设计模式》《MYSQL》 💪🏻 制定明确可量化的目标,坚持默默的做事。 ✨欢迎加入探索MYSQL权限配置之旅✨ 👋 大家好!文本学习和…

【秋招笔试】8.14联想(算法岗)-三语言题解

🍭 大家好这里是 春秋招笔试突围,一起备战大厂笔试 💻 ACM金牌团队🏅️ | 多次AK大厂笔试 | 编程一对一辅导 ✨ 本系列打算持续跟新 春秋招笔试题 👏 感谢大家的订阅➕ 和 喜欢💗 和 手里的小花花🌸 ✨ 笔试合集传送们 -> 🧷春秋招笔试合集 🍒 本专栏已收…

Cortex-A7的GIC(全局中断控制器)使用方法(6):基于stm32MP135的IRQ初始化及处理流程分析

0 参考资料 STM32MP13xx参考手册.pdf(RM0475) ARM Generic Interrupt Controller Architecture version 2.0 - Architecture Specification.pdf 1 基于Cortex-A7的STM32MP135的IRQ初始化及处理流程分析 熟悉基于Cortex-M内核的stm32系列MCU的一定对中断…

RabbitMQ练习(Hello World)

1、RabbitMQ教程 《RabbitMQ Tutorials》https://www.rabbitmq.com/tutorials RabbitMQ是一个消息代理,它接受并转发消息。你可以将其想象成一个邮局:当你将需要邮寄的信件放入邮筒时,你可以确信邮递员最终会将邮件投递给你的收件人。在这个…

LDR6500-type-c 接口小封装PD取电协议芯片

LDR6500 Type-C PD取电芯片是一种基于Type-C接口的电源传输的协议芯片,它通过Type-C接口中的CC(Configuration Channel)线进行通信,协商电压、电流及供电方向。当设备连接时,双方会进行握手通信,以确定彼此…

在AMD GPU上进行Grok-1模型的推理

Inferencing with Grok-1 on AMD GPUs — ROCm Blogs 我们展示了如何通过利用ROCm软件平台,能在AMD MI300X GPU加速器上无缝运行xAI公司的Grok-1模型。 介绍 xAI公司在2023年11月发布了Grok-1模型,允许任何人使用、实验和基于它构建。Grok-1的不同之处…

Java学习Day29:查漏补缺

1.只创建对象不创建文件 2.过滤器 使用匿名内部类实现FileFilter接口,实现过滤; 递归实现遍历目录及子目录下的后缀为。txt文件 public class ioRee {public static void main(String[] args) throws IOException {File file new File("D:\\A&quo…

pywebview 入门

pywebview 入门 文档地址 地址 https://pywebview.flowrl.com/guide/ 一、pywebview 简介 1. 什么是 pywebview? pywebview 是一个轻量级的 python 库,旨在简化桌面应用程序的开发。它利用系统的 WebView 组件,使得开发人员可以使用现代 …

web过滤器,前后端同步异步交互,跨域问题,json等知识点

一.过滤器 (1)什么是过滤器 过滤器(Filter):是web服务器管理所有的web资源例如servlet,例如实现权限访问控制、过滤敏感词汇、压缩响应信息等。 (2)过滤器的作用 通过过滤器可以实现对服务器web资源的拦截,例如编码过滤器通过对web资源的过滤拦截可以实…

python-素数回文(赛氪OJ)

[题目描述] 现在给出一个素数,这个素数满足两点: 1、 只由 1∼9 组成,并且每个数只出现一次,如 13,23,1289 。 2、 位数从高到低为递减或递增,如 2459,87631 。 请你判断一下,这个素数的回文数是否为素数&a…

python之matplotlib (1 介绍及基本用法)

介绍 matplotlib是Python中的一个绘图库,它提供了一个类似于 MATLAB 的绘图系统。使用matplotlib你可以生成图表、直方图、功率谱、条形图、错误图、散点图等。matplotlib广泛用于数据可视化领域,是 Python 中最著名的绘图库之一。 同样matplotlib的安…

day23-测试自动化之Appium的滑动和拖拽事件、高级手势ActionChains、手机操作API

目录 一、滑动和拖拽事件 1.1.应用场景 1.2.swipe滑动事件 1.3.scroll滑动事件 1.4.drag_and_drop拖拽事件 1.5.滑动和拖拽事件的选择 二、高级手势ActionChains 2.1.应用场景 2.2.使用步骤 2.3.注意点 2.4.方法 1).手指轻敲操作 (掌握) 2).手势按下和抬起操作(掌握&#xff0…

【Win/Mac】InDesign 2024(id2024排版和设计软件)中文安装版

目录 一、软件概述 二、下载 三、主要特点 系统要求(Windows 系统) 一、最低系统要求 二、推荐系统要求 三、图形处理器要求 系统要求(Mac 系统) 一、最低系统要求 二、推荐系统要求 三、图形处理器要求 使用方法 一、…

【Keil5教程及技巧】耗时一周精心整理万字全网最全Keil5(MDK-ARM)功能详细介绍【建议收藏-细细品尝】

💌 所属专栏:【单片机开发软件技巧】 😀 作  者: 于晓超 🚀 个人简介:嵌入式工程师,专注嵌入式领域基础和实战分享 ,欢迎咨询! 💖 欢迎大家&#xff1…

缓存学习

缓存基本概念 概念 对于缓存,最普遍的理解是能让打开某些页面速度更快的工具。从技术角度来看,其本质上是因为缓存是基于内存建立的,而内存的读写速度相比之于硬盘快了xx倍,因此用内存来代替硬盘作为读写的介质当然能大大提高访…