【论文精读】Emergent Abilities of Large Language Models

news2025/1/11 2:31:39

1. Emergence

涌现emergence)或称创发、突现、呈展、演生,是一种现象,为许多小实体相互作用后产生了大实体,而这个大实体展现了组成它的小实体所不具有的特性。

水分子聚集后组成了雪花是一个物理上的创发现象

扩大(Scaling up)语言模型已被证明可以预测性地提高各种下游任务的性能和样本效率。

  • 样本效率(Sample efficiency)是指学习算法在使用尽可能少的训练样本的情况下,在某个任务上获得良好表现的能力。换句话说,它衡量了算法在学习任务时需要多少数据才能有效地学习。
  • 一个样本效率高的算法可以使用较少的样本学习与一个样本效率低的算法相同的任务。这在获取更多的训练数据可能很困难或昂贵的情况下尤为重要,例如医学诊断或机器人领域。
  • 样本效率受多种因素的影响,包括任务的复杂性、训练数据的质量和相关性以及算法的设计和容量。一些学习算法由于其能够从有限的数据中很好地推广,因此比其他算法更具有样本效率;而其他算法需要更多的数据才能获得良好的性能。
  • 因此,在评估和比较不同的学习算法时,样本效率是一个重要的指标。
  • 涌现是指系统的量变导致行为的质变。
  • 具体来说,我们将大型语言模型的涌现能力定义为在小规模模型中不存在,但在大规模模型中存在的能力;因此,涌现能力不能简单地通过外推较小模型的表现来预测。

2. Few-Shot Prompting

通过给 LLM(Large Language Model) 几个实例,不调整模型参数,解决下游任务。本质上属于 In Context Learning

当语言模型达到一定的随机性能时,通过少量提示(few-shot prompting)执行任务的能力就会涌现,在此之后,性能显着提高到远高于随机。

3. Augmented Prompting Strategies

例如:Chain-of-Thought(思维链),一种增强的提示策略(Augmented Prompting Strategies)。

解决多步推理任务,引导语言模型在给出最终答案之前生成一系列中间步骤。

详情请见:【Chain-of-Thought】开创 AI 模型推理新纪元

专门的提示或微调方法可能会有涌现现象,因为它们在没有达到一定的模型规模之前,是不会产生积极的效果。

大型语言模型的涌现能力列表,以及这些能力出现的规模

4. Discussion

  • 我们已经看到,在少量样本提示设置或其他情况下,一系列能力到目前为止只在对足够大的语言模型进行评估时才被观察到。因此,它们的出现不能仅通过小型模型的表现简单外推来预测。具有涌现能力的少量样本提示任务也是不可预测的,因为这些任务并没有在预训练中显式包含,而且我们可能不知道语言模型可以执行的少量样本提示任务的全部范围。
  • 这引发了一个问题,即进一步扩展是否会赋予更大的语言模型新的涌现能力。语言模型目前无法完成的任务是未来出现的主要候选对象;例如,在 BIG-Bench 中有数十个任务,即使是最大的 GPT-3PaLM 模型也无法实现高于随机的性能。
  • BIG-Bench 是一个评估语言模型能力的广泛基准(benchmark),由 AI2、微软和卡内基梅隆大学等机构合作开发。它涵盖了来自多个领域的70个任务,包括自然语言理解、常识推理、知识库问答等等。这些任务旨在测试语言模型在大规模、复杂、多样化的应用场景下的表现,是目前最具挑战性的语言模型测试集之一。BIG-Bench 的任务数量和难度要远高于其他常见的语言模型基准,它的推出对于评估和推动语言模型的发展具有重要意义。
  • 模型大小并不是解锁涌现能力的唯一因素。随着训练大型语言模型的科学的进步,对于具有新体系结构、更高质量数据或改进的训练过程的较小模型,某些能力可能会被解锁。一个例子是,InstructGPTChatGPTGPT-4 模型提出了一种基于人类反馈的微调和强化学习方法RLHF),这使得一个参数量 1.3B 的模型在广泛的用例中,在人类评估方面的表现优于更大的模型。
  • 重要的是,风险也可能会出现,例如,大型语言模型的社会风险,如真实性、偏见和毒性。无论它们是否可以准确地被描述为“涌现”,这些风险都是重要的考虑因素,并且在某些情况下,随着模型规模的增加而增加。由于关于涌现能力的工作鼓励语言模型的规模扩大,因此重要的是要意识到随着模型规模的增加而增加的风险,即使它们不是涌现的。

5. Directions for future work

  1. Further model scaling.
  2. Improved model architectures and training.
  3. Data scaling.
  4. Better techniques for and understanding of prompting.
  5. Frontier tasks.(解决前沿任务)
  6. Understanding emergence. (涌现能力的可解释性和新的理解)

6. Conclusions

我们已经讨论了语言模型的涌现能力,迄今为止,只有在一定的计算规模上才观察到有意义的表现。涌现能力可以跨越各种语言模型、任务类型和实验场景。这些能力是最近发现的大型语言模型的结果,它们是如何出现的,以及更多的扩展是否会出现进一步的涌现能力成为 NLP 领域未来重要的研究方向。

7. References

[1] Wei J, Tay Y, Bommasani R, et al. Emergent abilities of large language models[J]. arXiv preprint arXiv:2206.07682, 2022.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/453286.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++ 类和对象(上)

类 面向对象的三大特性:封装,继承,多态 C语言结构体中只能定义变量,在C中,结构体内不仅可以定义变量,也可以定义函数。比如: 之前在数据结构初阶中,用C语言方式实现的栈,…

springboot入门和yaml数据格式和读取yaml型数据和多环境配置和命令行启动参数设置

springboot入门 搞掉了手动的spring,mybatis,springmvc配置类,只需要创建一个控制类即可 控制类: package com.itjh.controller;import org.springframework.web.bind.annotation.*;RestController RequestMapping("/book…

KDYZ-YM压敏电阻测试仪

一、概述 晶闸管的伏安特性是晶闸管的基本特性,这项特性的好坏,直接影响到器件在整机上的正常使用。因此,检测晶闸管的伏安特性在晶闸管器件的生产、经销及使用过程中都是十分重要的。 该测试仪的测试方法符合国标JB/T7624-94《整流二极管测试…

AI:人工智能领域AI工具产品集合分门别类(文本类、图片类、编程类、办公类、视频类、音频类、多模态类)的简介、使用方法(持续更新)之详细攻略

AI:人工智能领域AI工具产品集合分门别类(文本类、图片类、编程类、办公类、视频类、音频类、多模态类)的简介、使用方法(持续更新)之详细攻略 导读:由于ChatGPT、GPT-4近期火爆整个互联网,掀起了人工智能相关的二次开发应用的热潮&#xff0c…

MySQL 的 Replace into 与 Insert into on duplicate key update 真正的不同之处

相同点: (1)没有key的时候,replace与insert .. on deplicate udpate相同。 (2)有key的时候,都保留主键值,并且auto_increment自动1。 不同点 有key的时候,replace是dele…

Python数据结构与算法-RAS算法(p96)

一、RSA加密算法简介 1、加密算法概念 传统密码: 加密算法是秘密的 现代密码系统:加密算法是公开的,密钥是秘密的;(密钥可能是随机生成的,与他人不一致) 对称加密—加密和解密用的同一个密钥 非对称加密—加密和解密用…

Kali下部署-Nessus漏扫工具

Nessus 是全世界最多人使用的系统漏洞扫描与分析软件。总共有超过75,000个机构使用Nessus 作为扫描该机构电脑系统的软件。 特点: 1、提供完整的电脑漏洞扫描服务,并随时更新漏洞库。 2、可以在本机或者是远端上进行遥控,进行系统的漏洞扫…

深入理解AMQP协议

一.AMQP 是什么 AMQP(Advanced Message Queuing Protocol, 高级消息队列协议)是一个提供统一消息服务的 应用层标准高级 消息队列协议,是 应用层协议的一个 开放标准,为面向消息的中间件设计,是一个进程间传递 异步消息…

线性模型的介绍

一、背景 在一个理想的连续世界中,任何非线性的东西都可以被线性的东西来拟合,所以理论上线性模型可以模拟物理世界中的绝大多数现象。 线性模型(Linear Model)是机器学习中应用最广泛的模型,指通过样本特征的线性组…

生产力提速增效的4大敲门砖

引言: 本文章将分四大板块介绍提高程序员生产力的方案,最大化利用你的IDE ,其中Live Template篇,插件篇非常值的一看, 用好才能提速增效 Productity Guide篇 Postfix Completion篇 Live Template篇 插件篇 Product…

NGFW的protal认证实验

实验topo 用到工具:ensp,kali,cloud云的网段是192.168.43.0;连接cloud的g0/0/0地址就是你登录web,protal的地址 实验说明:建议不在真机上面配置直接用,因为真机不稳定。这里用kali当真机&#x…

【网络应用开发】实验5—— JDBC数据库访问与DAO设计模式

目录 JDBC数据库访问与DAO设计模式预习报告 一、实验目的 二、实验原理 三、实验预习内容 1. JDBC常用的类对象与接口有哪些?它们的功能如何? 2.使用数据源访问数据库的基本思想是什么?这样做有什么好处? 3.什么是DAO&am…

vscode使用虚拟环境

我的conda没有添加入path,每次打开总是报错 一、选择对应虚拟环境的解释器 1.点击vscode的右下角这里 2.点击后可能会在vscode上方出现下图样子,如果出现下图,则点击第二项Select at workspace level, 3.接着出现下图样式&#…

2022年营收破百亿,零跑汽车展现超强实力

此前,零跑已正式公布了2022年的财务数据。可以看到,零跑去年的营收破百亿,增速将近300%,这一成绩在汽车界是相当优越的。说到为何零跑能够实现如此快速的成长,那就不得不提其全域自研的核心优势。 如今,无论…

有始有终的编码原则

基本情况 在程序员的修炼之道之中,说到: 这个建议能简单地应用到大多数场合。简单说就是,分配资源的函 数或对象,对释放资源应负有责任。 这其实就是我们常说的谁分配的就谁负责释放,这也是内存释放的一个原则&#x…

微搭低代码实现投票功能

经常有一类需求,就是投票的功能,需要限制每一个选项每个人只可以投一票,投完之后需要统计票数。本篇教程我们讲解一下如何利用微搭低代码工具来实现投票功能。 1 设计数据源 我们需要设计一个数据源来记录用户的投票,如何限制用…

Docker网络模式详解

文章目录 一、docker网络概述1、docker网络实现的原理1.1 随机映射端口( 从32768开始)1.2 指定映射端口1.3 浏览器访问测试 二、 docker的网络模式1、默认网络2、使用docker run 创建Docker容器时,可以用--net或--network 选项指定容器的网络模式 三、docker网络模式…

代码审计实战3-android java

jks java keystore 作用:保证应用的唯一性 简介:可以理解为java的密钥库,是一个用来存放密钥和证书的仓库。 (而keytool就是密钥和证书的管理工具,它把key(密钥)和certificate(证…

一零五六、Jsp+mysql 实现学生选课系统(附源码及数据库)

目录 实现效果 项目代码 数据库 结语 实现效果 login.jsp index.jsp course_query.jsp course_selection.jsp course_withdraw.jsp selection_query.jsp 项目代码 checkSelectionStatus.jsp % page contentType"text/html;charsetUTF-8" language"java&q…

图像处理:均值滤波算法

目录 前言 概念介绍 基本原理 Opencv实现中值滤波 Python手写实现均值滤波 参考文章 前言 在此之前,我曾在此篇中推导过图像处理:推导五种滤波算法(均值、中值、高斯、双边、引导)。这在此基础上,我想更深入地研…