大模型/LLM的涌现能力

news2024/9/22 15:36:51

新浪张俊林–中国人工智能学会演讲

文章目录

  • 什么是大模型的涌现能力
  • LLM表现的涌现能力
    • 1. In Context Learning -- 情景学习
    • 2. CoT
    • 3. 其他涌现能力
  • LLM模型规模和涌现能力的关系
  • 模型训练中的顿悟现象:Grokking
  • LLM涌现能力的可能原因

什么是大模型的涌现能力

涌现: 许多小实体相互作用产生了大实体,大实体展现了组成它的小实体所不具有的特性
大语言模型的规模效应:下游任务表现-伸缩法则&&涌现能力
在这里插入图片描述
左侧任务:随着参数规模增大,知识的增长,效果越来越好
右侧任务:涌现能力的一种体现,在参数规模小的时候体现一种随机性,看不出来有没有效果。大部分是由多步构成的一个复杂任务

在这里插入图片描述
随着模型推大,效果一开始下降,当规模再增大时会上升,原因未知,但是这类任务加入COT就会转化为伸缩法则,效果持续上升。

大模型的涌现,很多任务在小规模上不能实现,但是大规模上能做。因此在当前不能做的任务,为了验证,只需要推大模型。

LLM表现的涌现能力

1. In Context Learning – 情景学习

给LLM几个示例,不需要调整模型参数,LLM就可以解决某个领域的问题。
在这里插入图片描述
在不同任务上的应用。
在这里插入图片描述

2. CoT

在这里插入图片描述
在这里插入图片描述

3. 其他涌现能力

在这里插入图片描述

LLM模型规模和涌现能力的关系

模型规模和涌现能力的关系: In Context Learning
与具体任务/具体模型有关:某些任务13B规模即可,有些任务需要540B,大部分需要达到70B
在这里插入图片描述
模型规模和涌现能力的关系: CoT等其他涌现能力
在这里插入图片描述
尝试做小模型?
在这里插入图片描述

在这里插入图片描述

模型训练中的顿悟现象:Grokking

Grokking:训练数据较少的某些数学任务(取余问题),训练过程三阶段(记忆期、平台期、泛化期)
在这里插入图片描述

LLM涌现能力的可能原因

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1080217.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

message“: “CSRF token mismatch

tableData,noticeData 是两个长二维数组 $.ajax({url: "/admin/samproofing/confirmPieces",type: "POST",data: {"ym": ym1,"papertype":paper_type,"person_data": that.tableData,"notice_data": t…

Servlet入门

URL和URI: URL统一资源定位符,表示对外暴露的整个网址 URI统一资源标示符,表示资源的访问路径,与servlet绑定的地址 HTTP请求结构: HTTP请求包含三部分:请求行、请求头、请求体 请求行包含:请…

被替换掉的文件如何找回来?

当我们在编辑文件时,通常会直接保存而不是另存为新文件,这样会替换原始文件的信息。如果需要对原始文件进行二次编辑,情况就会比较复杂。那么被替换掉的文件还能找回来吗? 被替换的文件是否可以恢复? 这取决于替换原始…

【论文笔记】A theory of learning from different domains

防盗 https://www.cnblogs.com/setdong/p/17756127.html domain adaptation 领域理论方向的重要论文. 这篇笔记主要是推导文章中的定理, 还有分析定理的直观解释. 笔记中的章节号与论文中的保持一致. 1. Introduction domain adaptation 的设定介绍: 有两个域, source domain…

智慧空开让用电更安全、管理更智能——电脑APP远程控制开合闸

安科瑞 崔丽洁 01 什么是低压断路器?低压断路器的定义是:能够接通、承载及分断正常电路条件下的电流,也能在规定的非正常电路条件(过载、短路、特别是短路)下接通、承载一定时间和分断电流的开关电器。 断路器的分类&…

go语言教程4:switch和map

文章目录 switchswitch匹配字典 go语言教程:安装入门➡️for循环➡️数组、切片和指针 switch和map,一个是控制流,一个是数据结构,之所以把两个不同类型的知识点放在一起讲解,是因为二者有着极其相似的运行逻辑&#…

WSL+vscode配置miniob环境

1.配置WSL Windows Subsystem for Linux入门:安装配置图形界面中文环境vscode wu-kan 2.获取源码 找个位置Git Bash然后拉取代码 git clone https://github.com/oceanbase/miniob.git 3.安装相关依赖 https://gitee.com/liangcha-xyy/source/blob/master/how…

Spring Boot Bean 注入的常用方式教程

Spring Boot Bean 注入是一种将依赖对象引入到应用程序组件中的机制,它有助于实现松耦合和可测试的代码。这种注入方式允许我们将依赖关系委托给 Spring 容器来管理,从而提高了代码的可维护性和可读性。Spring Boot 提供了多种 Bean 注入方式&#xff0c…

qt判断当前日期的当月的最后一天是几号

1、拖个dateTimeEdit在界面上,同时来判断输入的时间的最后一天的日期是什么? int year,month;int monthArr[12]{31,28,31,30,31,30,31,31,30,31,30,31};QDateTime time ui->dateTimeEdit->dateTime();year time.toString("yyyy").toIn…

C++入门介绍

1.C入门知识 以下是一些 C 入门知识: C 是一种面向对象的编程语言,它具有高效、灵活、可移植性好等特点 C 中的基本数据类型包括整型、浮点型、字符型等 C 中的控制语句包括条件语句(if、else)、循环语句(for、while、…

飞凌嵌入式成为“龙芯生态伙伴计划”认证级企业!

近日,飞凌嵌入式正式成为“龙芯生态伙伴计划”认证企业,标志着飞凌嵌入式与龙芯中科的紧密型战略合作伙伴关系正式建立! “龙芯生态伙伴计划”由龙芯中科主导发起,旨在推动龙芯生态企业基于龙芯平台开发产品,丰富龙芯…

MyBatisPlus属性自动填充和乐观锁插件+查询删除操作+整合SpringBoot出现问题解决

属性字段自动填充 一、实体类和数据表添加两个字段(属性) 表:create_tiem/update_time 实体类:createTime/updateTime 二、实体类中属性进行注解添加 TableField(fillFieldFill.INSERT) private Date createTime;TableField(f…

DC2DC电源设计注意事项--1,Feedback

电源采集图如下图 Feedback 采集电压点应该在靠近负载侧。这样可以减少大电流导线导致的电压差,真实反应输出电压值 FB_1P21采集电路靠近芯片侧, 2.1,采集分压电路上侧为Vout Vnoise, 那么一分压就噪声就小了。假如采集电路远离芯片侧&…

简洁多媒体影音库 Emby 中文最新 for mac

Emby是一款用于媒体服务器和媒体中心的软件平台。它允许用户将个人的音乐、电影、电视节目、照片和其他媒体文件组织和管理起来,并通过各种设备进行访问和流媒体播放。 以下是Emby可能提供的一些主要功能和特点: 媒体管理和组织:Emby允许用户…

蒙特卡洛方法的简单应用

蒙特卡洛方法的简单应用 圆周率估算 eastimate pi python version 3.11 RNG:np.random.random import os figure_save_path "file_fig" import warnings warnings.filterwarnings("error") import numpy as np np.random.seed(0) import matplotlib.pyp…

温度在线检测技术在电力电缆线路的应用

在电力电缆的日常运行检测中,针对电缆温度的状况,所采用的电力温度在线检测技术也得到了大范围的普及。电网系统中,其单位时间内可输送的电力能源受到其温度的变化影响。因此,采用更有效的方式实时检测电缆系统运行温度&#xff0…

虾皮商品链接获取虾皮商品详情数据(用 Python实现虾皮商品信息抓取)

在网页抓取方面,可以使用 Python、Java 等编程语言编写程序,通过模拟 HTTP 请求,获取虾皮网站上的商品页面。在数据提取方面,可以使用正则表达式、XPath 等方式从 HTML 代码中提取出有用的信息。值得注意的是,虾皮网站…

miRNA测序数据生信分析——第三讲,已知物种的生信分析实例

miRNA测序数据生信分析——第三讲,已知物种的生信分析实例 miRNA测序数据生信分析——第三讲,已知物种的生信分析实例1. 下载测序数据2. 原始数据质控——软件fastqc3. 注释tRNA和rRNA,使用Rfam数据库——软件blast,Rfam_statisti…

MySQL数据库技术笔记(3)

概述 学习MySQL数据库技术其实只需要安装mysql服务器就可以使用了。只不过对于初学者来说直接操作dos窗口方式比较麻烦,命令不熟悉,导致经常写错。在真实的开发当中直接操作dos窗口效率比较慢,企业中也会经常使用一些mysql数据库支持的可视化…

【VR开发】【Unity】0-课程简介和概述

【说明】 这是我录制的一套VR基础开发课程的文字版本,更加便于快速参考。 应大家在后台所提的需求,从今天开始,我计划带给大家一套完整达40课时的VR开发基础课程。 在开始学习前需要注意如下几点: 本教程基于Unity2022.2.1f1版…