大模型/LLM的涌现能力

大模型/LLM的涌现能力

news2026/2/15 13:24:38

新浪张俊林–中国人工智能学会演讲

文章目录

什么是大模型的涌现能力
LLM表现的涌现能力
- 1. In Context Learning -- 情景学习
- 2. CoT
- 3. 其他涌现能力
LLM模型规模和涌现能力的关系
模型训练中的顿悟现象：Grokking
LLM涌现能力的可能原因

什么是大模型的涌现能力

涌现：许多小实体相互作用产生了大实体，大实体展现了组成它的小实体所不具有的特性
大语言模型的规模效应：下游任务表现-伸缩法则&&涌现能力
在这里插入图片描述
左侧任务：随着参数规模增大，知识的增长，效果越来越好
右侧任务：涌现能力的一种体现，在参数规模小的时候体现一种随机性，看不出来有没有效果。大部分是由多步构成的一个复杂任务

在这里插入图片描述
随着模型推大，效果一开始下降，当规模再增大时会上升，原因未知，但是这类任务加入COT就会转化为伸缩法则，效果持续上升。

大模型的涌现，很多任务在小规模上不能实现，但是大规模上能做。因此在当前不能做的任务，为了验证，只需要推大模型。

LLM表现的涌现能力

1. In Context Learning – 情景学习

给LLM几个示例，不需要调整模型参数，LLM就可以解决某个领域的问题。
在这里插入图片描述
在不同任务上的应用。

2. CoT

在这里插入图片描述

3. 其他涌现能力

在这里插入图片描述

LLM模型规模和涌现能力的关系

模型规模和涌现能力的关系： In Context Learning
与具体任务/具体模型有关：某些任务13B规模即可，有些任务需要540B，大部分需要达到70B
在这里插入图片描述
模型规模和涌现能力的关系： CoT等其他涌现能力

尝试做小模型？

在这里插入图片描述

模型训练中的顿悟现象：Grokking

Grokking：训练数据较少的某些数学任务（取余问题），训练过程三阶段（记忆期、平台期、泛化期）
在这里插入图片描述

LLM涌现能力的可能原因

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1080217.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

message“: “CSRF token mismatch

message“: “CSRF token mismatch

tableData，noticeData 是两个长二维数组 $.ajax({url: "/admin/samproofing/confirmPieces",type: "POST",data: {"ym": ym1,"papertype":paper_type,"person_data": that.tableData,"notice_data": t…

阅读更多...

Servlet入门

Servlet入门

URL和URI： URL统一资源定位符，表示对外暴露的整个网址 URI统一资源标示符，表示资源的访问路径，与servlet绑定的地址 HTTP请求结构： HTTP请求包含三部分：请求行、请求头、请求体请求行包含：请…

阅读更多...

被替换掉的文件如何找回来？

被替换掉的文件如何找回来？

当我们在编辑文件时，通常会直接保存而不是另存为新文件，这样会替换原始文件的信息。如果需要对原始文件进行二次编辑，情况就会比较复杂。那么被替换掉的文件还能找回来吗？ 被替换的文件是否可以恢复？ 这取决于替换原始…

阅读更多...

【论文笔记】A theory of learning from different domains

【论文笔记】A theory of learning from different domains

防盗 https://www.cnblogs.com/setdong/p/17756127.html domain adaptation 领域理论方向的重要论文. 这篇笔记主要是推导文章中的定理, 还有分析定理的直观解释. 笔记中的章节号与论文中的保持一致. 1. Introduction domain adaptation 的设定介绍: 有两个域, source domain…

阅读更多...

智慧空开让用电更安全、管理更智能——电脑APP远程控制开合闸

智慧空开让用电更安全、管理更智能——电脑APP远程控制开合闸

安科瑞崔丽洁 01 什么是低压断路器？低压断路器的定义是：能够接通、承载及分断正常电路条件下的电流，也能在规定的非正常电路条件（过载、短路、特别是短路）下接通、承载一定时间和分断电流的开关电器。断路器的分类&…

阅读更多...

go语言教程4：switch和map

go语言教程4：switch和map

文章目录 switchswitch匹配字典 go语言教程：安装入门➡️for循环➡️数组、切片和指针 switch和map，一个是控制流，一个是数据结构，之所以把两个不同类型的知识点放在一起讲解，是因为二者有着极其相似的运行逻辑&#…

阅读更多...

WSL+vscode配置miniob环境

WSL+vscode配置miniob环境

1.配置WSL Windows Subsystem for Linux入门：安装配置图形界面中文环境vscode wu-kan 2.获取源码找个位置Git Bash然后拉取代码 git clone https://github.com/oceanbase/miniob.git 3.安装相关依赖 https://gitee.com/liangcha-xyy/source/blob/master/how…

阅读更多...

Spring Boot Bean 注入的常用方式教程

Spring Boot Bean 注入的常用方式教程

Spring Boot Bean 注入是一种将依赖对象引入到应用程序组件中的机制，它有助于实现松耦合和可测试的代码。这种注入方式允许我们将依赖关系委托给 Spring 容器来管理，从而提高了代码的可维护性和可读性。Spring Boot 提供了多种 Bean 注入方式&#xff0c…

阅读更多...

qt判断当前日期的当月的最后一天是几号

qt判断当前日期的当月的最后一天是几号

1、拖个dateTimeEdit在界面上，同时来判断输入的时间的最后一天的日期是什么？ int year,month;int monthArr[12]{31,28,31,30,31,30,31,31,30,31,30,31};QDateTime time ui->dateTimeEdit->dateTime();year time.toString("yyyy").toIn…

阅读更多...

C++入门介绍

C++入门介绍

1.C入门知识以下是一些 C 入门知识： C 是一种面向对象的编程语言，它具有高效、灵活、可移植性好等特点 C 中的基本数据类型包括整型、浮点型、字符型等 C 中的控制语句包括条件语句（if、else）、循环语句（for、while、…

阅读更多...

飞凌嵌入式成为“龙芯生态伙伴计划”认证级企业！

飞凌嵌入式成为“龙芯生态伙伴计划”认证级企业！

近日，飞凌嵌入式正式成为“龙芯生态伙伴计划”认证企业，标志着飞凌嵌入式与龙芯中科的紧密型战略合作伙伴关系正式建立！ “龙芯生态伙伴计划”由龙芯中科主导发起，旨在推动龙芯生态企业基于龙芯平台开发产品，丰富龙芯…

阅读更多...

MyBatisPlus属性自动填充和乐观锁插件+查询删除操作+整合SpringBoot出现问题解决

MyBatisPlus属性自动填充和乐观锁插件+查询删除操作+整合SpringBoot出现问题解决

属性字段自动填充一、实体类和数据表添加两个字段（属性） 表：create_tiem/update_time 实体类：createTime/updateTime 二、实体类中属性进行注解添加 TableField(fillFieldFill.INSERT) private Date createTime;TableField(f…

阅读更多...

DC2DC电源设计注意事项--1,Feedback

DC2DC电源设计注意事项--1,Feedback

电源采集图如下图 Feedback 采集电压点应该在靠近负载侧。这样可以减少大电流导线导致的电压差，真实反应输出电压值 FB_1P21采集电路靠近芯片侧， 2.1，采集分压电路上侧为Vout Vnoise, 那么一分压就噪声就小了。假如采集电路远离芯片侧&…

阅读更多...

简洁多媒体影音库 Emby 中文最新 for mac

简洁多媒体影音库 Emby 中文最新 for mac

Emby是一款用于媒体服务器和媒体中心的软件平台。它允许用户将个人的音乐、电影、电视节目、照片和其他媒体文件组织和管理起来，并通过各种设备进行访问和流媒体播放。以下是Emby可能提供的一些主要功能和特点： 媒体管理和组织：Emby允许用户…

阅读更多...

蒙特卡洛方法的简单应用

蒙特卡洛方法的简单应用

蒙特卡洛方法的简单应用圆周率估算 eastimate pi python version 3.11 RNG:np.random.random import os figure_save_path "file_fig" import warnings warnings.filterwarnings("error") import numpy as np np.random.seed(0) import matplotlib.pyp…

阅读更多...

温度在线检测技术在电力电缆线路的应用

温度在线检测技术在电力电缆线路的应用

在电力电缆的日常运行检测中，针对电缆温度的状况，所采用的电力温度在线检测技术也得到了大范围的普及。电网系统中，其单位时间内可输送的电力能源受到其温度的变化影响。因此，采用更有效的方式实时检测电缆系统运行温度&#xff0…

阅读更多...

虾皮商品链接获取虾皮商品详情数据（用 Python实现虾皮商品信息抓取）

虾皮商品链接获取虾皮商品详情数据（用 Python实现虾皮商品信息抓取）

在网页抓取方面，可以使用 Python、Java 等编程语言编写程序，通过模拟 HTTP 请求，获取虾皮网站上的商品页面。在数据提取方面，可以使用正则表达式、XPath 等方式从 HTML 代码中提取出有用的信息。值得注意的是，虾皮网站…

阅读更多...

miRNA测序数据生信分析——第三讲，已知物种的生信分析实例

miRNA测序数据生信分析——第三讲，已知物种的生信分析实例

miRNA测序数据生信分析——第三讲，已知物种的生信分析实例 miRNA测序数据生信分析——第三讲，已知物种的生信分析实例1. 下载测序数据2. 原始数据质控——软件fastqc3. 注释tRNA和rRNA，使用Rfam数据库——软件blast，Rfam_statisti…

阅读更多...

MySQL数据库技术笔记(3)

MySQL数据库技术笔记(3)

概述学习MySQL数据库技术其实只需要安装mysql服务器就可以使用了。只不过对于初学者来说直接操作dos窗口方式比较麻烦，命令不熟悉，导致经常写错。在真实的开发当中直接操作dos窗口效率比较慢，企业中也会经常使用一些mysql数据库支持的可视化…

阅读更多...

【VR开发】【Unity】0-课程简介和概述

【VR开发】【Unity】0-课程简介和概述

【说明】这是我录制的一套VR基础开发课程的文字版本，更加便于快速参考。应大家在后台所提的需求，从今天开始，我计划带给大家一套完整达40课时的VR开发基础课程。在开始学习前需要注意如下几点： 本教程基于Unity2022.2.1f1版…

阅读更多...

推荐文章

最新文章