大模型涌现判定

news2025/1/13 8:01:56

什么是大模型?

大模型:是“规模足够大,训练足够充分,出现了涌现”的深度学习系统;

大模型技术的革命性:延申了人的器官的功能,带来了生产效率量级提升,展现了AGI的可行路径;

大模型的三个关键能力(涌现的行为):ICL(情景学习能力),CoT(深度推理能力),LNI(自然指令学习)

大模型智能涌现现象:

数据型规模达到一定水平时,在新任务上的性能显著提高,超出平均水平。

大模型的尺度(scaling laws):

大模型的泛化表现与学习质量、训练数据规模、参数规模呈指数率关系。

智能涌现:自然现象与多学科启示

智能涌现:由个体的相互作用(简单规则)导致非常智能(复杂而有序)的整体行为。

物理观点:对称性破缺是基础(Anderson,more is different,Science,1972):尺度是根本要素:1)划分尺度  2)出现新的因果  3)选择最强因果性——因果涌现。

数学观点:极限所展示的行为(极限是开拓认知边界的利器)

                ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        e= \sum_{n=0}^{\infty }\frac{1}{n!}=\lim_{x\rightarrow \infty }(1+\frac{1}{x})^{x}

        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        \Pi =4\sum_{n=0}^{\infty }\frac{(-1)^{n}}{2n+1}

        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        \sqrt{2} =\lim_{n\rightarrow \infty }x_{n},x_{n}=1+\frac{1}{1+x_{n}}

大模型智能涌现与尺度率:数学建模

假设\varepsilon (N,P,\partial l)是解决任务T的性态函数(如泛化性度量)大模型的智能行为能够通过性态函数反应。

        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        \varepsilon (N,P,\partial l)\rightarrow \varepsilon (\infty ,\infty ,0)(任何意义下)

由此推得

        ​​​​​​​        ​​​​​​​        \varepsilon (\infty ,\infty ,0)-\epsilon \leq inf_{N,P,\partial l} (\varepsilon (N,P,\partial l))\leq \varepsilon (\infty ,\infty ,0)+\epsilon

大模型是否存在相变?  存在性就意味着相变!

大模型能不能工作更好?  \varepsilon (\infty ,\infty ,0)度量了相变后行为!

大模型涌现的判定准则

大模型与极限架构:有限vs无限

模型架构:以“功能块+基块周期性重复”为结构的大规模深度神经网络(映射功能)

一个大模型架构由若干个功能块组成。固定一个功能块,假设该功能含k个基块,且第i个基块定义映射T_{i },则该功能可以表示为k个算子的复合,即

        ​​​​​​​        ​​​​​​​        ​​​​​​​                ​​​​​​​        ​​​​​​​f_{wp}=T_{w_{k}}\cdot T_{w_{K-1}}\cdot ...\cdot T_{w_{1}}:\chi \rightarrow y                                                

        假设宽度有限,P是K个基块的参数总规模,w_{p}= [w_{1}...w_{n}]是功能块所有参数。

而无限维系统为

        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​      f_{w}^{*}=\lim_{p\rightarrow \infty }f_{wp}

本模型极限架构的存在性等价于算子无穷乘积的收敛性。

通过引入非线性Lipschitz算子及特征数(涉及泛函分析,此处不细讲)可以用于描述大模型涌现或尺度率的判定条件。

结论:涌现存在的条件

1)通常假设1和假设3作为A的前提假设,因而上述定理说明:如果大模型的权值能最优设置,而且其基块满足LipLip(T_{i})\leq 1且满足自映射条件,或m(A_{i})\geq 0且满足极大单调性条件,则当模型规模,训练数据规模趋于无穷时,则大模型一定会出现涌现。

2) 极限架构行为即表现为涌现具体可刻画可通过选择特定的\varepsilon形式(包括线性和损失函数)

结论:模型规模尺度率

模型规模尺度率为指数律或幂率,取决于模型基块的组装方式:A.模式(残差式)要求的条件m(A)>0,一般总是弱于T模式(堆叠式)条件Lip(T)<1,但以收敛速度更慢为代价。

只剩下偏差(红线),即大模型的插值性将导致泛化性,大模型具有抗耐噪性 

一些可以进一步深化的问题?

来自徐宗本院士的分享!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2219568.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C语言 | 第十七章 | 家庭收支软件-2 读写文件

P 161 项目-CRM(3)-主菜单 2023/3/23 一、显示主菜单 功能说明&#xff1a;用户打开软件&#xff0c;可以看到主菜单&#xff0c;输入5退出软件 思路分析&#xff1a;在customerManage.c中&#xff0c;编写一个函数mainMenu,显示菜单&#xff0c; 在main函数中调&#xff0c…

计算机组成原理(笔记7高速缓冲存储器Cache,计算机组成原理的重难点全、直接、组相连)

为什么要设立高速缓冲存储器 &#xff08;Cache&#xff09;&#xff1f; Cache是介于CPU和主存之间的小容量存储器&#xff0c;存取速度比主存快。它能高速地向CPU提供指令和数据&#xff0c;加快程序的执行速度。它是为了解决CPU和主存之间速度不匹配而采用的一项重要技术。…

unity静态批处理

unity静态批处理 静态批处理要求和兼容性渲染管线兼容性 使用静态批处理在构建时进行静态批处理在构建时执行静态批处理的步骤&#xff1a; 在运行时进行静态批处理性能影响 静态批处理 静态批处理是一种绘制调用批处理方法&#xff0c;它将不移动的网格组合在一起&#xff0c…

【HarmonyOS NEXT】权限申请及应用设置页跳转

关键词&#xff1a;鸿蒙、程序访问控制、定位、应用详情页、startability、want 在app开发过程中&#xff0c;常进行系统权限的申请以提供设备访问或个性化功能&#xff08;如扫一扫、城市定位、剪贴板等&#xff09;&#xff0c;从而保障应用功能的完整性&#xff0c;那么本期…

mov 转 mp4

1. 下载 ffmpeg 下载链接 Tags GyanD/codexffmpeg GitHub 下载 windos 精简版 解压 &#xff08;里面的mov文件和mp4文件是我后面自己加的&#xff09; 2. 转换 转换命令 ffmpeg -i 5.mov -c:v libx264 -c:a aac 5.mp4 其中 5.mov 是源文件路径 5.mp4是目标路径 使用lib…

计算机毕业设计 零食批发商仓库管理系统的设计与实现 Java+SpringBoot+Vue 前后端分离 文档报告 代码讲解 安装调试

&#x1f34a;作者&#xff1a;计算机编程-吉哥 &#x1f34a;简介&#xff1a;专业从事JavaWeb程序开发&#xff0c;微信小程序开发&#xff0c;定制化项目、 源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事&#xff0c;生活就是快乐的。 &#x1f34a;心愿&#xff1a;点…

智发展 智飞跃 亚信安全与新华三深化战略合作

10月16日&#xff0c;亚信安全与新华三集团共同宣布&#xff0c;双方正式签署战略合作协议&#xff0c;双方将基于各自在硬件及软件安全领域的能力和优势&#xff0c;在产品、解决方案、市场拓展等多个领域深入合作&#xff0c;赋能千行百业数字化转型与变革。 亚信安全CEO马红…

跨域问题及常用的5种解决方案

1.什么是跨域问题&#xff1f; 跨域问题通常指的是在浏览器中由于同源策略的限制而产生的问题。同源策略&#xff08;Same-origin policy&#xff09;是浏览器的一种安全措施&#xff0c;它要求请求的域名、协议和端口必须与提供资源的网站相同。当一个网页尝试访问另一个来源…

【算法】C++中的二分查找

&#x1f4e2;博客主页&#xff1a;https://blog.csdn.net/2301_779549673 &#x1f4e2;欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1f4dd; 如有错误敬请指正&#xff01; &#x1f4e2;本文由 JohnKi 原创&#xff0c;首发于 CSDN&#x1f649; &#x1f4e2;未来很长&#…

wifi、热点密码破解 - python

乐子脚本&#xff0c;有点小慢&#xff0c;试过多线程&#xff0c;系统 wifi 连接太慢了&#xff0c;需要时间确认&#xff0c;多线程的话系统根本反应不过来。 也就可以试试破解别人的热点&#xff0c;一般都是 123456 这样的傻鸟口令 # coding:utf-8 import pywifi from pyw…

初识git · 基本操作

目录 前言&#xff1a; 基本操作 检查是否存在git 初始化仓库 认识三个区域 添加文件 查看.git文件 修改文件 版本回退 撤销操作 删除文件 我的博客即将同步至腾讯云开发者社区&#xff0c;邀请大家一同入驻&#xff1a;https://cloud.tencent.com/developer/suppor…

Qt-多线程

1. Qt 多线程概述 Qt 默认只有一个主线程&#xff0c;该线程既要处理窗口移动&#xff0c;又要处理各种运算。 当要处理的运算比较复杂时&#xff0c;窗口就无法移动&#xff0c;所以在处理程序时在很多情况下都需要使用多线程来完成。 示例&#xff1a;移动窗口和复杂循环 …

八股面试2(自用)

mysql存储引擎 存储引擎&#xff1a;定义数据的存储方式&#xff0c;以及数据读取的实现逻辑 在以前数据库5.5默认MyISAM引擎&#xff0c;之后默认InnoDB引擎 MyISAM引擎的数据和索引是分开存储的&#xff0c;InnoDb将索引和文件存储在同一个文件。 MyISAM不支持事务&#…

SPOOLing技术详解,结合实际场景让你了解什么是假脱机技术。

SPOOLing技术 ​ 在手工操作阶段&#xff0c;主机直接从I/O设备获取数据&#xff0c;但是由于设备速度很慢&#xff0c;主机速度很快。人机速度矛盾明显&#xff0c;主机需要浪费很多时间来等待设备。 什么是脱机技术&#xff0c;脱机技术可以解决什么问题&#xff1f; 所谓脱…

大数据测试:Charles修改响应数据

上一篇大数据测试&#xff1a;Fiddler修改响应数据-CSDN博客 &#xff0c;有同学反馈有没有Charles的方式修改响应数据&#xff0c;本篇就是Charles修改数据操作步骤&#xff0c;相比较fiddler&#xff0c;Charles相对简单&#xff0c;便捷&#xff0c;我很喜欢 1、背景&…

【笔记】【YOLOv10图像识别】自动识别图片、视频、摄像头、电脑桌面中的花朵学习踩坑

&#xff08;一&#xff09;启动 创建环境python3.9 打开此环境终端 &#xff08;后面的语句操作几乎都在这个终端执行&#xff09; 输入up主提供的语句&#xff1a;pip install -r requirements.txt 1.下载pytorch网络连接超时 pytorch网址&#xff1a; Start Locally | P…

java -jar 命令自动重启 Java 项目

一、java -jar 方式运行项目 重启Java项目通常意味着你需要先停止当前运行的Java进程&#xff0c;然后再次启动它。下面是在CentOS上执行这些步骤的一种常见方法&#xff1a; 停止Java进程 找到Java进程的PID&#xff1a; 使用ps命令配合grep来查找运行中的Java进程的PID&#…

【Java SE 】封装 的特性 和 static 详解

&#x1f525;博客主页&#x1f525;&#xff1a;【 坊钰_CSDN博客 】 欢迎各位点赞&#x1f44d;评论✍收藏⭐ 目录 1. 封装的概念 1.1 一个例子 2. 访问权限控制符 3. 包的概念 3.1 import 导入 3.2 常见的包 4. static 静态成员 4.1 static 使用情况 4.2 static 修…

> Invalid revision: 3.22.1-g37088a8-dirty

Android项目使用cmake 3.22.1&#xff0c;编译时报错&#xff1a; > Invalid revision: 3.22.1-g37088a8-dirty解决方法一&#xff1a; 升级Gradle版本和AGP的版本&#xff1b; 建议使用AS推荐的版本&#xff1a; 目前可运行的版本配置&#xff1a; AS&#xff1a;Jel…

champ模型部署指南

一、介绍 champ是由阿里巴巴、复旦大学和南京大学的研究人员共同提出的一种基于3D的将人物图片转换为视频动画的模型&#xff0c;该方法结合了3D参数化模型(特别是SMPL模型)和潜在扩散模型&#xff0c;能够精确地捕捉和再现人体的3D形状和动态&#xff0c;同时保持动画的时间一…