【神经网络系列(高级)】神经网络Grokking现象的电路效率公式——揭秘学习飞跃的秘密【通俗理解】

news2024/9/20 22:54:49

【通俗理解】神经网络Grokking现象的电路效率公式

论文地址:
https://arxiv.org/abs/2309.02390

参考链接:
[1]https://x.com/VikrantVarma_/status/1699823229307699305
[2]https://pair.withgoogle.com/explorables/grokking/

关键词提炼

#Grokking现象 #神经网络 #电路效率 #学习效率 #一般化解 #记忆化解 #临界数据集大小

在这里插入图片描述

第一节:Grokking现象的类比与核心概念

1.1 Grokking现象的类比

Grokking现象是神经网络中一个神秘的现象: 在训练初期,网络虽然训练精度完美,但泛化能力极差;
然而,在持续训练下,它突然实现了完美的泛化。
这就像一位学生,开始时只能死记硬背答案,但在某个转折点后,他突然能够灵活运用知识,解决了所有问题。

1.2 相似概念比对

  • 机器学习中的过拟合与欠拟合:过拟合指的是模型在训练数据上表现过好,但在新数据上表现不佳;欠拟合则是模型在训练数据和新数据上都表现不佳。Grokking现象可以被视为一种从过拟合到恰当拟合的转变。
  • 神经网络学习曲线:学习曲线描述了训练集和验证集准确率随训练轮次的变化。Grokking现象则是一个特别的学习曲线形态,即在长时间无显著改善后突然跳跃至高水平。

在这里插入图片描述

第二节:Grokking现象的核心概念与应用

2.1 核心概念

核心概念定义比喻或解释
一般化解 (Generalising Solution)能够有效泛化到新数据的神经网络参数配置。类似于掌握了一种解题方法,能应用于各种题型。
记忆化解 (Memorising Solution)仅通过记忆训练数据达到高训练精度的神经网络参数配置。类似于死记硬背答案,换一套题就不会做了。
电路效率在相同参数规模下,不同参数配置产生的logits(模型输出)的大小,反映学习的难易程度。就像电路中能量转换的效率,高效的电路能在同样输入下产生更多输出。

2.2 优势与劣势

方面描述
优势提供了一种解释神经网络复杂学习行为的框架,帮助研究者更好地理解何时、如何优化模型。
劣势Grokking现象的具体机制和触发条件仍不完全清晰,需要进一步实验验证。

第三节:公式探索与推演运算

3.1 Grokking现象的假设公式

虽然原文献中没有直接给出具体的数学公式,但我们可以根据其核心思想构建一个简化的模型框架:

GeneralisationEfficiency ( G ) = LogitOutput ( G ) ParameterNorm ( G ) \text{GeneralisationEfficiency}(G) = \frac{\text{LogitOutput}(G)}{\text{ParameterNorm}(G)} GeneralisationEfficiency(G)=ParameterNorm(G)LogitOutput(G)

MemorisationEfficiency ( M ) = LogitOutput ( M ) ParameterNorm ( M ) \text{MemorisationEfficiency}(M) = \frac{\text{LogitOutput}(M)}{\text{ParameterNorm}(M)} MemorisationEfficiency(M)=ParameterNorm(M)LogitOutput(M)

其中, GeneralisationEfficiency ( G ) \text{GeneralisationEfficiency}(G) GeneralisationEfficiency(G) MemorisationEfficiency ( M ) \text{MemorisationEfficiency}(M) MemorisationEfficiency(M) 分别代表一般化解和记忆化解的电路效率, LogitOutput \text{LogitOutput} LogitOutput 表示在相同输入下,由不同参数配置产生的logits输出, ParameterNorm \text{ParameterNorm} ParameterNorm 表示参数向量的范数,作为衡量参数规模的基准。

3.2 公式推演与假设

根据假设,随着训练数据集的增大,记忆化解的效率会下降(因为记忆所有数据变得更为困难),而一般化解的效率则相对保持稳定或缓慢上升。因此,存在一个临界数据集大小 D c r i t i c a l D_{critical} Dcritical,使得:

MemorisationEfficiency ( M D > D c r i t i c a l ) < GeneralisationEfficiency ( G D > D c r i t i c a l ) \text{MemorisationEfficiency}(M_{D > D_{critical}}) < \text{GeneralisationEfficiency}(G_{D > D_{critical}}) MemorisationEfficiency(MD>Dcritical)<GeneralisationEfficiency(GD>Dcritical)

在这个临界点之后,网络更倾向于学习到一般化解,从而实现Grokking现象。

3.3 具体实例与推演

假设有两个神经网络配置A(记忆化解)和B(一般化解),在相同数据集上进行训练。初始时,A的配置使其能够快速记忆训练数据,而B则较为缓慢地学习。然而,随着数据集大小从100增加到10000,A的 MemorisationEfficiency \text{MemorisationEfficiency} MemorisationEfficiency急剧下降,而B的 GeneralisationEfficiency \text{GeneralisationEfficiency} GeneralisationEfficiency则稳步提升。在某个数据集大小(如5000)后,B的效率超过了A,导致网络突然展现出优秀的泛化能力,即发生了Grokking现象。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2109442.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

组合优化与凸优化 学习笔记3 凸函数

目前学到了73页 凸函数的定义&#xff1a; 人话&#xff1a;函数f的定义域是凸集&#xff08;在一般的情况下就是不能是断开的定义域&#xff08;一般的情况是1维的嘛&#xff09;&#xff0c;假如x是什么多维向量的话就是说x的取值范围是一个凸集内&#xff09;&#xff0c;并…

基于云原生向量数据库 PieCloudVector 的 RAG 实践

近年来&#xff0c;人工智能生成内容&#xff08;AIGC&#xff09;已然成为最热门的话题之一。工业界出现了各种内容生成工具&#xff0c;能够跨多种模态产生多样化的内容。这些主流的模型能够取得卓越表现&#xff0c;归功于创新的算法、模型规模的大幅扩展&#xff0c;以及海…

XXL-JOB调度中心与执行器

XXL-JOB是一个轻量级的分布式任务调度平台&#xff0c;主要由调度中心和执行器两部分组成。下面详细讲解调度中心与执行器的功能和作用。 调度中心 调度中心是XXL-JOB的核心组件&#xff0c;负责任务的调度管理。其主要功能包括&#xff1a; 任务管理&#xff1a;调度中心提供…

计算组合数:scipy.special.comb()

【小白从小学Python、C、Java】 【考研初试复试毕业设计】 【Python基础AI数据分析】 计算组合数&#xff1a; scipy.special.comb() 选择题 以下代码两次输出的结果是&#xff1f; from scipy.special import comb print("【执行】print(comb(3,2))") print(comb(3…

011. Oracle-约束

我 的 个 人 主 页&#xff1a;&#x1f449;&#x1f449; 失心疯的个人主页 &#x1f448;&#x1f448; 入 门 教 程 推 荐 &#xff1a;&#x1f449;&#x1f449; Python零基础入门教程合集 &#x1f448;&#x1f448; 虚 拟 环 境 搭 建 &#xff1a;&#x1f449;&…

小白学装修 之 硬装阶段

在准备阶段 了解了 装修的基本概念 顺利收房 进行了需求和预算的大致规划 并且完成了简单的自主设计接下来就是带着自己的设计图 预算和想法 去找公司或者施工方了 找施工方 可以是 设计师和施工方分开找 也可以找有设计的装修公司 或者 有施工能力的设计室都行 但不 管哪…

【#第三期实战营闯关作业 ## 茴香豆:企业级知识库问答工具】

今天学习了《 茴香豆&#xff1a;企业级知识库问答工具》这一课&#xff0c;对大模型的应用有了更深得认识。以下是记录本课实操过程及截图&#xff1a; 搭建茴香豆虚拟环境&#xff1a; 输入以下命令 studio-conda -o internlm-base -t huixiangdou 成功安装虚拟环境截图 …

OpenAI gym CarRacing-v2 episode termination

题意&#xff1a;OpenAI Gym CarRacing-v2 赛道终止处理 问题背景&#xff1a; I am using gym0.26.0 library and am trying to understand what means that an episode is finished/done in the CarRacing-v2 environment. In the documentation is written this. 我正在使…

用Python实现时间序列模型实战——Day 12: 状态空间模型

一、学习内容 1. 状态空间模型的基本概念 状态空间模型是一种用于时间序列分析的强大工具&#xff0c;能够描述具有潜在状态动态变化的系统。该模型通过显式地建模时间序列中的潜在状态&#xff08;即隐藏变量&#xff09;&#xff0c;能够捕捉复杂的动态结构&#xff0c;适用…

如何选择合适的变压吸附制氧设备

在选择合适的变压吸附(Pressure Swing Adsorption, PSA)制氧设备时&#xff0c;需要综合考虑多个因素以确保设备能够高效、稳定地运行&#xff0c;满足特定应用场景的需求。以下是一些关键步骤和考虑因素&#xff0c;帮助您做出明智的决策。 1. 明确应用需求 明确您的制氧需求至…

GNU_HASH确定函数地址

前言&#xff1a; 最近看了以下pwntoos的DynELF方法&#xff0c;对其中是如何获取到函数地址的过程很感兴趣&#xff0c;就研究了一下&#xff0c;对通过DT_GNU_HASH获取函数地址的过程有了比较清晰的了解 漏洞&#xff1a; 我这里使用2013-PlaidCTF进行测试&#xff0c;首先…

DeepDFA: 受控制流分析驱动的有效深度漏洞检测

目前基于深度学习的漏洞检测中性能最高的方法使用的是基于 token 的 transformer 模型&#xff0c;这对于捕捉漏洞检测所需的代码语义来说并不是最有效的。文中设计了一个受数据流分析启发的图学习框架 DeepDFA&#xff0c;以及一种能让图学习模拟数据流计算的嵌入技术。其训练…

打造温馨家居,全屋智能家居解决方案

智能家居全屋解决方案覆盖全屋照明、温度、娱乐影音等各种常见的日常生活需求、可通过一键设置联动场景来控制自己的家、也可通过语音对话来操控家中的照明、电器及各种场景模式任意切换&#xff0c;一键升级自己的智能家。 1.入户解决方案 通过智能指纹锁穿过玄关、进入大厅、…

贴心服务,一路随行:用友BIP商旅云6.0推出客服中心

在全球经济日益一体化的今天&#xff0c;企业商旅活动频繁且复杂&#xff0c;对高效、专业的客户服务需求与日俱增。为了精准对接企业商旅管理的需求与挑战&#xff0c;用友BIP商旅云6.0创新性地推出了客服中心&#xff0c;以全方位、全天候的贴心服务&#xff0c;为企业商旅活…

OpenObserve云原生可观测平台本地Docker部署与远程访问实战教程

文章目录 前言1. 安装Docker2. Docker镜像源添加方法3. 创建并启动OpenObserve容器4. 本地访问测试5. 公网访问本地部署的OpenObserve5.1 内网穿透工具安装5.2 创建公网地址 6. 配置固定公网地址 前言 本文主要介绍如何在Linux系统使用Docker快速本地化部署OpenObserve云原生可…

html 页面引入 vue 组件之 http-vue-loader.js

一、http-vue-loader.js http-vue-loader.js 是一个 Vue 单文件组件加载器&#xff0c;可以让我们在传统的 HTML 页面中使用 Vue 单文件组件&#xff0c;而不必依赖 Node.js 等其他构建工具。它内置了 Vue.js 和样式加载器&#xff0c;并能自动解析 Vue 单文件组件中的所有内容…

运维学习————Jenkins(1)

目录 一、项目开发周期 二、jenkins的简介和作用 三、jenkins下载 1、使用war包安装 2、初始化配置 3、工作流程图 4、Jenkins安装配置maven和git maven git 5、jenkins安装插件 6、配置maven,git,jdk jdk配置 Git配置 Maven配置 四、修改tomcat的一些配置 五…

《Nginx怎么部署vue项目》

推荐学习文档 nginx https配置ssl证书实现访问https服务Nginx实现404页面的配置方法 在开始部署之前&#xff0c;我们先要准备好以下工作&#xff1a; 一个能跑通的Vue项目一个正常的、安装了nginx的服务器&#xff08;可以是本地电脑&#xff09;服务器上安装了Node.js&…

java设计模式day02--(创建型模式:工厂模式、原型模式、建造者模式)

4&#xff0c;创建型模式 4.2 工厂模式 4.2.1 概述 需求&#xff1a;设计一个咖啡店点餐系统。 设计一个咖啡类&#xff08;Coffee&#xff09;&#xff0c;并定义其两个子类&#xff08;美式咖啡【AmericanCoffee】和拿铁咖啡【LatteCoffee】&#xff09;&#xff1b;再设…

企业必看!TPM管理咨询公司挑选全攻略

TPM&#xff08;Total Productive Maintenance,全面生产维护 &#xff09;作为一种先进的生产管理模式&#xff0c;旨在通过全员参与和持续改善&#xff0c;最大化设备综合效率&#xff08;OEE&#xff09;&#xff0c;从而提升企业整体竞争力。然而&#xff0c;实施TPM并非一蹴…