从模型容量的视角看监督学习

news2025/1/21 11:59:33
  • 这几天看离线强化学习瞎想的,不一定正确,仅记录个人想法

文章目录

  • 1. 监督学习的本质
  • 2. 容量视角下的模型选择、正则化和归纳偏置
  • 3. 几点启发

1. 监督学习的本质

  • 我认为监督学习的本质在于在过拟合和欠拟合之间取得平衡,捋一下逻辑
    1. 我们知道,如果模型复杂度相对数据复杂度过高,就会过拟合;反之模型复杂度相对数据复杂度过低,则会欠拟合

      如果不知道,可以参考:李宏毅老师的课程

    2. 模型复杂度”、“模型容量”、“模型能表示映射关系的复杂程度”、“模型的假设空间大小” 这几个概念都是正相关的,下面讨论时会不严格地混用这些词
    3. 做好监督学习 = 最大限度地从数据中提取信息 = 在过拟合和欠拟合之间取得平衡 = 选择复杂度和数据复杂度差不多的模型 = 选择容量合适的模型

2. 容量视角下的模型选择、正则化和归纳偏置

  • 记住我们的重点是控制模型容量,使之复杂度和给定的样本复杂度相匹配

  • 在参数数量一致的情况下,全连接网络(或者说多层感知机)的容量是最大的
    在这里插入图片描述
    全连接网络不受任何限制,它能表示的映射关系是最多的,假设空间是最大的,这也导致其很容易过拟合,极大的假设空间大概率能涵盖一个完美拟合给定数据自身特征的模型,如果样本量不够大,数据自身特征的普遍性和代表性差,习得模型的泛化性会很差

  • 从这个角度考虑,常见的正则化方法都是在隐式地限制模型容量,例如

    1. L2正则化,通过调整损失函数控制优化方向,间接地限制最后学到模型的参数范围
    2. dropout正则化,通过随机失活神经元,防止模型输出被某些神经元主导,间接地限制最后学到模型的参数范围

    上面这两种常见的正则化都是限制参数中出现极端值,也就是隐式地从假设空间中挖掉了被极端值主导的部分,一般而言无论什么问题我们都不想要这种极端的模型,因此这些正则化方法几乎哪里都能见到

  • 在各种论文中我们常常见到作者修改损失函数,往里加一些正则化项之类的,如果从容量角度考虑,就是作者注意到了问题或者数据的某些潜在关系,然后增加正则化项控制优化方向,隐式地调节模型容量,使模型复杂度和样本复杂度更加匹配,从而能在使用相同样本的情况下得到更好的效果

  • 进一步地,控制模型容量更直接的方法就是直接修改模型结构,从而硬性地,显式地限制模型假设空间的大小。当然,这个限制是有方向的,我们想要针对性地保留假设空间中能更好地表示给定数据特征的部分,这就需要针对问题去设计模型了结构了,例如

    1. 针对图像的平移不变性,在 CV 领域出现了 CNN,将全连接层替换为卷积层,通过固定的卷积核扫过图像来提取特征
      在这里插入图片描述
    2. 针对序列数据的长距离相关性,在 NLP 领域出现了 Transformer,将全连接层替换为 self-attention 层,通过 QKV 矩阵直接长跨度梯度提取特征
      在这里插入图片描述
    3. 进一步的还出现了神经网络结构搜索(NAS)领域,专门致力于寻找最好的网络结构,这也能从容量的角度进行解释。极端情况下,我们甚至可以使模型的容量足够小(假设空间足够小,归纳偏置足够强),以致于可以直接使用随机参数执行任务而无需任何训练,这可以参考 论文翻译 —— Weight Agnostic Neural Networks 权重无关神经网络
      在这里插入图片描述

    总之,不同的网络结构,都可以理解为将全连接网络中的一些层替换为特殊设计的层,也就是从全连接网络对应的最大的假设空间中根据数据特性保留一部分,保留的不同部分,决定了模型不同的归纳偏置

3. 几点启发

  1. 针对同一个任务归纳偏置更强的模型复杂度更低,相同样本复杂度(可简单理解为相同样本数量)下更不容易过拟合;归纳偏置更弱的模型能表示的假设空间更大,能刻画的映射关系更复杂,如果有足够样本的话其性能上限更高。这可以解释为何 transformer 在各个领域乱杀,一方面因为各种监督学习问题大都能转换为序列预测问题,另一方面 transformer 中的 self-attention 的约束足够弱,其表示能力足够强,如下所示,纯 self-attention 层和全连接层组成的 BERT 结构几乎和全连接的 MLP 差不多了
    在这里插入图片描述
    这一点已经在 CV 领域得到验证,直接用 BERT 模型做图像分类的 VIT 方法,和使用 CNN resnet 结构做图像分类的 BIT 方法相比,预训练+微调后的性能如下
    在这里插入图片描述
    可见随着预训练数据集的增大,VIT 从不及 BIT 不断提升到超过 BIT

  2. 如果两个任务 A B 足够相似,那么它们所需模型的归纳偏置应当也很相似,A 任务中表现良好的模型,很可能只要进行正则化等简单的修改就能直接在 B 任务表现良好。在 Offline RL 领域,就有直接把 Online RL 方法 TD3 的 actor 加上简单 BC 正则项而得到的 TD3 + BC 方法,表现很不错

  3. 如果仔细设计网络宽度和深度,使模型复杂度合适,那么简单的 MLP 也能在各种问题中到达和复杂网络结构一样的效果。这个结论应该在多个领域中被验证过,Offline RL 领域的例子可以举最近的 RvS 论文

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/47487.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于JAVA+SpringMVC+Mybatis+Vue+MYSQL的医药销售管理系统

项目介绍 药品一直以来在人类生活中扮演着非常重要的角色,随着时代的飞速发展,人们基本已经告别了那个缺医少药的年代,各大药房基本随处都可以购买,但是很多时候因为没有时间或者在药店很难找到自己想要购买的药品,所…

[附源码]计算机毕业设计springboot个人博客系统

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

Windows远程连接centos7图形化界面,安装xrdp

Windows远程连接centos7图形化界面,安装xrdp写在最前面准备工作查看ubuntu系统的版本信息和gcc版本尝试进入图形化界面更新yum下载安装图形化界面查询本地是否有Server with GUI group安装Server with GUI设置系统启动默认加入GUI界面安装epel库(epel是社…

Djiango 模版系统详解(ORM数据模型-使用mysql数据库增删改查)

djiango模版系统: 用于自动渲染一个文本文件,一般用于HTML页面,模版引擎渲染的最终HTML内容返回给客户端浏览器 模版系统分成两部分 静态部分: 例如html css .js 动态部分 djiango 模版语言,类似于jinja语法变量定义&…

ArcGIS QGIS学习二:图层如何只显示需要的部分几何面数据(附最新坐标边界下载全国省市区县乡镇)

文章目录前言准备SHP数据ArcMap 的筛选QGIS 的筛选如何编写查询条件前言 当我们用GIS软件打开一个SHP文件的时候,会显示出里面全部的几何图形,假如我只想要其中的一部分数据显示出来,其他的均不要显示,有那么几种操作方法。 我们…

UE4使用蓝图实现角色冲刺

又学了几天,前面记录了如何使用蓝图实现开关门,这次来实现一下角色的冲刺、瞬移的操作 一般玩游戏的时候,可能都会有按左shift键让角色从行走变成奔跑的状态,又或者双击回避键角色瞬移躲避等操作 那就先实现一下加速奔跑吧&…

Python毕业设计必备案例:【学生信息管理系统】

嗨害大家好鸭!我是小熊猫~ 最近看大家好像都快放假啦~ 但是放假之前有的小朋友要做毕业设计~ 有的要期末考试~ 那么今天来给大家整一个小的毕业管理系统案例 康康整题思路是怎么样的~ 源码、资料电子书点击这里获取 功能模块 基本信息管理和学生成绩管理。 基…

【自用】VUE 获取登录用户名 显示在其他页面上

大步骤一、准备工作 步骤1&#xff1a; 安装 js-cookie 依赖 npm install js-cookie --save步骤2&#xff1a; 在登录页面中引入 js-cookie 依赖 <script> import jsCookie from js-cookie; </script>大步骤二、在 登录页面 的vue文件 中使用它&#xff01; …

[附源码]计算机毕业设计springboot基于JAVA技术的旅游信息交互系统

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…

[附源码]Python计算机毕业设计SSM泸定中学宿舍管理系统设计(程序+LW)

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…

python零基础入门(完整版)

1python软件下载 我们需要下载python语言翻译器&#xff08;也就是运行环境&#xff09;&#xff0c;和一个用来写python的软件&#xff0c;用它写python语言比较方便 首先打开百度&#xff0c;下载org 然后点击下载 然后选择一个稳定版本下载 然后会跳转到一个页面&#xff0c…

kubernetes-service详解

kubernetes-service详解 文章目录kubernetes-service详解一、Service操作一&#xff1a;创建集群内部可访问的Service操作二&#xff1a;创建集群外部也可访问的Service二、pod详解pod的资源清单pod 配置基本配置镜像拉取启动命令环境变量端口配置资源配额一、Service 虽然每个…

NumPy 数组应用初探

NumPy是Python中科学计算的基本包。它是一个Python库&#xff0c;提供了一个多维数组对象&#xff0c;各种派生对象&#xff08;如屏蔽数组和矩阵&#xff09;&#xff0c;以及对数组进行快速操作的各种例程&#xff0c;包括数学、逻辑、形状操作、排序、选择、I/O、离散傅立叶…

Python-可视化单词统计词频统计中文分词

可视化单词统计词频统计中文分词项目架构新建文件单词计数全文单词索引中文分词统计词频源代码项目架构 新建一个文件&#xff0c;输入文件的内容&#xff0c;查询此文件中关键字的出现的次数&#xff0c;关键字出现的位置&#xff0c;将所有的文本按照中文分词的词库进行切割…

运筹说 第76期 | 最短路问题

通过前面的学习&#xff0c;我们已经学会了图与网络问题中图的基本概念和最小树问题&#xff0c;本期小编带大家学习最短路问题。 一 最短路问题 最短路问题是网络理论中应用最广泛的问题之一。许多优化问题可以使用这个模型&#xff0c;如设备更新、管道敷设、线路安排、厂区…

tensorboard attempted to bind to port 6006,but it was already in use

我尝试运行tensorboard是遇到错误 这篇博客给了两个解决方案&#xff1a;

弹出 think-cell 许可证密钥窗口丨使用教程

think-cell需要使用有效的许可证密钥才能运行。每次启动 Microsoft PowerPoint 或 Microsoft Excel 时&#xff0c;都会检查许可证密钥。若您的系统上找不到任何有效的许可证信息&#xff0c;或许可证密钥即将到期&#xff0c;则会显示 think-cell 许可证密钥对话窗口。 thin…

UDP-糖,UDP-GlcNAc 5′-二磷酸尿嘧啶核苷-N-乙酰半乳糖胺二钠盐 UDP-N-acetylglucosamine

产品名称&#xff1a; UDP-GlcNAc 5′-二磷酸尿嘧啶核苷-N-乙酰半乳糖胺二钠盐 UDP-N-acetylglucosamine 产地&#xff1a;西安 规格&#xff1a;1mg 5mg 10mg 纯度&#xff1a;99% 用途&#xff1a;仅用于科研 温馨提示&#xff1a;仅用于科研&#xff0c;不能用于人体…

R语言法国足球联赛球员多重对应分析(MCA)

数据集 fooball球员在场上的位置 数据来自国际足联的视频游戏FIFA 。游戏的特点是在游戏的各个方面评价每个球员的能力。等级是量化变量&#xff08;介于0和100之间&#xff09;&#xff0c;但我们将它们转换为分类变量。所有能力都被编码在4个等级&#xff1a;1.低/ 2.平均/ …

Spring、SpringMVC和SpringBoot

常用的java框架有: SSH组合 SpringMVCSpringHibernate SSM组合 SpringMVCSpringMybatis&#xff08;流行组合&#xff09; SpringBoot springCloud 权限管控框架 Shiro、SpringSecurity 一. 概念 1. Spring Spring是一个开源容器框架&#xff0c;可以接管web层&#xf…