【学习】网络压缩:知识蒸馏、参数量化、动态计算,PPO

news2025/1/31 2:55:04

文章目录

  • 一、知识蒸馏Knowledge Distillation
  • 二、参数量化
  • 结构设计:深度方向可分卷积Depthwise Separable Convolution
    • 1、Depthwise Convolution
  • 三、动态计算Dynamic Computation
  • 四、From on-policy to off-policy(PPO)


一、知识蒸馏Knowledge Distillation

学生网络学习老师网络。
在这里插入图片描述
学生可以学到训练资料可能没有提供的东西。
老师也可以是很多个模型的投票结果:
在这里插入图片描述
温度常数用于softmax:可以让分布变平滑。这是一个超参数,不能非常大(会变成所有参数都一样)
在这里插入图片描述
这里有平滑的分布,就不是one-hot一样的东西(要么是0,要么是1),这样就不是给一个标准答案了!可以给额外更多的信息。

二、参数量化

• 1.使用较少的位来表示一个值
•2.权重聚类(确定了分布之后取平均)
3.用较少的比特表示频繁的聚类,用较多的比特表示罕见的聚类,例如霍夫曼编码。
在这里插入图片描述
压缩到参数只有+1或者-1,binary weights
在这里插入图片描述
在这里插入图片描述

结构设计:深度方向可分卷积Depthwise Separable Convolution

在这里插入图片描述
有几个channel就有几个filter,每个filter管理每个channel。问题:chanel之间没有联系

1、Depthwise Convolution

在这里插入图片描述
filter是1*1的
在这里插入图片描述
专注于channel之间的关系。
在这里插入图片描述
参数量少了很多
low rank approximation也是减少了参数的方法,但是还是有限制:减少了W的可能性,不是所有的w都能做为参数。
在这里插入图片描述
Depthwise Separable Convolution跟这个也很像:
在这里插入图片描述

三、动态计算Dynamic Computation

网络根据需要调整计算。
在这里插入图片描述
为什么我们不准备一套模型?根据需要选择不同的模型?麻烦!
怎么做呢?让网络自由调整深度,增加额外的层。
在这里插入图片描述
也可以改变宽度:
在这里插入图片描述
这两种方法都是让L越小越好。
不同的压缩对应于不同的应用:简单的图片可以在小的层就能结束,难的图片在多的层结束。
在这里插入图片描述

四、From on-policy to off-policy(PPO)

不止一次地利用经验
on-policy :学习的代理和与环境交互的代理是相同的。
off-policy:代理学习和与环境交互的代理是不同的。
在这里插入图片描述
在这里插入图片描述
期望一样但是不代表variance一样。
在这里插入图片描述
这里希望取样足够多,那么variance就相近。
在这里插入图片描述
这里做了修正之后,从θ’(跟环境互动)里面取样,而我们也可以通过更新多次θ的参数之后采取做一次参数取样。
在这里插入图片描述
在这里插入图片描述
这两个θ的分布不能相差太多,PPO做的解决这个问题
在这里插入图片描述
TRPO是比较难做的
我们引入KL散度,希望两个actor上的分布越近越好,不是参数上的差距。

在这里插入图片描述
在这里插入图片描述
横轴是θ的p相除,在A>0的时候(得分好),我们希望Pθ越大越好,但是和Pθk之间的差距不要太大,限制最大为1+E,如果比1+E大那就只要1+E,不让他继续增大了。
如果A<0的时候(得分低),希望Pθ越小越好,但是希望最低是1-E。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/145047.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python蓝桥杯训练:数组和字符串 Ⅳ

Python蓝桥杯训练&#xff1a;数组和字符串 Ⅳ 文章目录Python蓝桥杯训练&#xff1a;数组和字符串 Ⅳ一、买卖股票的最佳时机二、删除排序数组中的重复项三、找出字符串中第一个匹配项的下标四、将整数转换为两个无零整数的和一、买卖股票的最佳时机 给定一个数组 prices &…

k8s 实战1:WordPress搭建

文章目录第一步&#xff1a;部署MariaDB第二步&#xff1a;部署WordPress第三步&#xff1a;映射WordPress Pod 端口号&#xff0c;让它在集群外可见第四步&#xff1a;创建反向代理的 Nginx&#xff0c;让我们的网站对外提供服务WordPress架构图第一步&#xff1a;部署MariaDB…

如何使用LightningChart JS创建高性能可视化的HTML图表?

LightningChart JS是一款高性能的JavaScript图标库&#xff0c;专注于实时数据可视化&#xff0c;以“快如闪电”享誉全球&#xff0c;是Microsoft Visual Studio数据展示速度最快的2D和3D图表制图组件&#xff0c;可实时呈现超过10亿数据点的海量数据。 LightningChart .JS |…

Redis基础篇——Redis常见命令及数据类型详解

文章目录1. Redis常见命令2. Redis数据结构介绍3. 通用命令KEYSDELEXISTSEXPIRETTL4. Redis 命令类型4.1 String 类型String 类型常见命令key的层级格式4.2 Hash 类型Hash 类型常用命令4.3 List 类型List 类型的常见命令4.4 Set 类型Set 类型的常见命令4.5 SortSet 类型SortedS…

全局描述符表

文章目录段描述符全局描述符表GDT段选择子进入保护模式步骤在开始介绍全局描述符之前&#xff0c;先了解一下段描述符。 段描述符 内存段是一片内存区域&#xff0c;访问内存就要提供段基址&#xff08;段基址属性&#xff09;以及段界限属性&#xff08;约束段大小&#xff…

美团前端一面必会react面试题

state 和 props 触发更新的生命周期分别有什么区别&#xff1f; state 更新流程&#xff1a; 这个过程当中涉及的函数&#xff1a; shouldComponentUpdate: 当组件的 state 或 props 发生改变时&#xff0c;都会首先触发这个生命周期函数。它会接收两个参数&#xff1a;nextP…

分布式存储综述与方案选型

文章目录引言基本诉求存储选型考虑的要素分布式存储的野蛮生长史主要开源选型GFS(Google File System)HDFS (Hadoop Distributed File System)miniocephTFSSwiftfastDFSGridFSMooseFSGlusterFSMogileFS一些国产的xFS阿里腾讯百度京东网易字节跳动美团滴滴结论数据库选型分布式存…

Java基础之《netty(21)—WebSocket长连接开发》

一、实例要求 1、http协议是无状态的&#xff0c;浏览器和服务器间的请求响应一次&#xff0c;下一次会重新创建连接 2、要求&#xff1a;实现基于webSocket的长连接的全双工的交互 3、改变http协议多次请求的约束&#xff0c;实现长连接了&#xff0c;服务器可以发送消息给浏…

Go第 10 章 :面向对象编程(上)

Go第 10 章 &#xff1a;面向对象编程(上) 10.1 结构体 10.1.1 看一个问题 10.1.2 使用现有技术解决 单独的定义变量解决 代码演示&#xff1a; 使用数组解决 代码演示&#xff1a; 10.1.3 现有技术解决的缺点分析 使用变量或者数组来解决养猫的问题&#xff0c;不利于数…

AI与艺术——图像生成网络经典算法

生成模型是一种训练模型进行无监督学习的模型&#xff0c;即&#xff0c;给模型一组数据&#xff0c;希望从数据中学习到信息后的模型能够生成一组和训练集尽可能相近的数据。图像生成&#xff08;Image generation&#xff0c;IG&#xff09;则是指从现有数据集生成新的图像的…

代码块和执行顺序

1、什么是代码块 使用{}定义的一段代码我们称之为代码块 一般分为&#xff1a; 1. 普通代码块 2. 实例代码块 3. 静态代码块 2、普通代码块 定义在方法中的代码块&#xff0c;可以用于限定局部变量的生命周期。 public class Main{public static void main(String[] args) {{…

【分享】百度更喜欢自媒体站,9种方法让你轻松玩转微博营销

微博营销是指通过微博平台为商家、个人等创造价值而执行的一种营销方式。 以下九种方式&#xff0c;你一定要学习一下&#xff0c;视频最后&#xff0c;有干货。 1、注重价值的传递 企业博客经营者首先要改变观念——企业微博的“索取”与“给予”之分&#xff0c;企业微博是…

2023你冲不冲,冲冲冲冲~~

前言&#xff1a;\textcolor{Green}{前言&#xff1a;}前言&#xff1a; &#x1f49e;2022已经成为历史&#xff0c;趁着还没有遗忘来看看我这一年发生了什么事。 在这一年中有很多的收获也有一些遗憾&#xff0c;但是这不会让我停下来&#xff0c;未来的2023又会发生什么&…

ArcGIS 中的 7 种主要地理处理工具

地理处理工具可以提高人们的工作效率&#xff0c;并且这些工具可以批量应用于编辑&#xff0c;例如应用于所有功能或所有选定功能。本文将和大家一起探讨 7 个 ArcGIS 中的地理处理工具。 地理处理的用途 模型中的地理处理工具可解决许多空间完整性的问题&#xff0c;应用地理…

分布式缓存系统 Ignite、Hazelcast、Ehcache

一、Apache IgniteApache Ignite是一个以内存为中心的分布式数据库、缓存和处理平台&#xff0c;支持事务、分析以及流式负载&#xff0c;可以在PB级数据上享有内存级的性能。如果禁用原生持久化&#xff0c;Ignite就是一个分布式缓存&#xff0c;它实现了JCache规范&#xff0…

深入解析Linux虚拟化KVM-Qemu分析之中断虚拟化

说明&#xff1a; KVM版本&#xff1a;5.9.1QEMU版本&#xff1a;5.0.0工具&#xff1a;Source Insight 3.5&#xff0c; Visio 1. 概述 本文会将ARM GICv2中断虚拟化的总体框架和流程讲清楚&#xff0c;这个曾经困扰我好几天的问题在被捋清的那一刻&#xff0c;让我有点每有…

JsonUtility读写json简单应用

使用Unity提供的JsonUtility 简单封装了一个将数据以json格式存储到本地,方便数据读写的案例;一共三个脚本:MyJsonRW : 提供SaveJsonData和LoadWithJson,实现数据与json的转换和读写;TestData : 测试数据类,列举了部分常用的简单数据类型(不过有坑,后面会说);MyJsonExample : 例…

新诤信张强—兔年展望|2023-2025:看风的必不撒种、望云的必不收割

新诤信知识产权服务股份有限公司 首席技术官 张强 “看风的必不撒种、望云的必不收割”出自古老的犹太智慧书《传道书》&#xff0c;意思是&#xff0c;如果要等刮风才撒种&#xff0c;快要下雨才收割&#xff0c;一切就都来不及了。元宇宙的发展布局&#xff0c;也是这个道理…

基础算法[四]之图的那些事儿

文章目录前言图的表示邻接矩阵邻接表结构存储遍历路径搜索多源最短路问题问题描述Floyd实现模板单源最短路径问题Dijkstra算法朴素版本堆优化邻接表python实现Bellman-Ford 算法实现SPFA 算法实现python 版本判断负环小结最小生成树Prim算法Kruskra算法实现python版本二分图二分…

网络资源归档标准WARC介绍

WARC---Web ARChive 01 ● WARC格式概述 ● WARC&#xff08;Web ARChive&#xff09;格式是网络资源存档中使用的常见文件格式&#xff0c;全称为Web Archive File Format&#xff0c;由互联网保存联盟&#xff08;International Internet Preservation Consortium&#xff0…