论文浅尝 | 深度神经网络的模型压缩

news2024/11/25 12:23:52

b7b0e8d46841639bfee3cc163c3ebcd7.png

笔记整理:闵德海,东南大学硕士,研究方向为知识图谱

链接:https://arxiv.org/abs/1412.6550

动机

提高神经网络的深度通常可以提高网络性能,但它也使基于梯度的训练更加困难,因为更深的网络往往更加强的非线性。最近提出的知识蒸馏方法旨在获得小型和快速执行的模型,它已经表明参数量较小的学生网络可以较好的模仿更大的教师网络或网络集群的Soft Output。

在本文中,我们扩展了这一思想,允许训练一个比教师模型更深更薄的学生模型,不仅使用输出层的信息,还使用教师模型学习到的中间表示作为提示,以改善学生模型的训练过程和最终表现。由于学生模型中间隐含层一般会小于教师模型中间隐含层,因此引入附加参数将学生模型隐含层映射到教师隐含层的预测。

这使得我们可以训练更深的学生模型,他们可以更好地泛化或者运行得更快(这由所选学生模型的能力的权衡控制)。例如,在CIFAR-10上,我们完成了一个参数少近10.4倍的深度学生网络比一个更大、最先进的教师网络表现更好。

主要解决的问题

论文主要针对Hinton提出的知识蒸馏法进行扩展,允许Student网络可以比Teacher网络更深更窄,使用teacher网络的输出和中间层的特征作为提示,改进训练过程和student网络的性能。

贡献

(1)引入了intermediate-level hints来指导学生模型的训练。

(2)使用一个宽而浅的教师模型来训练一个窄而深的学生模型。

(3)在进行hint引导时,提出使用一个层来匹配hint层和guided层的输出shape,这在后人的工作里面常被称为adaptation layer。

方法

1. Hint-Based Training

将教师的hint layer作为监督,学生的guided layer作为被监督的对象,希望guided layer可以尽可能地去预测到hint layer的输出。

HT Loss表示如下:

e9eff017fad50fc0df2ca229c97bb0cd.png

作者使用了一个回归层r(对应下图b中的Wr), 来对齐特征的shape。

b170cd99474ce5385b2dd09ecfd235a8.png

图1 模型的训练框架

此外,本文作者认为使用hint来进行引导是一种正则化手段,学生guided层越深,那么正则化作用就越明显,为了避免过度正则化,需要仔细选择hint和guided。

2. FITNET STAGE-WISE TRAINING

分成两个阶段

(1)使用训练好的教师模型和随机初始化的学生模型,在第一阶段,用教师的hint来预训练学生的guided layer及之前的层。

(2)第二个阶段,使用经典的KD loss来对整个网络进行训练,KD loss为:

cd46c653890d747b5666a797586bec6e.png

整体的蒸馏算法如下:

b895b5f226799653737101fa5b92f120.png

图2 蒸馏算法的伪代码

实验

1. 数据集

CIFAR-10:为了验证我们的方法,我们训练了一个最大输出卷积层的教师网络,设计了一个17层最大输出卷积层的FitNet,接着是一个最大输出全连接层和一个顶部的softmax层,大约有1/3的参数。学生网络的第11层被训练成模仿教师网络的第2层。在训练期间,我们使用随机翻转来增强数据。

SVHN: 由GoogleStreet View收集的32×32彩色房屋号码图像组成。训练集中有73,257张图像,测试集中有26,032张图像,还有531,131个较不困难的示例。我们训练了一个由11个最大输出卷积层、一个全连接层和一个softmax层组成的13层FitNet。

2. 结果

CIFAR-10数据集

c66f45d4362533b3d5d8366bb3a279a5.png

表1 CIFAR-10的准确率表现

表1总结了获得的结果。我们的学生模型胜过教师模型,同时需要明显较少的参数,这表明深度对于实现更好的表示至关重要。与网络压缩方法相比,我们的算法取得了出色的结果。即,学生网络的准确率达到91.61%,比之前的最佳表现者85.8%高得多,同时需要大约28倍的参数。与最先进的方法相比,我们的算法匹配了最佳的表现者。有人可能会质疑使用宽教师网络的隐藏状态来提示内部层的选择。一个直接的替代方案是使用所需的输出来提示它们。这可以通过几种不同的方式解决:(1)阶段性训练,其中第1阶段优化网络的前半部分以实现分类目标,第2阶段优化整个网络以实现分类目标。在这种情况下,第1阶段设置了网络参数的一个良好局部极小值,但此初始化似乎不能充分帮助第2阶段学习,导致它无法学习。

SVHN数据集

dab93ad32dd25c9b1f43feea614d48a3.png

表2 SVHN的错误率

表2的数据表明尽管使用的只有教师网络容量的32%,但我们的FitNet实现了与教师网络相当的准确性。我们的FitNet在性能方面与其他最先进的方法(如Maxout和Network in Network)相当。

总结

本研究提出了一种新的框架,通过引入来自教师隐藏层的中间层提示来压缩宽而深的网络为更薄更深的网络。能够使用这些提示来训练具有更少参数的非常深的学生模型,这些模型可以比其教师模型更好地泛化和/或更快地运行。本研究提供了实证证据,表明使用教师网络的隐藏状态提示薄而深的网络的内部层比使用分类目标提示更好地泛化。在基准数据集上的实验强调,具有低容量的深度网络能够提取与具有多达10倍参数的网络相当甚至更好的特征表示。基于提示的训练表明,应更加努力地探索新的训练策略,以利用深度网络的强大力量。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

1336c9cf3239b036240ce4d125f6fea4.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1091524.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

​人机交互中的反馈与前馈

人机交互中的反馈和前馈,是指在用户与机器进行交互的过程中,人机二者对输入的信息做出回应的方式。 反馈:反馈是从机器到人的信息传递过程,主要用于告知用户他们的操作或请求的结果。当用户执行某个操作时,机器通过适当…

nginx生成https 证书-基于docker-compose

申请的证书存放nginx的docker-compose.yml同一目录 [rootk8s-node1 nginx]# cat docker-compose.yml version: 2 services:nginx:container_name: nginximage: nginxrestart: alwaysvolumes:- "./default.conf:/etc/nginx/conf.d/default.conf"- "./nginx.conf…

初级问题 程序中的变量是指什么?中级问题 把若干个数据沿直线排列起来的数据结构叫作什么?高级问题 栈和队列的区别是什么?

目录 1.深刻主题 2.描写复杂人物 初级问题 程序中的变量是指什么? 中级问题 把若干个数据沿直线排列起来的数据结构叫作什么? 高级问题 栈和队列的区别是什么? 计算机图形学(有效边表算法) 介绍一下计算机图形学…

LoRa技术在实际应用中可能遇到的问题和挑战,以及解决方案

LoRa技术在物联网和其他应用领域中取得了显著的成功,但在实际应用中仍然面临一些问题和挑战。以下是一些可能的问题和挑战,以及针对这些挑战的一些建议解决方案。 1. 频谱管理问题 问题: 由于LoRa使用公共频谱,频道拥塞和干扰可…

java中转义字符的源码数据格式,内存存储数据格式和转换json后的数据格式

转义字符在内存存储格式 于 转换json后发送的数据格式是不一样的。因为json对于java来说可以看成一种源码,那就需要以源码的表示格式输出。 要注意转义字符在每种语言的源码的数据格式 和 内存存储的数据格式。 例:\n 换行转义字符 1.在java源码中为\…

一些基本的 AFL++ 插桩模式操控方式 (还有 DEBUG 方式)

在 afl-cc.c 1807 行,可以看到如下代码 " You can also use the old environment variables instead:\n" " AFL_LLVM_USE_TRACE_PC: use LLVM trace-pc-guard instrumentation\n" " AFL_LLVM_CALLER: use single context sensitive covera…

基于文心一言打造AI应用,律品汇助推公共法律服务惠及中国乡村

“宅基地可以买卖吗?” “邻居家建房子占了我的地,我该怎么办? “我给房东签了定金,现在我不打算租这个房子了,对方要不要退我定金啊?” 这些问题,仅仅是云南某村居民诸多法律咨询内容的一角&am…

SpringBoot 过滤器filter当中的自定义异常捕获问题

需求描述:需要根据用户的请求路径拦截做权限控制: 但是这样做全局异常无法捕获 解决方案: 在filter当中引入HandlerExceptionResolver类,通过该类的resolveException方法抛出自定义异常: public class OpenInvokeFil…

游戏中的随机——“动态平衡概率”算法

前言 众所周知计算机模拟的随机是伪随机,但在结果看来依然和现实中的随机差别不大。 例如掷硬币,连续掷很多很多次之后,总有连续七八十来次同一个面朝上的情况出现,计算机中一般的随机函数也能很好模拟这一点。 但在游戏中&…

Pulsar-Schema 数据结构

Pulsar-Schema 数据结构 为什么需要使用Schema?怎么使用?生产者端消费者端使用用例Schema定义Schema类型基本类型复合类型KeyValue schemaStruct schemaPulsar提供了以下方法来使用结构模式staticgeneric 自动SchemaSchema验证实施Schema演化Schema版本控…

DAY05_瑞吉外卖——新增套餐套餐分页查询删除套餐短信发送手机验证码登录

目录 1. 新增套餐1.1 需求分析1.2 数据模型1.3 准备工作1.4 前端页面分析1.5 代码开发1.5.1 根据分类查询菜品1.5.1.1 功能实现1.5.1.2 功能测试 1.5.2 保存套餐1.5.2.1 功能实现1.5.2.2 功能测试 2. 套餐分页查询2.1 需求分析2.2 前端页面分析2.3 代码开发2.3.1 基本信息查询2…

GMS地下水数值模拟及溶质(包含反应性溶质)运移模拟技术

地下水数值模拟软件GMS操作为主,在教学中强调模块化教学,分为前期数据收集与处理;三维地质结构建模;地下水流动模型构建;地下水溶质运移模型构建和反应性溶质运移构建5个模块;采用全流程模式将地下水数值模…

Dtop环球嘉年华全新支付渠道接入,带来更便捷全球化购物体验

随着全球互联网的快速发展和数字化时代的来临,Dtop环球嘉年华逐渐成为全球消费者购物的主要方式之一。作为一家跨境电商平台,伴随着全球用户量不断攀升,用户体验以及应用升级已经成为平台未来发展的重要因素。Dtop环球嘉年华致力于满足用户多…

源码规则引擎(Jvs-rules):10月新增功能介绍

JVS-rules是JAVA语言下开发的规则引擎,是jvs企业级数字化解决方案中的重要配置化工具,核心解决业务判断的配置化,常见的使用场景:金融信贷风控判断、商品优惠折扣计算、对员工考核评分等各种变化的规则判断情景。 规则引擎本次更…

【vue快速入门】很适合JAVA后端看

目录 1.概述 2.环境 3.创建项目 4.指令 4.1.数据域、方法域 4.2.绑定变量 4.3.绑定事件 ​编辑 4.4.隐藏和显示 4.5.设置属性 4.6.循环 ​编辑 5.组件 6.路由 7.网络请求 1.概述 前端最核心的操作是写业务逻辑以及操作DOM元素,操作DOM元素是很繁琐的…

【【萌新的SOC学习之AXI-DMA环路测试】】

萌新的SOC学习之AXI-DMA环路测试 AXI DMA环路测试 DMA(Direct Memory Access,直接存储器访问)是计算机科学中的一种内存访问技术。它允许某些计算机内部的硬件子系统可以独立地直接读写系统内存,而不需中央处理器(CPU)介入处理。…

NewStarCTF2023week2-include 0。0

简单审一下代码: 1、flag在flag.php 2、使用get请求方式给file传参 3、存在正则匹配,会过滤掉base和rot(i表示不区分大小写,也就是我们无法使用大小写绕过) 正则匹配详细知识请参考我之前的博客 http://t.csdnimg.…

springboot中如何在测试环境下进行web环境模拟测试

web环境模拟测试 模拟端口 SpringBootTest(webEnvironment SpringBootTest.WebEnvironment.RANDOM_PORT) public class WebTest {Testvoid testRandomPort () {} }

凉鞋的 Godot 笔记 109. 专题一 小结

109. 专题一 小结 在这一篇,我们来对第一个专题做一个小的总结。 到目前为止,大家应该能够感受到此教程的基调。 内容的难度非常简单,接近于零基础的程度,不过通过这些零基础内容所介绍的通识内容其实是笔者好多年的时间一点点…

程序员没有工作经验怎么办?能不能找到工作?

本人一般本科,软件专业。工作8年,目前任一家中型公司技术主管(履技术总监的工作,但不敢以总监自居) 没经验的同学找工作,面试官看的不是你已经积累了多少,而是看你的态度和学习能力&#xff0c…