GiantPandaCV | 提升分类模型acc(二):图像分类技巧实战

news2024/11/29 20:39:12

本文来源公众号“GiantPandaCV”,仅用于学术分享,侵权删,干货满满。

原文链接:提升分类模型acc(二):图像分类技巧实战

上一篇文章GiantPandaCV | 提升分类模型acc(一):BatchSize&LARS-CSDN博客探讨了训练的bs大小和LARS对精度的影响,本篇文章是本系列的第二篇文章,主要是介绍张航的Bag of Tricks for Image Classification 中的一些方法以及自己实际使用的一些trick。

论文链接:https://arxiv.org/abs/1812.01187
R50-vd代码: https://github.com/FlyEgle/ResNet50vd-pytorch
知乎专栏: https://zhuanlan.zhihu.com/p/409920002

1 前言

如何提升业务分类模型的性能,一直是个难题,毕竟没有99.999%的性能都会带来一定程度的风险,所以很多时候只能通过控制阈值来调整准召以达到想要的效果。本系列主要探究哪些模型trick和数据的方法可以大幅度让你的分类性能更上一层楼,不过要注意一点的是,tirck不一定是适用于不同的数据场景的,但是数据处理方法是普适的。

ps: 文章比较长,不喜欢长文可以直接跳到结尾看结论。

简单的回顾一下第一篇文章的结论: 使用大的batchsize训练会略微降低acc,可以使用LARS进行一定程度的提升,但是需要进行适当的微调,对于业务来说,使用1k的batchsize比较合适。

2 实验配置

  • 模型: ResNet50, CMT-tiny

  • 数据: ImageNet1k & 业务数据

  • 环境: 8xV100

ps: 简单的说明一下,由于部分实验是从实际的业务数据得到的结论,所以可能并不是完全适用于别的数据集,domain不同对应的方法也不尽相同。

本文只是建议和参考,不能盲目的跟从。imagenet数据集的场景大部分是每个图片里面都会包含一个物体,也就是有主体存在的,笔者这边的业务数据的场景很多是理解性的,更加抽象,也更难。

3 Bag of Tricks

3.1 数据增强

  • 朴素数据增强

通用且常用的数据增强有random flipcolorjitterrandom crop,基本上可以适用于任意的数据集,colorjitter注意一点是一般不给hue赋值。

  • RandAug

AutoAug系列之RandAug,相比autoaug的是和否的搜索策略,randaug通过概率的方法来进行搜索,对于大数据集的增益更强,迁移能力更好。实际使用的时候,直接用搜索好的imagnet的策略即可。

  • mixup & cutmix

mixup和cutmix均在imagenet上有着不错的提升,实际使用发现,cutmix相比mixup的通用性更强,业务数据上mixup几乎没有任何的提升,cutmix会提高一点点。不过两者都会带来训练时间的开销, 因为都会导致简单的样本变难,需要更多的iter次数来update,除非0.1%的提升都很重要,不然个人觉得收益不高。在物体识别上,两者可以一起使用。公式如下:

  • gaussianblur和gray这些方法,除非是数据集有这样的数据,不然实际意义不大,用不用都没啥影响。

实验结论:

  • 20% imagenet数据集 & CMT-tiny

  • 业务数据上(ResNet50) autoaug&randaug没有任何的提升(主要问题还是domain不同,搜出来的不适用),cutmix提升很小(适用于物体而不是理解)。

3.2 学习率衰减

退火方法常用于图像复原等用于L1损失的算法,有着不错的性能表现。

个人常用的方法就是cosinedecay,比较喜欢最后的acc曲线像一条"穿天猴", 不过要相对多训练几k个iter,cosinedecay在最后的acc上升的比较快,前期的会比较缓慢。

3.3 跨卡同步bn&梯度累加

这两个方法均是针对卡的显存比较小,batchsize小(batchszie总数小于32)的情况。

  • SyncBN

虽然笔者在训练的时候采用的是ddp,实际上就是数据并行训练,每个卡的batchnorm只会更新自己的数据,那么实际上得到的running_mean和running_std只是局部的而不是全局的。

如果bs比较大,那么可以认为局部和全局的是同分布的,如果bs比较小,那么会存在偏差。

所以需要SyncBN同步一下mean和std以及后向的更新。

  • GradAccumulate

    梯度累加和同步BN机制并不相同,也并不冲突,同步BN可以用于任意的bs情况,只是大的bs下没必要用。

    跨卡bn则是为了解决小bs的问题所带来的性能问题,通过loss.backward的累加梯度来达到增大bs的效果,由于bn的存在只能近似不是完全等价。代码如下:

 for idx, (images, target) in enumerate(train_loader):
  images = images.cuda()
  target = target.cuda()
  outputs = model(images)
  losses = criterion(outputs, target)

loss = loss/accumulation_steps
loss.backward()
if((i+1)%accumulation_steps) == 0:
optimizer.step()
optimizer.zero_grad()
```backward```是bp以及保存梯度,```optimizer.step```是更新weights,由于accumulation_steps,所以需要增加训练的迭代次数,也就是相应的训练更多的epoch。

3.4 标签平滑

LabelSmooth目前应该算是最通用的技术了

优点如下:

  • 可以缓解训练数据中错误标签的影响;

  • 防止模型过于自信,充当正则,提升泛化性。

但是有个缺点,使用LS后,输出的概率值会偏小一些,这会使得如果需要考虑recall和precision,卡阈值需要更加精细。

代码如下:

class LabelSmoothingCrossEntropy(nn.Module):
    """
    NLL loss with label smoothing.
    """
    def __init__(self, smoothing=0.1):
        """
        Constructor for the LabelSmoothing module.
        :param smoothing: label smoothing factor
        """
        super(LabelSmoothingCrossEntropy, self).__init__()
        assert smoothing < 1.0
        self.smoothing = smoothing
        self.confidence = 1. - smoothing

    def forward(self, x, target):
        logprobs = F.log_softmax(x, dim=-1)
        nll_loss = -logprobs.gather(dim=-1, index=target.unsqueeze(1))
        nll_loss = nll_loss.squeeze(1)
        smooth_loss = -logprobs.mean(dim=-1)
        loss = self.confidence * nll_loss + self.smoothing * smooth_loss
        return loss.mean()

4 ResNet50-vd

ResNet50vd是由张航等人所提出的,相比于ResNet50,改进点如下:

  1. 头部的conv7x7改进为3个conv3x3,直接使用7x7会损失比较多的信息,用多个3x3来缓解。

  2. 每个stage的downsample,由(1x1 s2)->(3x3)->(1x1)修改为(1x1)->(3x3 s2)->(1x1), 同时修改shortcut从(1x1 s2)avgpool(2) + (1x1)。1x1+s2会造成信息损失,所以用3x3和avgpool来缓解。

实验结论:

模型数据epochtrickacc@top-1
R50-vdimagenet1k300aug+mixup+cosine+ls78.25%

上面的精度是笔者自己跑出来的比paper中的要低一些,不过paper里面用了蒸馏,相比于R50,提升了将近2个点,推理速度和FLOPs几乎没有影响,所以直接用这个来替换R50了,个人感觉还算不错,最近的业务模型都在用这个。

代码和权重在git上,可以自行取用,ResNet50vd-pytorch。

5 结论

  • LabelSmooth, CosineLR都可以用做是通用trick不依赖数据场景。

  • Mixup&cutmix,对数据场景有一定的依赖性,需要多次实验。

  • AutoAug,如果有能力去搜的话,就不用看笔者写的了,用就vans了。不具备搜的条件的话,如果domain和imagenet相差很多,那考虑用一下randaug,如果没效果,autoaug这个系列可以放弃。

  • bs比较小的情况,可以试试Sycnbn和梯度累加,要适当的增加迭代次数。

6 结束语

本文是提升分类模型acc系列的第二篇,后续会讲解一些通用的trick和数据处理的方法,敬请关注。

THE END !

文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1815494.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

开发了一个宝藏云桌面系统,编程小白强烈安利

大家会不会也会有这样的困扰&#xff0c;一个开发小白&#xff0c;在满怀激情的想踏入代码世界时&#xff0c;往往会被一系列复杂的环境配置和软件安装过程绊住了脚步。想象一下&#xff0c;如果你满心期待地想要运行一个简单的“Hello, World!”程序&#xff0c;或是尝试一段刚…

【OpenCV】opencv-4.9.0源码编译

很高兴在雪易的CSDN遇见你 VTK技术爱好者 QQ&#xff1a;870202403 公众号&#xff1a;VTK忠粉 前言 本文分享OpenCV-4.9.0源码编译流程&#xff0c;包含CUDA模块&#xff0c;包含Python-opencv&#xff0c;希望对各位小伙伴有所帮助&#xff01; 感谢各位小伙伴的点赞…

注册讲堂 | 医疗器械监管的可追溯性与UDI

医疗器械监管的关键-可追溯性 在医疗领域&#xff0c;每一个环节的精准和透明都是至关重要的。医疗器械的可追溯性正是这一需求的核心&#xff0c;它确保了产品从生产到患者使用的整个路径可以被追踪和记录。这不仅关乎患者的安全&#xff0c;也是医疗质量保证的关键。 可追溯…

销售公司客户资源保护,防止飞单私单管理系统

在竞争激烈的销售行业中&#xff0c;飞单问题一直是企业头痛的难题。飞单不仅会导致客户资源流失&#xff0c;还可能损害企业的声誉和利益。传统的销售管理方式已经无法满足现代企业的需求&#xff0c;而销售防飞单管理系统正是解决这一问题的关键。 销售防飞单管理系统通过集…

undetected_chromedriver驱动浏览器结束报错OSError: [WinError 6] 句柄无效

undetected_chromedriver驱动浏览器结束报错OSError: [WinError 6] 句柄无效 问题背景 使用undetected_chromedriver包驱动浏览器结束后报错句柄无效 Exception ignored in: <function Chrome.del at 0x000001DD50F07A60> Traceback (most recent call last): File “D:…

MFC绘图

文章目录 消息组成消息的作用获取消息翻译消息常见消息WM_DESTROYWM_SYSCOMMAND 消息循环的阻塞发送消息字符串资源加速键资源GDI绘图对象-画笔位图绘制文本绘制字体模式对话框动态库特点线程创建线程 互斥事件信号量 消息组成 窗口句柄消息ID消息的两个参数消息产生的时间消息…

RPG Maker MZ中被你忽略的干货操作——独立开关和“开关”在事件页中的关系

文章目录 独立开关和“开关”在事件页中的关系图片参考结论确认信息双方同时满足是否执行事件页2如果有2个开关条件和一个“独立开关”条件是否是and关系&#xff1f;如果2个开关满足&#xff0c;但是“独立开关”不满足是否执行&#xff1f; 独立开关和“开关”在事件页中的关…

echarts地图添加外边框(散乱地图块添加区域边界线)

需求&#xff1a; 蓝色边是街道地图&#xff0c;也是实际有用的地图&#xff0c;可以点击拖动之类&#xff0c;由于太散乱&#xff0c;现在增加一个灰色边表示外面区县&#xff08;不可点击&#xff09;&#xff0c;让他看起来是一个整体 下面这个图是我最后做出来的案例 难…

JUC并发编程第十一章——Synchronized与锁升级

1 入门知识介绍 1.1 面试题 谈谈你对Synchronized的理解 请你聊聊Synchronized的锁升级 1.2 本章路线总纲 1.2.1 锁使用的强制要求 【强制】高并发时&#xff0c;同步调用应该去考量锁的性能损耗&#xff0c;能用无锁数据结构&#xff0c;就不要用锁&#xff1b;能锁区块&…

harmony相关开发参考文档

以下列举一些Harmony Os应用开发文档以及相关参考开源案例,可协助高效率开发: 1.鸿蒙NEXT开发官方资料:包含鸿蒙NEXT开发所有的特性,HarmonyOS SDK等,可以按需查阅,需要开通白名单:应用开发导读-入门 | 华为开发者联盟 (huawei.com) 2。OpenHarmony三方库中心仓(一些优…

架构设计 - MySQL 插入数据性能优化策略

mysql 数据库提高数据插入效率主要可以考虑以下方面&#xff1a; 使用批量插入数据的 SQL 语句&#xff0c;避免使用 for 循环逐条记录插入。 所有插入语句共用一个事务&#xff0c;避免1条SQL语句开1个事务&#xff0c;所有操作都完成后再提交事务。 尽量按照索引递增顺序插入…

T3-加密通信

T3-加密通信 题目描述 在一次军事演习中&#xff0c;小凯担任通信兵&#xff0c;负责解密传来的信息。他会收到一份 nn 的数字 表&#xff08;仅包含 0-9 共 10 种数码&#xff09;&#xff0c;和一份 mm 的字母表&#xff08;仅包含 A-Z、a-z 共 52 种字符&#xff09;。 数…

力扣每日一题-3040

题目 给你一个整数数组 nums &#xff0c;如果 nums 至少 包含 2 个元素&#xff0c;你可以执行以下操作中的 任意 一个&#xff1a; 选择 nums 中最前面两个元素并且删除它们。选择 nums 中最后两个元素并且删除它们。选择 nums 中第一个和最后一个元素并且删除它们。 一次…

SAS:PROC SQL和ANSI标准

文章来源于SAS HELP PROC SQL 和ANSI SQL 的区别——图表和视图名称的作用域规则不同 例1&#xff1a;匹配数据集相关名称 当PROC SQL匹配数据集相关名称时&#xff0c;会依次进行3个步骤&#xff1a;1、有别名&#xff0c;用别名匹配&#xff1b;2、1匹配失败&#xff0c;在无…

Spring Cloud Bus 消息总线基础入门与实践总结

【1】基础介绍 其主要是实现分布式自动刷新配置功能&#xff0c;Spring Cloud Bus 配合 Spring Cloud Config 使用可以实现配置的动态刷新。Spring Cloud Bus是用来将分布式系统的节点与轻量级消息系统链接起来的框架&#xff0c;它整合了Java的事件处理机制和消息中间件的功能…

测长仪的发展历程!

测长仪的发展历程可以大致分为以下几个阶段&#xff1a; 早期发展&#xff1a; 最早的测量工具主要是一些机械式测量工具&#xff0c;如角尺、卡钳等。 16世纪&#xff0c;在火炮制造中已开始使用光滑量规。 1772年和1805年&#xff0c;英国的J.瓦特和H.莫兹利等先后制造出利用…

【网络安全的神秘世界】Kali 自带 Burp Suite 使用指南:字体与CA证书设置详解等

&#x1f31d;博客主页&#xff1a;泥菩萨 &#x1f496;专栏&#xff1a;Linux探索之旅 | 网络安全的神秘世界 | 专接本 Kali 自带 Burp Suite 使用指南目录 Burp Suite的打开方式设置Burp Suite软件的字体大小查看Burp Suite 默认代理在火狐浏览器设置代理Burp Suite 抓不到本…

零售行业会员管理有哪些业务场景?解析不同业务场景的分析指标

在当今竞争激烈的零售市场中&#xff0c;会员管理不再仅仅是收集和存储数据&#xff0c;而是要求企业能够从数据中获取洞察&#xff0c;并据此制定策略。会员板块的业务场景涵盖了多个方面&#xff0c;每一个场景都为企业提供了一个独特的视角&#xff0c;帮助企业了解和服务于…

android 抓取 logcat 日志的方法

1.找到这个路径 2.然后执行命令&#xff08;adb logcat -v time >.\\logcat.log&#xff09;&#xff0c;开始抓取日志 3.这个时候就可以去操作APP了&#xff0c;复现BUG了。 Ctrlc 结束日志抓取 adb logcat -c 清空旧日志

USB端口管控软件|USB端口控制软件有哪些(小技巧)

​USB端口管控软件成为了保障企业数据安全的重要手段。 本文将为您介绍几款知名的USB端口控制软件&#xff0c;并分享一些实用的小技巧&#xff0c;帮助您更好地管理US端口&#xff0c;确保企业信息安全。#usb接口# 一、USB端口控制软件推荐 1&#xff0c;域智盾 域智盾是一…