视觉算法知识荟萃

news2024/10/6 22:22:19

文章目录

  • 视觉算法知识荟萃
    • 视觉算法八股
      • 手写卷积
      • Delta K
      • Abs Rel
      • RMSE
      • Silog
      • VNL
      • SoftMax
      • CrossEntropy
      • Swin-Transformer
      • Transformer
      • Adam,SGD
        • 如何修改SGD,使其不陷入局部最小值
      • NMS
        • SoftNMS
      • 边缘检测算法
        • Sobel
        • Laplacian
        • Canny
      • Pooling Layer
        • 手写 Pooling Layer
        • Pooling Layer 传播方式
      • 可分离卷积
      • BN 层的作用,BN 层有多少参数
      • 过拟合
      • 欠拟合
      • 训练出现NaN
    • 目标检测
      • 两阶段检测模型
        • R-CNN
        • Fast R-CNN
        • Faster R-CNN
        • Unsniffer
      • 单阶段检测模型
        • YOLO
        • SSD (Single Shot multibox Detector)
    • 运动控制
        • PID
        • KCF
    • 单目深度估计
      • SM4Depth
        • SimMIM 预训练
        • PST
        • Bin-based Depth Estimation
        • Depth Distribution 如何计算
        • 训练集
      • 轻量级单目深度估计
        • CVPR 2022 WorkShop
        • DANet
    • 双目深度估计
      • 视差转深度的公式推导
    • TFLite 配置流程

视觉算法知识荟萃

视觉算法八股

手写卷积

Delta K

Abs Rel

RMSE

Silog

VNL

SoftMax

CrossEntropy

Swin-Transformer

Transformer

Adam,SGD

如何修改SGD,使其不陷入局部最小值

NMS

SoftNMS

边缘检测算法

Sobel

Laplacian

Canny

Pooling Layer

手写 Pooling Layer

Pooling Layer 传播方式

可分离卷积

BN 层的作用,BN 层有多少参数

beta和gamma都是C维的向量,所以是2C

过拟合

过拟合是指训练误差和测试误差之间的差距太大。模型在训练集上表现很好,但在测试集上却表现很差,也就是泛化能力差。引起的原因有 ①训练数据集样本单一,样本不足 ②训练数据中噪声干扰过大 ③模型过于复杂。防止过拟合的几种方法:

  1. 增加更多的训练集或者数据增强(根本上解决问题)
  2. 采用更简单点的模型(奥卡姆剃刀准则,简单的就是正确的)
  3. 正则化(L1,L2),p范数: ∣ ∣ x ∣ ∣ p = ( ∣ x 1 ∣ p + ∣ x 2 ∣ p + … + ∣ x n ∣ p ) 1 / p ||x||_p = (|x_1|^p+|x_2|^p+…+|x_n|^p)^{1/p} ∣∣xp=(x1p+x2p++xnp)1/p,在最后的 loss 函数中加一个正则项,将模型的权重 W 作为参数传入范数中,为的就是防止模型参数过大,这样可以防止过拟合发生。
  4. 可以减少不必要的特征或使用较少的特征组合

欠拟合

欠拟合是指模型不能在训练集上获得足够低的误差。换句换说,就是模型复杂度低,模型在训练集上就表现很差,没法学习到数据背后的规律。防止欠拟合的几种方法:

  1. 采用更大的模型
  2. 采用更强的特征

训练出现NaN

目标检测

两阶段检测模型

使用相应的Region Proposal算法从输入图片中生成建议目标候选区域,将所有的候选区域送入分类器进行分类。

R-CNN

contribution:
1.使用CNN进行基于区域的定位和物体分割
2.监督训练样本数紧缺时,在额外的输入上需训练的模型经过fine-tuning可以获得很好的效果。

Pipeline:
1.基于图片提出若干Region Proposal,文中使用的是Selective Serach算法。该算法将图片划分为多个patch,每个patch之间计算颜色相似性,纹理相似性,相近的patch进行合并。
2.训练N个SVM分类器来判断框是否属于这个类别,SVM是二分类的,输出True表示属于这个类别,输出False表示不属于这个类别
3.使用NMS去除相交的多余的框。NMS中会对每个类别的框分别进行类内的NMS,在这一类中,首先挑选置信度最大的框,然后把这个框和与这个框IoU过大的框都从候选框中删除,重复上一过程直到没有候选框。最后把置信度小于一定阈值的框删除,得到最后的结果。
4.最后预测框的偏移量,对这些框进行回归修正。

Fast R-CNN

将基础网络在图片整体上运行(共享了大部分计算)后,再传入R-CNN子网络。

Faster R-CNN

提出了RPN网络使得目标检测任务端到端地完成。RPN中使用多个anchor提出目标框。

Unsniffer

1.使用GOC得分抑制包围过大的框,部分包围的框,提升全包围的框
2.使用ncut对簇内进行NMS挑选框
3.使用负能量抑制对非物体的框进行抑制

单阶段检测模型

YOLO

网络首先输出 SSchannel 的特征图,其中SS表示输出SS个网格。在此之后每个网格会预测B个框,每个框带有4个坐标值和1个置信度得分,再加上大小为C的类别信息,网络最后的输出为SS(5*B+C)

更快,但是性能不如2-stage的方法。使用全图的信息,把背景错认为物体的情况较少。泛化能力强

SSD (Single Shot multibox Detector)

YOLO是对每个patch进行检测,容易造成漏检测,并且对物体的尺度比较敏感。

改进:
1.使用多尺度的feature map,将vggnet多个尺度的特征值输入回归器中提升了对小物体的检测效率。
2.采用了更多的achor box,并且基于box对物体的类别进行了预测。

选择原因:
1.计算平台:
树莓派缺少GPU,因此首选tflite,而非GPU下的tensorRT,手机端的ncnn。tflite官方推荐的有ssd,yolov5,efficientnetv3,efficientnetv2
2.检测性能:
相同图片下,efficientnetv2无法检测到苹果,yolov5给出的框和置信度不高,ssd和efficientnetv3给出的框较好,且置信度较高。
距离较远的情况下,ssd(输入尺寸小)和efficientnetv3检测能力下降,yolo能勉强框住物体。
3.运行速度:
模型大小ssd,efficientnetv3,yolo为:1:2:3
FPS为:11:7:1

运动控制

PID

比例积分微分控制,p代表相应时间,i代表累计误差,d代表稳定性

KCF

将图像通过滤波器处理,把图像和滤波器的输出通过傅里叶变换,计算相应图,将相应图逆傅里叶变换到空域得到最大响应值的位置,作为目标估计的当前位置

单目深度估计

SM4Depth

SimMIM 预训练

PST

Bin-based Depth Estimation

Depth Distribution 如何计算

训练集

轻量级单目深度估计

CVPR 2022 WorkShop

  1. TCL
  • 类似于UNet的结构,将输入图片下采样到原图的1/4,然后传递给MobileNetV3
  • 删除了MobileNetV3的最后一层,来提升网络的速度
  • Encoder的输出被送到CLB中,最后x10缩放到原始的大小
  • 使用silog作为损失函数
  1. HIT
  • 多种Loss:silog,gradient,vnl
  • 知识蒸馏
  • 数据增强
  • 设计合适的特征融合模块
    MiAIgo或者Tencent GY Lab

DANet

  1. EfficientNetb0
  2. 可分离卷积
  3. 降低深度分类个数
  4. 深度图直接x2作为最后输出

双目深度估计

视差转深度的公式推导

TFLite 配置流程

  1. 安装 TFLite 虚拟环境
  2. 安装 TFLite 解释器和下载 TFLite 模型

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/744973.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

OpenGauss ustore查询过程的流程

查询流程: 以 Select c2 from tb1 where c1 1为例: 1、根据索引找到TID(1,2)的元组指针,即linePointer。 2、计算其事务xid是否可见,在Map中计算其csn和快照csn的大小关系。 3、如果大于快照CSN,那么不可见&#xff0…

智能仪表在铁塔行业应用 安科瑞 许敏

应用场景 可应用于基站的交直流配电箱及对基站内的动力设备进行数据采集和控制。 功能 1. 对多个回路进行全电参量测量,实现基站内各回路用电能耗的集中管理; 2. 丰富的DI/DO输入输出,NTC测温,温湿度测量等非电参量监测&#x…

​ 基于单片机智能温室大棚控制系统

功能介绍 以51单片机作为主控系统; DS18B20温度采集模块检测温度; 光敏电阻和ADC0832组成的光照检测模块; 土壤湿度检测模块检测土壤湿度; CO2检测模块检测CO2浓度; LCD1602显示模块显示测量值、 若温度小于温度最…

uni-data-checkbox多选框max属性无法设置为0解决方案

找到组件源码,搜索 setRange 方法(改掉之后,组件必须添加 max属性和值!!!)

使用python将32位的bmp转成24位的

前言 一个临时需求,要将32位的bmp图像转成24位的 代码 使用opencv读取图片,然后重新存一下就可以。我看有些博主就这个内容还设置了收费,也不害臊。 import cv2if __name__ "__main__":img cv2.imread("IMG-0001-00001.…

MySQL数据库管理(一)

文章目录 一.数据库基本操作1.查看数据库结构1.1 查看数据库信息1.2 查看数据库中的表信息1.3 显示数据表的结构(字段) 2.数据库的存储方式 二.数据库管理1.DDL:数据定义语言1.1 创建新的数据库1.2 创建新的表1.3 删除指定的数据表1.4 删除指…

关于虚拟机kali系统忘记密码修改密码的操作

1、启动kali虚拟机,进入GRUB菜单,选中kali GNU/Linux 按e 进入编辑状态 2、在编码文档里找到linux ...root....quiet 3、在末尾添加 rw single init/bin/bash single --进入单用户模式 rw --根分区的挂载模式默认是只读(ro),…

最全整理,web自动化测试框架总结-实战案例,从0精通封装...

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 web自动化测试框架…

第2讲 KMD ISP子系统缩略词及目录结构

QCOM Camera子系统缩略词介绍 CPAS(Camera Peripherals and Support)CDM(Camera Data Mover)TFE(Thin Front End)IFE(Image Front End)OPE(Offline Processing Engine)BPS(Bayer Processing Segment)SFE(Sensor Front End)LRME(Low Resolution Motion Estimation)CSID(Camera …

【《快捷学习Spring》——带你步入Spring世界的快速、有趣、实用之旅!】

本书是一本学习Spring 框架的入门书籍,引导读者逐步上手,书中提供了所有必要的理论 知识,通过实例讨论实际应用程序的主题。本书分为两部分。第I部分是基础(1~6章),学习 使用支持Spring框架的基本组件。分别讨论了真实世界里的Spr…

Js语法学习实战 -数据类型

Js语法学习实战 -数据类型 1. undefined2. null3. Boolean4. Number5. String5.1 常用方法5.2 字符串迭代遍历方法 6. Symbol类型7. Object7.1 基本使用7.2 对象遍历7.3 复制对象方法 8. 数组 - Array8.1 数组的常用方法8.2 数组遍历 9. Function JS语法学习实战系列合集 javas…

6-Spring cloud之Hystrix容错处理(上)

6-Spring cloud之Hystrix容错处理(上) 1. 前言1.1 关于雪崩1.1.1 什么是灾难性雪崩1.1.2 服务雪崩形成的原因1.1.3 如何防止灾难性雪崩效应 1.2 前文介绍 2. Hystrix容错处理2.1 项目搭建(Ribbon整合Hystrix)2.1.1 项目结构2.1.2 …

IOI车机系统刷机和改包笔记

前言 我自己21年买的雪佛兰探界者SUV,没想到到了23年,车机系统上的高德导航还是3.2版本,而官方的已经7.1. 中间出去玩,在高速上被车机上的高德坑了好多次,简直无力吐槽。单纯使用手机Carplay虽然也能完成导航任务&am…

2023年上半年鲁大师电动车综合分数榜解读:九号M95C荣登榜首

2023年上半年电动车综合分数榜单显示了电动车市场的最新发展趋势和品牌表现。 九号M95C获得了第一名,得分798分。九号M95C以其卓越的性能和创新设计脱颖而出。它的高得分主要来自于其强大的续航能力、高速性能和可靠性。九号M95C在电动单车市场中取得了非常好的口碑…

23款奔驰C260L加装原厂香氛负离子系统,清香宜人,久闻不腻

奔驰原厂香氛合理性可通过车内空气调节组件营造芳香四溢的怡人氛围。通过更换手套箱内香氛喷雾发生器所用的香水瓶,可轻松选择其他香氛。香氛的浓度和持续时间可调。淡雅的香氛缓缓喷出,并且在关闭后能够立刻散去。车内气味不会永久改变,香氛…

IPv6 地址简介

IP 地址是指互联网协议地址,它是允许设备连接到互联网的标识符。互联网协议版本 6 (IPv6) 地址是一个 128 位字母数字标签,用于标识和定位计算机网络中的网络接口卡 (NIC) 或网络节点。 IPv6由互联网工程任…

C# 圆盘(hsv)颜色选择器

【首先贴上github链接:适用于 Windows 窗体的 Cyotek 拾色器控件】 一、简单使用教程 此处是我使用Cyotek.Windows.Forms.ColorPickers库部分功能的一些经验和思路总结,没有太多深入地去学习,如果有哪位大佬有深入学习使用的话,可…

阿里云限时福利:WoSign品牌SSL证书首购4折优惠

阿里云限时福利:WoSign品牌SSL证书首购4折优惠 阿里云SSL证书限时首购福利:2023年07月04日至08月31日,阿里云平台WoSign品牌系列SSL证书首购4折优惠,惊喜折扣、限时促销、限量抢购,机会不容错过! 阿里云平…

PCB防静电设计的必要性

平时通过走路穿衣等日常活动带来的摩擦,会产生不同幅值的静电电压,但其能量很小不会对人体产生伤害,不过对于电子元器件来说,这种静电能量却是不能忽视的。 在干燥的环境下,人体静电(ESD)的电压很容易超过6~35Kv&#…

Ubuntu 22安装使用Codon高性能Python编译器记录

Ubuntu 22安装使用Codon高性能Python编译器记录 Codon 在官方 Ubuntu 存储库中没有直接的教程,但可以尝试如下方法进行安装。 一、更新系统 终端输入: sudo apt update以及 sudo apt upgrade二、安装curl 输入指令: sudo apt install …