机器学习8-卷积和卷积核1

news2025/3/13 18:38:20

机器学习8-卷积和卷积核1

  • 卷积与图像去噪
    • 卷积的定义与性质
      • 定义
      • 性质
      • 卷积的原理
      • 卷积步骤
      • 卷积的示例与应用
      • 卷积的优缺点
        • 优点
        • 缺点
      • 总结
  • 高斯卷积核
      • 卷积核尺寸的设置
        • 依据任务类型
        • 考虑数据特性
        • 实验与调优
      • 高斯函数标准差的设置
        • 依据平滑需求
        • 结合卷积核尺寸
        • 实际应用场景
      • 总结
  • 图像噪声与中值滤波器
    • 高斯噪声
      • 定义
      • 概率分布
      • 产生原因
      • 对图像和信号的影响
      • 去除方法
    • 中值滤波

在这里插入图片描述

卷积与图像去噪

在这里插入图片描述

卷积的定义与性质

定义

卷积是数学中的一种运算,广泛应用于信号处理、图像处理和机器学习等领域。在机器学习中,卷积通常指卷积神经网络(CNN)中的卷积操作。

卷积操作可以表示为:
[ ( f ∗ g ) ( t ) = ∫ − ∞ ∞ f ( τ ) g ( t − τ )   d τ (f * g)(t) = \int_{-\infty}^{\infty} f(\tau) g(t - \tau) \, d\tau (fg)(t)=f(τ)g(tτ)dτ]
在离散情况下,卷积操作可以表示为:
[ ( f ∗ g ) [ n ] = ∑ m = − ∞ ∞ f [ m ] g [ n − m ] (f * g)[n] = \sum_{m=-\infty}^{\infty} f[m] g[n - m] (fg)[n]=m=f[m]g[nm]]

在CNN中,卷积操作通常是在二维图像上进行的,卷积核(或滤波器)在输入图像上滑动,计算局部区域的加权和。

性质

  1. 线性性:卷积是线性操作,满足叠加原理。
  2. 平移不变性:卷积操作对输入信号的平移是不变的。
  3. 交换性:卷积操作满足交换律,即 ( f ∗ g = g ∗ f f * g = g * f fg=gf)。
  4. 结合性:卷积操作满足结合律,即 ( ( f ∗ g ) ∗ h = f ∗ ( g ∗ h ) (f * g) * h = f * (g * h) (fg)h=f(gh))。

卷积的原理

在CNN中,卷积操作通过卷积核(filter)在输入数据(如图像)上滑动,计算局部区域的加权和。卷积核的参数通过训练过程学习得到。

卷积步骤

  1. 输入数据:通常是二维图像或多通道图像。

  2. 卷积核:一个小的矩阵,包含可学习的参数。
    边界填充
    在这里插入图片描述
    不考虑边界图像会变小,如果不想变小只能填充像素。
    在这里插入图片描述

拉伸 -镜像
在这里插入图片描述
0填充
在这里插入图片描述

  1. 滑动窗口:卷积核在输入数据上滑动,计算每个位置的加权和。

  2. 输出特征图:卷积操作的结果是一个新的特征图,反映了输入数据中某些特征的响应。

卷积的示例与应用

在这里插入图片描述

在这里插入图片描述
平滑
在这里插入图片描述

锐化
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

卷积在机器学习和深度学习中有广泛的应用,特别是在图像处理和计算机视觉领域。

  1. 图像分类:CNN通过卷积层提取图像的特征,用于分类任务。
  2. 目标检测:卷积操作用于检测图像中的目标物体。
  3. 图像分割:卷积操作用于将图像分割成不同的区域。
  4. 自然语言处理:卷积操作也可以应用于文本数据,提取局部特征。

卷积的优缺点

优点
  1. 局部感知:卷积操作只关注局部区域,减少了参数数量,降低了计算复杂度。
  2. 参数共享:卷积核在输入数据上共享参数,进一步减少了参数数量。
  3. 平移不变性:卷积操作对输入数据的平移是不变的,适合处理图像等数据。
  4. 层次化特征提取:通过多层卷积操作,可以提取从低级到高级的特征。
缺点
  1. 计算复杂度:虽然卷积操作减少了参数数量,但在大规模数据上仍然需要大量计算资源。
  2. 局部性限制:卷积操作只关注局部区域,可能忽略全局信息。
  3. 超参数选择:卷积核的大小、步长、填充等超参数需要仔细选择,影响模型性能。

总结

卷积是机器学习和深度学习中一种重要的操作,特别适用于处理图像等具有局部结构的数据。通过卷积操作,可以有效地提取数据的特征,降低模型的复杂度,提高模型的性能。然而,卷积操作也存在一些局限性,需要在实际应用中仔细权衡。

高斯卷积核

在这里插入图片描述
存在振铃问题

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

如何设置卷积核的尺寸和高斯函数的标准差?
方差的变化
在这里插入图片描述
方差越大,平滑效果明显

尺寸的变化

在这里插入图片描述

模板尺寸越大, 平滑效果越强

总结

  • 大方差或者大尺寸卷积核平滑能力强;
  • 小方差或者小尺寸卷积核平滑能力弱;
  • 经验法则:将卷积核的半窗宽度设置为3σ,最终卷积模板尺寸为2×3σ+1。
    例子:标准差设置成1,卷积模板宽度=231+1=7

在图像处理和深度学习领域,卷积核尺寸和高斯函数标准差的设置是比较关键的操作,以下分别介绍它们的设置方法:

卷积核尺寸的设置

依据任务类型
  • 边缘检测:通常会使用较小的卷积核,如 3x3 或 5x5。以 Sobel 算子为例,它使用 3x3 的卷积核来检测图像中的边缘信息。小尺寸的卷积核能够聚焦于局部像素的变化,从而更敏锐地捕捉边缘特征。
  • 特征提取:对于浅层网络,可能会使用较小的卷积核(如 3x3)来提取图像的基本特征,如纹理、颜色等;而在深层网络中,有时会使用较大的卷积核(如 7x7)来获取更全局的特征信息。例如,在 AlexNet 中,第一层卷积层使用了 11x11 的大卷积核来捕捉图像的宏观特征。
  • 图像分割:卷积核的尺寸选择会根据具体的分割任务和数据集特点而定。一般来说,较小的卷积核可以用于细化分割边界,而较大的卷积核可以用于融合不同区域的信息。
考虑数据特性
  • 图像分辨率:对于高分辨率的图像,可以适当使用较大的卷积核来减少计算量,同时避免丢失过多的细节信息;而对于低分辨率的图像,使用较小的卷积核可以更好地保留图像的细节。
  • 数据集大小:如果数据集较小,使用较小的卷积核可以减少模型的参数数量,降低过拟合的风险;如果数据集较大,可以尝试使用较大的卷积核来增加模型的表达能力。
实验与调优

通过多次实验,尝试不同的卷积核尺寸,并使用验证集评估模型的性能,选择性能最优的卷积核尺寸。可以采用网格搜索、随机搜索等方法来系统地探索不同的卷积核尺寸组合。

高斯函数标准差的设置

依据平滑需求
  • 轻微平滑:当只需要对图像进行轻微的平滑处理,去除一些高频噪声时,可以选择较小的标准差,如 0.5 - 1.0。较小的标准差会使高斯函数的分布更集中,卷积操作主要影响相邻的少数像素,对图像的整体结构影响较小。
  • 显著平滑:如果需要对图像进行更强烈的平滑处理,去除较大的噪声或模糊图像细节,可以选择较大的标准差,如 3.0 - 5.0 甚至更大。较大的标准差会使高斯函数的分布更广泛,卷积操作会影响更多的像素,从而达到更显著的平滑效果。
结合卷积核尺寸

高斯卷积核的尺寸和标准差通常是相互关联的。一般来说,卷积核的尺寸应该足够大,以覆盖高斯函数的主要部分。通常可以根据标准差来确定合适的卷积核尺寸,例如,当标准差为 σ 时,卷积核的尺寸可以选择为 (6σ + 1) x (6σ + 1) ,以确保高斯函数的大部分能量都被包含在卷积核内。

实际应用场景
  • 图像预处理:在图像预处理阶段,如去噪、图像增强等,标准差的选择要根据图像的噪声水平和具体的处理目标来确定。例如,对于包含椒盐噪声的图像,可以先使用较大的标准差进行平滑处理,然后再进行其他处理。
  • 特征提取:在提取图像特征时,标准差的选择会影响特征的提取效果。较小的标准差可以提取更精细的特征,而较大的标准差可以提取更宏观的特征。例如,在人脸检测中,可以使用不同标准差的高斯滤波器来提取不同尺度的人脸特征。

同样,也可以通过实验的方法,尝试不同的标准差取值,并根据实际应用的评估指标(如准确率、召回率等)来选择最优的标准差。

总结

去除图像中的“高频”成分(低通滤波器)
两个高斯卷积核卷积后得到的还是高斯卷积核

  • 使用多次小方差卷积核连续卷积,可以得到与大方差卷积核相同的结果
  • 使用标准差为σ的高斯核进行两次卷积与使用标准差σ√2 的高斯核进行一次卷积相同

可分离

  • 可分解为两个一维高斯的乘积
    在这里插入图片描述

1.用尺寸为/m×m的卷积核卷积一个尺寸为n×n的图像,其计算复杂度是多少?
在这里插入图片描述
小模板多次卷积比一个大模板一次卷积计算量低很多

图像噪声与中值滤波器

在这里插入图片描述

高斯噪声

在这里插入图片描述
高斯噪声是一种在信号处理、图像处理、通信等多个领域经常出现的噪声类型

定义

高斯噪声是指其概率密度函数服从高斯分布(也称为正态分布)的噪声。在实际应用中,许多自然噪声和测量噪声都近似服从高斯分布,因此高斯噪声是一种非常常见且重要的噪声模型。

概率分布

高斯分布的概率密度函数由均值(μ)和标准差(σ)两个参数完全确定,其数学表达式为:
[ f ( x ) = 1 σ 2 π e − ( x − μ ) 2 2 σ 2 f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x - \mu)^2}{2\sigma^2}} f(x)=σ2π 1e2σ2(xμ)2]
其中, x x x 是随机变量的值, μ \mu μ 是分布的均值,它决定了分布的中心位置; σ \sigma σ 是标准差,它决定了分布的宽度,即噪声的分散程度。当 μ = 0 \mu = 0 μ=0 时,称为零均值高斯噪声。

产生原因

  • 电子设备内部的热噪声:电子元件中的电子由于热运动产生的随机噪声,这种噪声在各种电子设备中普遍存在,如放大器、传感器等。
  • 通信信道中的噪声:在信号传输过程中,信道中的各种干扰因素会引入高斯噪声,例如无线通信中的大气噪声、多径衰落等。
  • 测量误差:在数据采集和测量过程中,由于测量设备的精度限制和环境干扰,可能会产生高斯噪声。

对图像和信号的影响

  • 对图像的影响:高斯噪声会使图像变得模糊、粗糙,降低图像的清晰度和质量。在图像中,噪声表现为随机分布的灰度值变化,使得图像的细节信息被掩盖,影响图像的视觉效果和后续的处理(如边缘检测、特征提取等)。
  • 对信号的影响:在信号处理中,高斯噪声会干扰信号的真实值,使信号的幅度和相位发生随机变化,导致信号失真。这会影响信号的检测、识别和分析,降低系统的性能和可靠性。

去除方法

在这里插入图片描述

噪声的方差越大,卷积和的方差也要越大。但是此时也会带来副作用,会影响图像本身的显示。

  • 线性滤波:如均值滤波和高斯滤波。均值滤波是将每个像素的邻域内像素值取平均值作为该像素的新值,它可以在一定程度上平滑噪声,但会使图像边缘模糊。高斯滤波则是根据高斯函数对邻域像素进行加权平均,它在平滑噪声的同时能较好地保留图像的边缘信息。
  • 非线性滤波:如中值滤波。中值滤波是将邻域内像素值的中值作为该像素的新值,它对脉冲噪声和椒盐噪声有较好的抑制效果,同时也能在一定程度上去除高斯噪声,并且对图像边缘的保护能力较强。
  • 基于变换域的方法:如小波变换。小波变换可以将图像或信号分解到不同的尺度和频率子带中,通过对不同子带的系数进行处理,去除噪声分量,然后再进行重构得到去噪后的图像或信号。
  • 深度学习方法:近年来,深度学习在图像去噪领域取得了显著的成果。通过训练深度神经网络(如卷积神经网络),可以学习到高斯噪声的特征和图像的先验信息,从而实现高效的图像去噪。

中值滤波

对于椒盐噪声和脉冲噪声使用高斯卷积核去噪是很难去掉的。
在这里插入图片描述
中值滤波的原理示意图。
在这里插入图片描述

控制滤波的效果在这里插入图片描述
认识了三种类型的噪声,椒盐噪声、脉冲噪声及高斯噪声对于前两者建议使用中值滤波器对于高斯噪声可以使用高斯卷积核来进行去噪。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2293978.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Android --- handler详解

handler 理解 handler 是一套Android 消息传递机制,主要用于线程间通信。 tips: binder/socket 用于进程间通信。 参考: Android 进程间通信-CSDN博客 handler 就是主线程在起了一个子线程,子线程运行并生成message ,l…

DeepSeek:全栈开发者视角下的AI革命者

目录​​​​​​​ DeepSeek:全栈开发者视角下的AI革命者 写在前面 一、DeepSeek的诞生与定位 二、DeepSeek技术架构的颠覆性突破 1、解构算力霸权:从MoE架构到内存革命 2、多模态扩展的技术纵深 3、算法范式的升维重构 4、重构AI竞争规则 三、…

Page Assist - 本地Deepseek模型 Web UI 的安装和使用

Page Assist Page Assist是一个开源的Chrome扩展程序,为本地AI模型提供一个直观的交互界面。通过它可以在任何网页上打开侧边栏或Web UI,与自己的AI模型进行对话,获取智能辅助。这种设计不仅方便了用户随时调用AI的能力,还保护了…

Spring Boot篇

为什么要用Spring Boot Spring Boot 优点非常多,如: 独立运行 Spring Boot 而且内嵌了各种 servlet 容器,Tomcat、Jetty 等,现在不再需要打成 war 包部署到 容器 中,Spring Boot 只要打成一个可执行的 jar 包就能独…

基于SpringBoot的在线远程考试系统的设计与实现(源码+SQL脚本+LW+部署讲解等)

专注于大学生项目实战开发,讲解,毕业答疑辅导,欢迎高校老师/同行前辈交流合作✌。 技术范围:SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容:…

python实现多路视频,多窗口播放功能

系列Python开发 文章目录 系列Python开发前言一、python实现多路视频播放功能二、代码实现1. http申请视频流地址并cv2播放功能 三、打包代码实现生成可执行文件 总结 前言 一、python实现多路视频播放功能 服务端开发后通常需要做功能测试、性能测试,通常postman、…

Java设计模式:行为型模式→责任链模式

Java 责任链模式详解 1. 定义 责任链模式(Chain of Responsibility Pattern)是一种行为型设计模式,它使多个对象都有机会处理请求,而不是由一个对象去处理这个请求。这种模式以链表的形式将多个处理对象串联起来,并通…

2025年02月05日Github流行趋势

项目名称:OCRmyPDF 项目地址url:https://github.com/ocrmypdf/OCRmyPDF项目语言:Python历史star数:15872今日star数:157项目维护者:jbarlow83, fritz-hh, apps/dependabot, mawi12345, mara004项目简介&…

关于大数据

在大数据背景下存在的问题: 非结构化、半结构化数据:NoSQL数据库只负责存储;程序处理时涉及到数据移动,速度慢 是否存在一套整体解决方案? 可以存储并处理海量结构化、半结构化、非结构化数据 处理海量数据的速…

离散浣熊优化算法(DCOA)求解大规模旅行商问题(Large-Scale Traveling Salesman Problem,LTSP),MATLAB代码

大规模旅行商问题(Large-Scale Traveling Salesman Problem,LTSP)是经典旅行商问题(TSP)在规模上的扩展,是一个具有重要理论和实际意义的组合优化问题: 一、问题定义 给定一组城市和它们之间的…

Page Assist实现deepseek离线部署的在线搜索功能

前面文章Mac 基于Ollama 本地部署DeepSeek离线模型 实现了deepseek的离线部署,但是部署完成虽然可以进行问答和交互,也有thinking过程,但是没办法像官方一样进行联网搜索。今天我们介绍一款浏览器插件Page Assist来实现联网搜索,完…

win10系统安装和部署DeepSeek以及python实现

DeepSeek之python实现API应用 1、下载和安装 https://github.com/ollama/ollama/releases/latest/download/OllamaSetup.exe 傻瓜式安装 2、测试安装成功 ollama -v3、拉取模型 选择模型版本:1.5B 版本适合配置一般、想尝鲜、轻度使用的用户;8B 版本适合 16GB 内存以上…

C++六大默认成员函数

C六大默认成员函数 默认构造函数默认析构函数RAII技术RAII的核心思想优点示例应用场景 默认拷贝构造深拷贝和浅拷贝 默认拷贝赋值运算符移动构造函数(C11起)默认移动赋值运算符(C11起)取地址及const取地址操作符重载取地址操作符重…

3D图形学与可视化大屏:什么是片段着色器,有什么作用。

一、片段着色器的概念 在 3D 图形学中,片段着色器(Fragment Shader)是一种在图形渲染管线中负责处理片段(像素)的程序。它的主要任务是确定每个像素的颜色和其他属性,如透明度、深度等。片段着色器是可编程…

人类心智逆向工程:AGI的认知科学基础

文章目录 引言:为何需要逆向工程人类心智?一、逆向工程的定义与目标1.1 什么是逆向工程?1.2 AGI逆向工程的核心目标二、认知科学的四大支柱与AGI2.1 神经科学:大脑的硬件解剖2.2 心理学:心智的行为建模2.3 语言学:符号与意义的桥梁2.4 哲学:意识与自我模型的争议三、逆向…

低代码系统-产品架构案例介绍、蓝凌(十三)

蓝凌低代码系统,依旧是从下到上,从左至右的顺序。 技术平台h/iPaas 指低层使用了哪些技术,例如:微服务架构,MySql数据库。个人认为,如果是市场的主流,就没必要赘述了。 新一代门户 门户设计器&a…

Autosar-以太网是怎么运行的?(Davinci配置部分)

写在前面: 入行一段时间了,基于个人理解整理一些东西,如有错误,欢迎各位大佬评论区指正!!! 目录 1.Autosar ETH通讯软件架构 2.Ethernet MCAL配置 2.1配置对应Pin属性 2.2配置TXD引脚 2.3配…

洛谷网站: P3029 [USACO11NOV] Cow Lineup S 题解

题目传送门: P3029 [USACO11NOV] Cow Lineup S - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) 前言: 这道题的核心问题是在一条直线上分布着不同品种的牛,要找出一个连续区间,使得这个区间内包含所有不同品种的牛,…

STM32 ADC模数转换器

ADC简介 ADC(Analog-Digital Converter)模拟-数字转换器 ADC可以将引脚上连续变化的模拟电压转换为内存中存储的数字变量,建立模拟电路到数字电路的桥梁 12位逐次逼近型ADC,1us转换时间 输入电压范围:0~3.3V&#xff0…

结合深度学习、自然语言处理(NLP)与多准则决策的三阶段技术框架,旨在实现从消费者情感分析到个性化决策

针对电商个性化推荐场景的集成机器学习和稳健优化三阶段方案。 第一阶段:在线评论数据处理,利用深度学习和自然语言处理技术进行特征挖掘,进而进行消费者情感分析,得到消费者偏好 在第一阶段,我们主要关注如何通过深度学习和自然语…