卷积神经网络(知识点)

news2025/3/17 19:53:49

一、为了使特征图变小:

由两种方法:1.增大步长:卷积的时候不是一次一步,而是一次多步,类似一张图片,在原来的像素基础上,每隔一个取一个像素点。

其中S就是步长

注意:扩大步长不经常用,因为会丢失信息,而且还会引入计算

                      2.池化:1)平均池化

                                    2)最大池化

二、卷积的过程中,希望通道数增加,而特征图大小减小 

  1. 增强特征表达能力:通过增加通道数,每个卷积层能够学习更多种类的特征。初始层通常识别基本的边缘、颜色和纹理等低级特征,而随着层数加深,网络能够捕捉更加复杂的模式和高层次语义信息。更多的通道意味着网络可以同时处理并整合更丰富的特征表示。

  2. 减少计算复杂度和参数数量:虽然增加通道数增加了模型的容量,但减小特征图的大小有助于控制计算成本和内存使用。这主要是通过池化层(如最大池化)或步长大于1的卷积实现的。减小特征图尺寸可以显著降低后续层的计算负担,因为它们需要处理的数据点变少了。

  3. 空间不变性:通过下采样(例如,利用池化操作),网络可以获得一定程度的空间不变性,这意味着它对输入图像中的微小平移变得更加鲁棒。这对于许多视觉任务来说是非常重要的,因为它允许模型专注于最重要的特征,而不是被不相关的小变化所干扰。

  4. 有效捕获全局信息:随着特征图尺寸的减小,较高层的神经元具有更大的感受野,从而能够覆盖原始输入图像的更大区域。这意味着这些层可以捕获到更全局的信息,有助于理解场景的整体结构和上下文关系。

三、归一化和Dropout

归一化就是不同的样本,同一属性才会相对比较,不会受量纲的影响

Dropout是一种用于防止神经网络过拟合的技术。在在每一轮训练过程中,Dropout通过随机“丢弃”一部分神经元(即设置这些神经元的输出为零),从而强制网络学习更鲁棒的特征表示。这样做可以避免模型过于依赖某些特定的神经元,促使模型学习到更加泛化的特征。

三个基本卷积神经网络模型

AlexNet

AlexNet是由Alex Krizhevsky等人提出的,在2012年的ImageNet图像识别挑战赛中大放异彩,标志着深度学习时代的开始。

  • 创新点
    • 使用ReLU(Rectified Linear Unit)激活函数代替传统的tanh或sigmoid函数,加快了训练速度。
    • 引入了Dropout技术来减少过拟合。
    • 利用数据增强技术提高模型的泛化能力。
    • 使用GPU进行加速训练,解决了大规模数据和复杂模型带来的计算问题。
    • 采用了局部响应归一化(Local Response Normalization, LRN),虽然后续研究表明这一步并非必不可少。

VGG

VGG是由牛津大学视觉几何组(Visual Geometry Group)开发的一系列深度卷积神经网络架构。

  • 创新点
    • 简洁的网络结构:所有卷积层都使用3x3的小卷积核,并且步长为1,填充为1;池化层则采用2x2窗口,步长为2。这种设计让网络可以更深,同时保持参数量相对较小。
    • 深度增加:VGG通过堆叠多个这样的层,构建出了比以往任何网络都要深的架构(如VGG-16和VGG-19),证明了网络深度对于性能的重要性。
    • 标准化配置:由于其简单而一致的架构,VGG成为了许多研究的基础模型,便于比较不同方法的效果。

ResNeXt

ResNeXt是在ResNet基础上进一步发展的模型,它引入了“分组卷积”的概念,旨在以更少的参数实现更高的准确率。

  • 创新点
    • 分组卷积(Cardinality):这是ResNeXt的关键创新之一,通过将输入通道分成若干组,每组独立进行卷积操作,然后再合并结果。这种方式可以在不显著增加计算成本的情况下增加网络的表现力。
    • 合并与残差连接:所有组的输出会被拼接在一起,再经过另一个1x1的卷积层来恢复通道数,最后加上原始输入(残差连接),得到最终的输出。

    • 统一的设计原则:ResNeXt提出了一个统一的架构设计理念,即每个残差块内的变换可以用三个参数描述:宽度(滤波器的数量)、深度(网络的层数)和基数(分组卷积中的组数)。这种设计简化了超参数的选择过程。
    • 增强的表达能力:与相同参数量的传统网络相比,ResNeXt能够提供更强的特征表示能力,尤其适合处理复杂的视觉任务

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2316785.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Vision Transformer (ViT):将Transformer带入计算机视觉的革命性尝试(代码实现)

Vision Transformer (ViT):将Transformer带入计算机视觉的革命性尝试 作为一名深度学习研究者,如果你对自然语言处理(NLP)领域的Transformer架构了如指掌,那么你一定不会对它在序列建模中的强大能力感到陌生。然而&am…

特殊 IP 地址

文章目录 特殊IP地址概述受限广播地址(Limited Broadcast Address)直接广播地址(Directed Broadcast Address)多播地址(Multicast Address)环回地址(Loopback Address)本网络本主机&…

数学——A. K-divisible Sum + D. Exam in MAC

A. K-divisible Sum 题目: 思路: 以下 “[xxx]” 符号均代表向上取整 我们假设总和是sum,那么就有sum k * cnt 要想最大值最小,肯定是要让sum尽可能小,这样每个元素都能变小 最小情况是 sum 恰好等于 n 时&#…

【DeepSeek应用】本地部署deepseek模型后,如何在vscode中调用该模型进行代码撰写,检视和优化?

若已成功在本地部署了 DeepSeek 模型(例如通过 vscode-llm、ollama 或私有 API 服务),在 VS Code 中调用本地模型进行代码撰写、检视和优化的完整流程如下: 1. 准备工作:确认本地模型服务状态 模型服务类型: 若使用 HTTP API 服务(如 FastAPI/Flask 封装),假设服务地址…

网络编程、URI和URL的区别、TCP/IP协议、IP和端口、URLConnection

DAY12.1 Java核心基础 网络编程 在互联网时代,网络在生活中处处可见,javaWeb占据了很大一部分 那如何实现javaWeb编程呢? Web编程就是运行在同一个网络下面的终端,使得它们之间可以进行数据传输 计算机网络基本知识 计算机网络…

自探索大语言模型微调(一)

一、数据 1.1、失败案例 Hugging Face: 根据B站上搜索到的资料,datasets这个库可以直接下载丰富的数据集合和与训练模型,调用也非常的简单,唯一的缺点就是,需要外网(翻墙),用国内的…

Unity 和 Python 的连接(通过SocketIO)附源码

在游戏或者项目开发中,Unity 通常用于创建前端,而 Python 则因其强大的数据处理能力常被用作后端。通过 Socket.IO,我们可以轻松地实现 Unity 和 Python 的实时通信。本文将介绍如何通过 Socket.IO 连接 Unity 和 Python,并附上完…

89.HarmonyOS NEXT 应用安全与隐私保护指南:构建安全可靠的应用

温馨提示:本篇博客的详细代码已发布到 git : https://gitcode.com/nutpi/HarmonyosNext 可以下载运行哦! HarmonyOS NEXT 应用安全与隐私保护指南:构建安全可靠的应用 文章目录 HarmonyOS NEXT 应用安全与隐私保护指南:构建安全可…

spring boot 发送邮件验证码

一、前置需求 1、准备邮箱 2、登录授权码 qq邮箱在–>设置–>账号POP3/IMAP/SMTP/Exchange/CardDAV/CalDAV服务 开启服务 二、发送邮件 1、简单邮件 包含邮件标题、邮件正文 2、引入mail启动器 <dependency><groupId>org.springframework.boot</groupI…

MySQL连接较慢原因分析及解决措施

文章目录 整体说明一、问题现象二、问题分析2.1、DNS反向解析问题2.2、网络问题2.3、SSL/TLS协商问题2.4、自动补全的延迟 三、问题解决 摘要&#xff1a; MySQL连接较慢原因分析及解决措施 关键词&#xff1a; MySQL、连接缓慢、客户端、参数设置 整体说明 在使用MySQL的时候…

【大模型基础_毛玉仁】2.5 基于 Decoder-only 架构的大语言模型 -- GPT和LLaMa模型介绍

更多内容&#xff1a;XiaoJ的知识星球 目录 2.5 基于 Decoder-only 架构的大语言模型2.5.1 Decoder-only 架构2.5.2 GPT 系列语言模型1&#xff09;初出茅庐&#xff1a;GPT-1 模型2&#xff09;小有所成&#xff1a;GPT-2 模型3&#xff09;崭露头角&#xff1a;GPT-3 模型4&a…

如何解决ChatGPTplus/pro o1/o3模型无法识别图片或者文件,限制次数?

你是否遇到ChatGPTplus无法识别图片、或者无法识别文件&#xff0c;甚至回答很简短&#xff0c;o1不思考&#xff0c;GPT-4o不能联网、分析图片和处理文件&#xff01;感觉非常敷衍。本文教你如何确定自己的账号是否被降智&#xff1b;教你如何降智的原因&#xff1b;教你解决降…

go的gmp

参考链接&#xff1a;https://www.bilibili.com/video/BV19r4y1w7Nx Golang的GMP调度模型(协程调度器)是其并发编程的核心。GMP代表Goroutine、Machine和Processor三个关键组成部分。Goroutine是Go语言中的轻量级线程&#xff0c;Machine是操作系统的线程&#xff0c;Processor…

Vue开发者工具(VueDevtools)下载与安装

一、这里采用极简插件 网址&#xff1a;chrome.zzzmh.cn/index#/inde… 输入 vue.js.devtools并访问 点击推荐下载 下载到本地解压缩 然后把这个文件移动到谷歌插件里面,开启开发者模式 点击详情,开启一些权限 写的一个demo&#xff0c;如果有vue代码的话&#xff0c;就会…

【Linux】https 协议

目录 一、https 协议 二、加密和解密 &#xff08;一&#xff09;为什么需要加密与解密 &#xff08;二&#xff09;加密和解密的过程 &#xff08;二&#xff09;常见的加密方式 1、对称加密 2、非对称加密 3、数据摘要 4、数字签名 三、https 的加密方式 &#xff…

新手村:数据预处理-特征缩放

新手村&#xff1a;数据预处理-特征缩放 特征缩放&#xff08;Feature Scaling&#xff09;是数据预处理中的一个重要步骤&#xff0c;特别是在应用某些机器学习算法时。特征缩放可以使不同尺度的特征具有相同的量级&#xff0c;从而提高模型训练的效率和性能。常见的特征缩放方…

Xinference大模型配置介绍并通过git-lfs、hf-mirror安装

文章目录 一、Xinference开机服务systemd二、语言&#xff08;LLM&#xff09;模型2.1 配置介绍2.2 DeepSeek-R1-Distill-Qwen-32B&#xff08;大杯&#xff09;工具下载git-lfs&#xff08;可以绕过Hugging Face&#xff09; 2.3 DeepSeek-R1-Distill-Qwen-32B-Q4_K_M-GGUF&am…

0x04.若依框架微服务开发(含AI模块运行)

微服务本地开发硬件资源有限&#xff0c;所以会将核心微服务组件先部署在服务器上比如&#xff1a;mysql&#xff0c;redis&#xff0c;注册中心Nacos&#xff0c;网关Gateway&#xff0c;认证中心Auth和upms模块以及低代码生成模块。 mysql、redis部署前篇已讲&#xff0c;这…

判断是不是二叉搜索树(C++)

目录 1 问题描述 1.1 示例1 1.2 示例2 2 解题思路 3 代码实现 4 代码解析 4.1 中序遍历函数 inorder 4.2 主函数 isValidBST 初始化及中序遍历调用 4.3 检查数组中元素是否严格递增 4.4 返回验证结果 5 总结 1 问题描述 给定一个二叉树根节点&#xff0c;请你判断…

Linux--gdb/cgdb

ok&#xff0c;我们今天学习gdb的安装和使用 调试器-gdb/cgdb使用 VS、VScode编写的代码一般都是release格式的&#xff0c;gdb 的格式一般是debug 换成debug模式命令 :-g gdb会记录最新的一条命令&#xff0c;直接回车就是默认执行该命令 一个调试周期下&#xff0c;断点…