深度学习之视觉特征提取器——VGG系列

news2024/12/26 21:05:32

VGG

提出论文:1409.1556.pdf (arxiv.org)

引入

距离VGG网络的提出已经约十年,很难想象在深度学习高速发展的今天,一个模型能够历经十年而不衰。虽然如今已经有VGG的大量替代品,但是笔者研究的一些领域仍然有大量工作选择使用VGG。有人说VGG开创了基于一些基础结构(如Conv,Linear,RNN)进行模型堆叠的开端,但笔者更以为是其对深层次网络的研究和特征提取器这一概念的广泛使用作出了巨大贡献(但并不是首次提出)。深度学习高速发展之外,是硬件算力的高速发展。10年前使用VGG某种意义上也可以看成现如今使用LLM。VGG是由Visual Geometry Group中的两位大佬提出(VGG名字的由来就显而易见了)

模型介绍

请添加图片描述

3×3卷积核

在VGG中,很大的贡献之一是使用了3×3卷积核以替代5×5卷积核、7×7卷积核等。这样的优点有两个:

(1)对相同大小的图像使用更小感受野的卷积,就会导致卷积的层数更多,层数更多意味着对非线性的拟合更好。这一点可以类比于高次函数可以拟合的曲线更多、更逼近。比如 y = a x + b y=ax+b y=ax+b就难以拟合曲线,而 y = ( a x + b ) ( c x + d ) y=(ax+b)(cx+d) y=(ax+b)(cx+d)就可以拟合部分曲线。

(2)对相同大小的图像使用3×3的卷积所需要的参数量更少。如图,如果用作者论文中举的例子就是,对一个7×7的感受野使用3×3的卷积总共需要 3 × ( 3 2 C 2 ) = 27 C 2 3\times(3^2C^2)=27C^2 3×(32C2)=27C2的参数,而使用7×7的卷积核则需要 ( 7 2 C 2 ) = 49 C 2 (7^2C^2)=49C^2 (72C2)=49C2的参数,其中 C C C代表通道数。

补充解释:一个3×3的卷积核参数量是 3 2 3^2 32,如果原始特征有 C C C个通道,输出特征也相应有 C C C个通道,那么每个通道对应相乘就得到 C 2 C^2 C2,而对于一个7×7的感受野,需要分成三个阶段使用3×3的卷积,所以再乘以3。

不同深度的VGG

VGG最常见的有四种模型结构,分别是VGG11,VGG13,VGG16,VGG19,其模型结构分别如下:

请添加图片描述

作者也是通过这四种不同深度的模型验证了更深的网络可以有效提高模型的效果。

代码实现

目前最便捷的方法是使用Pytorch中的torchvision库。

以VGG16举例:

下面是官方给的代码:

from torchvision.io import read_image
from torchvision.models import vgg16, VGG16_Weights

img = read_image("image.jpg")

# Step 1: Initialize model with the best available weights
weights = VGG16_Weights.DEFAULT
model = vgg16(weights=weights)
model.eval()

# Step 2: Initialize the inference transforms
preprocess = weights.transforms()

# Step 3: Apply inference preprocessing transforms
batch = preprocess(img).unsqueeze(0)

# Step 4: Use the model and print the predicted category
prediction = model(batch).squeeze(0).softmax(0)
class_id = prediction.argmax().item()
score = prediction[class_id].item()
category_name = weights.meta["categories"][class_id]
print(f"{category_name}: {100 * score:.1f}%")

如果要封装成一个类,并控制输出的维度,可以使用如下代码:

import torch.nn as nn
import torchvision.models as models
from torchvision.models.vgg import VGG16_Weights

class VGG16(nn.Module):
    def __init__(self):
        super(VGG16, self).__init__()
        self.vgg = models.vgg16(weights=VGG16_Weights.IMAGENET1K_V1)
        self.dim_feat = 4096
        self.vgg.classifier[6] = nn.Linear(4096, self.dim_feat)

    def forward(self, x):
        output = self.vgg(x)
        return output

当然,VGG并不止VGG16可以调用,下面是Pytorch官方给出的表格:

WeightAcc@1Acc@5ParamsGFLOPSRecipe
VGG11_BN_Weights.IMAGENET1K_V170.3789.81132.9M7.61link
VGG11_Weights.IMAGENET1K_V169.0288.628132.9M7.61link
VGG13_BN_Weights.IMAGENET1K_V171.58690.374133.1M11.31link
VGG13_Weights.IMAGENET1K_V169.92889.246133.0M11.31link
VGG16_BN_Weights.IMAGENET1K_V173.3691.516138.4M15.47link
VGG16_Weights.IMAGENET1K_V171.59290.382138.4M15.47link
VGG16_Weights.IMAGENET1K_FEATURESnannan138.4M15.47link
VGG19_BN_Weights.IMAGENET1K_V174.21891.842143.7M19.63link
VGG19_Weights.IMAGENET1K_V172.37690.876143.7M19.63link

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1614179.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

多商户入驻型AI智能名片预约服务系统:掀起服务行业数字化革命狂潮!

多商户入驻型AI智能名片预约服务系统以其高效、便捷、智能的特点,成为服务行业数字化转型的重要推手。该系统通过整合线上线下资源,利用人工智能和大数据技术,为商户和消费者搭建了一个无缝对接的预约服务平台。商户可以轻松入驻系统&#xf…

【Java框架】SpringMVC(一)——基本的环境搭建及基本结构体系

目录 MVC模式视图(View)控制器(Controller)模型(Model)JSP Model1JSP Model2MVC的优点MVC的缺点 Spring MVC架构介绍特点 SpringMVC环境搭建(在前面Spring整合Mybatis的基础上)1.创建控制器Controller2.创建springmvc配置文件,并添加Controller的Bean3.web.xml中配置…

通用大模型研究重点之五:model services

Trtion https://github.com/openai/triton https://www.nvidia.cn/gpu-cloud/ngc-nvidia-triton/ https://github.com/openai/openai-cookbook https://github.com/openai/openai-python Triton 是一个由 NVIDIA 开发的开源推理服务平台,旨在简化和优化生产环境中的…

windows11 iis10中.net4.5不能用解决方法

问题iis设置4.0后运行程序提示web.config配置错误 解决方法: 管理员身份运行命令提示符分别运行如下命令: dism /online /enable-feature /featurename:IIS-ISAPIFilter dism /online /enable-feature /featurename:IIS-ISAPIExtensions dism /onli…

模拟量和开关量傻傻分不清?戳这文

在电子工程中,模拟量和开关量是最基本的信号类型,但它们在表示和处理方式上有着显著的不同。对于初入行的电子工程师来说,很容易混淆这两者。本文将用简洁明了的方式解释这两种信号类型,让你轻松掌握它们的区别。 1、模拟量 模拟…

js作业微博发言

微博 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><meta http-equiv"X-UA-Compatible" content&q…

三款热门婴儿洗衣机深度测评,希亦、觉飞、RUUFFY谁更好用?

近几年科技高速发展&#xff0c;我们的生活也因此变得更加便捷、健康高效。尤其是在家庭生活中&#xff0c;各种新兴家电的出现让我们的生活变得更加健康卫生。婴儿洗衣机也为现代家庭提供了极大的便捷。由于婴儿刚出生免疫力比较弱&#xff0c;所以建议婴儿的衣物尽量和大人的…

在C#中,PDFsharp库使用(三):PDF提取

PDF提取 一、PDF提取功能&#xff0c;看图 二、PDF提取界面 三、PDF提取代码 //pdf提取---选择文件Button private void button9_Click(object sender, EventArgs e) {string oneFilePath GetOneFilepath();if (!string.IsNullOrEmpty(oneFilePath)){textBox3.Text oneFilePa…

Java多线程交替打印

多线程交互 在Java中&#xff0c;可以使用synchronized关键字或者java.util.concurrent包中的工具来实现多线程交替打印。以下是一个使用synchronized关键字的示例&#xff1a; public class AlternatePrinting {private static final Object lock new Object();private sta…

设计模式之创建型模式---工厂模式

文章目录 工厂模式概述简单工厂简单工厂的代码实现简单工厂的使用简单工厂应用场景 工厂方法工厂方法模式的代码实现工厂方法的使用工厂方法应用场景 抽象工厂抽象工厂模式代码实现抽象工厂的使用方法抽象工厂模式的应用场景 总结 工厂模式概述 工厂模式从名字就能看出&#x…

【Java笔记】如何创建自己的注解+注解怎么用于反射+SpringBoot常见注解

文章目录 0. 为什么SpringBoot要整这么多注解&#xff1f;1. 一些基础知识1.1 什么是注解1.2 Java内置注解1.2.1 作用在代码上的注解1.2.2 作用在注解的注解&#xff08;元注解&#xff09;1.2.3 Java 7之后的新注解 1.3 注解的作用1.4 如何实现一个自己的注解&#xff1f;1.4.…

向量的求导

参考&#xff1a; 向量的求导 向量内积求导

如何提交已暂存的更改到本地仓库?

文章目录 如何提交已暂存的更改到本地Git仓库&#xff1f;步骤1&#xff1a;确认并暂存更改步骤2&#xff1a;提交暂存的更改到本地仓库 如何提交已暂存的更改到本地Git仓库&#xff1f; 在Git版本控制系统中&#xff0c;当你对项目文件进行修改后&#xff0c;首先需要将这些更…

Diffusion Model原理剖析

目录 前言1. DDPM演算法初览2. 图像生成模型共同目标3. VAE: Lower bound of l o g P ( x ) logP(x) logP(x)4. Diffusion Model背后的数学原理5. 为什么需要Sample?6. Diffusion Model的应用7. Diffusion Model成功的关键总结参考 前言 接着上篇文章 图像生成模型浅析&#…

四川古力未来科技抖音小店:科技新宠,购物新选择

在数字化浪潮席卷全球的今天&#xff0c;电商行业日新月异&#xff0c;新兴平台层出不穷。四川古力未来科技抖音小店&#xff0c;作为其中的佼佼者&#xff0c;凭借其独特的魅力和创新的服务模式&#xff0c;正逐渐成为消费者眼中的购物新宠。 一、四川古力未来科技抖音小店的独…

深度卷积神经网络的整体运行流程(以alexnet为例)

0.基础概念&#xff08;复习一下&#xff09; 1.小批量随机梯度下降 目的&#xff1a; 希望找到最佳的参数&#xff0c;使损失函数最小。 使损失函数对w求导&#xff08;b就是x等于1的w&#xff09;&#xff0c;一个小批次的/eta&#xff08;学习率&#xff09;*小批次的平均…

2024团体设计天梯赛之L1-101 别再来这么多猫娘了

c语言中的小小白-CSDN博客c语言中的小小白关注算法,c,c语言,贪心算法,链表,mysql,动态规划,后端,线性回归,数据结构,排序算法领域.https://blog.csdn.net/bhbcdxb123?spm1001.2014.3001.5343 给大家分享一句我很喜欢我话&#xff1a; 知不足而奋进&#xff0c;望远山而前行&am…

上市公司数字化转型速度测-含代码及原始数据(2000-2022年)

数据来源&#xff1a;Wind数据库、企业年报时间跨度&#xff1a;2000-2022年 其中吴非、赵宸宇版本的数据是从2000到2022年&#xff1b;袁淳版本和李瑛玫版本的数据均是从2001-2022年。数据范围&#xff1a;上市公司数据指标&#xff1a;计算了三份测算数字化转型速度的数据。其…

Java中的构造器

即使在类中什么都不写也会自动的生成一个构造器 注意 使用new关键字是在调用构造器 如果定义了有参构造 那么就不会默认的走Person person new Person();如果没有自己手动的定义无参构造就不能使用 在idea中 用按键Altinsert可以快速生成有参、无参构造&#xff08;某些品牌的…

yolov8-obb旋转目标检测详细流程

一、数据标注 由于旋转目标标注与传统的目标检测标注有一定的区别&#xff0c;故使用roLabelImg或者labelimg2进行标注&#xff0c;以下标注软件选用的是roLabelImg。 roLabelImg下载地址&#xff1a;https://github.com/cgvict/roLabelImg 直接在原有的labelimg环境中使用roL…