李沐-《动手学深度学习》--02-目标检测

news2025/1/10 1:55:31

一 、目标检测算法

1. R-CNN

a . 算法步骤

  • 使用启发式搜索算法来选择锚框(选出多个锚框大小可能不一,需要使用Rol pooling)
  • 使用预训练好的模型(去掉分类层)对每个锚框进行特征抽取(如VGG,AlexNet…)
  • 训练一个SVM来对每个类进行分类
  • 训练一个线性回归模型来预测边缘框偏移

b . Rol Pooling

​ 每个锚框的大小是不一样的大的,所以需要对锚框进行处理

在这里插入图片描述

2 . Fast R-CNN

​ R-CNN对于每个锚框都有重复的部分,所以计算的时候会有重复计算,没有共享计算.而 Fast R-CNN的改进就是不是对锚框进行特征抽取,而是直接对整个图片进行特征抽取,对对应的锚框位置直接映射到了抽取完成的图片的位置,然后再进行向前传播

3 . Faster R-CNN

4 . Mask R-CNN

5 . 总结

在这里插入图片描述

二 、 SSD (单发多框检测)

总结:

  • SSD通过单神经网络来检测模型
  • 以每个像素为中心的产生多个锚框
  • 在多个段的输出上进行多尺度的检测(下面的检测小物体,上面的段检测大的物体)

三、 YOLO(你只看一次)

在这里插入图片描述

四 、 转置卷积

在这里插入图片描述

大多的时候取得的都是图像的上采样,也不是卷积的一个逆运算,最后也是一个卷积运算

上采样:将我们的输入变大

下采样:将输入变小,输入的像素变小

1 . 填充、步幅,多通道

  • 填充:作用在了输出上,填充了多少则会去掉输出的几个高和宽
  • 步幅:作用在了输出,将会增大我们的输出
  • 如果超参数和卷积时候的参数一样的话,能将第一次卷积的结果形状变为卷积之前的形状,但是内容全变了

2 . 计算步骤

在这里插入图片描述

五 、 全连接卷积神经网络(FCN)

1 . 思想

在这里插入图片描述

六、 循环神经网络

1 . 序列模型

1)简介

实际的数据是有时序结构的,例如电影的评价随时间变化而变化

序列的数据还有更多的体现地方:

  • 音乐,语言,文本,和视频都是连续的,如果文字或者视频有时候换一下顺序会比较impressive
  • 大地震以后,可能会有几次比较小的余震
  • 人的互动是连续的,例如网上的吵架
  • 预测明天的股价要比填补昨天遗失股价更难

2) 统计的工具

处理序列数据需要统计工具和新的深度神经网络架构。

在这里插入图片描述

在这里插入图片描述
**核心变为算f(x…) **

3) 马尔科夫假设

假设当前的数据点只和过去的 t 个数据点相关
在这里插入图片描述

4 ) 潜变量模型

​ 引入潜变量来表示过去的信息 h = f(x,…) ,创建两个模型,一个是计算前一个潜变量和前一个输入计算当前潜变量,另一个模型是计算当前的潜变量和前一个输入来计算当前输出的模型
在这里插入图片描述

2 . 文本预处理

  • 读取数据集
  • 词元化
  • 词表

3 . 语言模型

1)语言模型的目标

在这里插入图片描述

2 ) 建模

<在这里插入图片描述

3 ) N元语法

在这里插入图片描述

4 ) 总结

在这里插入图片描述

4 . RNN模型

notion

  • **隐藏层:**输入到输出的路径上(以观测角度来理解)的隐藏的层
  • **隐变量:**变量捕获并保留了序列直到其当前时间步的历史信息, 就如当前时间步下神经网络的状态或记忆, 因此这样的隐藏变量被称为隐状态(hidden state)
  • 循环模型:在当前时间步中, 隐状态使用的定义与前一个时间步中使用的定义相同, 因此计算是循环的(recurrent)。 于是基于循环计算的隐状态神经网络被命名为 循环神经网络

1)循环神经网络

在这里插入图片描述

2 ) 困惑度perplexity

在这里插入图片描述

3 )梯度剪裁

在这里插入图片描述

5 ) 应用

在这里插入图片描述

七 、 现代循环神经网络

1.GRU(门控循环单元)

不是每个观察到的值都是同样重要的,想只记住相关的观察:

  • 能关注的机制(更新门)
  • 能遗忘的机制(重置门)

1)总体结构

在这里插入图片描述

在这里插入图片描述

当Z全为0时,且R全为1时,GRU退化为RNN

2. LSTM

1)独特门

在这里插入图片描述
I F O C 四个门

2)记忆单元

a . 候选记忆单元

在这里插入图片描述

b .记忆单元

在这里插入图片描述

3 ) 隐状态


因为Ct的取值范围可以时-2,所以会比较大 需要加一个激活函数

4)总结

在这里插入图片描述

3 .深度RNN

在原先的RNN的基础上多加了隐藏层,能够得到更多的信息

a )网络结构

在这里插入图片描述

4 .双向RNN

a )网络结构

在这里插入图片描述

双向RNN经常用在Encoder

5 .编码-解码器架构

a)架构

输入和输出都是变长的情况下,我们需要使用编码器使我们输入从变长变为固定形状的编码状态,解码器将固定形状的编码状态映射到长度可变的序列

6 . Seq2Seq

a)架构

在这里插入图片描述

前面的一个RNN经过抽取句子的特征以后,将最后一层的隐藏层参数给到Decoder里面,然后Decoder也直接从参数刚开始到最后翻译结束就完成,任意长度的原句子到任意长度的句子

b)隐藏状态如何传

将Encoder的RNN最后一层最后一个时刻的隐藏状态和Embedding放在一起然后作为Decoder的输入

在这里插入图片描述

c)BLEU(双语评价替补)

在这里插入图片描述

7 . Beam Search(束搜索)

在Seq2Seq中我们使用了贪心搜索来预测序列

a)原理

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1373704.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MYSQL篇--事务机制高频面试题

事务 1 什么是数据库事务&#xff1f; 事务是一个不可分割的数据库操作序列&#xff0c;也是数据库并发控制的基本单位&#xff0c;其执行的结果必须使数据库从一种一致性状态变到另一种一致性状态。事务是逻辑上的一组操作&#xff0c;要么都执行&#xff0c;要么都不执行。…

【sqlite3】sqlite3在linux下使用sqlitebrowser工具实现数据可视化

sqlite3在linux下使用sqlitebrowser工具实现数据可视化 1. ### install sqlitebrowser 1. ### install sqlitebrowser 安装指令 sudo apt-get install sqlitebrowser通过工具打开数据库 sqlitebrowser stereo.db打开效果

HTTPS详解及openssl简单使用

OpenSSL 中文手册 | OpenSSL 中文网 本文介绍https传输协议中涉及的概念&#xff0c;流程&#xff0c;算法&#xff0c;如何实现等相关内容。 HTTP传输过程 HTTP 之所以被 HTTPS 取代&#xff0c;最大的原因就是不安全&#xff0c;至于为什么不安全&#xff0c;看了下面这张图…

Linux第25步_在虚拟机中备份“ST官方的TF-A源码”

TF-A是ARM公司提供的&#xff0c;ST公司通过修改它&#xff0c;做了一个自己的TF-A代码。因为在后期开发中&#xff0c;若硬件被改变了&#xff0c;我们需要通过修改"ST官方的TF-A源码"就可以自己的TF-A代码了。为了防止源文件被误改了&#xff0c;我们需要将"S…

亲测,Chatgpt4.0充值(虚拟卡充值)

一、准备工作&#xff1a; 1、一个ChatGPT3.5账号 2、一张支持ChatGPT4.0的虚拟卡 二、流程【网页版充值】 充值前请先确认以下三点&#xff1a; 1&#xff0c;ChatGPT账户正常登陆。 2&#xff0c;充值过程中始终保持美区环境&#xff0c;且开启全局模式。 3&#xff0…

简洁计算器Python代码

简洁的Python计算器&#xff0c;直接上代码&#xff08;用时10分钟&#xff09;&#xff1a; Python Gui图形化开发探索GUI开发的无限可能&#xff0c;使用强大的PyQt5、默认的Tkinter和跨平台的Kivy等工具&#xff0c;让Python成为你构建应用程序的得力助手。从本机用户界面到…

在 WinForms 应用程序中实现 FTP 文件操作及模式介绍

在 WinForms 应用程序中实现 FTP 文件操作及模式介绍 简介 在许多应用程序中&#xff0c;能够从远程服务器获取文件是一个非常有用的功能。本文将详细介绍如何在 Windows Forms (WinForms) 应用程序中使用 FTP 协议进行文件操作&#xff0c;包括连接到 FTP 服务器、列出目录、…

邂逅Node.JS的那一夜

邂逅Node.JS的那一夜&#x1f303; 本篇文章&#xff0c;学习记录于&#xff1a;尚硅谷&#x1f3a2; 本篇文章&#xff0c;并不完全适合小白&#xff0c;需要有一定的HTML、CSS、JS、HTTP、Web等知识及基础学习&#xff1a; &#x1f197;&#xff0c;紧接上文&#xff0c;…

通过反射修改MultipartFile类文件名

1、背景 项目上有这样一个需求&#xff0c;前端传文件过来&#xff0c;后端接收后按照特定格式对文件进行重命名。(修改文件名需求其实也可以在前端处理的) //接口类似于下面这个样子 PosMapping("/uploadFile") public R uploadFile(List<MultipartFile> fil…

Spring Boot注解大全:从入门到精通,轻松掌握Spring Boot核心注解!

目录 1、前言 2、介绍 2.1 Spring Boot简介 2.2 为什么要学习Spring Boot注解 3、Spring Boot基本注解 3.1 SpringBootApplication 3.2 EnableAutoConfiguration 3.3 ComponentScan 4、控制器注解 4.1 RestController 4.2 RequestMapping 4.3 PathVariable 4.4 Re…

主播风格的多样性

主播风格是主播在直播过程中表现出来的一种个性特点&#xff0c;它可以影响观众的感知和互动体验。以下是常见的几种主播风格: 1.时尚型:这种风格的主播通常穿着时尚、前卫&#xff0c;以潮流、新颖的形象出现在观众面前&#xff0c;善于捕捉时尚元素&#xff0c;并能够将其融…

JAVA销售数据决策管理系统源码

JAVA销售数据决策管理系统源码 基于BS&#xff08;Extjs Strus2springhibernate Mysql&#xff09;的销售数据的决策支持 主要的功能有 系统功能具体内容包括基础资料、进货管理、出货管理、库存管理、决策分析、系统管理。

基于书生·浦语大模型应用开发范式介绍

文章目录 大模型应用开发范式LangChain简介构建向量数据库搭建知识库助手RAG方案优化建议 大模型应用开发范式 通用大模型的优势&#xff1a; 强大的语言理解、指令跟随、语言生成的能力可以理解用户自然语言的指令具有强大的知识储备和一定的逻辑推理能力。 通用大模型局限…

springboot私人健身与教练预约管理系统源码和论文

随着信息技术和网络技术的飞速发展&#xff0c;人类已进入全新信息化时代&#xff0c;传统管理技术已无法高效&#xff0c;便捷地管理信息。为了迎合时代需求&#xff0c;优化管理效率&#xff0c;各种各样的管理系统应运而生&#xff0c;各行各业相继进入信息管理时代&#xf…

中国智造闪耀CES | 木牛科技在美国CES展亮相多领域毫米波雷达尖端方案

素有全球科技潮流“风向标”之称的2024国际消费类电子产品展&#xff08;CES&#xff09;&#xff0c;于1月9-12日在美国拉斯维加斯会议中心举办。CES是全球最大的消费电子和消费技术展览会之一&#xff0c;汇集了世界各地优秀的消费电子和科技公司&#xff0c;带着最好的产品来…

vue3中ref和reactive联系与区别以及如何选择

vue3中ref和reactive区别与联系 区别 1、ref既可定义基本数据类型&#xff0c;也可以定义引用数据类型&#xff0c;reactive只能定义应用数据类型 2、ref在js中取响应值需要使用 .value&#xff0c;而reactive则直接取用既可 3、ref定义的对象通过.value重新分配新对象时依旧…

Windows下上帝模式的实现

在windows系统上有个特殊模式&#xff0c;那就是上帝模式&#xff0c;几乎包含了windows中所有的快捷方式&#xff0c;有很多小伙伴还不知道&#xff0c;让我们一起来实现这一操作吧&#xff01; 一、首先新建一个文件夹 二、接着将文件夹重命名&#xff0c;命名为以下代码&am…

【OpenCV学习笔记07】- 【彩蛋】实现轨迹条控制画笔颜色和笔刷半径,并可以正常绘画

彩蛋 实现轨迹条控制画笔颜色和笔刷半径&#xff0c;并可以正常绘画。 直接上彩蛋代码 示例代码&#xff1a; # 彩蛋&#xff0c;创建一个可以调节颜色和笔刷半径的轨迹栏&#xff0c;并且可以通过鼠标进行绘画 import numpy as np import cv2 as cv# 定义全局变量 # 如果 …

Linux 文件(夹)权限查看

命令 : ls -al ls -al 是一个用于列出指定目录下所有文件和子目录的命令,包括隐藏文件和详细信息。其中,-a 选项表示显示所有文件,包括以 . 开头的隐藏文件,-l 选项表示以列表的形式显示文件的详细信息。 本例中:drwxrwxr-x 为权限细节。 权限细节(Permission detail…

高通rb5的fastboot设备识别不了及驱动安装问题

Android fastboot驱动无法安装和识别问题-CSDN博客 以上为转载出处。