李宏毅2022《机器学习/深度学习》——学习笔记(5)

news2024/12/26 21:01:46

文章目录

  • 优化方法
  • CNN
    • CNN和全连接神经网络的区别
    • 感受野
    • 共享参数
    • CNN和全连接神经网络的总结
    • Pooling
    • CNN流程
  • 自注意力机制
    • 自注意力机制解决的问题
    • 输入是一组向量的例子
    • 输入是一组向量时输出的可能
    • 自注意力机制核心思想
    • 自注意力机制具体细节
    • Self-attention和CNN的关系
  • 参考资料

优化方法

常用的优化方法
在这里插入图片描述

CNN

CNN和全连接神经网络的区别

全连接神经网络的每个神经元和每一个输入都有连接,这样会使训练参数数目很大。
在这里插入图片描述
考虑到图片分类的特性,实际上每一个神经网络只需要和部分输入连接就行。

由于人在识别图片中某个物体其实只是看图片中某些特征,比如看一只鸟,当看到了鸟喙、鸟的眼睛和鸟爪,就能判断这张图片代表的是一只鸟。因此一个神经元只看输入的某一块区域,当发现一些特征时,就可以判断这个物体的类别了。所以不需要每个神经元都去看一张完整的图片。
在这里插入图片描述

感受野

下面就可以做简化
在这里插入图片描述

本来一个神经元会看整个图片,也就是和3宽的输入相连,现在设置一个感受野,让神经元只和这一个感受野中的输入相连。具体来说,如上图所示,把这个感受野中的数据拉直,也就是333个输入,让它们和神经元相连,这样就有27个权重,再加上bias,计算结果送给下一个神经元。

在这里插入图片描述
感受野的设计完全由自己决定,不过要和实际情况和对问题的理解结合。

一种经典的设计方式
在这里插入图片描述

共享参数

同样的pattern可能出现在图片的不同区域
在这里插入图片描述
这些侦测鸟嘴的神经元所做的事情是一样的,只是它们守备的范围不同,那就没有必要每个侦测鸟嘴的地方都放一个神经元,这样可以减少参数。

这样就可以共享参数
在这里插入图片描述
这两个神经元的权重完全是一样的

在这里插入图片描述
一个典型的设计
每个神经元都只有一组参数

在这里插入图片描述

CNN和全连接神经网络的总结

全连接神经网络加上稀疏连接和权值共享就变成了CNN
在这里插入图片描述
在这里插入图片描述

Pooling

在这里插入图片描述

在这里插入图片描述

CNN流程

在这里插入图片描述

自注意力机制

自注意力机制解决的问题

目前我们遇到的问题,输入都是一个向量,输出是一个数值或类别。
但是可能遇到另一种问题,输入是一组长度不确定的向量,这种情况如何处理?
自注意力机制(Slef-attention)就是要解决这个问题。
在这里插入图片描述

输入是一组向量的例子

假如输入是一个句子,每个单词是一个向量,由于句子的长度不固定,所以这组向量的长度也不确定。
在这里插入图片描述

输入是一组向量时输出的可能

输入是一组N个向量时输出的可能有三种

  1. 输出是N个label
  2. 输出是一个label
  3. 输出是N‘个向量
    在这里插入图片描述

自注意力机制核心思想

Self-attention的输入是所有输入向量,输出相同数量的向量,每个向量都考虑了所有输入向量。再经过全连接网络输出。
这样每个全连接网络就不是只考虑一个小的范围,而是考虑了整个句子的信息。
在这里插入图片描述
Self-attention不是只能用一次,而是可以叠加。

在这里插入图片描述

自注意力机制具体细节

b 1 b^1 b1是考虑了 a 1 , a 2 , a 3 , a 4 a^1,a^2,a^3,a^4 a1,a2,a3,a4产生的,同理 b 2 , b 3 , b 4 b^2, b^3, b^4 b2,b3,b4也是。
在这里插入图片描述

b 1 b^1 b1为例,讨论 b 1 b^1 b1向量是如何产生的。
在这里插入图片描述
第一步,计算 a 1 a^1 a1与其他输入向量的相关性在这里插入图片描述
计算两个向量相关性的具体方式如下
在这里插入图片描述
计算 a 1 a^1 a1与其他向量的相关性后,再过一个Soft-max,输出就得到另一排向量。
在这里插入图片描述
a 1 a^1 a1乘上 W v W^v Wv得到新的向量 v 1 v^1 v1,再根据公式
b 1 = ∑ i a 1 , i ′ v i b^1=\sum_ia^{'}_{1,i}v^i b1=ia1,ivi
计算得到 b 1 b^1 b1
在这里插入图片描述

Self-attention和CNN的关系

CNN可以看成是简化版的Self-attention
Self-attention是一个复杂化的CNN
Self-attention中CNN的感受野是自己学出来的
在这里插入图片描述

CNN是Self-attention的特例
在这里插入图片描述

参考资料

(强推)李宏毅2021/2022春机器学习课程
p26-p39

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/66055.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

网络安全之从原理看懂XSS

01、XSS的原理和分类 跨站脚本攻击XSS(Cross Site Scripting),为了不和层叠样式表(Cascading Style Sheets,CSS)的缩写混淆 故将跨站脚本攻击缩写为XSS,恶意攻击者往Web页面里插入恶意Script代码,当用户浏览该页面时&#xff0c…

七周成为数据分析师 | 业务

为什么业务重要? 唯有理解业务,才能建立业务数据模型 一.经典业务分析指标 模型未动,指标先行 如果你不能衡量它,你就无法增长它 指标建立的要点 ①核心指标 ②好的指标应该是比率 ③好的指标应该能带来显著效果 ④好的指…

民办二本程序员阿里、百度、平安等五厂面经,5 份 offer(含真题)

昨天小休,一位高中同学联系了我,说是要请我吃饭,有这种好事,我当然是毫不犹豫的答应了啦! 等等...会不会是找我借钱的? 好慌,怎么办?已经答应过去了。 在后面的交谈中,…

Word控件Spire.Doc 【图像形状】教程(12) 如何在C#中旋转word文档上的形状

Spire.Doc for .NET是一款专门对 Word 文档进行操作的 .NET 类库。在于帮助开发人员无需安装 Microsoft Word情况下,轻松快捷高效地创建、编辑、转换和打印 Microsoft Word 文档。拥有近10年专业开发经验Spire系列办公文档开发工具,专注于创建、编辑、转…

【C语言程序设计】实验 3

目录 1. 水仙花数 2. 五位回文数 3. 输入x,计算y 4. 百分制改为等级制 5. 同构数 6. 月份天数 7. 加一天后日期(条件) 8. 计算服装款(条件) 1. 水仙花数 【问题描述】输入一个3位正整数,判断该…

数据可视化之基础图表

一 前言 数据图表则是用来表现数据的一类图表,用来帮助用户理解数据。在这类图表中,以三大类图表最为常用 —— 柱状图(条形图)、折线图、饼图。据非官方统计,数据图表使用率占所有图表的类型的62%。所以,…

Docker之MySQL_GROUP_REPLICATION组复制(MGR)、宕机节点恢复和Spirngboot整合

三台服务器修改hosts文件 vim /etc/hosts追加内容 192.168.1.11 node1 192.168.1.12 node2 192.168.1.13 node3修改hostname vim /etc/hostname重启网络使配置文件生效 systemctl restart network三台服务器拉取MySQL镜像 docker pull mysql:8.0.23创建配置文件夹 …

PDF文档转TXT怎么转?你不知道的几种方法

PDF文档转TXT怎么转?我们经常需要处理PDF文件,根据不同的要求,我们经常需要将PDF文件进行转换,虽然PDF文件相对于其他大多数文件来说体积已经很小了,但是TXT文件会比PDF文件体积更小一些,这样我们不仅可以节…

Python工程师Java之路(w)数据库连接池Druid

概述 初阶数据库访问的步骤是【创建连接>执行SQL>关闭连接】,有如下不足: 1、创建数据库连接会浪费时间 2、大量访问时,频繁 GC 会导致CPU负载过高 3、如果改为不关闭连接,则会长期占用内存对此,引入“缓冲池”…

物联网各类数据如何轻松获取?秘诀就在定制文件推送服务

当前,数字经济已成为我国经济发展的重要驱动力。随着物联网的蓬勃发展,海量数据伴随着终端联网在各行各业涌现,越来越多的企业已然察觉隐藏在数字中的金矿,加入到数字化转型行列中,通过数据挖掘实现精细化运营&#xf…

高蛋白过敏我们该如何缓解?教你几招远离过敏吃喝无忌

许多朋友回应说,吃海鲜.牛肉、羊肉等高蛋白食物会发生过敏反应,要么脸红肿,要么长痘痘。看着他们贪婪的食物,他们只能避免吃真的很痛苦。为什么现在人们的生活条件越来越好,生活环境也显著改善,但过敏性疾病…

USB插座外壳接地的处理和emi,esd考虑

外壳是否接地,从理想电路环境(没有干扰,也不释放干扰)和电路原理来说,接和不接没有任何差异,也不会影响正常功能。 但是实际的电子产品的工作环境,是一个处于被各种干扰包围的复杂的电磁场环境&…

[附源码]JAVA毕业设计人才库构建研究(系统+LW)

[附源码]JAVA毕业设计人才库构建研究(系统LW) 项目运行 环境项配置: Jdk1.8 Tomcat8.5 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术&a…

使用icacls命令设置目录及其子目录、文件的所有权限

以前一直使用cacls命令来设置权限,前两天输入这个命令的时候,却发现了一行提示: “注意: 不推荐使用 Cacls,请使用 Icacls。” 如图: 于是研究了一下 Icacls 这个命令。。 先放上微软官方文档: https:/…

单场直播销售额破7亿,11月的抖音带货风向是什么?

双11走过14年,今年的双11有些特别。我们发现,各个平台在交易额战报的发布上都变得更加保守,而无论是天猫还是京东,均首次未公布具体的交易额。在消费市场出现波动的当下,双11正在经历转变,从重视成交额&…

基于遗传算法的二进制图像重建(Matlab代码实现)

目录 💥1 概述 📚2 运行结果 🎉3 参考文献 💥1 概述 图像分辨率是评价图像成像系统的---项重要技术指标.图像分辨率又分为图像的空间分辨率、灰度分辨率和频谱分辨率等.在实际应用中,受到各种因素的限制,通过现有条件要达到所需…

JDK19都出来了~是时候梳理清楚JDK的各个版本的特性了【JDK9特性讲解】

JDK各个版本特性讲解-JDK9特性 lecture:波哥 一、JDK版本特性 JAVA8 及之前,版本都是特性驱动的版本更新,就是有重大的特性产生,然后进行更新 JAVA9开始,JDK开始以时间为驱动进行更新,以半年为周期,到时即更新,三年出一个长期支持版,其他都是短暂的版本 目前的长期支…

非常好用的C# .Net开源高性能跨平台内网穿透工具FastTunnel 香橙派orangepi

特别适合在家里做个web或者文件服务器之类,还可以用在树莓派,香橙派搭建个服务器,很好用 FastTunnel是什么? FastTunnel是一款高性能跨平台内网穿透工具,使用它可以实现将内网服务暴露到公网供自己或任何人访问。与其…

【linux】进程的概念与控制

目录 冯诺依曼体系结构 操作系统(Operator System) 进程 基本概念 组织进程 查看进程 进程状态 僵尸进程危害 环境变量 程序地址空间 挂起 进程创建 写时拷贝 进程终止 _exit函数 exit函数 参数: 冯诺依曼体系结构 我们常见的计算机,如…

分享10大自动化测试框架,你用过几个?

软件行业正迈向自主、快速、高效的未来。为了跟上这个高速前进的生态系统的步伐,必须加快应用程序的交付时间,但不能以牺牲质量为代价。快速实现质量是必要的,因此质量保证得到了很多关注。为了满足卓越的质量和更快的上市时间的需求&#xf…