台大应用深度学习笔记

news2024/11/16 7:29:58

deep learning

  1. end-to-end training
    在这里插入图片描述

在这里插入图片描述

1. 神经元

在这里插入图片描述

1.1 为什么需要bias?

为了给对应位置一个prior,给它一个初始值,b越大, σ ( z ) = 1 1 + e − z \sigma(z) = \frac{1}{1+e^{-z}} σ(z)=1+ez1越大,越趋向于1.

在这里插入图片描述

多层神经网络:

在这里插入图片描述
神经网络输入输出关系
在这里插入图片描述

3. 激活函数

在这里插入图片描述

3.1 为啥要非线性激活函数?

在这里插入图片描述

4. 模型评估: Loss Function

在这里插入图片描述

在这里插入图片描述
cross entropy 的结果越低越好
对于分类问题来说,预测的输出可以看作是一个概率分布,真实的label 也是一个概率分布,计算这两者之间的cross entroy, 差异越大的话,代表模型越差

4. 优化:

4.1 梯度下降

在这里插入图片描述
在这里插入图片描述
θ \theta θ 就是模型中所有参数变量集合
梯度下降的问题
看完训练集中的所有数据集,再去更新梯度,训练速度会很慢
在这里插入图片描述

4.2 随机梯度下降(SGD)

所以 为了提升训练速度, 提出 随机梯度下降
每看一个样本,都更新一次梯度

假设每个样本随机抽取的概率是一样的,服从均匀分布。

在这里插入图片描述
在这里插入图片描述

4.3 mini-batch SGD

每次挑选 batch_size个样本去更新梯度。
在这里插入图片描述
在这里插入图片描述

mini-batch SGD 训练的时候 的tips:

  1. 每一个epoch之间 shuffle一下 训练样本
  2. 每个epoch 都有相同的 batch_size
  3. 调整batch_size时 learning rate 也应做适量调整
    (batch_size 变大时,每个epoch梯度更新的次数下降,那么也需要相应较大的learning rate。 有论文提到 K 倍的 batch_size, learning rate 应变成 K \sqrt K K 倍数)

4.4 三者的比较

在这里插入图片描述

为什么mini-batch SGD 比SGD 训练更快
在这里插入图片描述
因为两次的matric-vector 的计算 比 一次 matric-matrix计算 耗时更长。

4.5 back propagation 反向传播

反向传播是为了用来快速计算梯度

在这里插入图片描述
举个例子:
在这里插入图片描述

第一部分:

在这里插入图片描述
在这里插入图片描述
对于第一层来说,是这样:

在这里插入图片描述

第二部分

在这里插入图片描述

在这里插入图片描述
也就是
在这里插入图片描述

在这里插入图片描述

总结起来

总结起来::

在这里插入图片描述
一次前向传播计算和一次后向传播计算,就可以把网络中的需要更新的参数都记录下来,提升速度

5 模型训练的tips

5.1 在训练集无法得到好的结果

  1. 陷入局部最优、 训练策略需要调整,调整learning_rate, 或者初始值
  2. 模型不好:重新构建模型结构
    在这里插入图片描述

5.2 在训练集结果很好,但在validate集的结果不好

可能原因: overfitting了 过拟合了

在这里插入图片描述
解决方法:

  1. 增加训练数据
  2. dropout

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/134337.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

安装Windows和Ubuntu双系统

制作Ubuntu安装盘在Windows上查看磁盘格式 不同的磁盘格式,需要跟BIOS里面不同的引导模式配合来启动操作系统,如下图: 我的电脑是GPT格式: 准备好给Ubuntu的磁盘空间 在Windows系统中,在一个200G的清空数据的磁盘上…

【Flask-Web】基于layui前端模板搭建简易管理系统

1. JavaScript 1.1. 函数 var cars ["Saab", "Volvo", "BMW"]; var txt "string"; var b2new Boolean(1); var x Math.PI; // 返回PI var y Math.sqrt(16); // 返回16的平方根 var num new Number(value); try {adddlert("…

aws eks 理解和使用terrafrom创建eks集群(离线安装provider和module)

参考 使用 Terraform 在 AWS 中国区域实现自动化部署指南系列1使用 Terraform 在 AWS 中国区域实现自动化部署指南系列2https://lonegunmanb.github.io/introduction-terraform/加速 Terraform init terraform 相关概念 terraform是对标aws cloud formation的iac工具&#x…

Redis集群系列十一 —— 故障转移一

故障发现 Redis 集群内节点通过 ping/pong 消息实现节点通信,消息不但可以传播节点槽信息,还可以传播其他状态。当集群中某个节点出现问题时,需要识别出节点是否发生了故障,因此故障发现是通过Gossip 协议来广播自己的状态以及自…

日志系统:WAL和二阶段提交

1. 前言 一条更新语句在执行过程中不仅仅要操作不仅仅是通过数据库的组件(分析器、优化器、执行器、存储引擎等)操作表数据还涉及以下内容: 要操作日志系统的redo log、binlog和undo log, 更新操作也不是实时更新到磁盘的而是通过3.Write-A…

DDR3 数据传输 (五)

目录 引言 设计说明 参数说明 设计简图 IP配置说明 写FIFO IP

在linux上使用CMake构建和安装gtest

在linux上使用CMake构建和安装gtest一、准备工作二、构建并安装gtest的静态库三、构建并安装gtest的共享库一、准备工作 本机环境: 系统版本:RHEL 7.6GCC/G版本: 12.1.1googletest版本:1.12.1 注意,gtest的1.12.x分…

基于准则匹配的图像对准

一、概述 在图像处理相关的问题中,图像对准是一类典型的问题,也就是要将两幅图严丝合缝地对应起来。通常来讲,两幅图大小不一,一个是模板,一个是母图,也就是要在母图中搜寻定位到与模板图最为接近的区域。 …

QML教程(七) JavaScript

目录 一、对属性值使用 JavaScript 表达式 二、在 QML 中添加 JavaScript 函数 三、使用 JavaScript 文件 四、属性绑定中的 JavaScript 五、信号处理程序中的 JavaScript 六、将信号连接到 JavaScript 函数 七、启动执行 JavaScript QML 提供的 JavaScript 主机环境可以…

算法学习-并查集(持续更新中)

本文参考: 最容易理解的并查集详解 详解:并查集(Union-Find) 「代码随想录」684. 冗余连接:【并查集基础题目】详解! 并查集从入门到出门 并查集常常在做图相关的题目时冒出来,但是笔者经常去回避这样的解法…

Exynos_4412——轮询与中断

目录 一、CPU与硬件的交互方式 1.1轮询 1.2中断 1.3DMA 二、轮询方式的按键实验 三、GPIO中断相关寄存器 四、GPIO中断编程 五、小作业 一、CPU与硬件的交互方式 1.1轮询 CPU执行程序时不断地询问硬件是否需要其服务,若需要则给予其服务,若不需…

Android Jetpack Compose——一个简单的微信界面

一个简单的微信界面简述效果视频底部导航栏导航元素导航栏放入插槽绘制地图消息列表效果图实现聊天效果图实现气泡背景联系人界面效果图实现好友详情效果图实现发现效果图实现未读红点未读条数朋友圈效果图实现上拉加载个人设置效果图实现个人信息功能区钱包效果图实现切换主题…

【Vue】项目搭建规范

1. 集成editorconfig配置 EditorConfig 有助于为不同 IDE 编辑器上处理同一项目的多个开发人员维护一致的编码风格。 VSCode需要安装一个插件:EditorConfig for VS Code 创建 .editorconfig 文件: # http://editorconfig.orgroot true[*] # 表示所有文…

js Proxy 的使用

文章目录一、什么是Proxy二、语法三、Proxy 方法1、get() 方法2、set() 方法3、apply() 方法4、has() 方法5、construct() 方法6、deleteProperty() 方法一、什么是Proxy Proxy 可以理解成,在目标对象之前架设一层“拦截”,外界对该对象的访问&#xff…

[Vulnhub] DC-2

Vlunhub下DC系列靶机第二台,难度与DC-1 差不多,为简单。共有五个Flag 下载地址:Vulnhub:DC-2 目录 信息搜集 cewl爬行网站字典&hydra爆破wordpress用户密码 -rbash逃逸 git提权 信息搜集 nmap -sP 192.168.236.0/24 扫描一下靶机i…

c++语法欠缺地方(持续更新)

sizeof是用来计算变量占多大内存的,单位是字节(byte);sizeof 后面跟类型时,必须加上括号,例如sizeof(double);后面跟变量可以不用加括号,例如:sizeof d %d是以十进制形式输出有符号…

hadoop之kerberos权限配置(ranger基础上)(三)

文章目录一、kerberos服务端二、kerberos客户端三、hadoop集群安装HTTPS服务四、kerberos整合zk五、kerberos整合ranger六、kerberos整合hdfs七、kerberos整合yarn八、kerberos整合hive九、kerberos整合hbase十、遇到的问题一、kerberos服务端 上传kerberos安装包到/opt/rpm 安…

数据库,计算机网络、操作系统刷题笔记22

数据库,计算机网络、操作系统刷题笔记22 2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开 测开的话,你就得学数据库,sql,oracle…

最值得推荐的3个免费PDF 转换器

当您需要将 PDF 转换为另一种格式(如 Microsoft Word、图像(如 JPG)、Excel、电子书、PowerPoint 等,反之亦然)时,最好的 PDF 转换器非常重要。 但是找到一个可靠的 PDF 转换软件来使用是具有挑战性的。因…

JAVA设计模式--行为型模式--策略模式

1.策略模式(Strategy Pattern) 1.1介绍 一个类的行为或其算法可以在运行时更改。这种类型的设计模式属于行为型模式。 在策略模式中,我们创建表示各种策略的对象和一个行为随着策略对象改变而改变的 context 对象。策略对象改变 context 对…