学习率衰减、局部最优、Batch归一化、Softmax回归

news2026/2/16 12:23:21

1.学习率衰减(Learning rate decay)

在训练初期，梯度下降的步伐大一点，开始收敛的时候，小一些的学习率能让步伐小一些。

1 epoch = 遍历一遍训练集

学习率衰减公式： $\text{[math]}$

例：假设衰减率decayrate = 1， $\text{[math]}$ =0.2

epochNum	α
1	0.1
2	0.067
3	0.05
4	0.04

其它学习率衰减公式：α=0. $\text{[math]}$ (指数衰减)。。。等等

2. 局部最优(local optima)的问题

梯度下降的时候可能会困在一个局部最优中，而不会抵达全局最优。

3.Batch归一化(Batch Normalization)

我们知道，训练一个模型，比如logistic回归，归一化输入特征可加速学习过程。

对于更深一点的模型，也可以归一化隐藏层的输出，比如归一化 $\text{[math]}$ ( $\text{[math]}$ 代入激活函数就是 $\text{[math]}$ )，以便更有效率地训练 $\text{[math]}$ , $\text{[math]}$ 。

4.Softmax回归(Softmax regression)

不同于logistic回归，解决的是二分类问题，Softmax回归能解决多分类问题，即识别多种分类中的一个。

假设要区分3个类别(A,B,C)，那么神经网络的输出层要有4个神经单元(分别输出"A,B,C,其它"这四类的识别概率)。

最后一层layer L的神经元执行操作如下:

$\text{[math]}$ ， $\text{[math]}$ ， $\text{[math]}$ ， $\text{[math]}$ 是上一层的输出。

举例:

训练一个Softmax分类器：

正向传播：从输入层到输出层，依次计算并存储模型的参数。

反向传播：从输出层到输入层，依次计算参数的梯度，来更新参数。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/177238.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

学习率衰减、局部最优、Batch归一化、Softmax回归

1.学习率衰减(Learning rate decay)

2. 局部最优(local optima)的问题

3.Batch归一化(Batch Normalization)

4.Softmax回归(Softmax regression)

相关文章

蓝桥杯-刷题-补基础

小喵2022年的年度总结，啊滴妈呀，开了眼了。

Qt扫盲- QUdpSocket 类理论总结

SpringBoot+Vue--token,vue导航守卫,axios拦截器-笔记3

【华为上机真题 2023】事件推送

机制设计原理与应用(四)预算可行的拍卖机制

如何与他人交流-第5期

信息论复习—连续信源、信道及容量

李宏毅ML-卷积神经网络CNN

Hyperbolic geometry (双曲几何简介)

树和森林（快来瞧）

现场工程师出手-PCAPHub与云SSH隧道稳妥实现异地LAN工业联测

S7-1200PLC与ABB机器人进行PROFINET通信的具体方法和步骤详解

【JavaWeb】JavaScript基础语法(上)

ESP32设备驱动-TSL2561亮度传感器驱动

【头歌】单链表的基本操作

Linux常用命令——speedtest-cli命令

YOLOV3 Pytorch版本代码解读

数据库工具类的编写

基于Echarts构建大数据招聘岗位数据可视化大屏