目录
-
-
- 优化和深度学习
- 深度学习中的挑战
- 局部最小 vs 全局最小
- 鞍点(saddle point)
- 梯度消失
- 小结
- 凸性(convexity)
- 凸集
- 凸函数(convex function)
- 凸函数优化
- 凸和非凸例子
- 小结
- 梯度下降(gradient descent)
-
- 1、梯度下降算法是最简单的迭代求解算法
- 2、学习率(learning rate)
- 小结
- 随机梯度下降(stochastic gradient descent)
- 小结
- 小批量随机梯度下降(minibatch gradient descent)
- 小结
- 冲量法(momentum)
- 小结
- Adam
- 总结
- 总结
-
- 对于深度学习问题,通常会先定义损失函数,在有了损失函数之后,就可以使用优化算法来尝试最小化损失
- 在优化中,损失函数通常被称为优化问题的目标函数
- 大多数优化算法都关注的是最小化,如果需要最大化目标,只需要在目标函数前加负号就可以了
优化和深度学习
-
尽管优化提供了一种最大限度减少深度学习损失函数的方法,但本质上优化和深度学习的目标是根本不同的
- 优化主要关注的是最小化目标
- 深度学习关注的是在给定有限数据量的情况下寻找合适的模型
-
具体的区别例如训练误差和泛化误差
- 优化算法的目标函数通常是基于训练数据集的损失函数,因此优化的目标是减少训练误差
- 深度学习的目标是减少泛化误差,为了达到减小泛化误差的目的,除了使用优化算法来减少训练误差外,还需要注意过拟合
-
经验风险和风险
- **经验风险:**训练数据集的平均损失
- **风险:**整个数据群的预期损失
- 练数据集的最低经验风险可能和最低风险(泛化误差)不同
-
优化问题的一般形式:
- 在深度学习中,f(x) 是损失函数(给定一个输入,预测和真实标号之间的差距);x 是所有的超参数,不管矩