翻译: 梯度下降深度学习神经网络如何学习一

news2026/2/16 8:43:12

在这里插入图片描述

在上一节影片里我讲解了神经网络的结构首先我们来快速回顾一下在本节影片里，我们有两个目标首介绍梯度下降的概念它不仅是神经网络工作的基础也是很多其他机器学习方法的基础然后我们会研究一下这个特别的网络是如何工作的以及这些隐藏的神经元层究竟在寻找什么作为覆习这里我们引用一个经典的例子——手写数字识别神经网络领域的“Hello World” 这些数字书写在28乘28像素的网格上每个网格对应一个0到1之间的灰度值。
在这里插入图片描述

这些灰度值决定了神经网络输入层的784个神经元的激活(782=28*28) 随后每一层的各个神经元的激活值都基于前一层的加权和与一个被叫做偏差的常数相加来获得然后你把它和一些其他函数相加
在这里插入图片描述

比如sigmoid 或者我上节视频提到的ReLu 总之我们随意给出两个具有16个神经元的层
在这里插入图片描述

每一个神经网络有 13000个可以调整的权重值和偏差正是这些值决定了这个神经网络如何工作那么“这个网络可以将给定数字分类”是什么意思呢
在这里插入图片描述

即最后一层10个数字中被点亮的那个数字就是输入的数字请记住，我们使用这个分层的结构，目的是或许，第二层可以辨别出数字中的特征线段第三层或许可以辨别出组成数字的圈和线而最后一层可以把所有特征结合在一起从而辨别出这个输入的数字
在这里插入图片描述

因此，在这里我们将学习神经网络是如何学习的我们想要的是一种可以向这个神经网络展示大量训练数据的算法这里所说的大量训练数据是指很多手写数字的图像以及标明了这个图像上的数字到底是几的标签
在这里插入图片描述

它能够通过这些训练数据来调整13000个权重值和偏差以达到改善神经网络表现的目的我们所期望的是这个分层的结构可以学习超出训练数据范围的图像的识别我们测试的方法是当你完成对这个网络的训练后当你向它展示它从未见过的图像时观察它判断的精确度
在这里插入图片描述

幸运的是通常我们可以用来自MNIST base的数据来开始训练 MNIST base的好人们收集了数以万计带有标签的手写数字图像当你一但真正了解它的工作原理，你会发现向机器解释学习的过程非常有挑战的一件事
在这里插入图片描述

它并不像一些疯狂的科幻反倒是更像微积分练习也就是说基本上是找到某一个特定函数的最小值请记住，

在这里插入图片描述
从概念上讲，我们认为每一个神经元都与前一层的所有神经元相连加权求和计算中的加权值在定义中像是一种神经元间连接强度的参考值而偏差值则代表了某个神经元是倾向于激活还是不激活并关闭如果我们将所有的权重值和偏差值初始化为随机数

在这里插入图片描述

毫无疑问，这个神经网络会表现地一塌糊涂用一个例子来说明当你输入一个3的图像
输出层看起来一片混乱所以，你要做的是，定义一个成本函数来告诉电脑，不！你是错的！正确的输出应该是，多数神经元激活值为0 但是对于这个神经元来说，你给我的是垃圾用数学语言来描述，就是你需要把每个【垃圾输出】与【你想要的正确输出】的【差的平方】相加这就是在单个训练例子中的成本
在这里插入图片描述