神经网络漫谈(一):科普篇

news2025/1/12 18:16:51
神经网络漫谈(一):科普篇
发表时间2023年1月6日创作地点湖北省武汉市作者:ixy_com&[Bill Kromydas]

神经网络架构

封面图片来源:Towards Data Science

1、背景

基本概念:神经网络,也称为人工神经网络 (ANN) 或模拟神经网络 (SNN),是机器学习的子集,并且是深度学习算法的核心。其名称和结构是受人类大脑的启发,模仿了生物神经元信号相互传递的方式。

人工神经网络 (ANN) 由节点层组成,包含一个输入层、一个或多个隐藏层和一个输出层。 每个节点也称为一个人工神经元,它们连接到另一个节点,具有相关的权重和阈值。 如果任何单个节点的输出高于指定的阈值,那么该节点将被激活,并将数据发送到网络的下一层。 否则,不会将数据传递到网络的下一层。

​ ---- IBM中国


内容说明:在这篇文章中,我将简要介绍训练神经网络所需的基本组件和概念,仅用于组内科普之用,不涉及相关复杂的数学概念。其中,以图像分类任务(如图1所示)为例展开相关内容的介绍。本文基本目标为:说明如何利用带标记数据进行建模、如何利用损失函数来对模型输入与预测输出之间的误差进行量化、如何利用梯度下降优化方法对网络权重进行更新。全文内容包含以下部分:

图像分类示意图

图 1-1 图像分类示意图

内容目录:

  • 带有标记的训练数据(Train Data)和独热编码(One-Hot Encoding)
  • 损失函数(Loss Function)
  • 梯度下降(Gradient Descent)
  • 权重更新(Weight Update)
  • 权重更新示例(Sample)
  • 完整的训练过程(Training)
  • 模型推理(Model Inference)

2、正文

2.1 带标记的训练数据和独热编码

作为有监督机器学习的典型任务之一,图像分类任务的训练数据是带有标签(Labeled,或称为标记)的输入数据。具体地,带标记的训练数据(Labeled Training Data)由目标图像(Target Images)及其相应的真实标记(Ground Truth)组成。以进行三种图像类别分类的神经网络为例,训练数据的标签可能是cats、Dogs、others。为了实现分类任务,我们需要构建包含有上述所有三个类别的训练样本(Samples),且常规的样本容量可能至少是几千张图像。

然而,在利用神经网络处理数据集之前,训练样本的标签须具有数值形式的编码表示。如下表所示,该种类型的标签编码称为整数编码

表2-1 整数编码
LabelDescription
0cats
1Dogs
2others

但很明显,这种编码方式会引入标签之间的数值大小关系;因此,一种常用的编码技术为独热编码。在本示例中,我们有三个不同的类别,因此可以使用长度为3的向量分别对相应的标签进行编码表示,如下表所示:

表2-2独热编码
catsDogsOthers
100
010
001

以下图以单个样本为例,其由输入图像和与其对应的类别标签组成。对于每个输入到模型的训练样本,网络模型将预测得到一个预测结果,该预测结果由三个数组组成,用于代表输入图像属于特定类别的概率(或称为置信度)。其中,概率最高的输出便决定了模型对输入图像的标签预测。如图所示,模型预测结果中最大值为0.5,则对应于表2所示的独热编码,即可得知,模型错误地将输入图像分类为狗。

图像分类过程示意

图2-2图像分类过程示意

2.2 损失函数

如上图1所示,模型在图像分类过程中出现了误判,那如何对模型分类准确与否进行量化评估?一种直接的思路是对模型预测结果(Predicted)和真实标签(Ground Truth)之间的误差进行量化,并经该量化过程用以数据公式进行表征,即得到损失函数。暂不对分类和回归任务做本质上的区分,为了更好的说明“误差量化”过程,这里采用误差平方和(Sum of the Squared Errors, SSE)进行说明。在本案例中,SSE计算如下:
S S E = ( 1 − 0.37 ) 2 + ( 0.0.50 ) 2 + ( 0 − 0.13 ) 2 = 0.6638 (式1) SSE=(1-0.37)^2+(0.0.50)^2+(0-0.13)^2=0.6638\tag{式1} SSE=(10.37)2+(0.0.50)2+(00.13)2=0.6638(1)
在实际的模型训练过程中,对于模型的分类误差通常结合样本容量(即所有样本的条数)进行训练,其目的是计算得到模型在所有样本上的平均误差。因此在(式1)的基础上,通常采用均方误差(mean-square error, MSE)来计算损失。其计算过程如下:
M S E = 1 N ∑ i = 1 N ( y i − ( y i ) ^ ) 2 (式2) MSE=\frac{1}{N}\sum_{i=1}^{N}(y_i-\hat{(y_i)})^2\tag{式2} MSE=N1i=1N(yi(yi)^)2(2)

2.3 梯度下降

如(式2)所示,其对应的函数图像为一个下凸函数。因此,结合函数极值的概念,我们需要求得当函数值最小时对应的模型权重,常用的方式为求导。对于光滑的函数,其满足极值点导函数为零。幸运的是,在机器学习理论中,常用于调整模型权重的方式于此原理契合,但正式的叫法为梯度下降。如下图所示:

梯度下降

图2-3 梯度下降示意

如图,纵轴为损失函数 L o s s Loss Loss的值,图中函数图像为下凸形状,简称为凸函数(注意区分高数中的凹函数定义,这里是学科定义差异)。我们知道,梯度方向是函数变化(增大)最快方向,则结合上图,为了求得 L O S S LOSS LOSS最小时对应的权重 W W W,需要调整调整权重至函数最低点,此时函数 L O S S LOSS LOSS的变化方向为负梯度方向,如下图所示:

负梯度方向示意

图2-4 负梯度方向示意

如图,该点的斜率计算过程为函数在 Y Y Y轴的变化除以 X X X轴自变量的变化。则,为了得到更优胜的权重值 W e 2 W_{e2} We2,我们需要将权重的取值沿 X X X轴的正向移动,对应于函数图像的梯度方向。如下图所示:

权重更新示意

图2-5 权重更新示意

在实践中,我们需要设置一个超参数用于控制权重 W W W的运动幅度,该超参数称为学习率(Learning rate, LR),且取值通常小于1。

2.4 权重更新示例

为了更具体地说明上一节中的权重更新过程,这里用一个计算示例进行说明。假设当前权重 W e 1 W_{e1} We1取值为0.38,学习率为0.01,损失函数 L O S S LOSS LOSS在点 W e 1 W_{e1} We1处的斜率为-0.55。则使用上图所示的计算过程,我们计算得到权重值 W e 2 W_{e2} We2为0.3855。具体如下图所示:

权重更新示例

图2-6 权重更新示例

2.5 完整的训练过程

到此为止,我们已经以具体的一个样本为例,实现了一次模型训练。其中,模型训练过程是涉及到模型参数学习与模型超参数调整的过程。结合本示例,模型权重的更新过程为模型的参数学习过程,模型学习率的调整为模型的超参数调整过程,而后者取决于人工经验,更准确来讲,其不包含于模型训练过程。更具体地,完整的神经网络训练过程如下图所示:

训练过程示意

图2-7 训练过程示意

2.6 模型推理

如上述小节所述,模型在完整的训练过程中对关键参数不断地学习更新,从而缩小预测结果与真实结果之间的误差。通常评估该误差的方式为绘制学习曲线(Learning Curve),如下图所示。具体地,如果我们现在训练得到一个分类性能优异的图像分类模型,我们就可以使用该模型对未知的图像进行分类,则使用该模型进行未知图像分类的过程,我们称之为推理(Inference)。该推理过程,不需要任何的带标记数据,且模型在该未知数据上的分类能力,我们称之为泛化能力(Generalization ability)。

loss曲线
acc曲线

图2-8 学习曲线

模型推理

图2-9 模型推理

3、全文总结(Conclusion)

至此,本次数字智能部的科普交流到此结束。此时,我们基本了解了神经网络的学习过程以及模型构建所需的基本组件。但我们尚尚未涉及到代码实战部门。后续内容,将持续更新到神经网络漫谈的专栏。回归本文,相关内容总结如下:

  • 对于图像分类等有监督的学习任务,我们需要使用充足的带标记数据以训练模型。
  • 一般情况下,对于分类任务的数据,我们可以使用one-hot对类别标签进行编码。
  • 对于模型预测误差的量化,我们使用到的概念为损失函数。
  • 对于损失函数的计算,一种更为便捷的方式是使用深度学习框架,如Pytorch、Tensorflow以及PaddlePaddle等。
  • 神经网络模型权重更新的过程通常基于梯度下降优化算法。
  • 在一个epoch的训练过程中,iterations数量等于训练样本数除以batch_size。
    于损失函数的计算,一种更为便捷的方式是使用深度学习框架,如Pytorch、Tensorflow以及PaddlePaddle等。
  • 神经网络模型权重更新的过程通常基于梯度下降优化算法。
  • 在一个epoch的训练过程中,iterations数量等于训练样本数除以batch_size。
  • 在实践中,我们不能仅追求模型训练误差的最小,还需要结合模型验证误差以及泛化性能来评估模型能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/145839.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Ubuntu22.04安装Docker以及Docker安装微信、企业微信、Docker常用命令

Ubuntu22.04安装Docker以及Docker安装微信、企业微信、Docker常用命令1 Docker引擎官网安装1.1 访问Docker官网下载社区版引擎并按照官网指导进行初步安装1.2 检查安装是否成功1.3 添加当前用户到docker组,不用每次都输入sudo。2 Docker安装微信2.1 拉取微信镜像2.2…

CSS基础(八)——CSS3新增样式

概述 前面7篇博客记录的所有 CSS 知识,都是 CSS2 版本的功能。 CSS3 在 CSS2 版本的基础上,新增了很多特性,例如边框圆角、动画效果。 在 CSS2 的时代,实现圆角必须要用图片才能实现,而 CSS3 只要一行样式就能实现…

SpringBoot+MySQL(官方案例)

在线文档项目结构 1.源码克隆:git clone https://github.com/spring-guides/gs-accessing-data-mysql.git 2.包含两个项目initial和complete,initial可以根据文档练习完善,complete是完整项目 3.功能描述:构建应用程序&#xff0c…

【jQuery】jQuery基础概念

一、JavaScript库1.仓库可以把很多东西放到这个仓库里面。找东西只需要到仓库里面查找到就可以了。2. JavaScript库即 library,是一个封装好的特定的集合(方法和函数)。从封装一大堆函数的角度理解库,就是在这个库中,封装了很多预…

信息技术 安全技术 密钥管理

声明 本文是学习github5.com 网站的报告而整理的学习笔记,分享出来希望更多人受益,如果存在侵权请及时联系我们 前 言 GB/T 17901《信息技术 安全技术 密钥管理》分为六个部分: ——第1部分:框架; ——第2部分:使用对称技术的…

Odoo 16 企业版手册 - 库存管理之库位管理

库存位置 配置和管理Odoo 库存模块中可用位置的平台将帮助您定义仓库中存放产品的地方。在单个仓库中,您可以管理库存的多个位置。从库存模块的「设置」菜单中,您可以激活存储位置功能,如下所示,该功能将帮助您跟踪仓库中的产品位…

为什么使用消息中间件

为什么要使用消息中间件 如有一个电商交易的场景,用户下单之后调用库存系统减库存,然后调用物流系统进行发货,如果刚开始交易,库存,物流都是属于一个系统,那么他们之间就是接口调用。但是随着系统的发展&a…

FRP 内网穿透搭建(无域名)

一、为什么要内网穿透 FRP 可用于内网穿透的高性能的反向代理应用,支持 tcp, udp, http, https 协议。 使用场景:公网服务器监听某个端口等待内网服务器连接,内网服务器连接成功后,用户访问公网的某一个端口,访问的所…

Domino Web应用早就想到了环保

大家好,才是真的好。 前几周我们讲了Notes,上周讲了点管理,这周我们可以讲点开发。 我现在要讲的技术真的很古老,但现在却被越来越多的人提倡。 传统的Notes应用可以很简单地通过浏览器访问,以一个非常简单但又很使…

ESP32设备驱动-MCP9808数字温度传感器驱动

MCP9808数字温度传感器驱动 文章目录 MCP9808数字温度传感器驱动1、MCP9808介绍2、硬件准备3、软件准备4、驱动实现1、MCP9808介绍 MCP9808 数字温度传感器将 -20C 和 +100C 之间的温度转换为精度为 0.5C(最大值)的数字字。 MCP9808 带有用户可编程寄存器,可为温度传感应用…

联力L216装机心得

联力L216装机心得 2022年12月份装机笔记 参考视频 B站硬件茶谈装机:https://www.bilibili.com/video/BV1BG4y137mG/?spm_id_from333.337.search-card.all.click&vd_source8f7bdd23b317e50e9b9803f44de6a213 联力L216机箱介绍:https://www.bilibili.com/vid…

ArcGIS基础实验操作100例--实验57由点坐标生成面要素

本实验专栏参考自汤国安教授《地理信息系统基础实验操作100例》一书 实验平台:ArcGIS 10.6 实验数据:请访问实验1(传送门) 高级编辑篇--实验57 由点坐标生成面要素 目录 一、实验背景 二、实验数据 三、实验步骤 (…

【Qt】自动查找Qt应用程序缺少的依赖库

【Qt】自动查找Qt应用程序缺少的依赖库1、背景2、实例3、验证1、背景 操作系统:windows10专业版,如下图: Qt版本:qt-opensource-windows-x86-msvc2013_64-5.7.1.exe 使用Qt安装后的qtcreator5.7.1开发Qt应用程序。 将编译生成的…

基于Vue和SpringBoot的超市账单管理系统的设计和实现

作者主页:Designer 小郑 作者简介:Java全栈软件工程师一枚,来自浙江宁波,负责开发管理公司OA项目,专注软件前后端开发(Vue、SpringBoot和微信小程序)、系统定制、远程技术指导。CSDN学院、蓝桥云…

【练习】Day03(未完成版)

努力经营当下,直至未来明朗! 文章目录一、选择二、编程1. 括号生成2. 颜色分类答案1. 选择2. 编程提普通小孩也要热爱生活! 一、选择 下列Java代码中的变量a、b、c分别在内存的____存储区存放。 class A {private String a “aa”;public…

SpringBoot+JPA(官方案例)

在线文档项目结构 1.源码克隆:git clone https://github.com/spring-guides/gs-accessing-data-jpa.git 2.包含两个项目initial和complete,initial可以根据文档练习完善,complete是完整项目 3.功能描述:构建应用程序,使…

相机标定中的战斗机--张氏标定法

张正友标定法--相机标定中的灭霸!在上学期接触过calibration以后,下定决心要学一下张正友标定法的,然后没来的及学,寒假弥补一下。参考博客:https://zhuanlan.zhihu.com/p/136827980编辑切换为居中添加图片注释&#x…

车牌识别数据收集之自动化筛选工具

综述 最近在进行车牌识别的开发,在数据收集阶段除了那些特定的数据集(开源数据集),还需要自己收集一些数据,这些数据主要来自如爬虫、行车记录视频、非特定数据集,而在这些数据集中,只有少量的…

PCB结构和谐振(二)

PCB结构和谐振(一)实验研究在此章节中,我们通过不同的测试研究了旋转角度/复杂层叠/走线pitch和layout设计等,所有的测试都是基于Intel Delta L 4.0规范。旋转角度单层结构是一个简单的层叠,所以首先通过测试单层结构研…

成都远石无人机航测服务内容

成都远石无人机航测服务致力于为客户提供DEM、DSM、DOM、三维实景模型和机载激光雷达等数据成果,获得的数据成果在各个行业得到了应用和认可。相信大家对于DEM、DSM和DOM这些名词并不陌生,但对其内涵和差别却又比较模糊,接下来就讲一下这些数…