神经网络与深度学习Pytorch版 Softmax回归 笔记

news2025/1/23 14:56:17

Softmax回归

目录

Softmax回归

1. 独热编码

2. Softmax回归的网络架构是一个单层的全连接神经网络。

3. Softmax回归模型概述及其在多分类问题中的应用

4. Softmax运算在多分类问题中的应用及其数学原理

5. 小批量样本分类的矢量计算表达式

6. 交叉熵损失函数

7. 模型预测及评价

8. 小结


Softmax回归,也称为多类逻辑回归,是一种用于解决多分类问题的机器学习算法。它与普通的 logistic 回归不同之处在于,logistic 回归通常用于二分类问题,而 softmax 回归则适用于有两个以上的类别需要预测的场景。以下是对 softmax 回归的具体介绍:

  • 函数定义:softmax 函数能够将多个类别的输出值转换成概率分布,其特点是输出值的范围在0到1之间,并且所有输出值的和为1。这使得它可以用于表示一个样本属于每个类别的概率。
  • 模型优势:与传统的线性回归相比,softmax 回归提供了一种非线性的方法来处理分类问题,特别是当类别之间存在相互依赖关系时,它能够给出更合理的结果。
  • 应用场景:softmax 回归广泛应用于机器学习中的多分类问题,如图像识别、文本分类等领域,在这些场景中,模型需要预测出一个样本属于多个类别中的一个。
  • 参数估计:该模型通过最大化似然函数来估计参数,通常使用梯度上升或随机梯度上升等优化方法来进行参数的学习和优化。
  • 损失函数:softmax 回归使用交叉熵损失函数来衡量模型预测的概率分布与实际分布之间的差异,并通过最小化这个损失函数来训练模型。

总的来说,softmax 回归是一个强大的多分类算法,它通过将输出转换为概率分布,帮助确定样本最可能的类别。在实际应用中,softmax 回归因其能够处理多个类别并给出直观的概率解释而被广泛采用。

1. 独热编码

独热编码(One-Hot Encoding)是一种将类别变量(categorical variables)转换为机器学习算法易于挖掘的形式的过程。在许多机器学习问题中,特征可以是非数字的,例如颜色、位置、职业等。这些特征被称为类别特征。

独热编码的工作原理是将每个类别分配一个唯一的整数,并为每个整数创建一个二进制列。然后,它将这些整数替换为其相应的二进制列。这样,每个类别都被表示为一个二进制向量,其中只有一个元素是1,其余元素都是0。

例如,如果我们有一个颜色特征,包含三个可能的值:红色、绿色和蓝色。独热编码将这些值转换为以下形式:

  • 红色:[1, 0, 0]
  • 绿色:[0, 1, 0]
  • 蓝色:[0, 0, 1]

这种方法的优点是它可以将类别特征转换为数值形式,从而使机器学习算法能够处理它们。然而,它的缺点是它增加了数据集的大小,并且可能导致稀疏性问题。

2. Softmax回归的网络架构是一个单层的全连接神经网络

Softmax回归是处理多分类问题的一种有效方法,它可以看作是二分类问题的Logistic回归的扩展。在网络架构方面,Softmax回归与线性回归相似,都属于单层神经网络的范畴。以下是Softmax回归网络架构的关键点:

  • 输入层:接收特征向量作为输入,这些特征向量通常经过预处理,以便于模型更好地理解和学习数据。
  • 全连接层:Softmax回归的输出层是全连接的,意味着每个输入特征都与每个输出类别相连接。这一层的权重和偏置参数在学习过程中被优化,以便更好地对输入进行分类。
  • 输出层:输出层使用Softmax函数,它将神经网络的原始输出转换为概率分布。Softmax函数的每个输出代表一个类别的概率,所有输出之和为1。这样,模型的输出可以直接解释为样本属于每个类别的概率。
  • 损失函数:为了训练Softmax回归模型,需要定义一个损失函数,通常是交叉熵损失函数,它衡量模型预测的概率分布与实际分布之间的差异。通过最小化这个损失函数,模型能够学习到更好的参数。
  • 优化算法:使用优化算法(如梯度下降)来调整网络的权重和偏置,以最小化损失函数,从而提高模型的分类性能。

综上所述,Softmax回归的网络架构相对简单,但其在多分类问题中的表现非常出色,能够有效地将输入数据映射到相应的类别概率上。

3. Softmax回归模型概述及其在多分类问题中的应用

  • Softmax回归用于多分类问题,其中每个类别都有一个对应的输出。
  • 该模型有多个仿射函数,每个输出类别一个。
  • 在我们的例子中,有4个输入特征和3个输出类别,因此需要12个权重参数(w)和3个偏置参数(b)。
  • 对于每个输入样本,计算三个未规范化的预测值(logits):o1、o2和o3,每个都是输入特征和相应权重的线性组合加上偏置。
  • Softmax回归可以被视为一个单层的全连接神经网络。
  • 使用线性代数表示,所有权重被组织在一个矩阵W中,输出o通过矩阵-向量乘法 Wx+b 计算得出。

o1 = x1w11 +x2w12 +x3w13 +x4w14 +b1,

o2 = x1w21 +x2w22 +x3w23 +x4w24 +b2,

o3 = x1w31 +x2w32 +x3w33 +x4w34 +b3.

4. Softmax运算在多分类问题中的应用及其数学原理

  • Softmax运算的目的是将模型的输出转换为概率分布,确保每个类别的概率非负且总和为1。
  • 通过Softmax函数,可以将线性层的输出(logits)转换为有效的概率值,从而满足概率的基本公理。
  • Softmax函数的计算过程包括对每个未规范化的预测值求指数,然后除以所有类别的指数和,确保输出的概率分布合理。
  • 使用Softmax函数后,模型的输出可以被视为类别的概率,使得模型可以预测具有最大概率的类别作为输出。
  • 尽管Softmax是一个非线性变换,但Softmax回归的输出仍然由输入特征的线性(仿射)变换决定,因此它仍然是一个线性模型。

y\hat{} =softmax(o)

\mathbf{\hat{y}_j = \frac{\exp(o_j)}{\sum_{k} exp(o_k)}}

5. 小批量样本分类的矢量计算表达式

6. 交叉熵损失函数

7. 模型预测及评价

8. 小结

后面关于小批量样本分类的矢量计算表达式,交叉熵损失函数,模型预测及评价这几步我还不理解,之后再补充。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1424982.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

leetcode刷题(剑指offer)54.螺旋矩阵

54.螺旋矩阵 给你一个 m 行 n 列的矩阵 matrix ,请按照 顺时针螺旋顺序 ,返回矩阵中的所有元素。 示例 1: 输入:matrix [[1,2,3],[4,5,6],[7,8,9]] 输出:[1,2,3,6,9,8,7,4,5]示例 2: 输入:ma…

【数据库数据恢复】Oracle数据库ASM磁盘组数据恢复案例

oracle数据库故障&分析: oracle数据库ASM磁盘组掉线,ASM实例不能挂载。数据库管理员尝试修复数据库,但是没有成功。 oracle数据库数据恢复过程: 1、将oracle数据库所涉及磁盘以只读方式备份。后续的数据分析和数据恢复操作都…

帆软报表简单插入多个图表和表格

前言 帆软报表支持在一个普通报表(*.cpt)中插入多个图表或者文字表格。 系统环境 操作系统为 Windows 11 家庭版。帆软报表版本为 FinReport 9 , 数据库为 Oracle 11C 。 操作步骤 1、新建 cpt 报表 注意选择 “普通报表” 不是其他类型…

10个React状态管理库推荐

本文将为您推荐十款实用的React状态管理库,帮助您打造出高效、可维护的前端应用。让我们一起看看这些库的魅力所在! 在前端开发中,状态管理是至关重要的一环。React作为一款流行的前端框架,其强大的状态管理功能备受开发者青睐。…

Maven的Docker镜像二次打包,再次推送至Harbor中

之所以如此操作,主要原因是,官版的镜像中默认的setting.xml已内置好,不容易修改, 重新二次打包,可以指定我们自己的setting.xml配置,配置自己的私服地址以及解决默认Maven仓库国内下载速度慢的问题 一、创…

elk之基础概念

写在前面 本文一起看下es的基础概念,比较枯燥的内容说,但不看又不行。开始。 1:document 文档,是es搜索存储数据的最小单元,相当于是MySQL的一行记录,但es中是一个json,如下是一个通过logsta…

SpringBoot实战(二十六)集成SFTP

目录 一、SFTP简介二、SpringBoot 集成2.1 Maven 依赖2.2 application.yml 配置2.3 DemoController.java 接口2.4 SftpService.java2.5 DemoServiceImpl.java 实现类2.6 SftpUtils.java 工具类2.7 执行结果1)上传文件2)下载文件3)重命名文件&…

spdk技术原理简介和实践经验

一、导读 与机械硬盘相比,NVMe-ssd在性能、功耗和密度上都有巨大的优势,并且随着固态存储介质的高速发展,其价格也在大幅下降,这些优势使得NVMe-ssd在分布式存储中使用越来越广泛。由于NVMe-ssd的性能比传统磁盘介质高出很多&…

在 WLC上配置WPA2-Enterprise WLAN

实验大纲 第1部分:创建一个新的WLAN 第1步:创建一个新的VLAN接口 第2步:配置WLC让它使用RADIUS服务器 第3步:创建一个新的WLAN 第4步:配置WLAN安全策略 第2部分:配置DHCP范围和SNMP 第1步&#xff1…

【LeetCode: 2670. 找出不同元素数目差数组 + 哈希表 + 前后缀处理】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持,因为它具有很高的价值,算法就是这样✨ 🌲 作者简介:硕风和炜,…

UFC762AE101 3BHE006412R0101

UFC762AE101 3BHE006412R0101 UFC762AE101 3BHE006412R0101 LG Innotek 开发出“车辆用 5G 通信模块” ... 。 LG Innotek 的“车辆用 5G 通信模块”的响应时间为 1ms(毫秒) ... 、存储器、RF 电路、C-V2X模块等 480 多个零部件。 LG Innotek ...…

TensorFlow2实战-系列教程4:数据增强

🧡💛💚TensorFlow2实战-系列教程 总目录 有任何问题欢迎在下面留言 本篇文章的代码运行界面均在Jupyter Notebook中进行 本篇文章配套的代码资源已经上传 猫狗识别1 数据增强 猫狗识别2------数据增强 猫狗识别3------迁移学习 对于图像数据…

前端入门第二天

目录 一、列表、表格、表单 二、列表(布局内容排列整齐的区域) 1.无序列表(不规定顺序) 2.有序列表(规定顺序) 3.定义列表(一个标题多个分类) 三、表格 1.表格结构标签 2.合并…

【Node-RED】node-red-contrib-opcua-server模块使用(4)

【Node-RED】node-red-contrib-opcua-server模块使用(4) 前言实现模块使用plc模拟地址空间编写缺点 前言 基于前几则博文的研究,经过偶像的点播,茅塞顿开。本期博文主要介绍如何实现openServer 信息的中转,获取各个pl…

2024年【中级消防设施操作员(考前冲刺)】找解析及中级消防设施操作员(考前冲刺)考试总结

题库来源:安全生产模拟考试一点通公众号小程序 2024年中级消防设施操作员(考前冲刺)找解析为正在备考中级消防设施操作员(考前冲刺)操作证的学员准备的理论考试专题,每个月更新的中级消防设施操作员&#…

国外知名的农业机器人公司

从高科技温室到云播种,农业机器人如何帮助农民填补劳动力短缺以及超市货架的短缺。 概要 “高科技农业”并不矛盾。当代农业经营更像是硅谷,而不是美国哥特式,拥有控制灌溉的应用程序、驾驶拖拉机的 GPS 系统和监控牲畜的带有 RFID 芯片的耳…

【Linux】进程通信——共享内存+消息队列+信号量

欢迎来到Cefler的博客😁 🕌博客主页:折纸花满衣 🏠个人专栏:题目解析 🌎推荐文章:【LeetCode】winter vacation training 目录 👉🏻共享内存👉🏻关…

亚马逊要怎么运营?亚马逊运营主要运营内容有哪些?

一个店铺的成长发展少不了运营,而店铺的运营必须要有相关运营经验,才能将店铺做好,近几年亚马逊电商平台在不断的发展,亚马逊的运营模式非常独特,它借助于多种技术解决方案来提供最佳的客户体验。那么亚马逊要怎么运营…

Java基础学习:System类和Static方法的实际使用

一、System类 1.在程序开发中,我们需要对这个运行的结果进行检验跟我们预判的结果是否一致,就会用到打印结果在控制台中显示出来使用到了System类。System类定义了一些和系统相关的属性和方法,它的属性和方法都是属于静态的,想使用…

备战蓝桥杯---数据结构与STL应用(入门4)

本专题主要是关于利用优先队列解决贪心选择上的“反悔”问题 话不多说,直接看题: 下面为分析: 很显然,我们在整体上以s[i]为基准,先把士兵按s[i]排好。然后,我们先求s[i]大的开始,即规定选人数…