机器学习小补充(加深理解)

news2024/11/14 3:18:01

1. 分类交叉熵损失(Categorical Crossentropy)

定义:当标签以独热编码形式表示时使用。

原理:在多分类问题中,分类交叉熵损失用于计算模型预测的概率分布与实际分布之间的差异。模型输出的预测概率通常是一个向量,其元素表示每个类别的预测概率。

公式

假设有 N N N 个样本,每个样本的类别数为 C C C。模型输出的概率分布为 p p p,实际标签为独热编码向量 y y y。分类交叉熵损失的公式如下:

Loss = − 1 N ∑ i = 1 N ∑ c = 1 C y i c log ⁡ ( p i c ) \text{Loss} = -\frac{1}{N} \sum_{i=1}^{N} \sum_{c=1}^{C} y_{ic} \log(p_{ic}) Loss=N1i=1Nc=1Cyiclog(pic)

其中:

  • y i c y_{ic} yic 是样本 i i i 的实际标签(独热编码),如果样本属于类别 c c c,则 y i c = 1 y_{ic}=1 yic=1;否则 y i c = 0 y_{ic}=0 yic=0
  • p i c p_{ic} pic 是模型预测样本 i i i 属于类别 c c c 的概率。

2. 稀疏分类交叉熵损失(Sparse Categorical Crossentropy)

定义:当标签以整数形式表示时使用。

原理:稀疏分类交叉熵损失与分类交叉熵损失的概念相似,不同之处在于它的标签是以整数形式表示的,而不是独热编码。这种表示形式可以更方便地用于多分类问题。

公式

假设有 N N N 个样本,模型输出的概率分布为 p p p,实际标签用整数 y y y 表示。稀疏分类交叉熵损失的公式如下:

$
\text{Loss} = -\frac{1}{N} \sum_{i=1}^{N} \log(p_{i, y_i})
$

其中:

  • y i y_i yi 是样本 i i i 的实际标签(整数形式),表示样本 i i i 的类别。
  • p i , y i p_{i, y_i} pi,yi 是模型预测样本 i i i 属于真实类别的概率。

1. 准确率(Accuracy)

Accuracy = 正确分类的样本数量 总样本数量 \text{Accuracy} = \frac{\text{正确分类的样本数量}}{\text{总样本数量}} Accuracy=总样本数量正确分类的样本数量

  • 优点:简单易懂,适合于类别分布相对均衡的场景。
  • 缺点:在类别不平衡的情况下,准确率可能会误导。例如,如果95%的样本是某一类,仅凭准确率,模型可以只预测该类就能达到95%的准确率,但实际上并没有学习到有效的信息。

2. 混淆矩阵(Confusion Matrix)

混淆矩阵是一个非常有用的工具来可视化模型的性能。它展示了实际标签与模型预测标签之间的关系。一个二分类问题的混淆矩阵通常如下所示:

Predicted PositivePredicted Negative
Actual PositiveTrue Positive (TP)False Negative (FN)
Actual NegativeFalse Positive (FP)True Negative (TN)
  • True Positive (TP):正确预测为正样本的数量
  • False Positive (FP):错误预测为正样本的数量(实际为负样本)
  • True Negative (TN):正确预测为负样本的数量
  • False Negative (FN):错误预测为负样本的数量(实际为正样本)

3. 精确率(Precision)、召回率(Recall)与 F1 分数

这些指标特别适用于类别不平衡的情况,以下是它们的定义:

  • 精确率(Precision)

    定义:精确率是指在所有模型预测为正样本的结果中,实际上是真正正样本的比例。这一指标主要关注模型的假正率(False Positive, FP),即将负样本预测为正样本的错误数量。

    衡量模型预测为正的样本中有多少是真正的正样本,公式为:

    Precision = T P T P + F P \text{Precision} = \frac{TP}{TP + FP} Precision=TP+FPTP

  • 召回率(Recall)

    定义:召回率是指在所有实际为正的样本中,模型正确预测为正的比例。召回率主要关注模型的假负率(False Negative, FN),即将正样本预测为负样本的错误数量。

    衡量实际正样本中有多少被模型正确预测为正,公式为:

    Recall = T P T P + F N \text{Recall} = \frac{TP}{TP + FN} Recall=TP+FNTP

  • F1 分数:精确率和召回率的调和平均数,旨在找到两者之间的平衡,公式如下:

    F 1 = 2 × Precision × Recall Precision + Recall F1 = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}} F1=2×Precision+RecallPrecision×Recall

作用:

1. 卷积层(Convolutional Layer)

  • 原理:卷积层通过滑动窗口(也称为卷积核或过滤器)在输入图像上进行操作,计算局部区域的加权和。这使得网络能够提取图像中的特征,如边缘、纹理和形状。
  • 作用:通过卷积操作,卷积层能够有效地捕捉空间特征,从而减少参数数量,并且相比全连接层更能利用图像的空间结构。

2. 池化层(Pooling Layer)

  • 原理:池化层通常位于卷积层后面,其通过选择局部区域内的最值或均值来减少特征图的空间维度。最大池化选择一个窗口中的最大值,而平均池化则计算平均值。
  • 作用:降低特征图的维度,减少计算量,增加模型的计算速度,并在某种程度上防止过拟合,通过提炼出关键特征,增强模型的鲁棒性。

3. 全连接层(Dense Layer)

  • 原理:每个神经元与上一层的每个神经元相连接,计算所有输入的加权和并通过激活函数(如 ReLU)进行非线性变换。
  • 作用:全连接层往往是网络的最后一层,负责将所有提取的特征映射到最终的分类标签或回归输出,适用于较小的输入特征集。

4. 批归一化层(Batch Normalization Layer)

  • 原理:对每一批输入进行归一化,使得每个特征的均值接近于 0,方差接近于 1。这是通过计算当前批次的均值和标准差来实现的。
  • 作用:加速训练,稳定模型,提高收敛速度,降低对初始化和学习率的敏感性,通常用在激活函数之前。

5. Dropout层

  • 原理:在每个训练批次中,随机选择一定比例的神经元将其输出设置为零,这样有效地减少了模型的复杂度。
  • 作用:防止模型在训练数据上过拟合,增加模型的泛化能力。

6. 循环层(Recurrent Layer)

  • 原理:通过内部状态(记忆)和序列数据的输入进行连接,允许前一时刻的信息影响当前时刻的输出。LSTM 通过门机制来控制信息流,而 GRU 是 LSTM 的一个简化版本。
  • 作用:处理序列数据,比如时间序列分析和自然语言处理,能够记住长期依赖的信息。

7. 自注意力层(Attention Layer)

  • 原理:计算输入序列中每个元素对其他元素的重要性权重,然后为每个元素生成加权求和的输出。注意力机制帮助模型选择性地关注输入中的重要部分。
  • 作用:在处理序列数据时增强模型的注意力,特别是在自然语言处理和图像任务中提升性能。

8. 嵌入层(Embedding Layer)

  • 原理:将离散的输入(如词汇中的单词)映射到连续的向量空间中,使得相似的输入在向量空间中也相近。嵌入层通常会学习这些向量。
  • 作用:提高文本或离散空间数据的表示能力,将离散数据转化为能够参与深度学习模型的稠密特征向量。

9. 转置卷积层(Transposed Convolution Layer)

  • 原理:通过逆向的卷积操作(也被称为反卷积),在特征图上进行上采样,将低维空间的特征映射到更高维空间。通过在输入中插入零并应用卷积来实现。
  • 作用:用于生成更大输出的特征图,广泛应用于图像生成任务,如生成对抗网络(GAN)中。

10. 残差块(Residual Block)

  • 原理:通过添加跳跃连接,将输入直接加到输出中,让模型更容易学习到恒等映射。这样在训练深层网络时,可以有效缓解梯度消失问题。
  • 作用:在构建深层网络时提高了训练的有效性,减少了复杂度,使得网络可以更高效地学习,能够构建更深的网络而不会遇到性能下降的问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2239868.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【大数据学习 | HBASE高级】hive操作hbase

一般在查询hbase的数据的时候我们可以直接使用hbase的命令行或者是api进行查询就行了,但是在日常的计算过程中我们一般都不是为了查询,都是在查询的基础上进行二次计算,所以使用hbase的命令是没有办法进行数据计算的,并且对于hbas…

modbus协议 Mthings模拟器使用

进制转换 HEX 16进制 (0、1、2、3、4、5、6、7、8、9、A、B、C、D、E、F表示0-15) dec 10进制 n(16进制) -> 10 abcd.efg(n) d*n^0 c*n^1 b*n^2 a*n^3 e*n^-1 f*n^-2 g*n^-3(10) 10 -> n(16进制) Modbus基础概念 高位为NUM_H&…

列表(list)

一、前言 本次博客主要讲解 list 容器的基本操作、常用接口做一个系统的整理,结合具体案例熟悉自定义内部排序方法的使用。如有任何错误,欢迎在评论区指出,我会积极改正。 二、什么是list list是C的一个序列容器,插入和删除元素…

Sam Altman:年底将有重磅更新,但不是GPT-5!

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,专注于分享AI全维度知识,包括但不限于AI科普,AI工…

zabbix监控端界面时间与服务器时间不对应

1. 修改系统时间 # tzselect Please select a continent, ocean, "coord", or "TZ".1) Africa2) Americas3) Antarctica4) Asia5) Atlantic Ocean6) Australia7) Europe8) Indian Ocean9) Pacific Ocean 10) coord - I want to use geographical coordina…

大数据新视界 -- 大数据大厂之 Impala 性能提升:高级执行计划优化实战案例(下)(18/30)

💖💖💖亲爱的朋友们,热烈欢迎你们来到 青云交的博客!能与你们在此邂逅,我满心欢喜,深感无比荣幸。在这个瞬息万变的时代,我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的…

P2356 弹珠游戏

铁子们好呀,博主好久没更新了,今天给大家更新一道编程题!!! 题目链接如下:P2356 弹珠游戏 好,接下来,我将从三个方面讲解这道例题。分别是 题目解析算法原理代码实现 文章目录 1.题…

项目管理十大知识领域:如何提升项目执行力

项目管理是一门复杂的学科,涉及到多个领域的知识与技能。有效的项目管理不仅能够确保项目按时、按质、按预算完成,还能提升团队协作、提高效率,甚至在面对风险和变化时保持项目的稳定性和成功率。项目管理十大知识领域是构建成功项目的基石&a…

【miniMax开放平台-注册安全分析报告-无验证方式导致安全隐患】

前言 由于网站注册入口容易被黑客攻击,存在如下安全问题: 暴力破解密码,造成用户信息泄露短信盗刷的安全问题,影响业务及导致用户投诉带来经济损失,尤其是后付费客户,风险巨大,造成亏损无底洞…

HBuilder使用虚拟机

按文档的连接一直不成功 没找到Simulator,原来是因为我电脑之前没安装过虚拟机版本 安装模拟器Simulator | uni-app官网 找到settings,左下角安装需要的对应版本的虚拟机就好了,然后重启hb

vcenter service基本异常处理

服务:vcenter service 版本: 7.0.3 问题描述:无法访问vcenter ui 排障思路: 1. 登入vcenter所在服务器执行基础排查:内存、cpu、磁盘、网络等,发现磁盘日志目录已经爆满,删除180天前的日志恢…

WordPress中最佳的无障碍插件:入门级指南

在今天的互联网时代,网站对所有用户都友好和可访问是非常重要的。对普通用户,特别是对有视力、听力或其他障碍的用户,为他们提供无障碍的体验显得尤为重要。使用WordPress建立网站的用户,有一些非常好的插件可以帮助你轻松实现这一…

科技前沿:汽车智能玻璃,开启透明显示新纪元

根据QYResearch调研团队最新发布的《全球汽车智能玻璃市场报告2023-2029》显示,预计到2029年,全球汽车智能玻璃市场的规模将攀升至0.5亿美元,且在未来几年内,其年复合增长率(CAGR)将达到5.5%。 以下图表展…

基于Multisim信号波形发生器电路正弦波方波三角波锯齿波(含仿真和报告)

【全套资料.zip】正弦方波三角波锯齿波方波占空比可调频率可调电路Multisim仿真设计数字电子技术 文章目录 功能一、Multisim仿真源文件二、原理文档报告资料下载【Multisim仿真报告讲解视频.zip】 功能 1.设计一个能够产生多个信号输出的信号发生器, 要求输出波形…

Spring Boot——日志介绍和配置

1. 日志的介绍 在前面的学习中,控制台上打印出来的一大堆内容就是日志,可以帮助我们发现问题,分析问题,定位问题,除此之外,日志还可以进行系统的监控,数据采集等 2. 日志的使用 在程序中获取日…

刘铁猛C#入门 024 类的声明,继承和访问控制

类声明的全貌 C#声明类的位置 声明既定义(C#与Java) 类的修饰符 最简单的类声明 类的访间控制 :默认internal 共性 public 和 internal 都是访问修饰符,用于定义一个类型的成员可以被谁访问。它们都可以用来声明类、结构、接口、枚举、字段、方法、…

人工智能(AI)对于电商行业的变革和意义

![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/402a907e12694df5a34f8f266385f3d2.png#pic_center> 🎓作者简介:全栈领域优质创作者 🌐个人主页:百锦再新空间代码工作室 📞工作室:新空间代…

pgsql 版本升级和数据迁移(编译版)

最近给pgsql从16.0升级到16.4,有挺多细节 1.关闭pgsql 为了保证数据一致性和过渡平稳,还是需要暂停pgsql。 systemctl stop pgsql2.备份现有数据 需要切换到pgsql的用户,通常用root是不行的 pg_dumpall > /xxx/xxx/backup.sql3.重命名…

⚙️ 如何调整重试策略以适应不同的业务需求?

调整 Kafka 生产者和消费者的重试策略以适应不同的业务需求,需要根据业务的特性和容错要求来进行细致的配置。以下是一些关键的调整策略: 业务重要性: 对于关键业务消息,可以增加重试次数,并设置较长的重试间隔&#x…

uniCloud云对象调用第三方接口,根据IP获取用户归属地的免费API接口,亲测可用

需求 在2022年5月初,网络上各大平台上,都开始展示用户IP属地,在某音、某手等小视频平台以及各主流网站应用中,都展示IP归属地,如下图所示: 解决办法 收费文档的肯定有很多,基本你百度搜“归…