【深度学习 | 核心概念】那些深度学习路上必经的核心概念,确定不来看看?(一)

news2024/9/24 17:17:22

在这里插入图片描述

🤵‍♂️ 个人主页: @AI_magician
📡主页地址: 作者简介:CSDN内容合伙人,全栈领域优质创作者。
👨‍💻景愿:旨在于能和更多的热爱计算机的伙伴一起成长!!🐱‍🏍
🙋‍♂️声明:本人目前大学就读于大二,研究兴趣方向人工智能&硬件(虽然硬件还没开始玩,但一直很感兴趣!希望大佬带带)

在这里插入图片描述

【深度学习 | 核心概念】那些深度学习路上必经的核心概念,确定不来看看? (一)
作者: 计算机魔术师
版本: 1.0 ( 2023.8.27 )

摘要: 本系列旨在普及那些深度学习路上必经的核心概念,文章内容都是博主用心学习收集所写,欢迎大家三联支持!本系列会一直更新,核心概念系列会一直更新!欢迎大家订阅

该文章收录专栏
[✨— 《深入解析机器学习:从原理到应用的全面指南》 —✨]

SOTA 模型

SOTA模型是指当前领域内的最佳模型,全称为"State-of-the-Art"(即技术水平最先进的)模型。它代表了在某个特定任务或领域中目前取得的最好性能。

SOTA模型通常是通过比较不同研究论文、竞赛结果或实验数据来确定的。当一个新模型在特定任务上获得更高的准确度、更低的误差率或其他评价指标时,它将被认为超越了之前被广泛接受和使用的基准模型,并成为该任务领域内新的SOTA模型。

对于机器学习和深度学习领域而言,发展迅速且涌现出许多创新方法和架构。随着时间推移,新提出的算法往往会不断改善并超过以前最好的方法,从而成为新一代SOTA模型。

借助SOTA模型,在各种应用场景下可以获得更精确、有效或鲁棒等方面有所突破,并推动相关领域持续发展。因此,关注和理解当前状态下令人瞩目和优秀的SOTA模型对于跟踪科学进展以及设计自己项目中合适的模型非常重要。

FLOP 度量单位

FLOP是一个常用的度量单位,表示浮点运算(Floating Point Operations)的数量。它通常被用来衡量计算机或计算模型在执行某个任务时所需的计算量大小。

具体而言,FLOP指的是一次浮点运算操作的数量。这种操作可以是加法、减法、乘法或除法等基本数学运算,其中涉及到浮点数(即带有小数部分的数字)。例如,两个浮点数相乘就需要进行一次FLOP。

对于深度学习中使用的神经网络模型,在训练和推理过程中会涉及大量的矩阵乘法和卷积等复杂计算操作。因此,通过统计网络中总共执行了多少次FLOP可以评估其计算复杂性和效率。

实际上,在机器学习领域中经常使用更大规模单位TFLOPs(Tera-Floating Point Operations per Second)来描述每秒钟能够执行十亿亿次浮点运算。这可以作为衡量硬件设备如GPU或TPU速度和处理能力强弱的标准之一。

总结起来,FLOP是指代表浮点运算数量的度量单位,在机器学习领域用于评估任务所需的计算复杂性,并且常见地应用于衡量硬件设备的计算能力。

在TensorFlow 2中,可以使用tf.profiler 来估计模型的FLOP(浮点操作)数量。tf.profiler是一个用于分析和优化TensorFlow性能的工具。

下面是一种估计模型FLOP的常见方法:

  1. 导入所需的库:
import tensorflow as tf
from tensorflow.python.profiler import profiler_v2 as profiler
  1. 构建你想要评估FLOP的模型,并编译它:
model = ... # 在此处构建你的模型

# 编译模型以准备进行推理
model.compile(...)
  1. 创建一个Profiler并运行推理过程
profiler.start()

# 运行你的数据通过模型进行推理,例如使用model.predict或者自定义训练循环等。
...

profiler.stop()
  1. 生成报告并获取FLOP统计信息
profile_result = profiler.profile(
    tf.get_default_graph(),
    options=profiler.ProfileOptionBuilder.float_operation(), 
)

flop_stats = profile_result.total_float_ops

print("Total FLOPs: ", flop_stats)

这将为您提供总共执行的浮点操作数(FLOPs)。请注意,这个数字表示了整个推理过程期间执行的所有浮点操作数量。

需要注意以下几点:

  • 在步骤3中,确保在运行前启动Profiler,并在完成后停止它。
  • 步骤4中会打印出总体FLOPs数量。
  • 请确保在安装了TensorFlow 2的环境中运行上述代码。

这是使用TensorFlow 2来估计模型FLOP的简单示例。通过分析模型的FLOP,您可以更好地了解和优化模型性能,并进行比较和选择不同架构或配置的模型。

激活函数的饱和性质

饱和性质的激活函数是指在输入数据较大或较小时,激活函数的导数趋近于0,导致梯度消失或爆炸。这种情况下,神经网络可能会面临训练困难、收敛缓慢等问题。

常见的饱和性质的激活函数有Sigmoid函数和双曲正切(Tanh)函数。它们在输入接近极端值时,导数接近于0。对于Sigmoid函数而言,在输入非常大或非常小时,输出值会趋向于1或-1,并且导数几乎为0;对于Tanh函数而言,在输入非常大或非常小时,输出值也会趋向于1或-1,并且导数同样几乎为0。

相比之下,不饱和性质的激活函数没有上述问题并具有更好的表达能力。

Benchmark & Baseline

在机器学习中,"benchmark"和"baseline"是两个常用的术语,它们在评估模型性能和比较算法效果方面有着不同的含义。

Benchmark(基准)通常指的是已经被广泛接受并公认为具有很高水平最佳性能的模型、算法或数据集。这些基准可以作为参考标准,用来衡量其他新提出的方法或模型是否具备更好的性能。基准模型通常是经过大规模实验验证,并且在特定领域内取得了优秀结果。

例如,在图像分类任务中,ImageNet数据集上训练得到的ResNet网络就成为了一个广泛使用且有效的基准模型。当研究人员提出新的图像分类算法时,他们会将其与ResNet进行比较以评估其相对性能。

Baseline(基线)则表示一种简单但可行的解决方案或模型作为初始点来进行比较。它代表了问题领域内**最简单、最容易实现且效果尚可的方法**。通过建立一个基线,在之后尝试改进和优化时可以更直观地看到所取得进展

设定一个合适而有意义的baseline非常重要,因为它可以帮助我们衡量新方法的改进程度。如果一个新模型或算法无法超过基线,那么很可能需要重新审视其有效性和可行性。

举个例子,在自然语言处理领域,建立一个简单的词袋模型可以作为baseline来评估更复杂的深度学习模型(如循环神经网络或注意力机制)在文本分类任务上的性能表现。

总结起来,benchmark是已经公认为高水平或最佳性能的参考标准(高手云集),用于比较和评估其他方法;而baseline则是问题领域内最简单、可行但不必然优秀的解决方案,作为初始点进行对比和改进(自我提升)。
在这里插入图片描述

						  🤞到这里,如果还有什么疑问🤞
					🎩欢迎私信博主问题哦,博主会尽自己能力为你解答疑惑的!🎩
					 	 🥳如果对你有帮助,你的赞是对博主最大的支持!!🥳

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/935492.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于吉萨金字塔建造算法优化的BP神经网络(预测应用) - 附代码

基于吉萨金字塔建造算法优化的BP神经网络(预测应用) - 附代码 文章目录 基于吉萨金字塔建造算法优化的BP神经网络(预测应用) - 附代码1.数据介绍2.吉萨金字塔建造优化BP神经网络2.1 BP神经网络参数设置2.2 吉萨金字塔建造算法应用…

SpringBoot与前端交互遇到的一些问题

一、XXX.jar中没有主清单属性 场景: SpringBoot打的jar包在Linux运行报错 解决方案: 百度找了很多都是一样的答案,但是解决不了我的问题,于是我新建了一个springboot项目发现打的jar包可以在Linux上运行。检查了下只要把下面这2个…

R语言之缺失值处理

文章和代码已经归档至【Github仓库:https://github.com/timerring/dive-into-AI 】或者公众号【AIShareLab】回复 R语言 也可获取。 文章目录 缺失值处理1. 识别缺失值2. 探索数据框里的缺失值3. 填充缺失值3.1 删除缺失值:na.omit( )、complete.cases( …

机器学习:异常检测实战

文章目录 Anomaly Detection目录任务介绍数据集方法评估Baseline报告报告评价标准 Anomaly Detection 目录 任务介绍 无监督的异常检测 数据集 方法 autoencode 是否能够还原出原始类型图片,基于重构loss来判断是否正常 重构误差当作异常分数 评估 采用ROC和AUC…

Kubernetes入门 十、HPA 自动扩/缩容

目录 概述安装metrics-server使用HPA 概述 我们已经可以通过手动执行 kubectl scale 命令实现Pod的扩缩容,但是这显然不符合 Kubernetes 的定位目标–自动化和智能化。Kubernetes 期望可以通过监测Pod的使用情况,实现 Pod 数量的自动调整,于…

Orange Pi 3B 开发板 开箱评测 和 系统安装教程

香橙派 Orange Pi 3B(RK3566)开发板 开箱测评 和 系统烧录教程 简介 香橙派 Orange Pi 3B 是一款树莓派大小的单板计算机,但接口更加齐全,包括一个全尺寸 HDMI 接口和一个 M.2 存储插槽,售价199起。 Orange Pi 3B 采…

【Tkinter系列02/5】界面初步和布局

本文是系列文章第二部分。前文见:【Tkinter系列01/5】界面初步和布局_无水先生的博客-CSDN博客 说明 一般来说,界面开发中,如果不是大型的软件,就不必用QT之类的实现,用Tkinter已经足够,然而即便是Tkinter规…

软考:中级软件设计师:OSI/RM七层模型,网络技术标准与协议

软考:中级软件设计师:OSI/RM七层模型 提示:系列被面试官问的问题,我自己当时不会,所以下来自己复盘一下,认真学习和总结,以应对未来更多的可能性 关于互联网大厂的笔试面试,都是需要细心准备的…

No117.精选前端面试题,享受每天的挑战和学习

文章目录 断点续传怎么做的秒传怎么实现var let const 块级作用域ts Partial Omit 怎么实现的箭头函数有哪些限制箭头函数为什么不能作为构造函数promise常用apiMap和Object的区别vue怎么实现双向绑定 断点续传怎么做的 断点续传是指在文件下载或上传过程中,当连接…

ForexClub七夕交易大赛启动! 点燃交易之火为爱而战!

在这个充满激情的七夕季,ForexClub与您携手,掀起交易狂潮!点燃您心中的交易热忱,冲锋市场,赢取惊人奖金!别等了,参赛即有机会获得77美元的交易赠金,让我们一同为迸发的交易机会,燃烧一片天! 【大…

直流无刷电机工作原理及有感方波控制

BLDC方波控制 BLDC工作原理BLDC换向驱动过程有感控制模式 BLDC工作原理 首先要知道,BLDC转起来是基于什么原理 BLDC包括定子(线圈)和转子(永磁体),线圈要通电,通电的线圈具有磁场,该…

基于寄生捕食算法优化的BP神经网络(预测应用) - 附代码

基于寄生捕食算法优化的BP神经网络(预测应用) - 附代码 文章目录 基于寄生捕食算法优化的BP神经网络(预测应用) - 附代码1.数据介绍2.寄生捕食优化BP神经网络2.1 BP神经网络参数设置2.2 寄生捕食算法应用 4.测试结果:5…

01.基于自定义MVC架构的用户登录与首页展示实现 — OA项目实践

目录 本章节目标:完成OA项目用户登录及首页展示 一.用户登录 User.java UserDao.java IUserDao.java UserAction.java login.jsp(登录界面) userManage.jsp (数据绑定,修改,删除) userEdit.jsp(用…

windows wvp-gb28181-pro一键安装的脚本流程

流程图 【金山文档】 windows wvp安装脚本流程https://kdocs.cn/l/cataPonNMXNm

信息系统项目管理师(第四版)教材精读思维导图-第四章信息系统管理

请参阅我的另一篇文章,综合介绍软考高项: 信息系统项目管理师(软考高项)备考总结_计算机技术与软件专业技术_铭记北宸的博客-CSDN博客 本章思维导图PDF格式 本章思维导图XMind源文件 目录 4.1 管理方法 4.2 管理要点 4.1 管理方…

linux并发服务器 —— Makefile与GDB调试(二)

Makefile Makefile:定义规则指定文件的编译顺序;类似shell脚本,执行操作系统命令 优点:自动化编译——通过make(解释Makefile文件中指令的命令)命令完全编译整个工程,提高软件开发效率&#x…

144. 二叉树的前序遍历-C++

题目来源&#xff1a;力扣 示例 1&#xff1a; 输入&#xff1a;root [1,null,2,3] 输出&#xff1a;[1,2,3]示例 2&#xff1a; 输入&#xff1a;root [] 输出&#xff1a;[] 代码实现&#xff1a; class Solution { public:vector<int> preorderTraversal(TreeNo…

【Redis】Redis是什么、能干什么、主要功能和工作原理的详细讲解

&#x1f680;欢迎来到本文&#x1f680; &#x1f349;个人简介&#xff1a;陈童学哦&#xff0c;目前学习C/C、算法、Python、Java等方向&#xff0c;一个正在慢慢前行的普通人。 &#x1f3c0;系列专栏&#xff1a;陈童学的日记 &#x1f4a1;其他专栏&#xff1a;CSTL&…

人员着装识别算法 yolo

人员着装识别系统通过yolo网络模型识别算法&#xff0c;人员着装识别系统算法通过现场安装的摄像头识别工厂人员及工地人员是否按要求穿戴着装&#xff0c;实时监测人员的着装情况&#xff0c;并进行相关预警。目标检测架构分为两种&#xff0c;一种是two-stage&#xff0c;一种…

帆软报表系统未授权重置授权

子曰&#xff1a;“父在观其志&#xff0c;父没观其行。三年无改于父之道&#xff0c;可谓孝矣。” 未授权重置授权 构造payload&#xff0c;访问漏洞url&#xff1a; /ReportServer?opfr_server&cmdsc_version_info&showtoolbarfalse漏洞证明&#xff1a; 文笔生…