深度学习常见术语介绍

news2024/9/28 19:01:31

文章目录

  • 数据集(Dataset)
  • 特征(Feature)
  • 标签(Label)
  • 训练集(Training Set)
  • 测试集(Test Set)
  • 验证集(Validation Set)
  • 模型(Model)
  • 损失函数(Loss Function)
  • 优化器(Optimizer)
  • 超参数(Hyperparameter)
  • 过拟合(Overfitting)
  • 欠拟合(Underfitting)
  • 交叉验证(Cross-Validation)
  • 准确率(Accuracy)
  • 精确率(Precision)
  • 召回率(Recall)
  • F1分数(F1 Score)
  • ROC曲线(ROC Curve)
  • AUC(Area Under Curve)
  • Baseline(基线)
  • Benchmark(基准)
  • SOTA(State of the Art,最先进)
  • 神经网络量化(Neural Network Quantization)
  • 大模型量化(Large Model Quantization)

数据集(Dataset)

定义:用于训练和测试模型的数据集合。

示例:MNIST数据集包含手写数字的图像和标签。

特征(Feature)

定义:数据中的单个可测量属性或特性。

示例:在房价预测中,房屋面积、卧室数量等都是特征。

标签(Label)

定义:数据集中已知的输出值,通常用于监督学习任务。

示例:在图像分类中,标签可以是“猫”或“狗”。

训练集(Training Set)

定义:用于训练模型的数据子集。

示例:在训练分类器时,训练集包含输入数据和对应的标签。

测试集(Test Set)

定义:用于评估模型性能的数据子集,通常不用于训练。

示例:在模型训练完成后,使用测试集来评估模型的准确率。

验证集(Validation Set)

定义:用于调整模型超参数的数据子集,通常不用于训练。

示例:在交叉验证中,验证集用于选择最佳的超参数。

模型(Model)

定义:从输入数据中学习到的表示或函数,用于进行预测或决策。

示例:线性回归模型、决策树模型等。

损失函数(Loss Function)

定义:用于衡量模型预测值与真实值之间差异的函数。

示例:均方误差(MSE)、交叉熵损失等。

优化器(Optimizer)

定义:用于最小化损失函数的算法。

示例:随机梯度下降(SGD)、Adam优化器等。

超参数(Hyperparameter)

定义:在模型训练之前设置的参数,通常需要手动调整。

示例:学习率、正则化系数等。

过拟合(Overfitting)

定义:模型在训练数据上表现很好,但在测试数据上表现很差的现象。

示例:模型过于复杂,记住了训练数据的噪声。

欠拟合(Underfitting)

定义:模型在训练数据和测试数据上都表现不佳的现象。

示例:模型过于简单,无法捕捉数据的复杂模式。

交叉验证(Cross-Validation)

定义:一种评估模型性能的方法,通过将数据集分成多个子集进行训练和验证。

示例:K折交叉验证。

准确率(Accuracy)

定义:模型预测正确的比例。

示例:分类任务中,准确率是正确分类的样本数除以总样本数。

精确率(Precision)

定义:在所有预测为正类的样本中,实际为正类的比例。

示例:在垃圾邮件检测中,精确率是正确检测为垃圾邮件的比例。

召回率(Recall)

定义:在所有实际为正类的样本中,预测为正类的比例。

示例:在疾病检测中,召回率是正确检测出患病者的比例。

F1分数(F1 Score)

定义:精确率和召回率的调和平均值,用于综合评估模型的性能。

示例:在分类任务中,F1分数是精确率和召回率的平衡指标。

ROC曲线(ROC Curve)

定义:接收者操作特征曲线,用于评估二分类模型的性能。

示例:ROC曲线下的面积(AUC)用于衡量模型的分类能力。

understanding-auc-roc-curve
Receiver_operating_characteristic
在这里插入图片描述

AUC(Area Under Curve)

定义:ROC曲线下的面积,用于评估二分类模型的整体性能。

示例:AUC值越高,模型性能越好。

Baseline(基线)

定义:基线是指一套方法或模型,通常是简单或基本的,用于作为比较其他更复杂或更高级模型的起点。基线模型的目的是提供一个性能的基准,以便评估更复杂模型的改进是否显著。

作用:

    性能参考:基线模型提供了一个性能的最低标准。如果一个复杂的模型不能显著优于基线模型,那么这个复杂模型可能不值得使用。

    简化评估:通过比较复杂模型与基线模型的性能差异,可以更容易地评估复杂模型是否带来了实质性的改进。

    研究透明度:在研究论文或报告中,通常会包含基线模型的结果,以增加研究的透明度和可重复性。

示例:在自然语言处理(NLP)任务中,BERT模型可以作为基线模型,用于比较新模型的性能。如果你的新模型能够超越BERT,那么你的研究就具有实际意义。

Benchmark(基准)

定义:基准是指一个目前最高的可量化指标,通常用于评估和比较不同算法或模型性能的标准测试集或任务。基准测试通常包括一个或多个标准化的数据集、特定的机器学习任务以及用于衡量模型性能的指标。

作用:

    比较算法:通过在相同的基准上测试不同的算法,可以客观地比较它们的性能。

    评估模型:帮助开发者了解模型的优缺点,以及在不同条件下的表现。

    标准化:确保不同研究者和开发者使用相同的标准来评估他们的模型,从而促进研究的可重复性和透明度。

示例:在NLP任务中,BERT模型的具体指标(如准确率、精确率、召回率等)可以作为基准,用于评估新模型的性能。如果你的新模型在这些指标上超越了BERT,那么你的研究就具有实际意义。

SOTA(State of the Art,最先进)

定义:SOTA是指在某个特定任务或领域中,当前已知的最佳性能或最先进的模型或算法。SOTA模型通常代表了该领域的最新进展和技术水平。

示例:在NLP任务中,BERT模型在多个任务上达到了SOTA性能,成为后续研究的重要参考。

神经网络量化(Neural Network Quantization)

定义:
旨在通过减少神经网络中权重和激活值的表示精度来降低计算复杂度和存储需求。量化通常涉及将浮点数(如32位浮点数)转换为较低精度的整数(如8位整数),从而减少模型的存储空间和计算开销。

主要目标

减少存储空间:量化后的模型占用更少的存储空间,便于在资源受限的设备(如移动设备、嵌入式系统)上部署。

降低计算复杂度:量化后的模型在计算时使用更少的位数,从而减少计算开销,提高推理速度。

加速推理:量化可以利用硬件加速器(如GPU、TPU)的低精度计算能力,进一步提高推理速度。

量化方法

线性量化:

    均匀量化:将浮点数线性映射到整数范围。例如,将32位浮点数映射到8位整数。

    非均匀量化:使用非线性映射,通常通过查找表(LUT)实现。

非线性量化:

    对数量化:将浮点数映射到对数域,适用于权重分布不均匀的情况。

    混合精度量化:在不同层或不同神经元中使用不同的量化精度。

训练感知量化(Quantization-Aware Training, QAT):

    在训练过程中引入量化操作,使模型在训练时就适应量化后的表示。这样可以减少量化带来的精度损失。

对称量化(Symmetric Quantization) vs. 非对称量化(Asymmetric Quantization)

    对称量化:量化范围以零为中心,即量化范围是对称的。例如,将32位浮点数映射到8位整数时,量化范围可能是[-128, 127]。

    非对称量化:使用非均匀的量化范围来更好地适应数据的分布特性。量化范围不以零为中心,即量化范围是非对称的。例如,将32位浮点数映射到8位整数时,量化范围可能是[0, 255]或[-100, 155]。通常通过统计权重和激活值的分布来确定量化范围。
          
    非对称量化可以更好地适应数据的实际分布,尤其是在数据分布偏斜的情况下。例如,如果数据主要集中在正数区域,非对称量化可以更有效地利用量化范围。通过更精确地匹配数据的分布,非对称量化可以减少量化误差,从而在一定程度上保持模型的精度。      

量化过程

选择量化位数:决定量化后的位数,如8位、4位等。

确定量化范围:确定浮点数的量化范围,通常通过统计权重和激活值的分布来确定。

量化操作:将浮点数映射到整数范围,并存储量化后的权重和激活值。

反量化操作:在推理过程中,将量化后的整数反量化回浮点数进行计算。

应用场景

移动设备:在资源受限的移动设备上部署深度学习模型。

嵌入式系统:在嵌入式系统中实现高效的深度学习推理。

边缘计算:在边缘计算设备上进行实时推理。

示例

假设你有一个使用32位浮点数表示的卷积神经网络(CNN)模型。通过量化,你可以将权重和激活值转换为8位整数。这样,模型的存储空间可以减少到原来的1/4,计算复杂度也会显著降低。

神经网络量化步骤

选择量化位数:决定量化后的位数,如8位、4位等。

确定量化范围:确定浮点数的量化范围,通常通过统计权重和激活值的分布来确定。

量化操作:将浮点数映射到整数范围,并存储量化后的权重和激活值。

反量化操作:在推理过程中,将量化后的整数反量化回浮点数进行计算。

训练感知量化(可选):在训练过程中引入量化操作,使模型在训练时就适应量化后的表示。

大模型量化(Large Model Quantization)

是指对大规模深度学习模型进行量化处理,以减少模型的存储空间和计算复杂度。随着深度学习模型规模的不断增大,如BERT、GPT-3等,模型的参数量和计算量也急剧增加,这给模型的存储、推理和部署带来了巨大的挑战。大模型量化旨在通过降低模型的表示精度,来缓解这些挑战。
大模型的特点

参数量巨大:大模型通常包含数十亿甚至数千亿个参数。

计算复杂度高:大模型的推理和训练需要大量的计算资源。

存储需求大:大模型的存储需求巨大,尤其是在资源受限的设备上部署时。

大模型量化的目标

减少存储空间:通过量化减少模型的存储需求,使其更适合在资源受限的设备上部署。

降低计算复杂度:通过量化减少计算开销,提高推理速度。

保持模型精度:在量化过程中尽量减少模型精度的损失,确保量化后的模型仍然具有较高的性能。

大模型量化的方法

线性量化:

    均匀量化:将浮点数线性映射到整数范围。例如,将32位浮点数映射到8位整数。

    非均匀量化:使用非线性映射,通常通过查找表(LUT)实现。

非线性量化:

    对数量化:将浮点数映射到对数域,适用于权重分布不均匀的情况。

    混合精度量化:在不同层或不同神经元中使用不同的量化精度。

训练感知量化(Quantization-Aware Training, QAT):

    在训练过程中引入量化操作,使模型在训练时就适应量化后的表示。这样可以减少量化带来的精度损失。

分层量化:

    对模型的不同层采用不同的量化策略,以平衡精度和性能。例如,对计算密集的层使用较低的量化精度,对精度敏感的层使用较高的量化精度。

动态量化:

    在推理过程中动态调整量化参数,以适应不同的输入数据。这种方法可以进一步减少量化带来的精度损失。

大模型量化的挑战

精度损失:大模型量化可能会导致较大的精度损失,尤其是在极端量化(如4位或更低)时。

复杂性:大模型量化需要仔细调整量化参数,以平衡精度和性能。

硬件支持:量化后的模型需要硬件支持低精度计算,否则可能无法充分发挥量化的优势。

应用场景

自然语言处理(NLP):如BERT、GPT等模型,其输入文本的长度和内容可能变化较大。

计算机视觉(CV):如目标检测模型,其输入图像的分辨率和内容可能变化较大。

推荐系统:大规模推荐模型,如DeepFM、Wide & Deep等,其输入特征的分布可能变化较大。

示例

假设你有一个使用32位浮点数表示的BERT模型,参数量达到数十亿。通过量化,你可以将权重和激活值转换为8位整数。这样,模型的存储空间可以减少到原来的1/4,计算复杂度也会显著降低。

大模型量化步骤

选择量化位数:决定量化后的位数,如8位、4位等。

确定量化范围:确定浮点数的量化范围,通常通过统计权重和激活值的分布来确定。

量化操作:将浮点数映射到整数范围,并存储量化后的权重和激活值。

反量化操作:在推理过程中,将量化后的整数反量化回浮点数进行计算。

训练感知量化(可选):在训练过程中引入量化操作,使模型在训练时就适应量化后的表示。

分层量化:对模型的不同层采用不同的量化策略,以平衡精度和性能。

动态量化(可选):在推理过程中动态调整量化参数,以适应不同的输入数据

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2174478.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于Hive和Hadoop的哔哩哔哩网站分析系统

本项目是一个基于大数据技术的哔哩哔哩平台分析系统,旨在为用户提供全面的哔哩哔哩视频数据和深入的用户行为分析。系统采用 Hadoop 平台进行大规模数据存储和处理,利用 MapReduce 进行数据分析和处理,通过 Sqoop 实现数据的导入导出&#xf…

金镐开源组织成立,增加最新KIT技术,望能为开源添一把火

国内做开源的很多,知名的若依、芋道源码、Pig、Guns等,可谓是百花齐放,虽然比不上Apache,但也大大提高了国内的生产力。经过多年的发展,一些开源项目逐渐也都开始商业化。基于这样的背景,我拉拢了三个技术人…

SO-ELM预测 | MATLAB实现SO-ELM蛇群算法优化极限学习机多输入单输出

回归预测 | MATLAB实现SO-ELM蛇群算法优化极限学习机多输入单输出 目录 回归预测 | MATLAB实现SO-ELM蛇群算法优化极限学习机多输入单输出效果一览基本介绍程序设计效果一览 基本介绍 Matlab实现SO-ELM蛇群算法优化极限学习机多变量回归预测 1.data为数据集,7个输入特征,1个输…

SIGA 气路柜系统VAPORIZER SYSTEM VS-111-321 含电路图

SIGA 气路柜系统VAPORIZER SYSTEM VS-111-321 含电路图

stm32单片机个人学习笔记8(TIM输出比较)

前言 本篇文章属于stm32单片机(以下简称单片机)的学习笔记,来源于B站教学视频。下面是这位up主的视频链接。本文为个人学习笔记,只能做参考,细节方面建议观看视频,肯定受益匪浅。 STM32入门教程-2023版 细…

第一批学Ai绘画的人,到底是怎么变现的?变现方式详细拆解!

Ai绘画技术发展到现在,已经有不少人通过这个渠道实现了变现。 我们在羡慕别人赚钱的同时,也应该从中不断地总结,思考哲轩变现方式的共同之处,在总结出找到属于自己的变现方式。 今天我就结合一些以往变现的成功案例,…

UnityShader 一种RGB分离效果

UnityShader 一种RGB分离效果 前言项目ASE截图 前言 看到一种RGB分离的Shader效果,记录一下。 项目 ASE截图

JavaEE: 探索网络世界的核心-IP协议

文章目录 IP 协议协议头格式IP 地址IP地址的数量限制解决IP不够用的问题 IP 地址的网段划分子网掩码ABCDE五类网络 特殊的 IP 地址 IP 协议 协议头格式 4位版本号: 只有两个取值,4(IPv4)和6(IPv6). IPv2,IPv5这些在实际中是没有的,可能是理论上/实验室中存在~ 4位首部长度: IP…

Adobe PR与AE的区别与联系(附网盘地址)

从事视频后期制作的小伙伴,对于PR(Premiere)和AE(After Effects)应该不会陌生。随着短视频的兴起,就连我们普通用户,拍摄完视频,都会去糟取精的剪辑一下,而PR正是一款功能…

【ESP32】Arduino开发 | I2C控制器+I2C主从收发例程

有关I2C控制器的详细介绍放在了IDF开发的文章中,跳转栏目目录可以找到对应的文章。 1. API Arduino启动时就已经实例化了两个I2C设备类,分别对应Wire和Wire1对象。 1.1 初始化 bool begin(int sda, int scl, uint32_t frequency0); // returns true, i…

安全教育培训小程序系统开发制作方案

安全教育培训小程序系统是为了提高公众的安全意识,普及安全知识,通过微信小程序的方式提供安全教育培训服务,帮助用户了解并掌握必要的安全防范措施。 一、目标用户 企业员工:各岗位员工,特别是IT部门、财务、行政等对…

08-Registry搭建docker私仓

08-Registry搭建docker私仓 Docker Registry Docker Registry是官方提供的工具,用于构建私有镜像仓库。 环境搭建 Docker Registry也是Docker Hub提供的一个镜像,可以直接拉取运行。 步骤: 拉取镜像 docker pull registry启动Docker R…

Html 转为 MarkDown

在 RAG 中,通常需要将 HTML 转为 Markdown,有很多第三方 API 都支持 HTML 的转换,本文使用一个代码文档的例子 https://www.joinquant.com/help/api/help#name:Stock,将聚宽 API 转为 Markdown。本文通过两种方式进行实现,使用收费和开源的解决方案。聚宽 API 格式转为 Ma…

接口自动化测试数据怎么来?涉及资金的接口如何在线上回归?

最近,有一位小伙伴提出一个问题: 目前在用pytest做接口自动化,因为一开始就想要把这套接口自动化用到生产环境,所以考虑的问题比较多一点点。 请问: 1.在做接口自动化的过程中,参数的数据应该从哪里来比较…

【virtuous】ron与rout的区别

ron:直流阻抗,大信号电阻 rout:交流阻抗,,小信号电阻

钰泰-ETA1611 升压IC

描述 ETA1611是一款高效升压转换器,内部集成了22V电源MOSEFT。它以的 1MHz 频率运行,允许使用小型外部组件,同时仍能提供效率。它可以驱动高达 2A 的输出电流。通过 EN 引脚集成的真正 PWM 调光功能可以进一步以数字方式设置更低的输出电压。…

SNIDA

saliency mask M n _n n​ obtained from SOD is pasted onto the background mask to obtain the mask M I ( s ) _{I(s)} I(s)​ of the input image I as a prior 辅助信息 作者未提供代码

Python体素化脑信息图混淆矩阵相似性指标评估

🎯要点 使用相似性度量等算法类别学习评估大脑神经相似性。使用混淆矩阵分类器评估相似性,使用斯皮尔曼相关性关联相似度矩阵与混淆矩阵。特征化体素选择,优化相似性度量矩阵,用分类器近似大脑状态信息。将先验分布建模为二项分布…

FastAPI前置知识及快速入门

FastAPI fastapi,一个用于构建 API 的现代、快速(高性能)的web框架。 fastapi是建立在Starlette和Pydantic基础上的,Pydantic是一个基于Python类型提示来定义数据验证、序列化和文档的库。Starlette是一种轻量级的ASGI框架/工具包…

MyBatis——Plus——入门

常用注解 MyBatis——Plus怎么知道他是访问哪张表 常用配置