一起学AI:核心基础概念

news2024/12/22 19:53:18

一起学AI:核心基础概念

    • AI基础概念
      • 什么是学习率?
      • batchsize和epoch分别是什么?
      • 梯度消失与梯度爆炸是什么?
      • 什么是过拟合、欠拟合和泛化?
      • 归一化、正则化、标准化是什么?
      • 线性回归和逻辑回归是什么?
      • 神经网络里普通参数与超参的区别是什么?
    • AI常见问题与解决

在这里插入图片描述

一起学AI系列博客:目录索引

本文笔记小结深度学习里的核心基础概念和高频知识点分析。

AI基础概念


什么是学习率?

  • 学习率alpha是一个人为控制的超参数,有时也叫learning rate(lr)
  • 学习率的范围,通常是(0, 1]
  • 学习率通常用在神经元权重更新上,公式为:w = w - alpha * D
  • 学习率的用途是控制权重更新的步幅,一个合适lr可以帮助模型找到最优权重,从而快速收敛。

batchsize和epoch分别是什么?

epoch和batchsize概念辨析

  • batchsize,是将训练集拆分成若干个mini batch,每个batch的大小称为batchsize;设训练集m个样本,每个batch样本n个,则batch个数为k=m/n个
  • epoch,指整个训练集每进一轮网络迭代更新权重,算1个epoch,一般10-100个epoch就能将整个训练集收敛了

梯度消失与梯度爆炸是什么?

梯度消失与梯度爆炸问题与解决

  • 梯度消失,又称梯度弥散
    • 现象:离输出层越远的神经元越难以快速更新权重,主要源自sigmoid求导函数乘的a(1-a),a范围是0-1,则求导函数值域就是(0,0.25)永远小于1,致使网络层数加深后,输入层附近的神经元权重几乎无法更新,难以训练。
    • 解决:BP出了后,因为这一问题,深度学习又消停许多年。直到relu出现,relu求导为1或0不会有权值缩放的问题,最终更换激活函数得以解决。
  • 梯度爆炸
    • 现象:relu引入又可能导致梯度爆炸,即若权重初始值很大时,迭代w=w-D,D不断累积而来变成一个极大的数(梯度爆炸),导致w更新后极负。
    • 后果:有关神经元炸死,w*a数值均小于0,relu输出0,不管啥输入都会置零,神经元失效。
    • 解决:1、用改进后的relu;2、采用适当的权重初始化方法,逐层初始化

什么是过拟合、欠拟合和泛化?

在这里插入图片描述

  • 过拟合:就是指虽然训练集误差越来越小,但是在测试集上误差越来越大的现象。表示模型对训练集数据过拟合了,无法有效预测集外数据。
  • 泛化性:指的是评价模型好坏的一个标准,针对新数据的预测准确率越差泛化性越差,反之,则泛化性越好。如果模型不鲁棒,或训练集准确率高、测试集准确率低,就可以称模型泛化性差。本质上,过拟合就是模型泛化性差的体现。
  • 欠拟合:与过拟合相反,指的是模型在训练集上准确率一直无法提升到预期值,说明当前模型无法顺利拟合,需要修改模型或者增加数据。

过拟合与泛化

  • 拟合指的是和目标的接近程度
  • 过拟合和泛化是相互矛盾的点
  • 过拟合,导致泛化能力差
  • 泛化能力好,拟合精度可能就没那么完美

归一化、正则化、标准化是什么?

  • 归一化(Normalization)
    • 是为了统一尺度,
    • 统一尺度为无量纲数,将数据都缩放到[0, 1]区间
    • 方式1:不改分布
      • 通过最大值、最小值和平均值来映射,公式为:X_normal = (X - min) / (max - min)
    • 方式2:改分布,则成为标准化(Standardization)
      • 调整后mu和sigma分别为0,1。
      • 公式为:X_normal = (X - mu) / sigma
    • 效果:便于观察分析,使网络快速收敛。
  • 正则化(Regularization)
    • 惩罚高阶参数,最小化误差的同时,防止过拟合,。
    • 注意与正交化相区分,正交化是为了去除数据相关性,使其正交,便于计算
  • 进阶参考:link1,link2

线性回归和逻辑回归是什么?

  • 线性回归
    • 输出是一条直线,连续值,适合做拟合
    • 回归前是连续的,回归后分类,是离散的
    • 类型已知,是个固定值
  • 逻辑回归(softmax回归)
    • 输出单独结果,离散值,适合做分类
    • 翻译问题,这里的logistic,本质跟逻辑无关,而是取Logarithm:对数的意思
    • 将R实数压缩到[0, 1]范围,转换成概率后,就能适用分类问题
      • 若X输进去,分别检测是否为0、1、…、9,输出对应的概率,选择概率最大的那个,作为最终分类结果
  • 联系
    • 逻辑回归是线性回归的特例
    • sigmoid/softmax非线性激活函数接在线性回归的输出上,成为了逻辑回归

参考资料:

  1. 浅析机器学习:线性回归 & 逻辑回归,https://zhuanlan.zhihu.com/p/39363869

神经网络里普通参数与超参的区别是什么?

  • 普通参数,指模型根据数据不断学习更新而来,根据数据和损失函数,不断梯度下降,可以自动处理的模型参数,主要指神经元权重w
  • 超参,指需人工根据经验指定的参数,如卷积核的尺寸、连接神经元个数、层数、维度,批量大小beta,学习率lr等

AI常见问题与解决


学习率衰减lr-decay

  • 问题:训练集误差越来越小,而测试误差会先减小,后增大,则此时出现了过拟合
  • 解决:
    • 利用学习率衰减的方法,前期大步跑,后期小步跑;再过拟合前刹住,停止迭代。

在这里插入图片描述

人工数据增强的常见方法

  • 问题:数据集样本少,质量低
  • 解决:思路是数据不够,人工拼凑
  • 具体方法:以图像为例
    • 亮度、饱和度、对比度调节
    • 随机截取、旋转、对称图像
    • 图像加噪

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/676525.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

端午特别征文

前言 提示:这里可以添加本文要记录的大概内容: 韩顺平教育的java坦克大战 提示:以下是本篇文章正文内容,下面案例可供参考 一、Java绘图技术 1.g.drawOval()是什么? 画椭圆函数g.drawOval(); (宽高时候为圆形) …

Kafka系列之:一次性传送和事务消息传递

Kafka系列之:一次性传送和事务消息传递 一、目标二、关于事务和流的一些知识三、公共接口四、示例应用程序五、新配置六、计划变更1.幂等生产者保证2.事务保证 七、关键概念八、数据流九、授权十、RPC 协议总结1.获取请求/响应2.生产请求/响应3.ListOffset请求/响应…

GIT —— 基本操作,分支管理,远程操作

GIT 企业开发 最近找实习,在完善简历,遂发一发存货,有待持续完善,我认为这部分非常的有意义 1. 基本操作 1.1 创建,配置本地仓库 创建 mkdir gitcode cd gitcode git init配置 git config user.name "bts&quo…

HTTP 超文本传输协议

1.HTTP(Hypertext Transfer Protocol,超文本传输协议) 是一种用于传输超媒体文档(例如HTML文件,可以包含文本,视频,图片,音乐,地图定位)的应用层协议&#x…

【windows10】查看计算机的WIFI密码

【windows10】查看计算机的WIFI密码 1、背景2、操作 1、背景 无线路由器设置完密码后,经常会忘记。 当有新的设备需要接入网络的时候,如何能快速获得wifi密码呢? 本博客分享一种通过已联网的计算机来查看wifi密码。 2、操作 -step-2.1、打…

阿里云服务器的备案流程和规定如何?如何办理备案手续?

阿里云服务器的备案流程和规定如何?如何办理备案手续?   一、备案流程概述   阿里云服务器的备案流程分为五个主要步骤:1)实名认证;2)填写备案信息;3)上传资料;4&…

Web服务器群集:链路聚合与桥接

目录 一、理论 1.链路聚合 2.bond模式 3.team模式 4.bond和team区别 二、实验 1.实现bond网络接口 2.实现team网络接口 三、总结 一、理论 1.链路聚合 (1)概念 链路聚合(Link Aggregation),它是一个计算机…

【Vue】Vite基础学习

文章目录 Vite 基础学习一、单页面应用程序二、Vite 基本使用2.1 创建 vite 项目2.2 项目结构2.3 项目运行流程 Vite 基础学习 一、单页面应用程序 单页面应用程序(英文名:Single Page Application)简称 SPA,顾名思义&#xff0c…

springboot:定时任务

目录 一、实现定时任务的方法一:基于JDK 方法一:使用JDK自带的Timer类 法二:使用ScheduleExecutorsService类 二、基于Spring Task实现定时任务(推荐使用) 三、基于Quartz实现定时调度 四、使用分布式定时任务框架:elastic-j…

基础-进阶-升级~图解SpringSecurity的RememberMe流程|源码

前言 今天我们来聊一下登陆页面中“记住我”这个看似简单实则复杂的小功能。 如图就是博客园登陆时的“记住我”选项,在实际开发登陆接口以前,我一直认为这个“记住我”就是把我的用户名和密码保存到浏览器的 cookie 中,当下次登陆时浏览器…

关于Synchronized的小结

目录 一.特性 1.既是乐观锁又是悲观锁 2.是轻量级锁,也是重量级锁 3.不是读写锁,是互斥锁 4.是可重入锁 5.非公平锁 6.加锁之后,运行完毕自动解锁释放资源 二:Synchronized使用 第一种:定义一个额外的变量来控制加锁和解锁(类似于吉祥物) 第一种:直接给类/方法上锁 三…

【Linux】MySQL备份与恢复

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 MySQL备份与恢复 一、数据备份的重要性1.数据库备份的分类2.常见的备份方法3.MySQL完全备份与分类 二、MySQL 日志管理三、MySQL 备份与恢复1.MySQL 完全备份1.物理冷备份与恢…

Linux 服务器以及各个系统下安装

Linux 服务器 Linux是操作系统: Linux作为自由软件和开放源代码软件发展中最著名的例子,背靠社区与商业化的使用,使其得到了广泛的应用与发展。 Linux无处不在: 世界上500个最快的超级计算机90%以上运行Linux发行版…

【MyBatis学习】动态SQL的使用,MyBatis还能这样使用?惊掉了我的下巴 ,赶快带着好奇心一起畅游动态SQL的海洋吧! ! !

前言: 大家好,我是良辰丫,今天我们来学习一下MyBatis中动态sql的使用,带着疑惑走进我们今天的学习! ! !💌💌💌 🧑个人主页:良辰针不戳 📖所属专栏:javaEE进阶篇之框架学习 🍎励志语句…

短视频矩阵源码开发部署技术解析

短视频矩阵源码开发涉及到多个方面的技术,包括但不限于以下几点: 抖yinAPI:需要通过API获取抖音的视频、用户、评论、点赞等数据。 抖yinSDK:如果需要开发一些原生的功能,比如分享、登录、支付等,需要使用…

深入解析大型语言模型:从训练到部署大模型

简介 随着数据科学领域的深入发展,大型语言模型—这种能够处理和生成复杂自然语言的精密人工智能系统—逐渐引发了更大的关注。 LLMs是自然语言处理(NLP)中最令人瞩目的突破之一。这些模型有潜力彻底改变从客服到科学研究等各种行业&#x…

【每天40分钟,我们一起用50天刷完 (剑指Offer)】第四天 4/50

专注 效率 记忆 预习 笔记 复习 做题 欢迎观看我的博客,如有问题交流,欢迎评论区留言,一定尽快回复!(大家可以去看我的专栏,是所有文章的目录)   文章字体风格: 红色文字表示&#…

Jenkins集成Sonar与Gitlab代码质量检测

前提默认 安装docker19,与docker-compose 安装Jenkins 1、docker-compose.yaml配置 version: 3 services: jenkins: #network_mode: "host" #镜像 image: jenkins/jenkins:2.399-jdk11 #容器名称 container_name: jenkins #启动模式 res…

探索uniapp+vue3解析markdown语法|uniapp键盘撑起

最近正在尝试使用uniappvue3开发仿制chatgpt会话功能。 如上图:经过测试在h5/App端/小程序端 均支持markdown语法解析,键盘撑起后,整体页面和顶部自定义导航栏不会被顶起。 uniapp markdown解析及语法高亮 使用了markdown-it和highlight.js…

深入理解深度学习——BERT(Bidirectional Encoder Representations from Transform):输入表示

分类目录:《深入理解深度学习》总目录 BERT在预训练阶段使用了《深入理解深度学习——BERT(Bidirectional Encoder Representations from Transform):MLM(Masked Language Model)》和《深入理解深度学习——…