一起学AI：核心基础概念

一起学AI：核心基础概念

news2026/2/11 16:26:13

一起学AI：核心基础概念

- AI基础概念
- - 什么是学习率？
  - batchsize和epoch分别是什么？
  - 梯度消失与梯度爆炸是什么？
  - 什么是过拟合、欠拟合和泛化？
  - 归一化、正则化、标准化是什么？
  - 线性回归和逻辑回归是什么？
  - 神经网络里普通参数与超参的区别是什么？
- AI常见问题与解决

在这里插入图片描述

一起学AI系列博客：目录索引

本文笔记小结深度学习里的核心基础概念和高频知识点分析。

AI基础概念

什么是学习率？

学习率alpha是一个人为控制的超参数，有时也叫learning rate(lr)
学习率的范围，通常是(0, 1]
学习率通常用在神经元权重更新上，公式为：w = w - alpha * D
学习率的用途是控制权重更新的步幅，一个合适lr可以帮助模型找到最优权重，从而快速收敛。

batchsize和epoch分别是什么？

epoch和batchsize概念辨析

batchsize，是将训练集拆分成若干个mini batch，每个batch的大小称为batchsize；设训练集m个样本，每个batch样本n个，则batch个数为k=m/n个
epoch，指整个训练集每进一轮网络迭代更新权重，算1个epoch，一般10-100个epoch就能将整个训练集收敛了

梯度消失与梯度爆炸是什么？

梯度消失与梯度爆炸问题与解决

梯度消失，又称梯度弥散
- 现象：离输出层越远的神经元越难以快速更新权重，主要源自sigmoid求导函数乘的a(1-a)，a范围是0-1，则求导函数值域就是（0,0.25）永远小于1，致使网络层数加深后，输入层附近的神经元权重几乎无法更新，难以训练。
- 解决：BP出了后，因为这一问题，深度学习又消停许多年。直到relu出现，relu求导为1或0不会有权值缩放的问题，最终更换激活函数得以解决。
梯度爆炸
- 现象：relu引入又可能导致梯度爆炸，即若权重初始值很大时，迭代w=w-D，D不断累积而来变成一个极大的数（梯度爆炸），导致w更新后极负。
- 后果：有关神经元炸死，w*a数值均小于0，relu输出0，不管啥输入都会置零，神经元失效。
- 解决：1、用改进后的relu；2、采用适当的权重初始化方法，逐层初始化

什么是过拟合、欠拟合和泛化？

在这里插入图片描述

过拟合：就是指虽然训练集误差越来越小，但是在测试集上误差越来越大的现象。表示模型对训练集数据过拟合了，无法有效预测集外数据。
泛化性：指的是评价模型好坏的一个标准，针对新数据的预测准确率越差泛化性越差，反之，则泛化性越好。如果模型不鲁棒，或训练集准确率高、测试集准确率低，就可以称模型泛化性差。本质上，过拟合就是模型泛化性差的体现。
欠拟合：与过拟合相反，指的是模型在训练集上准确率一直无法提升到预期值，说明当前模型无法顺利拟合，需要修改模型或者增加数据。

过拟合与泛化

拟合指的是和目标的接近程度
过拟合和泛化是相互矛盾的点
过拟合，导致泛化能力差
泛化能力好，拟合精度可能就没那么完美

归一化、正则化、标准化是什么？

归一化(Normalization)
- 是为了统一尺度，
- 统一尺度为无量纲数，将数据都缩放到[0, 1]区间
- 方式1：不改分布
  - 通过最大值、最小值和平均值来映射，公式为：X_normal = (X - min) / (max - min)
- 方式2：改分布，则成为标准化(Standardization)
  - 调整后mu和sigma分别为0,1。
  - 公式为：X_normal = (X - mu) / sigma
- 效果：便于观察分析，使网络快速收敛。
正则化(Regularization)
- 惩罚高阶参数，最小化误差的同时，防止过拟合，。
- 注意与正交化相区分，正交化是为了去除数据相关性，使其正交，便于计算
进阶参考：link1，link2

线性回归和逻辑回归是什么？

线性回归
- 输出是一条直线，连续值，适合做拟合
- 回归前是连续的，回归后分类，是离散的
- 类型已知，是个固定值
逻辑回归(softmax回归)
- 输出单独结果，离散值，适合做分类
- 翻译问题，这里的logistic，本质跟逻辑无关，而是取Logarithm：对数的意思
- 将R实数压缩到[0, 1]范围，转换成概率后，就能适用分类问题
  - 若X输进去，分别检测是否为0、1、…、9，输出对应的概率，选择概率最大的那个，作为最终分类结果
联系
- 逻辑回归是线性回归的特例
- sigmoid/softmax非线性激活函数接在线性回归的输出上，成为了逻辑回归

参考资料：

浅析机器学习：线性回归 & 逻辑回归，https://zhuanlan.zhihu.com/p/39363869

神经网络里普通参数与超参的区别是什么？

普通参数，指模型根据数据不断学习更新而来，根据数据和损失函数，不断梯度下降，可以自动处理的模型参数，主要指神经元权重w
超参，指需人工根据经验指定的参数，如卷积核的尺寸、连接神经元个数、层数、维度，批量大小beta，学习率lr等

AI常见问题与解决

学习率衰减lr-decay

问题：训练集误差越来越小，而测试误差会先减小，后增大，则此时出现了过拟合
解决：
- 利用学习率衰减的方法，前期大步跑，后期小步跑；再过拟合前刹住，停止迭代。

在这里插入图片描述

人工数据增强的常见方法

问题：数据集样本少，质量低
解决：思路是数据不够，人工拼凑
具体方法：以图像为例
- 亮度、饱和度、对比度调节
- 随机截取、旋转、对称图像
- 图像加噪

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/676525.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

端午特别征文

端午特别征文

前言提示：这里可以添加本文要记录的大概内容： 韩顺平教育的java坦克大战提示：以下是本篇文章正文内容，下面案例可供参考一、Java绘图技术 1.g.drawOval()是什么？ 画椭圆函数g.drawOval(); (宽高时候为圆形) …

阅读更多...

Kafka系列之：一次性传送和事务消息传递

Kafka系列之：一次性传送和事务消息传递

Kafka系列之：一次性传送和事务消息传递一、目标二、关于事务和流的一些知识三、公共接口四、示例应用程序五、新配置六、计划变更1.幂等生产者保证2.事务保证七、关键概念八、数据流九、授权十、RPC 协议总结1.获取请求/响应2.生产请求/响应3.ListOffset请求/响应…

阅读更多...

GIT —— 基本操作，分支管理，远程操作

GIT —— 基本操作，分支管理，远程操作

GIT 企业开发最近找实习，在完善简历，遂发一发存货，有待持续完善，我认为这部分非常的有意义 1. 基本操作 1.1 创建，配置本地仓库创建 mkdir gitcode cd gitcode git init配置 git config user.name "bts&quo…

阅读更多...

HTTP 超文本传输协议

HTTP 超文本传输协议

1.HTTP（Hypertext Transfer Protocol，超文本传输协议） 是一种用于传输超媒体文档（例如HTML文件，可以包含文本，视频，图片，音乐，地图定位）的应用层协议&#x…

阅读更多...

【windows10】查看计算机的WIFI密码

【windows10】查看计算机的WIFI密码

【windows10】查看计算机的WIFI密码 1、背景2、操作 1、背景无线路由器设置完密码后，经常会忘记。当有新的设备需要接入网络的时候，如何能快速获得wifi密码呢？ 本博客分享一种通过已联网的计算机来查看wifi密码。 2、操作 -step-2.1、打…

阅读更多...

阿里云服务器的备案流程和规定如何？如何办理备案手续？

阿里云服务器的备案流程和规定如何？如何办理备案手续？

阿里云服务器的备案流程和规定如何？如何办理备案手续？ 　　一、备案流程概述　　阿里云服务器的备案流程分为五个主要步骤：1）实名认证；2）填写备案信息；3）上传资料；4&…

阅读更多...

Web服务器群集:链路聚合与桥接

Web服务器群集:链路聚合与桥接

目录一、理论 1.链路聚合 2.bond模式 3.team模式 4.bond和team区别二、实验 1.实现bond网络接口 2.实现team网络接口三、总结一、理论 1.链路聚合 （1）概念链路聚合（Link Aggregation），它是一个计算机…

阅读更多...

【Vue】Vite基础学习

【Vue】Vite基础学习

文章目录 Vite 基础学习一、单页面应用程序二、Vite 基本使用2.1 创建 vite 项目2.2 项目结构2.3 项目运行流程 Vite 基础学习一、单页面应用程序单页面应用程序（英文名：Single Page Application）简称 SPA，顾名思义&#xff0c…

阅读更多...

springboot：定时任务

springboot：定时任务

目录一、实现定时任务的方法一：基于JDK 方法一：使用JDK自带的Timer类法二：使用ScheduleExecutorsService类二、基于Spring Task实现定时任务(推荐使用) 三、基于Quartz实现定时调度四、使用分布式定时任务框架：elastic-j…

阅读更多...

基础-进阶-升级~图解SpringSecurity的RememberMe流程|源码

基础-进阶-升级~图解SpringSecurity的RememberMe流程|源码

前言今天我们来聊一下登陆页面中“记住我”这个看似简单实则复杂的小功能。如图就是博客园登陆时的“记住我”选项，在实际开发登陆接口以前，我一直认为这个“记住我”就是把我的用户名和密码保存到浏览器的 cookie 中，当下次登陆时浏览器…

阅读更多...

关于Synchronized的小结

关于Synchronized的小结

目录一.特性 1.既是乐观锁又是悲观锁 2.是轻量级锁,也是重量级锁 3.不是读写锁,是互斥锁 4.是可重入锁 5.非公平锁 6.加锁之后,运行完毕自动解锁释放资源二:Synchronized使用第一种:定义一个额外的变量来控制加锁和解锁(类似于吉祥物) 第一种:直接给类/方法上锁三…

阅读更多...

【Linux】MySQL备份与恢复

【Linux】MySQL备份与恢复

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档 MySQL备份与恢复一、数据备份的重要性1.数据库备份的分类2.常见的备份方法3.MySQL完全备份与分类二、MySQL 日志管理三、MySQL 备份与恢复1.MySQL 完全备份1.物理冷备份与恢…

阅读更多...

Linux 服务器以及各个系统下安装

Linux 服务器以及各个系统下安装

Linux 服务器 Linux是操作系统： Linux作为自由软件和开放源代码软件发展中最著名的例子，背靠社区与商业化的使用，使其得到了广泛的应用与发展。 Linux无处不在： 世界上500个最快的超级计算机90％以上运行Linux发行版…

阅读更多...

【MyBatis学习】动态SQL的使用,MyBatis还能这样使用?惊掉了我的下巴 ,赶快带着好奇心一起畅游动态SQL的海洋吧! ! !

【MyBatis学习】动态SQL的使用,MyBatis还能这样使用?惊掉了我的下巴 ,赶快带着好奇心一起畅游动态SQL的海洋吧! ! !

前言: 大家好,我是良辰丫,今天我们来学习一下MyBatis中动态sql的使用,带着疑惑走进我们今天的学习! ! !💌💌💌 🧑个人主页：良辰针不戳 📖所属专栏：javaEE进阶篇之框架学习 🍎励志语句…

阅读更多...

短视频矩阵源码开发部署技术解析

短视频矩阵源码开发部署技术解析

短视频矩阵源码开发涉及到多个方面的技术，包括但不限于以下几点： 抖yinAPI：需要通过API获取抖音的视频、用户、评论、点赞等数据。抖yinSDK：如果需要开发一些原生的功能，比如分享、登录、支付等，需要使用…

阅读更多...

深入解析大型语言模型：从训练到部署大模型

深入解析大型语言模型：从训练到部署大模型

简介随着数据科学领域的深入发展，大型语言模型—这种能够处理和生成复杂自然语言的精密人工智能系统—逐渐引发了更大的关注。 LLMs是自然语言处理（NLP）中最令人瞩目的突破之一。这些模型有潜力彻底改变从客服到科学研究等各种行业&#x…

阅读更多...

【每天40分钟，我们一起用50天刷完 (剑指Offer)】第四天 4/50

【每天40分钟，我们一起用50天刷完 (剑指Offer)】第四天 4/50

专注效率记忆预习笔记复习做题欢迎观看我的博客，如有问题交流，欢迎评论区留言，一定尽快回复！（大家可以去看我的专栏，是所有文章的目录） 　文章字体风格： 红色文字表示&#…

阅读更多...

Jenkins集成Sonar与Gitlab代码质量检测

Jenkins集成Sonar与Gitlab代码质量检测

前提默认安装docker19，与docker-compose 安装Jenkins 1、docker-compose.yaml配置 version: 3 services: jenkins: #network_mode: "host" #镜像 image: jenkins/jenkins:2.399-jdk11 #容器名称 container_name: jenkins #启动模式 res…

阅读更多...

探索uniapp+vue3解析markdown语法|uniapp键盘撑起

探索uniapp+vue3解析markdown语法|uniapp键盘撑起

最近正在尝试使用uniappvue3开发仿制chatgpt会话功能。如上图：经过测试在h5/App端/小程序端均支持markdown语法解析，键盘撑起后，整体页面和顶部自定义导航栏不会被顶起。 uniapp markdown解析及语法高亮使用了markdown-it和highlight.js…

阅读更多...

深入理解深度学习——BERT（Bidirectional Encoder Representations from Transform）：输入表示

深入理解深度学习——BERT（Bidirectional Encoder Representations from Transform）：输入表示

分类目录：《深入理解深度学习》总目录 BERT在预训练阶段使用了《深入理解深度学习——BERT（Bidirectional Encoder Representations from Transform）：MLM（Masked Language Model）》和《深入理解深度学习——…

阅读更多...

推荐文章

最新文章