吃瓜教程Day1笔记

news2025/2/12 9:54:38

主要内容:

1. 什么是机器学习以及

2. 机器学习的相关数学符号,为后续内容作铺垫,并未涉及复杂的算法理论,

因此阅读本章时只需耐心梳理清楚所有概念和数学符号即可。

3. “模型评估与选择”

是在模型产出以后进行的下游工作,要想完全吸收本章内容需要读者对模型 有一些基本的认知,因此零基础的读者直接看本章会很吃力,实属正常,在此建议零基础的读者可以简单泛读本章,仅看能看懂的部分即可。(数学部分已经略过)


样本:也称为“示例”,是关于一个事件或对象的描述。因为要想让计算机能对现实生活中的事物 进行机器学习,必须先将其抽象为计算机能理解的形式,计算机最擅长做的就是进行数学运算,因此考 虑如何将其抽象为某种数学形式。

显然,线性代数中的向量就很适合,因为任何事物都可以由若干“特 征”(或称为“属性”)唯一刻画出来,而向量的各个维度即可用来描述各个特征。


样本空间:也称为“输入空间”或“属性空间”。由于样本采用的是标明各个特征取值的“特征向量” 来进行表示,根据线性代数的知识可知,有向量便会有向量所在的空间,因此称表示样本的特征向量所在 的空间为样本空间。


数据集:数据集通常用集合来表示,令集合 D = {x1, x2, ..., xm} 表示包含 m 个样本的数据集,一般 同一份数据集中的每个样本都含有相同个数的特征,假设此数据集中的每个样本都含有 d 个特征,则第 i 个样本的数学表示为 d 维向量:xi = (xi1; xi2; ...; xid),其中 xij 表示样本 xi 在第 j 个属性上的取值。


模型:机器学习的一般流程如下:首先收集若干样本(假设此时有 100 个),然后将其分为训练样本 (80 个)和测试样本(20 个),其中 80 个训练样本构成的集合称为“训练集”,20 个测试样本构成的集合 称为“测试集”,接着选用某个机器学习算法,让其在训练集上进行“学习”(或称为“训练”),然后产出 得到“模型”(或称为“学习器”),最后用测试集来测试模型的效果。执行以上流程时,表示我们已经默认 样本的背后是存在某种潜在的规律,我们称这种潜在的规律为“真相”或者“真实”。


标记:上文提到机器学习的本质就是在学习样本在某个方面的表现是否存在潜在的规律,我们称该方 面的信息为“标记”。例如在学习西瓜的好坏时,“好瓜”和“坏瓜”便是样本的标记。

根据标记的取值类型不同,可将机器学习任务分为以下两类:

• 当标记取值为离散型时,称此类任务为“分类”,例如学习西瓜是好瓜还是坏瓜、学习猫的图片是白 猫还是黑猫等。当分类的类别只有两个时,称此类任务为“二分类”,通常称其中一个为“正类”,另 一个为“反类”或“负类”;当分类的类别超过两个时,称此类任务为“多分类”。由于标记也属于样 本的一部分,通常也需要参与运算,因此也需要将其数值化,例如对于二分类任务,通常将正类记为 1,反类记为 0,即 Y = {0, 1}。这只是一般默认的做法,具体标记该如何数值化可根据具体机器学 习算法进行相应地调整,例如第 6 章的支持向量机算法则采用的是 Y = {−1, +1};

• 当标记取值为连续型时,称此类任务为“回归”,例如学习预测西瓜的成熟度、学习预测未来的房价 等。由于是连续型,因此标记的所有可能取值无法直接罗列,通常只有取值范围,回归任务的标记取 值范围通常是整个实数域 R,即 Y = R。

根据是否有用到标记信息,可将机器学习任务分为以下两类:

• 在模型训练阶段有用到标记信息时,称此类任务为“监督学习”,例如第 3 章的线性模型;

• 在模型训练阶段没用到标记信息时,称此类任务为“无监督学习”,例如第 9 章的聚类。


泛化:由于机器学习的目标是根据已知来对未知做出尽可能准确的判断,因此对未知事物判断的准确 与否才是衡量一个模型好坏的关键,我们称此为“泛化”能力。

尽管模型 fa(x) 和模型 fb(x) 对训练集学得一样好,即两个模型对训练集中每个 样本的判断都对,但是其所学到的规律是不同的。导致此现象最直接的原因是算法的不同,但是算法通常 是有限的,可穷举的,尤其是在特定任务场景下可使用的算法更是有限,因此,数据便是导致此现象的另 一重要原因,这也就是机器学习领域常说的“数据决定模型的上限,而算法则是让模型无限逼近上限”, 下面详细解释此话的含义。

先解释“数据决定模型效果的上限”,其中数据是指从数据量和特征工程两个角度考虑。从数据量的 角度来说,通常数据量越大模型效果越好,因为数据量大即表示累计的经验多,因此模型学习到的经验也 多,自然表现效果越好。

而“算法则是让模型无限逼近上限”是指当数据相关的工作已准备充分时,接下来便可用各种可适用 的算法从数据中学习其潜在的规律进而得到模型,不同的算法学习得到的模型效果自然有高低之分,效果 越好则越逼近上限,即逼近真相。


分布:此处的“分布”指的是概率论中的概率分布,通常假设样本空间服从一个未知“分布”D,而 我们收集到的每个样本都是独立地从该分布中采样得到,即“独立同分布”。通常收集到的样本越多,越 能从样本中反推出 D 的信息,即越接近真相。此假设属于机器学习中的经典假设,在后续学习机器学习 算法过程中会经常用到。


理解“假设空间”和“版本空间”

作为训练集可以有多个假设空间,且在不同的假设空间中都有可能学得能够拟合训练集的模型,我们将所 有能够拟合训练集的模型构成的集合称为“版本空间”。

归纳偏好

当选用一元线性回归算法时,学得的模型是一元一次函数,当选 用多项式回归算法时,学得的模型是一元二次函数,所以不同的机器学习算法有不同的偏好,我们称为 “归纳偏好”。

著名的“奥卡姆剃刀”原则认为“若有多个假设与观察一致,则选最简单的那个”,但是何为“简单”便见仁见智了,如果认为函数的幂次越低越简单,则此时一元线性回归算法更好,如果认为幂次越高越简单,则此时多项式回归算法更好,因此该方法其实并不“简单”,所以并不常用.

而最常用的方法则是基于模型在测试集上的表现来评判模型之间的优劣。(测试集是指由训练集之外的样本构成的集合)


模型评估选择

经验误差与过拟合

错误率:E = a / m ,其中 m 为样本个数,a 为分类错误样本个数。

精度:精度 =1-错误率。

误差:学习器的实际预测输出与样本的真实输出之间的差异。

经验误差:学习器在训练集上的误差,又称为“训练误差”。

泛化误差:学习器在新样本上的误差。

错误率和精度很容易理解,而且很明显是针对分类问题的。

误差的概念更适用于回归问题,但是,根 据“西瓜书”第 12 章的式 (12.1) 和式 (12.2) 的定义可以看出,在分类问题中也会使用误差的概念,此时 的“差异”指的是学习器的实际预测输出的类别与样本真实的类别是否一致,若一致则“差异”为 0,若 不一致则“差异”为 1,训练误差是在训练集上差异的平均值,而泛化误差则是在新样本(训练集中未出现过的样本)上差异的平均值。

过拟合是由于模型的学习能力相对于数据来说过于强大,反过来说,欠拟合是因为模型的学习能力相 对于数据来说过于低下。

评估方法

本节介绍了 3 种模型评估方法:留出法、交叉验证法、自助法。

留出法由于操作简单,因此最常用; 交叉验证法常用于对比同一算法的不同参数配置之间的效果,以及对比不同算法之间的效果;自助法常用 于集成学习(详见“西瓜书”第 8 章的 8.2 节和 8.3 节)产生基分类器。

留出法和自助法简单易懂,不再赘述,下面举例说明交叉验证法的常用方式。

交叉验证法通过多次划分数据集来评估算法性能,以减少单次划分带来的偶然性。

以3折交叉验证为例,将数据集D分层采样为3个互斥子集D1、D2、D3,依次以其中一个子集作为测试集,其余两个作为训练集,得到3组训练-测试集。

对算法L的参数配置方案a和b,分别在每组训练集上训练模型并在对应测试集上测试,得到3次测试结果的平均值Scorea和Scoreb,通过比较两者确定最优参数配置。

同理,可对比不同算法α和β的效果。交叉验证法通过多次留出法,确保所有样本至少参与一次测试,提升评估结果的置信度。

算法参数是指算法本身的一些参数(也称超参数),例如 k 近邻的近邻个数 k、支持向量机的参数 C (详见“西瓜书”第 6 章式 (6.29))。

算法配置好相应参数后进行训练,训练结束会得到一个模型,例如支持向量机最终会得到 w 和 b 的具体数值(此处不考虑核函数),这就是模型参数,模型配置好相应模型参数后即可对新样本做预测。

验证集

一般采用的是前面讲到的交叉验证法,但是交叉验证法操作起来较为复杂,实际中更多采用的是:先用留出法将数据集划分出训练集和测试集,然后再对训练集采用留出法划分出训练集和新 的测试集,称新的测试集为验证集,接着基于验证集的测试结果来调参选出最优参数配置方案,最后将验 证集合并进训练集(训练集数据量够的话也可不合并),用选出的最优参数配置在合并后的训练集上重新 训练,再用测试集来评估训练得到的模型的性能。

性能度量

指标较多,但是一般常用的只有错误率、精度、查准率、查全率、F1、ROC 和 AUC。

比较检验

为什么要做比较检验?“西瓜书”在本节开篇的两段话已经交代原由。简单来说,从统计学的角度,取 得的性能度量的值本质上仍是一个随机变量,因此并不能简单用比较大小来直接判定算法(或者模型)之 间的优劣,而需要更置信的方法来进行判定。

如果不做算法理论研究,也不需要对算法(或模型)之间的优劣给出严谨的数学分析, 本节可以暂时跳过。本节主要使用的数学知识是“统计假设检验”,该知识点在各个高校的概率论与数理统计教材上均有讲解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2296767.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

实验9 基于WebGoat平台的SQL注入攻击

实验9 基于WebGoat平台的SQL注入攻击 1.实验目的 熟悉WebGoat平台,在该平台上实现SQL注入攻击。 2.实验内容 (1)下载webgoat-server-8.2.2.jar。 (2)搭建java环境。 (3)运行webgoat。 &#xf…

多光谱技术在华为手机上的应用发展历史

2018 年,华为 P20 系列首次搭载 5 通道色温传感器,可帮助手机在不同光照条件下保持画面色彩一致性。 2020 年,华为 P40 系列搭载 8 通道多光谱色温传感器(实际为 11 通道,当时只用 8 个通道检测可见光)&am…

如何免费白嫖 Deepseek API 接口

今天我将教大家如何利用网络空间测绘搜索引擎「Fofa」来寻找已经部署并开放 Deepseek 接口的服务。以下是详细步骤: 1. 访问 Fofa 搜索引擎 首先,打开 Fofa 搜索引擎的网站:https://fofa.info 2. 搜索开放的 Deepseek 接口 在搜索框中输入…

SaaS+AI应用架构:业务场景、智能体、大模型、知识库、传统工具系统

SaaSAI应用架构:业务场景、智能体、大模型、知识库、传统工具系统 大家好,我是汤师爷~ 在SaaS与AI应用的演进过程中,合理的架构设计至关重要。本节将详细介绍其五个核心层次: 业务场景层:发现和确定业务场景智能体层…

ios通过xib创建控件

之前写过ios动态创建控件及添加事件,纯手工代码写控件,虽然比较灵活,但是就是代码量比较多。这次我们通过xib来创建app下载列表项 AppView.xib。一个imageview,一个label,一个button构成 1.创建AppView.xib 2.再创建xib对应的mode&#xff0…

【树莓派Pico设备驱动】-WS2812B全彩LED驱动(基于SPI)

WS2812B全彩LED驱动(基于SPI) 文章目录 WS2812B全彩LED驱动(基于SPI)1、WS2812介绍2、WS2812配置4、驱动实现1、WS2812介绍 WS2812/WS2812B LED 使用 24 位来表示绿色、红色和蓝色值。 WS2812采用单线通信的设计,通信协议为非归零编码,每个LED需要24个bit的数据,数据依…

AIGC-微头条爆款文案创作智能体完整指令(DeepSeek,豆包,千问,Kimi,GPT)

Unity3D特效百例案例项目实战源码Android-Unity实战问题汇总游戏脚本-辅助自动化Android控件全解手册再战Android系列Scratch编程案例软考全系列Unity3D学习专栏蓝桥系列AIGC(GPT、DeepSeek、豆包、千问、Kimi)👉关于作者 专注于Android/Unity和各种游戏开发技巧,以及各种资…

2025届优秀创新大数据毕业设计

吊打导师的大数据毕业设计项目 985华南理工大学学长 大厂全栈,大数据开发工程师 专注定制化开发

解决 ComfyUI-Impact-Pack 中缺少 UltralyticsDetectorProvider 节点的问题

解决 ComfyUI-Impact-Pack 中缺少 UltralyticsDetectorProvider 节点的问题 1. 安装ComfyUI-Impact-Pack 首先确保ComfyUI-Impact-Pack 已经下载 地址: https://github.com/ltdrdata/ComfyUI-Impact-Pack 2. 安装ComfyUI-Impact-Subpack 由于新版本的Impact Pack 不再提供这…

SpringBoot中的Javaconfig

为什么要使用Javaconfig? 如果要声明的bean对象,来自于第三方jar包(不是自定义的),无法使用Component 及衍生注解来声明bean,因为第三方的jar一般不可写,需要使用注解Configuration和Bean注解来…

【前端】几种常见的跨域解决方案代理的概念

几种常见的跨域解决方案&代理的概念 一、常见的跨域解决方案1. 服务端配置CORS(Cross-Origin Resource Sharing):2. Nginx代理3. Vue CLI配置代理:4 .uni-app在manifest.json中配置代理来解决:5. 使用WebSocket通讯…

Windows11+PyCharm利用MMSegmentation训练自己的数据集保姆级教程

系统版本:Windows 11 依赖环境:Anaconda3 运行软件:PyCharm 一.环境配置 通过Anaconda Prompt(anaconda)打开终端创建一个虚拟环境 conda create --name mmseg python3.93.激活虚拟环境 conda activate mmseg 4.安装pytorch和cuda tor…

基于java手机销售网站设计和实现(LW+源码+讲解)

专注于大学生项目实战开发,讲解,毕业答疑辅导,欢迎高校老师/同行前辈交流合作✌。 技术范围:SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容:…

如何评估云原生GenAI应用开发中的安全风险(下)

以上就是如何评估云原生GenAI应用开发中的安全风险系列中的上篇内容,在本篇中我们介绍了在云原生AI应用开发中不同层级的风险,并了解了如何定义AI系统的风险。在本系列下篇中我们会继续探索我们为我们的云原生AI应用评估风险的背景和意义,并且…

使用WebUI访问本地Deepseek(Ollama集成Open WebUI)

在《deepseek本地部署和使用(Linux虚拟机)》中,我们使用Ollama部署了Deepseek-r1,但是只能通过命令行方式交互,默认Ollama启动后,会启动一个监听到127.0.0.1,用以接收POST 请求,服务…

Word成功接入DeepSeek详细步骤

原理 原理是利用Word的VBA宏,写代码接入API。无需下载额外插件。 步骤一、注册硅基流动 硅基流动统一登录 注册这个是为了有一个api调用的api_key,有一些免费的额度可以使用。大概就是这个公司提供token,我们使用这个公司的模型调用deepsee…

房价预测/矿藏勘探/自然灾害预测……AI助力地球科学革新,浙大/清华/Google Research等已发表重要成果

地球科学作为一个高度跨学科的领域,正在经历一场由 AI 引领的重大变革。回顾 2024 年,研究人员在智慧城市建设、房价预测、海洋生态建模、地面沉降预测、洪水预测、山体滑坡预测、矿物预测等方面取得了一系列突破性成果。这些研究不仅展现了 AI 在处理复…

Linux网络编程--Udp套接字+实战 (万字详解,超详细!!)

目录 套接字协议: 协议(protocol): 创建套接字(Create Socket): 绑定服务器地址 开始通信 Udp服务器设计--V1 Udp服务器设计--V2 引入进程池 待更新 套接字协议: 协议(protocol): 如果2个距离很远的人想要进行交流&#xff…

玩转工厂模式

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 什么是工厂模式?工厂方法模式适合应用场景实现方式工厂方法模式优缺点什么是工厂模式? 工厂方法模式是一种创建型设计模式,其在父类中提供一个创建对象的方法,允许子类决定实例化对象的类型。…

开箱即用:一个易用的开源表单工具!

随着互联网的普及,表单应用场景越来越广泛,从网站注册、调查问卷到考试测评,无处不在。传统的表单制作方式需要一定的代码基础,对于不懂编程的小伙伴来说,无疑是一道门槛。 今天,给大家分享一款开源的表单…