机器学习西瓜书-1-2章

news2024/10/2 22:25:40

学习目标:

概览机器学习西瓜书 1、2章

学习内容:

第一章 绪论
1.1 基本术语
1.2 假设空间
1.3 归纳偏好
1.4 发展历程
第二章 模型评估与选择
2.1 经验误差与过拟合
2.2 评估方法
2.3 性能度量

学习时间:

两天

学习产出:

第一章 绪论

1.1 基本术语
·西瓜的色泽或敲声,单个的特点为特征(feature)或属性(attribute)。
·对于一条记录,如果在坐标轴上表示,每个西瓜都可以用坐标轴中的一个点表示,一个点也是一个向量,例如(青绿,蜷缩,浊响),即每个西瓜为:一个特征向量(feature vector)。
·机器学习出来的模型适用于新样本的能力称为:泛化能力(generalization),即从特殊到一般。
·预测值为离散值的问题为:分类(classification)。
·预测值为连续值的问题为:回归(regression)。
·将目标数据集分为若干个互不相交的样本簇: 聚类(clustering)
·训练数据有标记信息的学习任务为:监督学习(supervised learning),分类和回归都是监督学习的范畴。
·训练数据没有标记信息的学习任务为:无监督学习(unsupervised learning),常见的有聚类和关联规则。
·学得模型适用于新样本的能力为:泛化能力(generalization),具有强泛化能力的模型能很好的适用于整个样本空间,希望模型能很好地反应出样本空间的特性。

1.2 假设空间
归纳和演绎是科学推理的两大基本手段。
·归纳:具体事实 -->一般性规律
·演绎:原理–> 具体状况
·概念学习:狭义的归纳学习要求从训练数据中学得概念(concept)
·假设空间:把学习过程看作为一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”的假设; 在这个假设空间中,可能有多个假设和训练集一致,我们称之为“版本空间”
1.3 归纳偏好
归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好。
1.4 发展历程
·连接主义学习:基于神经网络
·符号主义学习:决策树和基于逻辑的学习
·统计学习:支持向量机和核方法
·连接主义学习:深度学习

第二章 模型评估与选择
2.1 经验误差与过拟合
在m个样本中有a个样本分类错误
错误率:分类错误的样本数占样本总数的比例 (E = a / m)
精度:分类正确的样本数占样本总数的比例,与错误率互补(e = 1-E = 1-a/m)
误差:实际预测输出与样本真实输出之间的差异。

学习器在训练集上的误差称为“训练误差”;在新样本上的误差称为“泛化误差”

我们希望得到的是泛化误差小的模型,但是我们不知道新样本是什么样的,能做到的就只有降低训练误差。有时候我们能学习得到一个训练误差很小,在训练集上表现很好的模型,但是这样的模型在新样本的表现并不好,并不是我们想要的。
过拟合:学习器把训练样本学习的“太好”,将训练样本本身的特点 当做所有样本的一般性质,导致泛化性能下降;学习能力过于强大,以至于把训练样本所包含到的不太一般的特性都学到了。
solve:1.正则化 ;2.减少迭代次数;
欠拟合:对训练样本的一般性尚未学好;学习能力低下
solve:1.决策树:拓展分支 ; 2.神经网络:增加训练轮数;

2.2 评估方法
我们使用一个测试集来测试学习器对新样本的判别能力,然后以测试集上的“测试误差”作为泛化误差的近似。测试集是从样本真实分布中独立采样获得,所以测试集要和训练集中的样本尽量互斥。通常将包含m个样本的数据集分为测试集T和训练集S,下面介绍几种常用的方法:

2.2.1 留出法
·将数据集D划分为两个互斥的集合
·2/3~4/5的样本用于训练,其余测试(一般而言,测试集至少含30个样例)
·训练集、测试集的划分要尽可能保持数据分布的一致性。
·一般进行若干次随即划分、重新实验评估后取均值。
**缺点:**留出法只划分一次集合,随机性太强,缺乏说服力。

2.2.2 交叉验证法
·先将数据集D划分为K个大小相似的互斥子集,每次用k-1个子集的并集作为训练集,剩余的那个子集作为测试集;就这样可以进行k次训练和测试,最终返回k个评估结果的均值。
·交叉验证法的评估结果的稳定性和保真性很大程度上决定于k的取值,为了强调这一点,通常把交叉验证法称为“k折交叉验证法”,k最常取10.
优点:每一组严格数据都被用于训练集、测试集,避免了欠拟合和过拟合的发生,得到的结果具有较强的说服力。
特例留一法
·留一法就是每次只留下一个样本做测试集,如果数据集D有k个样本数据,则需要训练k次,测试k次。
优点
1、我们用几乎所有的数据进行训练,只留下一个数据进行测试,样本利用率高。
2、实验过程没有随机因素,重复实验的结果也都相同。
缺点:计算繁琐,时空复杂度高,适用于小样本情况。

2.2.3 自助法
·以自助采样法为基础,对数据集D有放回采样m次得到训练集d,用D\d做测试集;实际模型和预期模型都使用m个训练样本。
·有约0.368的样本数据没有在训练集中出现,结果称为“包外估计”
在这里插入图片描述
优点
1、在数据集较小、难以有效划分训练/测试集时很有用。
2、能从初始数据集中产生多个不同的训练集,对集成学习等方法有很大好处。
注意:由于改变了数据集分布,可能引入估计偏差,在数据量足够时,留出法和交叉验证法更常用。

2.2.4 调参与最终模型
·大多数学习算法都有些参数需要设定,参数配置不同,使得模型的性能往往有显著性差别,也就是通常所说的”参数调节“或简称”调参“。
·学习算法的很多个参数是在实数范围内取值,因此,对每种参数取值都训练出模型是不可行的。
·常用的做法是:对每个参数选定一个范围和步长,这样就使得学习的过程变得可行。eg:假定算法有3个参数,每个参数在范围和步长内都有5个候选值,这样对每一组训练/测试集就有5的3次方,即125个模型需要评估。由此可见,选对一个参数(经验值)对于算法人员来说是有多么的happy。
·需要注意的是:当选定好模型和调参完成后,我们需要使用初始的数据集D重新训练模型,即让最初划分出来用于评估的测试集也被模型学习,增强模型的学习效果。
·通常,我们将给定的数据集划分为训练集和测试集,基于测试集上的性能来进行模型的选择和调参。

2.3 性能度量
定义:对机器学习的泛化性能进行评估,不仅需要有效可行的实验方法还需要有衡量模型泛化能力的评价标准,此评价标准就是性能度量。

模型的好坏都是相对的,不仅取决于算法数据,还决定于任务需求

2.3.1 错误率与精度
在分类任务中,即预测离散值的问题,最常用的就是错误率精度
·错误率是分类错误的样本数占样本总数的比例
·精度则是分类正确的样本数占样本总数的比例

注:Ⅱ()表示的是–>示性函数,满足括号内条件则值为1,否则值为0.

2.3.2 查准率、查全率与F1
·查准率又称准确率
·查全率又称召回率
·混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式。
·查准率P的意思是在预测结果中挑到正确的比例,而后根据学习器的预测结果按正例可能性大小对样例进行排序,并逐个把样本作为正例进行预测,则可以得到查准率-查全率曲线,简称“P-R曲线
·平衡点(BEP):“P-R曲线“上查准率==查全率时的取值,可用来度量P-R曲线有交叉的分类器性能高低,我们的主观当然是P和R越大越好,所以说若一个曲线能被另一个完全包住则说明被包住的性能没有外面的优越,比如优越性能排行:A>B>C,在很多情况下,一般是比较P-R曲线的面积来判断优越性,面积越大则越好。但是这个面积值又不太容易估算,我们就选择平衡点的值来进行比较,值越大越好。但是BEP又过于简单了,于是采用F1度量:

F1是基于查准率与查全率的调和平均定义的:
Fβ是加权调和平均:
在这里插入图片描述
2.3.3 ROC与AUC
ROC曲线:根据学习器的预测结果对样例排序,按此顺序逐个把样本作为正例进行预测,每次计算两个重要的值,分别以他们为横纵坐标作图。
纵轴:真正利率(TPR)
横轴:假正例率(FPR)

·与P-R图相似,若一个学习器的ROC曲线被另一个学习器的曲线完全包住,后者性能优于前者;两者发生交叉的时候通过图线包裹的面积大小作为判断标准;
AUC:ROC曲线下的面积
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/7375.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

爱了爱了,20个好用到爆的 Python 函数

大家好,今天分享20个日常工作中必不可少的Python函数,这些函数平时看到的不多,但是它们使用起来倒是非常的方便,它们可以大幅度地提高工作效率。内容较长,欢迎收藏学习,喜欢点赞支持。 文章目录技术提升isi…

你以为的Java面试只是背答案?跳槽涨薪不还是得靠自己的技术

前言 Java面试当然不能只靠背答案,为了应付面试背完答案拿到offer只是进入了这个行业,后面的实操还是得看自己的技术!技术的挂钩当然和技术底层也是挂钩的。 这是我在工作、面试中学习并总结到的一些知识点,都是一些比较典型的、…

Kafka 消息过期策略(时间相关参数)

Kafka 消息过期策略(时间相关参数) 标记delete时效 (CDH配置项)log.retention.ms (Kafka offset配置)retention.ms 标记delete的真删底层文件 delete.delay.ms log.segmetn.delete 背景:在不需要重启kafka的情况下&a…

QA特辑|剪得断,理不乱,一场直播解开关联网络与反团伙欺诈谜团

11月 10 日下午15:00 第九期《关联网络技术在业务安全中的应用》正式开讲。顶象数据科学家翼龙详尽的介绍了关联网络在反团伙欺诈中的作用,深度剖析了关联网络的技术框架、关联网络的图谱构建以及关联网络的复杂算法,为反团伙欺诈提供了重要的参考。 直播…

6.jeecg的pom结构

1.父pom parent为springboot 1.子模块部分 包括base-core、demo、system三个 air为自己新建 2.maven仓库部分 3.dependencies 这个是主动引入的依赖,子pom会继承 4.dependencyManagement 这个有点多,主要作用是先把依赖添加进来,但是…

python安装 learn2learn库 || 在线安装方式或者本地安装

文章目录1. 去github下载完整安装包(或本文的百度网盘)2. 安装C依赖库3 本地安装4 在线安装(不想本地安装 看这儿!)1. 去github下载完整安装包(或本文的百度网盘) github连接 https://github.c…

死磕宠物食品安全,京东你凭什么?

出品| 大力财经 文 | 魏力 京东第一个站出来,破局宠物食品行业乱象。 济南女孩刘小姐很在乎宠物的饮食安全,每次换的新狗粮或者买的新零食,她都要先尝一尝,鉴定一下是否符合自家狗狗食用。随着家人式养宠的到来,宠物…

deb包格式实例详解

本文简介及包格式部分内容节选自: deb_百度百科 一、简介 DEB是Debian软件包格式的文件扩展名,跟Debian的命名一样,DEB也是因Debra Murdock而得名,她是Debian创始人Ian Murdock的太太。 Debian包是Unixar的标准归档&#xff0…

LeetCode第 91 场双周赛题解

目录2465. 不同的平均值数目2466. 统计构造好字符串的方案数2467. 树上最大得分和路径2468. 根据限制分割消息2465. 不同的平均值数目 模拟一下即可 class Solution { public:int distinctAverages(vector<int>& nums) {set<double>st;sort(nums.begin(),nums…

Intellij各个功能小件的样子

文章目录资料ControlsButtonBuilt-in buttonSplit buttonCheckboxCombo boxDescription textDrop-down listGot It tooltipGroup headerInput fieldLinkNotificationsBallonBannerProgress indicatorsLoaderProgress barProgress textRadio buttonScrollbarSearch fieldTableTa…

CSAPP实验记录(2)--------- Bomb

实验简介 本实验需要拆除一个“二进制炸弹”&#xff0c;“二进制炸弹”是一个可执行目标程序。运行时&#xff0c;它会提示用户键入6个不同的字符串。如果其中任何一个错误&#xff0c;炸弹就会“爆炸”。必须通过逆向工程和汇编语言知识&#xff0c;推导出六个字符串分别是什…

Linux权限管理

修改权限-chmod 通过chmod指令&#xff0c;可以修改文件或者目录的权限 第一种方式 - 变更权限 u:所有者 g:所有组 o:其他人 a:所有人 chmod urwx,grx,ox 文件目录名 chmod ow …

条件随机场CRF(持续更新ing...)

诸神缄默不语-个人CSDN博文目录 本文是作者学习CRF后的笔记。 最近更新时间&#xff1a;2022.11.15 最早更新时间&#xff1a;2022.11.15 条件随机场CRF是适宜于顺序预测任务的判别模型&#xff0c;可用于命名实体识别、词性标注等。 文章目录1. linear-chain CRF2. CRF目标…

使用TensorRT量化ResNet50网络(PTQ)

深度学习正在彻底改变行业提供产品和服务的方式。 这些服务包括用于计算机视觉的对象检测、分类和分割&#xff0c;以及用于基于语言的应用程序的文本提取、分类和摘要。 这些应用程序必须实时运行。 大多数模型都采用浮点 32 位算法进行训练&#xff0c;以利用更大的动态范…

python代码规范工具

文章目录一&#xff1a;Pycharm 创建文件自动头部二&#xff1a;代码门禁三 : 附录一&#xff1a;Pycharm 创建文件自动头部 Pycham —> Preferences —> 编辑器 —> 文件和代码模版 —> 文件 —> Python Script —> 填写头部 #!/usr/bin/env python # -*- c…

详解clickhouse分区目录的合并过程

数据存储底层分布 目录名类型说明202103_1_10_2目录分区目录一个或多个&#xff0c;由于分区LSM生成的detached目录通过DETACH语句卸载后的表分区存放位置format_version.txt文本文件纯文本&#xff0c;记录存储的格式 columns.txt&#xff1a;该文件是一个文本文件&#xff0c…

vue 生成二维码的两种方式

方式一&#xff1a;qrcode&#xff08;无 icon 图标&#xff09; npm i qrcodejs2 --save 完整代码 <template><div class"flex-box"><div>qrcode&#xff08;无 icon 图标&#xff09;</div><div class"qr-code" ref"…

【面试题】BFC的理解

1. BFC Block format context(BFC)&#xff0c;块级格式上下文。BFC是一个独立的布局环境&#xff0c;BFC内部的元素的渲染不会影响到边界以外的元素。 2. BFC的布局规则 BFC内部的块会在垂直方向上一个接一个的放置&#xff1b;垂直方向上的距离由margin决定&#xff0c;在…

vision transformer 剪枝论文汇总

Vision Transformer Pruning 这篇论文的核心思想很简单&#xff0c;就是剪维度&#xff0c;也就是说剪的是这个d。 具体方法就是通过一个gate&#xff0c;如图中的dimension pruning&#xff0c;输出0或者1&#xff0c;来判断不同维度的重要性&#xff0c;但是由于0和1&#xf…

最新CleanMyMac X4.12.1中文版Mac系统优化清理工具

CleanMyMac X v4.12.1是COCO玛奇朵搜集到的一款mac电脑系统清理工具&#xff0c;删除系统缓存文件 , 多余的应用程序语言包 , PowerPc软件运行库等。 CleanMyMac是一个强大的应用程序&#xff0c;清洁&#xff0c;优化和保护您的Mac多年的使用。运行即时系统清理&#xff0c;卸…