【Datewhale一起吃瓜 Task1】周志华西瓜书第一章+第二章

news2024/11/25 10:52:42

这里写目录标题

  • 机器学习是干什么的
  • 机器学习的理论基础: PAC模型
  • 基本术语
    • 关于数据
    • 关于假设
    • 关于模型训练
  • 机器学习任务分类
  • 归纳偏好
  • 模型的评估和选择
  • 训练流程
  • 划分数据集的方法
    • 留出法
    • 交叉验证
    • 自助法
  • 性能度量

机器学习是干什么的

我们目前处于大数据时代,每天会产生数以亿计的数据。如何让数据产生价值,机器学习应运而生!机器学习致力于研究如何通过计算手段,能够利用经验来改善系统自身的性能。 可以理解成:想办法让计算机自己分析某类问题的数据,总结一套规律,形成模型,以解决此类问题。如,把过去吃过的又香又甜的好西瓜什么颜色、根蒂弯不弯、敲声响不响,作为数据输入到计算机。计算机通过分析总结出什么样的瓜才是好瓜。之后我们去买瓜,挑瓜的时候把瓜的特征再输入到模型,模型就能告诉我们这个瓜好不好啦~

在这里插入图片描述

机器学习的理论基础: PAC模型

在这里插入图片描述
目的:能够稳定获得一个好的模型

解读

  1. 解释括号内: 训练出好模型,即每次预测的平均误差能够小于一个值。比如1000次预测,出错的次数在200次以内,才算个好模型
  2. 解释括号外的概率不等式: 稳定地得到好模型,由于划分数据集等各种因素的影响,模型的好坏也会随之浮动。我们想要不管其他因素怎么变化,我们都能在一定概率范围内得到好模型。

基本术语

关于数据

在这里插入图片描述

  • 数据集:以上数据总称
  • 示例、样本:每条数据
  • 属性、特征:如,姓名、长相、工作、前任数量
  • 属性值:如小黑是姓名属性的一个属性值
  • 属性空间、样本空间、输入空间:以长相、工作、前任数量为三条坐标轴,小黑小白小王小李就是其中一个点,构成的空间
  • 特征向量:每个点对应一个向量
    在这里插入图片描述
  • 类别标记、标签:期望分类的结果,如是否成功
  • 标记空间、输出空间:由类别标记形成的空间
  • 样例:示例+类别标记

关于假设

计算机从中学到的数据潜在规律称为假设,如只要长相帅的就能牵手成功,就是一种假设。但是这种假设并不一定是正确的,男人帅还不够,工作也要稳定,帅可能只占了一定的比重,这也是一种假设。各种各样的假设便形成了假设空间。如:

西瓜色泽属性(青绿,乌黑,浅白,*),根蒂属性(蜷缩,稍蜷,硬挺,*),敲声属性(浊响,清脆,沉闷,*)以上特征组合考虑是好瓜的假设,再加上好瓜根本不存在的假设,即为假设空间,大小4*4*4+1=65

版本空间是根据现有的数据集得出的所有假设,但是不代表所有可能的假设,版本空间是假设空间的子集

关于模型训练

计算机找到正确假设的过程称为学习、训练。在训练过程中,用到的数据叫做训练数据,每个样本称为一个训练样本

学到模型后,我们想要检验它的好坏。检验的过程称为测试,被测试的样本称为测试样本。值得注意的是测试样本的结果是已知的,我们需要通过对比模型预测的结果和这个已知的结果的差别,来得出学到的模型的好坏。

我们千方百计训练出的模型,目的是为了预测新样本时会有不错的效果。模型对新样本预测能力的好坏,我们称为泛化能力

这一切的前提都是在独立同分布的基础上,意思是说我们的现有数据集是相互独立的(你不能统计某一个家族的遗传病率来代表所有人的遗传病率),并且具有一定的代表性。(你不能在非洲统计白人的教育程度来预测世界上白人的教育程度)

机器学习任务分类

根据标签的类型主要分为分类任务和回归任务等。
分类任务:标签是一个个离散的值,如判断西瓜好坏,垃圾分类等
回归任务:标签是连续的值,如预测锅炉温度等

根据标签有无分为监督学习和无监督学习
监督学习:数据集有标签,能够预测与标签类型一致的结果
无监督学习:数据集没有标签,能够将自动将数据根据某一特征划分为一簇一簇,但是我们事先并不知道根据什么划分的

归纳偏好

奥克姆剃刀原则:选择最简单的模型
没有免费的午餐定理:没有一种模型能够适用于任何情况。

假如我们训练了两种模型,预测的准确率相差不大,但模型A却比模型B简单地多。根据奥克姆剃刀原则,我们会选择模型A。但是模型B一定差吗?未必。假如我们的评价标准发生改变,如在火灾预警上,我们宁愿没有发生火灾,但是发出了预警,也不愿意发生了火灾,但是并没有预警,因为这会让我们损失惨重。那么这时候模型B就可能会优于模型A。这便是没有免费的午餐定理。它让我们明白了脱离实际情况,谈论模型好坏毫无意义。

模型的评估和选择

我们把模型预测结果与真实结果之间的差异叫做误差
在训练集上得出的误差叫做训练误差
在未知样本上得出的误差叫做泛化误差

如果模型训练误差很大,那么证明模型还未完全拟合数据,叫作欠拟合
如果模型训练误差很小,但是泛化误差却很大,这是因为模型学习能力过于强,比如我们让模型学习什么样的东西是小狗,结果由于数据集中黄狗数量比较多,因此模型认为只有黄色的才是狗,成了名副其实的人工智障,这种现象叫做过拟合

训练流程

在一般情况下,我们对未知样本一无所知,无法获取到泛化误差。因此,我们用测试集上得出的测试误差来近似的表达泛化误差。那么到底什么是训练集?什么是测试集?又是怎么划分的呢?

在训练模型时,我们需要对数据集进行划分,首先按照一定比例划分训练集、验证集和测试集。测试集不能太大也不能太小,太大导致模型欠拟合,太小导致不具有代表性。其次我们把测试集扔在一边。通过训练集对模型训练,利用验证集调整参数,在保证不再改动的情况下,得出完善的模型。再将测试集输入模型,得出预测结果,与测试集实际结果计算误差,从而作为评价模型好坏的标准。最后,我们将整个数据集输入模型进行训练,得出最终模型,提交给客户。

划分数据集的方法

留出法

将数据集大约2/3~4/5的样本用于训练,其余用于测试。

  • 注意分层采样,根据原来标签的比例进行划分,如原来的数据集中好瓜:坏瓜 = 6:4,那么划分数据集后,测试集中好瓜:坏瓜也应是6:4。
  • 注意需要多次重复划分,最后取多次结果的平均值作为结果。

交叉验证

我们将数据集划分为K份,每次取其中1份作为测试集,其余K-1份作为训练集和验证集,总共进行K次训练和评估,最终把K次的结果取平均值,作为最终结果

  • 缺点是测试集就取1份过少

自助法

前两种方法,都在一定程度上改变了训练样本的规模,都是取原数据集中的一部分进行训练。假设我们有m个样本,我们每次从中取出一个样本,加入到训练集,再将样本放回,进行m次,我们就得到了有m个样本的训练集。而仍会有数据集中约有1/3的样本未被取到,将它们作为测试集。

  • 缺点:改变了原有数据分布

性能度量

均方误差:误差平方的平均值
精度:正确率
错误率:1-正确率

预测为正类预测为负类
实际为正类TPFN
实际为负类FPTN

查准率:TP/TP+FP
查全率:TP/TP+FN
F1值:2*查准率*查全率/(查准率+查全率)
宏查准率:多次结果的查准率的平均值
宏查全率:多次结果的查全率的平均值
宏F1:多次结果的F1值的平均值
P-R曲线:查准率关于查全率的变化曲线
ROC:真正例率关于假正例率的变化曲线
AUC:ROC曲线下的面积,越大证明模型越好
代价敏感错误率:适用于预测错误的代价有差别,如医疗诊断等

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/169286.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

一个监控系统的典型架构是什么样的

典型架构 采集器是负责采集监控数据的,采集到数据之后传输给服务端,通常是直接写入时序库。然后就是对时序库的数据进行分析和可视化,分析部分最典型的就是告警规则判断(复杂一些的会引入统计算法和机器学习的能力做预判),即图上的告警引擎,告警引擎产生告警事件之后交给…

华为MPLS跨域带RR实验配置

目录 Option B方案实验配置 配置建立Vpnv4邻居 配置反射器 配置RR和ASBR取消RT值检测 配置ASBR相连接口开启MPLS 配置ASBR向RR发送路由时更改下一跳 Option C1方案实验配置 Option C2方案实验配置 接口IP地址、底层IGP路由协议(ISIS)、MPLS LDP协…

一种环状二肽3705-26-8,cyclo(Pro-Phe),环(PHE-PRO)环状二肽

基础产品数据(Basic Product Data):CAS号:3705-26-8中文名:环(PHE-PRO)英文名:cyclo(Pro-Phe),CYCLO(-PHE-PRO)结构式(Structural):详细产品数据(…

qq消息撤回

开发工具 工具名称工具类型说明AndroidStuduo编辑工具开发工具jadxjava工具将apk解成java项目xposed插件工具插件qq版本8.8.80 开始 先通过jadx把apk反编译出来源码,通过build出来,在android studio打开,方便分析。 要撤回自己的消息&…

TMC步进电机驱动stealthChop

一直觉得tmc系列的芯片功能很强大,但是我自己读寄存器手册的感觉就是每个字我都认识,怎么就这么难懂。。。。 stealthChop 是一种电压控制技术,基于电压斩波器的工作远离,可在低速中速范围内以最大扭矩实现绝对静音的步进电机控制…

【推荐】自用软件工具推荐 WIN

一、图片查看器 Honeyview 蜂蜜浏览器 免费的图像查看器 下载和功能说明 (bandisoft.com) 轻量而快速可以显示包括 GPS 信息在内的 JPEG 格式的 EXIF 信息对图像格式进行批量转换和调整大小支持显示 GIF 和 WebP 动图无需解压即可直接查看压缩包中的图像支持的格式 图像格式…

大厂整个项目的开发规范流程

第1节、大厂码农开发基础 内容 本章节给大家介绍在互联网做开发,基础环境、开发技术以及上线和监控都会用到哪些东西。一般互联网大厂像阿里、京东、腾讯等都会有公司自研的一些技术组件,比如:RPC、MQ、数据库路由等,但所有的这些…

API 网关的功能用途及实现方式

1. API 网关诞生背景 前言 API 经济生态链已经在全球范围覆盖, 绝大多数企业都已经走在数字化转型的道路上,API 成为企业连接业务的核心载体, 并产生巨大的盈利空间。快速增长的 API 规模以及调用量,使得企业 IT 在架构上、模式…

flume整合数据到kafka,sparkStreaming消费数据,并存储到hbase和redis中

目录 1、模拟数据生成 2、flume采集数据 1、node01配置flume的conf文件 2、node02开发flume的配置文件 3、node03开发flume的配置文件 4、开发flume启动停止脚本 5、node01执行以下命令创建kafka的topic 6、启动并查看kafka的数据 3、SparkStreaming消费kafka中的数…

第二章.线性回归以及非线性回归—LASSO算法

第二章.线性回归以及非线性回归 2.13 LASSO算法 1.前期导入: 通过构造一个一阶惩罚函数获得一个精炼的模型;通过最终确定一些指标(变量)的系数为零,解释力很强 岭回归估计系数等于0的机会微乎其微,造成筛选变量困难 擅长处理具有…

如何实现根据环境切换不同配置?

在企业开发中,系统的配置信息往往会分不同的环境,如开发环境、测试环境、生产环境。当我们使用nacos做为配置中心时,一定会遇到的问题就是在应用中配置nacos的server-addr时测试环境的nacos地址和线上nacos地址如何区分的问题 拿开发环境和正…

4.4 可迭代对象(Iterable)与迭代器(Iterator)

4.4 可迭代对象(Iterable)与迭代器(Iterator) 4.4.1 可迭代(Iterable)对象 如果一个对象实现了__iter__方法,那么这个对象就是可迭代(Iterable)对象>>> #如何知道一个对象实现了那些…

STM32MP157内核移植相关bug

STM32MP157 官方Linux5.15内核移植相关bug一、主频问题二、驱动开发时的头文件缺失问题三、结语一、主频问题 在初学STM32MP157驱动开发时,笔者曾对官方最新版的Linux内核进行了移植,但是因为一些问题,导致移植后的系统存在一些bug。最近笔者…

Java学习之抽象类

目录 一、抽象类引出 二、抽象类的介绍 三、抽象类的细节 第一条 第二点 第三点 第四点 第五点 第六点 第七点 第八点 四、练习 第一题 第二题 一、抽象类引出 当父类的一些方法不能确定时,可以用abstract关键字来修饰该方法,这个方法就是抽象方法,用…

【设计模式】创建者模式·建造者模式

学习汇总入口【23种设计模式】学习汇总(数万字讲解体系思维导图) 写作不易,如果您觉得写的不错,欢迎给博主来一波点赞、收藏~让博主更有动力吧! 一.概述 将一个复杂对象的构建与表示分离,使得同样的构建过程可以创建不同的表示。 …

Python实现哈里斯鹰优化算法(HHO)优化支持向量机回归模型(SVR算法)项目实战

说明:这是一个机器学习实战项目(附带数据代码文档视频讲解),如需数据代码文档视频讲解可以直接到文章最后获取。 1.项目背景 2019年Heidari等人提出哈里斯鹰优化算法(Harris Hawk Optimization, HHO),该算法有较强的全…

目标检测——day66 Scaled-YOLOv4: Scaling Cross Stage Partial Network

Scaled-Yolov4:可伸缩跨级部分网络 Scaled-YOLOv41. Introduction2. Related work2.1. Real-time object detection2.2. Model scaling(模型缩放)3. Principles of model scaling4. Scaled-YOLOv44.1. CSP-ized YOLOv44.2. YOLOv4-tiny4.3. YOLOv4-large…

上海亚商投顾:沪指缩量小幅调整 半导体与旅游股领涨

上海亚商投顾前言:无惧大盘涨跌,解密龙虎榜资金,跟踪一线游资和机构资金动向,识别短期热点和强势个股。市场情绪沪指今日缩量小幅调整,创业板指稍显强势,多数时间红盘运行,科创50指数涨超1%。半…

springMVC讲解(上)

SpringMvc 1,简介 springmvc是spring的一个后续产品,是spring的一个子项目,是spring为表示层所开发的一整套完备的解决方案,在表示层框架经历了struct、webWork、struct2等诸多产品的历代更迭之后,目前业界普遍选择了…

JAVA就业课程,面试题大全

面试整体流程1.1 简单的自我介绍我是xxxx,工作xxx年.我先后在xxxx公司、yyyy公司工作。先后做个xxxx项目、yyyy项目。1.2 你简单介绍一下xxxx项目为了解决xxxx问题,开发了一套xxxx系统,该系统主要有那些部分组成。简单介绍项目的整体架构。参与某个模块的…