[吃瓜教程]概览西瓜书+南瓜书第1、2章

news2024/7/6 19:11:51

第一章 绪论

1.1机器学习的定义,什么是机器学习?

1)机器学习是这样一门学科,它致力于研究如何通过计算的手段,利用经验改善系统自身的性能
2)机器学习所研究的主要内容是关于在计算机上数据中产生模型算法,即“学习算法”。

1.2基本术语

在这里插入图片描述
在这里插入图片描述
数据相关概念:

  • 数据集(data set):记录的集合;
  • 示例(instance)/样本(sample):关于一个事件或对象的描述;注意一个示例也称为一个特征向量(因为一个示例是属性空间中的一个坐标向量)
  • 属性(attribute)/特征(feature):反映事件或对象在某方面的表现或性质的事项
  • 属性值(attribute value):属性上的取值
  • 属性空间(attribute space)/样本空间(sample space):属性张成的空间
  • 训练数据(training data):训练过程中使用的数据。
  • 训练样本(training sample):训练数据中的每个样本称为一个训练样本。
  • 训练集(training set):训练样本组成的集合;
  • 标记(label):关于示例的结果的信息
  • 样例(sample):拥有了标记信息的示例。
  • 测试(testing):使用模型进行预测的过程称为测试。
  • 测试样本(testing sample):被预测的样本。
  • 假设(hypothesis):学得的模型对应了关于数据的某种潜在的规律。假设是对数据的某种规律或模式的假定。它是我们希望通过模型来捕捉和表达的数据内在规律。
  • 真相/真实(ground-truth):潜在规律本身。

学习任务相关概念:

  • 监督学习(supervised learning):训练数据有标记信息的任务,典型代表,分类和回归任务。
  • 无监督学习(unsupervised learning):训练数据无标记信息的任务,典型代表,聚类。
  • 分类(classification):预测值为离散值的学习任务。
  • 回归(regression):预测值为连续值得学习任务。
  • 二分类任务(binary classification):只涉及两个类别的分类任务,通常称一个类别为正类(positive class),另一个类别为反类(negative class)。
  • 多分类任务(multi-class classification):涉及多个类别的分类任务。
  • 聚类(clustering):将训练集中的样本分为若干组。分成的组称为族(cluster)。

模型相关概念

  • 泛化(generalization):学得模型适用于新样本的能力。

1.3 假设空间和版本空间

再来回顾一下假设的概念:

  • 假设(hypothesis):学得的模型对应了关于数据的某种潜在的规律。假设是对数据的某种规律或模式的假定。它是我们希望通过模型来捕捉和表达的数据内在规律。

可以理解,在机器学习中,假设是关于数据规律的,但通常通过模型来表示和实现这些假设
假设空间 (Hypothesis Space)
假设空间是指所有可能假设的集合。这些假设是用来拟合数据、进行预测或解释数据模式的函数或模型。
版本空间 (Version Space)
版本空间是指在给定训练数据的条件下,所有与训练数据一致的假设的集合。换句话说,版本空间是从假设空间中筛选出的能够正确分类或预测训练数据的假设子集。
假设空间和版本空间的关系
假设空间:表示所有可能的假设集合,是整个搜索范围。
版本空间:表示所有与训练数据一致的假设集合,是在假设空间中的一个子集。
Tips:
事实上,假设空间既可以用假设的集合表示,也可以用模型表示。这两种表示方法其实是互通的,因为特定类型的模型就是我们对数据规律的假设,而所有可能的模型实例构成了假设空间。

1.4 理解归纳偏好

  • 归纳偏好(inductive bias):机器学习算法在学习过程中对某种类型假设的偏好。

第二章 模型评估与选择

2.1经验误差与过拟合

  • 错误率(error rate):分类错误的样本数占样本总数的比例;
  • 精度(accuracy):1-错误率;
  • 误差 (error):学习器的实际预测输出与样本的正式输出之间的差异;(更加一般的一个概念,错误率也是一种误差,在回归任务中错误率不适合表示误差还有其他的误差表示)。
  • 训练误差/经验误差(training error/empirical error):学习器在训练集上的误差;
  • 泛化误差(generalization error):在新样本上的误差。训练模型的目的是得到理想化的最小泛化误差的模型。
  • 过拟合(overfitting):把训练样本自身的一些特点当作了所有潜在样本都具有的一般性质,导致泛化性能的下降。
  • 欠拟合(underfitting):对训练样本的一般性质尚未充分学习。

2.2 评估方法

为了评估不同的模型的泛化性能,找到最小泛化误差的模型,我们需要用到测试集。
(1)测试集:用来测试学习器对新样本的判别能力,以测试集上的测试误差作为泛化误差的近似。
(2)测试集的选取标准:测试样本是从样本真实分布中独立同分布采样而得的,同时,测试集应该尽可能与训练集互斥,即测试样本尽量不在训练集中出现、未在训练过程中使用过。

如何从数据集中产生训练集和测试集?以下是常用的几种方法:
1.留出法(hold out):直接将数据集划分为两个互斥的集合,一个集合作为训练集,一个集合作为测试集。
注意,训练/测试的划分要尽可能的保持数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果产生影响。同时即使给定划分比例,仍然存在多种划分方式,而不同的划分将导致不同的训练/测试集,模型的评估结果也会有差异,因此得到的结果往往不够稳定可靠,常常需要若干次随机划分后取平均值。
2.交叉验证法(cross validation):先将数据集D划分为k个大小相似的互斥子集,每个子集都尽可能保持数据分布的一致性(通过分层采样得到),然后每次用k-1个子集的并集作为训练集,剩下的一个作为测试集。最终返回的k个测试结果的均值。同样由于划分方式的不同,通常要随机使用不同的划分方式重复p次,最终的结果是这p次k折交叉验证结果的均值。

特殊情况: 当数据集包含m个样本,令k=m,则得到了交叉验证法的一个特例:留一法(Leave-One-Out)。
优点: 留一法的评估结果往往被认为比较准确;
缺点: 数据集较大时,训练m个模型的计算开销难以忍受。
3.自助法(bootstrapping):对于给定的包含m个样本的数据集D,对它进行采样得到数据集D’,每次随机从D中放回式的挑选一个样本放入D‘中,重复该过程m次,得到包含有m个样本的数据集D’。显然,D中有一部分样本会在D‘中多次出现,而另一部分样本不出现。约有38.6%(1/e)的样本未出现在采样数据集D’中。
优点:在数据集小,难以有效划分时很有用,对集成学习等方法有好处;
缺点:改变了初始数据集的分布,引入了估计偏差,在数据集足够时,一般不用。

2.3 性能度量

模型的好坏是相对的,不仅取决于算法和数据,还取决于任务需求。因此就需要有衡量模型泛化能力的评价标准,也就是性能度量(performance measure)。
回归任务常见的性能度量:

  • 均方误差(mean squared error):
    E ( f ; D ) = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 E(f;D) = \frac{1}{m}\sum\limits_{i=1}^m(f(x_i)-y_i)^2 E(f;D)=m1i=1m(f(xi)yi)2

  • 错误率:分类错误的样本数占样本总数的比例

E ( f , D ) = 1 m ∑ i = 1 m I ( f ( x i ) ≠ y i ) E(f,D)=\frac{1}{m}\sum\limits_{i=1}^m\mathbb I (f(x_i)\neq{y_i}) E(f,D)=m1i=1mI(f(xi)=yi)

  • 精度:分类正确的样本数占样本总数的比例.
    a c c ( f , D ) = 1 m ∑ i = 1 m I ( f ( x i ) = y i ) = 1 − E ( f , D ) acc(f,D)=\frac{1}{m}\sum\limits_{i=1}^m\mathbb I (f(x_i)={y_i}) =1-E(f,D) acc(f,D)=m1i=1mI(f(xi)=yi)=1E(f,D)
    在这里插入图片描述

  • 查准率/准确率(precision):它衡量的是模型预测的正类样本中有多少是正确的
    P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP

  • 查全率/召回率(recall):它衡量的是实际的正类样本中有多少被正确地预测为正类
    R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP

  • P-R曲线:P-R曲线是通过绘制不同阈值下精度和召回率的变化关系得到的。通常,曲线的横轴表示召回率,纵轴表示精度。
    P-R曲线的绘制步骤
    1)模型预测: 对于给定的分类模型,使用不同的阈值对数据进行预测。每个阈值会产生一组不同的精度和召回率。
    2)计算精度和召回率: 对每个阈值,计算对应的精度和召回率。
    3)绘制曲线: 以召回率为横轴,精度为纵轴,绘制精度-召回曲线。
    在这里插入图片描述

  • F1度量:
    F 1 = 2 ∗ P ∗ R P + R F1=\frac{2*P*R}{P+R} F1=P+R2PR
    一般形式:(能表达出对查准率/查全率的不同偏好)
    F β = ( 1 + β 2 ) ∗ P ∗ R ( β 2 ∗ P ) + R F_\beta=\frac{(1+\beta^2)*P*R}{(\beta ^2*P)+R} Fβ=(β2P)+R(1+β2)PR
    其中 β \beta β>0度量了查全率对查准率的相对重要性。 β = 1 \beta=1 β=1时退化为标准的F1; β > 1 \beta>1 β>1时查全率有更大影响; β < 1 \beta<1 β<1时查准率有更大影响。
    宏F1(macro-F1):
    微F1(micro-F1):

参考文献

[1]周志华.机器学习[M].清华大学出版社,2016.
[2]https://www.bilibili.com/video/BV1Mh411e7VU/?p=2&vd_source=0e750184037a989618cbfa3e8e030c7d

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1840017.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

信息学奥赛初赛天天练-29-CSP-J2022阅读程序-掌握递归、递推、动态规划、二分与极值函数应用

PDF文档公众号回复关键字:20240619 2022 CSP-J 阅读程序2 阅读程序(判断题1.5分 选择题3分 共计40分 ) 01 #include <algorithm> 02 #include <iostream> 03 #include <limits> 04 05 using namespace std; 06 07 const int MAXN 105; 08 const int MAX…

LMStudio下载模型

笔者在使用LMStudio时下载模型报超时&#xff0c;科学上网也无法解决。&#xff08;LMStudio下载模型时直接走的网关&#xff0c;没有走代理&#xff09; 解决办法如下: 1. 安装软路由并科学上网。 2. 手动下载模型&#xff0c;由于LMStudio解析模型时具有特定的要求&#x…

C++ 79 之 自己写异常类

#include <iostream> #include <string> using namespace std;class MyOutOfRange : public exception{ // 选中exception右键 转到定义 复制一份 virtual const char* what() const _GLIBCXX_TXN_SAFE_DYN _GLIBCXX_NOTHROW 进行函数重写 public: string m_msg;M…

SpringCloud Netflix和SpringCloud Alibaba核心组件

1.SpringCloud Netflix组件 1.1 Netflix Eureka-服务注册发现 Eureka 是一种用于服务发现 的组件&#xff0c;它是一个基于 REST 的服务&#xff0c;用于定位运行在 AWS 弹性计算云&#xff08;EC2&#xff09;中的中间层服务&#xff0c;以便它们可以相互通讯。 注册&#xf…

移植案例与原理 - HDF驱动框架-驱动配置(2)

1.2.7 节点复制 节点复制可以实现在节点定义时从另一个节点先复制内容&#xff0c;用于定义内容相似的节点。语法如下&#xff0c;表示在定义"node"节点时将另一个节点"source_node"的属性复制过来。 node : source_node示例如下&#xff0c;编译后bar节点…

实现跑马灯

目录 一 设计原型 二 后台源码 一 设计原型 二 后台源码 namespace 跑马灯 {public partial class Form1 : Form{public Form1(){InitializeComponent();}private void Form1_Load(object sender, EventArgs e){Color[] colors { Color.Red, Color.Green, Color.Yellow };T…

IO流2.

字符流-->字符流的底层其实就是字节流 public class Stream {public static void main(String[] args) throws IOException {//1.创建对象并关联本地文件FileReader frnew FileReader("abc\\a.txt");//2.读取资源read()int ch;while((chfr.read())!-1){System.out…

【数据分享】《中国林业和草原统计年鉴》1992-2022

公众号新功能 目前公众号新增以下等功能 1、处理GIS出图、Python制图、区位图、土地利用现状图、土地利用动态度和重心迁移图等等 2、核密度分析、网络od分析、地形分析、空间分析等等 3、地理加权回归、地理探测器、生态环境质量指数、地理加权回归模型影响因素分析、计算…

YOLOV8 目标检测:训练自定义数据集

1、下载 yolov8项目&#xff1a;ultralytics/ultralytics&#xff1a;新增 - PyTorch 中的 YOLOv8 &#x1f680; > ONNX > OpenVINO > CoreML > TFLite --- ultralytics/ultralytics: NEW - YOLOv8 &#x1f680; in PyTorch > ONNX > OpenVINO > CoreM…

【面试题】Spring常见面试题整理2024(全是干货!!!)

备战实习&#xff0c;会定期给大家整理常考的面试题&#xff0c;大家一起加油&#xff01; &#x1f3af; 注意&#xff1a;文章若有错误的地方&#xff0c;欢迎评论区里面指正 &#x1f36d; 系列文章目录 【面试题】MySQL常见面试题总结【面试题】面试题分享之JVM篇【面试题…

基于支持向量机的垃圾邮件分类,使用SVM+flask+vue

sms-classify 基于支持向量机的垃圾邮件分类&#xff0c;使用SVMflaskvue 数据集和源码地址 数据集 SMS Spam Collection Data Set 来源于 UCI。样例被分为非垃圾邮件&#xff08;86.6%&#xff09;和垃圾邮件&#xff08;13.4%&#xff09;&#xff0c;数据格式如下&#xff…

【尚庭公寓SpringBoot + Vue 项目实战】登录管理(十八)

【尚庭公寓SpringBoot Vue 项目实战】登录管理&#xff08;十八&#xff09; 文章目录 【尚庭公寓SpringBoot Vue 项目实战】登录管理&#xff08;十八&#xff09;1、登录业务介绍2、接口开发2.1、获取图形验证码2.2、登录接口2.3、获取登录用户个人信息 1、登录业务介绍 登…

迭代器模式观察者模式

文章目录 1.引出迭代器模式1.展示院系结构2.传统方式 2.迭代器模式解决院系结构展示问题1.基本介绍2.原理类图3.类图4.代码实现1.Department.java 存储信息的对象2.College.java 被迭代的类型接口3.ComputerCollege.java 被迭代的具体实现类&#xff0c;存储数据并将其在创建迭…

2024年6月22日(星期六)骑行谷仓坝

2024年6月22日 (星期六) 骑行谷仓坝&#xff0c;早8:00到8:30&#xff0c; 龙泉小学门口(北京路尽头&#xff0c;高架桥下&#xff09;&#xff0c;9:00准时出发 【因迟到者&#xff0c;骑行速度快者&#xff0c;可自行追赶偶遇。】 偶遇地点:集合 &#xff0c;家住东&#xf…

【Ruby基础01】windows和termux中搭建Ruby开发环境

windows下环境搭建 railsinstaller官方git地址 按照文档安装git、nodejs、yarn&#xff0c;安装教程百度一下。railsinstall可以从release页面下载最新版本4.1.0。 安装完成如下 安装RubyMine 下载RubyMine RubyMine下载地址 安装激活 下载文件&#xff0c;按照里面的流程…

【Stable Diffusion 3】本地部署SD3详细教程

&#x1f44b; Hi, I’m Beast Cheng &#x1f440; I’m interested in photography, hiking, landscape… &#x1f331; I’m currently learning python, javascript, kotlin… &#x1f4eb; How to reach me --> 458290771qq.com 1. Stable Diffusion 3 模型下载 「点…

【4003】基于springboot实现的线上阅读系统

作者主页&#xff1a;Java码库 主营内容&#xff1a;SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app等设计与开发。 收藏点赞不迷路 关注作者有好处 文末获取源码 技术选型 【后端】&#xff1a;Java 【框架】&#xff1a;spring…

emm, ComfyUI的作者从Stability.AI离职了

&#x1f356;背景 今天在更新ComfyUI的过程中&#xff0c;看到Manager中有这样一段描述&#xff1a; 嗯&#xff1f;做了新的官方网站&#xff1f;然后开始新篇章&#xff1f; 难道说ComfyUI的作者从Stability.AI离职了&#xff1f; 赶紧点开链接看了下&#xff0c;emm&…

关于INCA的几个实用功能

01--VUI窗口设计 这个可以按照自己的想法设计INCA观测或标定窗口 首先进入到INCA的环境内&#xff0c;点击实验→加载VUI窗口 选择空的窗口 打开后如下所示&#xff1a; 点击UI开发模式&#xff0c;如下图 如下&#xff1a; 添加标定量、观测量、示波器 窗口的大小需要在开发…

C++之STL(二三)

1、vector源码刨析 1.1、数据结构以及动态扩充算法 其实vector内部有三个指针&#xff0c;分别是数据的第一个元素Myfirst、数据的最后一个元素的下一个位置Mylast&#xff0c;最后一个空间的下一个位置Myend&#xff1b;当你插入数据的时候&#xff0c;先判断当前容量够不够&…