机器学习|监督学习|无监督学习|8:20~9:20

news2025/2/6 17:15:47

目录

一、监督学习(Supervised learning)

​​​​​​​2.1分类(classification)

2.2回归(regression)

泛化能力 Generalization Ability 

欠拟合

过拟合

不收敛

2.3 K近邻算法

k近邻分类​

k近邻回归

KNN变种

二、无监督学习(Unsupervised learning)

2.1 聚类(clustering)

簇(或类)cluster

聚类和分类的区别


监督学习:分类、回归

无监督学习:聚类、降维

半监督学习:两者结合

自监督学习:无监督的一个分支

强化学习:基于环境反馈


​​​​​​​一、监督学习(Supervised learning)

有明确的输入/输出对,输入为特征,输出为标签

训练样本带有信息标记,利用已有的训练样本信息学习数据的规律预测未知的新样本标签。

常见场景:垃圾邮件处理、人脸识别、温度测量等分类和回归问题;

常见算法:逻辑回归(Logistic Regression)和神经网络、支持向量机、决策树。

​​​​​​​\bullet2.1分类(classification)

分类是识别出一组数据的所属类别,目标是预测类别标签(Class Label),分类问题可分为二分类和多分类,在两个类别之间进行区分的情况为二分类,在两个以上的类别之间进行区分的情况为多分类。

\bullet2.2回归(regression)

回归的目标是预测一组连续值,编程术语叫作浮点数,数学术语叫作实数。

区分分类和回归有一个简单的方法,就是输出是否具有某种连续性,具有连续性则为回归问题,不存在连续性则为分类问题。

分类与回归的区别是输出空间的度量不同:

监督学习的目标是构建一个泛化精度尽可能高的模型。

泛化能力 Generalization Ability 

指一个机器学习算法对于没有见过的样本的识别能力,也可以形象地称为举一反三的能力,或者称为学以致用的能力。根据测试数据预测的结果对比测试数据的标签,能够检测出此模型的泛化能力。

欠拟合

过拟合

  

不收敛

不收敛一般出现在一些基于梯度下降算法的模型中,收敛是指这个算法有能力找到局部的或者全局的最小值(比如找到使得预测的标签和真实的标签最相近的值,也就是两者距离的最小值),从而得到一个问题的最优解。

2.3 K近邻算法

思路:在特征空间中,如果一个样本附近的K个最近(即特征空间中最邻近)样本的大多属于某一个类别,则该样本也属于这个类别。

k近邻分类

KNN算法选择的邻居都是已经正确分类的对象。

k近邻回归

通过找出一个样本的k个最近邻居,将这些邻居的属性的平均值赋给该样本,就可以得到该样本的值。

用KNN算法在连续区间内对数值进行预测,这就是KNN回归。使用sklearn.neighbors.KNeighborsRegressor类。

KNN变种


二、无监督学习(Unsupervised learning)

在无监督学习中,数据只有输入特征,没有输出标签,学习模型是为了推断出数据的一些内在结构。

常见算法:关联规则(Apriori算法)、聚类(K-menas算法)、降维(PCA算法)

训练样本的标记信息是未知的,目的是为了揭露样本的内在属性、结构和信息,为进一步的数据挖掘提供基础。

\bullet2.1 聚类(clustering)

按照某一个特定的标准(比如距离),把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不同簇内的数据对象差异性也尽可能大。

簇(或类)cluster

子集合,最大化簇内的相似性,最小化簇与簇之间的相似性。

聚类可以作为一个单独过程,用于寻找数据内在分布结构,也可以作为其他学习任务前驱过程

聚类相似度度量标准:几何距离

\bullet降维(dimensionality reduction)

\bullet异常检测(outlier detection)

\bullet推荐系统(recommendation system)

聚类和分类的区别

聚类是无监督学习任务,不知道真实的样本标记,只把相似度高的样本聚合在一起;分类是监督学习任务,利用已知的样本标记训练学习器预测未知样本的类别。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/641174.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[迁移学习]域自适应代码解析

一、概述 代码来自:https://github.com/jindongwang/transferlearning,可以前往github下载代码,本文涉及的代码的位置为:Code->DeepDA。理论基础可以参见:[迁移学习]域自适应 整体网络结构如下:可以视为…

Win7下静态变量析构导致进程卡死无法退出问题解决

项目中在用户机器Win7系统上好几次出现进程卡死,无法退出,在用户机器上抓取了dump,发现是在DllMain函数中执行了静态变量的析构,这个静态变量析构的时候会使用std::condition_variable 类型的成员变量通知其他线程退出。同时本地在…

PDF怎样转换成长图?这个方法,超级简单!

在当今社会,PDF文档广泛应用于各个领域。然而,在某些情况下,我们可能需要将多个PDF页面合并成一个单独的长图,以便更方便地浏览、共享或嵌入到其他文件中。为了满足这一需求,记灵在线工具应运而生,它为我们…

一种全新的图像变换理论的实验(六)——研究目的替代DCT和小波

一、变换算法在图像视频中的核心作用 我们国产的变换算法是比较少的,基本上都是在小波、DCT和FFT上发展优化升级的应用。我之前的文章给出了一种基于加权概率模型的变换算法,该算法在一定的程度上能有效的保存低频数据。而且我基于该算法给出了一些新的…

微信小程序快速开发— TDesign模版初始化

最近有个商城类的小程序业务需要快速上线,看了一下微信官方的模版库,相中了TDesign,调研了半天,决定就从这个开始干。 调研的两个重点: 1、网络请求,即数据获取 2、模板本身存在些bug,如&…

从Kotlin中return@forEach了个寂寞

点击上方蓝字关注我,知识会给你力量 今天在Review(copy)同事代码的时候,发现了一个问题,想到很久之前,自己也遇到过这个问题,那么就来看下吧。首先,我们抽取最小复现代码。 (1..7).f…

Python 基于人脸识别的实验室智能门禁系统的设计与实现,附源码

1 简介 本基于人脸识别的实验室智能门禁系统通过大数据和信息化的技术实现了门禁管理流程的信息化的管理操作。平台的前台页面通过简洁的平台页面设计和功能结构的分区更好的提高用户的使用体验,没有过多的多余的功能,把所有的功能操作都整合在功能操作…

聚观早报|微软Xbox2023发布会汇总;苹果VisionPro头显低配版曝光

今日要闻:微软Xbox 2023发布会汇总;苹果Vision Pro头显低配版曝光;台积电在熊本县建设半导体工厂;苹果今年或能出货2.4亿台;中国含氯废塑料高效无害升级回收 微软Xbox 2023发布会汇总 6 月 12 日凌晨,微软…

Java 实战介绍 Cookie 和 Session 的区别

HTTP 是一种不保存状态的协议,即无状态协议,HTTP 协议不会保存请求和响应之间的通信状态,协议对于发送过的请求和响应都不会做持久化处理。 无状态协议减少了对服务压力,如果一个服务器需要处理百万级用户的请求状态,对…

Linux教程——Linux绝对路径和相对路径详解

在 Linux 中,简单的理解一个文件的路径,指的就是该文件存放的位置,只要我们告诉 Linux 系统某个文件存放的准确位置,那么它就可以找到这个文件。 指明一个文件存放的位置,有 2 种方法,分别是使用绝对路径和…

深度解读 KaiwuDB 的排序操作

一、单节点执行 在单节点环境执行一条简单的 SQL 语句 SELECT * FROM NATION ORDER BY N_NAME。NATION 是一张小表,只有 25 条记录;对第 2 列 N_NAME 进行升序排列。 1. 抽象语法树 上述示例中的 SQL 语句经过分析器解析后得到 AST,如下图…

(文章复现)面向配电网韧性提升的移动储能预布局与动态调度策略(2)-灾后调度matlab代码

参考文献: [1]王月汉,刘文霞,姚齐,万海洋,何剑,熊雪君.面向配电网韧性提升的移动储能预布局与动态调度策略[J].电力系统自动化,2022,46(15):37-45. 1.基本原理 1. 1 目标函数 在灾害发生后,配电网失去主网供电,设故障的持续时间可根据灾害…

基于SpringBoot+Vue的酒店管理系统设计与实现

博主介绍: 大家好,我是一名在Java圈混迹十余年的程序员,精通Java编程语言,同时也熟练掌握微信小程序、Python和Android等技术,能够为大家提供全方位的技术支持和交流。 我擅长在JavaWeb、SSH、SSM、SpringBoot等框架下…

代码随想录 二叉树 Java(二)

文章目录 (*中等)222. 完全二叉树的节点个数(*简单)110. 平衡二叉树(*简单)257. 二叉树的所有路径(简单)404. 左叶子之和(简单)513. 找树左下角的值&#xff…

设计模式的原则(一)

相信自己,无论自己到了什么局面,请一定要继续相信自己。 新的世界开始了,接下来,老蝴蝶带领大家学习一下设计模式。 我们先了解一下 设计原则 一.设计模式 一.一 设计原则 设计模式常用的七大原则: 单一职责原则接口隔离原则…

【项目】接入飞书平台

前言 项目有和飞书打通的需求,因为是第一次打通,摸索过程还是花了些时间的,现在相关笔记分享给大家。 步骤 1、熟悉开发文档 熟悉飞书的开发文档:开发文档 ,找到你需要的接口,拿我为例,我需…

长生的秘密:肠道菌群代谢组学

欲遂长生志,但求千金方。长生不老是人类文明历程中苦苦追寻的目标之一,影响人类寿命的因素也复杂多样,包括但不限于遗传因素如性别、线粒体状态、染色体稳定性、端粒长短、疾病、干细胞活性;环境因素如肠道微生物、饮食、运动、空…

如何解决“RuntimeError: CUDA Out of memory”问题

当遇到这个问题时,你可以尝试一下这些建议,按代码更改的顺序递增: 减少“batch_size” 降低精度 按照错误说的做 清除缓存 修改模型/训练 在这些选项中,如果你使用的是预训练模型,则最容易和最有可能解决问题的选项是第一个。 修改batchsize 如果你是在运行现成的代码或…

页面置换算法的模拟与比较

前言 在计算机操作系统中,页面置换算法是虚拟存储管理中的重要环节。通过对页面置换算法的模拟实验,我们可以更深入地理解虚拟存储技术,并比较不同算法在请求页式虚拟存储管理中的优劣。 随着计算机系统和应用程序的日益复杂,内存…

技术管理方法论

今天来跟大家分享一下我对于技术管理的理解。先介绍一下对于管理最普遍的认识,我们每一个人在公司里面都有两种类型的角色,一种是通过个人的能力和产出来实现组织利益的最大化,另外一类人就是通过管理使得一群人产出结果最大化。 也就是我们…