机器学习(一) -- 概述

news2025/2/27 17:12:37

系列文章目录

机器学习(一) -- 概述

机器学习(二) -- 数据预处理

未完待续……


目录

系列文章目录

前言

一、机器学习定义(是什么)

二、机器学习的应用(能做什么)

三、***机器学习的流派

四、机器学习的系统定义与通俗理解

五、机器学习的基本术语

1、有了数据

2、通过学习算法

3、得到模型

4、进行预测

5、数据集构成简单理解

六、机器学习的分类

1、监督学习(Supervised Learning,有导师学习)

1.1、分类(classification) -- 离散

1.1.1、二分类(binary classification)

1.1.2、多分类(multi-class classification)

1.2、回归(regression) -- 连续

2、无监督学习(Unsupervised Learning,无导师学习)

2.1、聚类

2.2、降维

3、半监督学习(Semi-Supervised Learning)

4、强化学习(Reinforcement Learning)

七、机器学习的算法

八、机器学习的流程


前言

tips:这里只是总结,不是教程哈。

标题前面加“***”的可自行跳过。文章内容被“文章内容”删除线标记的,也可以自行跳过。


一、机器学习定义(是什么)

机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

它是人工智能核心,是使计算机具有智能的根本途径。

-- 百度百科

人工智能(AL)

机器学习(ML)机器学习是人工智能的一个子领域,是人工智能的核心。机器学习是从数据通往智能的技术途径,是现代人工智能的本质。

深度学习(DL)深度学习是机器学习的一个子领域,是目前最火的方向。

加入神经网络的关系表示:

二、机器学习的应用(能做什么)

模式识别(Pattern Recognition,PR)== 机器学习:计算机能够比人类更高效地读取大量的数据、学习数据的特征并从中找出数据的模式。这样的任务也被称为“机器学习”或者“模式识别”。统计学习是使用统计方法的一种机器学习。

计算机视觉(Computer Vision,CV):图像识别(人脸识别)、图像检索、物体识别等。

数据挖掘(Data Mining,DM):推荐系统等。

自然语言处理(Natural Language Processing, NLP):文本分类(Text Classification)、语言模型(Language Modeling)、机器翻译(Machine Translation)、问答系统(Question Answering)、语音识别(Speech Recognition)等。

统计学习(Statistical Learning,SL):支持向量机SVM、核方法等。

等……

三、***机器学习的流派

四、机器学习的系统定义与通俗理解

1、系统定义

假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习

-- 西瓜书

机器学习 = 任务 + 方法 + 经验 + 性能

任务-T:机器学习要解决的问题                    任务是机器学习的研究对象;

方法-A:   各种机器学习方法                           方法是机器学习的核心内容;

经验-E:训练模型的数据,实例                    经验是机器学习的动力源泉;

性能-P:方法针对任务的性能评估准则        性能是机器学习的检验指标。

2、通俗理解

机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。(类比人类)

从数据中自动分析获得模型,并利用模型对未知数据进行预测。

流程:有了历史数据 --> 通过学习算法(训练) --> 得到模型 --> 用新数据进行预测

目的:机器学习=找一个函数(模型=函数)机器学习 = 任务 + 方法 + 经验 +

五、机器学习的基本术语

按照流程介绍不同术语。

-- 以下内容从【西瓜书】概括而得

1、有了数据

数据集(D,data set):100个西瓜构成一个数据集。

样本(sample,示例,instance):100个西瓜中的每一个西瓜,就是一个样本。

属性(attribute,特征,feature):西瓜的色泽,根蒂,敲声。

        属性值(attribute value):西瓜的色泽为青绿色,青绿即为属性值。

样本空间(sample space,属性空间,attribute space、输入空间)(X):属性张成的空间。“色泽”,“根蒂”,“敲声”作为三个坐标轴,则他们张成一个描述西瓜的三维空间

特征向量(feature vector):颜色、大小、敲起来的振幅。一个维度(dimensionality)

2、通过学习算法

2.1、学习(learning,训练,training)

训练数据(training data)

训练样本(training sample,训练示例,training instance、训练例)

训练集(training set)

假设(hypothesis):学得模型对应关于数据的某种潜在的规律(比如敲声清脆的可能是好瓜)。

真相(真实,ground-truth):潜在规律本身(比如敲声清脆的一定是好瓜)。

学习器(learner,模型,model):得到的模型。

2.2、样本结果信息

标记(label):((色泽=青绿;根蒂=蜷缩;敲声=浊响),好瓜),“好瓜”称为“标记”。

样例(example):拥有标记信息的示例称为样例

用(xi,yi)表示第i个样例,其中yi属于Y,是示例xi的标记。
标记空间(label space、输出空间):Y是所有标记的集合。

3、得到模型

分类、回归、聚类等,具体后面【机器学习的分类】详讲。

4、进行预测

4.1、测试(testing):

测试样本(testing sample,测试示例,testing instance、测试例)

4.2、测试能力:

4.3、测试(testing):

泛化(generalization)能力:适应新样本(未见示例,unseen instance)的能力

--     独立同分布:假设样本空间中全体样本服从一个未知“分布”(distribution)D,我们获得的每一个样本都是独立地从这个分布上采样获得的,即“独立同分布”(independent and identically distributed,简称,i.i.d.)

5、数据集构成简单理解

结构:特征值(房子面积,房子位置、房子楼层)+目标值(这里是价格)

对于每一行数据我们可以称为样本

有些数据集可以没有目标值,如下

六、机器学习的分类

1、监督学习(Supervised Learning,有导师学习)

从有标记数据中学习模型

1.1、分类(classification) -- 离散

1.1.1、二分类(binary classification)

正类(positive class)、反类(negative class,负类)
Y={-1,+1}/{0,1}        (Y被分成-1,1,或者0,1)

eg:识别猫和狗。

1.1.2、多分类(multi-class classification)

|Y|>2

eg:数字识别

1.2、回归(regression) -- 连续

预测的是连续值,

Y=R(实数集)

eg:房屋价格预测:

2、无监督学习(Unsupervised Learning,无导师学习)

从无标记数据中学习模型

2.1、聚类

分为若干组,每个组称为一个“簇”(cluster)

eg

2.2、降维

        在原始的高维空间中,包含冗余信息和噪声信息,会在实际应用中引入误差,影响准确率;而降维可以提取数据内部的本质结构,减少冗余信息和噪声信息造成的误差,提高应用中的精度

        还有异常检测等……

3、半监督学习(Semi-Supervised Learning)

        半监督学习(Semi-Supervised Learning,SSL)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。当使用半监督学习时,将会要求尽量少的人员来从事工作,同时,又能够带来比较高的准确性,因此,半监督学习正越来越受到人们的重视。

--  百度百科

4、强化学习(Reinforcement Learning)

        实质是自主决策问题,即自动进行决策,并且可以做连续决策。

        以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏。

七、机器学习的算法

        有的人总想先知道机器学习的算法有哪些(比如我QwQ)

1、监督学习

1.1、线性回归(Linear Regression)

1.2、逻辑回归(Logistic Regression)

1.3、决策树(Decision Trees)

1.3.1、随机森林(Random Forests)

1.4、深度学习(Deep Learning)算法,如神经网络(Neural Networks)

        卷积神经网络(CNN)、循环神经网络(RNN)和生成对抗网络(GAN)

1.5、支持向量机(Support Vector Machines)

1.6、朴素贝叶斯(Naive Bayes)

1.7、K近邻算法(K-Nearest Neighbors)

2、无监督学习

2.1、聚类算法

        将数据样本划分为不同的组或簇,使得同一组内的样本相似度高,不同组之间的相似度较低。

2.1.1、K均值聚类(K-Means Clustering)
2.1.2、层次聚类(Hierarchical Clustering)
2.1.3、DBSCAN

2.2、降维算法

        将高维数据映射到低维空间,保留数据的主要信息,同时减少数据的维度。

2.2.1、主成分分析(Principal Component Analysis,PCA)
2.2.2、线性判别分析(LDA)
2.2.3、t-SNE

2.3、关联规则挖掘,关联规则学习(Association Rule Learning)

        从数据集中发现频繁出现的项集或关联规则,用于发现数据项之间的关联性。

2.3.1、Apriori
2.3.2、FP-growth

2.4、异常检测

        检测数据中的异常或离群点,这些数据与正常数据的行为模式不符。

2.4.1、基于统计的方法
2.4.2、基于聚类的方法
2.4.3、基于密度的方法

2.5、高斯混合模型(Gaussian Mixture Models)

        暂时先放这吧!

3、半监督学习

        标签传播算法、半监督支持向量机和深度置信网络等

4、强化学习

        Q-learning、SARSA、策略梯度和深度强化学习

5、集成学习(多学习器组合)

5.1、随机森林(Random Forests)

5.2、梯度提升树

5.1、AdaBoost

八、机器学习的流程

机器学习的数据集划分一般分为两个部分:

训练数据:用于训练,构建模型。一般占70%-80%(数据量越大,取得比例最好越大)

测试数据:用于模型评估,检验模型是否有效。一般占20%-30%

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1347089.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

蒙牛的京东店铺的数字化经营

1、蒙牛的京东店铺的数字化经营框架是怎样的? 2. 蒙牛的京东店铺是如何进行环境分析的? 结合波特五力模型进行分析:客户、供应商、企业自身、潜在竞争对手、同行业竞争对手 3.蒙牛的京东店铺采取了哪些方式进行线上引流? 找智商长…

2023-12-23 LeetCode每日一题(移除石子使总数最小)

2023-12-23每日一题 一、题目编号 1962. 移除石子使总数最小二、题目链接 点击跳转到题目位置 三、题目描述 给你一个整数数组 piles ,数组 下标从 0 开始 ,其中 piles[i] 表示第 i 堆石子中的石子数量。另给你一个整数 k ,请你执行下述…

Zookeeper-Zookeeper应用场景实战(二)

1. Zookeeper 分布式锁实战 1.1 什么是分布式锁 在单体的应用开发场景中涉及并发同步的时候,大家往往采用Synchronized(同步)或者其他同一个 JVM内Lock机制来解决多线程间的同步问题。在分布式集群工作的开发场景中,就需要 一种…

Spring Cloud Gateway + Nacos 实现动态路由

1、maven 依赖 主要依赖 <!-- 网关 --><dependency><groupId>org.springframework.cloud</groupId><artifactId>spring-cloud-starter-gateway</artifactId></dependency>案件差不多完整主要依赖 <!--Spring boot 依赖(微服务基…

LLM之RAG实战(九)| 高级RAG 03:多文档RAG体系结构

在RAG&#xff08;检索和生成&#xff09;这样的框架内管理和处理多个文档有很大的挑战。关键不仅在于提取相关内容&#xff0c;还在于选择包含用户查询所寻求的信息的适当文档。基于用户查询对齐的多粒度特性&#xff0c;需要动态选择文档&#xff0c;本文将介绍结构化层次检索…

四种常见智能指针的介绍

一、介绍 当类中有指针成员时&#xff0c;一般有两种方式来管理指针成员&#xff1a;一是采用值型的方式管理&#xff0c;每个类对象都保留一份指针指向的对象的拷贝&#xff1b;另一种更优雅的方式是使用智能指针(smart pointer)&#xff0c;从而实现指针指向的对象的共享。 …

UDP协议基本原理

前言 本文主要讲解传输层中的UDP协议&#xff0c;我准备从UDP的特点出发&#xff0c;深入理解UDP协议&#xff0c;从UDP协议的结构推出UDP协议的特点&#xff1b; 一、理解端口号 前面我们总是说用IP加端口号的方式定位全网的唯一进程&#xff0c;通常在TCP/IP中&#xff0c;我…

gitee(码云)仓库内容更新,使用TortoiseGit同步本地仓库和远程仓库

前言&#xff1a; 网上有很多同步仓库教程&#xff0c;但都是git命令行操作。这篇使用TortoiseGit可视化操作同步本地仓库和远程仓库 克隆本地仓库&#xff0c;上传远程仓库&#xff0c;下载TortoiseGit可以看这篇使用gitee&#xff08;码云&#xff09;上传自己的代码&#xf…

电脑忘记开机密码很着急?一招搞定

前言 本教程适合没有登录微软账号的电脑哦&#xff5e; 随着手机越智能&#xff0c;人们花在电脑上的时间越来越少了。你家的电脑多久没开机了&#xff1f; 小伙伴有没有这样的经历&#xff1a;很久没有打开过电脑的你&#xff0c;突然有一天打开了电脑&#xff0c;却想不起…

继续声明 | 连声明都抄,谁抄袭谁,一目了然,现在竟然恬不知耻的反咬一口。

继续声明 | 连声明都抄&#xff0c;谁抄袭谁&#xff0c;一目了然&#xff0c;现在竟然恬不知耻的反咬一口。 一、本账号为《机器学习之心》博主CSDN唯一官方账号&#xff0c;唯一联系方式见文章底部。 二、《机器学习之心》博主未授权任何第三方账号进行模型合作、程序设计、…

harmonyOS Column组件通过space属性设置内部元素间距

例如 我们代码如下 import router from ohos.router Entry Component struct Index {build() {Row() {Column() {Text("年后")Text("一起")Text("旅游")}.width(100%)}.height(100%)} }运行之后 元素都粘连到一起 显然不太好看 我们就可以通过…

FPGA - 231227 - 5CSEMA5F31C6 - 电子万年历

TAG - F P G A 、 5 C S E M A 5 F 31 C 6 、电子万年历、 V e r i l o g FPGA、5CSEMA5F31C6、电子万年历、Verilog FPGA、5CSEMA5F31C6、电子万年历、Verilog 顶层模块 module TOP(input CLK,RST,inA,inB,inC,switch_alarm,output led,beep_led,output [41:0] dp );// 按键…

SaaS版Java基层健康卫生云HIS信息管理平台源码(springboot)

云his系统源码&#xff0c;系统采用主流成熟技术开发&#xff0c;B/S架构&#xff0c;软件结构简洁、代码规范易阅读&#xff0c;SaaS应用&#xff0c;全浏览器访问&#xff0c;前后端分离&#xff0c;多服务协同&#xff0c;服务可拆分&#xff0c;功能易扩展。多集团统一登录…

如何使用ModuleShifting测试Module Stomping和Module Overloading注入技术

关于ModuleShifting ModuleShifting是一款针对Module Stomping和Module Overloading注入技术的安全测试工具&#xff0c;该工具基于Python ctypes实现其功能&#xff0c;因此可以通过Python解释器或Pyramid在内存中完整执行&#xff0c;这样就可以避免使用编译加载器了。 需要…

Maya-UE xgen-UE 毛发导入UE流程整理

首先声明&#xff1a;maya建议用2022版本及一下&#xff0c;因为要用到Python 2 ,Maya2023以后默认是Python3不再支持Python2; 第一步&#xff1a;Xgen做好的毛发转成交互式Groom 第二步&#xff1a;导出刚生成的交互式Groom缓存&#xff0c;需要设置一下当前帧&#xff0c;和…

Python开源项目月排行 2023年12月

Python 趋势月报&#xff0c;按月浏览往期 GitHub,Gitee 等最热门的Python开源项目&#xff0c;入选的项目主要参考GitHub Trending,部分参考了Gitee和其他。排名不分先后&#xff0c;都是当前月份内相对热门的项目。 入选公式&#xff1d;70%GitHub Trending20%Gitee10%其他 …

UCi数据集处理技巧记录

如何起步使用UCI数据集 这里记录一下如何把带分号的数据变成经常使用的csv形式。这里使用wine的例子 https://archive.ics.uci.edu/dataset/186/winequality 原始数据 Wine UCI数据操作 这种带分号的使用python的不好阅读&#xff0c;可以尝试以下步骤&#xff1a; 转变为t…

c# listbox 添加图标和文字

给listbox 添加 DrawItem 事件 private void listBox1_DrawItem(object sender, DrawItemEventArgs e){int index e.Index;//获取当前要进行绘制的行的序号&#xff0c;从0开始。Graphics g e.Graphics;//获取Graphics对象。Rectangle bound e.Bounds;//获取当前要绘制的行的…

ppp会话建立的第二阶段:ppp认证

ppp认证的两种协议&#xff1a; pap 密码认证协议&#xff1a;是一种简单的明文认证&#xff0c;使用两次握手建立身份验证。如果碰到动态攻击&#xff0c;pap认证不会断开。一旦pap认证通过&#xff0c;就不会断开chap 挑战握手验证协议&#xff1a;通过三次握手的方式进行MD…

C/C++ 函数的默认参数

下面介绍一项新内容 - 默认参数。 默认参数指的是当函数调用中省略了实参时自动使用的一个值。 例如&#xff0c;如果将 void wow (int n)设置成n 有默认值为1&#xff0c;则函数调用 wow()相当于 wow(1)这极大地提高了使用函数的灵活性。 假设有一个名为left()的函数&#xff…