机器学习 01

news2024/10/7 12:26:01

目录

一、机器学习

二、机器学习工作流程

2.1 获取数据

2.2 数据集

2.2.1  数据类型构成

2.2.2 数据分割

2.3 数据基本处理

2.4 特征工程

2.4.1什么是特征工程

2.4.2 为什么需要特征工程(Feature Engineering)

2.4.3 特征工程内容

2.5 机器学习

2.6 模型评估

2.7 拟合

2.7.1 欠拟合

2.7.2 过拟合 

三、机器学习算法分类

3.1 监督学习

3.1.1 回归

3.1.2 分类

3.2 无监督学习

3.2.1  无监督学习 与 监督学习对比

3.3 半监督学习

3.4 强化学习

3.4.1 强化学习和监督学习的对比


一、机器学习

机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测

二、机器学习工作流程

机器学习工作流程总结
1、获取数据
2. 数据基本处理
3. 特征工程
4. 机器学习(模型训练)
5. 模型评估
结果达到要求,上线服务
没有达到要求,重新上面步骤

2.1 获取数据

归类:

2.2 数据集

在数据集中一般:
一行数据我们称为一个样本
一列数据我们成为一个特征
有些数据有目标值(标签值),有些数据没有目标值(如上表中,电影类型就是这个数据集的目标
值)

2.2.1  数据类型构成

数据类型一:特征值+目标值 (目标值是连续的和离散的)

数据类型二:只有特征值,没有目标值

2.2.2 数据分割

机器学习一般的数据集会划分为两个部分:

训练数据:用于训练,构建模型。

测试数据:在模型检验时使用,用于评估模型是否有效

划分比例:
训练集: 70% 80% 75%
测试集: 30%20% 25%

2.3 数据基本处理

即对数据进行缺失值、去除异常值等处理

2.4 特征工程

2.4.1什么是特征工程

特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。

意义:会直接影响机器学习的效果

2.4.2 为什么需要特征工程(Feature Engineering)

机器学习领域的大神Andrew Ng(吴恩达)老师说“Coming up with features is difficult, time-consuming,requires expert knowledge. "Applied machine learning" is basically feature engineering.
注:业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。

2.4.3 特征工程内容

特征提取:将任意数据《如文本或图像)转换为可用于机器学习的数字特征

 
特征预处理:通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程

 标准化/归一化


特征降维:指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程

2.5 机器学习

选择合适的算法对模型进行训练


2.6 模型评估

对训练好的模型进行评估

模型评估是模型开发过程不可或缺的一部分。它有助于发现表达数据的最佳模型和所选模型将来工作的性能如何。


按照数据集的目标值不同,可以把模型评估分为分类模型评估回归模型评估

2.6.1 分类模型评估

准确率: 预测正确的数占样本总数的比例。

其他评价指标: 精确率、召回率、F1-score、AUC指标等

2.6.2 回归模型评估

 

均方根误差 (Root Mean Squared Error,RMSE)
RMSE是一个衡量回归模型误差率的常用公式。不过,它仅能比较误差是相同单位的模型

 

其他评价指标:

相对平方误差 (Relative Squared Error,RSE)、

平均绝对误差(Mean AbsoluteError,MAE)、

相对绝对误差(Relative Absolute Error,RAE)

2.7 拟合

模型评估用于评价训练好的的模型的表现效果,其表现效果大致可以分为两类: 过拟合、欠拟合。

在训练过程中,你可能会遇到如下问题:
训练数据训练的很好啊,误差也不大,为什么在测试集上面有问题呢?
当算法在某个数据集当中出现这种情况,可能就出现了拟合问题。

2.7.1 欠拟合

因为机器学习到的天鹅特征太少了,导致区分标准太粗糙,不能准确识别出天鹅。

欠拟合(under-fitting):模型学习的太过粗,连训练集中的样本数据特征关系都没有学出来 

2.7.2 过拟合 

机器已经基本能区别天鹏和其他动物了。然后,很不巧已有的天鹅图片全是白天鹅的,于是机器经过学习后,会认为天鹅的羽毛都是白的,以后看到羽毛是黑的天鹅就会认为那不是天鹅。

过拟合 (over-fitting):所建的机器学习模型或者是深度学习模型在训练样本中表现得过于优越,导致在测试数据集中表现不佳。

上问题解答:
训练数据训练的很好啊,误差也不大,为什么在测试集上面有问题呢?

三、机器学习算法分类

根据数据集组成不同,可以把机器学习算法分为
监督学习
无监督学习
半监督学习
强化学习

3.1 监督学习

定义: 输入数据是由输入特征值和目标值所组成。

函数的输出 可以是一个连续的值(称为回归)或是输出是有限个离散值 (称作分类)

3.1.1 回归

3.1.2 分类

区别: 

欠拟合
学习到的东西太少。模型学习的太过相糙

过拟合
学习到的东西太多。学习到的特征多,不好泛化

3.2 无监督学习

定义:  输入数据是由输入特征值组成,没有目标值

1、输入数据没有被标记,也没有确定的结果。样本数据类别未知;

2、需要根据样本间的相似性对样本集进行类别划分;

根据有无帽子进行分类

3.2.1  无监督学习 与 监督学习对比

 

3.3 半监督学习

定义: 训练集同时包含有标记样本数据和未标记样本数据

 

 区别: 1、标记数据量的多少    2、训练的模型有无用到未标记的数据

3.4 强化学习

定义: 实质是make decisions 问题,即自动进行决策,并且可以做连续决策

举例
小孩想要走路,但在这之前,他需要先站起来,站起来之后还要保持平衡,接下来还要先迈出一条腿,是左腿还是右腿,迈出一步后还要迈出下一步。
小孩就是 agent,他试图通过采取行动(即行走)来操纵环境行走的表面),并且从一个状态转变到另一个状态(即他走的每一步),当他完成任务的子任务即走了几步)时,孩子得到奖励《给巧克力吃),并且当他不能走路时,就不会给巧克力。
主要包含五个元素: agent,action,reward,environment,observation;

 强化学习的目标: 为最大化reward之和,而不是单步reward

3.4.1 强化学习和监督学习的对比

 1.独立同分布(i.i.d.)
在概率统计理论中,如果变量序列或者其他随机变量有相同的概率分布,并且互相独立,那么这些随机变量是独立同分布。
在西瓜书中解释是: 输入空间中的所有样本服从一个隐含未知的分布,训练数据所有样本都是独立地从这个分布上采样而得。


2.简单解释 一 独立、同分布、独立同分布
(1) 独立:每次抽样之间没有关系,不会相互影响举例:给一个般子,每次抛般子抛到几就是几,这是独立:如果我要抛般子两次之和大于8,那么第一次和第二次抛就不独立,因为第二次抛的结果和第一次相关。
(2) 同分布:每次抽样,样本服从同一个分布
举例:给一个股子,每次抛般子得到任意点数的概率都是六分之一,这个就是同分布
(3) 独立同分布:ld.,每次抽样之间独立而且同分布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/415987.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【消息队列】细说Kafka消费者的分区分配和重平衡

消费方式 我们直到在性能设计中异步模式,一般要么是采用pull,要么采用push。而两种方式各有优缺点。 pull :说白了就是通过消费端进行主动拉去数据,会根据自身系统处理能力去获取消息,上有Broker系统无需关注消费端的…

Windows GPU版本的深度学习环境安装

本文记录了cuda、cuDNN的安装配置。 参考文章: cuda-installation-guide-microsoft-windows 12.1 documentation Installation Guide :: NVIDIA cuDNN Documentation 一、cuda安装 注意事项: 1、cuda安装最重要的是查看自己应该安装的版本。 表格…

Java数组打印的几种方式

🎉🎉🎉点进来你就是我的人了 博主主页:🙈🙈🙈戳一戳,欢迎大佬指点!人生格言:当你的才华撑不起你的野心的时候,你就应该静下心来学习! 欢迎志同道合的朋友一起加油喔🦾&am…

独立看门狗(IWDG)实验

独立看门狗简介 单片机系统在外界的干扰下会出现程序跑飞的现象导致出现死循环, 看门狗电路就是为了避免这种情况的发生 。IWDG(Independent watchdog)独立看门狗,可以用来检测并解决由于软件错误导致的故障,当计数器…

使用 ArcGIS Pro 进行土地利用分类的机器学习和深度学习

随着技术进步,尤其是地理信息系统 (GIS)工具的进步,可以更有效地对土地利用进行分类。分类的使用可用于识别植被覆盖变化、非法采矿区和植被抑制区域,这些只是土地利用分类的众多示例中的一部分。 分类的一大困难是确定要解决的问题的级别。…

MongoDB 聚合管道中使用数组表达式运算符断言数组($isArray)

数组表达式运算符主要用于文档中数组的操作,接上一篇: MongoDB 聚合管道中使用数组表达式运算符($concatArrays合并数组)https://blog.csdn.net/m1729339749/article/details/130162048本篇我们主要介绍数组表达式运算符中用于断…

在windows上安装部署cicd

安装步骤 下载gitlab-runner,官网地址如下: https://docs.gitlab.com/runner/install/windows.html在任意位置创建文件夹,并把安装程序放入文件夹中 安装gitlab-runner 注意需要使用管理员权限,打开powershell才能运行 cd C:\Gi…

多智能体深度强化学习在移动边缘计算的联合多通道访问和任务卸载中的应用

多智能体深度强化学习在移动边缘计算的联合多通道访问和任务卸载中的应用主要贡献与相关工作比较的贡献三、系统模型(only 2 pages)3.1 网络模型3.2 通信模型3.3 计算模型3.3.1 本地计算3.3.2 卸载计算四、预备知识(only 1 page)五…

Autosar COM Stack系列介绍01_一文看懂各层PDU

本文框架1. 概述1.1 缩写2. OSI模型在Autosar中应用3. 各层PDU介绍3.1 L-PDU3.2 N-PDU3.2.1 N_AI3.2.2 N_PCI3.3 I-PDU1. 概述 在学习Autosar通信栈时中会遇到关于PDU的各种缩写,例如,L-PDU,N-PDU,I-PDU还有SDU等,它们…

Kafka3.0.0版本——生产者自定义分区器

目录一、生产者自定义分区器代码示例1.1、自定义分区器类1.2、生产者发送消息代码(生产者的配置中添加分区器参数)1.3、测试一、生产者自定义分区器代码示例 1.1、自定义分区器类 代码 package com.xz.kafka.producer;import org.apache.kafka.clients.…

Web API学习笔记1(DOM学习)

一、API 和 web API 1API API —— 应用程序编程接口,是给程序员提供的一种工具,以便能更轻松的实现想要完成的功能。可以比作为充电接口 2.Web API 是浏览器提供的一套操作浏览器功能和页面元素的API(BOM和DOM),主…

HarmonyOS/OpenHarmony应用开发-ArkTS画布组件CanvasRenderingContext2D对象(十一)

measureText measureText(text: string): TextMetrics 该方法返回一个文本测算的对象,通过该对象可以获取指定文本的宽度值。 示例: // xxx.etsEntryComponentstruct MeasureText { private settings: RenderingContextSettings new RenderingConte…

机器学习 异常值检测与处理

文章目录一、异常值检测1.1 简单统计1.2 3σ原则检测1.3 箱线图检测1.4 DBScan密度聚类二、异常值处理异常值是指不属于某一特定群体的数据点。它是一个与其他数值大不相同的异常观测值,与良好构成的数据组相背离。在机器学习建模准备数据集时,检测出所有…

Day940.开发分支 -系统重构实战

开发分支 Hi,我是阿昌,今天学习记录的是关于开发分支的内容。 组件化,软件变得更加高内聚、低耦合,开发及维护的效率也更高了,但是组件化的架构又会引入新的复杂度。 举个例子,在重构前我们基于一个模块…

解决Failed to load ApplicationContext问题的思路

中文翻译&#xff1a; 加载ApplicationContext失败 第一步&#xff1a;首先检查测试类的注解 以及 依赖 SpringBootTest <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-test</artifactId><scope…

【数据库复习】第三章关系数据库标准语言SQL 集合查询 2

用EXISTS/NOT EXISTS实现全称量词 SQL语言中没有全称量词" &#xff08;For all&#xff09; 可以把带有全称量词的谓词转换为等价的带有存在量词的谓词&#xff1a; 查询学生S没有选修的课程 查询选修了全部课程的学生姓名。 等价于&#xff1a;查询这样的学生&#xf…

基于灵动微SPIN系列开发的水泵方案介绍 以 MM32SPIN040C/MM32SPIN560C为主控

水泵是输送液体或使液体增压的机械。它将原动机的机械能或其他外部能量传送给液体&#xff0c;使液体能量增加&#xff0c;主要用来输送液体包括水、油、酸碱液、乳化液、悬乳液和液态金属等。 水泵以 MM32SPIN040C/MM32SPIN560C为主控。 水泵方案 MCU: MM32SPIN系列 1.输入…

redis主从复制详解

文章目录主从复制概述主从复制的作用主要包括&#xff1a;数据冗余故障恢复负载均衡高可用基石主从库之间采用的是读写分离的方式读操作写操作主从复制原理全量复制确立主从关系全量复制的三个阶段第一阶段是主从库间建立连接、协商同步的过程&#xff0c;主要是为全量复制做准…

业务逻辑复杂如何解决性能问题

0 前言 上节针对生成订单信息这个接口做了三个阶段的分析定位和优化动作&#xff0c;让TPS变得正常。不过&#xff0c;系统资源并没有完全用起来&#xff0c;这个接口显然还有优化空间。性能优化的过程中&#xff0c;要把资源都用起来。 在性能环境中做优化&#xff0c;把资源…

自动化测试框架之selenium

目录1 自动化测试1.1 单元测试1.2 接口测试1.3 UI测试1.3.1 UI自动化测试的优点&#xff1a;1.3.2 UI自动化测试的适用对象1.4 自动化测试流程2 selenium3 selenium IDE 录制脚本1 自动化测试 自动化测试指软件测试的自动化&#xff0c;在预设状态下运行应用程序或者系统&…