机器学习---概述(一)

news2024/10/1 12:13:17

文章目录

  • 1.人工智能、机器学习、深度学习
  • 2.机器学习的工作流程
      • 2.1 获取数据集
      • 2.2 数据基本处理
      • 2.3 特征工程
          • 2.3.1 特征提取
          • 2.3.2 特征预处理
          • 2.3.3 特征降维
      • 2.4 机器学习
      • 2.5 模型评估
  • 3.机器学习的算法分类
      • 3.1 监督学习
          • 3.1.1 回归问题
          • 3.1.2 分类问题
      • 3.2 无监督学习
      • 3.3 半监督学习
      • 3.4 强化学习
      • 3.5 总结

1.人工智能、机器学习、深度学习

在这里插入图片描述
从图中可以看到,人工智能、机器学习、深度学习之间的关系为:机器学习是人工智能的一个实现途径,而深度学习是机器学习的一个方法演变而来的

2.机器学习的工作流程

可以将机器学习的工作流程模拟成人思考解决问题的过程,人在遇到一个新的问题的时候,通常会根据以往对解决此类问题的经验来获取到一个规律,根据此规律来预测解决这种新的问题会成功还是失败。
而机器学习的工作流程与之较为相似,当遇到一批新的数据的时候,计算机会自动分析数据来获取模型,根据模型来预测或者评估数据。
在这里插入图片描述
机器学习的工作流程可以分为以下步骤:
1.获取数据
2.数据基本处理
3.特征工程
4.机器学习(模型训练)
5.模型评估

在这里插入图片描述
如果结果达到要求,上线服务
没有达到要求,就重复上述步骤

2.1 获取数据集

在这里插入图片描述
在数据集中,一行数据我们称为一个样本,一列数据我们成为一个特征
,有些数据有目标值(标签值),有些数据没有目标值(如上表中,电影类型就是这个数据集的目标值)

数据类型构成
1.特征值+目标值(目标值是连续的或者离散的)
2.只有特征值,没有目标值

数据分割:
机器学习一般会将数据分割为两个部分:
训练数据:用于训练和构建模型
测试数据:在模型检验的时候使用,用于评估模型是否有效
这两部分的划分比例一般为:
训练集70%-80% 测试集20%-30%

2.2 数据基本处理

即对数据进行缺失值、去除异常值等处理
缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的

2.3 特征工程

特征工程指的是使用专业知识和技巧来处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。
特征工程包含:特征提取、特征预处理、特征降维三部分

2.3.1 特征提取

即将任意数据转换为可用于机器学习的数字特征
在这里插入图片描述

2.3.2 特征预处理

通过一些转换函数将特征数据转换为更加适合机器学习算法的特征数据的过程。
在这里插入图片描述

2.3.3 特征降维

指的是在某些条件下,降低随机变量的特征的个数,得到一组“不相关”的主变量的个数。
在这里插入图片描述

2.4 机器学习

即选择适合的算法对模型进行训练

2.5 模型评估

对训练好的模型进行评估

3.机器学习的算法分类

在机器学习中,根据数据集的组成不同,可以将机器学习算法分为:
监督学习
无监督学习
半监督学习
强化学习

3.1 监督学习

在监督学习中,计算机通过示例学习。它从过去的数据中学习,并将学习的结果应用到当前的数据中,以预测未来的事件。在这种情况下,输入和期望的输出数据都有助于预测未来事件。
监督学习的定义为:
根据已有的数据集,知道输入和输出结果之间的关系。根据这种已知的关系,训练得到一个最优的模型。

也就是说,在监督学习中训练数据既有特征(feature)又有标签(label),通过训练,让机器可以自己找到特征和标签之间的联系,在面对只有特征没有标签的数据时,可以判断出标签。监督学习可以分为回归和分类两种

3.1.1 回归问题

例如:预测房价,根据样本集拟合出一条连续曲线
在这里插入图片描述
回归通俗一点就是,对已经存在的点(训练数据)进行分析,拟合出适当的函数模型y=f(x),这里y就是数据的标签,而对于一个新的自变量x,通过这个函数模型得到标签y。

3.1.2 分类问题

例如:根据肿瘤特征判断良性还是恶性,得到的是结果是“良性”或者“恶性”,是离散的。
在这里插入图片描述
所以简单来说分类就是,要通过分析输入的特征向量,对于一个新的向量得到其标签。
和回归最大的区别在于,分类是针对离散型的,输出的结果是有限的。
监督学习的应用:
医疗诊断和预测:监督学习在医疗领域中有着广泛的应用。例如,在医学影像诊断中,通过标记了疾病或异常的图像数据,可以训练模型来帮助医生自动识别和诊断病变。此外,监督学习还可以用于疾病预测,通过医学数据的训练,模型可以预测患者是否有可能患上某种疾病,帮助医生进行早期干预和预防。

3.2 无监督学习

不知道数据集中数据、特征之间的关系,而是要根据聚类或一定的模型得到数据之间的关系。可以这么说,比起监督学习,无监督学习更像是自学,让机器学会自己做事情,是没有标签(label)的。

输入数据是由输入特征值组成,没有目标值
输入数据没有被标记,也没有确定的结果。样本数据类别未知;
需要根据样本间的相似性对样本集进行类别划分。

在这里插入图片描述
无监督学习的应用:
Google新闻按照内容结构的不同分成财经,娱乐,体育等不同的标签,这就是无监督学习中的聚类。

在这里插入图片描述

3.3 半监督学习

半监督学习是一种特殊的机器学习方法,它试图充分利用有标签数据和无标签数据的优势。 在很多情况下,获取有标签数据可能非常昂贵或耗时,但我们可能能够获得大量的无标签数据。半监督学习的目标就是通过这些有限的有标签数据和大量的无标签数据来提高机器学习模型的性能。

这是一个生活中的类比:假设你正在学习认识动物,但你只有少数几本书上有动物的名字和图片。现在,你朋友给了你一大堆没有标签的动物图片。半监督学习的任务就是,通过这些有标签的书籍和无标签的图片,让你更好地辨认未见过的新动物。
在这里插入图片描述
在这里插入图片描述
**半监督学习的主要优点是能够在有限的有标签数据上构建更好的模型,从而节省数据标注的成本。**然而,它也可能面临一些挑战,例如无标签数据质量的问题,以及在某些情况下,过度依赖伪标签可能导致错误的预测。因此,在应用半监督学习时,需要谨慎选择合适的方法,并根据具体情况进行调整。

3.4 强化学习

强化学习就像是在教一只聪明的小宠物怎么玩游戏一样。你是这个小宠物的导师,它试图在一个陌生的游戏世界中获得最高的分数。但是,开始时,它对游戏一无所知,所以它必须通过尝试和错误来学习。

在强化学习中,有三个主要的角色:

智能体(Agent):就是我们的小宠物,它在游戏中行动,并试图通过选择不同的动作来达到最好的结果。
环境(Environment):就是游戏的世界,它会根据智能体的动作给予不同的反馈,比如给予奖励(reward)或者惩罚(penalty)。智能体的目标是通过与环境的交互来最大化总的奖励。
动作(Action):就是智能体在游戏中可以选择的不同的举动或策略。

整个过程就像是一个训练过程:智能体在游戏中进行动作,然后根据环境给予的奖励或惩罚来调整自己的策略。通过反复的试错和学习,它会逐渐学会什么样的动作可以得到更多的奖励,从而在游戏中表现得越来越好。

在这里插入图片描述

强化学习的一个典型例子就是训练一个机器人玩赛车游戏。机器人开始时可能会碰壁、撞车,但随着时间的推移,它会学会如何转弯、避开障碍物,并逐渐变得越来越擅长在赛道上驾驶。这种学习过程类似于我们学习新技能或游戏一样,通过不断尝试,我们变得越来越熟练。

总结一下,强化学习是一种让智能体通过与环境交互,并根据奖励和惩罚来学习优化策略的机器学习方法。类似于训练一只聪明的小宠物在陌生的游戏世界中变得越来越好。强化学习的目标就是获得最多的累计奖励。
在这里插入图片描述

3.5 总结

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/836411.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

平时工资不够用?推荐4种适合工作之余做的兼职副业!

你是否也曾经在为每个月的工资发愁?你是否想过做点副业来增加收入?现在很多上班族的工资,已经难以满足他们的生活需求了,很多人开始尝试通过副业来增加收入。那么上班族要如何寻找适合自己的副业呢?下面就给大家分享几…

Docker 网络模型使用详解 (1)Dockers网络基础

目录 环境准备 Dockers 网络基础 1.端口映射 查看随机映射端口范围 -p可以指定映射到本地端口 映射指定地址和指定端口 映射指定地址 宿主机端口随机分配 指定传输协议 端口暴露 容器互联 自定义网络 现在把container7加入到demo_net中 在启动一个容器加入到demo_net…

C++封装思想之一:封装(1.8W字详解)

目录 C封装 封装 封装的作用: C的封装 VS C封装: C语言: C语言: 类和对象 类的声明 权限修饰符:public、private(set/get)、protected 构造函数 默认构造函数(无参构造函数…

服务器安装系统教程

虽然装好了显卡,但是机器运行一会,CPU就飙升到100%。找售后解决,也没有完全解决。所以这次试试换个别的系统是否能修复。 本来计划是后面组raid、重装系统的,得,又提前了。 这里说一下,这个流程未必是最好…

AI + 办公,超哇塞的5款办公神器!

一个好用的软件可以让我们节省时间,提高办公效率,小编就和大家分享5款提高办公效率的好软件,每一个都可以称作神器,最后一个绝了。 在数字化的时代,人工智能技术正在迅速地改变着我们的生活和工作方式。 当今社会&am…

加速国产化进程 | 重建大师精准满足信创替代需求

“信创”:即信息技术应用创新产业,旨在通过实现信息技术领域的自主可控,保障国家信息安全。 《“十四五”国家信息化规划》等国家政策中多次强调数据安全的重要性,明确要求到2025年行政办公及电子政务系统全部完成国产化替代&…

HTTPS实现原理

https是基于http和SSL/TLS实现的一个协议,他可以保证在网络上传输的数据都是加密的,从而保证数据安全。 接下来我们从http协议开始,提出想法并逐步进行分析,最终实现Https。 1. http协议是不安全的。 在https诞生之前&#xff…

Flink之RedisSink

在Flink开发中经常会有将数据写入到redis的需求,但是Flink官方并没有对应的扩展包,这个时候需要我们自己编译对应的jar资源,这个时候就用到了bahir,barhir是apahce的开源项目,是专门给spark和flink提供扩展包使用的,bahir官网,这篇文章就介绍下如何自己编译RedisSink扩展包. 下…

【word技巧】如何做到,批量保存word文档图片

Word文件中有很多图片都需要保存,除了一张张的进行图片另存为以外,我们还有其他方法可以批量一次性保存word文档中的图片嘛?今天分享两个方法,批量保存word文档图片。 方法一: 将文件进行另存为,在选择路…

Java版工程行业管理系统源码-专业的工程管理软件-em提供一站式服务

​ Java版工程项目管理系统 Spring CloudSpring BootMybatisVueElementUI前后端分离 功能清单如下: 首页 工作台:待办工作、消息通知、预警信息,点击可进入相应的列表 项目进度图表:选择(总体或单个)项目…

回归分析书籍推荐

回归分析在线免费书籍:I 1-ntroduction to Regression Methods for Public Health using R Introduction to Regression Methods for Public Health Using R 2-An Introduction to Statistical Learning https://hastie.su.domains/ISLR2/ISLRv2_website.pdf 可以…

安达发制造工业迈向智能化:APS高级计划排程助力提升生产效率

随着市场竞争的加剧,制造企业纷纷寻求提高生产效率和降低成本的方法。近年来,越来越多的制造企业开始采用APS(高级计划与排程)系统,以优化生产计划和排程,提高生产效率,并在竞争中取得优势。 现代制造业通常面临复杂的…

React diff 根据相对位置的 diff 算法

文章目录 diff 算法没有 key 时的diff通过 key 的 diff查找需要移动的节点移动节点添加新元素移除不存在的元素缺点 diff 算法 没有 key 时的diff 根据新旧列表的长度进行 diff 公共长度相同的部分直接patch新列表长度>旧列表长度则添加,否则删除 function pa…

yo!这里是STL::vector类简单模拟实现

目录 前言 重要接口模拟实现 默认成员函数 1.构造函数 2.析构函数 3.拷贝构造函数 4.赋值运算符重载 迭代器 简单接口 1.size() 2.capacity() 3.swap() 操作符重载 1.操作符[] 扩容接口 1.reserve() 2.resize() 增删查改接口 1.push_back() 2.pop_back() …

vue页面布局

布局 用element-plus自带的布局; 左边菜单 用他的Menu 菜单、自带收缩和展开;数据可以接口获取或者写死; 使用的如下操作、把主题和默认打开的index存到缓存中 头部; 简单的先分成左右;再简单的分成左右 1、左…

CS 144 Lab Four -- the TCP connection

CS 144 Lab Four -- the TCP connection TCPConnection 简述TCP 状态图代码实现完整流程追踪 测试 对应课程视频: 【计算机网络】 斯坦福大学CS144课程 Lab Three 对应的PDF: Lab Checkpoint 4: down the stack (the network interface) TCPConnection 简述 TCPConnection 需…

Python系统学习1-3-变量,运算符

1、变量 变量:关联一个对象的标识符 学习目标:学会画变量的内存图 命名规则:字母数字下划线,所有单词小写,单词之间下划线隔开 赋值:创建一个变量或改变一个变量关联的数据。 语法:变量名数据&#xf…

vue运行在IE浏览器空白报错SCRIPT1006: 缺少‘)‘ -【vue兼容IE篇】

其他浏览器均正常,但是切换ie模式,打开空白,F12打开报错缺少‘)‘ ,如下图 在搜狗浏览器下点开报错:定格在crypto-js处 解决: 步骤一:使用npm安装babel-polyfill 依赖(已安装了可忽…

Java与Kotline Funcation函数与参数函数的详解

一.介绍 在现在以IDE为开发工具的时代,各种开发语言都有,kotlin的语法势头比较强,今天我们将介绍在项目中出现比较多的两种函数,一种是参数函数,还有一种就是Function函数 如果你不了匿名函数请阅读以下文档&#xff…

IT 运营分析 (ITOA)

IT 运营 (ITOps) 是指向组织实施、管理、交付和支持 IT 服务,ITOps 可帮助组织维护和运行所需的所有技术工具,以保持业务活动以最高质量正常运行,同时降低成本。 一些常见的 ITOps 过程是: 问题整改&…