【机器学习与实现】机器学习概述

news2024/11/17 6:01:26

目录

    • 一、机器学习的基本概念和方法
      • (一)基本概念
      • (二)机器学习的一般过程举例
      • (三)样本和参数估计
    • 二、机器学习的步骤总结
      • (一)机器学习的主要步骤
      • (二)样本及样本的划分
      • (三)评估机器学习模型的效果
      • (四)欠拟合、过拟合与泛化能力
    • 三、机器学习的预处理环节
      • (一)数据预处理
      • (二)数据标准化
      • (三)数据的降维
    • 四、机器学习的类型
      • (一)聚类模型、分类模型、回归模型
      • (二)监督学习、无监督学习和半监督学习
    • 五、机器学习的学习路线


人工智能与机器学习、深度学习的关系

机器学习:

  • 是目前实现人工智能的主流方法和技术。
  • 机器学习——数据驱动的人工智能。

在这里插入图片描述

一、机器学习的基本概念和方法

(一)基本概念

从事例中学习(体现数据驱动)—— “事例” 即 “样本”。

  • 统计学:由样本的统计量估计总体的参数。
  • 机器学习:利用训练集进行建模和参数估计,利用测试集进行模型测试。

在这里插入图片描述

(二)机器学习的一般过程举例

问题:让机器(程序)自动识别一个物品是筷子or牙签。(注: 机器开始并没有筷子和牙签的任何知识)

1、第一步:收集一些筷子和牙签的样本。

在这里插入图片描述
2、第二步:特征选择,选择有区分度的特征。

3、第三步:训练模型。

  • 训练(training):从数据中学得模型的过程称为学习(learning)或训练(training),这个过程通过制定某种策略和执行某个学习算法来完成。
  • 训练过程中使用的数据称为训练数据(training data),其中每个样本称为一个训练样(training sample),训练样本组成的集合称为训练集(training set)。

在这里插入图片描述
模型:能否是其他? 例如抛物线所有可能的模型的集合称为假设空间

4、第四步:预测新实例。

  • 学得模型后,使用其进行预测的过程称为测试(testing),被预测的样本称为测试集(testing sample)。
  • 泛化能力(generalization):学得模型适用于新样本的能力。

在这里插入图片描述
机器学习三要素:基于一定策略,通过合适的算法求得模型

  • 模型:考研(江海大or南大)
  • 策略:求稳or更好的前景
  • 算法:内外联动

(三)样本和参数估计

  • 统计学中:样本是用来估计总体的参数。
  • (统计)机器学习中:样本是用来训练模型和估计模型参数的。
  • 对于参数估计来说

在这里插入图片描述

二、机器学习的步骤总结

(一)机器学习的主要步骤

  1. 收集相关样本
  2. 提取特征
  3. 将特征转换为数据(数据标准化)
  4. 训练模型
  5. 使用模型预测新实例

(二)样本及样本的划分

样本分为训练集、验证集和测试集。

在这里插入图片描述

  • 为了防止训练出来的模型只对训练数据有效,一般将训练数据又分为训练集和验证集。

  • 训练集用来训练模型,而验证集一般只用来验证模型的有效性,不参与模型训练。此外,验证集常用于调整模型的超参数。

在这里插入图片描述

(三)评估机器学习模型的效果

  训练模型的最终目的是提高模型在总体(含新样本)上的预测准确率,而不是在已知样本上的预测准确率。

为适应特殊样本而修改分类线为曲线:

在这里插入图片描述
两种分类线的预测准率对比:

在这里插入图片描述
  泛化能力是评价机器学习模型优劣的最根本指标,然而,模型的训练通常以最小化训练误差为标准。对于固定数量的训练样本,随着训练的不断进行,训练误差会不断降低,甚至趋向于零。如果模型训练误差过小,就会使训练出来的模型基本上完全适应于训练样本。

(四)欠拟合、过拟合与泛化能力

1、欠拟合、过拟合示例

  模型在训练样本上产生的误差叫训练误差(training error)。在测试样本上产生的误差叫测试误差(test error)。

在这里插入图片描述
在这里插入图片描述
2、泛化能力与模型复杂度

在这里插入图片描述
  衡量模型好坏的是测试误差,它标志了模型对未知新实例的预测能力,因此一般追求的是测试误差最小的那个模型。模型对新实例的预测能力称为泛化能力,模型在新实例上的误差称为泛化误差。

  能够求解问题的模型往往不只一个。一般来说,只有合适复杂程度的模型才能最好地反映出训练集中蕴含的规律,取得最好的泛化能力。并非使用一个更复杂的模型就会更好

3、奥卡姆剃刀原理——大道至简

  奥卡姆剃刀(Occam’s Razor)原理:如果有两个性能相近的模型, 我们应该选择更简单的模型 ,通常简单的模型泛化能力更好 。

在这里插入图片描述
课程思政:

  • 减少杂念,追求本真
  • 活在当下:在合适的时间做该做的事情
  • 不走极端、过犹不及

4、泛化能力评估方法

——留出法、K-折交叉验证

  将训练数据划分为训练集和验证集的方法称为留出法(holdout method),一般保留已知样本的20%到30%作为验证集。

  K-折交叉验证是将总样本集随机地划分为K个互不相交的子集。对于每个子集,将所有其它样本集作为训练集训练出模型,将该子集作为验证集,并记录验证集每一个样本的预测结果。这个方法将每一个样本都用来进行了验证,其评估的准确性一般要高于留出法。

在这里插入图片描述

三、机器学习的预处理环节

(一)数据预处理

  数据预处理是机器学习中繁琐枯燥但又是很重要的一个阶段。

在这里插入图片描述
为什么要进行数据预处理:

  获取到的原始样本数据往往会存在有缺失值、重复值等问题,在使用之前必须进行数据预处理。

数据预处理之前的样本:

在这里插入图片描述
数据预处理之后的样本:

在这里插入图片描述

(二)数据标准化

对于样本数据来说,首先需要消除特征之间不同量级的影响:

  • 量纲的差异将导致数量级较大的属性占主导地位(例如身高1.75米,体重130斤)。
  • 数量级的差异将导致迭代收敛速度减慢。
  • 依赖于样本距离的算法对于数量级非常敏感。

1、常用的数据标准化方法

  • min-max标准化(归一化):映射到[0,1]区间
    新数据 = (原数据 - 最小值) / (最大值 - 最小值)
  • z-score标准化(规范化):转换成标准正态分布
    新数据 = (原数据 - 均值) / 标准差

在这里插入图片描述
2、标准化和归一化的选择

  • 标准化:样本数据的分布要求服从正态分布。
  • 归一化的缺点:对离群值(outlier)很敏感,因为离群点会影响max或min值;其次,当有新数据加入时,可能导致max和min值发生较大变化。

  而在标准化方法中,新数据加入对标准差和均值的影响并不大。归一化会改变数据的原始距离、分布,使得归一化后的数据分布呈现类圆形。优点是数据归一化后,最优解的寻找过程会变得更平缓,更容易正确地收敛到最优解。

(三)数据的降维

  “维度” 就是指样本集中特征的个数,“降维” 指的是降低特征矩阵中特征的数量。维度灾难会导致分类器出现过拟合。这是因为在样本容量固定时,随着特征数量的增加,单位空间内的样本数量会变少。

在这里插入图片描述
在这里插入图片描述
  数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。因此,数据比模型更重要。

数据的降维方法:

  主成分分析(Principal Component Analysis,PCA)是最常用的一种降维方法,它试图找到数据方差最大的方向进行投影。矩阵的主成分就是其协方差矩阵对应的特征向量,按照对应的特征值大小进行排序,最大的特征值就是第一主成分,其次是第二主成分,以此类推。

  假设有五个样本,两个维度的数据,那么这五个样本要从二维降维到一维,就图中的三条虚线,新的维度为哪一条最好?

在这里插入图片描述
  需要分别计算下在新的维度上的投影值,然后计算投影坐标值的方差,方差最大的就是最好的维度
(数据点更容易区分)。

四、机器学习的类型

(一)聚类模型、分类模型、回归模型

  • 聚类(Clustering)模型用于将训练数据按照某种关系划分为多个簇,将关系相近的训练数据分在同一个簇中。
  • 分类(Classification)是机器学习应用中最为广泛的任务,它用于将某个事物判定为属于预先设定的多个类别中的某一个。
  • 回归(Regression)模型预测的不是属于哪一类,而是什么值,可以看作是将分类模型的类别数无限增加,即标签值不再只是几个离散的值了,而是连续的值。

(二)监督学习、无监督学习和半监督学习

  • 监督学习处理的对象是所谓的有标签训练数据,它利用有标签的训练数据来学习一个模型,它的目标是用学到的模型给无标签的测试数据打上标签。
  • 无监督学习的训练数据没有标签,它自动从训练数据中学习知识,建立模型。
  • 半监督学习是监督学习和无监督学习相结合的一种学习方法。

在这里插入图片描述

五、机器学习的学习路线

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1619920.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

zookeeper安装原生开发 C API接口时报错

报出的错误:error: %d directive writing between 1 and 5 bytes into a region of size be 问题原因 %d 格式说明符用于格式化有符号十进制整数。它需要一个与要格式化的整数大小相匹配的缓冲区。如果缓冲区太小,则会导致缓冲区溢出,从而可…

异地组网、内部网络需求同时满足,贝锐企业路由器G300开箱体验

由于公司最近新增了办事处,作为IT管理员的我不仅需要搞定办事处的网络,还需要解决远程访问公司内部办公系统以及文件存储服务器的问题。 在此之前,只有少量人员出差时,我们采用了虚拟专网方案来进行远程访问。然而,新…

ROS2中node之最简单的HelloWorld(C++)案例

ROS2中node之最简单的HelloWorld(C)案例 1、创建工作空间2、编译工作空间3、创建功能包4、编写helloworld 代码5、编辑CMakeLists.txt6、编译工作空间所有功能包7、运行结果 1、创建工作空间 $ mkdir -p ~/devnode_ws/src $ cd ~/devnode_ws/2、编译工作…

探索SmartEDA:电路仿真的教学新境界

在电子工程的教学领域,随着技术的飞速发展,传统的教学方法已经难以满足现代学生的学习需求。近年来,电路仿真软件在教学中的应用逐渐受到关注,而SmartEDA作为一款功能强大的电路仿真软件,为电子工程教学带来了革命性的…

韩国机器人公司Rainbow Robotics推出RB-Y1轮式双臂机器人

文 | BFT机器人 近日,韩国机器人领域的佼佼者Rainbow Robotics揭开了RB-Y1移动机器人的神秘面纱,这款机器人以其创新的设计和卓越的功能引起了业界的广泛关注。与此同时,Rainbow Robotics还携手舍弗勒集团(提供汽车、工业技术服务…

Java | Leetcode Java题解之第41题缺失的第一个正数

题目&#xff1a; 题解&#xff1a; class Solution {public int firstMissingPositive(int[] nums) {int n nums.length;for (int i 0; i < n; i) {while (nums[i] > 0 && nums[i] < n && nums[nums[i] - 1] ! nums[i]) {int temp nums[nums[i] …

【前端技术】HTML基础入门篇

1.1 HTML简介 ​ HTML&#xff08;HyperText Markup Language&#xff1a;超文本标记语言&#xff09;是一种标识性的语言。它包括一系列标签&#xff0e;通过这些标签可以将网络上的文档格式统一&#xff0c;使分散的Internet资源连接为一个逻辑整体。HTML文本是由HTML命令组…

opencv绘制线段------c++

绘制线段 bool opencvTool::drawLines(std::string image_p, std::vector<cv::Point> points) {cv::Mat ima cv::imread(image_p.c_str()); // 读取图像&#xff0c;替换为你的图片路径 cv::Scalar red cv::Scalar(0, 0, 255); // Red color int thickness 2;// 遍…

用html画一个四叶草

<!DOCTYPE html> <html lang"en" > <head> <meta charset"UTF-8"> <title>四叶草</title> <link href"" rel"stylesheet"> <link rel"stylesheet" href"css/style.css&q…

上位机图像处理和嵌入式模块部署(树莓派4b与视觉slam十四讲)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】 实际使用中&#xff0c;树莓派4b是非常好的一个基础平台。本身板子价格也不是很贵&#xff0c;建议大家多多使用。之前关于vslam&#xff0c;也就是…

树 —— 树和森林的遍历

一、树的遍历 &#xff08;1&#xff09;先根遍历 若树非空&#xff0c;则遍历方法为 &#xff08;1&#xff09;访问根结点。 &#xff08;2&#xff09;从左到右&#xff0c;依次先根遍历根结点的每一棵子树。 先根遍历序列为&#xff1a;ABECFHGD。 &#xff08;2&#…

IP定位技术助力网络安全保护

在当今数字化时代&#xff0c;网络安全成为各个组织和个人关注的焦点之一。随着网络攻击日益复杂和频繁&#xff0c;有效的网络安全保护措施变得至关重要。IP定位技术作为网络安全的重要组成部分&#xff0c;为识别、定位和防御网络攻击提供了关键支持。本文将探讨IP定位技术如…

Spring Cloud学习笔记(Ribbon):Ribbon的应用样例

这是本人学习的总结&#xff0c;主要学习资料如下 - 马士兵教育 1、Ribbon简介1.1、架构图1.2、简单实现负载均衡 2、配置负载均衡策略2.1、IRule2.2、使用IRule简单示例2.2.1、Overview2.2.1、注入IRule2.2.2、关联IRule和服务 1、Ribbon简介 我们都知道Ribbon是用于负载均衡…

【数据结构】算法效率揭秘:时间与空间复杂度的较量

前言 在计算机科学中&#xff0c;时间复杂度和空间复杂度是衡量算法性能的两个重要指标。它们分别表示算法在执行过程中所需的时间和空间资源。了解这两个概念有助于我们评估和比较不同算法的优劣&#xff0c;从而选择更合适的算法解决问题~ 欢迎关注个人主页&#xff1a;逸狼 …

电子邮件免费版有哪些?免费注册电子邮箱

电子邮件有付费版和免费版两种类型&#xff0c;付费版通常具有更大的电子邮箱容量和更强大的电子邮箱功能。但是对于我们个人用户或者是中小型企业来说注册电子邮箱免费版的就够日常使用了。电子邮件的免费版提供商有Zoho Mail、微软、腾讯等&#xff0c;今天我们就来具体了解下…

【Linux】使用Jenkins + svn + springboot自动构建jar包并自动打包在服务器上运行

&#x1f468;‍&#x1f393;博主简介 &#x1f3c5;云计算领域优质创作者   &#x1f3c5;华为云开发者社区专家博主   &#x1f3c5;阿里云开发者社区专家博主 &#x1f48a;交流社区&#xff1a;运维交流社区 欢迎大家的加入&#xff01; &#x1f40b; 希望大家多多支…

报告!这里发现了一个赛博炼丹的神级平台!

众所周知&#xff0c;“赛博炼丹”是一个AI开发研究领域古老又神秘的活动&#xff0c;它往往对炼丹平台有很高的要求。如果你也是一路从“炼丹小白”成长到“资深AI算法工程师”&#xff0c;那你一定懂我在说什么&#xff1f;说好了&#xff0c;天台见&#xff01; GpuMall智算…

redis单线程模型

工作原理 在Redis中&#xff0c;当两个客户端同时发送相同的请求时&#xff0c;Redis采用单线程模型来处理所有的客户端请求&#xff0c;会依次处理这些请求&#xff0c;每个请求都会按照先后顺序被执行&#xff0c;不会同时处理多个请求。使得Redis能够避免多线程并发访问数据…

探索比特币符文热:市场趋势与持续性分析

在加密货币世界中&#xff0c;比特币一直是备受关注的焦点之一。然而&#xff0c;近年来&#xff0c;随着DeFi&#xff08;去中心化金融&#xff09;的兴起&#xff0c;一种新的潮流开始崭露头角——比特币符文。本文将探讨比特币符文的兴起&#xff0c;分析市场趋势&#xff0…

基于深度学习网络的十二生肖图像分类matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2022a 3.部分核心程序 ............................................................... for i 1:16subplot(4,4,…