机器学习基础

news2026/3/22 23:20:32

一、基本概念

1 学习的概念

1975年图灵奖获得者、1978年诺贝尔经济学奖获得者、著名学者赫伯特.西蒙 (Herbert Simon) 曾下过一个定义: 如果一个系统，能够通过执行某个过程，就此改进了它的性能，那么这个过程就是学习.由此可看出，学习的目的就是改善性能.

卡耐基梅隆大学机器学习和人工智能教授汤姆.米切尔 (TomMitchell) 在他的经典教材《机器学习》中，给出了更为具体的定义对于某类任务 (Task，简称T) 和某项性能评价准则 (Performance简称P)，如果一个计算机在程序T上，以P作为性能度量，随着经验(Experience，简称E) 的积累，不断自我完善，那么我们称计算机程序从经验E中进行了学习.

2. 为什么需要机器学习

程序自我升级；
解决那些算法过于复杂，甚至没有已知算法的问题；
在机器学习的过程中，协助人类获得事物的洞见。

3. 机器学习的形式

3.1 建模问题

所谓机器学习，在形式上可近似等同于在数据对象中通过统计、推理的方法，来寻找一个接受特定输入X，并给出预期输出Y功能函数f，即Y=f(a)这个函数以及确定函数的参数被称为模型。

3.2 评估问题

针对已知的输入，函数给出的输出 (预测值) 与实际输出 (目标值)之间存在一定误差，因此需要构建一个评估体系，根据误差大小判定函数的优劣。

3.3 优化问题

学习的核心在于改善性能，通过数据对算法的反复锤炼不断提升函数预测的准确性，直至获得能够满足实际需求的最优解，这个过程就是机器学习。

4. 机器学习的分类

4.1 有监督、无监督、半监督学习

1）有监督学习

在已知数据输出(经过标注的)的情况下对模型进行训练，根据输出进行调整、优化的学习方式称为有监督学习。
在这里插入图片描述

2）无监督学习

没有已知输出的情况下，仅仅根据输入信息的相关性，进行类别的划分。
在这里插入图片描述

3）半监督学习

先通过无监督学习划分类别，再人工标记通过有监督学习方式来预测输出.例如先对相似的水果进行聚类，再识别是哪个类别。

在这里插入图片描述

4）强化学习

通过对不同决策结果的奖励、惩罚，使机器学习系统在经过足够长时间的训练以后，越来越倾向于接近期望结果的输出。

4.2 批量学习、增量学习

1）批量学习

将学习过程和应用过程分开，用全部训练数据训练模型，然后再在应用场景中进行预测，当预测结果不够理想时，重新回到学习过程，如此循环.

2）增量学习

将学习过程和应用过程统一起来，在应用的同时，以增量的方式不断学习新的内容，边训练、边预测.

4.3 基于模型学习、基于实例学习

1) 基于模型学习

根据样本数据，建立用于联系输出和输出的某种数学模型，将待预测输入带入该模型，预测其结果.例如有如下输入输出关系：
在这里插入图片描述

2）基于实例的学习

根据以往经验，寻找与待预测输入最接近的样本，以其输出作为预测结果(从数据中心找答案)例如有如下一组数据：
在这里插入图片描述

5. 机器学习的一般过程

数据收集，手段如手工采集、设备自动化采集、爬虫等
数据清洗:数据规范、具有较大误差的、没有意义的数据进行清理注:以上称之为数据处理，包括数据检索、数据挖掘、爬虫…
选择模型 (算法)
训练模型
模型评估
测试模型
注:3~6步主要是机器学习过程，包括算法、框架、工具等…
应用模型
模型维护

6. 机器学习的基本问题

1）回归问题

根据已知的输入和输出，寻找某种性能最佳的模型，将未知输出的输入代入模型，得到连续的输出.
例如:

根据房屋面积、地段、修建年代以及其它条件预测房屋价格；
根据各种外部条件预测某支股票的价格；
根据农业、气象等数据预测粮食收成；
计算两个人脸的相似度。

2）分类问题

根据已知的输入和输出，寻找性能最佳的模型，将未知输出的输入带入模型，得到离散的输出，例如:

手写体识别 (10个类别分类问题；
水果、鲜花、动物识别；
工业产品瑕疵检测(良品、次品二分类问题)识别一个句子表达的情绪(正面、负面、中性)。

3）聚类问题

根据已知输入的相似程度，将其划分为不同的群落，例如:。根据一批麦粒的数据，判断哪些属于同一个品种根据客户在电商网站的浏览和购买历史，判断哪些客户对某件商占感兴趣判断哪些客户具有更高的相似度。

4）降维问题

在性能损失尽可能小的情况下，降低数据的复杂度，数据规模缩小都称为降维问题。
在这里插入图片描述

二、数据预处理

1. 数据预处理目的

去除无效数据、不规范数据、错误数据
补齐缺失值
对数据范围、量纲、格式、类型进行统一化处理，更容易进行后续计算

2. 预处理方法

1）标准化（均值移除）

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/348877.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

思科基础组面试(部分)

思科基础组面试(部分)

面了三轮，前面两轮因为录的视频坏了，很多问题忘了。 Round 1 Q:举例说明为什么hashmap线程不安全 A1: JDK1.8 HashMap线程不安全体现在：数据覆盖: 其中第六行代码是判断是否出现hash碰撞，假设两个线程A、B都在进行put操作&#…

阅读更多...

软件测试未来发展趋势怎么样

软件测试未来发展趋势怎么样

未来，互联网技术是很多企业能够活下去的关键点。互联网技术成为新的基建，互联网“基建”化就决定了软件测试行业的缺口会一直扩大。并且，软件测试岗位，已不仅局限于互联网企业，现已逐步深入到实体产业，金…

阅读更多...

【安全等保】安全等保二级和三级哪个高？哪个费用更高？

【安全等保】安全等保二级和三级哪个高？哪个费用更高？

等保政策已经严格落地执行了，各大企业纷纷接到了过等保的通知，但有的估计是第一次听到等保，对于等保相关政策都是非常蒙圈的。这不不少企业相关负责人在问，安全等保二级和三级哪个高？哪个费用更高？这里我们…

阅读更多...

分布式文件系统使用——MinIO

分布式文件系统使用——MinIO

分布式文件系统使用——MinIO 1 分布式文件系统 1.1 概念常见的文件系统：FAT16/FAT32、NTFS、HFS、UFS、APFS、XFS、Ext4等。现在有个问题，一此短视频平台拥有大量的视频、图片，这些视频文件、图片文件该如何存储呢？如何存储…

阅读更多...

04- 根据Xgboost集成算法预测还贷能力 (项目四)

04- 根据Xgboost集成算法预测还贷能力 (项目四)

筛选最佳参数: # 对于max_depth和min_child_weight查找最好的参数 param_grid { max_depth:range(3,10,2),min_child_weight:range(1,6,2)}model XGBClassifier(learning_rate 0.1,n_estimators100,max_depth5,use_label_encoderFalse,min_child_weight1,gamma0,subsample0…

阅读更多...

状态管理VueX

状态管理VueX

哈喽~大家好，这篇来看看状态管理VueX。 🥇个人主页：个人主页 🥈 系列专栏：【专栏】 🥉与这篇相关的文章： SpringCloud Sentinel 使用SpringClou…

阅读更多...

java整数转罗马数字

java整数转罗马数字

罗马数字包含以下七种字符： I， V， X， L，C，D 和 M。字符数值 I 1 V 5 X 10 L 50 C 100 D 500 M 1000 例如， 罗马数字 2 写做 II ，即为两个并列的 1。12 写做 XII ，即为…

阅读更多...

低版本jQuery导致XSS Nuclei FUZZ POC

低版本jQuery导致XSS Nuclei FUZZ POC

目录 1.前言 2. Nuclei FUZZ jQuery XSS POC 3.漏洞验证 4.修复建议 1.前言我记得以前用那些漏扫工具时时常会报一个低版本jQuery的安全问题，当时还不会验证。直到有一天，它托梦给我。我悟了。低版本jQuery导致XSS POC文件文末获取。

阅读更多...

java.io.IOException: Could not find resource com/itheima/mapper/UserMapper.xml

java.io.IOException: Could not find resource com/itheima/mapper/UserMapper.xml

问题：Error parsing SQL Mapper Configuration. Cause: java.io.IOException: Could not find resource com/itheima/mapper/UserMapper.xml问题描述：找不到UserMapper解决方案：这是我原来的路径这是我改后的路径（很重要&#xff…

阅读更多...

羊了个羊游戏开发教程2:随机生成卡牌

羊了个羊游戏开发教程2:随机生成卡牌

本文首发于微信公众号： 小蚂蚁教你做游戏。欢迎关注领取更多学习做游戏的原创教程资料，每天学点儿游戏开发知识。嗨！大家好，我是小蚂蚁。上一节教程里我们实现了游戏中最难的地方——堆叠牌的拾取，这节教程我们来继续学…

阅读更多...

关于CountDownLatch

关于CountDownLatch

关于CountDownLatchCountDownLatch 是什么CountDownLatch 如何工作CountDownLatch API使用示例与 Join 的区别CountDownLatch 是什么 CountDownLatch这个类能够使一个线程等待其他线程完成各自的工作后再执行。例如，应用程序的主线程希望在负责启动框架服务的线程已…

阅读更多...

强化学习基础

强化学习基础

强化学习的三种方法基于价值（value-based） 基于策略（policy-based） 基于模型（model-based） 一基于价值的方法基于价值 (Value-Based)这种方法，目标是优化价值函数V(s)。价值函数会告诉我们…

阅读更多...

LeetCode 1669. 合并两个链表（C++）

LeetCode 1669. 合并两个链表（C++）

思路： 该题思路很简单，对于单向链表，先遍历到指定的右边界的位置b1，做好标记供连接； 然后对于a-1位置的结点，连接list2，并最后连接后半段的list1 1.题目如下： 给你两个链表 list1 …

阅读更多...

ATX agent+UIautomation2 自动化测试介绍

ATX agent+UIautomation2 自动化测试介绍

目前ATXUIautomator2 处于自动化界的浪口风尖，现在有幸终于有时间对ATX进行了粗浅的了解为什么要用ATX ATXUIautomator2的优势： 1.速度吊打appnium，群里面的人这样说的运行速度快，比Appium运行速度快了好多。（用…

阅读更多...

分布式架构

分布式架构

目录一、前言二、分布式架构的发展历史三、分布式架构发展的里程碑四、分布式系统的意义五、分布式架构的常见概念六、分布式领域中冯诺依曼模型的变化七、分布式系统的难点八、总结一、前言　　我们都知道，当今无论在BAT这样的大公司&#xff…

阅读更多...

Install Linux on Windows with WSL2 (使用 WSL2 在 Windows 上安装 Linux)

Install Linux on Windows with WSL2 (使用 WSL2 在 Windows 上安装 Linux)

Install Linux on Windows with WSL2 (使用 WSL2 在 Windows 上安装 Linux)https://learn.microsoft.com/en-us/windows/wsl/ 在 Windows 上运行 Linux - 在 Windows 11 上运行 Ubuntu 20.04 LTS Developers can access the power of both Windows and Linux at the same tim…

阅读更多...

实验十三、阻容耦合共射放大电路的频率响应

实验十三、阻容耦合共射放大电路的频率响应

一、题目利用 Multism 从以下几个方面研究图1所示的阻容耦合共射放大电路的频率响应。图1阻容耦合共射放大电路图1\,\,阻容耦合共射放大电路图1阻容耦合共射放大电路（1）设 C1C210μFC_1C_210\,\textrm{μF}C1C210μF，分别测试它们所确定…

阅读更多...

6万字电力行业系统解决方案光伏电站综合安防系统解决方案

6万字电力行业系统解决方案光伏电站综合安防系统解决方案

【版权声明】本资料来源网络，知识分享，仅供个人学习，请勿商用。【侵删致歉】如有侵权请联系小编，将在收到信息后第一时间删除！完整资料领取见文末，部分资料内容： 目录第一章背景与需求 1.1行…

阅读更多...

2023年收银管理系统排行榜新鲜出炉

2023年收银管理系统排行榜新鲜出炉

随着新零售的模式普及，越来越多的零售店选择了用收银系统代替收银机。因为收银系统不仅具备收银等功能，其实还有各种店铺数据管理功能、经销商信息管理，销售数据分析等许多功能等。所以如果想清晰地知道门店每天盈利情况和库存情况和采购过程…

阅读更多...

这些小众却足够惊艳的素材库，你知道吗？

这些小众却足够惊艳的素材库，你知道吗？

推荐几个我经常使用的网站，绝对够惊艳。 1、菜鸟图库（免费设计素材） https://www.sucai999.com/?vNTYxMjky 这是一个为新手设计师提供免费素材的设计网站，站内有超多平面模板、海报、UI设计、电商设计等相关素材，质…

阅读更多...

推荐文章

最新文章