机器学习｜机器学习概述

news2026/5/7 2:09:51

目录

📚关于机器学习

📚监督学习和无监督学习

🐰监督学习

🐰无监督学习

👀小结

📚关于机器学习

🌈在计算机中，“经验”通常以数据的形式存在。机器学习最主要的一项工作就是基于数据产生“训练模型”，产生训练模型的过程就是机器学习算法实现的过程。和冒泡排序这类给定输入就能确定输出的算法不同，机器学习算法靠的是“猜”。机器学习会根据“猜”的结果，不断优化模型，从而得到正确率最高的模型。

模型：模型相当于一个“许愿池”，你向它许愿（输入数据），它就会帮你实现愿望（输出预测结果）。训练出一个优质的“许愿池”，使它能尽量精准地实现你许的“愿望”，这就是机器学习的目的。
数据集：数据集是承载数据的集合。如果说“模型”是“许愿池”，那么“数据集”就是“许愿池”里的水。没有数据集，那么模型就没有存在的意义。数据集可划分为“训练集”和“测试集”，它们分别在机器学习的“训练阶段”和“预测输出阶段”起着重要作用。
训练集&假设：训练过程中使用的数据称为“训练数据”，其中每一个样本称为“训练样本”，由训练样本组成的集合称为“训练集”。学得模型对应了关于数据的某种潜在的规律，因此亦成为“假设”。这种潜在的规律自身，又称为“真相”。学习的过程就是为了找出或逼近真相。
测试集：在获得“训练模型”后，我们还需要知道用该模型预测其他情况的结果的效果好不好，所以需要引入“测试集”，如果该模型也能够很好地预测出“测试集”的结果，那么我们可以认为“训练模型”非常接近“真相”。
分类&回归：若我们欲预测的结果是离散值，例如“好人”“坏人”，此类学习任务称为“分类”，若欲预测的是连续值，例如及格率为0.95,0.93，此类学习称为“回归”。
聚类：我们可以对数据进行“聚类”，相关算法将自动将训练集中的数据分成若干组，每组称为一个“簇”。这些自动形成的簇可能对应一些潜在的划分。

📚监督学习和无监督学习

🌈机器学习算法最主要的两个分类就是监督学习和无监督学习。此外，强化学习也叫半监督模型。

🐰监督学习

从给定的训练数据集中学习出一个函数（模型参数），当新的数据到来时，可根据这个函数预测结果。通俗来讲就是我们给计算机一组正确答案，计算机由这些正确答案学明白一个知识点，然后给它一个没做过的题，让他把题解出来。

监督学习的基本思想是对于数据集中的每个数据，都有相应的正确的答案，算法就是基于这些来预测的。我们知道输出应该是什么样子的。监督学习可分为回归问题与分类问题。

房价问题是回归问题，通过回归来预测一个连续值输出。
肿瘤问题是分类问题，它的目标是预测离散值输出。

🐰无监督学习

我们给算法大量的数据，希望它自动找出数据之间的耦合

无监督学习关键在于，它不是告诉计算机怎么做，而是让它自己去学习怎样做事情。输入数据没有被标记，也没有确定的结果，样本数据类别未知，需要根据样本间的相似性对样本集进行分类（聚类）试图使类内差距最小化，类间差距最大化。注意：聚类只是无监督学习中的一种。

👀小结

机器学习的主要任务：

1.监督学习的用途：k-近邻算法，线性回归，朴素贝叶斯算法，局部加权线性回归，支持向量机，Ridge回归，决策树，Lasso最小回归系数估计，

2.非监督学习的用途：K-均值，最大期望算法，DBSCAN，Parzen窗设计

监督学习必须要有训练集与测试样本。在训练集中找规律，而对测试样本使用这种规律。而非监督学习没有训练集，只有一组数据，在该数据集内寻找规律。
有监督学习就是识别事物，识别的结果表现在给待识别数据加上了标签。因此训练样本集必须由待标签的样本组成。
非监督学习只有要分析的数据集本身，预先没有什么标签。如果发现数据集呈现某种聚集性，则可按自然的聚集性分类。

参考博客

机器学习是什么？

监督学习与无监督学习

be happy——

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/377244.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

MongoDB 详细教程，这一篇就够啦

MongoDB 详细教程，这一篇就够啦

文章目录1. 简介2. 特点3. 应用场景4. 安装（docker）5. 核心概念5.1 库5.2 集合5.3 文档6. 基本操作6.1 库6.1.1 增6.1.2 删6.1.3 改6.1.4 查6.2 集合6.2.1 增6.2.2 删6.2.3 改6.2.4 查6.3. 文档6.3.1 增6.3.2 删6.3.3 改6.3.4 查1. 语法2. 对比语法3. AN…

阅读更多...

springboot使用Gateway搭建网关服务及Nacos实现动态路由

springboot使用Gateway搭建网关服务及Nacos实现动态路由

实际工作中我们会有很多个项目，这些项目共同使用同一个网关gateway来实现路由，各个项目之间调用以及前端调用都可以直接通过服务名称来调用，不用管ip，后续项目迁移到其它服务器也不受影响。首先搭建springboot微服务&#xff0c…

阅读更多...

智慧扫码点餐系统源码

智慧扫码点餐系统源码

智慧餐厅扫码点餐小程序系统源码 1. 开发语言：JAVA 2. 数据库：MySQL 3. 原生小程序 4. Saas 模式 5. 带调试部署视频 6、总后台管理端商家端门店端小程序用户端智慧扫码点餐系统支持多店铺运营，单店铺运营以及连锁店铺运营。系统功能支…

阅读更多...

服务案例|基于IT事件管理，提升业务连续性

服务案例|基于IT事件管理，提升业务连续性

数字化经济时代，IT架构复杂性越来越高，业务连续性成为很多行业或企业最核心的任务。业务连续性管理是一个不断提升的过程，围绕事件“发现-响应-定位处理-降低发生”的事件处理思路，结合平台化运维，助力业务快速提升。 …

阅读更多...

leetcode-每日一题-1144(中等，贪心，数学)

leetcode-每日一题-1144(中等，贪心，数学)

这道题说实话理清楚的话很简单，就是很容易绕进去，刚开始绕进去了很难受，解了半天才出来。。。。给你一个整数数组 nums，每次操作会从中选择一个元素并将该元素的值减少 1。如果符合下列情况之一，则数组 A 就是锯齿…

阅读更多...

Pytest自动化测试框架-权威教程01-安装及入门

Pytest自动化测试框架-权威教程01-安装及入门

安装及入门Python支持版本: Python 2.6,2.7,3.3,3.4,3.5,Jython,PyPy-2.3支持的平台: Unix/Posix and WindowsPyPI包名: pytest依赖项: py,colorama (Windows)PDF文档: 下载最新版本文档Pytest是一个使创建简单及可扩展性测试用例变得非常方便的框架。测试用例清晰、易读而无需…

阅读更多...

【离线数仓-9-数据仓库开发DWS层设计要点-DWS层汇总表以及数据装载】

【离线数仓-9-数据仓库开发DWS层设计要点-DWS层汇总表以及数据装载】

离线数仓-9-数据仓库开发DWS层设计要点-DWS层汇总表以及数据装载离线数仓-9-数据仓库开发DWS层设计要点-DWS层汇总表以及数据装载一、交易域用户商品粒度订单最近1日/N日汇总表1.交易域用户商品粒度订单最近1日汇总表2.交易域用户商品粒度订单最近N日汇总表二、交易域优惠券粒度…

阅读更多...

华为OD机试模拟题用 C++ 实现 - 通信误码（2023.Q1）

华为OD机试模拟题用 C++ 实现 - 通信误码（2023.Q1）

最近更新的博客【华为OD机试模拟题】用 C++ 实现 - 最多获得的短信条数（2023.Q1））文章目录最近更新的博客使用说明通信误码题目输入输出示例一输入输出说明示例二输入输出说明Code使用说明参加华为od机试，一定要注意不要完全背诵代码，需要理解之后模仿写出，

阅读更多...

（二）Markdown编辑器的使用效果 | 以CSDN自带MD编辑器为例

（二）Markdown编辑器的使用效果 | 以CSDN自带MD编辑器为例

Markdown编辑器使用指南 （一）Markdown编辑器的使用示例 | 以CSDN自带MD编辑器为例（二）Markdown编辑器的使用效果 | 以CSDN自带MD编辑器为例这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题&#xf…

阅读更多...

Hbase预分区参考

Hbase预分区参考

背景我们都知道hbase的数据是分布在多台RegionServer角色的机器上的，每个RegionServer都有一到多个Region管理不同rowkey范围的数据,所以建表前通过合理的Region的分区及数量，可以避免热点读写问题和充分利用各RegionServer的资源，vmaster-h…

阅读更多...

五、线程池

五、线程池

文章目录什么是线程池JDK自带的构建线程池的方式newFixedThreadPoolnewSingleThreadExecutornewCachedThreadPoolnewScheduleThreadPoolnewWorkStealingPoolThreadPoolExecutor应用&源码剖析为什么要自定义线程池ThreadPoolExecutor应用ThreadPoolExecutor源码剖析ThreadPo…

阅读更多...

2023年3月北京/西安/广州/深圳DAMA-CDGA/CDGP数据治理认证报名

2023年3月北京/西安/广州/深圳DAMA-CDGA/CDGP数据治理认证报名

DAMA认证为数据管理专业人士提供职业目标晋升规划，彰显了职业发展里程碑及发展阶梯定义，帮助数据管理从业人士获得企业数字化转型战略下的必备职业能力，促进开展工作实践应用及实际问题解决，形成企业所需的新数字经济下的核心职业…

阅读更多...

翻转链表专题

翻转链表专题

这个专题总共有四道题目 206 翻转链表 92 翻转链表某个区间（翻转链表||） 24 两个一组翻转链表 25 k个一组翻转链表力扣206 翻转链表其实就是头插法创建一个新链表总共三个指针，dummy和head这两个指针是肯定是不用说的&#xff0c…

阅读更多...

SRC挖掘之Access验证校验的漏洞挖掘

SRC挖掘之Access验证校验的漏洞挖掘

漏洞已修复，感谢某大佬的知识分享。任意用户密码重置->可获取全校师生个人mingan信息开局就是信息收集。对于挖掘edu的信息收集 1.可尝试谷歌搜索语法，获取学号信息 2. 旁站的渗透获取 3. 学校的贴吧获取(大部分都是本校学生) 当然我就是闲&a…

阅读更多...

什么是热部署？Spring Boot如何进行项目热部署？

什么是热部署？Spring Boot如何进行项目热部署？

在开发过程中，通常会对一段业务代码不断地修改测试，在修改之后往往需要重启服务，有些服务需要加载很久才能启动成功，这种不必要的重复操作极大降低了程序开发效率。为此，Spring Boot框架专门提供了进行热部署的依赖启动…

阅读更多...

sql-labs-Less1

sql-labs-Less1

靶场搭建好了，访问题目路径 http://127.0.0.1/sqli-labs-master/Less-1/ 我最开始在做sql-labs靶场的时候很迷茫，不知道最后到底要得到些什么，而现在我很清楚，sql注入可以获取数据库中的信息，而获取信息就是我们的目标…

阅读更多...

1.时间复杂度与空间复杂度

1.时间复杂度与空间复杂度

时间复杂度时间复杂度是用来估算算法运行时间的式子（单位）；一般来说，时间复杂度高的算法比时间复杂度低的算法慢；常见的时间复杂度（按照算法运行所耗的时间排序）O(1) < O(logn) < O(n) &l…

阅读更多...

面试半年，总结了1000道2023年Java架构师岗面试题

面试半年，总结了1000道2023年Java架构师岗面试题

半年前还在迷茫该学什么，怎样才能走出现在的困境，半年后已经成功上岸阿里，感谢在这期间帮助我的每一个人。面试中总结了1000道经典的Java面试题，里面包含面试要回答的知识重点，并且我根据知识类型进行了分类&#xf…

阅读更多...

Vue组件间通信方式超详细(父传子、父传后代、子传父、后代传父、兄弟组件传值)

Vue组件间通信方式超详细(父传子、父传后代、子传父、后代传父、兄弟组件传值)

一、父传子、父传后代方式一：子通过props来接收父组件：父组件引入子组件时，通过<child :parentValue "parentValue"></child>子组件传值。备注：这种方式父传值很方便，但是传递给后代组件不…

阅读更多...

高燃！GitHub上标星75k+超牛的Java面试突击版

高燃！GitHub上标星75k+超牛的Java面试突击版

前言不论是校招还是社招都避免不了各种面试。笔试，如何去准备这些东西就显得格外重要。不论是笔试还是面试都是有章可循的，我这个有章可循‘说的意思只是说应对技术面试是可以提前准备。运筹帷幄之后，决胜千里之外!不打毫无准备的仗,我觉得大…

阅读更多...

推荐文章

最新文章