机器学习基础

news2024/11/17 22:41:16

一、基本概念

1 学习的概念

1975年图灵奖获得者、1978年诺贝尔经济学奖获得者、著名学者赫伯特.西蒙 (Herbert Simon) 曾下过一个定义: 如果一个系统,能够通过执行某个过程,就此改进了它的性能,那么这个过程就是学习.由此可看出,学习的目的就是改善性能.

卡耐基梅隆大学机器学习和人工智能教授汤姆.米切尔 (TomMitchell) 在他的经典教材《机器学习》中,给出了更为具体的定义对于某类任务 (Task,简称T) 和某项性能评价准则 (Performance简称P),如果一个计算机在程序T上,以P作为性能度量,随着经验(Experience,简称E) 的积累,不断自我完善,那么我们称计算机程序从经验E进行了学习.

2. 为什么需要机器学习

  • 程序自我升级;
  • 解决那些算法过于复杂,甚至没有已知算法的问题;
  • 在机器学习的过程中,协助人类获得事物的洞见。

3. 机器学习的形式

3.1 建模问题

所谓机器学习,在形式上可近似等同于在数据对象中通过统计、推理的方法,来寻找一个接受特定输入X,并给出预期输出Y功能函数f,即Y=f(a)这个函数以及确定函数的参数被称为模型。

3.2 评估问题

针对已知的输入,函数给出的输出 (预测值) 与实际输出 (目标值)之间存在一定误差,因此需要构建一个评估体系,根据误差大小判定函数的优劣。

3.3 优化问题

学习的核心在于改善性能,通过数据对算法的反复锤炼不断提升函数预测的准确性,直至获得能够满足实际需求的最优解,这个过程就是机器学习。

4. 机器学习的分类

4.1 有监督、无监督、半监督学习

1)有监督学习

在已知数据输出(经过标注的)的情况下对模型进行训练,根据输出进行调整、优化的学习方式称为有监督学习。
在这里插入图片描述

2)无监督学习

没有已知输出的情况下,仅仅根据输入信息的相关性,进行类别的划分。
在这里插入图片描述

3)半监督学习

先通过无监督学习划分类别,再人工标记通过有监督学习方式来预测输出.例如先对相似的水果进行聚类,再识别是哪个类别。

在这里插入图片描述

4)强化学习

通过对不同决策结果的奖励、惩罚,使机器学习系统在经过足够长时间的训练以后,越来越倾向于接近期望结果的输出。

4.2 批量学习、增量学习

1)批量学习

将学习过程和应用过程分开,用全部训练数据训练模型,然后再在应用场景中进行预测,当预测结果不够理想时,重新回到学习过程,如此循环.

2)增量学习

将学习过程和应用过程统一起来,在应用的同时,以增量的方式不断学习新的内容,边训练、边预测.

4.3 基于模型学习、基于实例学习

1) 基于模型学习

根据样本数据,建立用于联系输出和输出的某种数学模型,将待预测输入带入该模型,预测其结果.例如有如下输入输出关系:
在这里插入图片描述

2)基于实例的学习

根据以往经验,寻找与待预测输入最接近的样本,以其输出作为预测结果(从数据中心找答案)例如有如下一组数据:
在这里插入图片描述

5. 机器学习的一般过程

  1. 数据收集,手段如手工采集、设备自动化采集、爬虫等
  2. 数据清洗:数据规范、具有较大误差的、没有意义的数据进行清理注:以上称之为数据处理,包括数据检索、数据挖掘、爬虫…
  3. 选择模型 (算法)
  4. 训练模型
  5. 模型评估
  6. 测试模型
    注:3~6步主要是机器学习过程,包括算法、框架、工具等…
  7. 应用模型
  8. 模型维护

6. 机器学习的基本问题

1)回归问题

根据已知的输入和输出,寻找某种性能最佳的模型,将未知输出的输入代入模型,得到连续的输出.
例如:

  • 根据房屋面积、地段、修建年代以及其它条件预测房屋价格;
  • 根据各种外部条件预测某支股票的价格;
  • 根据农业、气象等数据预测粮食收成;
  • 计算两个人脸的相似度。

2) 分类问题

根据已知的输入和输出,寻找性能最佳的模型,将未知输出的输入带入模型,得到离散的输出,例如:

  • 手写体识别 (10个类别分类问题;
  • 水果、鲜花、动物识别;
  • 工业产品瑕疵检测(良品、次品二分类问题)识别一个句子表达的情绪(正面、负面、中性)。

3)聚类问题

根据已知输入的相似程度,将其划分为不同的群落,例如:。根据一批麦粒的数据,判断哪些属于同一个品种根据客户在电商网站的浏览和购买历史,判断哪些客户对某件商占感兴趣判断哪些客户具有更高的相似度。

4)降维问题

在性能损失尽可能小的情况下,降低数据的复杂度,数据规模缩小都称为降维问题。
在这里插入图片描述

二、数据预处理

1. 数据预处理目的

  • 去除无效数据、不规范数据、错误数据
  • 补齐缺失值
  • 对数据范围、量纲、格式、类型进行统一化处理,更容易进行后续计算

2. 预处理方法

1)标准化(均值移除)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/348877.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

思科基础组面试(部分)

面了三轮,前面两轮因为录的视频坏了,很多问题忘了。 Round 1 Q:举例说明为什么hashmap线程不安全 A1: JDK1.8 HashMap线程不安全体现在:数据覆盖: 其中第六行代码是判断是否出现hash碰撞,假设两个线程A、B都在进行put操作&#…

软件测试未来发展趋势怎么样

未来,互联网技术是很多企业能够活下去的关键点。互联网技术成为新的基建,互联网“基建”化就决定了软件测试行业的缺口会一直扩大。 并且,软件测试岗位,已不仅局限于互联网企业,现已逐步深入到实体产业,金…

【安全等保】安全等保二级和三级哪个高?哪个费用更高?

等保政策已经严格落地执行了,各大企业纷纷接到了过等保的通知,但有的估计是第一次听到等保,对于等保相关政策都是非常蒙圈的。这不不少企业相关负责人在问,安全等保二级和三级哪个高?哪个费用更高?这里我们…

分布式文件系统使用——MinIO

分布式文件系统使用——MinIO 1 分布式文件系统 1.1 概念 常见的文件系统:FAT16/FAT32、NTFS、HFS、UFS、APFS、XFS、Ext4等 。 现在有个问题,一此短视频平台拥有大量的视频、图片,这些视频文件、图片文件该如何存储呢?如何存储…

04- 根据Xgboost集成算法预测还贷能力 (项目四)

筛选最佳参数: # 对于max_depth和min_child_weight查找最好的参数 param_grid { max_depth:range(3,10,2),min_child_weight:range(1,6,2)}model XGBClassifier(learning_rate 0.1,n_estimators100,max_depth5,use_label_encoderFalse,min_child_weight1,gamma0,subsample0…

状态管理VueX

哈喽~大家好,这篇来看看状态管理VueX。 🥇个人主页:个人主页​​​​​ 🥈 系列专栏:【专栏】 🥉与这篇相关的文章: SpringCloud Sentinel 使用SpringClou…

java整数转罗马数字

罗马数字包含以下七种字符: I, V, X, L,C,D 和 M。 字符 数值 I 1 V 5 X 10 L 50 C 100 D 500 M 1000 例如, 罗马数字 2 写做 II ,即为两个并列的 1。12 写做 XII ,即为…

低版本jQuery导致XSS Nuclei FUZZ POC

目录 1.前言 2. Nuclei FUZZ jQuery XSS POC 3.漏洞验证 4.修复建议 1.前言 我记得以前用那些漏扫工具时时常会报一个低版本jQuery的安全问题,当时还不会验证。直到有一天,它托梦给我。我悟了。低版本jQuery导致XSS POC文件文末获取。

java.io.IOException: Could not find resource com/itheima/mapper/UserMapper.xml

问题:Error parsing SQL Mapper Configuration. Cause: java.io.IOException: Could not find resource com/itheima/mapper/UserMapper.xml问题描述:找不到UserMapper解决方案:这是我原来的路径这是我改后的路径(很重要&#xff…

羊了个羊游戏开发教程2:随机生成卡牌

本文首发于微信公众号: 小蚂蚁教你做游戏。欢迎关注领取更多学习做游戏的原创教程资料,每天学点儿游戏开发知识。嗨!大家好,我是小蚂蚁。上一节教程里我们实现了游戏中最难的地方——堆叠牌的拾取,这节教程我们来继续学…

关于CountDownLatch

关于CountDownLatchCountDownLatch 是什么CountDownLatch 如何工作CountDownLatch API使用示例与 Join 的区别CountDownLatch 是什么 CountDownLatch这个类能够使一个线程等待其他线程完成各自的工作后再执行。例如,应用程序的主线程希望在负责启动框架服务的线程已…

强化学习基础

强化学习的三种方法 基于价值(value-based) 基于策略(policy-based) 基于模型(model-based) 一 基于价值的方法 基于价值 (Value-Based)这种方法,目标是优化价值函数V(s)。 价值函数会告诉我们…

LeetCode 1669. 合并两个链表(C++)

思路: 该题思路很简单,对于单向链表,先遍历到指定的右边界的位置b1,做好标记供连接; 然后对于a-1位置的结点,连接list2,并最后连接后半段的list1 1.题目如下: 给你两个链表 list1 …

ATX agent+UIautomation2 自动化测试介绍

目前ATXUIautomator2 处于自动化界的浪口风尖,现在有幸终于有时间对ATX进行了粗浅的了解 为什么要用ATX ATXUIautomator2的优势: 1.速度吊打appnium,群里面的人这样说的 运行速度快,比Appium运行速度快了好多。(用…

分布式架构

目录 一、前言 二、分布式架构的发展历史 三、分布式架构发展的里程碑 四、分布式系统的意义 五、分布式架构的常见概念 六、分布式领域中冯诺依曼模型的变化 七、分布式系统的难点 八、总结 一、前言 ​  我们都知道,当今无论在BAT这样的大公司&#xff…

Install Linux on Windows with WSL2 (使用 WSL2 在 Windows 上安装 Linux)

Install Linux on Windows with WSL2 (使用 WSL2 在 Windows 上安装 Linux)https://learn.microsoft.com/en-us/windows/wsl/ 在 Windows 上运行 Linux - 在 Windows 11 上运行 Ubuntu 20.04 LTS Developers can access the power of both Windows and Linux at the same tim…

实验十三、阻容耦合共射放大电路的频率响应

一、题目 利用 Multism 从以下几个方面研究图1所示的阻容耦合共射放大电路的频率响应。图1阻容耦合共射放大电路图1\,\,阻容耦合共射放大电路图1阻容耦合共射放大电路(1)设 C1C210μFC_1C_210\,\textrm{μF}C1​C2​10μF,分别测试它们所确定…

6万字电力行业系统解决方案光伏电站综合安防系统解决方案

【版权声明】本资料来源网络,知识分享,仅供个人学习,请勿商用。【侵删致歉】如有侵权请联系小编,将在收到信息后第一时间删除!完整资料领取见文末,部分资料内容: 目录 第 一 章背景与需求 1.1行…

2023年收银管理系统排行榜新鲜出炉

随着新零售的模式普及,越来越多的零售店选择了用收银系统代替收银机。因为收银系统不仅具备收银等功能,其实还有各种店铺数据管理功能、经销商信息管理,销售数据分析等许多功能等。所以如果想清晰地知道门店每天盈利情况和库存情况和采购过程…

这些小众却足够惊艳的素材库,你知道吗?

推荐几个我经常使用的网站,绝对够惊艳。 1、菜鸟图库(免费设计素材) https://www.sucai999.com/?vNTYxMjky 这是一个为新手设计师提供免费素材的设计网站,站内有超多平面模板、海报、UI设计、电商设计等相关素材,质…