【机器学习】 第1章 概述

news2025/1/21 21:54:09

一、概念

1.机器学习是一种通过先验信息来提升模型能力的方式。    

从数据中产生“模型”( model )的算法,然后对新的数据集进行预测。

2.数据集(Dataset):所有数据的集合称为数据集。

训练集:用来训练出一个适合模型的,相当于人预习用的数据集。

验证集:相当于游戏的内测玩家。

测试集:用来测试训练的模型对不对的数据集。

3.样本(Sample):数据集中 每条记录 称为样本。

4.属性(Attribute)或特征(Feature):每个样本 在某方面 的 表现或性质。

5.特征向量(Feature Vector):每个样本的特征 对应的特征空间中的一个坐标向量。

6.分类(Classification):使用计算机学习出的模型进行预测得到的是离散值。

(1)人话:你是人,他是狗。

(2)有二分类和多分类之分。

7.回归(Regression):使用计算机学习出的模型进行预测得到的是连续值

8.聚类(Clustering):对无标签样本的相似度进行度量,挖掘特征、结构、内在性质,使类内相似度大,类间相似度小。

(1)人话:物以类聚,一样的放一块。

(2)与分类的区别:

a.分类是有监督,聚类是无监督(更diao)

b.聚类只要求相似度高的放一块,而分类则要求分到预定义的类别或标签。

9.输出结果(预测值)与其对应的真实值之间往往会存在一定的差异,这种差异被称为模型的输出误差,简称为误差。

(1)人话:误差=预测值-真实值 (正负先不管)

(2)分三种:

a.训练误差或称经验风险——指模型在训练样本集上的整体误差

b.测试误差——模型在测试样本集上的整体误差

c.泛化误差——测试集的泛化能力,泛化就是举一反三,就是白人是人,黑人也是人。

10.泛化能力:

(1)过拟合:就是过度拟合,猿猴不是人,但是非得说是人。

(2)欠拟合:就是不拟合,黑人是人,但是非得说黑人不算人。

11.机器学习的分类

(1)监督学习:人为干涉让模型更完美

分类:逻辑回归、决策树、KNN、随机森林、支持向量机、朴素贝叶斯

数字预测:线性回归、KNN、梯度提升(Gradient Boosting)、迭代算法(AbaBoost)

(2)非监督式学习:不管机器,让他自己来

典型例子:聚类算法

(3)半监督学习:人为干涉一点点,大部分让机器来,这是三者中最晚诞生的,自己掂量掂量。

(4)强化学习:与环境建立联系,然后各个动作产生的结果进行反馈(奖励或惩罚)。

12.机器学习的步骤:

数据收集+预处理(数据清洗)—— 特征选择+模型构建 —— 评估+测试

(1)模型构建的相关过程:

a. 建立训练数据集和测试数据集,通常80%为训练数据集。

b. 选择机器学习算法

c. 模型调优

d. 模型融合

二、习题

单选题:

1.构建一个完整的机器学习算法需要三个方面的要素,分别是数据、模型和()。

A、评估 B、验证  C、训练和验证 D、性能度量准则

3. 以下属于典型的监督学习的是(C )

A、聚类  B、关联分析  C、分类  D、降维

4. (A  )是指机器学习算法对新鲜样本的适应能力。

A、泛化能力  B、测试能力  C、识别能力  D、训练能力

5. 欠拟合是指(C )

A、在训练集表现非常好,但在测试集上表现很差

B、在训练集表现非常好,但在测试集上表现也非常好

C、在训练集表现非常差,但在测试集上表现很差

D、在训练集表现非常差,但在测试集上表现非常好

6. 如果我使用训练集的全部特征并且能够达到100%的准确率,但在测试集上仅能达到70%左右,这说明(B )

A、欠拟合  B、过拟合  C、模型很棒  D、模型不确定

18. 以下属于典型的无监督学习的是(C )

A、支持向量机

B、k-近邻算法

C、降维

D、逻辑回归

19. 下列关于过拟合的说法错误的是(   )。

A、模型的训练误差比较高,则称此分类模型过拟合。

B、可以通过选取具有代表性样本的训练样本集来解决过拟合问题。

C、模型的训练误差低但是泛化误差比较高,则称此分类模型过拟合。

D、可以通过预剪枝,避免决策树规模过大产生过拟合。

多选题:

1. 根据样本集合中是否包含标签以及半包含标签的多少,可以将机器学习分为(ABD )

A、监督学习  B、无监督学习  C、迁移学习  D、半监督学习

2. 以下属于解决模型过拟合的方法的是(ABD )

A、增加训练数据量  B、对模型进行裁剪  C、增加训练过程的迭代次数  D、正则化

3. 聚类的宗旨是(BD )

A、类内距离最大化 B、类间距离最大化 C、 类间距离最小化 D、类内距离最小化

6. 机器学习中,通常将数据集划分为(ABC  )

A、训练集    B、验证集   C、测试集    D、对照集

判断题:

1. 根据模型预测输出的连续性,可以将机器学习算法适配的问题划分为分类问题和线性问题。(F )

答:回归

2. 降维、聚类是无监督学习算法。(

3. 当我们说模型训练结果过拟合的时候,意思是模型的泛化能力很F )

答:弱

4. 训练误差和泛化误差之间的差异越小,说明模型的泛化性能越好。(T )

17. 特征提取是指对现有特征进行重新组合产生新的特征,例如相对于年龄,出生年月就是冗余特征。(F )

答:从原始数据中抽取出新的特征

19. 聚类的目的是对样本集合进行自动分类,以发掘数据中隐藏的信息、结构,从而发现可能的商业价值。 ()       

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1837637.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Maven添加reactor依赖失败

目录 情况说明 解决过程 情况说明 起初是自己在学spring boot3&#xff0c;结果到了reactor这一部分的时候&#xff0c;在项目的pom.xml文件中添加下列依赖报错&#xff1a; <dependencyManagement><dependencies><dependency><groupId>io.projectr…

“Git掌控:分布式版本控制系统解析“

目录 # Git基础 1. Git下载 2. Git三种程序命令 2.1 Git Bash基本命令 2.2 Git更新项目命令 3. Git配置 3.1 设置用户名&#xff08;EE配置&#xff09; 3.2 查看用户名信息 4. Git基本理论 5. Git项目搭建 5.1 克隆远程仓库 5.2 指定本地克隆的目录 6. Git文件操…

【硬件开发】自举电路

为什么需要自举电路 半桥驱动电路中&#xff0c;下桥臂的源极直接接地&#xff0c;导通时栅极电压只需要达到MOS管导通d电压Vgs&#xff0c;但是对于上桥臂来说&#xff0c;上桥臂的源极电压会随着上桥臂的导通而抬升到VDD&#xff0c;对应想要导通时的栅极电压Vgs要到达VgsVDD…

代码随想录第20天|二叉树

654.最大二叉树 构造二叉树: 使用前序遍历 已理解思路 617.合并二叉树 虽然开辟额外空间, 但结果依旧受到原来的数影响(当为null时直接借用了原来数的节点) class Solution { public:TreeNode* mergeTrees(TreeNode* root1, TreeNode* root2) {if (root1 nullptr) return roo…

ubuntu20.04配置anaconda

1.anaconda下载 地址&#xff1a;Index of /anaconda/archive/ | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror 选择&#xff1a;Anaconda3-2023.07-2-Linux-x86_64.sh 2.anaconda安装 选择下载目录&#xff0c;选在在终端中打开&#xff0c;然后在终端输入安装命令…

【漏洞复现】海康威视 综合安防管理平台 session接口 远程代码执行漏洞

免责声明&#xff1a; 本文内容旨在提供有关特定漏洞或安全漏洞的信息&#xff0c;以帮助用户更好地了解可能存在的风险。公布此类信息的目的在于促进网络安全意识和技术进步&#xff0c;并非出于任何恶意目的。阅读者应该明白&#xff0c;在利用本文提到的漏洞信息或进行相关测…

关机充电动画:流程与定制

关机充电动画&#xff1a;流程与定制 基于MTK平台Android 11分析 生成logo.bin 关机充电动画是由一系列的bmp图片组成的&#xff0c;这些图片资源存在于vendor/mediatek/proprietary/bootable/bootloader/lk/dev/logo目录下&#xff08;当然不仅保护关机充电动画&#xff0c…

北漂新媒体从业者的一天

关注卢松松&#xff0c;会经常给你分享一些我的经验和观点。 本文纯属虚构 小李通过努力考上了一所北京的大学&#xff0c;毕业后就留在了北京&#xff0c;做新媒体运营&#xff0c;在天通苑租了一个单间&#xff0c;月租2500&#xff0c;业余时间做自媒体&#xff0c;也算是…

vue element-ui 车牌号选择组件

实现效果 carnumber.vue <template><div class"car_no_popover"><div class"row_div"><div class"every_div" v-for"item in area"><button click"selectCarNo(item)">{{ item }}</butto…

如何编辑扫描的 PDF 文档

无论您从事哪个行业&#xff08;医疗保健、房地产、现场服务管理或金融服务&#xff09;&#xff0c;您都很有可能使用在线表格和调查来培训员工、收集客户反馈、授权付款和注册活动参与者。使用合适的软件&#xff0c;这些表格很容易创建、编辑和填写。此外&#xff0c;您还可…

【文献阅读】Partially Adaptive Array Techniques

Abstract 文章研究了在多窄带干扰环境下&#xff0c;辅助阵元的选择&#xff0c;为部分自适应天线阵&#xff0c;以达到性能优化的目的。推导了双干扰问题的显式解。这个案例足以说明多个干扰的相互作用&#xff0c;同时也为更复杂的问题提供了一定程度的理解。本文还提出并讨…

如何为自己的项目生成changelog

背景 在github上看到人家的更新日志感觉很cool&#xff0c;怎么能给自己项目来一套呢 环境信息 tdstdsdeMacBook-Pro demo-doc % node -v v14.18.1 tdstdsdeMacBook-Pro demo-doc % npm -v 6.14.15硬件信息 型号名称&#xff1a;MacBook Pro版本&#xff1a; 12.6.9芯片&…

nginx反向代理动静分离和负载均衡

一.nginx 反向代理简要介绍 1.什么是反向代理 反向代理是一种服务器&#xff0c;在这种设置中&#xff0c;代理服务器接收客户端的请求&#xff0c;并将这些请求转发给一个或多个后端服务器&#xff08;例如应用服务器、数据库服务器等&#xff09;。然后&#xff0c;后端服务…

Transformer预测 | 基于Transformer+LSTM股票价格预测时间序列预测(Pytorch)

效果一览 基本介绍 股票行情是引导交易市场变化的一大重要因素,若能够掌握股票行情的走势,则对于个人和企业的投资都有巨大的帮助。然而,股票走势会受到多方因素的影响,因此难以从影响因素入手定量地进行衡量。但如今,借助于机器学习,可以通过搭建网络,学习一定规模的股…

Unity URP下通过相机让部分Render不受后处理渲染

我们有时候不想某些对象受到后处理影响&#xff0c;找到了这样一个决绝办法&#xff0c;通过增加一个Overlay相机只照射这个模型来实现&#xff0c;下面看看如何实现。 第一步 首先我们拖一个测试场景&#xff0c;有如下一些元素 一个盒子&#xff0c;以后后处理&#xff0c…

海思SS928/SD3403开发笔记1——使用串口调试开发板

该板子使用串口可以调试&#xff0c;下面是win11 调试 该板子步骤 1、给板子接入鼠标、键盘、usb转串口 2、下载SecureCRT&#xff0c;并科学使用 下载地址&#xff1a; 链接&#xff1a;https://pan.baidu.com/s/11dIkZVstvHQUhE8uS1YO0Q 提取码&#xff1a;vinv 3、安装c…

计算机毕业设计Python+Flask弹幕情感分析 B站视频数据可视化 B站爬虫 机器学习 深度学习 人工智能 NLP文本分类 数据可视化 大数据毕业设计

首先安装需要的python库&#xff0c; 安装完之后利用navicat导入数据库文件bili100.sql到mysql中&#xff0c; 再在pycharm编译器中连接mysql数据库&#xff0c;并在设置文件中将密码修改成你的数据库密码。最后运行app.py&#xff0c;打开链接&#xff0c;即可运行。 B站爬虫数…

Springboot整合Kafka消息队列服务实例

一、Kafka相关概念 1、关于Kafka的描述 Kafka是由Apache开源&#xff0c;具有分布式、分区的、多副本的、多订阅者&#xff0c;基于Zookeeper协调的分布式处理平台&#xff0c;由Scala和Java语言编写。通常用来搜集用户在应用服务中产生的动作日志数据&#xff0c;并高速的处…

创建Docker容器与外部机通信(独立IP的方式)

需求&#xff1a;希望外部可以直接通过不同IP地址访问宿主机上的Docker容器&#xff0c;而不需要端口映射&#xff08;同一个IP不同的端口与外部通讯&#xff09;&#xff0c;这通常涉及到在宿主机的网络层面进行更高级的配置&#xff0c;比如使用IP伪装&#xff08;IP masquer…

前端网站(二)-- 菜单页面【附源码直接可用】

菜单页面 开篇&#xff08;请大家看完&#xff09;&#xff1a;此网站写给挚爱&#xff0c;后续页面还会慢慢更新&#xff0c;大家敬请期待~ ~ ~ 轻舟所编写这个前端框架的设计初衷&#xff0c;纯粹是为了哄对象开心。除此之外&#xff0c;并无其它任何用途或目的。 此前端框…