机器学习——期末复习

news2025/1/13 15:37:52

文章目录

        • 填空题
          • 第一章 机器学习基础
          • 第二章 数据预处理
          • KNN算法
          • 支持向量机
          • 集成学习
          • 决策树
          • 聚类算法
          • 联结学习
          • 三种池化操作
        • 选择题
        • 计算题
          • 数据正规化
          • Hopfield网络能量函数计算
          • 卷积、池化操作
        • 应用题
          • 决策树、朴素贝叶斯、聚类算法
          • 单层感知器构造(连接神经元部分)

填空题

第一章 机器学习基础

按机器学习系统的含义:是指能够在一定程度上实现机器学习系统

机器学习按对人类学习的模拟方式:符号主义学习、统计学习、连接主义学习等。

学习系统基本模型4部分:在这里插入图片描述

机器学习任务:1、分类、回归、聚类 2、降维、去噪 3、机器翻译、异常检测

机器学习基本流程:数据处理、训练、验证、预测

数据集划分(判断是哪个数据集):训练集。用于训练模型。验证集。用于调整模型。测试集。用于评估模型

模型效果描述(给出意义描述写术语):拟合是模型与训练数据和测试数据具有较好的拟合性、过拟合是指的是模型出现拟合过度的情况。过拟合表现为模型在训练数据中表现良好,在预测时却表现较差、欠拟合是欠拟合是指在训练数据和预测结果时,模型精确度均不高的情况。

机器学习三种类型(区分分类和回归、聚类和降维概念):

  1. 监督学习:监督学习算法是给定一组输入x和输出y的训练集,学习如何关联输入和输出
    • 分类: 分类任务是对离散结果的预也就是提供的标签是离散的。
    • 回归:回归任务是对连续结果的预测也就是提供的标签是连续的。
  2. 无监督学习:
    • 聚类:聚类是将数据集中的样本划分为若干个不相交的子集(簇),每个簇可能对应于一些潜在的概念
    • 降维:在高维情况下出现的数据样本稀疏、距离计算困难等问题被称为维度灾难,解决维度灾难的一个途径就是降维。降维是将原始高维空间转变为一个低维空间即高维空间的一个低维嵌入。
  3. 强化学习:就是一个智能体采取行动从而改变自己的状态获得奖励与环境发生交互的循环过程。

模型性能描述

  1. 准确率、查准率、查全率
    • 准确率:分类正确的样本占总样本的比例
    • 查准率:正确被检索的样本占所有实际被检索得到的样本的比例
    • 查全率:正确被检索出的样本占所有应该检索的样本的比例
  2. MSE、RMSE
  3. F1、ROC在这里插入图片描述
第二章 数据预处理

数据预处理(3个给定义写术语):数据清理、数据转换、数据压缩

  1. 数据清洗( Data Cleaning ) 主要是通过填补缺失值、光滑噪声数据,平滑或删除离群点,并解决数据的不一致性来“清理”数据。自然数据中的异常值等问题可能会影响机器学习模型并产生有偏差的结果。常见问题数据如下:
    + 缺失值:它指的是现有数据集中某个或某些属性的值是不完全的,可能直接导致算法无法直接分析数据。
    + 离群值:它指在一份数据中,与其他观察值具有明显不同特征的那些观察值,可能会使数据的分布失真影响模型判断。

  2. 数据转换:数据转换(Data Transformation)就是修改数据的表示形式,使其符合机器学习模型的输入要求,并使机器学习模型的优化算法更容易生效。

    • 数字化:一般在计算型任务中需要用数值特征,因此会遇到非数值特征转换为数值特征情况。
    • 离散化:有时数据为连续值,而模型只能处理离散型数据,则需要将连续数据转换为离散数据。
    • 正规化:数据压缩到一个范围内赋予所有属性相等的权重,进行规范化处理。
    • 数值转换:数值变换能够增加数据的非线性特征捕获特征之间的关系,有效提高模型的复杂度。
  3. 数据压缩:数据压缩是一种有助于减少数据集的数据量或维数或两者兼得的技术,从而使模型的学习过程更加有效,并帮助模型获得更好的性能,防止过度拟合问题并修复不均匀的数据分布

    • 降维:将高维数据转换为低维,有利于模型计算和可视化等操作
    • 实例选择和采样:通过减少数据样本,寻求以最小的性能损失来训练模型的机会。如通过K近邻分类算法选择实例,随机采样收集部分样本。
KNN算法

给定义写术语:它根据距离函数计算待分类样本X和每个训练样本的距离(作为相似度),选择与待分类样本距离最小的K个样本作为X的K个最近邻,最后以X的K个最近邻中的大多数样本所属的类别作为X的类别。

三大步骤:算距离、找邻居、做分类

支持向量机

最常使用的四类核函数:在这里插入图片描述

集成学习

集成学习给定义写术语: 集成学习是指为解决同一问题,先训练出一系列个体学习器(或称弱学习器),然后再根据某种规则把这些个体学习器的学习结果整合到一起,得到比单个个体学习器更好的学习效果

集成学习两大基本问题:一个是个体学习器的构造,另一个是个体学习器的合成。

集成学习分类:Boosting方法和Bagging方法两大基本类

决策树

给定义写术语:决策树分类方法采用自顶向下的递归方式,在决策树的内部节点进行属性值的比较,根据不同的属性值判断从该节点向下的分支,在决策树的叶节点得到结论。

常用决策树算法:ID3、C4.5、CART(区分概念,谁取最大或最小)
ID3:按信息增益划分
C4.5:增益比例
CART:基尼指数

聚类算法

K-means、K-中心点、DBSCAN

联结学习

人工神经网络给定义写术语:人工神经网络是一种对人工神经元进行互联所形成的网络,它是对生物神经网络的模拟。反映的是神经元的饱和特性

人工神经网络分类(重点按拓扑和按学习方法)
在这里插入图片描述在这里插入图片描述

常见网络:深度卷积神经网络、深度波尔兹曼机、深度信念网络

深度神经网络给定义写术语:深层神经网络也叫深度神经网络(DNN),通常是指隐含层神经元不少于2层的神经网络,目前可做到数百层甚至更多

正向传播过程3个操作、反向传播过程2个
在这里插入图片描述

三种池化操作

最大池化、最小池化、均值池化

选择题

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

计算题

数据正规化
  1. 使用min-max方法规范化数据组:200,300,400,600,1000的结果分别是
    在这里插入图片描述
  2. 假定属性平均家庭总收入的均值和标准差分别为9000元和2400元,值12600元使用z-score规范化转换结果为
    在这里插入图片描述
  3. 假定A的取值范围是-1075~923。使用十进制缩放规范化方法转换-1075结果为: ,923转换结果为:
    在这里插入图片描述
Hopfield网络能量函数计算

Hopfield 网络的能量函数定义如下:image-20221205103427522

式中;n是网络中的神经元个数,wij 是神经元i和神经元 j之间的连接权值,且有wij = wji ; vi和 vj分别是神经元i和神经元 j 的输出;θi 是神经元i的阈值。

image-20221205103907714

卷积、池化操作

卷积操作

image-20221205104402057
池化操作
在这里插入图片描述
卷积、池化操作所得特征图的尺寸
卷积:
特征矩阵的行数和列数:假设数据矩阵大小为M×N,卷积核大小为m×n,填充的圈数为p,水平方向和竖直方向的步长分别为 d 1 , d 2 d_1,d_2 d1,d2,则有特征矩阵的行数和列数分别为:image-20221205104706252
池化
M×N,池化窗口大小为m×n =》 R = M / m, C = N / n

应用题

决策树、朴素贝叶斯、聚类算法
单层感知器构造(连接神经元部分)

试根据训练集:

D = ( ( 1 , 2 ) T , 1 ) , ( ( 3 , 3 ) T , 1 ) , ( ( 2 , 1 ) T , − 1 ) , ( ( 5 , 2 ) T , − 1 ) D={((1,2)^T,1),((3,3)^T,1),((2,1)^T,-1),((5,2)^T,-1)} D=((1,2)T,1),((3,3)T,1),((2,1)T,1),((5,2)T,1)构造一个感知机模型,学习率α=1。

【解】已知感知机模型的具体形式为: f ( X ) = s g n ( W T X ) f(X)=sgn(W^T X) f(X)=sgn(WTX)

s g n ( t ) = { 1 , ( t > = 0 ) − 1 , ( t < 0 ) sgn(t)= \left\{ \begin{array}{ lr } 1, &(t>=0) \\ -1, &(t < 0)\\ \end{array} \right. sgn(t)={1,1,(t>=0)(t<0)

其中 W = ( b , w 1 , w 2 ) T , X = ( 1 , x 1 , x 2 ) T W=(b,w_1,w_2 )^T,X=(1,x_1,x_2 )^T W=(b,w1,w2)T,X=(1,x1,x2)T。使用数据集D构造感知机模型的具体步骤如下:

(1)初始化参数向量 W = ( 0 , 0 , 0 ) T W=(0,0,0)^T W=(0,0,0)T

(2)随机选择一个样本 ( ( 2 , 1 ) T , − 1 ) ((2,1)^T,-1) ((2,1)T,1)输入初始模型,求得 f ( X = ( 2 , 1 ) T ) = s g n ( 0 ) = 1 ≠ − 1 f(X=(2,1)^T )=sgn(0)=1≠-1 f(X=(2,1)T)=sgn(0)=1=1,该样本未被感知机模型正确分类,使用如下公式更新模型参数:

w i = w i + α y i x i , b = b + α y i w_i=w_i+αy_i x_i, b=b+αy_i wi=wi+αyixi,b=b+αyi

计算得到新的参数向量 W = ( − 1 , − 2 , − 1 ) T W=(-1 ,-2,-1)^T W=(1,2,1)T,获得的感知机模型为:

f ( X ) = s g n ( − 2 x 1 − x 2 − 1 ) f(X)=sgn(-2x_1-x_2-1) f(X)=sgn(2x1x21)

将数据集D中样本均输入更新后的感知机模型中,若存在样本被错误分类,则根据步骤(2)中公式进行参数更新,直至D中所有样本均分类正确时结束算法并输出模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/82282.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

unix 域套接字实现进程间通信

目录 1、认识域套接字 2、unix域套接字相关API及地址结构介绍 (1) 创建unix域套接字 (2) 填充地址结构 sockaddr_un 3、unix域套接字实现进程间通信&#xff08;以UDP为例&#xff09; 1、认识域套接字 和之前TCP / UDP 编程使用的套接字不同&#xff0c;域套接字常用于同…

01入门及简单应用-ReentrantReadWriteLock原理-AQS-并发编程(Java)

文章目录1 概述2 性质3 简单测试4 模拟数据缓存4.1 应用初始化无缓存4.2 加入缓存改造5 后记1 概述 ReentrantReadWriteLock 是读写锁&#xff0c;和ReentrantLock会有所不同&#xff0c;对于读多写少的场景使用ReentrantReadWriteLock 性能会比ReentrantLock高出不少。在多线程…

技术分享 | 测试平台开发-前端开发之数据展示与分析

测试平台的数据展示与分析&#xff0c;我们主要使用开源工具ECharts来进行数据的展示与分析。 ECharts简介与安装 ECharts是一款基于JavaScript的数据可视化图表库&#xff0c;提供直观&#xff0c;生动&#xff0c;可交互&#xff0c;可个性化定制的数据可视化图表&#xff…

展锐Android 10平台OTA升级

OTA 整体升级包制作步骤&#xff08;以SC9863A平台为例&#xff09; 下载项目 AP 的代码。通过以下命令设置编译环境。 source build/envsetup.sh lunch kheader 通过 make 命令全编整个工程。进入“device/sprd/sharkle/sl8541e_1h10_32b/”目录&#xff08;board 对应目录&a…

5G无线技术基础自学系列 | 站点详细勘测

素材来源&#xff1a;《5G无线网络规划与优化》 一边学习一边整理内容&#xff0c;并与大家分享&#xff0c;侵权即删&#xff0c;谢谢支持&#xff01; 附上汇总贴&#xff1a;5G无线技术基础自学系列 | 汇总_COCOgsta的博客-CSDN博客 站点的勘测结果非常重要&#xff0c;直…

高压放大器在硅氧烷近晶相单体合成中的应用

实验名称&#xff1a;高压放大器在硅氧烷近晶相单体合成中的应用 研究方向&#xff1a;晶体材料 测试目的&#xff1a; 双稳态包括向列相双稳态、近晶&#xff21;相双稳态和胆甾相双稳态&#xff0c;目前主要的研究是在近晶&#xff21;相双稳态&#xff0c;由近晶&#xff21…

自动驾驶专题介绍 ———— 转向系统

文章目录转向系统转向器齿轮齿条式循环球式蜗杆曲柄指销式转向助力液压转向助力系统电动转向助力系统发展转向系统 转向系统是按照驾驶员的意图改变或保持汽车行驶方向的系统。根据转向能源的不同&#xff0c;可以将转向系统分为机械转向系统和动力转向系统。   1. 机械转向系…

188: vue+openlayers上传GeoJSON文件,导出CSV格式文件

第188个 点击查看专栏目录 本示例的目的是介绍演示如何在vue+openlayers上传geojson文件,解析文件在地图上显示图形,同时利用上传的文件,获取features数据,整合重新配置格式,导出CSV(Comma Separated Values)形式的文件。如果文件仅包含点要素,则会添加经度和纬度列。 …

能源管理系统的主要功能|瑜岿科技|能源监测

能源管理系统利用过程控制技术、网络通信技术、教据库技术将分布在现场的数据采集监测站、现场控制站以及管理控制中心联系了起来&#xff0c;实现对企业生产数据采集、存储、处理、统计、查询及分析的功能&#xff0c;以及对企业生产数据的监控、分析和诊断&#xff0c;通过对…

Dynamic Few-Shot Visual Learning without Forgetting

摘要 人类视觉系统有显著的能力去毫不费力的从零样本示例中学习新颖概念。机器学习视觉系统上模仿相同的行为是一个有趣的非常具有挑战性的研究问题&#xff0c;这些研究问题有许多实际的优势在真实世界视觉应用上。在这篇文章中&#xff0c;我们目标是去设计一个零样本视觉学…

mysql中MVCC--多版本并发控制

读读:不存在任何安全问题&#xff0c;不需要并发控制 读写:有线程安全问题&#xff0c;脏读、幻读、不可重复读 写写:有线程安全问题&#xff0c;更新丢失 为了解决读写的并发问题 什么是MVCC 只有InnoDB引擎支持mvcc&#xff0c;mysql默认支持可重复读&#xff0c;就是依赖…

常用数据库之mysql的搭建与使用

1. 简介 mysql为关系型数据库&#xff0c;是由瑞典的MySQLAB公司开发的&#xff0c;但是几经辗转&#xff0c;现在是Oracle产品。它是以“客户&#xff0f;服务器”模式实现的&#xff0c;是一个多用户、多线程的小型数据库服务器。而且MySQL是开源数据的&#xff0c;任何人都可…

Qt 模型视图编程之自定义只读数据模型

背景 Qt 中的模型视图架构是用来实现大量数据的存储、处理及其显示的&#xff0c;主要原理是将数据的存储与显示分离&#xff1a;模型定义了标准接口对数据进行访问&#xff1b;视图通过标准接口获取数据并定义显示方式&#xff1b;模型使用信号与槽机制通知视图数据变化。 Q…

基于Java Web技术的动车购票系统

毕 业 设 计 中文题目基于Java Web技术的动车购票系统英文题目Train ticket system based on Web JavaTechnology毕业设计诚信声明书 本人郑重声明&#xff1a;在毕业设计工作中严格遵守学校有关规定&#xff0c;恪守学术规范&#xff1b;我所提交的毕业设计是本人在 指导教师…

零入门容器云网络-7:基于golang编程实现给ns网络命名空间添加额外的网卡

已发表的技术专栏&#xff08;订阅即可观看所有专栏&#xff09; 0  grpc-go、protobuf、multus-cni 技术专栏 总入口 1  grpc-go 源码剖析与实战  文章目录 2  Protobuf介绍与实战 图文专栏  文章目录 3  multus-cni   文章目录(k8s多网络实现方案) 4  gr…

“美亚杯”第三届中国电子数据取证大赛答案解析(个人赛)

试题 1 Gary的笔记本电脑已成功取证并制作成镜像 (Forensic Image)&#xff0c;下列哪个是其MD5哈希值。 A. 0CFB3A0BB016165F1BDEB87EE9F710C9 B. 5F1BDEB87EE9F710C90CFB3A0BB01616 C. A0BB016160CFB3A0BB0161661670CFB3 D. 16160CFB3A0BB016166A0BB0161661…

独立产品灵感周刊 DecoHack #041 - 那些独立开发者是怎么养活自己的

本周刊记录有趣好玩的独立产品设计开发相关内容&#xff0c;每周发布&#xff0c;往期内容同样精彩&#xff0c;感兴趣的伙伴可以点击订阅我的周刊。为保证每期都能收到&#xff0c;建议邮件订阅。欢迎通过 Twitter 私信推荐或投稿。 &#x1f4bb; 产品推荐 1. SOCCER STREAM…

分布式的设计思想

一、分布式设计基础 传统架构问题 ① 单机资源不足 存储&#xff1a;3台机器&#xff0c;每台机器都有2T的硬盘空间&#xff0c;但是现在有1个3T的文件要存储计算&#xff1a;3台机器&#xff0c;每台机器都有8核CPU和8GB内存&#xff0c;但是现在有1个程序需要12核CPU和24G…

启明智显分享| Sigmastar SSD212 SPI+RGB点屏示例(2.1寸 480*480圆屏,可应用于旋钮)

SSD20X 点SPIRGB屏和SSD212 类似&#xff0c;区别在于对应文件名不同、SSD20X没有config.ini文件。 SSD20X SPI初始化文件&#xff1a;vi boot/common/cmd_customer_init.c SSD20X由于没有config.ini 可以用jpeg2disp 中.h 屏参头文件的方式实现显示logo。 这里以SSD212 点屏为…

Java——AVL树

平衡二叉树 在之前的blog中讲到&#xff0c;平衡二叉树是一棵树&#xff0c;任意一个节点的左树的所有节点都小于这个节点&#xff0c;右树的所有节点都大于这个节点 因此&#xff0c;可以利用这个性质来中序遍历&#xff0c;就可以得到一个有序的序列&#xff0c;而如果我们要…