【SCAU数据挖掘】数据挖掘期末总复习题库简答题及解析——上

news2025/1/12 1:04:31

1.K-Means

假定我们对A、B、C、D四个样品分别测量两个变量,得到的结果见下表。

样品

变量

X1X2

A

5

3

B

-1

1

C

1

-2

D

-3

-2

利用K-Means方法将以上的样品聚成两类。为了实施均值法(K-Means)聚类,首先将这些样品随意分成两类(A、B)和(C、D)。请详细给出每次聚类的中心坐标,计算样品到中心坐标的欧氏平方距离

解:

        第一步:按要求取K=2,为了实施均值法聚类,我们将这些样品随意分成两类(A、B)和(C、D),然后计算这两个聚类的中心坐标(见下表)。中心坐标是通过原始数据计算得来的。

聚类中心坐标一

聚类

中心坐标

X1X2

(A、B)

2

2

(C、D)

-1

-2

        第二步:计算某个样品到各类中心的欧氏平方距离,然后将该样品分配给最近的一类对于样品有变动的类,重新计算它们的中心坐标,为下一步聚类做准备。先计算A到两个类的平方距离:

d²(A,(AB))=(5-2)²+(3-2)²=10

d²(A,(CD))= (5 + 1)²+ (3 + 2)²= 61

由于A到(4、B)的距离小于到(C、D)的距离,因此A不用重新分配。计算B到两类的平方距离

d²(B,(AB))=(-1-2)²+(1-2)²=10

d²(B,(CD))=(-1 + 1)²+(1 + 2)²=9

由于B到(4、B)的距离大于到(C、D)的距离,因此B要分配给(C、D)类,得到新的聚类是(A)和(B、C、D)。更新中心坐标如下表所示。

 聚类中心坐标二

聚类

中心坐标

X1X2

(A)

5

3

(B、C、D)

-1

-1

        第三步:再次检查每个样品,以决定是否需要重新分类。计算各样品到各中心的距离平方,结果如下表所示。

样本到中心的距离平方

聚类

样本到中心的距离平方

A

B

C

D

(A)

0

40

41

89

(B、C、D)

52

4

5

5

到现在为止,每个样品都已经分配给距离中心最近的类,聚类过程到此结束。最终得到K=2的聚类结果是4独自成一类,B、C、D聚成一类。

2.试分析回归与分类的区别。

输出结果

应用场景

分类

离散的类别标签

(有限个离散变量)

用于将事物或数据样本分配到一个或多个预定义的类别中,比如识别图片中的动物种类。分类的目标是构建一个模型,该模型能够基于输入的特征来预测数据样本所属的类别。

回归

连续的数值

(连续变量)

通常用于预测一个连续性的数值,比如预测股票价格。目标是找到一个函数,能够基于输入的特征来预测一个连续的数值。

3.基于正态分布的离群点检测

假设某城市过去10年中7月份的平均温度按递增序排列,结果为24℃、28.9℃、28.9℃、29℃、29.1℃、29.1℃、29.2℃、29.2℃、29.3℃和29.4℃。假定平均温度服从正态分布,由两个参数决定:均值和标准差。假设数据分布在这个区间(以平均标准差)之外,该数据对象即为离群点。

(1)利用最大似然估计求均值和标准差。

均值(μ)的估计:

其中 n=10,xi​ 是每个样本的温度值。

将给定的温度值代入公式,得到:
μ=(24+2×28.9+29+2×29.1+2×29.2+29.3+29.4)/10=28.61

标准差(σ)的估计:
由于样本数量 n=10,我们使用样本标准差的无偏估计:

将给定的温度值和计算得到的均值代入公式,得到标准差 s 的值。

s=sqrt([(24-28.61)^2+(28.9-28.61)^2+...+(29.4-28.61)^2]/9)约等于1.63

(2)寻找上述10个对象中的所有离群点。

根据题目,离群点定义为数据对象落在平均值加减一个标准差之外的值。即,离群点不在区间 

(μ^​−σ^,μ^​+σ^)=(28.61−1.63,28.61+1.63)=(26.98,30.24) 内。

由于 μ=28.61 和 s≈1.63,我们可以发现所有给定的温度值中24℃不在区间 (26.98,30.24) 内。

4.K均值与K中心点

K均值和K中心点算法都可以进行有效的聚类。
(1)概述K均值和K中心点的优缺点。

优点

缺点

K均值法

聚类时间短。当结果簇密集且簇间区别明显,效果较好。能对大数据集进行高效划分。

必须先指定聚类簇的个数。只适用于数值属性聚类,对噪声和异常数据很敏感,对于不同的初始值,结果可能不同。不适合发现非凸面形状的簇。

K中心点法

对于非凸数据集也能较好聚类效果,且对于噪声点影响比较小

算法效率相对K-均值法较低,还有可能出现簇中心点初始化不佳,导致聚类结果不埋想的情况。


(2)概述这两种方法与层次聚类方法相比较有何优缺点。

层次聚类方法(AGNES)是一种分层聚类的方法,将教据点分层次进行聚类,也就是在保留所有数据点的前提下,从最小单元开始进行聚类,然后逐步合并相近的类别,最后形成n个。

        优点是没有预先设定需要聚类的数量,能够处理复杂的数据结构,相对于K-均值、K-中心点更能反映出数据分布的全貌,尤其是在不平凡分布的数据上表现更加突出。
        缺点是AGNES算法计算量较大,在大规模数据集上效率较低,且聚类结果可能受到簇合并顺序的影响。

5.Apriori算法:通过限制候选产生发现频繁项集

数据表中有5个事物,设min_sup=60%,min_conf=80%,并有下表所示信息。

TID

购买的商品

T100

{M,O,N,K,E,Y}

T200

{D,O,N,K,E,Y}

T300

{M,A,K,E}

T400

{M,U,C,K,Y}

T500

{C,O,O,K,I,E}

请用Apriori算法找出频繁项集。

置信度(min_conf)是在找到频繁项集之后,用于生成关联规则时的一个参数,不用理会。

依题得min_sup=0.6*5=3,计算所有单项集的计数得到支持度计数大于等于3的频繁1-项集:

m    3
o    3
n    2
k    5
e    4
y    3
d    1
a    1
u    1
c    2
i    1

频繁 1- 顶集: M,O,K,E,Y

然后根据频繁1-项集,找出支持度技术大于等于3的频繁2-项集:

mo    1
mk    3
me    2
my    2
ok    3
oe    3
oy    2
ke    4
ky    3
ey    2

频繁 2- 项集: {M,K},{O,K},{O,E} ,{K,Y},{K,E}

再根据频繁2-项集,找出支持度技术大于等于3的频繁3-项集:

oke    3
key    2

频繁 3- 项集: {O,K,E}

故,用Apriori算法找出的频繁项集有频繁 1- 顶集: M,O,K,E,Y;  频繁 2- 项集: {M,K},{O,K},{O,E} ,{K,Y},{K,E};  频繁 3- 项集: {O,K,E}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1820149.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MYSQL 查看SQL执行计划

一、explain explain select id,db,user,host,command,time,state,info from information_schema.processlist order by time desc; id: 查询的标记,可以查看不同查询的执行顺序。 select_type: 查询的类型,如SIMPLE、SUBQUERY、PRIMARY等。 table: …

深入理解指针(二)

目录 1. 数组名的理解 2. 使用指针访问数组 3. ⼀维数组传参的本质 4. 冒泡排序 5. 二级指针 6. 指针数组 7. 指针数组模拟二维数组 1. 数组名的理解 有下面一段代码: #include <stdio.h> int main() {int arr[10] { 1,2,3,4,5,6,7,8,9,10 };int* p &arr[…

【python】通行网格地图四叉树化 (leeccode 427)

【python】通行网格地图四叉树化 受到Leecode 427题的启发&#xff0c;427. 建立四叉树 想将由0和1组成的网格地图绘制为四叉树地图&#xff0c;0表示可通行网格&#xff0c;1表示不可通行网格。 import matplotlib.pyplot as plt import matplotlib.patches as patches …

一文教会你静态住宅代理IP的优势和选择技巧,跨境小白收好这份指南!

一、什么是静态住宅代理IP&#xff1f; 静态住宅代理IP是指分配给个人住宅网络的IP地址&#xff0c;这些IP地址在长时间内保持不变。它们是从互联网服务提供商&#xff08;ISP&#xff09;获取的&#xff0c;因此拥有更高的可信度和较低的被封禁风险。静态住宅代理IP因其独特的…

SpringBoot3 常用的第三方接口调用十种方式

环境&#xff1a;SpringBoot.3.3.0 简介 在项目中调用第三方接口是日常开发中非常常见的。调用方式的选择通常遵循公司既定的技术栈和架构规范&#xff0c;以确保项目的一致性和可维护性。无论是RESTful API调用、Feign声明式HTTP客户端、Apache HttpClient等调用方式&#x…

Word同行内的文字如何左右分别对齐

先打开标尺&#xff08;视图-标尺&#xff09; 开右边&#xff0c;选一个制表位置&#xff0c;比如我选34 切回开始&#xff0c;点段落段落右下角 然后 然后 我修改为35&#xff08;因为“6月13日”总共3个字符&#xff09; 在文字中间按下Tab键&#xff0c;效果如下

Spring Boot 自定义校验注解

1.创建注解&#xff0c;可参考其他检验注解进行创建 2.创建校验类&#xff0c;需实现ContraintValidator并重写isValid方法,注意范型中表示给那个注解(State)提供校验及校验类型&#xff08;String&#xff09;,然后自行编写校验规则true为检验成功&#xff0c;false为失败 3.使…

网工内推 | 外企、上市公司运维工程师,有软考中高项证书优先

01 优尼派特&#xff08;苏州&#xff09;物流有限公司 &#x1f537;招聘岗位&#xff1a;软件运维测试工程师 &#x1f537;任职要求&#xff1a; 1、负责公司自主研发的软件售后服务工作, 包括软件的安装, 调试, 升级,培训, 参数配置, 需求与Bug的处理; 2、负责数据库升级及…

unDraw —— 免费且可定制的插画库,为您的设计注入灵魂

&#x1f3a8; unDraw —— 免费且可定制的插画库&#xff0c;为您的设计注入灵魂 在寻找能够完美融入您品牌风格的插画吗&#xff1f;unDraw&#xff0c;一个提供大量免费插画资源的网站&#xff0c;可能是您的理想选择&#xff01; &#x1f310; 网站特色 免费且开源 unDraw…

Doris集群管理工具Doris Manager安装使用(已踩坑)

背景&#xff1a;Doris集群管理、监控相对复杂&#xff0c;就想着有没有免费的、好用的管理工具&#xff0c;就发现了Doris Manager&#xff0c;给大家分享一下。 官网&#xff1a;https://docs.selectdb.com/docs/enterprise/cluster-manager-guide/deployment-guide/deployme…

【算法训练记录——Day28】

Day28——回溯算法Ⅳ 1.复原IP地址2.[全排列](https://leetcode.cn/problems/permutations/submissions/539240290/)3.[全排列Ⅱ](https://leetcode.cn/problems/permutations-ii/description/) ● 93.复原IP地址 ● 78.子集 ● 90.子集II 1.复原IP地址 思路&#xff1a;相当于…

【OceanBase DBA早下班系列】—— 性能问题如何 “拍CT“ (一键获取火焰图和扁鹊图)

1. 前言 最近接连遇到几个客户的环境在排查集群性能问题&#xff0c;总结了一下&#xff0c;直接教大家如何去获取火焰图、扁鹊图&#xff08;调用关系图&#xff09;&#xff0c;直击要害&#xff0c;就像是内脏的疾病去医院看病&#xff0c;上来先照一个CT&#xff0c;通过分…

HarmonyOS Next 系列之HTTP请求封装和Token持久化存储(四)

系列文章目录 HarmonyOS Next 系列之省市区弹窗选择器实现&#xff08;一&#xff09; HarmonyOS Next 系列之验证码输入组件实现&#xff08;二&#xff09; HarmonyOS Next 系列之底部标签栏TabBar实现&#xff08;三&#xff09; HarmonyOS Next 系列之HTTP请求封装和Token…

家用洗地机排行榜前十名:2024十大王牌机型精准种草

最近很多人都在问我洗地机相关的问题&#xff0c;不愧是改善家庭生活品质的“三神器”之一。洗地机依靠其清洁力和清洁效率吸引了越来越多的平时需要做家务人群的兴趣&#xff0c;为了解答大家关于洗地机的各种疑问&#xff0c;我把市面上目前非常火爆的洗地机型号和参数都进行…

探索未来通信的新边界:AQChat一款融合AI的在线匿名聊天

探索未来通信的新边界&#xff1a;AQChat一款融合AI的在线匿名聊天 在数字时代&#xff0c;即时通讯变得无处不在&#xff0c;但隐私和性能仍旧是许多用户和开发者关注的焦点。今天&#xff0c;我要介绍一个开创性的开源项目 —— AQChat&#xff0c;它不仅重定义了在线匿名聊…

Spring IoC注解

一、回顾反射机制 反射的调用三步&#xff1a;1&#xff09;获取类。2&#xff09;获取方法。3&#xff09;调用方法 调用方法&#xff1a;调用哪个对象&#xff0c;哪个方法&#xff0c;传什么参数&#xff0c;返回什么值。 方法&#xff08;Do&#xff09;类&#xff1a; …

eFuse电子保险丝,需要了解的技术干货来啦

热保险丝作为一种基本的电路保护器件&#xff0c;已经成功使用了150多年。热保险丝有效可靠、易用&#xff0c;具有各种不同的数值和版本&#xff0c;能够满足不同的设计目标。然而&#xff0c;对于寻求以极快的速度切断电流的设计人员来说&#xff0c;热保险丝不可避免的缺点就…

【高校科研前沿】北京大学赵鹏军教授团队在Nature Communications发文:揭示城市人群移动的空间方向性

文章简介 论文名称&#xff1a;Unravelling the spatial directionality of urban mobility 第一作者及单位&#xff1a;赵鹏军&#xff08;教授|第一作者|北京大学&#xff09;&王浩&#xff08;博士生|共同一作|北京大学&#xff09;; 通讯作者及单位&#xff1a;赵鹏军…

SCI二区|鲸鱼优化算法(WOA)原理及实现【附完整Matlab代码】

目录 1.背景2.算法原理2.1算法思想 3.结果展示4.参考文献5.代码获取 1.背景 2016年&#xff0c;S Mirjalili受到自然界座头鲸社会行为启发&#xff0c;提出了鲸鱼优化算法&#xff08;Whale Optimization Algorithm, WOA&#xff09;。 2.算法原理 WOA模拟了座头鲸的社会行为…

会议室占用全透明化,内幕大揭秘!

会议室管理的现实问题 &#x1f3e2; 有限的会议室资源: 在现代办公环境中&#xff0c;会议室资源通常是有限的&#xff0c;特别是在大型企业或繁忙的办公楼内&#xff0c;会议室的预订和管理变得尤为重要。 &#x1f552; 复杂的预订流程: 常常会出现会议室预订流程繁琐、不…