数据挖掘全景：从基础理论到经典算法的深度探索

1 绪论--1.1 数据挖掘的概念和任务

1. (单选题)目前数据分析与挖掘领域的现实情况描述不正确的是（）

A. 信息爆炸

B. 数据爆炸

C. 信息贫瘠

D.数据收集能力远远超过人们的分析和理解能力

2. (单选题)你认为下面哪种数据对于数据挖掘算法来说最简单最友好？

A. 来源于关系型数据库的数据

B. 来源于数据仓库的数据

C. 来源于视频和音频的数据

D. 来源于图形图像的数据

3. (单选题)文本数据不属于何种类型的数据？

A. 结构化

B. 半结构化

C. 非结构化

D. 不清楚

4. (单选题)如果以上学期我校概率论与数理统计的考试成绩为分析对象，想要实现教学效果好的老师名单，是不是数据挖掘任务？

A. 是

B. 不是

5. (单选题)建立数据仓库的主要目的是

A. 规范管理数据

B. 日常事务处理

C. 更新数据方便

D. 联机分析与决策支持

6. (单选题)下列哪项活动是数据挖掘活动_______。

A. 根据历史中奖号码预测福利彩票下期中奖号码

B. 计算公司的年销售额和盈利;

C. 监测病人的异常心率变化情况;

D. 预测掷色子的点数;

7. (单选题)使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?

A. 探索性数据分析

B. 建模描述

C. 预测建模

D. 寻找模式和规则

8. (单选题)建立数据仓库的主要目的是( ) 。

A. 规范管理数

B. 日常事务处理

C. 更新数据方便

D. 联机分析与决策支持

9. (判断题)根据性别划分公司的顾客是数据挖掘任务。

A. 对

B. 错

10. (判断题)按学生的标识号对学生数据库排序是数据挖掘任务。

A. 对

B. 错

11. (判断题)预测掷一对骰子的结果是数据挖掘任务。

A. 对

B. 错

12. (判断题)使用历史记录预测某公司未来的股票价格是数据挖掘任务。

A. 对

B. 错

13. (判断题)根据可赢利性划分公司的顾客是数据挖掘任务。

A. 对

B. 错

14. (判断题)监视病人心率的异常变化是数据挖掘任务。

A. 对

B. 错

15. (判断题)监视地震活动的地震波预测地震是数据挖掘任务。

A. 对

B. 错

16. (判断题)提取声波的频率进行分析是数据挖掘任务。

A. 对

B. 错

17. (判断题)计算公司的总销售额是数据挖掘任务。

A. 对

B. 错

18. (判断题)春天树林里植物的分类信息是数据挖掘任务。

A. 对

B. 错

19. (判断题)新冠肺炎病毒传播的未来感染人数预测是数据挖掘任务。

A. 对

B. 错

20. (判断题)航空公司高价值客户的分析是数据挖掘任务。

A. 对

B. 错

1 绪论--1.2 十大经典挖掘算法

1. (单选题)如果想把某次高等数学考试成绩进行三个类别的划分，这是一个（）类型的挖掘任务。

A. 分类与预测

B. 关联挖掘

C. 聚类

D. 回归分析

2. (单选题)如果把全体同学某门课程考试成绩进行分析，想要把所有同学的成绩分成3个类别，这属于（）类型的挖掘任务。

A. 分类与预测

B. 聚类

C. 关联分析

D. 回归分析

3. (单选题)若已有往届学生学习的在线记录、课堂表现、平时作业情况以及最后考试成绩的等级数据，则根据一个当前学生的学情，分析该学生最后考试能取得什么类型的成绩，属于（）类型的挖掘任务

A. 分析与预测

B. 聚类

C. 关联挖掘

D. 回归分析

4. (单选题)若已有某网店所有客户的购买数据记录，想要通过增加销售量进行商品的捆绑销售，则适合使用（）类型的分析方法。

A. 分类与预测

B. 关联挖掘

C. 回归分析

D. 聚类

5. (单选题)头条APP通过用户浏览网页的记录，给用户推荐其感兴趣的新闻，属于（）类型的挖掘任务。

A. 分类与挖掘

B. 关联挖掘

C. 聚类分析

D. 回归分析

6. (单选题)经典的数据挖掘算法与机器学习算法存在很多内容交叉部分。

A. 正确

B. 错误

1 绪论--1.3-1.4 开放数据获取来源-数据挖掘常见误区

1. (单选题)一般而言，从网络上获取的开放数据是否需要声明版权归属？

A. 需要

B. 不需要

二. 判断题（共4题，80分）

2. (判断题)一般，针对一个分类型的数据挖掘任务只有一种解决方法。

A. 对

B. 错

3. (判断题)统计的幸存者偏见是指采集的数据刚好和要分析的目标背道而驰。

A. 对

B. 错

4. (判断题)预测彩票中奖号码，是数据挖掘任务.

A. 对

B. 错

5. (判断题)数据挖掘得到的数据结论比数据分析得到的结论要更加隐藏。

A. 对

B. 错

1 绪论--1.5 数据挖掘中的隐私保护

1. (单选题)现在有一个大创项目选题，拟利用学生的食堂消费记录圈定需要进行资助的学生名单，你觉得这样的选题会不会侵犯个人隐私？

A. 会

B. 不会

2. (单选题)手机通信服务商打包出售我校大学生的手机CDMA通信数据，是否侵犯个人隐私？

A. 侵犯

B. 不侵犯

3. (单选题)手机通信服务商打包出售我校大学生的手机CDMA通信数据的统计分析汇总数据，是否侵犯个人隐私？

A. 不侵犯

B. 侵犯

4. (单选题)如果以上学期我校概率论与数理统计的考试成绩为分析对象，想要实现教学效果好的老师名单，是不是数据挖掘任务？

A. 是

B. 不是

5. (单选题)以上学期我校概率论与数理统计的考试成绩为分析对象，想要实现教学效果好的老师名单，如果直接拿教务系统的成绩表进行直接分析会侵犯哪些群体的个人隐私？

A. 教师个人隐私

B. 学生个人隐私

C. 俩者都有

D. 不侵犯个人隐私

2 数据--2.1 数据属性

1. (单选题)将学生的性别设计为Male和Female，那么此时性别属性是（）？

A. 名义型变量

B. 有序型变量

C. 区间标称型变量

D. 比率型变量

2. (单选题)下面哪个不属于数据的属性类型

A. 标称

B. 序数

C. 区间

D. 相异

3. (单选题)只有非零值才重要的二元属性被称为（）

A. 计数属性

B. 离散属性

C. 非对称的二元属性

D. 对称属性

4. (单选题)属于定量的属性类型是（）

A. 标称

B. 序数

C. 区间

D. 相异

5. (单选题)按照A,B,C,D四个等级打分的考试成绩属于（）

A. 连续性数值型

B. 离散性数值型

C. 序数型

D. 标称型

6. (单选题)如果刻画学生的学院所属，学院类别共有10个，那么学生所在学院这个属性转换为ont-hot编码需要占据（）位长度

A. 9

B. 10

C. 19

D. 1024

7. (单选题)关于基本数据的元数据是指

A. 基本元数据与数据源, 数据仓库, 数据集市和应用程序等结构相关的信息;

B. 基本元数据包括与企业相关的管理方面的数据和信息;

C. 基本元数据包括日志文件和简历执行处理的时序调度信息

D. 基本元数据包括关于装载和更新处理, 分析处理以及管理方面的信息

8. (单选题)下面不属于数据集的一般特性的有:_______

A. 连续性

B. 维度

C. 稀疏性

D. 分辨率

9. (多选题)对于数据挖掘中的原始数据,存在的问题有

A. 不一致

B. 重复

C. 不完整

D. 含噪声

E. 纬度高

10. (多选题)下面属于数据集的一般特性的有

A. 连续性

B. 维度

C. 稀疏性

D. 分辨率

E. 相异性

2 数据--2.1-2.2 数据属性与数据描述分析

1. (单选题)一所大学内的各年级人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是:

A. 一年级

B. 二年级

C. 三年级

D. 四年级

2. (单选题)关于正态分布,下列说法错误的是:

A. 正态分布具有集中性和对称性

B. 正态分布的均值和方差能够决定正态分布的位置和形态

C. 正态分布的偏度为0,峰度为1

D. 标准正态分布的均值为0,方差为1

3. (单选题)考虑值集{1,2,3,4,5,90},其40%截尾均值是_______

A. 2

B. 3

C. 3.5

D. 5

4. (单选题)设样本数据为X = [[0, 0, 2] , [1, 0, 3], [2, 1, 0], [0, 0, 1] ]，如果使用one-hot对其进行编码，则X的第一个特征属性对应的onehot编码长度是（）

A. 2

B. 3

C. 4

D. 5

5. (单选题)设样本数据为X = [[0, 0, 2] , [1, 0, 3], [2, 1, 0], [0, 0, 1] ]，如果使用one-hot对其进行编码，则X的对应的onehot编码长度是（）

A. 10

B. 9

C. 8

D. 11

6. (单选题)你认为：最大或最小的截尾平均方法、均值方法、alpha截尾均值法（alpha取值在10%-30%），哪一种更具备对离群异常点的干扰能力。（）

A. 最大或最小的截尾平均方法

B. 均值方法

C. alpha截尾均值法

D. 不确定，需要具体情况具体分析

2 数据--2.3 数据可视化

1. (单选题)数据可视化工作在数据分析与挖掘中的作用:

A. 只对数据分析和挖掘的结果进行展示,起到了锦上添花的作用

B. 很简单的工作

C. 很容易学会

D. 贯穿这个数据分析和挖掘的过程

2. (单选题)下列哪个不是专门用于可视化时间空间数据的技术

A. 等高线图

B. 饼图

C. 曲面图

D. 矢量场图

3. (单选题)使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?

A. 探索性数据分析

B. 建模描述

C. 预测建模

D. 寻找模式和规则

4. (单选题)如果对某列数据进行帕累托贡献度分析,那么

A. 要对数据做升序排序

B. 要对数据做降序排序

C. 不需要排序

D. 必须要进行数据采样

5. (多选题)下面哪些属于可视化高维数据技术

A. 矩阵

B. 平行坐标系

C. 星形坐标

D. 散布图

E. Chernoff 脸

6. (判断题)只要对数据进行了可视化，一般可以通过可视化的图形规律得出相关的结论。

A. 对

B. 错

2 数据--2.4 数据相似性度量

1. (单选题)你觉得音频数据是否能进行相似性检索？

A. 可以

B. 不可以

C. 不知道

2. (单选题)如果数据有很多列,需要找出重复的列,最优方案是____

A. 通过相关系数矩阵查找

B. 任两列做散点图观察

C. 通过循环比较每个值

D. 任两列做差,每个差均为0

3. (单选题)设有n个p维度的对象，则相异度矩阵M存储两两对象之间的相似性，其表现形式是一个（）的矩阵。

A. n×n维

B. n×p维

C. p×p维

D. p×n维

4. (单选题)设有两个数据对象X和Y，其中X,Y都是3维向量[p1,p2,p3],p1为连续型数值变量，p2为名义型变量，p3为序数型变量，则X和Y之间的相似度是否可以评价？（）

A. 可以，但是需要知道每个维度的相似度权重分配

B. 可以直接计算，不需要其他变量辅助

C. 可以计算，因为单位量制不统一

D. 无法判断

5. (单选题)设有A单位职工小张，考核排名名次为101/551(共551人，排名101)；B单位职工小王，考核排名名次为81/301。已知A,B两单位不同，且考核排名方法也不尽相同，那么需要评价小张和小王之间的差距值，下面哪个比较准确（）

A. 101-81

B. （101-81）/301

C. (101-1)/(551-1)-(81-1)/(301-1)

D. （101-81）/(551-301)

6. (判断题)使用平均绝对偏差比使用标准差更稳健。

A. 对

B. 错

3 数据预处理--3.1 -3.2数据清洗

1. (单选题)噪声数据主要是包含错误数据、假数据和（）

A. 异常数据

B.真实数据

C. 污染数据

D. 都对

2. (单选题)在数据清洗中,数据排重需要技巧,排重依据是（）

A. 准确性

B. 唯一性

C. 可靠性

D. 完整性

3. (单选题)在数据清洗中,对“脏”数据源需要进行操作处理,不包括以下哪个方面

A. 完全清除某些输入字段

B. 自动替换掉某些错误数据值

C. 对分配和调整的规则进行完备的文档记录

D.补入一些丢失的数据

4. (单选题)在数据清洗中,增量抽取机制不适用于( )特点的数据表

A. 源表变化数据相对数据总量较小

B. 标表需要记录过期信息或者冗余信息

C. 业务系统能直接提供增量数据

D. 源表变化数据不规律

5. (单选题)在数据预处理里,对缺失值做插补,不属于数据插补方法的是（）

A. 固定值插补

B. 中位数插补

C. 均值插补

D. 随机数插补

6. (单选题)设有数据集X为4, 8, 9, 15, 21, 21, 24, 25, 36, 42, 57, 88，如果将X按照等宽划分方法，划分成7个桶，则24属于第几个桶？（）

A. 2

B. 3

C. 4

D. 5

7. (单选题)设有数据集X为4, 8, 9, 15, 21, 21, 24, 25, 36, 42, 57, 88，如果将X按照等频划分方法，划分成6个桶，则24属于第几个桶？（）

A. 3

B. 4

C. 5

D. 6

3 数据预处理--3.3 数据集成与数据转换

1. (单选题)在多数据源数据集成时，若数据源1的数据模式为（工号，电话号码，住址，出生年月），数据源2的数据模式为（工号，电话号码，住址所在省，住址所在市，住址所在街道，年龄）。如果将数据源1和数据源2的数据模式直接合并，下面哪种描述是不正确的？（）

A. 数据源1的住址和数据源2中3个住址相关属性需要进行进行模式集成；

B. 年龄和出生年月存在数据冗余的问题；

C. 这两个模式需要删除冗余字段，才能进行较好的系统集成；

D. 模式集成可以不删除字段，也可以删除字段。

2. (单选题)特征二值化的核心在于设定一个（）

A. 元素

B. 阈值

C. 关键值

D. 数组

3. (单选题)z-score规范化函数的值域是（）

A. (-∞,+∞)

B. [-1,1]

C. [min,max],min和max为指定值

D. [-pi,pi]，pi为3.1415926

4. (单选题)将[10,30,50,80,100]进行最小-最大规范化，则80对应的数值为（）

A. 0.8

B. 0.445

C. 0.778

D. 0.7

5. (单选题)假定A的取值范围[-1035, 917]，则917通过小数定标法被规范化为（）

A. 0.917

B. 0.0917

C. 9.17

D. 0.00917

3 数据预处理--3.4 数据规约

1. (单选题)数据压缩是指在( )前提下,缩减数据量以减少存储空间,提高其传输、存储和处理效率,或按照一定的算法对数据进行重新组织,减少数据的冗余和存储的空间的一种技术方法。

A. 不丢失有用的信息

B. 不丢失所有信息的

C. 不丢失真实信息的

D. 以上三个都是

2. (单选题)针对数据立方体的相关操作，不正确的是（）

A. 数据立方体的聚集是将n维的数据降低到n-1或者更少的维度上；

B. OLAP是数据立方体的一种常见的简单分析方法.

C. 数据立方体的上卷操作等价于维度规约.

D. 数据立方体的聚集只是数据规约的一种方式。

3. (单选题)使用属性子集选择的维度规约方法，下列说法正确的是（）

A. 属性子集选择方法一定会造成信息丢失；

B. 使用属性子集选择方法后产生的数据分布与原始分布一致；

C. 属性子集选择的穷举法在任何时候都是不可取的；

D. 属性子集选择方法和PCA类似，都属于降维的方法。

4. (单选题)下列关于数据规约说法正确的是（）

A. 通过将数据进行分层采样，此时实现的是数据量减少，但是数据的维度不变；

B. 通过PCA方法，此时数据量减少，数据维度不变；

C. 使用数据子集选择方法，此时数据量减少，数据维度减少；

D. 数据规约技术需要同时考虑降低数据数量和数据维度两个方面。

5. (判断题)PCA将数据投射到一个低维子空间实现降维，是数据规约的一种常用方法。

A. 对

B. 错

3 数据预处理--3.5 数据离散化与概念分层

1. (单选题)当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？

A. 分类

B. 聚类

C. 关联分析

D. 隐马尔可夫链

2. (单选题)假设12个销售价格记录组已经排序如下：5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频划分时，15在第几个箱子内？

A. 第一个

B. 第二个

C. 第三个

D. 第四个

3. (单选题)有关概念分层技术，下列说法正确的是（）

A. 3-4-5自然划分方法，需要提前知道数据的类别标签；

B. 基于熵的划分方法，需要提前知道数据的类别标签；

C. 等深分箱技术需要知道数据的值域范围和分箱数目及数据个数；

D. 等频分箱技术需要知道数据的值域范围和分箱数目。

4. (单选题)下面哪些操作不属于概念分层？（）

A. 将工资分为高收入人群、中收入人群和低收入人群；

B. 将老师分为青年老师和中年老师；

C. 将工资收入精确到整数位；

D. 按照频率直方图将考试成绩分为优秀，良好和合格。

5. (多选题)现有一份问卷，调查大学生生源地、年龄、性别与每个月零花钱之间的关系，那么可能会牵涉到的数据离散化操作包括如下哪些?

A. 城市抽象到省份；

B. 数据区间抽象为高、中、低；

C. 年龄抽象为A,B,C三个层次；

D. 性别也需要进一步概念分层。

4 分类与预测--4.1-4.2 分类与预测：基本概念--习题

1. (单选题)分类通常会把模型数据集拆分成两个部分,其中一个部分用来评估模型好与不好,这个部分叫做( )。

A. 训练集

B. 测试集

C. 已知数据

D. 未知数据

2. (单选题)在做前期样本规划时,训练集 () 、验证集 () 和检验集() 样本量分配方案哪个比较适合?( )

A. 训练 50%,验证 0%,检验 50%;

B. 训练 100%,验证 0%,检验 0%

C. 训练 0%,验证 100%,检验 0%;

D. 训练 60%,验证 30%,检验 10%

3. (单选题)点击率的预测是一个数据比例不平衡问题(比如训练集中样本呈阴性的比例为99%,阳性的比例是1%),如果我们用这种数据建立模型并使得训练集的准确率高达99%。我们可以得出结论是:( )

A. 模型的准确率非常高,我们不需要进一步探索;

B. 模型不好,我们应建一个更好的模型;

C. 无法评价模型;

D. 以上都不正确

4. (单选题)银行根据客户以往贷款记录情况,将客户分为低风险客户和高风险客户。对一个新来的申请者,银行计算风险,决定接受或拒绝该申请。这属于( )算法的应用

A. 聚类

B. 分类

C. 关联

D. 回归

5. (单选题)有监督学习和无监督学习体现在样本上的区别在于（）

A. 样本是否存在连续数值属性；

B. 样本是否存在分类标签；

C. 样本是否进行了概念离散化；

D. 样本量是否超过50.

4 分类与预测--4.3 决策树分类--习题

1. (单选题)以下哪些算法是分类算法_______

A. DBSCAN

B. C4.5

C. K-Mean

D. EM

2. (单选题)在 ID3算法中信息增益是指( )。

A. 信息的溢出程度

B. 信息的增加效益

C. 熵增加的程度最大

D. 熵减少的程度最大

3. (单选题)在进行决策树算法的时候,下面的结论不正确的是( )

A. 决策树算法针对属性进行计算,所以一定会终止,所以不用考虑决策树的终止性问题;

B. 一个数据集的决策树可能不唯一;

C. 决策树进行属性分裂的时候有可能某个分支不需要用上所有类别属性进行规则式的建立

D. CART算法也是决策树算法。

4. (单选题)ID3算法在构造决策树时，下列说法不正确的是（）

A. 属性值可以是区间型变量；

B. 属性值可以是名义型变量；

C. 属性值可以是序数型变量

D. 属性值可以是离散取值的整数。

5. (单选题)下列关于熵的论述，不正确的是（）

A. 熵是刻画信息系统混杂程度的指标；

B. 熵为0表示确定性系统；

C. 熵为1表示确定性系统；

D. 熵的取值范围是0到正无穷，包含0.

6. (单选题)决策树的叶子节点对应样本的哪个属性值（）？

A. 样本的任意一个属性；

B. 样本的离散取值属性；

C. 样本的熵为0的属性；

D. 样本的类别标签。

4 分类与预测--4.4 朴素贝叶斯分类--习题

1. (单选题)数据挖掘中Naive Bayes属于什么方法?( )

A. 聚类

B. 分类

C. 关联规则挖掘

D. 时间序列挖掘

2. (单选题)下面哪个不是库函数sklearn中的naive_bayes 相关方法调用函数？（）

A. BernoulliNB

B. GaussianNB

C. MultinomialNB

D. NB（）

3. (多选题)

已知𝑃(𝐴∩𝐵|𝑋)=1/6, 𝑃(𝐴|𝑌)=1/3, 𝑃(𝐵|𝑌)=1/2,

𝑃(𝑅∩𝐵)=1/6, 𝑃(𝐴)=1/3, 𝑃(𝐵)=1/2，则可得下列哪些结论（）？

A. A,B相互独立；

B. A,B在条件X下是条件独立的；

C. A,B不是相互独立事件；

D. A,B不是条件独立事件；

4. (判断题)Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法，待分样本的分类结果取决于各类域中样本的全体。

A. 对

B. 错

5. (判断题)朴素贝叶斯分类器的特点是：假设样本各维属性独立

A. 对

B. 错

4 分类与预测--4.5 决策树方法的分析比较--习题

1. (单选题)以下哪些算法是基于规则的分类器

A. C4.5

B. KNN

C. Naive Bayes

D. ANN

2. (单选题)下面关于ID3算法中说法错误的是

A. ID3算法要求特征必须离散化

B. 信息增益可以用熵，而不是GINI系数来计算

C. 选取信息增益最大的特征，作为树的根节点

D. ID3算法是一个二叉树模型

3. (单选题)C4.5算法以（）作为属性分裂的选择依据。

A. 信息增益

B. 信息增益率

C. Gini指标

D. A和B

4. (单选题)哪种算法得到的决策树是二叉树？（）

A. 通过ID3算法得到的决策树；
B. 通过C4.5算法得到的决策树；
C. 通过CART算法得到的决策树；
D. A,B和C都对。

5. (多选题)下列哪些算法可以处理属性值存在连续型数值的样本决策树构建？

A. ID3算法；
B. C4.5算法
C. Kmeans算法
D. CART算法

6. (判断题)关于决策树节点划分根据之一是信息增益越大越好

A. 对
B. 错

4 分类与预测--4.6 KNN分类算法--习题

1. (单选题)下列选项中，关于KNN算法说法不正确是：

A. 能找出与待测样本相近的K个样本
B. sklearn中的KNeighborsClassifier默认使用欧氏距离度量
C. 实现过程相对简单，但是可解释性不强
D. 效率很高

2. (单选题)下列哪个距离度量不在KNN算法中体现：

A. 闵可夫斯基距离
B. 欧氏距离
C. 余弦距离
D. 曼哈顿距离

3. (单选题)假设通过knn= KNeighborsClassifier()建立模型，并使用knn.fit(Xtrain, Ytrain)训练模型，要想输出测试集Xtest对应的类别值，则需要使用如下哪一条指令？（）

A. print(knn.predict(Xtest))
B. knn.predict(Xtest)
C. print(knn. predict_proba(Xtest))
D.print(knn. score(Xtest))

4. (多选题)已知KNeighborsClassifier()函数的形参默认值如下： KNeighborsClassifier(n_neighbors=5,weights=’uniform’,algorithm=’auto’,leaf_size=30,p=2,metric=’minkowski’,metric_params=None,n_jobs=1,**kwargs) ，其中metric属性和p值联合一起，可以实现不同的距离选择，以下说法正确的是（）

A. p = 1, 相当于使用曼哈顿距离；
B. p = 2, 相当于使用欧几里得距离
C. 对于 p 不等于1或2的其他整数，使用的是闵可夫斯基距离；
D. KNeighborsClassifier默认选择的欧几里得距离。

5. (多选题)已知KNeighborsClassifier()函数的形参默认值如下： KNeighborsClassifier(n_neighbors=5,weights=’uniform’,algorithm=’auto’,leaf_size=30,p=2,metric=’minkowski’,metric_params=None,n_jobs=1,**kwargs) ，如果想从周边的3个邻居的类别来推荐样本的类别，使用闵可夫斯基距离(不选择欧式空间距离)，则下列调用正确的是（）

A. knn= KNeighborsClassifier(n_neighbors=3);
B. knn= KNeighborsClassifier(n_neighbors=3, metric=’minkowski’);
C. knn= KNeighborsClassifier();
D. knn= KNeighborsClassifier(n_neighbors=3,p=2 metric=’minkowski’);

6. (判断题)KNN算法的时间复杂度和存储空间会随着训练集规模和特征维数的增大而快速增加。

A. 对
B. 错

4 分类与预测--4.7 分类与预测算法的性能评价方法-习题

1. (单选题)

以下两种描述分别对应哪两种对分类算法的评价标准？

(a)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。

(b)描述有多少比例的小偷给警察抓了的标准。

A. Precision, Recall
B. Recall, Precision
C. Precision, ROC
D. Recall, ROC

2. (单选题)

在变量选择过程中，下列哪些方法可用于检查模型的性能？

a.多重变量用于同一个模型b.模型的可解释性c.特征的信息d.交叉验证

A. a和d
B. a,b和c
C. a,b和d
D. 以上全部

3. (单选题)从股票预测的场景出发，人们可能更加注重下列哪个指标（）？

A. 精度precision=TP/（TP+FP）
B. 召回率recall=TP/(TP+FN)
C. F-score
D. 正确率accuracy = （TP+TN）/(P+N)

4. (单选题)从癌症筛查的场景出发，人们可能更加注重下列哪个指标（）？

A. 精度precision=TP/（TP+FP）
B. 召回率recall=TP/(TP+FN)
C. F-score
D. 正确率accuracy = （TP+TN）/(P+N)

5. (多选题)哪些选项对 K 折交叉验证的描述是正确的

A. 增大 K 将导致交叉验证结果时需要更多的时间
B. 更大的 K 值相比于小 K 值将对交叉验证结构有更高的信心
C. 如果 K=N，那么其称为留一交叉验证，其中 N 为验证集中的样本数量

4 分类与预测--4.8 高级分类方法--习题

1. (单选题)以下关于随机森林（Randomforest）说法正确的是

A. 随机森林由若干决树组成，决策树之间存在关联性
B. 随机森林学习过程分为选择样本，选择特征、构建决策树，投票四个部分
C. 随机森林算法容易陷入过拟合
D. 随机森林构建决策树时，是无放回的选取训练数据

2. (单选题)有关随机森林说法不正确的是（）

A. 可以同时产生多个决策树；
B. 每个决策树产生的数据样本都是一样的；
C. 每个决策树使用的特征样本可能不同；
D. 异常数据对随机森林的干扰比单个的决策树模型小；

3. (多选题)集成学习的好处包括（）

A. 可以较好地解决单个模型的过拟合问题；
B. 通过模型融合，提高融合模型的预测能力；
C. 可以较好地解决单个学习模型的不稳定问题；
D. 相对于单学习模型，集成学习对噪音就较好的抗干扰能力。

4. (判断题)Bagging方法的特点是：构造训练集时采用Bootstraping的方式

A. 对
B. 错

5. (简答题)

对于XGBoost方法，请写出运行以下代码的结果（保留小数点后5位）：

import pandas as pd

import xgboost as xgb

df = pd.DataFrame({'x':[1,2,3], 'y':[10,20,30]})

X_train = df.drop('y',axis=1)

Y_train = df['y']

T_train_xgb = xgb.DMatrix(X_train, Y_train)

params = {"objective": "reg:linear", "booster":"gblinear"}

gbm = xgb.train(dtrain=T_train_xgb,params=params)

Y_pred = gbm.predict(xgb.DMatrix(pd.DataFrame({'x':[4,5]})))

print(Y_pred)

我的答案：

[29.49577 33.61253]

6 关联规则挖掘--6.1基本概念--习题

1. (单选题)以下属于关联分析的是

A. CPU性能预测
B. 购物篮分析
C. 自动判断鸢尾花类别
D. 股票趋势建模

2. (单选题)维克托▪迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘

A. K-means
B. Bayes Network
C. C4.5
D. Apriori

3. (单选题)置信度()是衡量兴趣度度量( )的指标

A. 简洁性
B. 确定性
C. 实用性
D. 新颖性

A. 聚类
B. 分类
C. 关联
D. 回归

5. (单选题)( )表示在先决条件X发生的情况下,由关联规则“X→Y”推出Y的概率。

A. 支持度
B. 置信度
C. 关联度
D. A和B

6. (单选题)小王养了一头猪和一只鸡,一天,猪问鸡:“主人去哪里了”,猪含泪答道:“去买粉条了”。鸡很同情的说:“老弟,来世再见。”以上对话体现了数据分析方法中的( )。

A. 关联挖掘
B. 自然语言处理
C. 文本挖掘
D. 聚类

7. (判断题)支持度是衡量关联规则重要性的一个指标

A. 对
B. 错

8. (判断题)可信度是对关联规则的准确度的衡量。

A. 对
B. 错

9. (判断题)给定关联规则A→B,意味着:若A发生,B也会发生。

A. 对
B. 错

10. (判断题)关联规则可以用枚举的方法产生。

A. 对
B. 错

11. (判断题)不满足给定评价度量的关联规则是无趣的。

A. 对
B. 错

6 关联规则挖掘--6.2 闭项集和极大频繁项集--习题

1. (单选题)非频繁模式()

A. 其置信度小于支持度阈值
B. 令人不感兴趣
C. 包含负模式和负相关模式
D. 对异常数据项敏感

2. (单选题)对频繁项集、频繁闭项集、极大频繁项集的关系描述正确的是( )[注:分别以1、2、3代表之]

A. 3可以还原出无损的1
B. 2可以还原出无损的1
C. 3与2是完全等价的
D. 2与1是完全等价的

3. (单选题)若{A,B}是极大频繁项集,则下列一定不属于频繁项集的是

A. {A}
B. {B}
C. {B,C}
D. {A,B,C}

4. (单选题)若{A,B}是极大频繁项集,则下列一定属于频繁项集的是

A. {A}或{B}
B. {A,C}
C. {B,C}
D. {A,B,C}

5. (单选题)若{A,B}是极大频繁项集,则下列可能属于频繁项集的是

A. {A}
B. {B}
C. {B,C}
D. {A,B,C}

6. (单选题)考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}。假定数据集中只有5个项,采用合并策略,由候选产生过程得到频繁4-项集不包含________

A. 1,2,3,4
B. 1,2,3,5
C. 1,2,4,5
D. 1,3,4,5

答案解析：

从频繁项集的性质可知。

7. (单选题)设X={1,2,3}是频繁项集,则可由X最多可产生____个关联规则。

A. 4
B. 5
C. 6
D. 7

8. (单选题)满足最小支持度阈值的所有项集称为( )。

A. 项
B. 项集
C. 频繁项集
D. 频繁K项集

9. (多选题)

已知事务数据库的项集频数统计如图所示，则以下属于闭项集的是：

A. {A,B}
B. {A,B,C}
C. {A,B,D}
D. {B,C,D}

10. (判断题)频繁闭项集可用来无损还原频繁项集。

A. 对
B. 错

11. (判断题)对于项集来说,置信度没有意义。

A. 对
B. 错

6 关联规则挖掘--6.3-6.5 Apriori算法及其应用--习题

1. (单选题)Apriori算法的加速过程依赖于以下哪个策略( )

A. 抽样
B. 剪枝
C. 缓冲
D. 并行

2. (单选题)以下哪个会降低Apriori算法的挖掘效率

A. 支持度阈值增大
B. 项数减少
C. 事务数减少
D. 减小硬盘读写速率

3. (单选题)维克托▪迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘_______

A. K-means
B. Bayes Network
C. ID3
D. Apriori

4. (单选题)Apriori 算法使用哪个指标筛选项目集()?( )

A. 交易编号 (TransactionID);
B. 最小支持度 (Minimum Support);
C. 最小置信度 (Minimum Confidence);
D. 购买数量;

5. (单选题)以下选项中,哪个有可能是 Apriori 算法所挖掘出来的结果?( )

A. 买计算机同时会购买相关软件
B. 买打印机后过三个月会买墨水
C. 卖便携计算机较台式机所获得额外利益
D. 以上皆均不是

6. (单选题)

假设使用如下公式从由频繁k项集产生潜在的频繁K+1候选集

已L2 ={{1，2}，{1，3}，{1，5}，{2，3}}，则通过上述方法可以得到C为（）

A. {{1，2，3}，{1，2，5}，{1，3，5}}
B. {{1，2，3}，{1，2，5}}
C. {{1，2，3}}
D. {{1，2，3}，{1，2，5}，{2，3，5}}

7. (单选题)

已知事务数据库如图所示，conf(I1→I2, I3)为（）

A. 0.8
B. 1
C. 0.75
D. 0.7

8. (单选题)

已知事务数据库如图所示，设Min_supp=50%, min_conf=50%.

则该事务数据库中包含3项集的强规则有（）条。

A. 5
B. 4
C. 6
D. 3

9. (判断题)Apriori算法是一种典型的关联规则挖掘算法。

A. 对
B. 错

10. (判断题)Apriori算法产生的关联规则总是确定的。

A. 对
B. 错

6 关联规则挖掘--6.6关联挖掘的常见误区--习题

1. (单选题)

表中给出了某超市的事务数据，其中hot dogs表示包含热狗的事务，

表示不包含热狗的事务，hamburgers表示包含汉堡包的事务，而

表示不包含汉堡包的事务，给定最小支持度阈值为25%，最小置信度阈值为50%，则的支持度是多少？

A. 0.8
B. 0.67
C. 0.4
D. 0.5

2. (单选题)

表中给出了某超市的事务数据，其中hot dogs表示包含热狗的事务，

表示不包含热狗的事务，hamburgers表示包含汉堡包的事务，而

表示不包含汉堡包的事务，给定最小支持度阈值为25%，最小支持度阈值为50%，则的置信度是多少？

A. 0.8
B. 0.67
C. 0.4
D. 0.5

3. (单选题)

表中给出了某超市的事务数据，其中hot dogs表示包含热狗的事务，

表示不包含热狗的事务，hamburgers表示包含汉堡包的事务，而

表示不包含汉堡包的事务，给定最小支持度阈值为25%，最小支持度阈值为50%，则的置信度是多少？

A. 0.8
B. 0.67
C. 0.75
D. 0.5

4. (判断题)啤酒和尿布的故事是聚类分析的典型案例。

A. 对
B. 错

5. (判断题)高置信度的规则不一定是合理的。

A. 对
B. 错

6. (判断题)给定关联规则A->B，说明A发生，B一定发生。

A. 对
B. 错

7 聚类--7.1 聚类概述--习题

1. (单选题)如果不考虑外部信息,聚类结构的有良性度量应当采用()

A. 均方差
B. 方差
C. 中位数
D. 均值

2. (单选题)分类算法就是按照某种标准给对象贴标签,再根据标签来归类,以下属于分类算法的是( )。

A. DBSCAN
B. C4.5
C. K-Mean
D. EM

3. (单选题)无监督学习中应用最广的是( )。

A. 分类算法
B. 聚类算法
C. 关联算法
D. 时序分析算法

4. (多选题)聚类方法中,需要衡量对象之间的相似程度或距离，下列哪些指标可以用于距离评价（）

A. 闵可夫斯基距离
B. 欧几里得空间距离
C. 余弦相似度
D. 曼哈顿距离
E. 线性相关性

5. (判断题)如果教师把《数据挖掘技术》考试成绩分为优秀（90以上），良好（80-90），及格（60-80），不及格（60以下），这属于聚类算法。

A. 对
B. 错

6. (判断题)任课教师汇总了某专业200学生的16门课考试成绩，将200名学生按照16门功课的成绩表现分成三个区域，则这种操作属于聚类挖掘。

A. 对
B. 错

7 聚类--7.2 聚类的划分方法--习题

1. (单选题)聚类方法中,以下哪种方法需要指定聚类个数。( )

A. 层次聚类
B. K 均值聚类
C. 基于密度的聚类
D. 基于网格的聚类

2. (单选题)已知8个点A1(2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C3(4,9)，使用曼哈顿距离进行距离计算，则A1和A3之间的距离是（）

A. 5
B. 12
C. 8.46
D. 10

3. (单选题)针对同样的数据样本，如果选择不同的初始簇中心点进行Kmeans算法，则（）

A. Kmeans算法结果与初始簇中心点选择无关
B. 不同的簇中心点可能会导致不同的聚类结果

4. (单选题)Kmeans 算法对数据样本中的噪音是否敏感？（）

A. 敏感
B. 不敏感

5. (多选题)已知8个点A1(2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C3(4,9)，使用曼哈顿距离进行距离计算，则通过Kmeans算法将其聚类为3个簇后，最后的3个簇是（）

A. {A1,A2,B3,C2}
B. {B1}
C. {A3,B2,C1}
D. {A3,B2}
E. {C1,B1}
F. {A1,A2,A3}

6. (判断题)K均值可以很好得处理不同密度得数据

A. 对
B. 错

7 聚类--7.4聚类的密度方法--习题

1. (单选题)

DBSCAN算法的过程是()

①删除噪声点。

②每组连通的核心点形成一个簇。

③将所有点标记为核心点、边界点和噪声点。

④将每个边界点指派到一个与之关联的核心点的簇中。

⑤为距离在Eps之内的所有核心点之间赋予一条边。

A. ①②④⑤③
B. ③①⑤②④
C. ③①②④⑤
D. ①④⑤②③

2. (单选题)如果有m个点,DBSCAN在最坏的情况下的时间复杂度为()

A. O(m)
B. O(mlogm)
C. O(m2)
D. O(logm)

3. (单选题)在基本DBSCAN的参数选择方法中,点到它的K个最近邻的距离中的K选作为哪一个参数()

A. Eps
B. MinPts
C. 质心
D. 边界

4. (单选题)当采用K-距离的方法选择DBSCAN的Eps和MinPts参数时,如果设置的K的值太大,则小簇(尺寸小于K的簇)可能会被标记为()

A. 噪声
B. 核心簇
C. 边界簇
D. 以上都不对

5. (单选题)DBSCAN之所以难以有效处理高维数据,其主要原因是()

A. 数据的形状太复杂
B. 簇的大小未知
C. 噪声点过多
D. 开销过大

6. (单选题)关于K均值和DBSCAN的比较,以下说法不正确的是()

A. K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。
B. K均值使用簇的基于原型的概念,DBSCAN使用基于密度的概念。
C. K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇。
D. K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇。

7. (单选题)对于DBSCAN,参数Eps固定,当MinPts取值较大时,会导致()

A. 能很好的区分各类簇
B. 只有高密度的点的聚集区划为簇,其余划为噪声
C. 低密度的点的聚集区划为簇,其余的划为噪声
D. 无影响

9. (判断题)K均值可以发现不是明显分离的簇,即便簇有重叠,也可以发现,但是DBSCAN会合并有重叠的簇。

A. 对
B. 错

10. (判断题)DBSCAN的参数Eps固定时,MinPts的值越大越好。

A. 对
B. 错

11. (判断题)DBSCAN会把所有点划分到各自的簇中

A. 对
B. 错

12. (判断题)在所有核心点的Eps半径邻域内的点数都不少于MinPts阈值。

A. 对
B. 错

13. (判断题)DBSCAN能够很好的区分原始数据的形状,但受限于用户指定的参数。

A. 对
B. 错

14. (判断题)在做聚类时,DBSCAN会删掉它认为是噪声点的数据点。

A. 对
B. 错

15. (判断题)DBSCAN的空间复杂度始终都是O(N)，N为样本点数目。

A. 对
B. 错

16. (判断题)DBSCAN相对抗噪声,并且能够处理任意形状与大小的簇。

A. 对
B. 错

5 回归分析--5.1基本概念--习题

1. (单选题)在回归与相关分析中,因变量值随自变量值的增大(减小)而减小(增大)的现象叫做________。

A. 正相关;
B. 负相关;
C. 正比例
D. 反比例

2. (单选题)在对两个变量X,Y进行线性回归分析时，有下列步骤：(1)对所求的回归直线方程进行解释； (2)收集样本数据； (3)求线性回归方程； (4)求未知参数； (5)根据所搜集的数据绘制散点图。如果根据可行性要求作出X,Y具有线性相关的结论，则下列操作顺序正确的是（）

A. (1) (2) (5) (4) (3)
B. (3) (2) (4) (5) (1)
C. (2) (4) (3) (1) (5)
D. (2) (5) (4) (3) (1)

3. (单选题)已知直线回归方程为Y=2-1.5X，则变量X增加一个单位时，（）

A. Y平均增加1.5个单位
B. Y平均增加2个单位
C. Y平均减少1.5个单位
D. Y平均减少2个单位

4. (单选题)一位母亲记录了儿子3-9岁的身高，由此建立的身高与年龄的回归直线方程为Y=7.19x+73.93,据此可以预测这个孩子10岁的身高，则下列描述正确的是（）

A. 身高一定是145.83厘米
B. 身高超过146厘米
C. 身高低于145厘米
D. 身高在145.83厘米左右

5. (单选题)若将X称为预测变量，Y称为解释变量，则在画两个变量的散点图时，下列哪个叙述是正确的（）

A. 预测变量在X轴上，解释变量在Y轴上；
B. 解释变量在X轴上，预测变量在Y轴上；
C. 可以选择两个变量中的任意一个变量在X轴上
D. 可以选择两个变量中的任意一个变量在Y轴上

5 回归分析-5.2 线性回归编程案例--习题

1. (单选题)某同学由X与Y之间的一组数据求得两个变量间的线性回归方程为Y=bX+a，已知数据X的平均值为2，数据Y的平均值为3，则

A. 回归直线必过点（2，3）
B. 回归直线一定不过点(2,3)
C. 点（2，3）在回归直线上方
D. 点（2，3）在回归直线下方

2. (单选题)在回归分析中，将所有样本数据点和它们在回归直线上相应未知的差异平方相加，可以得到（）

A. 总偏差平方和
B. 残差平方和
C. 回归平方和
D. 相关系数r

3. (单选题)

针对下面四种说法，下列结论正确的是（）

(1)函数关系是一种确定性关系；(2)相关关系是一种非确定性关系；

(3)回归分析是对具有函数关系的两个变量进行统计分析的一种方法；

(4)回归分析是对具有相关关系的两个变量进行统计分析的一种方法。

A. (1) (2)
B. (1) (2) (3)
C. (1) (2) (4)
D. (1) (2) (3) (4)

4. (单选题)针对回归分析而言，残差平方和（）

A. 越大越好，没有上界
B. 越小越好，最小为0
C. 取值大小与回归方程的质量无关；
D. 残差平方和就是均方差mse

5. (简答题)

调查某市出租车使用年限和该年支出维修费用（万元），得到数据如下：

1）请编程计算，第10年的维修费用是多少？ [填空1] 保留两位小数。

（2）回归方程的截距是 [填空2]（保留2位小数）？

（3）回归方程的系数是 [填空3] （保留2位小数）？

我的答案：

维修费用12.38

截距0.08

系数1.23

6. (简答题)

以下是某地搜集到的新房屋的销售价格y和房屋的面积x的数据（答题保留3位小数）

（1）线性回归方程的系数是 [填空1]

（2）线性回归方程的截距是 [填空2]

（3）请预测150m2的房子售价是多少？ [填空3]

我的答案：

（1）0.196

（2）1.817

（3）31.247

5 回归分析-5.5 CART分类回归树--习题

1. (单选题)决策树分类方法中,CART 算法使用的分裂准则是:

A. 信息增益
B. 增益比率
C. 基尼系数
D. 分类错误率

2. (单选题)CART决策树是一棵（）

A. 二叉树
B. 多叉树
C. 回归方程

3. (多选题)CART树构建时，终止条件包括（）

A. 节点是纯结点，即所有的记录的目标变量值相同
B. 树的深度达到了预先指定的最大值
C. 混杂度的最大下降值小于一个预先指定的值
D. 节点的记录量小于预先指定的最小节点记录量
E. 一个节点中的所有记录其预测变量值相同

4. (判断题)CART分类回归树是一种典型的二叉决策树,可以做分类或者回归。

A. 对
B. 错

5. (判断题)CART决策树分为分类树和回归树,当因变量Y为离散变量时为分类树,当因变量Y为连续变量时为回归树

A. 对
B. 错

5 回归分析-5.3 逻辑回归--习题

1. (单选题) 数据挖掘中逻辑回归属于什么方法?( )

A线性回归

B分类

C关联规则挖掘

D时间序列挖掘

2. (单选题) 以下关于逻辑回归的说法不正确的是

A逻辑回归必须对缺失值做预处理;

B逻辑回归要求自变量和目标变量是线性关系

C逻辑回归比决策树，更容易过度拟合

D逻辑回归只能做2值分类，不能直接做多值分类

3. (简答题)

利用linear_model.LogisticRegression()对scikit-learn中的自带数据集iris，再利用train_test_split将样本的test_size作为测试集进行分类与预测，最后输出score(X_test, y_test)，则：

（1）test_size=0.15时，输出的score是 [填空1] ；

（2）test_size=0.35时，输出的score是 [填空2] .

以上结果均保留2位小数。

0.96 0.94

（1）0.97

（2）0.89