单选1
练习题 【单选题】1/20
一项针对某城市小微企业税收扶持和税收种类的调查,本打算调查500个企业,但忽然发现税务中心数据库中已存有这项调查数据,并且可以有权限获取这份数据,请问这是什么类型的调查方式?
A.分层抽样
B.概率抽样
C.非概率抽样
D.非抽样调查
D
选项ABC都属于抽样调查,在调查范围广或具破坏性时为节省人力物力选用的一种用样本反映总体的方法,而本题调查对象的数据已存在,无须进行抽样调查
2/20
互联网公司进行数据分析时常常会使用网站的日志数据进行一些用户活动的分析,下列不属于网站日志记录的信息的是
A.用户访问数
B.用户活跃度
C.页面浏览数
D.停留时长
B
网站日志主要记录用户操作网站时的基础信息,B选项用户活跃度需要进行统计汇总,不属于基础信息
3/20
在调查问题中,调查员需要收集用户“是否购买过指定产品”的数据。如果从方便数据处理的角度出发,下列方法最适宜的是( )。
A.需要编码为数值变量
B.需要编码为字符变量
C.需要编码为分类变量
D.需要编码为二分变量
D
“是否购买过指定产品”的取值为字符型,且只有两种取值:“是”,“否”,为方便后续处理,将其编码为二分变量比较适合
4/20
在进行市场调研之前,首先需明白市场调研的方法论是以什么为驱动的?
A.市场需求驱动
B.理论架构驱动
C.探索信息驱动
D.统计模型驱动
A
市场调研是一种把消费者及公共部门和市场联系起来的特定活动,这些信息用以识别和界定市场营销机会和问题。市场营销的观念意味着消费者的需求应该予以满足,即市场调研应以市场需求为驱动
5/20
如果问题是截然相反的,侧重不同方面,就很难将所有的评分汇总为一个总分,建议使用逆向评分于以消除。有关逆向评分的注意事项正确的是?
A.测谎题,不建议故意设置逆向计分。
B.就题目而言,通常需要汇总评分,或为了获得标准化的信度指标。
C.标准化的信度指标与反向题无关。
D.只有效度分析与反向题有关。
B
暂无答案解析
如果题目是截然相反的,就很难将所有的评分汇总为一个总分,同时如果需要计算信度的话,信度指标为负没法解释。所以介于以上问题,建议使用逆向评分于以消除。其中J表示旧取值的个数。
A.新取值=(J)-旧取值
B.新取值=(J+2)-旧取值
C.新取值=(J+1)-旧取值
D.新取值=(J*2)-旧取值
C
暂无答案解析
7/20
小学生距离学校的远近与父母认为的安全隐患中。单单询问您会选择您的孩子就近上学吗?可能是没有意义的,因为父母会考虑经济条件、安全、父母上班时间等因素。假如其他条件不变的情况下,如下表,建议使用什么方式编码数据?
A.安全度(单选)+距离(单选)
B.安全度(单选)+距离(多选)
C.安全度(多选)+距离(多选)
D.开放题
A暂无答案解析
8/20
离中趋势是统计学中常用的数据观测指标,以下哪个指标不能反映数据的离中趋势?
A.标准差
B.变异系数
C.平均差
D.中位数
D
离中趋势是指一组数据中各数据值以不同程度的距离偏离其中心的趋势,选项D反映的是数据集中趋势
9/20
在对数据进行可视化展示的时候合适的图表决定了可视化的效果。下面关于直方图的主要作用说法正确的是( )
A.可以反映整体的平均水平
B.可以反映整体的波动大小
C.可以反映整体的分布情况
D.可以看出整体的最大值和最小值
C
直方图由一系列高度不等的纵向条纹或线段表示数据分布的情况, 一般用横轴表示数据类型,纵轴表示分布情况,本题选C
10/20
数据在实际应用之前需要进行必要的清洗来处理数据中的异常值、缺失值、重复值等,下列哪一项方法不能用于发现异常值( )
A.均值加减标准差法
B.百分数法
C.聚类法
D.梯度下降法
D
梯度下降法是一种迭代算法,用于求函数的极小值,无法发现异常值。
11/20
在特征比较多的情况下建模需要先筛选特征或使用降维方法来减少变量个数,降维的方法有许多,以下哪个方法不能用来降维?
A.PCA(主成分分析)
B.FA(因子分析)
C.MDS(多维尺度分析)
D.贝叶斯算法
D
贝叶斯分类算法是统计学的一种分类方法,它是一类利用概率统计知识进行分类的算法,没有对数据降维的作用
12/20
在使用机器学习算法训练模型时需要先对数据进行特征工程处理例如:统一数据量纲、对数据进行编码等,以下方法可以改变数据量纲的是( )
A.对数据做归一化处理
B.对数据做z-score标准化
C.对数据取对数
D.以上都是
D
选项A中归一化的目的是让数据压缩在【0,1】范围内;选项B中z-score标准化针对数据进行了压缩大小处理,同时还让数据具有特殊特征(平均值为0标准差为1);选项C中取对数之后不会改变数据的性质和相关关系,但压缩了变量的尺度,使数据更加平稳,因此选项ABC都可以改变数据量纲,本题选D
13/20
企业数据分为:主数据、参考数据、元数据等,用于查找、存取、使用和管理信息资源的数据属于( )
A.主数据
B.交易数据
C.元数据
D.数据元
C
A主数据:指系统间共享数据(例如,客户、供应商、账户和组织部门相关数据);主数据是组织的最关键、最核心的数据,重点用来解决异构系统之间关键数据的不一致、不正确、不完整等问题。 B交易数据:交易数据是业务处理过程中或事物处理所产生的数据,也称业务数据。 C元数据:描述数据的数据或关于数据的结构化数据;元数据是帮助查找、存取、使用和管理信息资源的信息 D数据元:用一组属性描述定义、标识、表示和允许值的数据单元,数据元由三部分组成:对象、特性、表示。 根据定义可知此题选C元数据
14/20
约束条件是在表和字段上强制执行的数据检验规则,它是为了防止不规范的数据进入数据库,关于数据的完整性约束条件说法错误的是?
A.实体完整性
B.属性完整性
C.参照完整性
D.用户定义的完整性
B
数据完整性约束是一组完整性规则的集合。规则包含:实体完整性、参照完整性、用户定义完整性。三者都满足即满足了数据完整性约束。
15/20
数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。有关数据仓库的特点,不正确的描述是
A.面向主题
B.集成的
C.相对稳定的
D.不能反映历史变化
D
数据仓库是面向主题的:数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面。 数据仓库是集成的:数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。 数据仓库是相对稳定的:操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。 数据仓库能反映历史变化:操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
16/20
按事件的发展过程来看,用户画像准确性验证分为事中验证和事后验证,以下属于事后验证的是( )。
A.抽样验证
B.模型验证
C.交叉验证
D.A/B Test
D
按事件的发展过程来看, 用户画像准确性验证分为事中和事后,其中事中指用户开发过程中,而事后则是指画像上线运用于业务后。不同阶段的验证方法也有所不同。 事中验证:模型验证指标、抽样验证、交叉验证 事后验证:真实数据验证、A/B Test、业务反馈数据验证 A/B Test 是互联网公司最常用的验证方法,一般基于用户画像制定的策略在上线时都会进行严格的对比试验,以测试画像的准确性。 因此此题选择D A/B Test
17/20
数据标签化是企业数据分析的基础工作,关于标签下面说法不正确的是()
A.标签是一种用来描述业务实体特征的数据形式
B.通过标签对业务实体进行刻画,从多角度反映业务实体的特征
C.标签结构极其简单,易于管理
D.因为标签计算比较复杂,在应用时访问效率比较低
D
标签是一种用来描述业务实体特征的数据形式。通过标签对业务实体进行刻画,从多角度反映业务实体的特征。比如对用户进行刻画时,包括性别、年龄、地区、兴趣爱好、产品偏好等角度。标签有如下的特点: 1)标签结构极其简单,所有的标签都围绕业务实体一字排开,标签之间又相互独立,非常容易管理。 2)标签在分析型系统中产生,再导入到应用系统中使用。无论标签的计算逻辑和计算过程多么复杂,都不影响标签在应用系统中极高的访问效率。 3)通过对不同标签的简单操作,便可进行数据筛选和分析。例如通过性别、年龄和地区等标签筛选出不同特征的客群,再通过其他标签分析该客群,便可得到该客群的画像。整个操作过程非常简单,不需要过多的IT技能,特别适合业务用户自行操作,极大地提高了数据使用效率。 4)作为一种清洗后的数据,可以直接作为模型训练的数据输入,减少建模的数据准备时间。 根据特点2可知 D选项是错误的,因此选择D
18/20
用户画像是许多公司都在应用的数据分析方法,以下哪个不属于用户基本信息画像的是()
A.年龄
B.学历
C.收入
D.品类偏好
D
年龄、学历、收入这些属于用户的基本信息,相对稳定;品类偏好则需要根据业务去制定画像策略、规则,不属于用户的基本信息范畴
19/20
几乎每个大型互联网公司都有自己的用户画像系统,用户画像的作用有哪些?
A.进行个性化推荐
B.确定核心的用户群体
C.指导产品设计
D.以上选项都是
D
根据用户画像数据可以进行个性化推荐、确定核心用户群体、优化产品、为产品设计提供参考依据,进行活动营销等。
20/20
按事件的发展过程来看,用户画像准确性验证分为事中验证和事后验证,以下属于事中验证的是( )。
A.真实数据验证
B.交叉验证
C.业务反馈数据验证
D.A/B Test
B
按事件的发展过程来看, 用户画像准确性验证分为事中和事后,其中事中指用户开发过程中,而事后则是指画像上线运用于业务后。不同阶段的验证方法也有所不同。 事中验证:模型验证指标、抽样验证、交叉验证 事后验证:真实数据验证、A/B Test、业务反馈数据验证 A/B Test 是互联网公司最常用的验证方法,一般基于用户画像制定的策略在上线时都会进行严格的对比试验,以测试画像的准确性。 因此此题选择B 交叉验证
1/20
一家手机电池制造厂商检测其制造的电池一次充电后的使用时长,已知时长满足正态分布,抽取36个电池做为随机样本,得到样本均值为50小时,样本标准差为6小时。则该电池使用时长90%的置信区间为? (已知z0.05=1.65)
A.(44,46)
B.(49.1,50.9)
C.(48.35,51.65)
D.(49.15,50.95)
C
2/20
下列关于中心极限定理说法正确的一项是( )
A.多个随机变量的平均值近似服从正态分布
B.无论离散分布或连续分布,正态分布或非正态分布,样本均值的分布总近似于正态分布
C.设n个分布一样的随机变量,假如其共同分布为正态分布N(μ,σ2),则样本均值X仍为正态分布,其均值不变仍为μ,方差为σ2/n
D
D.几个相互独立同分布随机变量,其共同分布不为正态分布或未知,但其均值μ和方差σ2都存在,则在n相当大的情况下,样本均值X近似服从正态分布
暂无答案解析
3/20
正态分布是统计学中常见的分布,数据分析师要熟练掌握正态分布的属性。现有随机变量X服从正态分布:X~N(2, 9), 如果P(X>c)=P(X
A.3
B.2
C.9
D.2/3
正态分布密度曲线关于均值μ对称,μ是正态分布的中心。也就是说:均值两侧发生的概率相等
4/20
通过数据的偏态我们可以了解数据的分布,下面哪个是右偏的频数分布图()?
A.
B.
C.
D.右偏的频数分布图没有大致的图像
C
数据呈现右偏分布时,数据重尾在右侧,此时众数<中位数<均值
5/20
下面是样本均值的分布近似于正态分布的条件为
A.小样本
B.非随机抽样
C.大样本
D.随机抽样
C
暂无答案解析
6/20
假设检验是数据分析师常用的工具,以下步骤哪项不是假设检验的基本步骤?
A.建立假设
B.选择检验统计量,给出接受域形式
C.选择显著性水平
D.给出拒绝域
B假设检验的步骤包括:建立假设;选择检验统计量,给出拒绝域形式;选择显著性水平;给出拒绝域
7/20
统计学中在假设检验时往往会犯两类错误,关于第一类错误和第二类错误描述错误的是?
A.第一类、第二类错误分别为拒真错误和取伪错误
B.当第一类错误减小,第二类错误必然增大
C.在样本量一定的条件下不可能找到一个使得第一类、第二类错误都小的检验
D.第一类错误和第二类错误没有必然联系
D
在样本量给定的条件下,第一类错误与第二类错误中一个减小必导致另一个增大。两者之间存在联系。
8/20
某类钢板每块的重量X服从正态分布,其一项质量指标是钢板重量的方差不得超过0.016,现从某天生产的钢板中随机抽取25块,其样本方差为0.025,问该天生产的钢板重量的方差是否满足要求。在该问题中选择的检验统计量是哪种分布?
A.卡方分布
B.t分布
C.T分布
D.正态分布
A
题干问生产的钢板重量的方差是否满足要求,是一个单个正态总体方差检验的问题,采用的是卡方检验。
9/20
在进行总体均值的估计时,关于为什么要计算均值估计的置信区间,以下说法正确的是( )
A.用于判断总体有多大的百分比的个体,其数值等于均值的点估计
B.用以决定随机抽样的类型
C.用以评价随机抽样的有效性
D.用以评价点估计的可靠性
D暂无答案解析
10/20
某类钢板每块的重量X服从正态分布,其一项质量指标是钢板重量的方差不得超过0.016,现从某天生产的钢板中随机抽取25块,其样本方差为0.025,问该天生产的钢板重量的方差是否满足要求。在该问题中选择的检验统计量是哪种分布?
A.
σ
2
≤
0.016
\sigma^2\leq 0.016
σ2≤0.016
B.
σ
2
=
0.016
\sigma^2 = 0.016
σ2=0.016
C.
σ
2
<
0.016
\sigma^2 \lt 0.016
σ2<0.016
D.
σ
2
≠
0.016
\sigma^2 \not= 0.016
σ2=0.016
A暂无
11/20
单因子方差分析统计模型的应用需要一些前置条件,下列哪项不属于单因子方差分析统计模型的假定?
A.各总体服从正态分布
B.各总体相互独立
C.各总体均值不等
D.各总体有相同的方差
C
单因子方差分析统计模型的假定包括:每一总体均为正态总体;各总体的方差相同,从每一总体中抽取的样本是相互独立的。不包括C项
12/20
在比较因子A各水平下均值是否相等的单因子方差分析试验中,已知因子A有r个水平,从每个水平下的总体获得m个试验结果,(总试验次数n=r×m),那么因子偏差平方和的自由度和误差偏差平方和的自由度分别是?
A.r,n
B.r-n,n-r
C.r-1,n-r
D.n-r,r-1
C
在该问题中因子偏差平方和的自由度为r-1,误差偏差平方和的自由度为n-r,总误差的自由度为n-1。详细推算请参考茆诗松的《概率论与数理统计》
13/20
在饲料养鸡增肥的研究中,采用三种配方饲料喂养观测体重变化,称这种方差分析是?
A.双因素方差分析
B.单因素三水平方差分析
C.三因素方差分析
D.以上都不是
B
三种饲料配方是因素的三个水平,单因素指这里的指饲料
14/20
已知在单因素方差分析试验中,因子水平数为r,总试验次数为n,则对于组内误差平方和描述正确的是
A.反映的是随机因素的影响
B.自由度为r-1
C.自由度为n-1
D.反映的是随机因素和系统因素的影响
A
单因素方差分析的组内误差平方和的自由度为n-r,反映的是随机误差引起的数据间的差异
15/20
在单因子方差分析中,因子A有4个水平,每个水平下重复次数分别为5,7,6,10,那么误差平方和、A的平方和及总平方和的自由度分别为?
A.24,4,28
B.24,3,28
C.24,3,27
D.25,3,28
C
总试验次数n是28,水平数r=4,所以误差平方和的自由度为n-r=24,因子平方和=r-1=3,总平方和=n-1=27
16/20
当所有观测值都落在回归直线上,则这两个变量之间的相关系数为()
A.0.1
B.-1
C.+1或-1
D.大于-1,小于+1
C
观测值都落在回归直线上,说明两变量之间完全正线性相关或完全负线性相关,即相关系数为+1或-1
17/20
在线性回归模型中,如果判定系数越大,下列说法错误的是
A.估计标准误差越小
B.拟合的越好
C.数据点到线性回归方程距离越小
D.多重共线性越严重
D
回归方程的判定系数不能用来评估多重共线性严重程度
18/20
变量x与y的样本点(x1,y1),…,(x1,y1)拟合得到的线性回归直线为m,则下列说法正确的是?
A.x与y的相关系数介于0-1之间
B.x与y的相关系数为直线m的斜率
C.直线m过点(x,
y)
D.以上均不正确
C
相关系数的取值范围是[-1,1]故A错;相关系数与直线的斜率无关,直线斜率应为回归方程中y=bx+a中b的值,故B错;
19/20
线性回归模型E(y)=a+bx中的a是
A.因变量
B.自变量
C.截距
D.回归系数
C
暂无答案解析
20/20
线性回归模型E(y)=a+bx中的x是
A.因变量
B.自变量
C.截距
D.回归系数
B暂无答案解析
1/20
线性回归模型E(y)=a+bx中的y是
A.因变量
B.自变量
C.截距
D.回归系数
A暂无答案解析
2/20
线性回归中,以下估计方法是有偏的
A.加权最小二乘法
B.主成分估计法
C.岭回归估计法
D.最小角度估计法
C暂无答案解析
3/20
在多元线性回归模型中,通过最小化真实值和预测值之间的SSE来求解参数的方法叫做( )
A.梯度下降法
B.最小二乘法
C.拟牛顿法
D.坐标下降法
B
线性回归模型中,通过最小化真实值和预测值之间偏差平方和的参数估计方法是最小二乘法。
4/20
衡量线性回归模型整体效果的指标是()
A.
R
2
R^2
R2拟合优度
B.C值
C.P值
D.VIF值
A
R²衡量的是回归方程整体的拟合度,是表达因变量与所有自变量之间的总体关系
5/20
一元线性回归方程y=a+bx中,b表示()
A.自变量x每增加一个单位,因变量y增加的数量
B.自变量x每增加一个单位,因变量y平均增加或减少的数量
C.自变量x每减少一个单位,因变量y减少的数量
D.自变量x每减少一个单位,因变量y增加的数量
B
这里的b可正可负,表示自变量x每增加一个单位,因变量y平均增加或减少的数量
6/20
以下关于主成分分析的描述正确的有( )
A.主成分分析的本质就是找到解释变量的公共因子和特殊因子
B.在主成分分析中,对应最大特征值的特征向量,其方向正是协方差矩阵变异最小的方向
C.我们一般只保留的前k个主成分,其对应主成分特征根之和大于1就可以了
D.我们一般使得保留的前k个主成分累计能够解释数据80%以上的变异
D
A是因子分析的工作,B应为特征向量的方向对应的是数据变异最大的方向,C应为特征根大于1,而不是之和大于1
7/20
主成分分析中得到的第一主成分和第二主成分之间的协方差cov是?
A.协方差为0
B.协方差大于0
C.协方差小于0
D.协方差不为0
A
各主成分之间是线性无关的。其数学含义为属于不同特征值的特征向量线性无关,相关证明可见《高等代数》7.4节
8/20
主成分分析中,若使用特征值分解法,其在代数上的表现是?
A.将原随机向量的协方差阵变换成对角形阵
B.将原随机向量的方差阵变换成正定矩阵
C.将原随机向量的矩阵变换成对角形阵
D.将原随机向量的协方差阵变换成非正定矩阵
A
此为主成分分析算法基础知识,详细可见《统计学习方法》16.1.3节
9/20
关于主成分的方差表述错误的是?
A.任意两个主成分的方差是不相关的
B.主成分的总方差等于原变量的总方差
C.主成分的方差是等于第k个主成分与第j个变量样本间的相关系数
D.第k个主成分的方差为对应的特征根
C
描述的是因子载荷,不是方差
10/20
以下关于主成分分析说法错误的是
A.PCA可以用来降维处理
B.PCA可以通过SVD来实现
C.PCA可以通过特征值分解来实现
D.PCA实现线性组合最小化样本方差
D错在PCA根本不能使抽样样本方差最小。正确叙述应为寻找最大化方差的线性变换
11/20
关于主成分分析和因子分析的区别描述错误的是?
A.主成分分析中的主成分是综合指标且互相无关
B.因子分析得到的因子是相关的
C.因子分析得到的因子具有较强的可解释性
D.主成分分析是组合的过程,因子分析是分解的过程
B错在因子初始也是通过特征值分解等方法得到的,因此各因子间是无关的
12/20
下列哪项不可以用来检验待分析的原有若干变量是否适合做因子分析?
A.相关系数矩阵
B.T检验
C.KMO检验
D.反映像相关矩阵
B
选项ACD都可以用来确定待分析的原有若干变量是否适合于因子分析
13/20
以下属于因子分析计算过程的步骤有( )
A.估计因子载荷矩阵
B.进行因子旋转
C.估计公共因子
D.以上都是
D
此为因子分析算法基础知识。详细可见《应用多元统计分析》8.2和8.4节
14/20
关于ROC曲线下列说法错误的是( )。
A.ROC曲线是基于召回率和精确率来进行判断的
B.ROC曲线下方的面积为AUC值
C.ROC曲线可以用于多分类问题的评价
D.AUC值接近0.5时,我们认为这个模型是无效的
A选项说的是PR曲线,故错误
15/20
因子分析中提取的因子数一般要求( )
A.小于变量个数
B.等于变量个数
C.大于变量个数
D.不等于变量个数
A
大于变量个数是不可能的,因子分析计算上其实是矩阵对角化,对角阵与原协方差阵是相似的,因此阶数一定是相等的,故C错。若因子个数等于变量个数,很容易会出现载荷很低的无效因子,故B错。D不严谨,故错
16/20
以下哪种方法不可以解决回归模型的多重共线性问题?
A.KNN
B.逐步回归
C.正则
D.偏最小二乘
A
KNN是分类算法,与多重共线性无关,故选A
17/20
关于岭回归和Lasso回归描述错误的是:
A.岭回归的扰动项越大,模型越不容易受到共线性的影响
B.岭回归的扰动项挤占了w中由原始的特征矩阵贡献的空间
C.相比Lasso,岭回归中自变量系数会很快衰减,但很难归为零
D.Lasso可以解决特征之间”共线性“的问题
D选项不严谨,Lasso只是缓解了由于共线性导致的估计误差的问题,而不是解决共线性,故错误
18/20
如果回归模型中存在多重共线性,以下说法不能解决这一问题的是?
A.剔除所有的共线性变量
B.剔除共线性变量中的一个
C.通过计算方差膨胀因子来检查共线性程度,并采取相应措施
D.删除相关变量可能会有信息损失,我们可以不删除相关变量,而使用一些正则化方法来解决多重共线性问题
A选项的方法很可能会导致遗漏重要变量,使得模型估计有偏,故错误
19/20
多元线性回归问题中,对于模型整体检验的原假设是
A.回归系数全为0
B.回归系数不全为0
C.回归系数全为1
D.回归系数不全为1
A
回归系数全为0是初始的原假设,只不过在具体的假设问题的构造中会使用reduced model, 因此A选项是正确的
20/20
多元线性回归分析中,误差平方和反映了?
A.因变量观测值总变差的大小
B.因变量回归估计值总变差的大小
C.因变量观测值与估计值之间的总变差
D.关于YX的边际变化
C
A为总离差平方和,B为回归(解释)平方和,C为误差平方和,D为回归系数的解释。故C正确
单选4
1/20
逻辑回归与多元回归分析有哪些不同?
A.逻辑回归预测某事件发生的概率
B.逻辑回归有较高的拟合效果
C.逻辑回归回归系数的评估
D.以上全选
D
逻辑回归是借助sigmoid函数将输入数据转化为0-1之间的概率值,可以用于二分类或多分类问题,故AB对。多元回归分析用于解决回归问题,返回输出结果为连续型变量。
2/20
以下关于逻辑回归的说法正确的是( )
A.逻辑回归的自变量必须是分类变量
B.逻辑回归的因变量必须是分类变量
C.逻辑回归属于线性回归类算法的一种,因此可以使用最小二乘法给出回归系数的估计量
D.逻辑回归是无监督学习算法
B
逻辑回归的因变量必须是分类变量,自变量没有这方面要求。逻辑回归不属于线性回归类算法的一种,且不属于无监督学习算法。
3/20
为了判断用户是否会逾期(0-不逾期 1-逾期),业务分析师构造了一个逻辑回归模型,输出结果为Y=-3+0.06X1+0.05X2-0.2*X3
X1为用户上月的消费次数,X2为年龄,X3为性别(1代表男 2代表女)。目前已知用户上月消费次数为10,年龄20,女性,则用户逾期的概率为
A.0.14
B.0.16
C.0.18
D.0.22
A
依逻辑回归公式计算:ln(p/(1-p))=-3+0.0610+0.0520-0.2*2,解出P即可
4/20
下列关于多元回归方程中的变量说法不正确的是?
A.典型的非线性变换包括自然对数,平方根,倒数和平方
B.互动变量表示两个变量之间存在交互作用,在方程中常体现为两者之和
C.创建虚拟/哑变量(dummy variables)可以将定性的变量量化
D.如果一个定性变量中有m种互斥的属性类型,在模型中需要引入m-1个虚拟/哑变量
B
互动变量在方程中体现为两者之积。详见《计量经济学导论》7.4节
5/20
多元回归模型的"线性"是指对什么而言是线性的
A.解释变量
B.被解释变量
C.回归参数
D.剩余项
C
此为线性回归的定义。具体原因可参见代数学中关于线性空间的部分。
6/20
判定系数是指?
A.残差平方和占总离差平方和的比重
B.总离差平方和占回归平方和的比重
C.回归平方和占总离差平方和的比重
D.回归平方和占残差平方和的比重
C
此为R^2的定义
7/20
残差平方和是指?
A.被解释变量观测值与估计值之间的占比
B.被解释变量回归估计值总变差的大小
C.被解释变量观测值总变差的大小
D.被解释变量观测值总变差中未被列入模型的解释变量
D
此为残差平方和的定义
8/20
多元线性回归模型的古典假设不包括?
A.恒定均值假定
B.同方差和无自相关假定
C.随机扰动项与解释变量不相关假定
D.无多重共线性假定
A应为残差的均值恒定为零
练习题 【单选题】9/20
在多元线性回归模型中,若某个解释变量对其余解释变量的判定系数接近1,则表明模型中存在?
A.异方差性
B.序列相关
C.多重共线性
D.高拟合优度
C
判定系数接近1,说明此解释变量的变差几乎都可以被其余解释变量所解释,说明这些变量线性相关性很高,即为多重共线性
10/20
以下各种背景下对产生自相关的原因描述错误的是?
A.经济系统的惯性产生序列的自相关
B.漏掉重要解释变量会产生序列的自相关
C.经济变量的滞后性会给序列带来自相关性
D.以上都不是
D
A项,经济系统的经济行为都具有时间上的惯性。例如:在经济高涨时期,较高的经济增长率会持续一段时间,这种情况下经济数据很可能表现为自相关。B项在实际建模时,若忽略一个或多个重要解释变量,而这些漏掉的重要解释变量在时间顺序上具有一定的正相关关系,则回归模型中的随机误差项就包含了这些漏掉的重要变量,从而导致模型的随机误差项呈现明显的正相关现象。C项例如居民当期可支配收入的增加,不会使居民的消费水平在当期达到应有的水平。因为人的消费观点的改变存在一定的适应期,导致要经过若干期才能达到。这种时间上的滞后带来变量的自相关。
11/20
不属于消除模型异方差的方法是?
A.加权最小二乘法
B.等级相关系数法
C.方差稳定性变化法
D.Box-Cox变换法
B选项的等级相关系数法是用来检验是否存在异方差的,而不是用来消除异方差的,故错误
12/20
逻辑回归是输出结果落在[0,1]区间内,下列哪个函数用于转换概率,使其落入[0,1]?
A.Sigmoid
B.Mode
C.Square
D.Probit
A
sigmoid函数公式为y=1/(1+),可以发现此映射为(-∞,+∞)→[0,1],符合要求。
13/20
线性回归和逻辑回归的主要区别是?
A.被解释变量类型不同
B.解释变量类型不同
C.两者都不同
D.以上都不是
A
线性回归被解释变量为连续型变量,逻辑回归为分类型变量
14/20
如果方差膨胀因子VIF=15,则认为什么问题是严重的?
A.异方差问题
B.序列相关问题
C.解释变量与随机项的相关性
D.多重共线性
D
VIF是用来度量多重共线性的,大于10说明共线性非常高
15/20
含有p个变量的多元回归模型,样本量为n,则该模型的回归平方和、残差平方和的自由度分别为?
A.p,n-p
B.n-p,p
C.p,n-p-1
D.n-p-1,p
C
可由自由度的定义得到,详见《计量经济学导论》4.5节
16/20
小A针对产品特征进行了一次聚类分析,结果并不理想,以下哪些方法不利于获得更有效的聚类结果
A.标准化
B.主成分分析
C.因子分析
D.以上都不是
D
A,B,C的方法都可以一定程度上过滤掉噪声(异常值)的影响,因此都有利于聚类结果
17/20
关于聚类和分类的描述错误的是:
A.聚类的典型算法包括:K-Means,DBSCAN,层次聚类,光谱聚类
B.分类的典型算法包括:决策树,贝叶斯,逻辑回归
C.聚类结果一定总是能够反映数据的真实分类
D.分类结果是确定的
C
聚类无监督学习,不一定反映真实分类
18/20
KMeans算法的算法原理描述错误的是:
A.KMeans计算均值的方法获得簇的中心点
B.KMeans中会把每个点划分到离该点最近的中心点中.
C.KMeans是一个迭代的算法
D.KMeans会取每个点距离最近的几个点进行簇的划分
D应为取每个点距离最近的中心点进行簇的划分
19/20
关于KMeans聚类算法,下面哪种说法是错误的是?
A.KMeans 算法中的 k是一个超参数,需要我们人为输入来确定
B.簇中所有数据的均值通常被称为这个簇的“质心”(centroids)
C.直到簇不再发生变化或者达到最大迭代次数,KMeans算法才停止寻找新的质心
D.质心越多越好
D
质心不是越多越好,最优的K值在实践中可通过二分查找等方法确定
20/20
某公司为更好进行用户留存,需建立用户行为画像,可用以下哪种算法实现?
A.聚类算法
B.多元线性回归算法
C.决策树算法
D.朴素贝叶斯算法
A
B,C,D都是有监督学习,不适合做画像
单选5
1/20
以下哪个模型是对线性趋势预测的模型
A.简单指数平滑
B.Holt指数平滑
C.指数模型
D.多项式模型
B
A用于随机序列的预测。C也称指数曲线,用于非线性趋势。D项多项式函数用于非线性趋势的预测
2/20
如果时间序列同时含趋势、季节变动和随机波动成分时,除了可以使用Witer指数平滑模型预测外,还可以使用什么方法/模型进行预测?
A.Holt指数平滑
B.简单指数平滑
C.分解法
D.以上都不是
C
分解法是把趋势、季节成分分解出来,单独进行分析再乘在一起。正合题意
3/20
关于自回归模型AR模型说法错误的是?
A.自回归模型是用自身的数据进行预测
B.时间序列数据必须具有平稳性
C.自回归只适用于预测与自身前期相关的现象
D.自回归模型关注的是自回归模型中的误差项的累加
D自回归中误差项不累加,累加的是往期的影响
4/20
时间序列中的平稳性检验中出现期望与方差为常数的平稳情况属于哪种平稳性?
A.严平稳
B.宽平稳
C.非平稳
D.不平稳
B
严平稳表示的分布不随时间的改变而改变,期望与方差为常数。例如白噪声无论怎么取值,都是期望为0,方差为。
5/20
偏自相关系数在最初的d阶明显大于2倍标准差范围以内,d阶后突然衰减在零附近,属于什么?
A.d阶截尾
B.d+1阶截尾
C.d阶拖尾
D.d+1阶拖尾
A
此为截尾的定义
6/20
根因分析的异常事件严重度评估准则(SAC)是依据什么评估得到的?
A.事件后果以及发生频率
B.事件后果以及发生频数
C.事件时长以及发生频数
D.事件时长以及发生后果
A
SAC是依据损害严重程度与事件发生频率为两轴所呈现的风险矩阵
7/20
根原因识别的常用工具不包括以下哪个?
A.因果图
B.矩阵图
C.五问法
D.调查
D
根因识别的工具包括:因果图、矩阵图、五问法等。调查不是根因识别工具。
8/20
在问题原因分析中,需要找到多个因素之间难以识别的关系,适合用什么工具?
A.散点图
B.调查表
C.关联图
D.柱状图
C
解析:散点图用于找到两个变量间的关系,不是多个因素,多个指三个以上(包括三个);调查表用于从采访者那里收集数据,在问题原因数据收集会涉及到;关联图是以一种清晰的图示,揭示找出多个因素间的关系,主要目的是识别那些不易被发现的关系;柱状图主要用于图形描绘数据;
9/20
当头脑风暴一个问题和其可能的原因时,容易造成过多想法的风险,此时可以帮助区分不同想法,澄清这个问题是或不是针对什么,这时候适用的工具是?
A.是非一矩阵
B.名义群组技术
C.配对比较法
D.以上都不是
A
题干是问题原因头脑风暴中是非一矩阵工具的应用。名义群组技术和配对比较是用来区分想法的优先顺序。
10/20
下列哪个选项属于根因分析中鱼骨图创建图形的方式?
A.分散分析法
B.因果分析法
C.五问法
D.因子分析法
A
鱼骨图包括两种明显不同的创建图形的方式:分散分析法、原因枚举法。
11/20
根因分析的因果图(鱼骨图)绘制过程中,要解决的问题或缺陷(后果)标记在‘鱼’的哪个部位?
A.鱼尾
B.鱼头
C.鱼刺
D.以上均可
B
鱼头是标记要解决的问题或缺陷(后果),鱼刺列出的是产生问题的可能原因,有助于说明各个原因是如何影响后果的。
12/20
在根因分析的因果图中,若各要素与特性值间不存在原因关系,而是结构构成关系属于哪种类型因果图?
A.原因型
B.对策型
C.整理问题型
D.结果导向型
C
整理问题型鱼骨图适用于:各要素与特性值间不存在原因关系,而是结构构成关系
13/20
根因分析中为弄清一个层面的原因对另一个层面的原因影响后,探求原因链应该采用的量化分析工具是?
A.散点图
B.柱状图
C.帕累托图
D.关联图
A
在根因分析中散点图的应用表现:第一是在弄清一个层面的原因对另一个层面的原因的影响后,探求原因链。第二是剔除那些与根原因不相关的原因。
14/20
关于根原因识别工具关联图的说法错误的是?
A.包括质量关联图和数量关联图
B.质量关联图可能会带来不可靠的结果
C.数量关联图的结构性更强
D.质量关联图优于数量关联图
D
关联图有质量关联图和数量关联图两类,基本原则都是识别不同因素间的关系,区别于方法的不同。在质量关联图中,要分析的因素被画在一个空白图表上,凭借直观理解把因素联系起来就可以找到关系,因此质量关系图可能会带来不可靠的结果。而在数量关联图中,在确定不同因素之间关系的时候往往需要使用简单的数字方法,所以数量关联图的结构性更强,分析过程更完善。数量关联图优于质量关联图。
15/20
头脑风暴中以下哪个不是配对比较的应用?
A.对不同的备选问题或者原因进行优先排序的问题
B.二选一的决策问题
C.理解似是而非的问题原因
D.当有多个选项时,使决策直观容易的应用
C
是一非矩阵工具是用来理解似是而非的问题原因;与根因分析的配对比较无关。
16/20
关于线性规划的标准型描述正确的是?
A.目标函数为极小化类型
B.所有的约束条件都是不等式
C.等式约束方程右端的常数都是非零的
D.所有决策变量都是非负的
D
线性规划模型的标准形式的特征:(1)目标函数为极大化类型;(2)所有的约束条件都是等式;(3)所数学规划有约束方程右端的常数都是非负的;(4)所有决策变量都是非负的
17/20
关于整数规划与线性规划说法错误的是?
A.整数规划的最优值是小于等于线性规划最优值的
B.如果线性规划是没有可行解的,那么整数规划是没有可行解的
C.整数规划是对线性规划的特殊的情况
D.纯整数规划要求所有决策变量取非负整数
A
整数规划的最优值是小于等于线性规划最优值的的说法不一定,需要看决策目标要求。
18/20
常用的求解整数规划的方法不包括以下哪种?
A.分支定界法
B.分配法
C.割平面法
D.隐枚举法
B
整数规划的方法不包括分配法
19/20
下列方法中不属于常用的二次规划问题求解方法是?
A.拉格朗日法
B.内点法
C.椭球法
D.分支定界法
D
分支定界法是整数规划的求解方法
20/20
某公司拟用集装箱托运A,B两种货物,每箱的体积、重量、可获得利润以及托运所受限制如下表所示。问两种货物各运多少箱可获得最大利润?
在建立线性规划模型时,下列说法中错误的是?
A.第一步是确定决策变量:设x1、x2分别为两种货物的托运箱数
B.这里的目标函数是求解2000x1+1000x2的最大值
C.关于x1和x2的约束条件是:x1,x2≥0,且x1,X2∈R
D.关于x1和x2的约束条件是:x1,x2≥0,且x1,X2∈R
D
决策变量是两种货物托运箱数,取值为自然数,不能为实数集。
内容相关
1/15
根据以下混淆矩阵和ROC曲线,回答以下两题:
图中E、F、G分别表示对应部分的面积
ROC曲线的x轴,实际上可以由每个阈值下混淆矩阵的()计算而来
A.C/(B+C)
B.D/(A+D)
C.B/(B+C)
D.C/(C+D)
ROC曲线全称为受试者工作特征曲线 (Receiver Operating Characteristic Curve),这一名称来自于医学领域。ROC曲线源于军事领域,而后在医学领域应用甚广。ROC 曲线以真阳性率(敏感性)为纵坐标,假阳性率(1-特异性)为横坐标,两者都可以通过混淆矩阵计算得到。 下图是标准的混淆矩阵:
其中符号解释如下:
符号 解释
Actual 真实情况
Predicted 预测情况
P Positive,正样本
N Negative,负样本
TP True Positive,预测正确,真的正样本
TN True Nagative,预测正确,真的负样本
FP False Positive,预测错误,假的正样本
FN False Nagative,预测错误,假的负样本
题干中的混淆矩阵和上面标准混淆矩阵是一一对应的。假阳性率为健康人中被误诊为阳性的概率,即有
T
P
T
P
+
F
N
\frac{TP}{TP+FN}
TP+FNTP,对应题干中的
C
C
+
D
\frac{C}{C+D}
C+DC,故选D。
2/15
根据以下混淆矩阵和ROC曲线,回答以下两题:
图中E、F、G分别表示对应部分的面积
ROC曲线的y轴,实际上可以由每个阈值下混淆矩阵的()计算而来
A.B/(B+C)
B.C/(B+C)
C.A/(A+B)
D.A/(A+D)
根据上题的解析,知y轴是真阳性率,即患病的人中被正确诊断为阳性的概率,有
T
P
T
P
+
F
N
\frac{TP}{TP+FN}
TP+FNTP,对应题干中的
A
A
+
B
\frac{A}{A+B}
A+BA,故选C。
3/15
根据以下混淆矩阵和ROC曲线,回答以下两题:
图中E、F、G分别表示对应部分的面积
AUC指标是怎么计算而来的
A.E+F
B.E+G
C.F/E+F
D.F+G
D
AUC(Area Under Curve)被定义为ROC曲线下的面积。我们往往使用AUC值作为模型的评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好。根据定义,本题选D
4/15
根据以下混淆矩阵和ROC曲线,回答以下两题:
图中E、F、G分别表示对应部分的面积
精确度是怎么计算而来的
A.A/(A+C)
B.B/(B+D)
C.A/(A+B)
D.C/(C+D)
A
精确率(也叫查准率)(Percision): 预测的正样本中有多少预测正确(即是真正的正样本)。根据定义,本题选A。
5
召回率是怎么计算而来的
A.A/(A+C)
B.B/(B+D)
C.A/(A+B)
D.C/(C+D)
C
召回率(也叫查全率)(Recall): 真正的正样本中有多少预测正确(即被预测为正样本)。根据定义,本题选C
6/15
请补充图中方差分析表的计算信息
(1)的计算结果
A.6.44
B.3.4
C.9.84
D.3.04
C
:一元回归的总平方和 SST(sum of squares total)可以分解为回归平方和SSR(sum of squares regression)和残差平方和SSE(sum of squares error),即有
S
S
T
=
S
S
E
+
S
S
R
SST=SSE+SSR
SST=SSE+SSR。其中SST 的自由度为
N
−
1
N-1
N−1,SSE 的自由度为n-模型参数个数,即
N
−
2
N-2
N−2,SSR的自由度为1。
检验通过比较回归均方(MSR)与残差均方(MSE)来构造检验统计量,其中
回归均方(MSR):
M
S
R
=
S
S
R
1
MSR=\frac{SSR}{1}
MSR=1SSR
残差均方(MSE): M S E = S S E n − 2 MSE=\frac{SSE}{n-2} MSE=n−2SSE
题干中方差分析表的第一列SS就是 S S T = S S E + S S R SST=SSE+SSR SST=SSE+SSR,第二列为他们对应的自由度;第三列为回归均方和误差均方;第四列为F检验的F值。
(2)的计算结果
A.1
B.2
C.3
D.4
A
见上题解析
(3)的计算结果
A.17
B.18
C.19
D.20
C
(4)的计算结果
A.6.44
B.3.22
C.6.55
D.9.66
A
(5)的计算结果
A.16.95
B.33.89
C.18.1
D.20.5
B
11/15
一份有关车贷审核的数据中,关于是否放贷的问题。收集到客户的年龄、学历、年收入、年支出、五年内是否有违约记录这些信息。试建立逻辑回归模型。
因变量的是?
A.是否放贷
B.是否有违约记录
C.年收入
D.年支出
A
因变量就是我们要分析的目标变量。根据题干,这里应该是A。
12/15
一份有关车贷审核的数据中,关于是否放贷的问题。收集到客户的年龄、学历、年收入、年支出、五年内是否有违约记录这些信息。试建立逻辑回归模型。
以下关于逻辑回归的说法正确的是( )
A.逻辑回归的估计方法是最大似然估计
B.逻辑回归要求自变量和目标变量是线性关系
C.逻辑回归比神经网络,更容易过度拟合
D.逻辑回归只能做2值分类,不能直接做多值分类
A
B选项错误的原因是逻辑回归自变量和目标变量是非线性关系,经过了logit变换。逻辑回归可以看做是具有0个隐藏层的神经网络,一般意义上的神经网络比逻辑回归模型要复杂,因此从这个角度讲,神经网络比逻辑回归更容易过拟合,所以C的说法有误。逻辑回归不仅能做二值分类,也能做多值分类,故D选项错误。
13/15
一份有关车贷审核的数据中,关于是否放贷的问题。收集到客户的年龄、学历、年收入、年支出、五年内是否有违约记录这些信息。试建立逻辑回归模型。
逻辑回归参数求解中不可以采用的方法有()
A.小批量梯度下降
B.随机梯度下降
C.批量梯度下降
D.最小二乘法求解析解
D
经典的优化算法可以分为直接法和迭代法两大类: - 直接法求出的是解析解,也叫闭式解,是一种精确解; - 迭代法求出的是数值解,是一种近似解。 逻辑回归的因变量和自变量之间是非线性的关系,不能想线性回归那样,用最小二乘法求其解析解。
14/15
一份有关车贷审核的数据中,关于是否放贷的问题。收集到客户的年龄、学历、年收入、年支出、五年内是否有违约记录这些信息。试建立逻辑回归模型。
逻辑回归可以理解为由多元线性回归转化而来,其中采用的数据变换函数是()
A.relu函数
B.sigmoid函数
C.Tanh函数
D.阶跃函数
B
逻辑回归通过 sigmoid函数
p
=
1
1
+
e
−
z
p=\frac{1}{1+e^{-z}}
p=1+e−z1将取值为
z
∈
(
−
∞
,
+
∞
)
z\in(-\infty,+\infty)
z∈(−∞,+∞) 的值域转化为
p
∈
(
0
,
1
)
p\in(0,1)
p∈(0,1) 区间,这正好与概率的取值范围一致,模型的表达式为:
KaTeX parse error: Undefined control sequence: \cdos at position 55: …x_2+\beta_3x_3+\̲c̲d̲o̲s̲+\beta_nx_n+\be…
选项ABCD都是神经网络的激活函数。
15/15
一份有关车贷审核的数据中,关于是否放贷的问题。收集到客户的年龄、学历、年收入、年支出、五年内是否有违约记录这些信息。试建立逻辑回归模型。
以上影响因素中,必须做哑变量处理的是?
A.年龄
B.学历
C.五年内是否有违约记录
D.年支出
B
在建模中分类变量一般需要做哑变量处理,故答案为B。
多选题】1/20
一项针对某城市客户购物平台满意度的调查,调研经费大概是2万元,该城市客户相对比较少,大概有300个vip用户和其他2000个普通用户。以下哪种情况是比较适宜的调查方式?( )
A.线下访谈15个vip+简单抽样120个普通客户
B.线下访谈260个vip+简单抽样800个普通客户
C.线下访谈5个vip+简单抽样1600个普通客户
D.线下访谈10个vip+简单抽样200个普通客户
AD
暂无答案解析
2/20
"晚饭后,您通常喜欢饮用什么饮料?"这句问卷题目,可能的问题有哪些?
A.晚饭后:指的是多久,是一会功夫,还是睡觉前。
B.您:指代我自己还是可以一起指代家庭成员。
C.饮料:是什么牌子吗?水算不算呢?
D.将用词您改成你
ABC
优质的调查问卷应言简意赅,表意要明确,ABC选项表意不明,易引起读者误解
3/20
ETL过程不包含下列哪些步骤( )
A.抽取数据
B.训练模型
C.模型部署
D.转换数据
BC
ETL是用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。模型训练、模型部署属于数据挖掘中机器学习的两个阶段。机器学习的特征提取阶段会使用一些ETL的技术。
4/20
以下哪类属于分层标签?
A.RFM
B.人生阶段
C.教育程度
D.客户价值
AD
暂无答案解析
5/20
离散系数的主要作用是
A.说明数据的集中趋势
B.比较不同计量单位数据的离散程度
C.说明数据的偏态程度
D.比较不同变量值水平数据的离散程度
BD
通过峰度和偏度的计算,衡量偏态的程度。度量数据的集中趋势常用的有平均数、中位数和众数等。
6/20
在假设检验中,当拒绝原假设而接受备择假设时,表示?
A.有充足的理由否定原假设
B.在H0为真的假设下发生了小概率事件
C.原假设一定是错误的
D.备择假设一定是正确的
AB
在假设检验中,当做出拒绝原假设而接受备择假设的结论时,则样本统计值必然落入拒绝域中,即有充足的理由否定原假设;但是这个拒绝可能是错误的,即犯了弃真错误,犯错误的概率不超过α;换言之,就是在H0为真的假设下发生了小概率事件。
7/20
在方差分析中,数据的误差是用平方和来表示的,下列描述正确的是
A.反映一个观测值误差大小的平方和称为组内平方和
B.反映一个观测值误差大小的平方和称为组间平方和
C.反映各个值之间误差大小的平方和称为组间平方和
D.反映各个值之间误差大小的平方和称为组内平方和
AC项是对方差分析中组内平方和与组间平方和的定义。
8/20
在线性回归模型y=bx+a+ε中,ε的基本假设是
A.是一个很小的常数
B.是个满足正态分布的随机变量
C.期望为0
D.不是随机变量
BC
线性回归模型的随机误差项是相互独立且服从正态分布N(0,σ2),是随机变量。
9/20
如果因变量和自变量之间的关系是非线性的,在进行线性回归前,可以使用( )变换。
A.因变量取对数
B.自变量乘2
C.自变量取平方
D.因变量乘2
AC
B和D选项不会改变自变量和因变量的非线性,只是放大数值。
10/20
下列关于主成分分析算法的说法正确的是?
A.需要研究数据的协方差矩阵
B.主成分分析选取能够最大化解释数据变异的成分
C.它是借助一个正交变换,将分量相关的原随机向量转化为其分量不相关的新随机向量
D.可以用于数据分类
ABC
主成分分析主要用来降维,不适用于分类
11/20
某产品的10个品类(JSH10001-10010)的销售时间趋势如下图所示,同时,考察产品单价和销售额相关性,通过建立回归模型,结果如下图所示
以下说法正确的是:
A.所有产品趋势基本一致:2月高峰,6月回暖,产品存在明显周期性
B.不同产品间销售额差异较大,用户偏爱产品4,产品9、10的销量较低
C.回归R^2接近1,表名产品单价与产品销售额之间呈较强的正相关
D.用户整体偏爱高价格产品,可进一步优化产品结构,产品偏高端产品4和产品2表现更佳
ABCD
A,B选项可由第一张线图明显看出。C,D选项可由第二张散点图得到,显然能看出正相关性,即单价越高销售额越高,说明用户偏爱高价格产品
12/20
在线性回归分析中,下列描述合理的是?
A.因变量是随机的
B.自变量可以是预先固定的,也可以是随机的
C.根据回归系数可以判定相关的方向
D.自变量和因变量是对等关系
ACD
因变量与自变量之间是线性关系。
13/20
线性回归分析的前提假设包括?
A.解释变量之间不相关
B.随机项满足正态分布
C.解释变量与随机项不相关
D.随机项序列不相关
ABCD
随机项即残差项。这4个选项都是线性回归的经典假设,全选
14/20
按照远近程度来聚类需要明确两个距离( )
A.点和点之间的距离
B.类和类之间的距离
C.欧式距离
D.兰氏距离
A,B是按距离来聚类的算法中需要计算的。每个类别内点和点距离越近越好,类和类之间距离越远越好。C,D是具体用来计算距离时的采用的公式,与题意不符
15/20
在进行聚类分析时,依据变量取值的不同,变量相似性的测量尺度有哪些?
A.间隔尺度
B.顺序尺度
C.名义尺度
D.相关尺度
A,B,C分别对应数值型变量,顺序型变量,分类型变量。并没有D选项的测量尺度
16/20
在趋势分解法中,时间序列的成分与观测值的关系可以用()模型表示?
A.加法模型
B.减法模型
C.乘法模型
D.除法模型
AC
时间序列的成分包括趋势、季节变动、循环变动和不规则波动。它们与观测值的关系可以用加法模型或乘法模型。
17/20
在利用残差图进行回归统计诊断时,是如何判断模型满足方差齐性的假设?(这里残差图的横坐标是因变量的拟合值,纵坐标是学生化内残差)
A.残差图中残差随着因变量拟合值的增大而减小
B.残差图中残差随着因变量拟合值的增大而增大
C.残差图中的所有点没有呈现任何有规律的趋势
D.残差之间具有一定相关性
AC
B选项的情况说明残差的均值不是常数(0),但是这与方差齐性无关,故不选。D选项无法从残差图直接看出,也与方差齐性无关。故选ABD
18/20
根原因分析中问题原因头脑风暴包括哪些技术和工具()
A.是-非矩阵
B.名义群组技术
C.配对比较
D.绩效矩阵
ABC
D项绩效矩阵用于将需要解决的问题或征兆排序,在根因分析的问题理解层面用到。
19/20
五问法发问的角度包括?
A.从“制造”的角度
B.从“检验”的角度
C.从“流程”的角度
D.从“体系”的角度
ABCD
五问法可以从“制造”角度,“检验”角度,“体系”或“流程”角度实施
20/20
信息一般认为由那两部分组成
A.数据
B.元数据
C.加工过程
D.描述对象
AB
暂无答案解析