填空(18分)18个
1.对数变换对大数值的范围进行压缩,对小数值的范围进行扩展
2.提取出大量高频率项与低频率项相关联的虚假模式,即交叉支持(cross-support)模式
3.信息论中()
4.几种尺度中定性分析的是定类尺度、定序尺度?定量分析的是定距尺度、定比尺度?
5.包含洞见的分析叫什么?然后包含先见的分析叫什么?包含后见的分析叫什么?
6.奇异值分解包含三个步骤,(旋转,拉伸,旋转),2个参数包含多少(4)?
判断(12分)6个
1.定距尺度里的 0 代表什么都没有(×)
2.()一定可以推出支持度很低的规则
3.激活函数是是对从神经网络的原始输入派生出的新属性的表示(√)
4.归纳法和演绎法是线性思维方式,素因法是非线性思维方式(√)
5.特征缩放不仅改变单特征分布的形状,只有数据尺度发生了变化(×)
6.因为特征选择和特征缩放都是降维操作,所以他们是一样的
选择(10分)5个
1.检查支持度计算
2.贝叶斯估计计算
3.淘宝虚假成交量体现数据的什么特点(大量 快速 多样 价值密度低)
4.体重属于定比尺度
5.
简述(30分)5个
1.数据科学与大数据,数据库,深度学习的关系
2.数据科学分析中标准差和标准误差
3.简述dikw金字塔模型
4.简述数据脱敏的三个要求
5.举例子解释普信森定理
计算(30分)3个
1.求似然比与患癌概率
2.给出恰当的因果关系图,并解释为什么给定A,M和B、E相互独立,即P(M|J,A,B,E)=P(M|A)
3.平滑分布用 20 个点近似,p=30%,画出分位数点图