【数据分析师求职面试指南】必备基础知识整理

news2024/9/25 11:15:44

数据分析师基础知识

  • 统计 数据分析知识
    • 基础概念
    • 随机变量常用特征
    • 正态分布与大数定律、中心极限定律
    • 假设检验
  • 模型、数据挖掘知识
    • 常用概念
    • 数据集划分
    • 欠拟合过拟合
    • 模型分类方法
  • 常见模型介绍
      • 线性回归模型:
      • 逻辑回归模型
      • 决策树模型
      • 随机森林模型
      • Boosting模型
      • XGBoost模型
  • 模型效果评估方法

内容整理自《拿下offer 数据分析师求职面试指南》—徐粼著 第三章基础知识考查
其他内容:
【数据分析师求职面试指南】必备基础知识整理
【数据分析师求职面试指南】必备编程技能整理之Hive SQL必备用法
【数据分析师求职面试指南】实战技能部分

统计 数据分析知识

在这里插入图片描述

基础概念

随机试验:相同条件下对某随机现象进行大量重复观测
样本理解为每次随机试验的结果, x x x
随机变量 X X X 离散型、连续型,区别在于描述的随机试验的所有可能结果是否可数。【不是有限】
常见的离散型随机变量的分布:伯努利分布(01分布);二项分布(n重伯努利分布);泊松分布:描述单位时间或空间内随机事件发生的次数。
常见连续型随机变量:需要定义分布函数 F ( x ) F(x) F(x) 均匀分布;正态分布;只是分布:描述泊松过程中时间之见的时间的概率分布。

随机变量常用特征

数字特征:期望(随机变量X的平均水平),方差,标准差,分位数(中位数是特殊分位数)、协方差&相关系数(X,Y独立,协方差相关系数钧0)
协方差只表示相关的方向,方差时协方差的特殊情况,两个变量是相同的情况;
相关系数不仅表示线性相关的方向,还衡量相关程度
变量独立VS变量不相关:不相关:两者没有线性关系,不排除其他关系;独立指互不相关,没有关联。

正态分布与大数定律、中心极限定律

正态分布:非偏态分布,图形以期望为中心左右堆成,期望=中位数。

大数定律核心在于随机变量X对应的堆积实验重复多次,随着试验次数增加,X均值愈发趋近于E(X)
辛钦大数定律:是要求随机变量独立同分布,期望方差相同;伯努利大数定律:若辛钦中随机变量是特定的伯努利二次分布式(二项分布),期望方差相同;切比雪夫大数定律:要求随机变量相互独立或者不相关,有更强广泛性,期望方差存在。

中心极限定律的阐述:假设来自同一个随机试验的一组样本,随机变量X表示样本的二郡治,随着样本数量的增加,X的分布愈发趋近正态分布。
定理表明,随着实验次数增加,一组独立同分布的变量的均值可以近似看作正态分布,且方差随着次数增加而减少。

中心极限定理作用:
(1)在没有办法得到总体全部数据的情况下,我们可以用样本来估计总体。
(2)根据总体的平均值和标准差,判断某个样本是否属于总体。

假设检验

注:原假设H0,备择假设H1。备择假设是真正要证明的,具体选择是看实际需要不是随机选择。

基本思想:通过证明在原假设成立的前提下,检验统计量出现当前值或者更为极端的值【p-value】属于“小概率"事件,以此推翻原假设,接受备择假设。(小概率定义是将p-value与预先设定的显著性水平a机型对比,小于a,推翻原假设)

通俗解释:小概率反证法。 即为了检验一个假设是否成立,我们先假设它成立,在原假设成立的前提下,如果出现了不合理的事件,则说明样本与总体的差异是显著的,就拒绝原假设,如果没有出现不合理的事件,就不拒绝原假设。

两类错误:弃真原假设成立情况下错误地拒绝原假设;取伪没有成功地拒绝不成立的原假设。

如何平衡两类错误:先预定犯第一类错误的上线,即定义显著性水平a,再减少第二类错误β的发生概率,1-β对应规避第二类错误的概率–power,称检验效能,大小可通过增加样本量提高,通常要达到80%或更高。
置性度:1-a

模型、数据挖掘知识

常用概念

参数VS超参数:参数是通过模型对训练集的拟合获得。超参数在模型训练前需认为给出,如决策树深度、随机森林模型树的数量等
简述过拟合和欠拟合:模型误差是方差+偏差,偏差反映模型再训练集样本上的期望输出与真是结果的差距,即模型本身精确度,反应模型本身拟合能力。偏差过高反映欠拟合,表明模型过于简单,没有很好拟合训练变量之间的特咸亨。
方差反映模型在不同训练集下得到结果与真是结果之间误差的波动,即模型稳定性。模型复杂时,会大量学习训练集中噪声,导致模型泛化性能变差,就是过拟合产生的原因。

数据集划分

在数据挖掘中,通常将数据集分为三类:训练集、验证集合测试集,如上图所示。

训练集:结果已知,用于模型训练拟合的数据样本,在实际应用中这部分数据往往会占总体样本的70%~80%。
验证集:结果已知,不参与模型的训练拟合过程,用于验证通过训练集得到的模型效果,同时对模型中的超参数进行选择。
测试集:结果未知,最终利用模型输出结果的数据集。
这三部分构成了模型的整体数据集。模型上线后,输出模型在测试集上的结果,并与最终的实际结果进行对比。测试集后续可以转化为训练集或者验证集,实现模型的不断迭代和优化。

欠拟合过拟合

欠拟合(underfitting)是指相较于数据而言,模型参数过少或者模型结构过于简单,以至于无法捕捉到数据中的规律的现象。

欠拟合主要产生的原因:模型复杂度过低,无法很好的去拟合所有的训练数据,导致训练误差大。
增加模型复杂度,尝试使用核SVM、决策树、深度神经网络(DNN)
增加新特征,增加假设空间
如果有正则项,可以调小正则项参数

过拟合主要产生的原因:模型复杂度过高,训练数据少,训练误差小,但是测试误差大
增加训练数据可以有限的避免过拟合
正则化,L1、L2;如果有正则项,则考虑增大正则项参数
交叉验证
特征选择,减少特征数或使用较少的特征组合

模型训练所要做的就是平衡过拟合和欠拟合,通过在验证集中的验证工作,选择合适的超参数,最终降低误差。

模型分类方法

训练数据有特征有标签监督学习
标签连续–预测(prediction)。 线性回归、时间序列、神经网络
离散–分类(classification):标签可数情况下判断结果所属类别。逻辑回归、SVM、决策树、随机森林、Boosting
只有特征:无监督学习
通过数据内在联系和相似性将样本划分若干类–聚类(clustering)。K-Means 、DBSCAN
E-M
高位数据降维(dimension reduction) PCA

参数模型:y=f(x),训练前就确定了形式。如线性回归、逻辑回归、贝叶斯,
优点:可解释性、模型学习和训练速度相对快速,对数据量要求低,不需要特别大训练集。
缺点:要提前对目标函数做假设,而现实生活中问题很难真正应用某一目标函数,容易欠拟合。
非参数模型对目标函数不过多假设,当数据趋于无穷大可以逼近任意复杂模型。因此在数据量大、逻辑复杂的问题中效果好于参数模型
缺点:更复杂,计算量大,对问题可解释性更弱。如SVM、决策树、随机森林。

神经网络是半参数模型。

生成模型学习得到联合概率分布P(x,y),然后求条件概率分布。常见朴素贝叶斯模型、混合高斯模型、隐马尔可夫模型
判别模型学习得到条件概率分布P(x|y),常见决策树模型、SVM、逻辑回归
生成模型需要更大计算量,准确率、适用范围也弱于判别模型,所以实际工作中使用判别模型为主。

常见模型介绍

线性回归模型:

y = w ′ x + e y=w'x+e y=wx+e w为参数行列式,e为随机误差,且仿佛从期望为0的正态分布。

线性回归中对随机误差做出的假设:
随机误差是一个期望或平均值为0的随机变量;
对于解释变量的所有观测值,随机误差有相同方差;
随机误差彼此互不相关;
解释变量是确定型变量,不是随机变量,与随机误差彼此相互独立
;随机误差服从正态分布。

优点在于快速,能处理数据量不大的情况,有可解释性,可以有效指导业务部门进行决策。缺点是 需要提前对目标函数进行假设,数据量增加问题复杂时,模型往往无法很好的处理,此时需要其他模型。

提升效果:
一是引入高次项。 某些因变量与自变量本身并不存在线性关系,但是与其二次项或者更高次项存在线性关系,此时就需要引入高次项。需要注意的是,在引入某自变量的高次项之后,需要保留其相应的低次项。
二是引入交互项。 一个预测变量对模型结果的影响,在其他预测变量有不同值的时候是不同的,这称为变量之间的交互关系。引入交互项的方式通常是将两个预测变量相乘放入模型中作为交互项。将一个交互项放到模型中会极大地改善所有相关系数的可解释性。在引入交互项之后,需要保留组成交互项的自变量。

逻辑回归模型

与线性回归区别:逻辑回归主要用于解决二分类问题,而非预测类问题。

为避免过拟合,引入正则化方法L1–lasso,惩罚系数的绝对值,乘法后有的系数直接变成0,其他系数绝对值收缩;L2—ridge,惩罚系数的平方,惩罚后每个系数的绝对值收缩。
二者区别:L1可以筛选变量,变量较多时,能选择较为重要的变量。

有点:可解释性强,与线性回归模型相同,随着数据量增加,逻辑回归模型欠拟合,此时需要选择非参数模型训练。

决策树模型

非参数模型,无需对目标函数和变量做过多假设,使用更灵活,能处理更复杂场景下问题。

决策树模型如何确定每个节点选择的特征:
常用方法:ID3,C4.5,每一步特征的选取都是基于信息熵的,通过在节点上生成新的分支来降低信息熵。信息熵表示随机变量的不确定性。
比较:ID3 选择特征是会选择信息增益最大化的特征左节点。C4.5考虑信息增益最大化,会避免选择有过多分枝的特征作为节点。

还有CART方法使用Gini系数代替信息熵。前两种方法只能处理分类,CART可以处理分类和预测,能处理连续纸,实际中应用更广泛(sklearn中就是

调优方法:
- 控制树的深度和节点个数等等,避免过拟合;
- 运用交叉验证法,选择合适参数;
- 通过模型集成方法,基于决策树形成更复杂的模型。

ID3存在的问题在于会选择有比较多分支的特征作为节点,造成模型的过拟合。 相比于ID3,C4.5将单纯地考虑信息增益最大化变成了考虑信息增益比最大化。

优点:
- 决策树模型本身属于非参数模型,相比于线性回归模型和逻辑回归模型,它不需要对样本进行预先假设,因此能够处理更加复杂的样本。
- 它的计算速度较,结果容易解释,可以同时处理分类问题和预测问题,并且对缺失值不敏感。
- 决策树模型具有非常强的可解释性,通过绘制分支,可以清晰地看出整体的模型选择流程,快速发现影响最终结果的因素,能够指导业务快速进行相应的修改、调整。
缺点:
- ​ 决策树模型是一种“弱学习器”,即使通过调优方法进行了优化,也仍然容易产生过拟合的现象,造成最终结果误差较大
- 在处理特征关联性比较强的数据时表现得不是很好。

随机森林模型

模型集成将多个弱学习器(基模型)进行组合,提高模型的学习泛化能力。常用的Bagging,Boosting,随机森林和GBDT是各自的代表。

模型融合:模型集成中需要将各个基模型的结果进行组合,得到最终结果。
常用方法:平均法(预测问题),投票法(分类问题)选预测较多的类别。

随机森林基本原理:通过对样本或变量的n次随机采样,就可以得到n个样本集。对于每个样本集,可以独立训练决策树模型,对于n个决策树模型的结果,通过集合策略得到最终的输出。n个决策树模型之间是相对独立不是完全独立。
可以Boostrap Sample(有放回采样)方法实现对样本的随机采样,每次约**63.2%**的样本被选中。

相比于决策树模型,随机森林效果好,因为:各个决策树相同的偏差和方差,通过将多个决策树模型的道德结果进行平均或投票,随机森林模型的偏差与单个决策树模型偏差基本相同,但是由于相对独立性,可以大幅度减少随机森林模型的方差,最终误差(偏差+方差)变小

Boosting模型

将多个决策树集成后的一种模型,注意与随机森林区别
分别运用模型集成中的Boosting和Bagging方法,最大区别在于:
- 随机森林的各个决策树模型的生成是相互独立的,是基于通过样本重采样方法得到不同训练集而产生不同的决策树模型的;
- 而Boosting模型是基于此前已经生成的决策树模型的结果,所以决策树的生成并不是相互独立的,每一个新的决策树模型都依赖于前一个决策树模型。

常见的包括AdaBoost、GBDT。区别:
- AdaBoost会加大此前决策树模型中分类错误的数据的权重,使得下一个生成的决策树模型能尽量将这些训练集分类正确;
- GBDT是通过计算损失函数梯度下降方向,定位模型的不足而建立新的决策树模型的。实际中后者应用广泛。

GBDT、随机森林都基于决策树模型的集成学习方法,能处理离散和连续变量同时存在的场景,能处理较复杂问题。但面对更大训练集时,训练速度较慢,需要更加快速方法。

XGBoost模型

基于GBDT模型优化的原因:

  • GBDT以CART树做基学习器,XGBoost还支持==线性分类器==,基学习器可以是L1,L2政策画的逻辑回归模型或线性回归模型,提高模型的应用范围;
  • GBDT优化时只用到损失函数一阶导数信息,XGBoost则对损失函数进行了二阶泰勒展开,得到了一阶导数和二阶导数,加快优化速度
  • XGBoost模型在损失函数中加入正则项,用于控制模型的复杂度。从权衡方差和偏差的角度看,降低了方差,使学习的模型更简单,可防止过拟合,提高模型泛化能力。
  • 生成决策树过程中支持列抽样,不仅防止过拟合,还减少计算量
  • 能自动处理缺失值,将其单独作为一个分支

简述并行:
不是指模型上并行,指特征上并行。在训练之前,预先对数据进行排序,保存为块结构,后面迭代过程中重复使用此结构,减少了计算量。块也使并行化成为可能。此外,节点选择时,需要计算每个特征的增益,最终选择增益最大的特征作为节点,各个特征的增益计算就是基于 块结构实现并行操作的。

模型效果评估方法

  • MSE(Mean Squared Error 均方误差):参数估计值与参数真值之差平方夫人期望值。可以用于评估数据的变化程度,越小,精确度越高。
  • RMSE(均方根误差):MSE开算术平方根
  • MAE(Mean Absolute Error,平均绝对误差):绝对误差的平均值,在一些问题上更好地反映预测值误差的实际情况。

二分类问题评估方法:
TP(True Positive)实际正例预测为正例
FP(False Positive)实际反例预测为正例
FN
TN

准确率:精度,实际正判断正/判断为正:TP/(TP+FP)
召回率:查全率,实际正判断正/实际正:TP/(TP+FN)
这里用警察抓小偷的例子进行解释。由于问题中需要关注的是小偷部分,所以将小偷的样本划为正例,将 😄
- 准确率解释为在抓到的人中小偷的占比,
- 将召回率解释为在所有小偷中被抓到的占比。

PR曲线用于可视化这两个指标,通常固定一个指标,比如固定20%召回率,然后提高准确率。【图像准确率斜向上,召回率斜向下,呈X】

正确率:(TP+TN)/(TP+FN+FP+TN) 同时考虑了正负样本预测情况,而实际中大多对正样本比较感兴趣。

ROC曲线:
横纵坐标:FPR(False Positive Rate):TP/TP+FN-- 正正/正正+负负;TPR(True Positive Rate):FP/FP+TN–负正/负正+正负
一定经过(0,0)(1,1)要使下方面积最大化–AUC

多分类问题
一种评估方法:转换为二分类问题,最关心的分类视为正。
另一种:混淆矩阵,将此前2x2预测值与实际结果之间对应矩阵扩展呈nxn,对角线是正确结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/399849.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

前后端分离项目学习-vue+springboot 博客

前后端分离项目 文章总体分为2大部分,Java后端接口和vue前端页面 项目演示:www.markerhub.com:8084/blogs Java后端接口开发 1、前言 从零开始搭建一个项目骨架,最好选择合适,熟悉的技术,并且在未来易拓展&#xf…

精简:设计模式

1.设计模式概述 1.什么是设计模式 设计模式(Design Pattern)是前辈们对代码开发经验的总结,是解决特定问题的一系列套路。 它不是语法规定,而是一套用来提高代码可复用性、可维护性、可读性、稳健性以及安全性的解决方案。 1995年,GoF (Ga…

flutter工程创建过程中遇到一些问题。

安装环境版本:JDK7.-JDK 8 Andriod SDK 10 flutter 版本 3.0 1.当创建完后flutter工程后会遇到 run gradle task assemlble Debug 的问题,需要设置远程仓库,共需要修改三个地方build.gradle两处以及flutter 下面的D:\FVM\versions\3.0.0\pac…

Excel常用可视化图表

目录柱状图与条形图折线图饼图漏斗图雷达图瀑布图及甘特图旭日图组合图excel图表:柱状数据条、excel热力图、mini图可视化工具的表现形式:看板、可视化大屏、驾驶舱 柱状图与条形图 条形图是柱状图的转置 类别: 单一柱状图:反映…

Linux内核移植

内核移植半导体厂商会从linux内核官网下载某个版本,将其移植到自己的CPU上,测试成功后就会将其开放给该半导体的厂商的CPU开发者,开发者下载其提供的linux内核,然后将其移植到自己的 产品上。1、NXP官方开发板Linux内核编译测试编…

VR会议不断升级,为商务会谈打造云端洽谈服务!

VR会议不断升级,为商务会谈打造云端洽谈服务。在商务合作中,对客户需求的理解以及与客户讲解方案都需要建立在一个有效的沟通上,因此VR会议的用武之地就有了,以VR全景技术为核心,通过同屏互动和全景通信技术&#xff0…

wiki(维基)是什么?企业为什么需要搭建wiki?

维基百科是wiki的一个著名例子。维基百科上的内容可以由任何人创建和编辑,只要他们能够访问网络浏览器,并且可以使用简化的加价语言进行写作。对于 wiki,没有集中的作者或团队负责内容生成。从某种意义上说,维基是非常民主的。维基…

【SCL】移位和循环指令的应用(音乐喷泉改进)

移位指令:右移(SHR)左移(SHL)和循环左移/右移(ROR/ROL)指令的应用 文章目录 目录 一、移位和循环移位指令 1.左移右移 2.使用左移和脉冲实现音乐喷泉 3.循环移位指令 二、优化的其它方法 1.使用…

计算机SCI期刊的分值是什么意思? - 易智编译EaseEditing

影响因子(Impact Factor,IF)是美国ISI(科学信息研究所)的JCR(期刊引证报告)中的一项数据。 即某期刊前两年发表的论文在统计当年的被引用总次数除以该期刊在前两年内发表的论文总数。这是一个国际上通行的期刊评价指标。 例如,某期刊2005年影…

2023年主流的固定资产管理方式

2023年主流的固定资产管理方式可能有以下三种: 基于PaaS平台的固定资产管理系统,支持低代码平台,可以通过拖拉拽的方式进行表单搭建、流程搭建、自定义仪表盘等,满足不同行业和企业的个性化需求。基于RFID和二维码相结合的固定资…

卷麻了,00后Jmeter用的比我还熟练,简直没脸见人......

经常看到无论是刚入职场的新人,还是工作了一段时间的老人,都会对测试工具的使用感到困扰?前言性能测试是一个全栈工程师/架构师必会的技能之一,只有学会性能测试,才能根据得到的测试报告进行分析,找到系统性…

Allegro如何快速查看差分对是否等长的方法

在用Allegro进行PCB设计时,用快速查看差分对是否等长的方法,可以提高效率。那如何操作呢?具体操作方法如下:(1)选择菜单栏Route选择Timing Vision(时序视图) 然后在Options选项卡Tim…

陀螺和加计有关参数部分说明

部分参数计算一、零偏二、随机游走三、Allan方差分析使用要点一、零偏 如果只用一个指标来代表一款IMU的精度的话,那毫无疑问是陀螺零偏。这是因为:1) 惯导系统的精度主要取决于IMU中的陀螺器件精度,而不是加速度计精度;2) 陀螺的…

黑客入门教程【非常详细】从零基础入门到精通,看这一篇就够了!

首先要明白啊,我们现在说的黑客不是那种窃取别人信息、攻击别人系统的黑客,说的是调试和分析计算机安全系统的网络安全工程师。 黑客技术的核心就是渗透攻防技术,是为了证明网络防御按照预期计划正常运行而提供的一种机制。就是通过模拟恶意…

C#:Krypton控件使用方法详解(第十三讲) ——kryptonDomainUpDown

今天介绍的Krypton控件中的kryptonDomainUpDown。下面介绍控件的外观属性和Item属性:Cursor属性:表示鼠标移动过该控件的时候,鼠标显示的形状。属性值如下图所示:Text属性:表示控件的显示文本内容,属性值为…

Apache HTTP Server <2.4.56 mod_proxy_uwsgi 模块存在请求走私漏洞(CVE-2023-27522)

漏洞描述 Apache HTTP Server 是一个Web服务器软件。 该项目受影响版本存在请求走私漏洞。由于mod_proxy_uwsgi.c 中uwsgi_response方法对于源响应头缺少检查,当apache启用mod_proxy_uwsgi后,攻击者可利用过长的源响应头等迫使应转发到客户端的响应被截…

单例模式(设计模式详解)

单例模式 描述 单例模式是一种创建型模式,它的目的是确保一个类只有一个实例,并提供全局访问点。这个实例可以被多个客户端共享,从而避免创建多个实例所带来的资源浪费和不必要的复杂性。 实现 懒汉模式 public class LasySingleton {priv…

数以千计的网站使用的FTP凭证被劫持

云安全初创公司 Wiz 警告说,一场广泛的重定向活动已经导致数千个针对东亚受众的网站使用合法的 FTP 凭据遭到破坏。 在许多情况下,攻击者设法获得高度安全的自动生成的 FTP 凭据,并使用它们劫持受害网站,将访问者重定向到成人主题…

[学习笔记] 3. 算法进阶

算法进阶视频地址:https://www.bilibili.com/video/BV1uA411N7c5 1. 贪心算法 贪心算法(又称贪婪算法),是指在对问题求解时,总是做出在当前看来是最好的选择。也就是说,不从整体最优上加以考虑 —— 所做…

java零基础入门(1)

java零基础入门一、JRE和JDK1.1 JRE1.2 JDK1.3 IDK,JRE,JVM三者的包含关系二、CMD2.1 打开CMD2.2 常用CMD命令2.2.1 盘符名称 冒号2.2.2 dir2.2.3 cd 目录2.2.4 cd ..2.2.5 cls2.2.6 exit2.2.7 cd \2.2.8 cd \目录\目录\目录\目录2.3 利用快捷cmd打开 Q…