数据科学导论

news2024/11/28 4:49:46

《数据科学导论》

重点归纳

第1~4

  1. 数据科学研究的问题边角广泛,只要是和数据收集、清洗整理、分析和挖掘有关的问题都是数据科学要研究的问题;
  2. 数据科学的主要方法:有监督学习、无监督学习、半监督学习;
  3. 有监督学习中,既存在因变量,也存在自变量,研究的问题主要分为回归和分类两大问题,因此利用回归模型探究自变量如何影响因变量的过程属于有监督学习;
  4. 无监督学习经典的方法有聚类分析、主成分分析、因子分析、关联规则、社交网络等,注意,主成分回归涉及回归问题,因此不属于无监督学习;
  5. 初始数据中,往往存在缺失值、重复值、异常值或者错误值,我们通常将这些数据称为“脏数据”;
  6. 常见的数据类型有:分类数据、有序数据、区间数据、比例数据;
  7. 从数据缺失的分布来讲,缺失值可以分为完全随机缺失、随机缺失和完全非随机缺失;
  8. 缺失数据的处理方法有三种,分别是直接删除、均值插补法、多重插补法;
  9. 数据噪声是指数据中存在的随机性错误或偏差,噪声数据的处理方法有分箱、聚类分析和回归分析等;
  10. 数据变换包括平滑、聚合、泛化、规范化、属性和特征的重构等操作;
  11. 数据规范化的常用方法:(1)标准差标准化;(2)极差标准化;(3)极差正规化;注意,最大——最小规范化不属于数据规范化;

第5章

  1. 线性回归中的重要步骤:建立回归模型,参数估计,参数统计检验、变量显著性检验;
  2. 线性回归的参数估计采用的方法是最小二乘法;
  3. 在模型参数估计中,需要考察参数估计量的统计性质,主要包括线性性、无偏性和有效性;
  4. 线性回归模型的预测主要有两种预测,分别是点预测和区间预测;
  5. 拟合优度检验是对回归拟合值与实际观测值之间拟合程度的一种检验。度量拟合优度的指标主要是判定系数(可决系数)R2,其取值范围是[0,1],越接近1,说明实际观测点离样本线越近,拟合优度越高;
  6. 一元线性回归的Excel结果分析:

  1. 图中,x表示广告费用(单位:万元),因变量为汽车销售量(单位:辆)。
  2. 本结果中,y=2.03x+363.69,意为若增加1万元的广告费用,汽车销售量会增加2.03辆;模型显著性检验的t值为19.98,对应的p值远小于0.05,因此认定广告费用显著影响汽车销售量。R2其取值为0.9756,模型拟合较好。
  3. 该模型仍有一定的改进之处,例如其它影响因素未考虑、样本量较小等;

第6章

  1. 回归模型是假设因变量Y是定量的,分类问题是假设因变量Y是定性的;
  2. 线性分类问题可以建立的模型有线性概率模型、Logit模型、Probit模型;
  3. 线性概率模型的优点是可以采用普通的最小二乘法对待估参数进行估计,系数本身具有实际意义,即自变量变化一个单位后,因变量会出现的概率上升(下降)多少。但是线性概率模型也有缺点,其一是再利用线性概率模型进行预测时,因变量会出现大于1或者小于0的情形;其二是扰动项是二项分布而不是正态分布;其三在线性改模型中,扰动项是异方差的;
  4. 利用概率分布函数将带有自变量和扰动项的主体部分“复合”,构成新的可以分析线性分类问题的模型。如果采用的概率分布函数是标准正态分布,则模型称之为Probit模型;如果采用的概率分布函数是Logistics分布函数,则模型称之为Logit模型;
  5. 在Probit模型和Logit模型中,自变量对Y取值为1的概率的边际影响并不是常数,它会随着自变量的变化而变化。因此,对于Probit模型和Logit模型来说,需要计算平均边际效应。

第7章

  1. 在模型训练过程中,一般可以通过训练误差和测试误测来衡量模型的拟合程度;
  2. P95页图7-1,随着模型复杂度的增加,模型的训练误差会一直减小并趋向于0(最后的模型就是逐点拟合,即出现了过拟合)。模型的测试误差则不然,通常在模型过于简单是,误差偏高,此时模型欠拟合。随着模型复杂度的增加,测试误差会先减少后增加。但无论是欠拟合还是过拟合,模型的推广预测能力都较差。
  3. 常用的重抽样的方法有交叉验证法和自助法;

第8章

  1. 模型选择是指利用统计方法,从众多变量中选择显著的、最能解释因变量变化的那一部分自变量参与建模。
  2. 模型选择的方法通常可以分为三类:传统的子集选择发【包括最后子集法和逐步选择法】、基于压缩估计【正则化】、降维法。
  3. 本章模型选择实质是指当回归模型中自变量之间存在多重共线性时的解决方法。
  4. 逐步选择法主要分为向前逐步选择法、向后逐步选择法;
  5. 模型选择的依据主要有Cp值、AIC准则、BIC准则、调整的R2;
  6. 回归模型中存在多重共线性的危害:第一,会导致整个回归模型的拟合优度较大,但是对于单个的解释变量系数显著性检验可能无法通过,或者系数大小不合理;第二,增加解释变量的个数,会使得原有解释变量的系数估计值发生较大的变化;第三,共线性的存在不会改变系数的无偏性,但是会增加系数的方差,失去了有效性;
  7. 共线性检验方法:VIF【一般的,VIF值大于10,说明存在共线性】、相关系数法【两个变量之间的相关系数值大于0.7/0.8】;
  8. 共线性解决方法:第一,不解决【前提条件,关心的核心解释变量与共线性的变量无关】;第二,扩充样本量;第三,逐步回归【向前逐步回归、向后逐步回归】;第四,惩罚函数【原理:损失部分无偏性以达到有效性】;
  9. 逐步回归的缺陷:逐步回归之后,模型中共线性问题仍然存在;逐步回归可以降低共线性,但是不能消除共线性,而且,逐步回归有可能会剔除我们关心的核心解释变量;
  10. 两类惩罚函数:岭回归和Lasso惩罚【不同点,岭回归在估计参数的同时不可以选择变量,Lasso惩罚在估计参数的同时可以选择变量】
  11. 例:某数据分析员欲研究企业资产状况与负债状况对企业获得银行信贷规模的影响,他采集了一些数据,利用Stata软件分析,得到如下结果。根据结果回答:

[注:yhxd表示企业获得银行信贷数量,zzc表示企业总资产,gdzc表示固定资产,ldzc表示企业流动资产,zfz表示企业总负债,ldfz表示企业流动负债]

 写出程序结果表示的模型表达式与各自变量的显著性检验,并解释其实际意义; 

 上图显示了对各变量的VIF检验,从这个检验中你能得出什么结论,并说明这个结论会对研究本身产生什么危害?

如果你是该数据分析员,为了避免(2)中的问题,你会怎么做?(6分)

(1)模型表达式:

yhxd=-0.5335zzc+0.2387gdzc-0.4919ldzc+0.2177zfz+1.3427ldfz+4.2107

所有的自变量均在95%的置信水平下显著,说明总资产、固定资产、流动资产、总负债、流动负债显著影响银行信贷规模;

(2)VIF检验显示,模型中存在较为严重的多重共线性;多重共线性危害参见[31];

(3)怎么解决多重共线性,参见[33]

第9章

  1. 基于树的方法是数据科学、机器学习里最常用的方法之一,本质上它是一种非参数方法,不需要实现对总体的分布做任何假设。决策树的算法有很多,最为经典的是CART;
  2. CART的基本思想是一种二分递归分割方法,在计算过程中充分利用二叉树,在一定的分割视角下将当前样本集分割为两个子样本集,使得生成的决策树的每个非叶节点都有两个分裂,这个过程有在子样本集上重复进行,直至无法再分成叶节点为止;
  3. 决策树包含有3种节点,分别为根节点、中间节点、叶节点;
  4. 决策树的优点:易理解、解释性强;不需要任何先验假设;与传统的回归和分类方法比,更接近人的大脑决策模式;可以用图形展示,可视化效果好,非专业人士也可以轻松解释;可以直接处理定性的自变量,而无须像线性回归那样将定性变量转换成虚拟变量;
  5. 决策树的缺点:方差大、不稳定,数据很小的扰动可能得到完全不同的分裂结果,有可能是完全不同的决策树;
  6. 通过组合算法可以降低方差,显著提升预测效果:Bagging、随机森林、Boosting;

第10、11章(略)

第12

  1. 无监督学习的主要方法:聚类分析、主成分分析、因子分析和典型相关分析。

一、数据科学的主要研究方法?说明两种常用的聚类方法?

答:有监督 无监督 半监督  具体看上面

K-means聚类  是一种把数据集分成k个不同类的简单快捷的方法,其基本思想是一个好的聚类方法应该使类内差异小。

系统聚类法  不需要事先设定类数K,是将给定的数据集进行层次的分解,直到满足某个条件为止。

二、简述ROC曲线的绘制过程

答:对于给定的分类器和数据集,我们只能得到一个分类结果,即一对FPR和TPR的值。这是远远不够的,所以,我们需要通过分类器得到所有样本的概率输出,并将其从小到大排序,依次作为将概率作为阈值,当样本输出大于这个值时,我们成为正样本,反之为负样本,这样每次我们就可以得到一对FPR和TPR,我们,将阈值端点设为0和1,以fpr为横轴,tpr为纵轴,将得到的每对FPR、TPR在图上连起来,这样就得到了roc曲线了。选取的阈值越多,roc越平滑。

三、如果有多种回归方法,如何评价哪种更好?

答:看拟合优度即可决系数R2=ESS/TSS=1-RSS/TSS,R2越接近1,回归方法越好

看估计误差,估计误差越小,回归方法越好

分析残差,残差越小,越好

通过K折交叉验证法,得到测试误差,越小,越好

四、逐步选择方法有哪些?

向前逐步选择法:依次向模型中添加变量,每次只能将能够最大限度地提升模型效果的变量加入,直到所有预测变量都在模型中。

向后逐步选择法:从含有所有的变量开始,依次剔除不显著的变量

向前向后选择法:边加入边剔除

五、简述lasso惩罚的基本思想、原理,并画图解释

思想:通过惩罚约束模型的回归系数,同步实现变量选择和系数估计。

原理:

Lasso惩罚函数可以起到减小变量的作用,当拉姆达大到一定程度时,可将部分系数压缩为0,这样就可以实现连续的变量选择,剔除掉比较小的北塔的值。

如图,lasso的求解在正方形范围内,找到最小二乘法函数的最小值,也就是找到与菱形相交的最小椭圆,若交点正好在定点时,会出现某一回归系数北塔为0,这样在估计参数的同时就实现的变量选择。


六、k折交叉验证法的基本思想和算法?

 七、测试误差的含义,并画图解释模型复杂度与测试误差的关系?

答:将拟合的模型用于一个新的观测集上,来预测对应的因变量所产生的平均误差,它衡量一个模型的推广推广预测能力。

随着模型复杂度的增加,测试误差会先减少后增加。

八、简述过拟合和欠拟合,如何可以减轻过拟合现象?

答:模型过于简单,偏差较大,方差较小,误差高   欠拟合

随着模型复杂度的增加,模型的训练误差会一直减小并趋于0,方差逐渐增大  过拟合

增加训练集的规模,使模型简单化,降低模型复杂度,采用正则化方法

九、简述何为决策树,及决策树分类的流程?

答:决策树一般是自上而下生成的。每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,把这种决策分枝画成图形很像一棵树的枝干,故称决策树。

根据解决的问题的不同,将决策树分为分类树和回归树。

将自变量空间分割成j个互不重叠的区域。对落入区域r的每一个观测都将其预测为r上训练集的响应值的简单算数平均

十、简述何为随机森林,以及如何用随机森林分类?

随机森林指的是利用多棵树对样本进行训练并预测的一种分类器。

随机森林是通过对树做了去相关处理,从而实现对把bagging改进的一种算法。随机森林在以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机属性选择。在随机森林中,对基决策树的每个节点,先从该节点的属性集合中随机选择一个包含k个属性的子集,然后再从这个子集中选择一个最优属性用于划分。 这里的参数k控制了随机性的引入程度。若令k=d,则基决策树的构建与传统决策树相同;若令k=1,则是随机选择一个属性用于划分。在MLlib中,有两种选择用于分类,即k=log2(d)、k=sqrt(d); 一种选择用于回归,即k=1/3d。

十一、简述最大间隔分类器的原理及构造最大间隔分类器的流程

十二、简述感知机的工作原理及其目标函数?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/646762.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

初见PlayWright

PlayWright特色 跨浏览器:PlayWright支持所有现代的浏览器渲染引擎,包括Chromium、WebKit、Firefox,这意味着它可以驱动像Chrome、Edge、Firefox、Safari等主流浏览器跨平台:基于浏览器的特性,可以在Windows、Linux和…

卡方检验笔记

文章目录 一、定义二、用途三、公式四、案例4.1 手工统计4.2 python统计4.3 SPSS统计 一、定义 卡方检验属于非参数检验,由于非参检验不存在具体参数和总体正态分布的假设,所以有时被称为自由分布检验。原假设 H 0 H_{0} H0​:观察频数与期望…

大龄、零基础,想转行做网络安全。怎样比较可行?一般人我还是劝你算了吧

昨晚上真的给我气孕了。 对于一直以来对网络安全兴趣很大,想以此作为以后的职业方向的人群。 不用担心,你可以选择兼顾工作和学习,以步步为营的方式尝试转行到网络安全领域。 那么,网络安全到底要学些什么呢? &…

怎么快速给需要的网路标记颜色?

引入 我们在走线的时候,需要知道那些类型的线需要先走,接下来又要走那些类型的线,然后依次走完,如果在团队中,这一类型的线分配给这个人走,哪一类型的线有分配给那个人走。而在不管是那单个人,还…

效果图渲染的几大实用技巧

效果图渲染是建筑、室内、景观、产品设计等行业中非常重要的一环。一个高质量的效果图可以让客户更好地了解和感受设计方案,提高设计师的竞争力。但是渲染效果的好坏和速度都取决于设计师的技巧和工具。本文将介绍几大实用技巧,帮助设计师更好地进行效果…

ASEMI代理光宝IGBT驱动器LTV-155E规格,LTV-155E封装

编辑-Z LTV-155E参数描述: 型号:LTV-155E 储存温度Tstg:-55~125℃ 工作温度Topr:-40~105℃ 输出IC结温度TJ:125℃ 总输出电源电压(VCC –VEE):35V 平均正向输入电流IF:25mA 反向输入电压…

对vite的理解

🐱 个人主页:不叫猫先生,公众号:前端舵手 🙋‍♂️ 作者简介:2022年度博客之星前端领域TOP 2,前端领域优质作者、阿里云专家博主,专注于前端各领域技术,共同学习共同进步…

强化学习笔记-13 Policy Gradient Methods

强化学习算法主要在于学习最优的决策,到目前为止,我们所讨论的决策选择都是通过价值预估函数来间接选择的。本节讨论的是通过一个参数化决策模型来直接根据状态选择动作,而不是根据价值预估函数来间接选择。 我们可以定义如下Policy Gradien…

软件测试外包干了3年,感觉废了..

先说一下自己的情况,大专生,18年通过校招进入湖南某软件公司,干了接近3年的功能测试,今年年初,感觉自己不能够在这样下去了,长时间呆在一个舒适的环境会让一个人堕落!而我已经在一个企业干了3年的功能测试&…

官方都不告诉你的 Windows ISO 下载方式

目录 一、背景二、下载 一、背景 我们都知道,在日常生活中,经常会遇到各种操作系统的安装,如 Windows、Linux 等,一般都会通过 ISO 来安装。而在很多第三方地址中下载的 ISO 镜像通常会捆绑一些流氓软件,很是难受。那…

Java 中的异常处理

认识异常 程序中可能会有很多意想不到的问题的出现,这些问题中,有些是在编写阶段时就无法编译通过,比如写代码时变量名写错,出现语法错误 java.lang.Error: Unresolved compilation problem ……;有些是在程序运行的时…

从零开始Vue项目中使用MapboxGL开发三维地图教程(四)改变鼠标style、地图置于单击feature中心、量测距离和polgon面积和中心点坐标

文章目录 1、飞行平移到鼠标点击图层属性的地图中心位置2、当鼠标光标进入“圆”图层中的某个要素时,将其更改为指针3、量测距离4、量测area面积和中心点坐标 1、飞行平移到鼠标点击图层属性的地图中心位置 //鼠标点击事件map.on("click", "iconImag…

基于Amazon SageMaker平台部署Stable Diffusion模型实现——图片识别

序言: 当谈到机器学习和人工智能的开发和部署时,Amazon SageMaker是一个非常强大和全面的平台。作为一项托管式的机器学习服务,Amazon SageMaker提供了一套完整的工具和功能,帮助开发者轻松构建、训练和部署机器学习模型。 首先&…

程序猿成长之路之密码学篇-AES算法解密详解及代码呈现

各位csdn的小伙伴们大家好呀,我又回来了,这篇文章为上一次介绍AES加密算法的姊妹篇,重点将会详细介绍一下AES算法的解密过程并呈上AES加解密的代码。【暂时不包含iv即偏移量】。下面请跟随我一同进入AES解密的世界。 AES加密详解 如果有小伙…

ffmpeg编译笔记:ubuntu18.04编译ffmpeg5.1 x86与64

一、前言 本篇描述了ffmpeg5.1在ubuntu18.04上的编译经验。编译后的库支持h264,h265软硬解码,支持https,支持SDL。本篇同时描述openssl在ffmpeg中的编译经验,以及提供ffmpeg编译和openssl编译的32位和64位的配置命令。 二、相关…

这8道接口测试面试题

接口测试常见的问题了。 大家乍一看! 接口测试面试题 这几个问题,能答出来几个?有没有8个都能够完美的答出来的?在留言区打出你的数字。(0~8) 这些问题你回答起来,不要吞吞吐吐只说几个关键字…

1. java.io.File 类的使用

1.1 概述 • File 类及本章下的各种流,都定义在 java.io 包下。 • 一个 File 对象代表硬盘或网络中可能存在的一个文件或者文件目录(俗称文件夹), 与平台无关。(体会万事万物皆对象) • File 能新建、删除…

重启好多次路由器,还是上不了网怎么办?

大家好,我的网工朋友 遇到突发的网络断连,你一般会怎么做? 我觉得很多人都会插拔一下路由器,这和电脑不行了,马上就重启电脑一样,是刻在DNA里的傻瓜操作。 但是也有很多时候,这个傻瓜操作是解…

PrivateGPT:安全和私密的离线 GPT-4

在人工智能 (AI) 和自然语言处理 (NLP) 领域,隐私通常是一个基本问题,尤其是在处理敏感数据时。PrivateGPT 是这一领域的突破性发展,正面解决了这个问题。它旨在在没有互联网连接的情况下在本地运行,通过防止数据离开您的执行环境…

这些方法可以手写扫描识别

小伙伴们知道有一项技术是可以将我们手写的东西识别出来吗?这一项创新的技术就是手写识别功能,它能够将手写内容快速转换为数字或文本格式,并提高信息处理和管理的效率。而且相比传统的手工记录方式,手写识别功能具有较高的准确性…