统计学第6天

news2024/11/24 6:35:53

1、变量间关系的度量

函数关系

(1)是一一对应的确定关系;

(2)设有两个变量x和y,变量y随x一起变化,并完全依赖于x,当x取某个数值时,y根据确定的关系取相应的值,称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量;

(3)各观测点落在一条线上。

(4)函数关系的例子

  • 某种商品的销售额y和销售量x之间的关系可以表示为y=px(p为单价);
  • 圆的面积S与半径之间的关系可以表示为S=\pi R^2;
  • 企业的原材料消耗额y与产量x_1、单位产量消耗x_2、原材料价格x_3之间的关系可表示为:y=x_1x_2x_3

相关关系

(1)变量的关系不能用函数关系精确表达;

(2)一个变量的取值不能由另一个变量唯一确定;

(3)当变量x取某个值时,变量y的取值可能有几个;

(4)各观察点分布在直线周围。

(5)线性相关的例子:

  • 子女身高y与父母身高x之间的关系;
  • 收入水平y与受教育程度x之间的关系;
  • 粮食亩产量y与施肥量x_1,降雨量x_2,温度x_3之间的关系;
  • 商品消费量y与居民收入x之间的关系;
  • 商品的销售额y与广告费支出x之间的关系。

例1:一家大型商业银行在多个地区有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例提高,这给银行业务的发展带来较大的压力。为弄清不良贷款形成的原因,管理者希望利用银行业务的相关数据做些定量分析,以便找出控制不良贷款的方法。如下就是该银行所属的25家分行的相关业务数据。

从各散点图可以看出,不良贷款与贷款余额、累计应收贷款、贷款项目个数、固定资产投资额之间都具有一定的相关关系。
从各散点的分布情况看,不良贷款与贷款余额的相关关系比较密切,与固定资产投资额之间的关 系最不密切。

相关系数

(1)对变量之间关系密切程度的度量;

(2)对两个变量之间线性关系相关程度的度量称为简单相关系数;

(3)若相关系数是根据总体全部数据计算的,称为总体相关系数,记作\rho

(4)若是根据样本数据计算的,则称为样本相关系数,记为r

(5)取值以及其意义

r的取值范围[-1,1]        -1\leq r< 0,为负相关

|r| = 1,为完全相关     0 \leq r < 1,为正相关

在上述案例中,不良贷款、贷款余额、累计应收贷款,贷款项目个数,固定资产投资额的相关系数为:

解:用excel【数据分析】中的【相关系数】工具计算的相关矩阵如下:

可以看出不良贷款与其他几个变量的关系中,与贷款余额的相关系数最大,而与固定资产投资额的相关系数最小。

相关系数的显著性水平检验

能否根据样本相关系数说明总体的相关程度呢?需要考察样本的可靠性,需要进行显著性检验。

r的抽样分布

1、r的抽样分布随总体相关系数和样本容量的大小而变化

当样本数据来自正态总体时,随着n的增大,r的抽样分布趋于正态分布,尤其是在总体相关系数ρ很小或接近0时,区域正态分布的趋势非常明显。当ρ远离0时,除非n非常大,否则r的抽样分布呈现一定的偏态。

2、当为较大的正值时,r呈现左偏分布;当为较小的负值,r呈现右偏分布。只有当接近于0,而样本容量很大时,才能认为r是接近于正态分布的随机变量。

 检验的步骤

1、检验两个变量之间是否存在线性相关关系;

2、采用费尔希提出的t检验,可以用于大样本,也可以用于小样本;

3、检验的步骤为

第一步:提出假设

H _0:\rho=0,H_1:\rho \neq0

第二步:计算p值

t = |r| \sqrt{\frac{n-2}{1-r^2}} \sim t(n-2)

第三步:确定显著性水平α,并做出决策

|t|>t_{\alpha/2},表明总体的两个变量之间存在显著的线性关系

| t |<t_{\alpha/2},不能拒绝原假设H0

对之前案例中的不良贷款与贷款余额之间的相关系数进行显著性检验(\alpha=0.05

解:第一步:提出假设

H_0:\rho=0,H_1:\rho \neq 0

第二步:计算检验的统计量

t = |0.8436| \sqrt{\frac{25-2}{1-0.8436^2}} = 7.5344

第三步:做出决策

根据显著性水平\alpha = 0.05,查t分布表得t_{\alpha/2}(n-2)=2.069

由于|t| = 7.5344>t_{\alpha/2}(n-2)=2.069,拒绝H0,不良贷款与贷款余额之间存在显著性的正线性相关关系。

2、一元线性回归

回归分析,对于因变量Y,根据自变量X结合统计学模型(数学公式),预测出因变量Y。

(1)回归分析和相关性分析的区别

1、回归分析中,变量x和变量y处于平等的地位;回归分析中,y称为因变量,处于被解释的位置,x是自变量,用于预测因变量的变化。

2、相关分析中所涉及的变量x和y都是随机变量;回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机变量的确定变量。

3、相关性分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示自变量x对因变量y的影响大小,还可以由回归方程进行预测。

 (2)一元线性回归模型

1、描述因变量y依赖自变量x和误差项的方程称为回归模型。

2、一元线性回归模型可以表示为:

y = \beta_0+\beta_1 x+ \epsilon

其中y是x的线性部分加上误差项,线性部分反映x的变化而引起y的变化,误差项反映的是除了线性关系之外的因素对y的影响,不能由x和y之间的线性关系揭示的变异性,\beta_0,\beta_1称为模型参数。

 (3)基本假定

误差项\epsilon是一个期望值为0的随机变量,对于一个给定的x,y的期望值为E(x)=\beta_1x+\beta_0;

对于所有的x值,\epsilon的方差\sigma^2都相同;

误差项\epsilon是一个服从正态分布的随机变量,且相互独立。即\epsilon \sim N(0,\sigma^2);

独立性意味着对一个特定的x值,它所对应的\epsilon与其他x对应的\epsilon不相关;

对于一个特定的X值,它所对应的Y值与其他X所对应的Y值也不相关。

 

 从上图可以看出,y的值随着x的不同而变化,但不论x怎么变化,\epsilon和y的概率分布是正态分布,并且具有相同的方差。

 (4)回归方程

1、描述y的平均值或期望值如何依赖于x的方程称为回归方程;

2、一元线性回归方程的形式如下:

y = \beta_0+\beta_1 x

方程的图示是一条直线,也称为直线回归方程

\beta_0是回归直线在y轴上的截距,是当x=0时y的期望值

\beta_1是直线的斜率,称为回归系数,表示当x每变动一个单位时,y的平均变动值。

参数的最小二乘估计

作用是估计回归方程中\beta_0,\beta_1的值。

1、使因变量的观察值与估计值之间的离差平方和达到最小来求\hat{\beta_0},\hat{\beta_1}的方法。即

\sum_{i=1}^{n}(y_i-\hat{y})^2=\sum_{i=1}^{n}(\hat{y}-\hat{\beta_0}-\hat{\beta_1}x_i)^2=最小

2、用最小二乘法拟合的直线来代表x和y之间的关系与实际数据的误差比其他任何直线都小。

根据最小二乘法的要求,可以求解\hat{\beta_0},\ \hat{\beta_1}的公式如下:

\hat{\beta_1} = \frac{\sum_{i=1}^{n}(X_i-\bar{X})(Y_i-\bar{Y})}{\sum_{i=1}^{n}(X_i-\bar{X})^2}

上述案例中不良贷款与各项贷款余额之间的回归方程

3、利用回归方程进行估计和预测

变差

1、因变量y的取值是不同的,y取值的这种波动性称为变差。变差来源于两个方面:

        由于自变量x的取值不同造成的

        除了x以为的其他因素(x对y的非线性影响,测量误差等)的影响。

2、对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差y-\bar y表示

误差平方和的分解

1、总平方和(SST):反映因变量n个值观察值与其均值的总误差;

2、回归平方和(SSR):反映自变量X的变化对因变量Y取值变化的影响,即由于x和y之间的线性关系引起的取值变化,也成为可解释的平方和;

3、残差平方和:反映除X以为的其他因素对Y取值的影响,也成为不可解释的平方和或剩余平方和。

判定系数R方

1、回归平方和占总方差平方和的比例

2、反映回归直线的拟合程度;

3、取值范围在[0,1]之间;

4、R^2-->1说明回归方程拟合的越好;R_2-->0说明回归方程拟合的越差;

5、判定系数等于相关系数的平方,即R^2=r^2

计算上述案例中不良贷款对单款余额回归的判定系数,并解释其意义。

判定系数的实际意义是:在不良贷款取值的变差中,有71.16%可以由不良贷款与贷款余额之间的线性关系来解释,或者说,在不良贷款的取值的变动中,有71.16%是由贷款余额所决定的。也就是说,不良贷款取值的差异2/3以上是由贷款余额决定的。可见不良贷款与贷款余额之间有较强的线性相关性。

估计标准误差

1、实际观察值与回归估计值离差平方和的均方根;

2、反映实际观察值在回归直线周围的分散状况;

3、对误差项\epsilon的标准差\sigma的估计,是在排除x对y的线性影响后,y随机波动大小的一个估计量;

4、反映用估计的回归方程预测y时预测误差的大小;

5、计算公式为

根据上述案例的计算结果,计算不良贷款对余额回归的估计标准误差,并解释其意义

 实际上,Excel计算表中直接给出了该值,即标准误差为1.979948,根据贷款余额来估计不良贷款时,平均的估计误差为1.979948亿元。

显著性检验

回归分析的主要目的是根据所建立的估计方程,用自变量x来预测因变量y的取值。

建立估计方程后,不能立马使用其去预测,因为该估计方程是通过样本数据得出的方程,是否置信需要通过验证来证实。

回归分析中的显著性检验主要包含两个方面内容:一是线性关系的检验;二是回归系数的检验。

概念

1、检验自变量与因变量之间的线性关系是否显著;

2、将回归均方(MSR)同残差均方(MSE)加以比较,用用F检验来分析二者之间的差别是否显著:

  • 回归均方MSR:回归均方和SSR除以相应的自由度(SSR的自由度是自变量的个数k,一元线性回归中自由度为1)
  • 残差均方MSE:残差平方和SSE除以相应的自由度(SSE的自由度n-k-1,一元线性回归中自由度为n-2) 
线性关系的检验

1.提出假设:H_0:\beta_1=0两个变量之间的线性关系不显著; 

2.计算检验统计量 F=\frac{SSR/1}{SSE/(n-2)} = \frac{MSR}{MSE} \sim F(1,n-2)

3.作出决策:确定显著性水平\alpha,并根据分子自由度1和分母自由度n-2找出临界值F_{\alpha},若F>F_{\alpha}拒绝H_0;若F<F_{\alpha}不拒绝H_0

 回归系数检验
概念

1.检验x和y之间是否具有线性关系,或者说,检验自变量x对因变量y的影响是否显著;

2.理论基础是回归系数\hat{\beta_1}的抽样分布;

3.在一元线性回归中,等价于线性关系的显著性检验。

 样本统计量\hat{\beta_1}的分布

1.\hat{\beta_1}是分局最小二乘法求出的样本统计量,它有自己的分布;

2.\hat{\beta_1}分布具有如下性质:

  • 分布形式:正态分布
  • 数学期望:E(\hat{\beta_1}) = \beta_1

检验步骤

1、提出假设

H_0:\beta_1=0没有线性关系

H_1;\beta_1 \neq 0 有线性关系

2、计算检验的统计量

3、确定显著性水平\alpha,进行决策 

 在实际应用中,可以直接利用Excel输出的参数估计表进行检验。表中给出了用于检验的P值(P-value)。检验时可以直接将P- value与给定的显著性水平\alpha。进行比较。在本例中,P-value=0.000<0.05,所以拒绝H_0

利用回归方程进行估计和预测

概念

1.根据自变量X的取值估计或预测因变量Y的取值;

2.估计和预测的类型;

  • 点估计
    •  Y平均值的点估计
    •  Y个别值的点估计
  • 区间估计
    • Y平均值的区间估计
    • Y的个别值的区间估计
 点估计

1.对于自变量X的一个给定值x_0,根据回归方程得到因变量y的一个估计值y_0;

2.点估计值:平均值和个别值的点估计;

3.在点估计条件下,平均值的点估计和个别值的点估计是一样的,在区间估计中则不同。

Y的平均值的点估计

 利用估计的回归方程,对于自变量x的一个给定值x_0,求出因变量y的平均值的一个估计值E(y_0),就是平均值的点估计。

在前面的例子中,假如我们要估计贷款余额为100亿时,所有分行不良贷款的平均值,就是平均值的点估计。根据估计的回归方程得

 区间估计
概念

1、利用估计的回归方程,对于自变量x的一个给定x_0,求出因变量y的一个个别值的估计区间,这一区间成为预测区间。

2、y_01-\alpha置信水平下的预测区间为

影响区间宽度的因素 

1.置信水平(1-\alpha):区间宽度随置信水平的增大而增大;

2.数据的离散程度S:区间宽度随离散程度的增大而增大;

3.样本容量:区间宽度样本容量的增大而减小;

4.用于预测的x_p\bar x的差异程度:差异程度越大区间宽度越大

4、残差分析

残差与残差图

在回归模型y = \beta_0+\beta_1 x+ \epsilon中,假定\epsilon是期望为0,方差相等且服从正态分布的一个随机变量。如果关于\epsilon的假定不成立,那么所做的检验以及估计和预测也许就站不住脚,确定\epsilon的假定是否成立的方法之一就是进行残差分析。

残差

变量的观测值与根据估计的回归方程求出的预测值之差,用e表示e_i=y_i-\hat{y_i},反映了用估计的回归方程去预测而引起的误差。

残差图

表示残差的图形,关于x的残差图、关于y的残差图、标准化残差图。

 

若对所有的x值,残差的方差都相同,而且假定描述变量X和Y之间关系的回归模型是合理的,那么残差图中所有点都应该落在一条水平带中间,如图(a)所示。

对于所有的值,残差是不同的,例如对于较大的X值,相应的残差也较大,如图(b)所示,这就意味着违背了残差方差相等的假设。

如果残差图如c那样,则表明所选择的回归模型不合理,这时应该考虑曲线回归,或多元回归模型。

通过上图可以看出各残差几本位于水平带中间,表明关于不良贷款与贷款余额回归的线性假定以及对误差项残差的假定时成立的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2115025.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

建设网盘聚合中心—Win10+Alist+RaiDrive

经常需要在网上找各种资源&#xff0c;但遇到 2 个问题&#xff1a; 1. 大部分网盘都需要先将文件保存在自己网盘后才能下载&#xff0c;也就是必须创建对应网盘账号。 2. 有些网盘还必须要下载客户端才能下载文件。 创建账号无法避免&#xff0c;但可以不用下载那么多的客户端…

写在 Pencils Protocol TGE 前:加密市场共识才是王道,拥抱社区

“Pencils Protocol 正在成为本轮市场周期中&#xff0c;加密项目建立共识最有力的工具&#xff01;” 对于加密项目而言&#xff0c;代币 TGE 是一个非常重要的事情&#xff0c;它不仅仅意味着生态内经济系统的全面启动&#xff0c;同时也意味着项目生态市场的全面开启。当然…

《Rust避坑式入门》第1章:挖数据竞争大坑的滥用可变性

赵可菲是一名Java程序员&#xff0c;一直在维护一个有十多年历史的老旧系统。这个系统即将被淘汰&#xff0c;代码质量也很差&#xff0c;每次上线都会出现很多bug&#xff0c;她不得不加班修复。公司给了她3个月的内部转岗期&#xff0c;如果转不出去就会被裁员。她得知公司可…

AF透明模式/虚拟网线模式组网部署

透明模式组网 实验拓扑 防火墙基本配置 接口配置 eth1 eth3 放通策略 1. 内网用户上班时间&#xff08;9:00-17:00&#xff09;不允许看视频、玩游戏及网上购物&#xff0c;其余时 间访问互联网不受限制&#xff1b;&#xff08;20 分&#xff09; 应用控制策略 2. 互联…

二维空间向量的p范数等密度轨迹

图2-52&#xff1a;二维空间向量的 ℓ p \ell p ℓp范数等密度轨迹。 想过两种方式&#xff0c;还是放在一起省地方。 禹晶、肖创柏、廖庆敏《数字图像处理&#xff08;面向新工科的电工电子信息基础课程系列教材&#xff09;》 禹晶、肖创柏、廖庆敏《数字图像处理》资源…

数据库系统原理及应用——仓库管理系统

目录 引言 一.需求设计说明书 1&#xff0e;需求分析 2.系统背景 3.系统目标 4.人员分配 5.数据流程图&#xff08;DFD&#xff09; 二.概念结构设计 1.局部E-R图 &#xff08;1&#xff09;供应商 &#xff08;2&#xff09;货物 &#xff08;3&#xff09;客户 &…

1-19 平滑处理——双边滤波 opencv树莓派4B 入门系列笔记

目录 一、提前准备 二、代码详解 cv2.bilateralFilter函数用于对图像进行双边滤波。双边滤波是一种保持边缘的平滑技术&#xff0c;常用于图像去噪声和增强图像的细节。函数的四个参数如下&#xff1a; 三、运行现象 四、完整工程贴出 一、提前准备 1、树莓派4B 及 64位系统…

stack smashing detect以及解决之道

0. 简介 相较于其他报错&#xff0c;stack smashing detect这个报错是最令人头疼的段错误种类。“Stack smashing detect” 是指在程序运行过程中检测到栈溢出的情况。栈溢出是一种常见的安全漏洞&#xff0c;发生在程序尝试往栈空间写入超过其边界范围的数据时。 1. 常见分类…

改写二进制文件

以下是一些常见的方法和工具&#xff1a; 1. 使用十六进制编辑器 十六进制编辑器 是最直接的工具之一&#xff0c;用于查看和编辑二进制文件中的数据。它允许你以十六进制格式查看和修改文件内容。 常见十六进制编辑器&#xff1a; HxD&#xff08;Windows&#xff09;Hex F…

铁路订票系统小程序的设计

管理员账户功能包括&#xff1a;系统首页&#xff0c;个人中心&#xff0c;管理员管理&#xff0c;车次信息管理&#xff0c;基础数据管理&#xff0c;论坛管理&#xff0c;通知公告管理&#xff0c;用户管理&#xff0c;轮播图信息 微信端账号功能包括&#xff1a;系统首页&a…

【linux学习指南】Linux编译器 gcc和g++使用

文章目录 &#x1f4dd;前言&#x1f320; gcc如何完成&#x1f309;预处理(进行宏替换) &#x1f320;编译&#xff08;生成汇编&#xff09;&#x1f309;汇编&#xff08;生成机器可识别代码&#xff09; &#x1f320;链接&#xff08;生成可执行文件或库文件&#xff09;&…

变压器制造5G智能工厂工业物联数字孪生平台,推进制造业数字化转型

变压器制造5G智能工厂工业物联数字孪生平台&#xff0c;推进制造业数字化转型。作为传统制造业的重要组成部分&#xff0c;变压器制造行业也不例外地踏上了数字化转型的快车道。而变压器制造5G智能工厂物联数字孪生平台的出现&#xff0c;更是为这一进程注入了强大的动力&#…

内卷时代无人机培训机构如何做大做强

在当今社会&#xff0c;随着科技的飞速发展&#xff0c;“内卷”一词频繁被提及&#xff0c;反映了各行业竞争日益激烈的现象。对于无人机培训行业而言&#xff0c;如何在这样的时代背景下脱颖而出&#xff0c;实现做大做强的目标&#xff0c;成为每个培训机构必须深思的问题。…

自学C语言-11

** 第3篇 高级应用 ** 第11章 结构体和共用体 迄今为止,我们在程序中用到的都是基本数据类型。但实际开发中,有时简单的变量类型无法满足程序中各种复杂的数据要求,因此C语言还提供了构造类型。构造类型数据是由基本类型数据按照一定规则组成的。 本章致力于使读者了解结…

【Nginx系列】Nginx中rewrite模块

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

《战锤40K:星际战士2》超越《黑神话》 登Steam热销榜首

《使命召唤&#xff1a;黑色行动6》将登陆 PC Game Pass看来确实影响了销量&#xff0c;因为这次在 Steam 上它的预购并没有占领 Steam 热销榜单之首。这次霸榜的则是即将推出的《战锤40K&#xff1a;星际战士2》。 根据 SteamDB 显示&#xff0c;这部将于9 月 10 日发售的游戏…

LabVIEW中Request Deallocation 功能

此功能会在包含该功能的 VI 运行之后释放未使用的内存。 该功能仅适用于高级性能优化。在某些情况下&#xff0c;释放未使用的内存可以提高性能。然而&#xff0c;过于频繁地释放内存可能导致 LabVIEW 反复重新分配空间&#xff0c;而不是重用已有的内存分配。如果您的 VI 分配…

rocky linux 9部署zabbix6

安装rocky9 阿里巴巴开源镜像站http://mirrors.aliyun.com 1、Rocky 2、初始化 防火墙 systemctl stop firewalld systemctl disable filewalld 或者 systemctl disable firewalld --now 3、selinux vi /etc/selinux/config 配置源sed -e s|^mirrorlist|#mirrorlist|g \-e s|^#…

24程序员转行,首选为什么是它?

今天文章的主人公暂且称他为 A 君。不过 A 君有点特别&#xff0c;非科班&#xff0c;工作 10 年后才转行 iOS 程序员。今年 36 岁&#xff0c;目前在某行业头部企业任职前端负责人&#xff0c;管理 40 人的前端团队。 废话不多说&#xff0c;我们开始 A 君&#xff08;为了描…

包机制,javadoc生成文档,用户交互scanner

包机制 在建包时com.kuang直接建线性一条龙的文件只会显示一个外层包&#xff0c;当再建一个包时才会显示出两个包。 import com.kuang.base 导入包的时候在后面加入星号就能把包全导进来 javadoc生成文档 public class Doc {String name;/*** * param name* return* throw…