多重共线性问题如何解决?

news2024/12/23 13:27:07

一、多重共线性说明

多重共线性一般是指:如果有两个或者多个自变量高度相关(相关系数大于0.8),难以区分一个自变量对因变量的影响和作用,将自变量相关性产生的后果定义为多重共线性,一般提出多重共线性问题,研究者往往会想到回归分析。回归分析方法,回归模型等,在统计学中都占有重要地位,多数情况下,使用回归分析进行构建模型是,由于模型中解释变量之间存在高度相关关系(如相关系数大于0.8),所以导致数据模型估计失真,此时需要消除多重共线性问题,实现模型的精准估计。接下来从多重共线性的诊断,多重共线性解决办法以及举例进行说明多重共线性几个方面进行说明。

二、多重共线性诊断

1.经验法

经验法就是通过宏观经验进行简单的判断,模型的R方比较高,但是变量不显著(回归中的t检验),或者模型结果不合理,这可能存在多重共线性,即如果R方较高,一般情况下方程整体会显著(即通过F检验),但t检验表明,没有或很少有斜率系数是显著不为0的。

2.相关系数检验法

对于模型中任意两个不同的解释变量进行相关分析,得到相关系数,如果相关系数的绝对值较大(一般大于0.8),则认为这两个变量相关性较高,但是需要知道,相关分析只能检验两个解释变量之间的相关性,对于更多(比如三个)解释变量的相关性检验并不适用。

3.VIF(方差膨胀因子法)

 

4.特征根判断法

 

三、解决办法

如果存在多重共线性问题,一般可以从三个方面进行说明,剔除变量、增大样本量以及更换模型。

1.剔除变量

剔除变量是处理共线性最直接的办法。一般可以找出引起多重共线性的解释变量,然后把它从模型中剔除,但是常常不容易判断具体哪一个变量引起的多重共线性,所以一般解决办法有逐步回归法等。逐步回归是在模型中逐个引入解释变量,如果新引入的变量使得模型统计意义检验或者判断与事实相符,并且R方又能提高,则应该引入,反之无需引入。但是,排除引起共线性的变量后,保留在模型中变量的系数估计值将会改变,并且实际意义也会发生变化。

2.增大样本量

一般如果在计量经济模型中,入股变量的样本数据极少,很容易引起多重共线性问题,可以通过手机更多的观测值来增加样本量,可以避免或者减少共线性的影响,但是会引起计算量的增加。

3.更换模型

除此之外,还可以更换研究模型,利用岭回归、主成分回归、Lasso回归等。

岭回归是以引入偏误来减少参数估计量方差的方法,虽然通过岭回归能使数据变的更合理,但是如果是原模型的实际意义不合理,即使通过岭回归修正后也不一定使模型通过实际意义的检验,所以说在实际应用中也不是所有的共线性都可以用岭回归来解决。操作如下:

主成分回归中主成分分析又称主分量分析,他是利用降维的思想,在尽量减少损失的信息的前提下,把多个指标通过正交旋转转化为几个综合的指标的分析方法,其基本原理是:利用主成分分析将解释变量转换成若干个主成分,这些主成分从不同侧面反映了解释变量的综合影响,然后在讲解释变量对这些主成分进行回归,在根绝主成分分与解释变量之间的关系,求得原回归模型的估计方程。比如有6个X,其利用降维原理将6个X降维成比如2个主成分,然后后续再进行分析比如线性回归(此种做法称作主成分回归)。操作如下:

Lasso回归

Lasso回归分析(Lasso Regression)是一种用于解决线性回归分析中自变量共线性的研究算法。针对Lasso回归:其研究步骤共为2步,分别是结合轨迹图寻找最佳K值;输入K值进行回归建模。具体如下:

第一步:Lasso回归分析前需要结合轨迹图确认K值;K值的选择原则是各个自变量的标准化回归系数趋于稳定时的最小K值。K值越小则偏差越小,K值为0时则为普通线性OLS回归;SPSSAU提供K值智能建议,也可通过主观识别判断选择K值;

第二步:对于K值,其越小越好,通常建议小于1,确定好K值后,得出Lasso回归模型估计。操作如下:

虽然岭回归和Lasso回归看起来操作差不多但是二者的原理确大不相同,岭回归是使用L2正则化,Lasso回归是使用L1正则化。接下来举个例子进行说明。

四、举例说明

利用线性回归研究居民消费价格指数y和农村居民消费价格x1,、城市居民消费价格指数x2以及商品零售价格指数x3之间的影响关系。其中数据来源于中国统计局网站(文末有案例数据可以下载)。

1.判断多重共线性

首先判断模型是否存在共线性问题,判断多重共线性的方法有很多这里利用VIF值进行判断。结果如下:

从结果可以看出,VIF值均大于10,所以存在多重共线性,需要进行处理,尽管处理多重共线性的方法有多种,这里选择比较常用的岭回归进行处理。

2.解决多重共线性

利用岭回归处理多重共线性问题,一般有两步分别如下:

  1. 岭回归分析前需要结合岭迹图确认K值;K值的选择原则是各个自变量的标准化回归系数趋于稳定时的最小K值。K值越小则偏差越小,K值为0时则为普通线性OLS回归;SPSSAU提供K值智能建议,也可通过主观识别判断选择K值;
  2. 对于K值,其越小越好,通常建议小于1;确定好K值后,即可主动输入K值,得出岭回归模型估计。

首先结合岭迹图确认K值:

结果如下:

从上图看出,以居民消费价格指数y为因变量,农村居民消费价格x1,、城市居民消费价格指数x2以及商品零售价格指数x3为自变量做岭回归,图中可以看看出,当K值为0.01时,此时自变量的标准回归系数趋于稳定,所以SPSSAU系统建议将K值取为0.01。

确定好K值后,即可主动输入K值,得出岭回归模型估计。结果如下:

从F检验结果中可以看到p值小于0.05,整体模型有效,至少有一个x对y产生影响,模型有意义。接着进行查看岭回归结果,如下:

从岭回归的结果中可以看出,模型公式为:y=2.000 + 0.328*x1 + 0.559*x2 + 0.094*x3。并且x1、x2和x3对因变量均有影响(p值均小于0.05)并且标准化系数均大于0所以农村居民消费价格x1,、城市居民消费价格指数x2以及商品零售价格指数x3均对居民消费价格指数y有正向影响的作用。并且0.541>0.357>0.103,所以说明x2对因变量的影响最大。模型的R方为0.999,接近于1,说明模型拟合的非常好。

五、总结

本文最开始介绍了多重共线性,然后进行说明多重共线性如何进行诊断多重共线性,其中包括经验法,相关系数检验法,VIF值以及特征根判断法,并且如果存在多重共线性应该如何解决,可以剔除变量或者增大样本量或者更换模型,举例说明如何解决多重共线性,利用岭回归的方法进行解决,最后得到有效结论。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/466910.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Pytorch 安装

Pytorch PyTorch介绍 特点: 1.简单易用、分布式训练、服务器部署方便、移动端部署方便; 2.PyTorch 是基于以下两个目的而打造的python科学计算框架: 无缝替换NumPy,并且通过利用GPU的算力来实现神经网络的加速。 3.通过自动…

ubuntu-18.0.04 鸿蒙OpenHarmony系统源码(OHSP)下载

如果想下载HarmonyOS中 api7里面的java 源码的,可以止步了。因为这一块并没有开源,api 7里面java的部分属于HarmonyOS,不是openharmony的部分… 怪不得网上找不到任何一个介绍Ability.java AbilitySlice.java这种源代码的文章。java应该只是鸿…

Cilium架构简介eBPF数据流向查看

1 环境准备 上一篇文章将 k8s 的网络插件改为 cilium 同时部署了观测平台 hubble,部署方式可参考上篇。 基于eBPF的k8s网络插件Cilium部署与流量治理浅尝 本篇讲一下 cilium 的架构和数据流向的查看方式。首先,你需要一个kubernetes集群,并使…

算法记录 | Day43 动态规划

1049.最后一块石头的重量 II 思路: 本题其实就是尽量让石头分成重量相同的两堆,相撞之后剩下的石头最小,这样就化解成01背包问题了。 本题物品的重量为stones[i],物品的价值也为stones[i]。 对应着01背包里的物品重量weight[i…

[学习笔记] [机器学习] 3. KNN( K-近邻算法)及练习案例

视频链接数据集下载地址:《3. KNN及练习案例》配套数据集 1. K-近邻算法(KNN)概念 学习目标: 掌握K-近邻算法实现过程知道K-近邻算法的距离公式知道K-近邻算法的超参数 K K K值以及取值问题知道kd树实现搜索的过程应用KNeighborsClassifier实现分类知…

什么是ERP?可能是全网最权威的解读

ERP的概念定义 ERP是企业资源规划的简称。要理解ERP是什么,最简单的方法是先思考企业正常运营需要的核心业务流程,如财务、HR、制造、供应链、服务、采购等,而 ERP系统最基础的功能就是帮助企业在集成式系统中高效管理这些流程。因为 ERP 系…

烟火识别智能监测系统 yolov5

烟火识别智能监测系统基于pythonyolov5网络模型算法智能分析技术,烟火识别智能监测算法模型对现场画面进行实时分析,发现现场出现烟火立即抓拍实时告警。我们选择当下卷积神经网络YOLOv5来进行火焰识别检测。6月9日,Ultralytics公司开源了YOL…

Day956.代码现代化 -遗留系统现代化实战

代码现代化 Hi,我是阿昌,今天学习记录的是关于代码现代化的内容。 代码现代化的主要模式。 大体的脉络是这样的: 先对代码做可测试化重构,并添加测试;在测试的保护下,安全地重构;在测试的保…

数据链路层相关知识

文章目录 一.数据链路层简介二.MAC地址为什么有了ip地址,我们还要使用mac地址呢? 三.以太网什么是以太网以太网封装帧格式认识MTU谈谈 MTU对IP协议的影响. 一.数据链路层简介 数据链路层的位置和角色:位于物理层和网络层之间,负责实现两个直接相连的节点(主机/路由器)之间的可…

SpringCloud源码之OpenFeign

OpenFeign 基于 OpenFeign 2.2.6.RELEASE版本进行源码阅读 <dependency><groupId>org.springframework.cloud</groupId><artifactId>spring-cloud-starter-openfeign</artifactId><version>2.2.6.RELEASE</version> </dependen…

Linux_红帽8学习笔记分享_6(yum软件仓库技术)

Linux_红帽8学习笔记分享_6(yum软件仓库技术) 文章目录 Linux_红帽8学习笔记分享_6(yum软件仓库技术)1. RPM软件包的使用技巧1.1如何查询指定软件包是否安装1.2如何删除指定软件包1.3如何安装指定软件包1.5依赖关系 2. YUM软件仓库的配置及使用2.1修改YUM软件仓库的配置文件 3.…

张量、标量、向量和矩阵

张量、标量、向量和矩阵 https://github.com/bovem/publications/tree/master/Linear%20Algebra 张量是一个数据数组(数字、函数等)&#xff0c;它以任意数量(0 或更大)的维度展开。维数称为张量秩。 秩 0 张量 没有维度(0)的张量。 A 是 0 维张量 秩 1 张量 仅在一维中展开的张…

MySQL 字段为 NULL 的5大坑,99%人踩过

数据库字段允许空值(null)的问题&#xff0c;你遇到过吗&#xff1f; 在验证问题之前&#xff0c;我们先建一张测试表及测试数据。 数据库字段允许空值(null)的问题&#xff0c;你遇到过吗&#xff1f; 在验证问题之前&#xff0c;我们先建一张测试表及测试数据。 构建的测试…

如何实现U盘低格?这样操作快速搞定!

案例&#xff1a;怎么对U盘进行低级格式化&#xff1f; 【我的U盘出现了异常&#xff0c;我想对它进行低级格式化处理&#xff0c;有没有小伙伴知道怎么操作&#xff1f;】 随着电脑和移动设备的普及&#xff0c;U盘已经成为我们生活中必不可少的存储工具。当我们使用U盘的时…

xml注入漏洞

一、先认识XML XML有两个先驱——SGML&#xff08;标准通用标记语言&#xff09;和HTML&#xff08;超文本标记语言&#xff09;&#xff0c;这两个语言都是非常成功的标记语言。SGML多用于科技文献和政府办公文件中&#xff0c;SGML非常复杂&#xff0c;其复杂程度对于网络上…

windows中vscode配置C/C++环境

首先要把MinGW的环境安装完&#xff0c;我一般是下载带有MinGW的codeblocks&#xff0c;这样省去自己安装MinGW。因为安装MinGW还挺麻烦的。 安装完codeblocks&#xff0c;找到其安装目录&#xff0c;把bin文件配置到环境变量去&#xff1a; 将bin添加到环境变量 然后打开vsco…

【MySQL高级】——索引数据结构

一、全表遍历 每个数据页一次加载搜索 二、Hash结构 1. Hash简介 2. 两种常见加快查找速度的数据结构 3. 为什么不采用Hash结构 <1> Hash索引仅能满足&#xff0c;!和IN查询。如果进行范围查询&#xff0c;哈希型的索引&#xff0c;时间复杂度会退化为o(n);而树型的“…

PLUS模型和InVEST模型生态系统服务多情景模拟预测、ArcGIS空间数据处理、空间分析与制图、土地利用时空变化

查看原文>>>基于”PLUS模型“生态系统服务多情景模拟预测实践技术应用 目录 第一章、理论基础与软件讲解 第二章、数据获取与制备 第三章、土地利用格局模拟 第四章、生态系统服务评估 第五章、时空变化及驱动机制分析 第六章、论文撰写技巧及案例分析 基于Ar…

B端产品如何搭建用户帮助体系

用户帮助体系可以提升用户的使用体验&#xff0c;引导用户正确的使用产品&#xff0c;并且体验产品的各个功能&#xff0c;B端产品因为其特殊的业务属性和复杂度&#xff0c;通常其学习成本不低。这些成本不仅仅体现在对于复杂业务概念及流程的认知方面&#xff0c;同时体现在整…

零信任网络安全:为什么越来越多的企业选择采用这一方法?

第一章&#xff1a;引言 随着信息化技术的发展和普及&#xff0c;网络安全问题日益严峻&#xff0c;黑客攻击、病毒感染、数据泄露等问题层出不穷&#xff0c;给企业带来了极大的损失。为了保障企业信息安全&#xff0c;企业采取了一系列安全措施&#xff0c;比如加强防火墙、…