R语言数据探索和分析21-中国GDP及其影响因素多元线性回归分析

news2024/10/4 12:23:17

一、研究背景和意义

GDP 是宏观经济中最受关注的经济统计数字,目前我国国内生产总值年均增长率均明显高于同期美、日等发达经济体和巴 西、俄罗斯、南非、印度等其他金砖国家,成为世界经济增长的主力军,GDP 的增长对一个国家有着十分重要的意义,它衡量一国在过去 的一年里所创造的劳动成果,而研究它的影响因素不仅可以很好的了解 GDP 的经济内涵,而且还有利于我们根据这些因素对 GDP 影响大小来宏观经济的有效调控。

因此本文选取1990-2020年的GDP、税收等数据,数据为东方财务网爬取而得,其中包括人口(population),固定资产投资(fixed_investments),消费(consumption_level),净出口(total_export_import_volume),税收(tax),广义M2货币,物价指数(CPI),上述变量作为解释变量X,我国GDP作为被解释变量y,使用多元回归模型对我国GDP增长的因素进行分析。

二、文献综述

戚顺欣(2017年)选取2006年到2013年八年内的沈阳市GDP数据,利用多元回归模型,从多方面入手,选择多个影响因子分析沈阳市GDP增长的主要影响因素[1]。郭崇文(2016年)选取了三个因素,使用eviews软件对GDP与这些因素建立计量模型,并进行相关的统计检验和修正,对我国的经济发展提供借鉴意义[2]。卢金凤(2015年)通过搜集2010年、2013年重庆市能源消费量及地区生产总值,对单位生产总值能耗完成"十二五"规划进行检查和分析,总结完成目标的经验,以便为我国完成降耗目标起到借鉴作用[3]。.....

三、算法原理

....

四、实证分析

数据预处理的四个步骤分别是数据清洗、数据集成、数据变换和数据归约。

进行数据清理是因为现实世界的数据一般是不完整的、有噪声的、是不一致的。数据清理流程试图填充缺失的值、光滑噪声并识别离群点、纠正数据中的不一致。数据集成是指合并来自多个数据存储的数据。数据规约指可以用来得到数据集的规约表示,它小得多,但仍接近于保持原始数据的完整性。数据变换是指将数据格式转变,如将数据变为数值型、分类型数据等等。数据预处理,一方面是为了提高数据的质量,另一方面也是为了适应所做数据分析的软件或者方法。当然了,这四个大步骤在做数据预处理时未必都要执行,在许多情况下完成前两个步骤就可以对数据开始进行分析了。

本文选取1990-2020年的GDP、税收等数据,数据为东方财务网爬取而得,其中包括人口(population),固定资产投资(fixed_investments),消费(consumption_level),净出口(total_export_import_volume),税收(tax),广义M2货币,物价指数(CPI),上述变量作为解释变量X,我国GDP作为被解释变量y。首先进行数据展示,如图1所示。

数据和代码

代码和完整分析报告

具体描述性统计如下,其中包括了各个变量的最大值、最小值、中位数、1/4分位数和3/4分位数等,如表2所示。

install.packages("openxlsx")
library(openxlsx)
# 文件名+sheet的序号
dataset<- read.xlsx("D:/例题/影响经济增长的因素(随机森林回归)/data.xlsx", sheet = 1)
#View(dataset)
dataset

summary(dataset)#####描述性统计分析

表 1 数据整体性描述

GDP

population

Fixed_investments

Consumption_level

min

18923

min

114333

min

4517

min

825

1st Qu

81310

1st Qu

124194

1st Qu

26674

1st Qu

3033

median

185999

median

130756

median

80994

median

5671

mean

333476

mean

129859

mean

171118

mean

9489

3rd Qu

562735

3rd Qu

136324

3rd Qu

305501

3rd Qu

14845

max

1008783

max

141212

max

527270

max

29210

Import_export_volume

tax

M2

CPI

min

5560

min

2822

min

15293

min

98.6

1st Qu

26908

1st Qu

8748

1st Qu

97747

1st Qu

101.5

median

116922

median

28779

median

298756

median

102.6

mean

133990

mean

55933

mean

619342

mean

103.4

3rd Qu

243773

3rd Qu

105572

3rd Qu

1040337

3rd Qu

104.3

max

322215

max

158000

max

2186796

max

117.1

 首先画出1990-2020年GDP的走势情况:

画出特征变量的箱线图,看其分布形状

par(mfrow = c(2, 4)) #让图片以2行5列的形式排列在一张图上
boxplot(dataset$population, main = "population")
boxplot(dataset$fixed_investments, main = "fixed_investments")
boxplot(dataset$consumption_level, main = "consumption_level")
boxplot(dataset$total_export_import_volume, main = "total_export_import_volume")
boxplot(dataset$tax, main = "tax")
boxplot(dataset$M2, main = "M2")
boxplot(dataset$CPI, main = "CPI")

 由图可得,7个特征变量均分布较好且异常值很少。再用ggpairs函数展示出变量间的相关性,以及从下图中的相关系数中也可得出其相关性。

随后算出各个变量直接的相关系数,如下

GDP

人口

固定资产

消费

净出口

税收

M2

物价指数

GDP

1

0.897

0.997

0.998

0.962

0.995

0.997

-0.237

人口

0.897

1

0.886

0.891

0.941

0.902

0.873

-0.382

固定资产

0.997

0.886

1

0.993

0.955

0.996

0.995

-0.234

消费

0.998

0.891

0.993

1

0.947

0.987

0.999

-0.243

净出口

0.962

0.941

0.955

0.947

1

0.972

0.941

-0.267

税收

0.995

0.902

0.996

0.987

0.972

1

0.987

-0.239

M2

0.997

0.873

0.995

0.999

0.941

0.987

1

-0.235

物价指数

-0.237

-0.382

-0.234

-0.243

-0.237

-0.239

-0.235

1

 接下来用GDP对最初的特征变量进行回归,结果如下:

通过观察发现,回归方程的系数的个别因子的p值过大了,导致有些系数没有通过显著性检验。所以接下来需要优化模型即通过t检验来进行逐步回归。

运用向后逐步回归,每次计算AIC值不断剔除一个变量,利用其余变量进行回归;接着剔除再剔除变量直到不能剔除为止,最后能达到更好的回归效果。最终对剔除结果再次进行回归可得,如下:

##逐步回归
fit1 <- step(fit,direction = "backward") 
summary(fit1)
fit2 <- lm(GDP~population+consumption_level+total_export_import_volume +tax ,data=dataset)
summary(fit2)
fit2_step <- step(fit2)
summary(fit2_step)

依次剔除了变量fixed_investments,M2,CPI。回归系数的显著性水平有所提高。此时。并且p值均较小,说明回归系数显著。向后删除的逐步回归过程结束后,最终只剩下4个自变量。这6个自变量已经足以用来解释该方程了。....

最终模型为:

接下来进行模型检验

#异方差检验
library(foreign)
library(zoo)
lmtest::bptest(fit2_step)

表 3 异方差检验结果

Stufentsized Breusch-Pagan test

Data: fit2_step

BP= 2.8563,  df=4 , p_value=0.5822

由于p值>0.1可认为该模型不存在异方差性。

 

###自相关检验 DW
library(lmtest)
dwtest(fit2_step)
#因为dw>0.05所以不拒绝原假设,即认为是不相关的

表 4 自相关检验

Durbin-watson test

Data: fit2_step

DW= 0.98122,  p_value=0.00002874

Alternative hyphothesis: true autocorrelation is greater than 0

DW检验的原假设为:误差不相关!

因为dw>0.05所以不拒绝原假设,即认为误差是不相关的。

五、结论与建议

本文对1990—2020年间GDP和各个行业增加值的数据 进行描述性分析和多元线性分析,根据数据可以给出以下建议:在回归模型下,基于逐步回归合理删除变量之后,本文得到对GDP均有影响的4个变量的t检验都非常的显著,它们是对GDP均有影响的4个变量。分别是人口、消费、净出口额、税收。故若希望GDP能稳定持续增长,则需要注重在这几个变量上.....

参考文献

  1. 戚顺欣,傅格格,张馨予.基于多元回归模型沈阳市GDP影响因素分析[J].商场现代化,2017(09):170-171.DOI:10.14013/j.cnki.scxdh.2017.09.096.
  2. 郭崇文.我国GDP的影响因素分析[J].商,2016(16):204.
  3. 卢金凤,彭莉莎.重庆市单位GDP能耗影响因素分析[J].合作经济与科技,2015(23):13-14.DOI:10.13665/j.cnki.hzjjykj.2015.23.005.

创作不易,希望大家多点赞关注!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1793191.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

30天变现5位数,涨粉2w,用AI做治愈系插图,5分钟一套,太香了(附工具教程)

前段时间和一位朋友聊天&#xff0c;他说现在靠 AI 赚到钱的&#xff0c;全是那些卖课的&#xff01;还说得很气愤。 我竟然一时不知道说什么好。 虽然我并不认同他的说法&#xff0c;但也没有再说什么了。 因为人们往往会根据自己已有的认知体系&#xff0c;去判断一件事。…

【Python字符串攻略】:玩转文字,编织程序的叙事艺术

文章目录 &#x1f680;一.字符串基础&#x1f308;二.查看数据类型⭐三.转化❤️四.字符串索引&#x1f6b2;五.字符串切片&#x1f3ac;六.字符串切片-步长☔七.反向切片注意事项&#x1f6b2;八.字符串&#x1f4a5;查&#x1f4a5;改&#x1f4a5;删 ❤️九.字符串拼接&…

引擎:UI

一、控件介绍 Button 按钮 创建一个按钮 按钮禁用 精灵模式 颜色模式 缩放模式 绑定点击事件 EditBox 输入框 Layout 布局 支持水平排列、垂直排列、背包排列 PageView 页面视图 ProgressBar 进度条 RichText 富文本 绑定点击事件 事件可以被其它标签包裹 图文混排 Scroll…

2年JAVA今日头条3轮面试经历

面头条的时候已经是十月底了。大半个月没有面试&#xff0c;之前准备的知识点比如http状态码之类的记忆性的东西&#xff0c;早就忘光了。 二面的时候问了一堆状态码&#xff0c;全都不记得了。面试官态度很好&#xff0c;跟我说&#xff0c;你现在不记得了&#xff0c;说明你…

[数据集][目标检测]医疗防护服检测数据集VOC+YOLO格式649张7类别

数据集格式&#xff1a;Pascal VOC格式YOLO格式(不包含分割路径的txt文件&#xff0c;仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)&#xff1a;649 标注数量(xml文件个数)&#xff1a;649 标注数量(txt文件个数)&#xff1a;649 标注类别…

骨传导耳机有哪些是值得入手的?看完这篇推荐就懂了!

骨传导耳机在运动圈非常的受欢迎&#xff0c;因为佩戴运动的时候&#xff0c;骨传导耳机能够稳固佩戴&#xff0c;无论是跳跃或者是摇晃身体等&#xff0c;耳机都不会轻易掉落&#xff01;而很多朋友对于骨传导耳机总是想尝试却又害怕掉坑&#xff01;于是为了给大家提供更多的…

Gradio.NET:一个快速制作演示demo网页的利器

Gradio介绍 Gradio是一个用于创建机器学习模型交互界面的Python库。它允许开发者快速为他们的模型创建一个简单的web界面&#xff0c;以便于非技术用户和其他开发者进行交互和测试。 Gradio的主要优点是易用性和灵活性。你只需要几行代码就可以为你的模型创建一个交互界面。你…

前端实现输入内容计算密码强度

提示:记录工作中遇到的需求及解决办法 文章目录 前言一、思路二、计算密码强度分数密码强度动画展示效果完善动画效果完整代码前言 平时我们在浏览各种网站和 APP 的时候,都接触过密码这个东西~ 密码设置的好不好,关乎到你的账号安全性,越复杂的密码越安全,所以密码强度…

【Python数据挖掘实战案例】机器学习LightGBM算法原理、特点、应用---基于鸢尾花iris数据集分类实战

一、引言 1、简要介绍数据挖掘的重要性和应用 在数字化时代&#xff0c;数据已经成为企业和社会决策的重要依据。数据挖掘作为一门交叉学科&#xff0c;结合了统计学、机器学习、数据库技术和可视化等多个领域的知识&#xff0c;旨在从海量数据中提取有价值的信息&#xff0c…

智能水位监测识别报警摄像机:保障水域安全的重要利器

随着城市化进程的加速和气候变化的影响&#xff0c;对水域安全的关注日益增加。为了及时监测水位变化并采取相应措施&#xff0c;智能水位监测识别报警摄像机应运而生。本文将介绍这一创新技术的应用和优势。 传统的水位监测方法通常依赖于传感器&#xff0c;但其存在着安装位置…

哪款开放式耳机佩戴最舒服?2024五款备受推崇产品分享!

​作为一位耳机领域的资深数码评测师&#xff0c;我极力推荐开放式耳机作为日常佩戴之选。这款耳机凭借其创新的非入耳设计&#xff0c;有效避免了传统入耳式耳机长时间佩戴导致的耳道不适和感染风险&#xff0c;同时提供了稳固舒适的佩戴体验&#xff0c;特别适合运动爱好者如…

关于安装typescript后运行tsc -v命令报错问题

报错信息&#xff1a; tsc 不是内部或外部命令&#xff0c;也不是可运行的程序 或批处理文件。 没有配置环境变量&#xff0c;使用npm命令查看typescript的安装目录&#xff1a; npm config get prefix 根据控制台输出的目录&#xff0c;配置path环境变量 tsc -v 运行成功&…

【WEB自动化面试02--学习过程的问题及解决】

day01 1、报错获取不到浏览器二进制文件&#xff1a;需要指定浏览器路径及驱动路径。 第一次使用谷歌浏览器驱动&#xff0c;找不到二进制文件报错&#xff1a; selenium.common.exceptions.WebDriverException: Message: unknown error: cannot find Chrome binary Stacktra…

Rust基础学习-Rust中的文件操作

文件结构 在Rust中&#xff0c;std::fs::File 结构体代表一个文件。它允许我们对文件执行读/写操作。文件 I/O 是通过提供与文件系统交互的功能的 std::fs 模块执行的。 File 结构体中的所有方法都返回std::io::Result的变体&#xff0c;或者简单地是 Result 枚举。这里会涉及…

开发项目功能开发设计模板

功能开发设计是一个系统化的过程&#xff0c;旨在确保新功能的开发既满足用户需求又符合技术标准。以下是一个适用于大多数软件开发项目功能开发设计模板&#xff1a;

短信群发平台为什么要用网页版的短信平台呢

短信群发平台选择使用网页版短信平台的原因可以归纳为以下几点&#xff1a; 1.操作简便&#xff1a; 网页版短信群发平台通常具有直观易用的界面&#xff0c;用户无需下载或安装任何软件&#xff0c;只需通过浏览器即可访问。 使得用户可以随时随地轻松进行短信发送和管理&a…

React中实现大模型的打字机效果

React 想实现一个打字机的效果&#xff0c;类似千问、Kimi 返回的效果。调用大模型时&#xff0c;模型的回答通常是流式输出的&#xff0c;如果等到模型所有的回答全部完成之后再展示给最终用户&#xff0c;交互效果不好&#xff0c;因为模型计算推理时间比较长。本文将采用原生…

Vue3+.NET6前后端分离式管理后台实战(二十五)

1&#xff0c;Vue3.NET6前后端分离式管理后台实战(二十五)已经在微信公众号更新&#xff0c;有兴趣的扫码关注一起交流学习。

企业购买一套ABAQUS需要多少钱?ABAQUS价格解析

在高性能仿真分析领域&#xff0c;ABAQUS软件凭借其强大的非线性分析能力、精确的求解精度以及广泛的应用范围&#xff0c;成为众多企业和研究机构的首选工具。然而&#xff0c;对于想要采购ABAQUS的企业来说&#xff0c;了解其价格体系是做出投资决策前的关键一步。亿达四方&a…

【全开源】数据大屏系统源码(ThinkPHP+FastAdmin)

&#x1f4c8;数据大屏系统&#xff1a;可视化数据的魅力舞台&#x1f5a5; 基于ThinkPHPFastAdmin开发的数据大屏&#xff0c;可视化义拖拽快速制作数据大屏/科技大屏&#xff0c; 内置30组件、获取实时数据、使用简单易上手&#xff0c;轻松实现图形数据统计等。​ 一、引言…