横截面数据回归

news2024/11/16 20:32:59

横截面数据回归

一些笔记

观测值一定要比参数值多
p值<0.05,拒绝H0.
参数显著,不能说明模型对
AIC与BIC准则,越小越好的指标值AIC
回归分析一定要进行残差的正态性检验。所有的残差都大于0,小于0,都不正常。残差正常应该是分布在0的附近,有正有负,它应该是随机的
残差的正态性检验:检验统计量,是否复合正态分布,QQ图检验正态性
经验分布函数与生存分析函数是相反的
多重共线性:
1.判断是否存在多重共线性VIF>10即存在多重共线性

实验

公路一氧化碳数据

数据:
image

先进行一般的回归,假定残差服从正态分布,也是最简单的线性回归,我们先拟合看一看效果怎么样。
C O = β 0 + β 1 H o u r + β 2 T r a f f i c + β 3 W i n d + ε CO = \beta_0+\beta_1Hour+\beta_2Traffic+\beta_3Wind+\varepsilon CO=β0+β1Hour+β2Traffic+β3Wind+ε
以最小二乘法拟合,得到参数估计值
代码:

w <- read.table("D:/cofreewy.txt",header = TRUE)
head(w)
a=lm(CO~.,w)#利用3个自变量做线性回归
summary(a)#展示结果
b=step(a,direction="backward")#逐步回归
summary(b)#展示逐步回归结果

image

由此可以看出,我们拟合的模型是:
C O = 1.274 + 0.018 ∗ T r a f f i c + 0.175 ∗ W i n d CO = 1.274+0.018*Traffic+0.175*Wind CO=1.274+0.018Traffic+0.175Wind
由此可以看出,我们拟合的模型是:
C O = 1.274 + 0.018 ∗ T r a f f i c + 0.175 ∗ W i n d CO = 1.274+0.018*Traffic+0.175*Wind CO=1.274+0.018Traffic+0.175Wind

  • R 2 R^2 R2表示线性回归模型中自变量X解释的响应变量y的变化比例.
  • R 2 R^2 R2越大,说明自变量X对响应变量y的解释越强.

这个模型在统计意义上已经不能说明模型对,因为残差是否满足正态分布,我们还不知道,毕竟回归的前提是假设残差满足正态分布。
我们再来看一下残差的分布情况,看看它是否服从正态分布。

shapiro.test(b$res)#做残差的正态性检验

image

我们可以看出p值>0.05,不拒绝原假设(注意:不是接受原假设,是不拒绝原假设),我们可以假设残差服从正态分布。
但这样是不是就好了,这就是最好的模型呢?

qqnorm(b$res);qqline(b$res)#做残差的QQ图.

image
这种线性回归,首先是假定了它的残差是服从正态分布,模型建出来之后,通过QQ图检验它的残差是否真的服从正态分布,那如图所示,如果没有很好的服从或者渐进服从正态呢?怎么办?

注意:在小样本情况下p值0.05的界限不能完全诠释模型优劣
重新拟合,不用线性,用非线性

在此之前让我们先看一看各个属性之间的关系是什么,绘制散点图看一看。

attach(w) #把变量名字放入内存
par(mfrow=c(2,3)) #建立6个图的摆放模式
plot(CO~Traffic);plot(CO~Hour);plot(CO~Wind)
plot(Traffic~Hour);plot(Wind~Hour);plot(Traffic~Wind)
# 也可以直接plot(w),用一行代码直接绘制所有属性的关系。

image
这样就很清楚了,那两个变量之间需要线性关系,那两个之间需要非线性关系,一目了然。
我们可以清晰的看到线性、三角函数,那那个既非线性又非三角函数的周期函数呢?用傅里叶级数。

法国数学家傅里叶认为,任何周期函数都可以用正弦函数和余弦函数构成的无穷级数来表示(选择正弦函数与余弦函数作为基函数是因为它们是正交的),后世称傅里叶级数为一种特殊的三角级数,根据欧拉公式,三角函数又能化成指数形式,也称傅立叶级数为一种指数级数。

# 计算相关系数
cor(cbind(CO,Traffic,Tsq=Traffic^2,Tcub=Traffic^3,
          Hour,Hsq=Hour^2,Hcub=Hour^3,Wind,Wsq=Wind^2,Wub=Wind^3))

注:cbind()函数是R语言中用于合并数据框的函数,它可以将多个数据框按照列合并。
image

# 回归
lm2 <- lm(CO~Traffic+Wind+I(Wind^2)+I(Wind^3)+sin((2*pi/24)*Hour)+
            cos((2*pi/24)*Hour)+sin((4*pi/24)*Hour)+cos((4*pi/24)*Hour))
summary(lm2)
lm3<- step(lm2)
summary(lm3)
anova(lm3)
shapiro.test(lm3$res)
# 去掉不显著的重新拟合
lm4 <- lm(CO~Traffic+Wind+I(Wind^2)+
            cos((2*pi/24)*Hour)+cos((4*pi/24)*Hour))
summary(lm4)
anova(lm4)
shapiro.test(lm4$res)
qqnorm(lm4$res)
qqline(lm4$res)

image

最后的拟合模型为:
C O = 1.38 + 0.017 ∗ T r a f f i c + 0.459 ∗ W i n d − 0.057 W i n d 2 − 0.366 c o s ( ( 2 ∗ p i 24 ) ∗ H o u r ) + 0.38 c o s ( ( 4 ∗ p i 24 ) ∗ H o u r ) + ε CO = 1.38+0.017*Traffic+0.459*Wind-0.057Wind^2-0.366cos((\frac{2*pi}{24})*Hour)+0.38cos((\frac{4*pi}{24})*Hour)+\varepsilon CO=1.38+0.017Traffic+0.459Wind0.057Wind20.366cos((242pi)Hour)+0.38cos((244pi)Hour)+ε

注:其中 ε \varepsilon ε表示残差,即 C O i − C O ^ i CO_i-\hat{CO}_i COiCO^i
注意 R 2 R^2 R2,此模型要更好


总结:

  1. 线性回归模型中,如果残差服从正态分布,则可以认为模型是合理的。
  2. P值不是万能的,好的模型还是要不断试一试才能出来。
  3. 回归是否有意义,还是要放在实际背景中去看

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1892209.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

p2p、分布式,区块链笔记:试用ZeroTier组网

ZeroTier 是一种用于创建和管理虚拟局域网&#xff08;Virtual Local Area Network&#xff0c;VLAN&#xff09;的软件定义网络&#xff08;SDN&#xff09;解决方案。它可以通过互联网将多个设备安全地连接在一起&#xff0c;就像它们在同一个本地网络上一样。主要开发语言为…

rust + mingw安装教程

0. 说明 windows上安装rust时&#xff0c;需要在电脑上安装C/C构建工具。推荐的的两种工具链可以选择&#xff1a; visual studio build toolsmingw 官方推荐使用visual studio&#xff0c;若你的电脑上已经安装了visual studio&#xff0c;则无需再安装&#xff0c;直接安装…

GPT Prompt冠军调教技巧CO-STAR

新加坡政府科技局 (GovTech) 举办的首届 GPT-4 提示工程大赛冠军Sheila Teo分享了她的一些提示撰写技巧及案例分析。 使用 CO-STAR 框架撰写Prompt CO-STAR是结构化的Prompt模版六大要素的首字母缩写&#xff0c;即&#xff1a; © Context 上下文&#xff1a;为任务提供背…

vue3进阶,渲染函数使用

目录 渲染函数使用场景 h() 渲染函数 渲染函数基础写法 渲染函数的组件传参&#xff0c;事件传递 渲染函数的插槽使用 结语 渲染函数使用场景 在写这篇文章之前&#xff0c;我会先简单说一下渲染函数&#xff0c;并且我会在第一个渲染函数的介绍中&#xff0c;标名渲染函数…

算法力扣刷题记录 二十八【225. 用队列实现栈】

前言 栈和队列篇。 记录 二十八【225. 用队列实现栈】 一、题目阅读 请你仅使用两个队列实现一个后入先出&#xff08;LIFO&#xff09;的栈&#xff0c;并支持普通栈的全部四种操作&#xff08;push、top、pop 和 empty&#xff09;。 实现 MyStack 类&#xff1a; void p…

单片机关键任务优先级的实现学习

与总体产品联调时&#xff0c;需要各个单机系统严格按照总体要求&#xff0c;进行数据输出&#xff0c;时间的偏差将出现系统异常&#xff0c;控制失败等不稳定情况产生&#xff0c;甚至影响到产品安全。 因此必须确保某些关键任务的优先执行。单片机任务优先级一般有两种方式…

My sql 安装,环境搭建

以下以MySQL 8.0.36为例。 一、下载软件 1.下载地址官网&#xff1a;https://www.mysql.com 2. 打开官网&#xff0c;点击DOWNLOADS 然后&#xff0c;点击 MySQL Community(GPL) Downloads 3. 点击 MySQL Installer for Windows 4.点击Archives选择合适版本 5.选择后下载…

【国产开源可视化引擎Meta2d.js】锚点

国产开源 乐吾乐潜心研发&#xff0c;自主可控&#xff0c;持续迭代优化 Github&#xff1a;GitHub - le5le-com/meta2d.js: The meta2d.js is real-time data exchange and interactive web 2D engine. Developers are able to build Web SCADA, IoT, Digital twins and so …

神经网络入门:从零到训练

想要认识神经网络&#xff0c;个人认为还是需要先从回归开始理解 线性回归 回归&#xff08;regression&#xff09;是能为一个或多个自变量与因变量之间关系建模的一类方法。 在自然科学和社会科学领域&#xff0c;回归经常用来表示输入和输出之间的关系。 在机器学习领域中…

【Python机器学习】算法链与管道——构建管道

目录 1、首先&#xff0c;我们构建一个由步骤列表组成的管道对象。 2、向任何其他scikit-learn估计器一样来拟合这个管道 3、调用pipe.score 我们来看下如何使用Pipeline类来表示在使用MinMaxScaler缩放数据后&#xff0c;再训练一个SVM的工作流程&#xff08;暂时不用网格搜…

你知道是怎么运作的吗?神经网络内部原理解析

你知道神经网络是怎么运作的吗&#xff1f;神经网络内部原理解析 “神经网络就是一个具有输入和输出的黑盒” 神经网络模型就是模仿人类大脑神经元传递的过程&#xff0c;从使用者的角度来说&#xff0c;神经网络就是一个具有输入和输出的黑盒模型。 简化模型如下图&#xf…

python 比webdriver更好用的ChromiumPage

优点&#xff08;目前发现的&#xff09;&#xff1a; 不用配合selenium不用下载对应浏览器的webdriver&#xff0c;不用对应浏览器版本不用设置webdriver路径之类的设置目前没看到有出现像webdriver类似的浏览器被控制的提示&#xff0c;使用过程中好像也没被检测出来。每次不…

JAVA实现二分查找,斐波那契数列,深度优先搜索详情教程【包含代码】

本人详解 作者:王文峰,参加过 CSDN 2020年度博客之星,《Java王大师王天师》 公众号:JAVA开发王大师,专注于天道酬勤的 Java 开发问题中国国学、传统文化和代码爱好者的程序人生,期待你的关注和支持!本人外号:神秘小峯 山峯 转载说明:务必注明来源(注明:作者:王文峰…

《企业实战分享 · 内存溢出分析》

&#x1f4e2; 大家好&#xff0c;我是 【战神刘玉栋】&#xff0c;有10多年的研发经验&#xff0c;致力于前后端技术栈的知识沉淀和传播。 &#x1f497; &#x1f33b; 近期刚转战 CSDN&#xff0c;会严格把控文章质量&#xff0c;绝不滥竽充数&#xff0c;如需交流&#xff…

计算机系统中---信息就是位+上下文

hello.c #include <stdio.h>int main(){printf("hello,world\n");return 0; }hello程序的生命周期是从一个源程序(或者说源文件)开始的&#xff0c;即程序员通过编辑器创建并保存的文本文件&#xff0c;文件名是he11o.c。源程序实际上就是一个由值0和1组成的位…

推荐三款常用接口测试工具!

接口测试是软件开发中至关重要的一环&#xff0c;通过对应用程序接口进行测试&#xff0c;可以验证其功能、性能和稳定性。随着互联网和移动应用的快速发展&#xff0c;接口测试变得越来越重要。为了提高测试效率和质量&#xff0c;开发人员和测试人员需要使用专业的接口测试工…

复分析——第8章——共形映射(E.M. Stein R. Shakarchi)

第8章 共形映射(Conformal Mappings) The results I found for polygons can be extended under very general assumptions. I have undertaken this research because it is a step towards a deeper understanding of the mapping problem, for which not much has hap…

开放式耳机哪个牌子好?2024热门硬核机型推荐,不做冤大头

很多小伙伴私信我&#xff0c;想要挑选一款开放式耳机真的好难啊&#xff0c;现在开放式耳机市场的产品越来越多&#xff0c;知名的品牌和一些新兴的网红品牌哪一个最好&#xff1f;所以这篇文章&#xff0c;作为开放式耳机测评师&#xff0c;教大家如何挑选一款开放式耳机&…

工作助手VB开发笔记(1)

1.思路 1.1 样式 样式为常驻前台的一个小窗口&#xff0c;小窗口上有三到四个按钮&#xff0c;为一级功能&#xff0c;是当前工作内容的常用功能窗口&#xff0c;有十个二级窗口&#xff0c;为选中窗口时的扩展选项&#xff0c;有若干后台功能&#xff0c;可选中至前台 可最…

学生护眼台灯哪个牌子最好?几款口碑好、值得推荐的学生护眼台灯

家长们对孩子的用眼健康很重视&#xff0c;为什么&#xff1f;现在是科技电子时代&#xff0c;人们对电子屏幕的依赖性高&#xff0c;小孩子年纪小&#xff0c;眼部还处于正在发育的阶段&#xff0c;他们在学校中长时间的学习读写&#xff0c;用眼时间长。而且随着科技渗入教学…