【R语言从0到精通】-4-回归建模

news2024/11/23 18:15:22

通过之前的文章,我们已经基本掌握了R语言的基本使用方法,那从本次教程开始,我们开始聚焦如何使用R语言进行回归建模。


4.1 回归简介

回归分析是一种统计学方法,用于研究两个或多个变量之间的相互关系和依赖程度。它可以帮助我们了解一个或多个自变量(解释变量)如何影响因变量(响应变量)。在回归分析中,通常假设存在某种因果关系,即自变量的变化会导致因变量的变化。

回归分析可以分为多种类型,其中最常见的是线性回归和多项式回归。线性回归试图找到一条直线来最好地拟合数据点,而多项式回归则寻找一个多项式函数来描述变量之间的关系。此外,还有逻辑回归、岭回归、套索回归等不同的回归模型,它们适用于不同类型的数据和分析需求。

在实际应用中,回归分析被广泛使用于预测和建模任务,比如在经济学中预测房价与房屋特征的关系,或者在医学研究中分析疾病发病率与生活习惯的关联。通过构建回归模型,研究者可以估计出特定自变量变化对因变量的影响大小,并据此做出预测。

进行回归分析时,通常会计算一个统计量——决定系数(R²),它表示模型对数据的拟合程度。R²值的范围从0到1,越接近1意味着模型的解释能力越强。然而,高R²值并不总是意味着模型就一定是好的,因为可能存在过拟合问题,即模型过于复杂以至于捕捉到了数据中的噪声而非底层规律。

4.2 OLS回归

普通最小二乘回归(Ordinary Least Squares, OLS)是一种基本的回归分析方法,它广泛应用于经济学、金融学、生物学、市场营销等多个领域。OLS回归的核心思想是通过最小化误差的平方和来寻找数据的最佳函数匹配。具体来说,OLS回归试图找到一组参数,使得模型预测值与实际观测值之间的差的平方和达到最小。

在使用OLS回归时,我们首先设定一个回归方程,这个方程定义了因变量(Y)与一个或多个自变量(X1, X2, ..., Xk)之间的关系。然后,OLS回归算法会计算出一个系数向量β,这个向量包含了各个自变量对应的最优权重,以便得到最佳的预测模型。

4.2.1 简单线性回归

我们使用lm函数进行函数拟合,我们以身高体重两个变量进行回归分析,使用内置数据集women

fit <- lm(weight ~ height, data = women)
summary(fit)

我们可视化我们的回归直线及数据点:

plot(women$height, women$weight,
     xlab = '身高',
     ylab = '体重',
     abline(fit))

通过summary的结果,我们知道这个方程是:

体重 = -87.52 + 3.45*身高

4.2.2 多项式回归

我们可以通过添加一个二次项(X方)来提高回归准确度。

fit2 <- lm(weight ~ height + I(height^2), data = women)
summary(fit2)

我们再进行可视化拟合:

plot(women$height, women$weight,
     xlab = '身高',
     ylab = '体重',
     lines(women$height,fitted(fit2))

 

我们发现这个时候的拟合曲线比之前的要好,这时的拟合方程是:

体重 = 261.88 -7.35*身高 +0.083*身高^2

我们也可以实现n次多项式回归拟合,比如我们实现三次多项式拟合:

fit3 <- lm(weight ~ height + I(height^2) + I(height^3), data = women)
plot(women$height, women$weight,
     xlab = '身高',
     ylab = '体重')
lines(women$height,fitted(fit3))

4.2.3 多元线性回归

当我们遇到的问题有不止一个变量时,简单考虑x与y的关系并不能提高模型的准确度。比如我们探究一个因变量与若干自变量的关系,我们使用米国犯罪率与各个因素之间的数据进行拟合。我们选取犯罪率与人口、文盲率、平均收入及结霜天数进行多元线性回归。

一、单一变量间的相关性及进行线性拟合:

states <- as.data.frame(state.x77[,c('Murder','Population',
                                     'Illiteracy','Income','Frost')])   #选取自变量
cor(states)    #计算相关性
library(car)
scatterplotMatrix(states, spread = FALSE,
                  smoother.args = list(lty = 2),
                  main = "Scatter Plot Matrix")    #绘制综合分析矩阵

我们可以看到不同变量之间的相关性:

我们绘制每个变量的密度图与拟合图:

       

比如谋杀率随着人口及文盲率的增加而增加,这样我们会对各个自变量与因变量之间的关系有个大致的了解。

二、每个变量相互独立的多元线性回归拟合方程:

我们还是通过lm函数进行拟合:

fit <- lm(Murder ~ Population + Illiteracy + Income + Frost, data = states)
summary(fit)

有星号的自变量是与犯罪率呈现某种关系的项,而其他项应该不呈现某种线性关系,我们通过value值来判断变量对于犯罪率的影响,比如文盲率的4是表示,在其他条件不变的情况下,文盲率每升高1%,则犯罪率升高4%。

三、变量间存在交互的多元线性回归:

 当两个变量会对一个因变量产生影响,而且两个自变量间存在一定关系,我们可以进行存在交互项的回归。一般交互项通过相除建立一个新的自变量,然后给这个自变量拟合一个系数

install.packages("MASS") # 如果没有安装MASS包,则需要先安装
library(MASS)
set.seed(123) # 设置随机种子以便结果可复现
n <- 100 # 样本大小
x1 <- rnorm(n) # 生成第一个解释变量
x2 <- rnorm(n) # 生成第二个解释变量
interaction_term <- x1 * x2 # 计算交互项
error <- rnorm(n, sd = 0.5) # 生成误差项
y <- 2 + 3*x1 - 2*x2 + 4*interaction_term + error # 生成响应变量
model <- lm(y ~ x1 + x2 + x1:x2) # 拟合包含交互项的模型
summary(model) # 查看模型摘要
# 绘制原始数据的散点图
plot(x1, y, xlab = "x1", ylab = "y", main = "Scatter plot of y vs x1")
abline(lm(y ~ x1), col = "red") # 添加线性回归线

# 绘制x2与y的关系图
plot(x2, y, xlab = "x2", ylab = "y", main = "Scatter plot of y vs x2")
abline(lm(y ~ x2), col = "blue") # 添加线性回归线

# 绘制交互项与y的关系图
plot(interaction_term, y, xlab = "Interaction term", ylab = "y", main = "Scatter plot of y vs Interaction term")
abline(lm(y ~ interaction_term), col = "green") # 添加线性回归线

 

 4.2.4 回归诊断

我们之前的拟合一般通过summary函数进行模型参数的获取,或者可视化看一下拟合,但是没有精确的指标指示拟合的好坏,因此我们学习如何进行回归诊断。

一、置信度:

我们可以查看置信区间,通过函数confint。

states <- as.data.frame(state.x77[,c('Murder','Population',
                                     'Illiteracy','Income','Frost')])   #选取自变量
fit <- lm(Murder ~ Population + Illiteracy + Income + Frost, data = states)
confint(fit)

 

二、标准方法:

我们通过绘制判断回归正确性的四个图来进一步分析:

par(mfrow = c(2,2))
plot(fit)

我们来介绍一下这四个图的含义:

  1. 残差图(Residuals vs Fitted)‌:
    这个图展示了模型拟合值与残差之间的关系。理想情况下,我们希望看到残差均匀分布在零附近,没有明显的模式或趋势。如果残差随着拟合值的增加而系统性地增加或减少,这可能表明模型没有很好地捕捉到数据的某些方面,或者存在异方差性。

  2. 正态Q-Q图(Normal Q-Q)‌:
    正态Q-Q图用于检查残差的分布是否近似正态分布。图中会画出一条直线,表示如果数据完全来自正态分布时的期望位置。如果实际观测点紧密地围绕这条线分布,那么可以认为残差接近正态分布。偏离这条线可能意味着残差分布的非正态性,这可能会影响统计推断的准确性。

  3. Scale-Location图(Scale-Location)‌:
    这个图通常用来检测异方差性,即误差项的方差是否与预测值有关。图中横轴是拟合值,纵轴是残差的绝对值或平方根。如果这些点形成一条水平线,则说明误差方差是常数;如果点的分布呈现某种模式,如上升或下降的趋势,则可能表明存在异方差性。

  4. 残差与杠杆图(Residuals vs Leverage)‌:
    此图结合了残差和杠杆值的信息,用于检测异常值和强影响点。杠杆值衡量了每个观测点对拟合的影响程度,高杠杆的点可能是异常值或强影响点。图中通常会画出Cook's距离的轮廓线,帮助识别那些可能对回归系数估计产生较大影响的观测点。

不过当我们想要通过删除数据来提高模型的准确度的时候,一定要记住,是模型去拟合数据,而不是数据去拟合模型。

三、改进方法:

我们使用car这个包,这个包里对于回归诊断参数的图有独立的个性化的可视化方法,绘制比刚刚plot函数更丰富更有效率的图片。

(1)QQ plot

library(car)
par(mfrow = c(1,1))
qqPlot(fit, labels=row.names(states), id.method="identify", simulate=TRUE, main="Q-Q Plot")

 

且图片中显示出两个异常的点。

(2)Stu残差图:

residplot <- function(fit, nbreaks=10) {
                   z <- rstudent(fit)
hist(z, breaks=nbreaks, freq=FALSE,
     xlab="Studentized Residual",
     main="Distribution of Errors")
rug(jitter(z), col="brown")
curve(dnorm(x, mean=mean(z), sd=sd(z)),
      add=TRUE, col="blue", lwd=2)
lines(density(z)$x, density(z)$y,
      col="red", lwd=2, lty=2)
legend("topright",
       legend = c( "Normal Curve", "Kernel Density Curve"),
       lty=1:2, col=c("blue","red"), cex=.7)
           }
residplot(fit)

除了一个离群点外,其他点均符合正态分布。

(3)其他重要图:

我们还可以绘制部分残差图来检查非线性关系,特别是当预测变量之间可能存在交互作用时。

par(mfrow = c(2,2))
for (i in 1:ncol(states)) {
  plot(states[,i], resid(fit), main = names(states)[i])
}
crPlots(fit)

四、强影响点判断:

我们在数据中,可能因为某一个点的强大影响导致模型发生较大变化,因此我们需要鉴定这样的点。 

par(mfrow = c(1,1))
cutoff <- 4/(nrow(states)-length(fit$coefficients)-2)
plot(fit, which=4, cook.levels=cutoff)
abline(h=cutoff, lty=2, col="red")

我们还可以整合离群点、杠杠值和强影响点。

influencePlot(fit)

4.2.5 回归改进

 在日常工作中,我们可以通过删除异常值来帮助模型优化,但是许多时候,在数据中含有的离群点并不一定是异常值,也是模型的一部分。

一、模型比较:

我们可以使用R语言自带的anova函数进行不同模型的比较。

states <- as.data.frame(state.x77[,c('Murder','Population',
                                     'Illiteracy','Income','Frost')])   #选取自变量
fit1 <- lm(Murder ~ Population + Illiteracy + Income + Frost, data = states)
fit2 <- lm(Murder ~ Population + Illiteracy, data = states)
anova(fit1,fit2)

我们可以得到模型中加入考虑收入和绿化率是没什么必要的。

我们还可以使用AIC函数进行不同模型的比较:

AIC(fit1,fit2)

AIC值越小的模型是越好的模型。

二、变量选择:

在上述的例子中,我们已经能做出什么变量是我们所需的判断,但是在很多建模过程中,我们是不知道要选择什么样的模型的,因此模型选择是非常关键的,我们可以使用逐步回归法和全子集法。

1.逐步回归法:

我们可以对模型使用向前回归或者向后回归,向前回归就是在模型中逐个加入变量,直到模型的准确度不再发生变化,向后回归是在模型中先考虑全部的变量,然后再逐个减去变量。准确度通过AIC值来进行判断。

#向后回归
library(MASS)
fit <- lm(Murder ~ Population + Illiteracy + Income + Frost, data = states)
stepAIC(fit, direction = 'backward')

但是逐步回归法不能考虑到每一种情况,因此我们选择全子集回归。

2.全子集回归:

我们使用leaps包的regsubsets函数实现,通过我们之前学习的模型评价指标进行判定。

library(leaps)
leap <- regsubsets(Murder ~ Population + Illiteracy + Income + Frost, data = states,
                   nbest = 4)
plot(leap,scale = 'adjr2')

通过这个图我们能发现不同变量排列组合后,根据R2的值大小进行选择,R2大的为我们最优的选择。

4.3 深入分析

我们对于模型的泛化能力及相对重要性进行评估。

4.3.1 交叉验证

我们刚刚一直在进行方程参数的拟合,但是在面对实际问题的时候,我们会想要对数据进行预测,也就是通过我们拟合出的方程对某个预测变量进行预测。

交叉验证在我之前讲的R语言深度学习的教程中就是表示我们对于数据集拆分,一部分作为拟合模型的数据,而另外一些数据作为验证集。其实学到这里就可以学习我的R语言深度学习相关课程了。

我们可以进行n重交叉验证,也就是把数据分为n分样本,然后使用n-1份样本作为拟合,1个样本作为验证集。我们使用caret包进行交叉验证,交叉验证的方法为"cv"(cross-validation)以及折数(folds)为10。

library(caret)
# 创建一个线性模型公式
model_formula <- Murder ~ Population + Illiteracy + Income + Frost
# 设置交叉验证参数
control <- trainControl(method = "cv", number = 10)
# 使用train函数训练模型并进行交叉验证
set.seed(123) # 设置随机种子以便结果可复现
fit <- train(model_formula, data = states, method = "lm", trControl = control)
# 查看模型的汇总信息
print(fit)

结果如下:

RMSE (Root Mean Squared Error): 均方根误差是衡量模型预测值与实际观测值之间差异的一个指标。较低的RMSE值意味着模型的预测更准确。
Rsquared: R平方值衡量的是模型解释的变异量占总变异量的比例。它的值介于0和1之间,越接近1表明模型拟合得越好。
MAE (Mean Absolute Error): 平均绝对误差是另一种衡量预测误差的指标,它计算的是预测值与实际值之差的绝对值的平均值。
MPG: 如果您的数据集中有关于每加仑英里数(Miles Per Gallon)的信息,那么这部分可能展示的是该变量的预测情况。
Tuning parameter: 调整参数部分会列出模型训练过程中尝试的不同参数组合及其对应的性能指标。

4.3.2 相对重要性

之前我们对于变量进行了选择,但是有没有方法可以得到每个变量的贡献度,也就是其相对重要性。这里我们使用一个高级的方法,机器学习的随机森林算法:

library(randomForest)

# 准备数据集
states <- as.data.frame(state.x77[, c('Murder', 'Population', 'Illiteracy', 'Income', 'Frost')])

# 使用randomForest函数训练模型并获取变量重要性
set.seed(123) # 设置随机种子以确保结果的可重复性
rf_model <- randomForest(Murder ~ Population + Illiteracy + Income + Frost, data=states, ntree=500)
importance(rf_model)

# 可视化变量重要性
varImpPlot(rf_model)

我们可以得到文盲率是最关键的因素。

4.4 小结

通过学习完本次教程,你应该已经能独立使用R语言进行数据分析及建模,并推荐可以看我之前的教程,学习R语言深度学习相关知识,建模的过程需要不断尝试,祝大家好运,有什么问题可以评论区讨论。下一个教程我们将讨论方差分析。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1649459.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

4G工业路由器快递柜应用案例(覆盖所有场景)

快递柜展示图 随着电商的蓬勃发展,快递行业迎来高速增长。为提高快递效率、保障快件安全,智能快递柜应运而生。但由于快递柜部署环境复杂多样,网络接入成为一大难题。传统有线宽带难以覆盖所有场景,而公用WiFi不稳定且存在安全隐患。 星创易联科技有限公司针对这一痛点,推出了…

【智能算法】人类进化优化算法(HEOA)原理及实现

目录 1.背景2.算法原理2.1算法思想2.2算法过程 3.结果展示4.参考文献5.代码获取 1.背景 2024年&#xff0c;J Lian受到人类进化启发&#xff0c;提出了人类进化优化算法&#xff08;Human Evolutionary Optimization Algorithm, HEOA&#xff09;。 2.算法原理 2.1算法思想 …

Linux提示:mount: 未知的文件系统类型“ntfs”

mount: 未知的文件系统类型“ntfs” 在Linux系统中&#xff0c;如果遇到“mount: 未知的文件系统类型‘ntfs’”的错误&#xff0c;这通常意味着您的系统没有安装支持NTFS文件系统的软件。为了挂载NTFS文件系统&#xff0c;您需要安装ntfs-3g软件包。以下是如何在不同Linux发行…

python学习笔记-02

变量和数据类型 程序中运用变量存储数据&#xff0c;python是一门强类型语言&#xff0c;赋值时不需要指定数据类型。 1.变量的定义 语法格式&#xff1a;变量名数据 a10 print(a) a哈哈 print(a)python中基本数据类型&#xff1a; 数字(num)&#xff1a;int(有符号整数)、lo…

Java_方法引用

方法引用就是把已经有的方法拿过来用&#xff0c;当作函数式接口中抽象方法的方法体。 条件&#xff1a; 1.引用处需要是函数式接口 2.被引用的方法需要已经存在 3.被引用的方法的形参和返回值需要跟抽象方法的形参和返回值保持一致 4.被引用方法的功能需要满足当前的要求 简…

122. Kafka问题与解决实践

文章目录 前言顺序问题1. 为什么要保证消息的顺序&#xff1f;2.如何保证消息顺序&#xff1f;3.出现意外4.解决过程 消息积压1. 消息体过大2. 路由规则不合理3. 批量操作引起的连锁反应4. 表过大 主键冲突数据库主从延迟重复消费多环境消费问题后记 前言 假如有家公司是做餐饮…

Java性能优化(五)-多线程调优-Lock同步锁的优化

作者主页&#xff1a; &#x1f517;进朱者赤的博客 精选专栏&#xff1a;&#x1f517;经典算法 作者简介&#xff1a;阿里非典型程序员一枚 &#xff0c;记录在大厂的打怪升级之路。 一起学习Java、大数据、数据结构算法&#xff08;公众号同名&#xff09; ❤️觉得文章还…

python基础---面向对象相关知识

面向对象 可以把数据以及功能打包为一个整体 类: 名称属性(数据)方法 class Person:def __init__(self, name, age):self.age ageself.name namedef print_info:print(self.name, self.age)定义 #经典类 class Dog1:pass# 新式类 class Dog2(object):pass在python3里面这…

[leetcode] 67. 二进制求和

文章目录 题目描述解题方法模拟java代码复杂度分析 相似题目 题目描述 给你两个二进制字符串 a 和 b &#xff0c;以二进制字符串的形式返回它们的和。 示例 1&#xff1a; 输入:a "11", b "1" 输出&#xff1a;"100"示例 2&#xff1a; 输…

QML 本地存储(Setting,sqlite)

Qt hello - 专注于Qt的技术分享平台 QML 原生的储存方有两种&#xff1a; 1&#xff0c;Settings 跟QWidget 中的QSettings 一样&#xff0c;可以简单的存储一些配置。 2&#xff0c;Sqlite sqlite数据库。可以存储一些复杂的数据。 一&#xff0c;Settings 我们以一个按钮的位…

自动语音识别

⚠申明&#xff1a; 未经许可&#xff0c;禁止以任何形式转载&#xff0c;若要引用&#xff0c;请标注链接地址。 全文共计3077字&#xff0c;阅读大概需要3分钟 &#x1f308;更多学习内容&#xff0c; 欢迎&#x1f44f;关注&#x1f440;【文末】我的个人微信公众号&#xf…

学习笔记:【QC】Android Q qmi扩展nvReadItem/nvWriteItem

一、qmi初始化 流程图 初始化流程: 1、主入口&#xff1a; vendor/qcom/proprietary/qcril-hal/qcrild/qcrild/rild.c int main(int argc, char **argv) { const RIL_RadioFunctions *(*rilInit)(const struct RIL_Env *, int, char **); rilInit RIL_Init; funcs rilInit…

深度学习之基于Matlab神经网络的活体人脸和视频人脸识别系统

欢迎大家点赞、收藏、关注、评论啦 &#xff0c;由于篇幅有限&#xff0c;只展示了部分核心代码。 文章目录 一项目简介 二、功能三、系统四. 总结 一项目简介 一、项目背景 人脸识别技术作为生物识别技术的一种&#xff0c;近年来得到了广泛的关注和应用。与传统的身份认证方…

小程序预览或上传代码时,遇到app.json未找到某个wxml文件的解决方法

uniapp小程序&#xff0c;点击预览或者是上传代码&#xff0c;遇到app.json无法找到某个wxml文件的解决方法&#xff1a;清缓存 问题&#xff1a; message&#xff1a;Error: app.json: 未找到 ["subPackages"][3]["pages"][3] 对应的 subPackages4/pages/…

RTT潘多拉开发板上实现电源管理

简介 随着物联网(IoT)的兴起&#xff0c;产品对功耗的需求越来越强烈。作为数据采集的传感器节点通常需要在电池供电时长期工作&#xff0c;而作为联网的SOC也需要有快速的响应功能和较低的功耗。 在产品开发的起始阶段&#xff0c;首先考虑是尽快完成产品的功能开发。在产品…

【负载均衡在线OJ项目日记】编译与日志功能开发

目录 日志功能开发 常见的日志等级 日志功能代码 编译功能开发 创建子进程和程序替换 重定向 编译功能代码 日志功能开发 日志在软件开发和运维中起着至关重要的作用&#xff0c;目前我们不谈运维只谈软件开发&#xff1b;日志最大的作用就是用于故障排查和调试&#x…

B端UX/UI设计面试作品集分层源文件figmasketch模板

当您考虑找工作时&#xff0c;是否曾质疑过项目复盘作品集的重要性&#xff1f;实际上&#xff0c;一份精心准备的项目复盘作品集对于求职者来说具有无可估量的价值&#xff0c;特别是对于设计师这一职业领域。 以下所述或许对您而言已非陌生。您的作品集应当成为您专业技能与…

系统架构设计师错题集

在实时操作系统中&#xff0c;两个任务并发执行&#xff0c;一个任务要等待另一个任务发来消息&#xff0c;或建立某个条件后再向前执行&#xff0c;这种制约性合作关系被称为任务的&#xff08;9&#xff09;。 (9)A.同步 B.互斥 C.调度 D.执行 【答案】A 【解析】本题考查…

安装docker20.10.18版本步骤

安装docker20.10.18版本步骤 准备低版本安装包 #安装20.10.18版本的dockercd /opt #切换目录#上传需要的docker20.10.18.zip安装包unzip docker20.10.18.zip #解压cd docker20.10.18/ #切换目录yum install -y *.rpm #安装systemctl enable --now docker.service #开机自启并…

手动配置dns后网速变慢

之前因为自动的dns能上qq但打不开网页&#xff0c;就手动设置了一个&#xff0c;结果近些天时不时出现网页图片加载慢的问题&#xff0c;影响到我看美女图片了&#xff0c;是可忍熟不可忍 测了下网速&#xff0c;很快&#xff0c;下载上传都是三位数的&#xff0c;那显然不是网…