每日格言:行动是治愈恐惧的良药,而犹豫拖延将不断滋养恐惧.
目录
前言
一、什么是回归分析?
1.概念理解
2.分类和一般步骤
二、一元线性回归(Matlab算法)
1.利用regress函数
2、例题讲解
总结
前言
在具体讲述线性回归的有关算法和解题思路时,我们会先讲一些有关回归分析的基础(建议大家可以看一下,理解一下原理)已经懂了的友友可以直接跳过~😏🙌
一、什么是回归分析?
1.概念理解
在统计学中,回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关
系的一种统计分析方法。
在大数据分析中,回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。
总而言之,回归分析通常用于预测分析以及发现变量之间的因果关系(通俗来讲就是🤔:根据已有数据验证自变量和因变量之间的某种函数关系是正确的)
2.分类和一般步骤
- 回归分析有两种分类方式:
根据变量的数目可以分为一元回归、多元回归
根据自变量与因变量的表现形式,分为线性和非线性
根据排列组合(2X2)也就是回归分析包括四个方向:
①一元线性回归分析、②多元线性回归分析、③一元非线性回归分析、④多元非线性回归分析
- 回归分析的一般步骤
简要总结一下这张图就是:找到自变量(x)和因变量(y)建立回归方程,然后验证方程的可行性,最后再根据回归方程进行预测.下面我们用一元线性回归方程的例子具体讲一下整个过程
问题:人均收入是否会显著影响人均食品消费支出?
- 确定解释变量(x)和被解释变量(y)
已知人均收入——x,人均食品消费支出——y
- 确定回归模型建立回归方程
根据我们的常识我们可知,人均收入应该是和人均食品消费成正比,这里只涉及一个自变量,则一元线性回归模型可表示为:
𝑦 = 𝛽0 + 𝛽1x + 𝜖(误差)(😶🌫️这里如何求相应的参数后面我们会细讲,这里就是了解一下流程~🫡)
- 检验(不同的回归模型检验方法不同,这里就提一些会用到的指标)
我们通常使用以下几个标准来度量回归方程的可靠性(我们只要会用即可):
- 估计标准误差越小,则数据点围绕回归直线的分散程度越小,回归方程的代表性越大,可靠性越高
- 置信区间反映了参数估计的不确定性,如果一个参数的置信区间不包含零(对于斜率参数),则可以认为该参数对因变量有显著的影响。
- 而预测区间反映了预测值的不确定性,可以告诉我们预测值的可信度范围。
- 判定系数(R^2):R^2越趋近于1,我们方程的拟合程度越好
- 线性关系检验:计算检验统计量F,若𝐹 > 𝐹1−𝛼(1, 𝑛 − 2)(查表可得),拒绝𝐻0,否则接受𝐻0;(𝐻0(原假设):𝛽1 = 0,回归系数与0无显著差异,𝑦与x的线性关系不显著),所以拒绝H0说明y与x存在线性关系
- 回归系数的显著性检验:检验回归系数𝛽的值与0是否有显著性差异,若𝛽 ≠ 0,说明变量𝑌与𝑋之间存在显著的线性关系
- 通过构造t统计量并计算p值,如果p值小于预设的显著性水平(例如0.05),则认为参数是显著的。
- 预测
将所求回归方程和参数代入求解即可
二、一元线性回归(Matlab算法)
1.利用regress函数
𝑦 = 𝛽0 + 𝛽1x + 𝜖(误差)(一元线性回归方程模型)
1、输入变量:这里Y,X都是由样本数据构成的列向量;alpha——显著性水平,默认为0.05 ,一般不需要我们输入
2、输出变量:
𝑏— — 回归系数(β0,β1,···)
𝑏𝑖n𝑡— — 回归系数的区间估计
𝑟— — 残差
𝑟𝑖n𝑡— — 置信区间
stats— — 用于检验回归模型的统计量
stats有四个数值:决定系数R^2、𝐹值、与𝐹对应的概率𝑃、无偏估计𝜎^2
2、例题讲解
让我们预测身高为170的女生腿长可能为多少呢?
%一元线性回归
clear,clc
%1.输入数据
%输入X的样本值
x = [143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164]';
%插入β0对应列
X = [ones(16,1),x];
%输入Y的样本值
Y = [88,85,88,91,92,93,93,95,96,98,97,96,98,99,100,102]';
%2、回归分析及检验:
[b,bint,r,rint,stats]=regress(Y,X);
%输出我们需要的数据
% β0=-16.0730,置信区间为[-33.7071,1.5612]
% β1=0.7194,置信区间为[0.6047,0.8340]
% R^2=0.9282 F=180.9531 p=0.0000 1.7437
%p就是接受回归模型的风险,即犯错的概率
% 由p<0.05,可知回归模型y=-16.0730+0.7194x 成立
%3、残差分析,作残差图
figure
rcoplot(r,rint);
%第二个值可视为异常值
%4、预测及作图
figure
y = b(1)+b(2)*x;
%比较真实值与估计值所作图像
plot(x,Y,'b+',x,y,'r');
这里我们作图后的图像大致为
由上图说明我们回归方程的建立是比较好的。
总结
完结撒花🎆🎆🎇🎇
通过本篇文章,我们深入探讨了回归分析中的关键概念,包括如何评估模型的拟合度、参数的显著性检验以及如何利用置信区间和预测区间进行预测分析。如果大家有任何疑问或需要进一步的帮助,请随时留言!