excel统计分析——多元线性回归

news2025/1/21 0:55:23

参考资料:生物统计学

        多元线性回归(multiple linear regression)是具有一个因变量或多个(两个或以上)自变量的线性回归,是直线回归的拓展,其模型和计算过程与直线回归类似,只是在计算上更为复杂。

1、回归方程建立

        设y是一个可观测的随机变量,收到m个非随机因素x1,x2,...,xm和随机因素的影响,如果y与x1,x2,...,xm间存在线性关系,则:

Y_i=\alpha+\beta_1 x_1+\beta_2x_2+...+\beta_mx_m+\varepsilon

其中;α为截距;\beta_j(j=1,2,...,m)为其他因素固定不变时,因素x_j变动一个单位是y变动的单位数,称为因素x_j对y的偏回归系数(partial regression coefficient);\varepsilon为随机误差,服从N(0,\sigma_y^2)的正态分布,其中\sigma_y^2为离回归方差,其平方根\sigma_y为离回归标准差,又称回归估计标准误。

        用个体数据表示时,多元线性回归模型为:

\hat{y}=a+b_1x_1+b_2x_2+...+b_mx_m

        建立回归方程的过程,是求一组偏回归系数b1,b2,...,bm,使离回归平方和Q=\sum(y-\hat{y})^2=\sum[(y-\bar{y})-b_1(x_1-\bar{x_1})-b_2(x_2-\bar{x_2})-...-b_m(x_m-\bar{x_m})]^2

最小化的过程。

        令Y=y-\bar{y}X_1=x_1-\bar{x_1}X_2=x_2-\bar{x_2},...,X_m=x_m-\bar{x_m},则:

Q=\sum(Y-b_1X_1-b_2X_2-...-b_mX_m)^2

        根据最小二乘法的原理,要使Q有最小值,需b1,b2,...,bm的偏微分方程的值为0。将平方和\sum X_i^2记为SS_i,乘积和\sum X_iX_j记为SP_{ij}\sum X_iY记为SP_{iy},得方程组:

b_1SS_1+b_2SP_{12}+...+b_mSP_{1m}=SP_{1y}

b_1SP_{21}+b_2SS_{2}+...+b_mSP_{2m}=SP_{2y}

...       ....      ...      ...      ...      ....      ...      ....

b_1SP_{m1}+b_mSP_{m2}+...+b_mSS_m=SP_{my}

案例如下:

excel计算过程如下:

2、回归方程和偏回归系数检验

        和直线回归一样,建立的多元线性回归方程仍然需要进行显著性检验,达到显著水平的线性回归方程才有意义。

(1)回归方程的检验

        与直线回归类似,因变量y的总平方和(SSy)分解为回归平方和Uy和离回归平方和Qy两部分。回归平方和Uy为回归关系形成的部分,其自由度df_R=m,根据定义:

U_y=b_1SP_{1y}+b_2SP_{2y}+...+b_mSP_{my}

离回归平方和Qy即实际观测值y和线性回归方程的估计值\hat{y}之间的差,为

Q_y=SS_y-U_y

        总自由度为df_T=n-1,除去回归自由度,离回归自由度df_e=(n-1)-m=n-m-1

        零假设为:H_0:\beta_1=\beta_2=...=\beta_m=0

        备择假设:H_A:\beta_1,\beta_2,...,\beta_m不全为零。

        F统计量为:F=\frac{U_y/m}{Q_y/(n-m-1)},服从df1=m,df2=n-m-1的F分布。

(2)偏回归系数的检验

        根据备择假设H_A:\beta_1,\beta_2,...,\beta_m不全为零,并不是说\beta_i均不为零,所以需逐个对\beta_i进行检验,只有所有自变量的偏回归系数都达到显著水平时,回归方程才是最优回归方程。

        偏回归系数的显著性假设检验为:

        零假设:H_0:\beta_i=0

        备择假设:H_A:\beta_i\neq 0

        具体可采用t检验或F检验进行检验。

        1)t检验

        偏回归系数b_i的标准误为:

s_{b_i}=s_y.\sqrt{c_{ii}}

 其中,s_y为因变量y的标准误,即s_y=\sqrt{Q_y/(n-m-1)};c_ii为建立线性回归方程时系数矩阵A的逆矩阵A^{-1}主对角线上对应自变量xi的元素。

        由于b_i-\beta_i/s_{b_i}符合df=n-m-1的t分布,所以在假设H_0:\beta_i=0时,根据

t=b_i/s_{b_i}

可检验bi来自\beta_i=0总体的概率。

        2)F检验

        多元线性回归中,Uy总是随着m的增加而增大,增加自变量xi后增加的平方和Ui,称为y在xi上的偏回归平方和。计算公式为:

U_i=b_i^2/c_{ii}

        由于增加变量xi后增加的自由度为1,所以

F=\frac{U_i}{Q_y/(n-m-1)}

        也可以检验bi来自\beta_i=0总体的概率。实际上t检验与F检验结果一致。

F=\frac{U_i}{Q_y/(n-m-1)}=\frac{b_i^2/c_{ii}}{s_y^2}=(\frac{b_i}{s_y\sqrt{c_{ii}}})^2=(\frac{b_i}{s_{b_i}})^2=t^2

        对于偏回归系数的检验,t检验和F检验的寄过是完全一致的,选用其中之一即可。

excel操作如下:

①数据分析工具中选择“回归”

②在“回归”对话框中,录入输入与输出区域

③输出结果

结果:x1和x3的偏回归系数达到显著水平,而x2的偏回归系数未达显著水平。

3、逐步回归

        在建立线性回归方程中,只要有一个因素的偏回归系数达到显著水平,根据回归平方的计算原理,线性回归方程总能达到显著水平。所以与直线回归不同,在多元线性回归中,偏回归系数的显著性与线性回归方程的显著性不同

        由于线性回归方程中含有不显著的因素时,线性回归方程也可能显著,为使方程能正确表达变量间的关系,需要剔除线性回归方程中不显著的自变量,保证在线性回归方程中的自变量的偏回归系数均达到显著水平,这时的线性回归方程称为最优线性回归方程(optimal linear regression equation)。

        建立最优线性回归方程采用逐步回归(stepwise regression)方法。逐步回归分为逐步引入自变量和逐步剔除自变量两种方法。

(1)逐步引入自变量

        ①用每个自变量与因变量建立直线线性回归方程(或计算相关系数)并进行显著性检验。

        ②按回归系数(或相关性系数)的显著性顺序依次引入自变量建立线性回归方程并进行偏回归系数检验。

        ③直到引入自变量后该自变量的偏回归系数不显著为止。

(2)逐步剔除自变量

        ①用所有自变量与因变量建立线性回归方程并进行显著性检验。

        ②回归方程检验检验显著时,对偏回归系数进行显著性检验。

        ③存在不显著的偏回归系数时,从偏回归系数最不显著的自变量开始,每次剔除一个自变量。

        ④重新建立线性回归方程,直到方程中所有自变量的偏回归系数均显著位置。

        两种方法建立的最优线性方程可能不同。差异在于逐步引入自变量的方法使用的是单个变量回归系数,强调的自变量的单独作用;逐步剔除自变量的方法使用的是偏回归系数,强调自变量的综合作用。

本例中鉴于已进行了3个变量的显著性检验,故采用逐步剔除法,现将x2剔除,再次进行显著性检验,步骤同上一步一样。结果如下:

结果显示:x1和x3的偏回归系数仍然达到显著水平,故其最优线性回归方程为:

y=37.5153-0.0047x_1-0.5644x_3

4、通径分析

        由于偏回归系数带有单位,所以不能通过比较偏回归系数的大小来比较自变量对因变量相对影响的大小。为判断自变量对因变量相对影响的大小,需对偏回归系数进行标准化处理,去除单位后,用标准化的偏回归系数来进行比较。标准化后的偏回归系数称为通径系数(path coefficient),记为p_i,表示自变量x_i对因变量y的直接影响程度。

        通径系数定义为:偏回归系数与变量标准差比的乘积。即

p_i=b_i\cdot \frac{s_i}{s_y}=b_i\cdot \sqrt{\frac{SS_i}{SS_y}}

        令y'=\frac{y-\bar{y}}{\sqrt{SS_y}}x_i'=\frac{x_i-\bar{x}}{\sqrt{SS_i}}(i=1,2,...,m),得标准化的回归方程:

\hat{y}'=p_1x_1'+p_2x_2'+...+p_mx_m'

        由于标准化的回归方程为原回归方程的变形,所以标准化的回归方程与原多元线性回归方程的显著性一致;同理,通径系数为偏回归系数的变形,通径系数与偏回归系数的显著性水平一致。

通径分析的结果可知:变量x1对y的影响较变量x3的影响更大。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1571649.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【软件工程】测试规格

1. 引言 1.1简介 本次的测试用例是基于核心代码基本开发完毕,在第一代系统基本正常运行后编写的,主要目的是为了后续开发与维护的便利性。 该文档主要受众为该系统后续开发人员,并且在阅读此文档前最后先阅读本系统的需求文档、概要设计文…

Qt事件学习案例

视频链接 https://www.bilibili.com/video/BV18B4y1K7Cs?p7&spm_id_frompageDriver&vd_sourcefa4ef8f26ae084f9b5f70a5f87e9e41bQt5跟着视频做即可,Qt6部分代码需要改动,改动的地方注释有写 素材 百度云 链接:https://pan.baidu.com/s/158j…

K8S - Deployment 的版本回滚

当前状态 先看deployment rootk8s-master:~# kubectl get deploy -o wide --show-labels NAME READY UP-TO-DATE AVAILABLE AGE CONTAINERS IMAGES …

蓝桥杯嵌入式(G431)备赛笔记——LED

cubeMX配置: 原理图,其中PD2高电平使能锁存器,PC8-15默认给高电平,放置上电初始化LED亮 74HC573是八路输出锁存器 1脚是使能,低电平有效,高电平输出高阻 2~9是输入,PC8-PC15 19~12是输出 11是锁存,即PD2: 高电平是同步,即输出跟随输入变化 低电平锁存,即输出不再改变 …

RUST Rover 条件编译 异常处理

按官方处理发现异常 会报异常 error: failed to parse manifest at C:\Users\topma\RustroverProjects\untitled2\Cargo.toml 修改模式如下才能正常编译 网上说明 这样处理 https://course.rs/cargo/reference/features/intro.html RUST 圣经里描述 [features] print-a []…

如何用putty通过ssh连接ubuntu

1. 下载和安装PuTTY 访问PuTTY官网下载PuTTY的最新版本。 2. 打开PuTTY 解压下载的文件后,找到PuTTY文件并双击打开。 3. 配置SSH连接 在ubuntu下安装ssh服务在安装ssh时,我一直遇到一个问题,原因是我的虚拟机连不上网,反复实…

Linux之shell脚本编辑工具awk

华子目录 概念工作流程工作图流程(按行处理) awk程序执行方式1.通过命令行执行awk程序实例 2.awk命令调用脚本执行实例 3.直接使用awk脚本文件调用实例 awk命令的基本语法格式BEGIN模式与END模式实例awk的输出 记录和域(记录表示数据行&#…

若依:一个基于Spring Boot、Spring Security、JWT、Vue和Element的全部开源快速开发平台

若依后台管理系统:一个基于Spring Boot、Spring Security、JWT、Vue和Element的全部开源快速开发平台 一、引言 随着软件开发技术的发展,前后端分离的开发模式逐渐成为主流。这种模式能够提高开发效率,降低维护成本,使前后端工程…

SketchUp Pro 2024 for mac 草图大师 专业的3D建模软件

SketchUp Pro 2024 for Mac是一款功能强大的三维建模软件,适用于Mac电脑。其简洁易用的界面和强大的工具集使得用户可以轻松创建复杂的3D模型。 软件下载:SketchUp Pro 2024 for mac v24.0.483 激活版下载 SketchUp Pro 2024 for Mac支持导入和导出多种文…

leetcode.面试题 02.07. 链表相交

题目 给你两个单链表的头节点 headA 和 headB ,请你找出并返回两个单链表相交的起始节点。如果两个链表没有交点,返回 null 。 图示两个链表在节点 c1 开始相交: 思路 假a在链表A上移动,b在链表B上移动,a移动完在B上开始&…

人脸识别:Arcface--loss+code

之前只接触过传统方法的人脸识别算法,本以为基于深度学习的方法会使用对比损失之类的函数进行训练,但是Arcface算法基于softmax进行了创新,本文未深究其详细的loss公式原理,在大致明白其方向下,运行了代码,…

加速度:电子元器件营销网站的功能和开发周期

据工信部预计,到2023年,我国电子元器件销售总额将达到2.1万亿元。随着资本的涌入,在这个万亿级赛道,市场竞争变得更加激烈的同时,行业数字化发展已是大势所趋。电子元器件B2B商城平台提升数据化驱动能力,扩…

云服务器ECS租用价格表报价——阿里云

阿里云服务器租用价格表2024年最新,云服务器ECS经济型e实例2核2G、3M固定带宽99元一年,轻量应用服务器2核2G3M带宽轻量服务器一年61元,ECS u1服务器2核4G5M固定带宽199元一年,2核4G4M带宽轻量服务器一年165元12个月,2核…

docker的安装及入门指令

目录 一、将docker安装到云服务器步骤 1.更新系统yum版本 2.安装所需依赖 3.添加docker仓库设置(使用的是阿里云) 4.安装docker引擎 5.启动docker并开启自动启动 6. 检查是否安装成功,成功会显示相应版本,否则安装失败 二、docker常用命令 1.从…

Chatgpt掘金之旅—有爱AI商业实战篇|专业博客|(六)

演示站点: https://ai.uaai.cn 对话模块 官方论坛: www.jingyuai.com 京娱AI 一、AI技术创业博客领域有哪些机会? 人工智能(AI)技术作为当今科技创新的前沿领域,为创业者提供了广阔的机会和挑战。随着AI技…

微信小程序短链接工具推荐

现在微信小程序大行其道,但工作中大部分人选择了短链接的方式来推广微信小程序,那么微信小程序短链接工具哪个好?今天就分享一篇从网上看到的关于《微信小程序短链接工具推荐》文,作者是souki,一起来看看吧! 一、缩链 1、生成方…

前端面试高频: 理解 React/Vue 中 Key 的作用

一: 引言 在 React 或 Vue 项目中,我们经常在列表组件中使用key属性。key是给每一个vnode的唯一id,它在列表渲染和虚拟 DOM 操作中扮演着重要的角色。 当我们在渲染一个包含多个相同子组件的列表时,如果没有使用 key,React 或 Vue…

Django--admin 后台管理站点

Django最大的优点之一,就是体贴的提供了一个基于项目model创建的一个后台管理站点admin。这个界面只给站点管理员使用,并不对大众开放。虽然admin的界面可能不是那么美观,功能不是那么强大,内容不一定符合你的要求,但是…

苹果CMSV10整合dplayer播放器增加记忆+P2P播放+自动下一集功能插件详细保姆级教程

1.本站已打包&#xff0c;可以直接下载然后上传到你服务器的苹果CMS网站static/player目录下就可以了&#xff0c;下面是教程 wlm3u8.js代码&#xff1a; MacPlayer.Html <iframe border"0" src"mac<span class"wp_keywordlink"><a hre…

python相机校准

文章目录 张正友标定法角点检测标定去畸变 张正友标定法 相片是三维世界在二维平面上的投射&#xff0c;故而其深度信息是损失掉了的。但是&#xff0c;如果把拍照看作理想的小孔成像过程&#xff0c;那么相片中的每个像素&#xff0c;都将通过一个锥体与世界中真实的点一一对…