excel统计分析——协方差分析基本原理

news2025/7/15 1:04:11

参考资料:生物统计学

        方差分析中,要求除试验因素外的其他条件保持在相同水平上才能对实验结果的差异显著性进行比较,然而有些非试验因素很难或不可能人为控制,此时如果使用方差分析法推断处理其差异显著性,往往会导致错误的结果。为解决试验条件不同对试验结果的影响,统计学上将回归分析和方差分析结合起来,通过回归关系排除试验条件对试验结果的影响,称为协方差分析(analysis of covariance,ANCOVA)。由于校正后的结果是应用统计方法将试验条件控制一致而达到的,故协方差分析的实质是一种统计控制(statistical control)。

协方差分析的基本原理如下

(1)基本思想

        协方差分析是把方差分析与回归分析结合起来的一种统计分析方法,用于比较一个变量y在一个因素或几个因素不同水平上的差异,但这个变量在受试验因素影响的同时,还受到另外一个变量x的影响,而且变量x的取值难以人为控制,不能作为方差分析中的一个因素来处理。此时如果x和y之间可以建立回归关系,则可用协方差分析的方法排除x对y的影响,然后进行方差分析对各因素水平的影响作出统计推断。在协方差分析中,y对因变量(dependent variable),x为协变量(covariate)。

        协方差分析的核心思想是通过对因变量y的值进行调整,消除协变量x的影响,从而能对试验因素不同水平的影响进行统计检验。为此,首先需要判断协变量x对因变量y是否存在影响,如果影响显著,则需要去除其影响后对试验结果进行检验;如果影响不显著,则直接对试验结果进行检验

        统计学上研究两个变量是否存在影响的方法为回归分析,所以进行协方差分析时首先对数据进行回归分析,如果回归关系显著,说明变量x对变量y的影响显著,需对试验结果进行校正后进行方差分析;如果回归关系不显著,说明变量x对变量y的影响不显著,可直接对试验结果进行方差分析。

(2)协方差分析的数学模型

        假设试验有k个处理,观测指标y为因变量,x为协变量,每个处理设置n次重复,每组内均有n对观测值x,y,则该资料为具有kn对观测值的双变量资料。

        在协方差分析中,因变量的每个观察值可用以下线性数学模型表示:

y_{ij}=\mu+\alpha_i+\beta(x_{ij}-\bar{x})+\varepsilon _{ij}

其中:i=1,2,...,k;j=1,2,...,n;y_ij为试验因素第i水平的第j次观测值;x_ij为试验因素第i水平的第j次观测的协变量取值;\bar{x}为x_ij的总平均数;μ为y_ij的总平均数;\alpha_i为第i水平的效应;β是y对x的线性回归系数;\varepsilon _{ij}为随机误差。且满足以下基本假定:①\varepsilon _{ij}独立,且服从正态分布N(0,\sigma^2);②β≠0,即y与x之间存在线性关系,且水平回归系数相等,即协变量的影响不随水平的变化而变化;③处理效应之和为0,即\sum \alpha_i=0。试验因素为固定因素;如果为随机因素,则处理效应的方差为0。

(3)协方差分析的基本假定

        ①x是固定的变量,因而处理效应\alpha_i属于固定模型。

        ②\varepsilon _{ij}独立(与αi无关),且服从正态分布N(n,\sigma^2)。即各处理的离回归方差无显著差异(同质)。

        ③各处理的(x,y)总体是线性的,且具有相同的回归系数β≠0,因而各处理总体的回归是一组平行的直线。对样本而言,各误差项的回归系数本身显著,但各回归系数bi之间无显著差异。

(4)协方差分析的步骤

①平方和、乘积和与自由度的分解

        因变量y的总变异包括处理效应、协变量x的影响和随机误差三部分,根据直线回归和方差的计算方法,需要对不同变异源的平方和、乘积和与自由度进行分解,计算均方并进行统计检验。

        平方和与自由度的分解与方差分析部分相同。参照平方和分解的方法,可将乘积和也分解为总变异乘积和SP_T、处理间乘积和SP_t及误差乘积和SP_e三部分,即

SP_T=\sum \sum(x-\bar{x})(y-\bar{y})=\sum \sum xy-T_xT_y/(kn)

SP_t=n\sum(\bar{x_{i.}}-\bar{x})(\bar{y_{i.}}-\bar{y})=\sum(T_{x_{i.}}T_{y_{i.}})/n-T_xT_y/(kn)

SP_e=\sum\sum(x-\bar{x_{i.}})(y-\bar{y_{i.}})=\sum\sum xy-\sum(T_{x_{i.}}T_{y_{i.}})/n

②回归系数的计算和回归显著性检验

        处理间的差异是由于处理效应αi不同引起的,而误差则包括协变量x的影响和随机误差两部分,所以回归系数的计算在组内进行,于是有:

b^*=SP_e/SS_{e_{x}}

        回归关系的显著性可以用F检验或t检验进行。这是误差项回归自由度df_{e_U}=1,其回归平方和为:

U_e=SS_{e_y}-b^*SP_e=SP_e^2/SS_{e_x}

误差项离回归平方和为:

Q_e=SS_{e_{y}}-U_{e_y}=SS_{e_y}-SP_e^2/SS_{e_x}

离回归自由度为:

df_{e_Q}=df_e-df_{e_U}=k(n-1)-1

用F检验进行检验时,df_1=df_{e_U}=1df_2=df_{e_U}=k(n-1)-1

统计量:

F=[k(n-1)-1]U_e/Q_e

③矫正平均数的差异显著性检验

        如果回归关系不显著,直接对试验结果进行方差分析;如果回归关系显著,则用回归系数对y进行矫正,消除x的影响后,对校正后的数据进行方差分析。

        要检验校正后的y值差异的显著性,在进行平方和的计算时,并不需要将各矫正的y值求出后重新计算,统计学上已证明,矫正后的平方和、误差平方和及自由度等于相应变异项的离回归平方和及自由度。于是平方和及自由度计算如下:

SS_T'=SS_{T_y}-SP_T^2/SS_{T_x}             df_T'=(nk-1)-1=nk-2

SS_e'=SS_{e_y}-SP_e^2/SS_{e_x}                                  df_t'=k-1               

SS_t'=SS_T'-SS_e'                                              df_e'=k(n-1)-1

根据平方和、自由度分别计算处理均方和误差均方,并进行F检验。

④矫正平均数的多重比较

        如果F检验处理间差异显著,需进行多重比较。进行多重比较时,需使用矫正后的平均数。矫正公式为:

 \bar{y_i}'=\bar{y_i}-b^*(\bar{x_i}-x)

        矫正平均数的比骄傲可以使用t检验、LSD法和Duncan法等。用t检验进行比较时,统计量

t=(\bar{y_i}'-\bar{y_j}')/s_{\bar{d}}'

其中,s_{\bar{d}}'为两矫正平均数差数间的标准误,计算公式为:

s_{\bar{d}}'=\sqrt{MS_e'[\frac{2}{n}+\frac{(\bar{x_i}-\bar{x_j})^2}{SS_{e_x}}]}

        当误差自由度较大(df_e≥20)且x的变异较小时,可采用LSD法、Duncan法等。这时两矫正平均数差数间的标准误不再根据两组样本x均值差计算。

对于LSD法,有

s_{\bar{d}}'=\sqrt{\frac{2MS_e'}{n}[1+\frac{SS_{t_x}}{(k-1)SS_{e_x}}]}

对于Duncan法,有

s_{\bar{d}}'=\sqrt{\frac{MS_e'}{n}[1+\frac{SS_{t_x}}{(k-1)SS_{e_x}}]}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1547091.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

深度学习-数据归一化与Batch Normalization

文章目录 数据归一化与Batch Normalization一、经典机器学习的归一化算法1.经典机器学习归一化方法回顾1.1 0-1标准化方法1.2 Z-Score标准化 2.经典机器学习归一化算法在深度学习中的实践3.Z-Score数据归一化的局限3.1 Zero-Centered特性消失3.2 Zero-Centered Data的作用局限 …

【AI】使用Azure OpenAI创建自己的AI应用!

【AI】使用Azure OpenAI创建自己的AI应用! 目录 【AI】使用Azure OpenAI创建自己的AI应用!创建工作区模型介绍部署模型API参数计算Token使用Python SDK调用补全模型调用对话模型流式调用异步调用提示技巧生成对话分类推荐超级课程: Docker快速入门到精通Kubernetes入门到大师…

Golang-MAP源码学习、扩容机制等

前言 map是golang中常用的一个基本数据结构,继上篇的channel源码学习之后,本文学习map的源码相关。 基础知识点 此部分参考自 https://www.zhihu.com/tardis/zm/art/423008350?source_id1003 map的用法 通过make初始化分配容量,通过m[k…

鸿蒙操作系统-初识

HarmonyOS-初识 简述安装配置hello world1.创建项目2.目录解释3.构建页面4.真机运行 应用程序包共享包HARHSP 快速修复包 官方文档请参考:HarmonyOS 简述 1.定义:HarmonyOS是分布式操作系统,它旨在为不同类型的智能设备提供统一的操作系统&a…

OpenHarmony内核编程实战

在正式开始之前,对于刚接触OpenHarmony的伙伴们,面对大篇幅的源码可能无从下手,不知道怎么去编码写程序,下面用一个简单的例子带伙伴们入门。 ▍任务 编写程序,让开发板在串口调试工具中输出”Hello,Open…

程序猿成长之路之数据挖掘篇——数据挖掘介绍

随着java的发展,数据挖掘也变得逐渐热门,我们随手打开一个购物网站,首先映入眼帘的便是五花八门的推荐的物品,又如我们逛抖音、快手,就在我们上下刷屏的过程中,系统就会不停的推荐新的视频内容过来。不论是…

浏览器https受信任证书生成——openssl颁发受信任证书

站点常常由于没有受信任的第三方CA机构颁发证书,使用https访问时,浏览器常常会弹出不安全的提示,为解决该问题,可以使用openssl颁发个人证书来解决该问题。 1openssl安装及使用方式参考:32.9 x509_OpenSSL 中文手册https://www.openssl.net.cn/docs/230.html2.本文章所有生…

【python】flask模板渲染引擎Jinja2,通过后端数据渲染前端页面

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,…

【医学实体识别】从糖尿病论文和临床指南中,做关键信息分类

从糖尿病论文和临床指南中,做关键信息分类 实体识别输入输出疾病实体治疗实体常规实体 算法设计BiLSTM-CRF 论文BiLSTM-CRF 应用BiLSTM-CRF VS 大模型 构建知识图谱 实体识别 比赛:https://tianchi.aliyun.com/competition/entrance/231687/information…

以太网PHY,MAC及其通信接口介绍

本文主要介绍以太网的 MAC 和 PHY,以及之间的 MII(Media Independent Interface ,媒体独立接口)和 MII 的各种衍生版本——GMII、SGMII、RMII、RGMII等。 一:简介 从硬件的角度看,以太网接口电路主要由MA…

下载最新VMware,专业版本

VMware - Delivering a Digital Foundation For BusinessesRun any app on any cloud on any device with a digital foundation built on VMware solutions for modern apps, multi-cloud, digital workspace, security & networking.https://www.vmware.com/ 官网地址

Mysql新建数据库报错1044

mysql创建数据库报错 1044 - Access denied for user ‘root‘%‘ to database ‘XXX‘ 解决参考:MySQL新建表:1044 - Access denied for user ‘root‘%‘ to database ‘XXX‘终极解决方案_cannot create table [sheet]: 1044 - access denied -CSDN博…

Git学习(一)基于本地操作:Git初识、Git安装(Linux-ubuntu)、Git 基本操作、分支管理

目录 Git 初识 Git 安装(Linux-ubuntu) Git 基本操作 创建 Git 本地仓库 配置 Git 认识工作区、暂存区、版本库 添加文件 查看 .git 文件 修改文件 版本回退 撤销修改 情况一:对于工作区的代码,还没有 add 情况二&am…

面试经典150题【101-110】

文章目录 面试经典150题【101-110】9.回文数61.加一172.阶乘后的069.x的平方根50.Pow(x,n)149.直线上最多的点数52.N皇后II120.三角形最小路径和64.最小路径和63.不同路径II 面试经典150题【101-110】 6道偏数学的题和4道二维dp 9.回文数 一开始想转为字符串再判断。后来发现…

盛⽔最多的容器【双指针】

首先我们设该容器的两边为左右两边界。 这道题中的:盛⽔最大容量 底 * 高 左右两边界距离 * 左右两边界的较短板。 这道题如果用暴力求解,是个人都能想到怎么做,遍历所有的情况即可。 有没有更好的办法呢?我是搜了资料了解的。我…

计算机视觉技术:美颜SDK在直播平台的集成与优化

当下,美颜技术在直播平台中的应用变得愈发重要。接下俩,小编将深度讲解计算机视觉技术在美颜SDK集成与优化方面的应用,以提升直播平台的用户体验。 一、美颜技术的发展 传统的美颜功能只是简单地对图像进行柔化处理,而现在的美颜…

论文导读 | 漫谈图神经网络

本文主要介绍图神经网络相关内容,包括图神经网络的基本结构以及近期研究进展。 背景 在实际生活中,许多数据都可以用图的形式表达,比如社交网络、分子模型、知识图谱、计算机网络等。图深度学习旨在,显式利用这些数据中的拓扑结…

各类主流电商API商品采集接口的权限控制和功能权限控制

主流电商平台的API接口类型 参数说明 通用参数说明 url说明 /平台/API类型/ 平台:淘宝,京东等, API类型:[item_search,item_get,item_search_shop等]version:API版本key:调用key,测试key:test_api_keysecret:调用secret,测试secret:(不用填写…

思腾合力携AI服务器亮相第二十一届中国电博会

博会已发展成为海峡两岸IT产业界规模最大、参展企业最多、产业配套最全的知名展会之一,今年以“数字赋能、创新制造”为主题,线下参展企业达400家。展会期间,举办了论坛与产业洽谈会等系列活动,进一步推动了两岸电子信息产业融合发…

码垛机与人工搬运:效率与安全性的比较分析

在现代包装行业中,泡沫箱因其轻便和保温特性被广泛用于商品的包装与运输。随着自动化技术的不断发展,码垛机成为提升泡沫箱生产效率、降低劳动强度的关键技术。本文旨在比较码垛机与人工码垛在泡沫箱生产中的优势,并探讨自动化码垛的未来发展…