【小白学机器学习22】 多变量分析:相关性分析,多变量回归,最小二乘法 ols等

news2024/10/28 20:27:02

目录

1 概念名词:

1.1 双变量分析与单因素分析

1.2 变化

1.3 共变 和 相关分析 Correlation analysis

1.4 回归分析 Regression analysis

1.5 相干和相关

1.5.1 相干relevant 

1.5.2 相关Correlation

2  双变量分析

3 相关分析

3.1 是否相关

3.2 相关的关系(相关的方向)

3.3 相关的强度,用相关系数R衡量

3.4 相关的显著度(显著度!=强度)

4  回归分析

4.1 定义:什么是回归分析?

4.2 回归分析种类很多

4.3  如果只有1个维度/ 1个变量的数据,进行预测一定是 平均值预测的总体误差更小(总体更准确)

4.4  因果分析/回归分析,比正态分布的均值的预测更准

4.4.1 详细见下图

4.5 非标准回归 和标准回归系数

4.6 OLS的详细

4.6.1 OLS名字 ordinary Least Square

5 多因素回归时,每个因素的净影响和合力

5.1 净影响:偏回归系数/净回归系数 partial correlation

5.2 多个因素影响的合力

5.3 用这个著名图去理解:净回归系数


1 相关的概念名词:

1.1 双变量分析与单因素分析

因为本书作者很多概念名词和其他书都不一样,但是内容是可以统一的。

但是有些地方还是有细微的差别

相同的地方

  • 双变量分析,2个变量
  • 单因素分析,2个变量。1个自变量和1个因变量。

不同的地方

  • 双变量分析,和单因素分析有一定差别
  • 双变量分析:
  1. 单自变量-单因变量的回归
  2. 两个变量的相关分析
  • 单因素分析(一定是回归分析)
  1. 单因素回归(单自变量-单因变量的回归)

1.2 变化

  • 变化 vary 
  • 共变 convary,两个变量一起变化

1.3 共变 和 相关分析 Correlation analysis

  • 共变 convary,
  • 共变的方式,共变的强度,就是相关分析研究的内容

  • Correlation analysis
  • 目标:两个变量是否一起变化 convery
  • 不关心:谁先谁后,谁影响谁,谁是因果。只关心两者是否一起变化。

1.4 回归分析 Regression analysis

  • 预设:有自变量,因变量
  • 预设逻辑: 因果关系。
  • 目标: 看自变量的变化,是否能引起因变量的变化

1.5 相干和相关

1.5.1 相干relevant 

  • 辩证法:万事万物普遍联系,
  • 可能并不直接联系,比如有些因素通过共线性得其他因素,对因变量产生影响。
  • 相干,只是一个终极本质上存在相干

1.5.2 相关Correlation

  • 数学上,统计上的相关关系
  • 相关,在理论上相关,模型上相关,数据上相关
  • Correlation
  • Correlated
  • 主要是数据上,两者是否存在关系(相关关系,或者因果关系)
  1. 相关关系
  2. 因果关系
  3. 其他

2  双变量分析

  • 从一个变量内部的分析变成2个变量,
  • 如果是相关关系,是研究convary,相关的正负+-类型和强度
  • 如果是因果分析,回归分析,逻辑上是变了模型,2个变量,1个自变量,一个因变量

3 相关分析

相关:Correlation,Correlated 在理论上相关,模型上相关,数据上相关,数学上和统计上相关

3.1 是否相关

  • 相关,不相关

3.2 相关的关系(相关的方向)

  • 相关得方向:
  • 相关系数:标准化后得系数。 因变量B/自变量A=相关系数,相当于以A为单位。
  1. 正相关:相关系数0-1之间。
  2. 负相关:相关系数0—1之间
  3. 不相关,没有系统得关系,只有看起来随机性得关系

3.3 相关的强度,用相关系数R衡量

  • 相关的强度:相关系数的值的大小
  • 相关系数R的范围:-1 ~1 之间
  1. 0表示不相关
  2. -1到0,负相关
  3. 0到1,正相关

3.4 相关的显著度(显著度!=强度)

  • 相关的显著度: 是否有系统性,非随机的关联?
  • 如果没有,则是不显著
  • 如果有,则是相关关系显著
  • 显著度怎么得到?
  1. 需要用假设检验才能获得
  2. 显著度一般情况下就是概率。

4  回归分析

4.1 定义:什么是回归分析?

回归分析的目标:IV是否是DV的原因?

  • 自变量: IV,  Independent variable
  • 因变量:DV  ,dependent variable

 在统计学中,回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。

回归分析

按照涉及的变量的多少,分为一元回归和多元回归分析;

按照因变量的多少,可分为简单回归分析和多重回归分析;

按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。 [1]

来自百科

4.2 回归分析种类很多

  • 一元的,多元的。也就是单因素的。多因素的
  • 线性的,非线性的
  • 简单的,多重线性回归?

4.3  如果只有1个维度/ 1个变量的数据,进行预测一定是 平均值预测的总体误差更小(总体更准确)

  • 正态分布时,如果不引入其他因素,如何预测将来的值最准呢?
  • 用平均值预测,最终,总TSS误差和最小。
  • 总TSS=用每个值去预测将来,产生的误差,之SUM

下面是我自己搞的一个简单推理过程

  • 数据只有1维的情况下
  • 平均值一定是预测值总体预测最小的1维预测
  • 经过上述比较,证明了,用mean预测下一个值,总体误差和一定最小。                    
  • 但是要理解,这是就总体而言,不是针对某一个具体的可能值, 而是所有可能的值都可能出现时的 总误差和最小                    

4.4  因果分析/回归分析,比正态分布的均值的预测更准

现在问题来了,如果可以引入其他变量帮助预测是否可以预测得更准?

  • 如果可以引入其他值,是否可以预测得更准?
  • 可以,最小二乘法OLS,就是干这个事情的
  • OLS得到的预测值,一定可以做到比 用mean预测的总误差和tss更小!

4.4.1 详细见下图

  • 横轴:自变量,
  • 纵轴:因变量,
  • 纵轴上画一条与横轴平行的线,就是均值线,应该是最小的TSS
  • 还可以画多条与横轴平行的线,非均值线,应该总误差和TSS会变大
  • 一条斜线,线性预测,就是线性回归的结果,这个OLS的误差和变小。
  • 线性回归里, RSS/TSS,其实是以TSS均值的0因素分析为基础的。

4.5 非标准回归 和标准回归系数

  • Unstandardlized coefficients,  非标准化回归系数,够用。反应的就是 因变量/自变量的系数,自变量 每变化1单位变化(1就是单位变化,如果想是5作为单位变化,继续/5,最后再还原),因变量变化多少。
  • standardlized coefficients,以各种标准差为单位。就是自变量每变化1个单位的自己的标准差,因变量变化多少个单位的自己的标准差长度。
  • 建模,简单的来说,就是写函数,列方程等等。

4.6 OLS的详细

4.6.1 OLS名字 ordinary Least Square

  • O ordinary
  • Least 最小
  • Square  sum of squares
  • 回归系数的显著度检测,就是指 系统的 systematic,非随机的non-random
  • 因此才显著,值得研究去关注,是显著的自变量

5 多因素回归时,每个因素的净影响和合力

5.1 净影响:偏回归系数/净回归系数 partial correlation

  • 每个变量的,净回归系数,就是假设其他因素不变时,这个因素/自变量的变化引起的 因变量变化的系数(净影响)!

5.2 多个因素影响的合力

  • 多因素回归会有回归系数,R,R**2
  • 这个判断系数,告诉我们的是多个因子合力的影响的评判
  • 而不是某个因子的净影响。


5.3 用这个著名图去理解:净回归系数

  • 多因素线性回归里的单个自变量的偏回归系数 != 单因素线性回归里的自变量的系数
  • 因为多因素线性回归里的单个自变量的偏回归系数,不计算多个自变量,对因变量都有的那部分公共影响!
  • 偏回归系数=每个因素/自变量的变化引起的 因变量变化的系数(净影响)

  • 2个自变量 IV1  IV2
  • 1个因变量,DV
  • 3个圆交叉。

  • b 是3者交叉的
  • 第1个模型方程:单因素回归分析1
  • a+b,是自变量1的回归系数

  • 第2个模型方程:单因素回归分析2
  • c+b,是自变量2的回归系数

  • 第3个模型方程:
  • 而如果是多因素回归
  • a,是自变量1的净影响,回归系数
  • c,是自变量2的净影响,回归系数
  • b,是自变量1和2共同作用的的影响,不计入各自的净影响
  • 所以,多因素线性回归里的单个自变量的系数 != 单因素线性回归里的自变量的系数


 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2225667.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Ping32为何是理想的加密工具?十大核心功能保障您的数据安全

在当今数字化时代,数据安全已成为企业和个人面临的重大挑战。随着信息泄露事件的频繁发生,选择一款可靠的加密工具至关重要。Ping32 作为一款备受赞誉的加密软件,以其十大核心功能,成为保障数据安全的理想选择。 一、强大的加密算…

React第十一章(useReducer)

useReducer useReducer是React提供的一个高级Hook,没有它我们也可以正常开发,但是useReducer可以使我们的代码具有更好的可读性,可维护性。 useReducer 跟 useState 一样的都是帮我们管理组件的状态的,但是呢与useState不同的是 useReducer…

JsonCpp库学习记录

使用源码的方式 到JsonCpp的开源库仓库下载最新的发行版本 解压压缩包 使用Python生成源码文件 在本路径下cmd打开控制台,使用python编译(前提是python环境已安装) python amalgamate.py 生成dist文件夹 jsoncpp为整合在一起的源码&#…

vue 解决:npm ERR! code ERESOLVE 及 npm ERR! ERESOLVE could not resolve 的方案

1、问题描述: 其一、需求为: 想要安装项目所需依赖,成功运行 vue 项目,想要在浏览器中能成功访问项目地址 其二、问题描述为: 在 package.json 文件打开终端平台,通过执行 npm install 命令&#xff0c…

6,000 个网站上的假 WordPress 插件提示用户安装恶意软件

黑客使用窃取的凭证感染 WordPress 网站,并向其发送虚假插件,通过虚假的浏览器更新提示向最终用户发送恶意软件和信息窃取程序。 该恶意活动基于ClickFix假浏览器更新恶意软件的新变种,自 2024 年 6 月以来已使用假 WordPress 插件感染了超过…

QT 机器视觉 1.相机类型

本专栏从实际需求场景出发详细还原、分别介绍大型工业化场景、专业实验室场景、自动化生产线场景、各种视觉检测物体场景介绍本专栏应用场景 更适合涉及到视觉相关工作者、包括但不限于一线操作人员、现场实施人员、项目相关维护人员,希望了解2D、3D相机视觉相关操作…

【问题解决】pnpm : 无法将“pnpm”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。

今天配置完poetry环境变量之后pnpm不能用了 具体报错 pnpm : 无法将“pnpm”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。请检查名称的拼写,如果包括路径,请确保路径正确,然后再试一次。 所在位置 行:1 字符: 1pnpm run dev~~~~ Ca…

【加密系统】华企盾DSC服务台提示:请升级服务器,否则可能导致客户端退回到旧服务器的版本

华企盾DSC服务台提示:请升级服务器,否则可能导致客户端退回到旧服务器的版本 产生的原因:控制台版本比服务器高导致控制台出现报错 解决方案 方法:将控制台回退到原来的使用版本,在控制台负载均衡查看连接该服务器各个…

若依框架部署到服务器后头像资源访问404

排错过程 第一开始以为是代理出问题了 官网给出的解决方案 第一种是用代理后端接口,第二种是重写路径直接访问静态文件 接口通过捕获profile开头的路径/profile/avatar…,转为/home…/avatar找到我们在该路径下的文件 但是我想了一下,我ngin…

基于Flink搭建流式湖仓OpenLake方案

OpenLake解决方案建立在开放可控的OpenLake湖仓之上,提供大数据搜索与AI一体化服务。通过元数据管理平台DLF管理结构化、半结构化和非结构化数据,提供湖仓数据表和文件的安全访问及IO加速,并支持大数据、搜索和AI多引擎对接。本文为您介绍以F…

windows下使用nvm进行多版本nodejs管理

目录 一:背景 二:nvm的介绍 三:环境切换使用 一:背景 最近在开发node js的项目,其中一个项目的前端和后台使用了两个node版本,因此需要不同的环境配置来进行开发任务,刚好nvm这个插件可以实现…

探索三维世界的奥秘:如何在Cesium中实现惊艳的双面渲染效果

✅作者简介:2022年博客新星 第八。热爱国学的Java后端开发者,修心和技术同步精进。 🍎个人主页:Java Fans的博客 🍊个人信条:不迁怒,不贰过。小知识,大智慧。 💞当前专栏…

掌握未来技术:KVM虚拟化安装全攻略,开启高效云端之旅

作者简介:我是团团儿,是一名专注于云计算领域的专业创作者,感谢大家的关注 座右铭: 云端筑梦,数据为翼,探索无限可能,引领云计算新纪元 个人主页:团儿.-CSDN博客 目录 前言&#…

RabbitMQ的Overview Totals是空

一、问题描述 RabbitMQ 版本:4.0.2,Erlang 版本:26.2.5.4。 RabbitMQ 页面管理(rabbitmq_management)的 Overview > Totals 是空: 二、原因分析 RabbitMQ 的配置: management_agent.disable_metrics_collector…

从0到1学习node.js(express模块)

文章目录 Express框架1、初体验express2、什么是路由3、路由的使用3、获取请求参数4、电商项目商品详情场景配置路由占位符规则5、小练习,根据id参数返回对应歌手信息6、express和原生http模块设置响应体的一些方法7、其他响应设置8、express中间件8.1、什么是中间件…

轻松部署自己的AI聊天助手LocalGPT并实现无公网IP远程交互

文章目录 前言环境准备1. localGPT部署2. 启动和使用3. 安装cpolar 内网穿透4. 创建公网地址5. 公网地址访问6. 固定公网地址 前言 本文主要介绍如何本地部署LocalGPT并实现远程访问,由于localGPT只能通过本地局域网IP地址端口号的形式访问,实现远程访问…

雷池社区版中升级雷池遇到问题

关于升级后兼容问题 版本差距过大会可能会发生升级后数据不兼容导致服务器无法起来 跨多个版本(超过1个大版本号)升级做好数据备份,遇到升级失败可尝试重新安装解决 升级提示目录不对 在错误的目录下执行(比如 safeline 的子目…

【WRF数据准备】基于GEE下载静态地理数据-叶面积指数LAI及绿色植被率Fpar

【WRF数据准备】基于GEE下载静态地理数据 准备:WRF所需静态地理数据(Static geographical data)数据范围说明基于GEE下载叶面积指数及绿色植被率GEE数据集介绍数据下载:LAI(叶面积指数)和Fpar(绿色植被率)数据处理:基于Python处理为单波段LAI数据参考GEE的介绍可参见另…

分布式理论基础

文章目录 1、理论基础2、CAP定理1_一致性2_可用性3_分区容错性4_总结 3、BASE理论1_Basically Available(基本可用)2_Soft State(软状态)3_Eventually Consistent(最终一致性)4_总结 1、理论基础 在计算机…

技术周总结 10.21~10.27周日

文章目录 一、10.24 周四 程序员节2.1)问题01: Memory Analysis Tool的使用方法 二、10.27 周日2.1) J2EE架构J2EE 的核心组件与技术J2EE 的多层架构J2EE 的优缺点J2EE 的应用场景 2.2)web应用开发中的 "web服务器" 和 …