数据分析思维(二)|相关思维

news2025/2/25 15:14:45

1、概念

相关思维是数据分析中最常见的思维之一,在我们观察指标变化的时候,往往需要观察指标之间的相关关系,比如观察自己身高和体重的变化,这就是一种相关思维的体现。

衡量指标之间的相关关系,常见的相关性分析方法如下:

图表分析
皮尔逊相关系数
协方差
卡方检验

  • 图表分析

    • 对于一般的属性关系,我们采用简单的绘图方式就能够看出二者的属性关系,常见的图形有散点图/折线图。
    • 在这里插入图片描述
  • 皮尔逊相关系数

    • P ( X , Y ) = E ( X Y ) − E ( X ) E ( Y ) E ( X 2 ) − E 2 ( X ) E ( Y 2 ) − E 2 ( Y ) P(X,Y) = \frac{E(XY)-E(X)E(Y)}{\sqrt{E(X^2)-E^2(X)}\sqrt{E(Y^2)-E^2(Y)}} P(X,Y)=E(X2)E2(X) E(Y2)E2(Y) E(XY)E(X)E(Y)
    • 皮尔逊相关系数通常用于衡量两个连续变量之间的相关程度,其取值是有界的,范围为[-1, 1],我们可以根据相关系数的取值(绝对值)来衡量两个变量的相关性:
      • 0.8-1.0:极强相关
      • 0.6-0.8:强相关
      • 0.4-0.6:中等程度相关
      • 0.2-0.4:弱相关
      • 0.0-0.2:极弱相关或无相关
  • 协方差

    • c o v ( X , Y ) = E [ ( x − x ˉ ) ( y − y ˉ ) ] cov(X,Y)=E[(x-\bar{x})(y-\bar{y})] cov(X,Y)=E[(xxˉ)(yyˉ)]
    • 协方差和皮尔逊一样通常用于两个连续变量之间相关性的检验,使用协方差判断相关性的结果比较直接,只有正相关、负相关、不相关三种结果。
      • 当cov(X,Y)>0时,表明X和Y正相关
      • 当cov(X,Y)<0时,表明X和Y负相关
      • 当cov(X,Y)=0时,表明X和Y不相关
  • 卡方检验

    • 卡方检验可以用于离散和离散数据之间相关性的检验。(具体卡方检验的过程见后文的例子)

2、例:连续变量

连续变量之间的相关性

A公司2022年前6个月的广告投放金额为3.2, 4.2, 5.5, 5.0, 5.8, 8.5,每个月对应的利润为10.2, 11.1, 12.5, 12.8, 13.7, 15.0,我们如何确认广告投放和利润之间的相关性强弱呢,这时我们就可以使用上述的方法进行判断了。下面用Python计算相关系数举例:

import pandas as pd
data = pd.DataFrame({
    "广告": [3.2, 4.2, 5.5, 5.0, 5.8, 8.5],
    "利润": [10.2, 11.1, 12.5, 12.8, 13.7, 15.0]
})
data.corr()

结果如下:

广告利润
广告1.0000000.952401
利润0.9524011.000000

由结果可见,广告和利润之间的相关系数为0.952,由相关系数的判断标准来衡量,从数据上看他们二者是极强相关的。

3、例:离散变量

离散变量之间的相关性

现在需要检验某公司的不同广告和是否点击之间的关系,现有实际频数如下:

  • 实际频数
点击未点击总计
广告A360014005000
广告B22008003000
总计580022008000

由上述的条件可知,广告只有A和B两种,结果也只有点击与未点击两种,因此我们需要使用卡方检验的方式来进行相关性的判断。

  • 假设

H0:广告和点击有关

H1:广告和点击无关

假设检验的基本思想是在假设成立的基础上去进行验证,因此我们可以计算出相应的期望频数如下:

点击未点击总计
广告A362513755000
广告B21758253000
总计580022008000
  • 期望的计算方式(以广告A的点击举例)

广告A的投放人数为5000,点击的总人数为5800,总体投放的总人数为8000,则广告A的点击期望频数为(5000*5800)/8000=3625。

  • 卡方计算
    • n:行数
    • m:列数
    • A:实际频数
    • T:期望频数

χ 2 = ∑ i = 1 n ∑ j = 1 m A i j − T i j T i j \chi^2=\sum_{i=1}^{n}\sum_{j=1}^{m}\frac{A_{ij}-T_{ij}}{T_{ij}} χ2=i=1nj=1mTijAijTij

χ 2 = ( 3600 − 3625 ) 2 3625 + ( 1400 − 1375 ) 2 1375 + ( 2200 − 2175 ) 2 2175 + ( 800 − 825 ) 2 825 = 1.67 \chi^2=\frac{(3600-3625)^2}{3625}+\frac{(1400-1375)^2}{1375}+\frac{(2200-2175)^2}{2175}+\frac{(800-825)^2}{825}=1.67 χ2=3625(36003625)2+1375(14001375)2+2175(22002175)2+825(800825)2=1.67

  • 结果对照

得到卡方计算的结果之后,我们需要进行查表来确定概率:

在这里插入图片描述

根据表格可以得到,我们计算的统计量的结果为1.67,介于1.3232.072之间,因此我们可以说广告和点击有关成立的概率在0.75-0.85之间。

  • Python计算
from scipy.stats import chi2_contingency
import pandas as pd
import numpy as np

df = pd.DataFrame({
    '广告': ['A', 'A', 'B', 'B'],
    '点击': [1, 0, 1, 0],
    '频数': [3600, 1400, 2200, 800]
})
cross_tab = pd.pivot_table(data=df,
                           values='频数',
                           index='广告',
                           columns='点击',
                           margins=True,
                           aggfunc=np.sum)
print('卡方={0}\nP值={1}'.format(*chi2_contingency(cross_tab)[:2]))

结果如下:

卡方=1.6718913270637408
P值=0.7958170415961258
  • 结果解读

根据Python计算的结果,P值>0.05,因此我们得到的结论为广告和点击不相关。

注意:卡方检验不能看到两个分类变量相关性的强弱,只能展示出他们是否相关。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/76099.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[Linux打怪升级之路]-重定向

前言 作者&#xff1a;小蜗牛向前冲 名言&#xff1a;我可以接受失败&#xff0c;但我不能接受放弃 如果觉的博主的文章还不错的话&#xff0c;还请点赞&#xff0c;收藏&#xff0c;关注支持博主。如果发现有问题的地方欢迎❀大家在评论区指正。 目录 一、文件描述符 1、初…

步步详解IntelliJ IDEA创建springboot项目并运行

1. SpringBoot 简介 SpringBoot 是由 Pivotal 团队提供的全新框架&#xff0c;其设计目的是用来简化 Spring 应用的初始搭建以及开发过程。 我们在学习 Spring 的时候说过 Spring 框架是为了简化开发的&#xff0c;而 SpringBoot 是为了简化 Spring 开发的&#xff0c; 由此…

easylabel | 完美拯救手残党不会标注突出重点!(Label!~ Label!~)

1写在前面 我们在画图的时候经常需要标记某个值, 如散点图中的某个具体的点, 火山图中的某个基因, 但对于代码不太熟悉的小白来说, 还是有一定难度的.&#x1f92a; 本期和大家介绍一个基于shiny轻松进行label的包, 即easylabel包, 轻松实现交互式label, 麻麻再也不用担心你的画…

全国青少年软件编程(Scratch)等级考试二级考试真题2021年12月——持续更新.....

电子学会202112Scratc二级真题及参考答案 1.舞台上有3个角色,小猫的程序如下图所示,另外两个角色没有程序。点击绿旗,下列选项正确的是? A.小猫随鼠标移动,可能会遮挡其他两个角色 B.小猫随鼠标移动,可能会被其他两个角色遮挡 C.小猫不会随鼠标移动,更不会被遮挡 D.…

一睹风采,见证郁锦香酒店遍布全球核心城市的百变姿态

随着消费需求的不断升级&#xff0c;酒店消费场景也进行着多元化的发展&#xff0c;城市高端度假品牌正积极溯源消费需求&#xff0c;寻得品牌文化延伸的可靠路径。同时&#xff0c;各大酒店品牌也加快在市场布局的脚步&#xff0c;希望通过布局城市核心区域获得可持续发展的更…

企业微信-自建应用二:消息发送测试

1.开发过程 要测试企微自建应用的消息发送功能 企业微信开发者中心-调试工具 建立连接 corpsecret即是自建应用的Secret 输入参数&#xff0c;调用接口&#xff0c;即可拿到返回的token 发送应用消息 填写token&#xff0c;以及body消息体 {"touser": "Us…

Birdboot第二天

目录 V4 HttpServletRequest保存请求内容 1.此类专门处理请求 把获取请求的readline()和拆分代码移动过来 2.ClientHandler客户端处理器实例化HttpServletRequest 3. 拆分的信息从局部变量 变成属性 4.建方法 解析请求行 消息头 消息正文 V5 发送响应 1.在客户端处理器 …

非洲秃鹫优化算法:求解全局优化问题的一种新的自然启发元启发式算法(Matlab代码实现)

目录 &#x1f4a5;1 概述 &#x1f4da;2 运行结果 &#x1f389;3 参考文献 &#x1f468;‍&#x1f4bb;4 Matlab代码 &#x1f4a5;1 概述 元启发式在解决优化问题中起着至关重要的作用。大多数此类算法的灵感来自于自然界中生物的集体智能和觅食。本文以非洲秃鹫的生…

YOLOv4:目标检测的最佳速度和精度

来源&#xff1a;投稿 作者&#xff1a;王同学 编辑&#xff1a;学姐 《YOLOv4&#xff1a;Optimal Speed and Accuracy of Object Detection》 发表时间及作者&#xff1a;2020 CVPR 目录 1.YOLOv4介绍 2.YOLOv4网络结构 2.1 Backbone改进 2.2 Neck改进 3.YOLOv4训练策…

java多线程基础

java多线程基础1. 线程是什么2. 线程的创建和运行方式1&#xff1a;继承Thread类示例:方式2&#xff1a;实现Runnable接口(推荐)示例:3. Thread类的常用方法4. 线程插队&#xff08;1&#xff09;yield 当前线程把时间片让给其它线程&#xff0c;不一定成功示例:&#xff08;2&…

数据库基础-Mongodb数据库复制操作

Mongodb数据库复制操作 关闭mongodb的服务,如下图 创建以下文件夹 现在我们开启三个服务,端口号为9927做为主节点,9928做为从节点,9929做为仲裁节点 仲裁节点的作用是协调leader选举&#xff0c;监测系统运行状态&#xff0c;提供节点互相通讯的数据信息。 开启主服务: m…

【视觉高级篇】24 # 如何模拟光照让3D场景更逼真?(下)

说明 【跟月影学可视化】学习笔记。 什么是镜面反射&#xff1f; 如果若干平行光照射在表面光滑的物体上&#xff0c;反射出来的光依然平行&#xff0c;这种反射就是镜面反射。越光滑的材质&#xff0c;它的镜面反射效果也就越强&#xff0c;并且物体表面会有闪耀的光斑&…

Windows系统下HTTP(S)透明代理

本文为joshua317原创文章,转载请注明&#xff1a;转载自joshua317博客 Windows系统下HTTP(S)透明代理 - joshua317的博客 软件文档地址:goproxy/README_ZH.md at master snail007/goproxy GitHub 一、windows系统下进行下载及安装 分别有两个版本&#xff1a;proxy-admin …

Servlet学习笔记

1.在pom.xml中添加依赖 <dependencies><dependency><groupId>javax.servlet</groupId><artifactId>javax.servlet-api</artifactId><version>3.1.0</version><!-- 不会最终打包到服务器中去 --><scope>provided&…

SpringBoot内置tomcat启动过程及原理

作者&#xff1a;李岩科 1 背景 SpringBoot 是一个框架&#xff0c;一种全新的编程规范&#xff0c;他的产生简化了框架的使用&#xff0c;同时也提供了很多便捷的功能&#xff0c;比如内置 tomcat 就是其中一项&#xff0c;他让我们省去了搭建 tomcat 容器&#xff0c;生成 …

和年薪30W的阿里测试员聊过后,才知道自己一直在打杂...

前几天和一个朋友聊面试&#xff0c;他说上个月同时拿到了腾讯和阿里的offer&#xff0c;最后选择了阿里。 阿里内部将员工一共分为了14个等级&#xff0c;P6是资深工程师&#xff0c;P7是技术专家。 其中P6和P7就是一个分水岭了&#xff0c;P6是最接近P7的不持股员工&#x…

JavaScript-DOM操作表格

DOM操作表格的用途 DOM操作表格会在项目做数据展示的时候用到&#xff0c;其余地方使用并不多。 表格内容 <table><thead><tr><th>编号</th><th>姓名</th><th>性别</th><th>年龄</th></tr></thead…

二叉树遍历非递归算法

二叉树遍历非递归算法 文章目录二叉树遍历非递归算法二叉树的遍历一、先序遍历非递归算法算法构思&#xff1a;从先序遍历的递归算法得出循环算法的思路:下面进行框架构建:代码实操:二、中序遍历(左-根-右)非递归算法中序遍历二叉树的过程构建思路:根据以上思路&#xff0c;构建…

vscode 安装clangd插件 替代 c++自带插件

目录 1. 背景 2. 安装clangd 安装前&#xff1a;禁用c插件 2.1 clangd插件名称 2.2 安装 2.3 配置 settings.json 2.4 语言服务器下载 2.5 安装 cmake tools 2.6 设置编译选项 3. 生成 compile_command.json 4. 查看使用效果 1. 背景 vscode c开大家一般用 vscode 自家…

磨金石教育摄影技能干货分享|乡愁摄影作品欣赏

乡愁是是什么&#xff1f; 我们走在异乡的街道上&#xff0c;人声嘈杂的一瞬间&#xff0c; 或许是某个角落&#xff0c;或许是某个人的声音&#xff0c; 让你感到无比的熟悉&#xff0c;在你的记忆深处掀起了一阵阵浪花。 这个熟悉的感觉就是乡愁 它可以是家乡的一棵树 …