数据科学、数据分析、人工智能必备知识汇总-----常用数据分析方法-----持续更新

news2024/12/27 12:21:48
数据科学、数据分析、人工智能必备知识汇总-----主目录-----持续更新(进不去说明我没写完):https://blog.csdn.net/grd_java/article/details/140174015

文章目录

  • 一、对比分析法
    • 1. 按时间和地区
    • 2. 同比和环比
  • 二、分组分析法
  • 三、结构分析法
  • 四、交叉分析法
  • 五、矩阵分析法
  • 六、杜邦分析法
  • 七、漏斗图分析法

一、对比分析法

对比分析法
  1. 将两个或两个以上的指标进行对比分析,通过对比分析可以直观地看到事物的变化或差距
  2. 对比分析可以基于时间进行对比,也可以基于分类(地区、部门、类别等)进行对比
  3. 例如,利用对比分析法分析某公司历年销售额的变化,基于时间的对比通常用折线图
    在这里插入图片描述
  1. 例如,通过对比分析法分析不同地区的销售额,基于分类的对比通常采用柱形图或条形图
    在这里插入图片描述

1. 按时间和地区

最简单最没有技术含量的对比方法,但是却简单好用

假设我们有如下数据
在这里插入图片描述

按时间
  1. 此时我们只需要建立数据透视图,将订单日期拖入行,销售额拖入值
    在这里插入图片描述
  1. 插入空白折线图(不选择任何数据,直接插入折线图)
    在这里插入图片描述
  1. 选中图表,在图表设计选项卡选中“选择数据”按钮,然后在弹出的窗口中点击添加(图列项系列)
    在这里插入图片描述
  1. 然后在系列值中选择销售额数据区域
    在这里插入图片描述
  1. 然后在水平(分类)轴标签选择“编辑”,然后选择年份数据即可
    在这里插入图片描述
    在这里插入图片描述
按地区,操作方法和上面同理,只不过分类轴从年份变为地区

在这里插入图片描述

2. 同比和环比

基于时间的对比有两个常用指标:同比和环比

  1. 同比:分析指标与同期进行比较,一般用于两年相同月份的比较上
  2. 环比:分析指标与相邻周期(上个月)进行比较,一般用于相邻月份的比较上
    在这里插入图片描述
同比
  1. 我们现在有4年的数据,现在我们想要实现后一年和前一年的对比,例如下图中,2014是第一年,没有2013年的数据是不需要考虑年度同比的,而从2015年开始,需要和前一年进行对比
    在这里插入图片描述
  1. 数据透视表中,我们在值窗口额外增加一列销售额,这个销售额,我们需要修改它的值字段设置。名称改为同比增长,值显示方式设置为差异,基本字段设置为年,基本项设置为上一个。也就是以年为单位,和去年进行差异比较
    在这里插入图片描述
  1. 上一步完成了同步增长值,现在我们可以额外求出同比增长率,操作方法和上面一样,只需将值显示方式改为差异百分比即可
    在这里插入图片描述
环比
  1. 同比是不同时段的相同字段进行比较,而环比是相邻两个时段的相同字段进行比较,比如2014年的2月和1月进行比较
  2. 操作方法还是一样的,额外拖入一个销售额字段到值窗口,然后进行值字段设置,名称改为环比增长,值显示方式还是选择差异,然后基本字段要选择订单日期,因为我们要按月进行比较,然后基本项选择上一个。表示每个月和上个月进行比较
    在这里插入图片描述
  1. 环比增长率也是一样的操作方式,将值显示方式改为差异百分比即可
    在这里插入图片描述

二、分组分析法

分组分析法

主要用于查看数据的分布,即绘制直方图。例如,某公司想了解客户购买数量的情况,可以绘制客户购买数量的直方图
在这里插入图片描述

  1. 上图中可以看出,大多数客户的购买数量在6件以下
  2. 有981人只买了1件,1174人购买数量大于6件,但是不超过11件
  3. 而7766人选择了2到6件,只有极少数客户购买数量大于11件
需要掌握的公式

FREQUENCY(data_array,bins_array):以一列垂直数组返回一组数据的频率分布

=frequency(data_array,bins_array)
# data_array表示要分组统计的列
# bins_array分组依据,是我们人为创造的分组组距
构建序列
  1. 数据如下,每个订单有数量,表示这个订单一次卖出几个
    在这里插入图片描述
  2. 我们分别求出数量字段中的最大值,最小值。然后人为规定组距为5,表示每个分组的大小为5
    在这里插入图片描述
  1. 然后我们从1开始,后面每组都由前一个组值+组距构成。也就是说第一组1开始,第二组=第一组的1+组距5 = 6.第三组=第二组的6+组距5 = 11.代表的区间就是(0,1],(1,6],(6,11]…
    在这里插入图片描述
  1. 通过上面介绍的FREQUENCY()函数进行分组统计,也就是将不同区间的数值统计出来
    在这里插入图片描述
  1. 其中,第一个参数是我们要分组统计的列,也就是订单表中,每个订单购买的产品数量那一列
  2. 第二个参数就是我们的分组依据,也就是通过组距生成的1,6,11,16
生成直方图
  1. 创建空白二维柱形图,然后添加两个图例项,都是频数(通过Frequency函数生成的),而分类选择区间
    在这里插入图片描述
  1. 更改图表类型,选择组合图,将系列2设置为折线图
    在这里插入图片描述

三、结构分析法

  1. 结构分析法主要用于分析各部分占总体的比例
  2. 例如分析不同产品类别所占的比例,可以通过饼图来表示
    在这里插入图片描述
  1. 结构分析法也可以添加时间维度,例如对比不同年份的不同产品类别的销售额
  2. 一般使用堆积柱形图表示
    在这里插入图片描述
分析部分与总体的关系

在这里插入图片描述

  1. 首先将产品类别放入行窗口,将销售额拖两个放入值窗口,第二个销售额字段进行值字段设置,设置值显示方式为列汇总的百分比
  2. 然后为其生成饼图(这里用的是三维饼图),系列选择百分比销售额占比,分类轴选择产品分类
    在这里插入图片描述
对比不同时间维度的结构分析

在这里插入图片描述

  1. 首先透视表的行是年份,列是商品类别,值是销售额
  2. 然后添加空白堆积图,先在图表数据区域进行选择,将类别和数据都选中,但是不要选择总计
  3. 然后系列选择类别,水平分类选择年份即可

四、交叉分析法

  1. 主要用于分析两个变量之间的关系,通过交叉表呈现,二维交叉表也叫列联表
  2. 例如分析不同地区的各产品类别的销售额,绘制出交叉表,通过雷达图进行分析
    在这里插入图片描述

五、矩阵分析法

  1. 又称波士顿分析法,以事物两个属性为坐标轴绘制散点图
  2. 例如分析不同地区的销售额与销售数量
    在这里插入图片描述
波士顿矩阵,以市场增长率和市场占有率作为坐标轴,将企业产品分为四类(问题产品,明星产品,瘦狗产品,现金牛产品)

在这里插入图片描述

  1. 明星产品:需要加大投资,继续增长
  2. 现金牛产品:成熟,保持即可,最大程度榨取(挤奶)
  3. 瘦狗产品:剥离或撤销,需要放弃
  4. 问题产品:分析问题,增加市场占有率或放弃
  5. 说白了就是将一个产品的市场增长率和市场占有率输入散点图中,如果在第一象限就是明星产品,第二象限就是问题产品,依此类推
操作步骤
  1. 插入空白散点图,选择数据,图例项系列的x选择销售额,y轴选择数量
    在这里插入图片描述
  2. 删掉图表中网格线后,选中横坐标,设置坐标轴格式,我们想要实现销售额中心点是均值,大于均值去右边,小于均值去左边,那么我们就设置其横坐标轴交叉点为坐标轴值,设置为均值即可
    在这里插入图片描述
  3. 同理,纵坐标轴也让数量的均值作为原点值
    在这里插入图片描述
  4. 将两个坐标轴的标签设置为无
    在这里插入图片描述
  5. 我们要让每个散点显示自己所在地区,因此添加数据标签后设置数据标签格式,让标签只显示单元格中的值,区域就选择地区即可
    在这里插入图片描述
    在这里插入图片描述
  6. 添加坐标轴标题
    在这里插入图片描述

六、杜邦分析法

  1. 由美国杜邦公司创造并最先采用的综合分析法,主要利用企业主要财务指标分析企业财务状况
  2. 杜邦分析中的核心概念:净资产回报率,return on equity,ROE,又称净资产收益率
  1. 例如:某企业初始资金100万RMB,想要代理某种产品进行销售,100万就是总权益资产,此时,总资产等于总权益资产,为100万
  2. 假设产品的进货单价为1万,100万能够进货100个,一个卖1万2,卖一批货的销售收入是120万,利润为120-100=20万
  3. 假设一年卖一次,也就是100个,此时,ROE=净利润/总权益资产=20/100=20%,因此ROE=净资产利润率
  1. 上面例子中的企业提高ROE的方法
  1. 涨价:售价提高到1万5,卖一批货100个利润就是50万,ROE提升至50%
  2. 借钱多进货:银行贷款150万,总资产为250万,进货250个,一年利润就是250×0.2=50万,ROE提升至50%,这种方法叫加杠杆,此时总权益资产仍是100万,借来的150万叫负债
  1. 杠杆比率:总资产/总权益资产,这里,总资产为250万,总权益资产为100万,杠杆比率为250/100=2.5,杠杆比率也叫权益乘数
  2. ROE = 净资产利润率 × 权益乘数
  3. ps:没有负债的情况下,权益乘数为1,也就是ROE=净资产利润率×1
  1. 多卖几批货:一年卖2.5次(250个),则一年利润50万,ROE提升至50%,此法叫作提升资产周转率,如果之前的资产周转率记为1,现在的资产周转率就变为2.5,ROE=净资产利润率×资产周转率
  1. 一年买一次货的情况,资产周转率就是1
  2. 因此有以下公式,ROE = 净资产利润率 × 权益乘数 × 资产周转率
    在这里插入图片描述

七、漏斗图分析法

  1. 通过漏斗图分析业务问题,适合业务流程规范、周期长、多环节的业务问题
  2. 例如,通过漏斗图分析某电商网站的流量数据
    在这里插入图片描述
操作步骤
  1. 要想漏斗图好看,就需要辅助列,首先将原数据放在中间的展示列,可以发现F2单元格的值是所有值中最大的,记为MAX,我们要围绕它做辅助列。而两边就是我们要放的辅助值,这个辅助值为(MAX + 1000 - 当前值)/2,其中当前值就是每个展示列的值,我们要为每个当前值两边放上辅助值
    在这里插入图片描述
  2. 因为自带漏斗图不太方便,因此我们选用堆积条形图来做,数据区域选择我们刚才创建的辅助数据
    在这里插入图片描述
  3. 选择两边的辅助列堆积条,让其设置为无填充,这样剩下的区域正好是漏斗图的区域
    在这里插入图片描述
  4. 选中纵坐标轴,设置其坐标轴选项为逆序类别
    在这里插入图片描述
  5. 添加数据标签并将两边辅助列数据删除
    在这里插入图片描述
  6. 选中数据序列,将其间隙宽度设置为0
    在这里插入图片描述
  7. 可操作性更强,标签可以拖出,而直接生成漏斗图是做不到这么灵活的
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2033464.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【话题】AI时代的程序员:挑战、机遇与核心竞争力的重塑

目录 人工智能时代,程序员如何保持核心竞争力? ​编辑引言 方向一:AI辅助编程对程序员工作的影响 案例 潜在的风险与对策 方向二:程序员应重点发展的核心能力 核心竞争力 如何培养这些能力 方向三:人机协作模式下的职业…

图论------贝尔曼-福德(Bellman-Ford)算法

算法概述&#xff1a; Bellman-Ford算法核心代码如下 for(int i 1;i<n-1;i) for(int j 1;j<m;j) if(dic[v[j]]> dic[u[j]] w[j]] dic[v[j]] dic[u[j]] w[j]; 首先我们要了解一个点就是我们这次不再使用邻接矩阵来存储图的信息&#xff0c;而是定义三个一维数组来…

Kubernetes之pod的污点和容忍度

污点和容忍度 污点&#xff08;Taint&#xff09;&#xff0c;它使节点能够排斥一类特定的 Pod。 容忍度&#xff08;Toleration&#xff09; 是应用于 Pod 上的&#xff0c;容忍度允许调度器调度带有对应污点的 Pod。 容忍度允许调度但并不保证调度&#xff1a;作为其功能的…

构建即时通讯应用:Spring boot高效集成WebSocket、Stomp协议完成前后端持续通信

1. 引入依赖 在你的Spring Boot项目的pom.xml中添加以下依赖&#xff1a; <dependencies><!-- Spring Boot Starter Thymeleaf --><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-thymeleaf&…

黑龙江日报报道第5届中国计算机应用技术大赛,赛氪提供赛事支持

2024年7月17日&#xff0c;黑龙江日报、极光新闻对在哈尔滨市举办的第5届中国计算机应用技术大赛全国总决赛进行了深入报道。此次大赛由中国计算机学会主办&#xff0c;中国计算机学会计算机应用专业委员会与赛氪网共同承办&#xff0c;吸引了来自全国各地的顶尖技术团队和选手…

振德医疗选择泛微千里聆RPA,助力电商、人事业务流程自动化

振德医疗用品股份有限公司成立于1994年&#xff0c;中国A股上市公司&#xff0c;是医用敷料和感控防护产品主要的供应商之一。 &#xff08;图片素材来自振德医疗官网&#xff09; 振德医疗的业务在线上线下齐发力。目前拥有5个国内生产基地&#xff0c;3个海外工厂&#xff0…

算法分析报告:商江小智文本生成算法

1. 算法全周期分析 算法安全与监测 信息内容安全&#xff1a;算法通过预处理和特征提取确保输入数据的安全&#xff0c;避免敏感信息泄露。信息源安全&#xff1a;算法依赖于训练数据集&#xff0c;需确保数据来源的合法性和隐私保护。信息安全监测&#xff1a;算法应实时监控…

(回溯) LeetCode 17. 电话号码的组合

原题链接 一. 题目描述 17. 电话号码的字母组合 已解答 中等 相关标签 相关企业 给定一个仅包含数字 2-9 的字符串&#xff0c;返回所有它能表示的字母组合。答案可以按 任意顺序 返回。 给出数字到字母的映射如下&#xff08;与电话按键相同&#xff09;。注意 1 不对…

Linux 下 ETCD 安装、配置与命令使用总结

​ 大家好&#xff0c;我是程序员小羊&#xff01; 前言&#xff1a; Linux 下 ETCD 安装、配置与命令使用总结 ETCD 是一个分布式键值存储系统&#xff0c;广泛用于服务发现、分布式锁、配置管理等场景&#xff0c;特别是在 Kubernetes 集群中发挥着至关重要的作用。ETCD 的高…

LoRA实现大模型LLM微调研究

LoRA&#xff0c;即低秩适应&#xff08;Low-Rank Adaptation&#xff09;&#xff0c;作为一种创新的微调方法&#xff0c;为大模型的优化与定制提供了一条高效、节省资源的新途径。 在快速发展的AI时代背景下&#xff0c;大型语言模型因其卓越的性能和广泛的应用前景&#xf…

(限时免费)震惊!流落人间的haproxy宝典被找到了!一切玄妙尽在此处!

目录 haproxy七层代理详解一、负载均衡1.1 什么是负载均衡1.2 为什么使用负载均衡1.3 负载均衡类型1.3.1 硬件负载1.3.2 四层负载1.3.3 七层负载1.3.4 四层与七层的区别 二、haproxy介绍2.1 haproxy简介2.2 haproxy特性 三、haproxy详细部署3.1 实验所用的环境3.2 软件安装3.3 …

【每日一题】【数学推导】【分类讨论】小红的数组重排 牛客周赛 Round 55 C题 C++

牛客周赛 Round 55 C题 小红的数组重排 题目背景 牛客周赛 Round 55 题目描述 样例 #1 样例输入 #1 4 7 2 5 1样例输出 #1 YES 1 5 2 7样例 #1 样例输入 #1 6 1 1 4 5 1 4样例输出 #1 NO做题思路 a 1 ∗ a 2 < a 2 ∗ a 3 < . . . < a n − 1 ∗ a n a_1*a_…

【Kettle】kettle连接MySQL数据库连接不上解决方案汇总

前言 近期项目上经常用到ETL&#xff08;数据抽取转换加载&#xff09;&#xff0c;就想到了之前用过的kettle工具&#xff0c;下班回家想着再玩玩这个工具吧&#xff0c;结果在连接MySQL时&#xff0c;遇到了各种问题&#xff0c;就顺手整理记录一下。所以今天晚上的主题是&a…

SuccBI+低代码文档中心 — 可视化分析(仪表板)(上)

有关仪表板的设计器&#xff1a; 查询设置 由于仪表板的设计器是所见即所得的&#xff0c;可以将当前制作的内容和数据的查询结果实时展示在界面中&#xff0c;当引入到仪表板的模型数据量较大时&#xff0c;为了提高设计器界面的查询性能&#xff0c;提供了以下两种方法&…

PythonStudio 控件使用常用方式(二十一)TTrayIcon

PythonStudio是一个极强的开发Python的IDE工具&#xff0c;官网地址是&#xff1a;https://glsite.com/ &#xff0c;在官网可以下载最新版的PythonStudio&#xff0c;同时&#xff0c;在使用PythonStudio时&#xff0c;它也能及时为用户升到最新版本。它使用的是Delphi的控件&…

SSL发送邮件:如何确保邮件传输过程安全?

SSL发送邮件的安全性评估&#xff1f;SSL发送邮件的条件有哪些&#xff1f; 使用SSL发送邮件是一种有效的措施&#xff0c;能够确保邮件在传输过程中的安全性。AokSend将探讨SSL发送邮件的关键技术及其重要性&#xff0c;帮助您更好地理解如何确保邮件传输过程的安全。 SSL发…

米思奇安装——Mac版本

米思奇安装——Mac版本 1.下载 访问米思奇官网https://mixly.org/bnu-maker/mixl2.0rc 打开官网后在首页点击导航栏的软件平台&#xff0c;选择Mixly离线版 点击Mixly2.0RC4发布下载。 进入百度网盘分享的文件&#xff0c;选择Mac一键更新版本&#xff0c;等待下载完成。 …

机器学习——第十一章 特征选择与稀疏学习

11.1 子集搜索与评价 对一个学习任务来说&#xff0c;给定属性集&#xff0c;其中有些属性可能很关键、很有用&#xff0c;另一些属性则可能没什么用.我们将属性称为"特征" (feature) &#xff0c;对当前学习任务有用的属性称为"相关特征" (relevant featu…

【Pyspark-驯化】一文搞懂Pyspark中表连接的使用技巧

【Pyspark-驯化】一文搞懂Pyspark中表连接的使用技巧 本次修炼方法请往下查看 &#x1f308; 欢迎莅临我的个人主页 &#x1f448;这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合&#xff0c;智慧小天地&#xff01; &#x1f387; 相关内容文档获取 微信公众号 &…

ios创建控制器的3种方法实现页面跳转

ios遵守mvc设计模式&#xff0c;下面介绍创建控制器viewcontroller的几种方法&#xff0c;来实现页面的跳转 1.纯代码创建 // // AppDelegate.m // study2024 // // Created by zhifei zhu on 2024/8/7. //#import "AppDelegate.h" #import "MyViewContro…