数据分析思考

news2024/11/28 3:16:17

数据分析工作流程

在我的数据分析职业发展过程中,我从基础的数据提取工作开始,逐步深入到更为复杂和具有战略意义的领域。这包括构建和完善指标体系、设计风险预警模型,以及与多部门协作完成公司整体经营分析等工作。

在这个过程中,我常常思考一个问题:到底是知道要做什么重要还是知道怎么做更重要?

当领导交给你一个陌生的数据分析场景,比如:"小黄,我给你一天时间你给我一份我们公司 Saas 收入分析报告

如果你是我你肯定会想:"我靠,你是不是有毛病啊?我怎么会知道怎么分析啊!"产生这种想法的主要原因是领导其实是很蠢的,他提出的问题往往需要你去猜他在想什么,从而让我们不知道我们该干什么。如果有一个标准化的数据分析流程该多好啊!

这个时候“跨行业数据挖掘标准流程”(CRISP-DM)就是一个很好的解决方案。

按照官方的说法:CRISP-DM 代表跨行业的数据挖掘过程,CRISP-DM 模型是 KDD 模型的一种。CRISP-DM方法论提供了计划数据挖掘项目的结构化方法。这是一种可靠且经过验证的方法。CRISP 提供了一种开放的、可自由使用的数据挖掘标准过程,使数据挖掘适合于商业或研究单位的问题求解策略。它把这个过程定义为六个标准阶段,分别是商业理解、数据理解、数据准备、建立模型、模型评估和模型发布。

但是他还不够好,究其原因在于商业环境中有些内容有些场景在该流程中存在缺失。对此,我们可以在这个模型的基础上进行改造来满足我们的分析需求。

完整的数据分析工作流程是什么样的?

在回答这个问题之前我们先思考一下 CRISP-DM 这个模型的三个关键词是什么?

1.问题定义
1.1 界定问题-确定分析目标和范围
1.2 数据驱动的解决方案-探索可能的分析方法


2.数据收集
2.1 数据需求识别-确定所需数据类型和来源
2.2 数据可行性评估-核实数据的可获取性和合理性
2.3 数据信息解读-理解数据内容和信息价值
2.4 数据处理策略-规划数据的清洗和准备工作


3.方案制定
3.1 方案评估-根据数据验证方案的可行性
3.2 方案优化-对初步方案进行调整和完善
3.3 质量保证-确保方案的有效执行和交付
3.4 成效评估-量化方案成果,评估业务影响,提出未来改进方向

好,现在我们了解到了三个关键词以及十个具体的工作内容,那我们该如何利用这十个流程来解决我们的数据分析工作中碰到的难题。

案例一:"小黄,你以后每周出一份上海分公司的收入分析报告。

这是我刚入职时的真实工作,这项工作有好有坏,好的是分析报告中所有的指标都已固化,坏的是这就是个吃力不讨好的活。但是咱们思考一下,在这项工作中我们需要考虑哪些东西?

1.数据处理策略
2.质量保证
3.成效评估

至于其他的工作,我们也许需要处理,但是没那么着急处理,为什么?

界定问题:这是一份固定分析报告,分析目标和范围很清晰了
解决方案:这份固定分析报告中所有的指标已经被指定,不需要调整
数据需求识别:既然所有指标已经被定好了,我们就不要动脑了
数据可行性评估:分公司的数据总公司可以直接从数据库中拿到;
数据信息解读:你不需要了解这些指标是什么意思;
方案评估、方案优化:既然报告都已经固化了,我们就没有太大必要去思考方案需不需要调整啦。

所以对于这项工作,我们只需要对从系统中获得的数据进行处理,然后生成对应的分析报告并交付即可,该项工作的核心是:保质保量的敏捷交付。

案例二:“小黄,去年哈尔滨这么火,分析一下市场情况如何吧?最好给我个三年收入预测。

领导不知道脑子里面装了什么,上来就让我分析一个这么宏观的东西!我要写得出来我还在这呆着?但是没办法公司花钱就是让你来受苦的。

让我们拆解老板的这个想法
首先:需求十分明确,对市场的现状进行描述并预测未来,
其次没有其次。也就是说十项工作我们只能省略第一项:界定问题。

那我们来思考一下按照流程该怎么解决这个问题
1.1 界定问题-确定分析目标和范围-对市场的现状进行描述并预测未来。

1.2 数据驱动的解决方案

  • 探索市场情况分析的常用方法,如 SWOT 分析、PEST分析、波特五力型等
  • 研究收入预测的各种模型,如时间序列分析、回归分析、机器学习等
  • 评估不同方案的优缺点和适用场景,初步确定分析方法

2.1 数据需求识别:

  • 确定市场情况分析所需的数据,如哈尔滨的游客数量、消费情况、酒店入住率等
  • 明确收入预测模型的输入变量,如历史收入数据、市场增长率、竞争对手情况等
  • 列出所需数据的理想粒度和时间跨度

2.2 数据可行性评估:

  • 盘点公司内部已有的相关数据,评估其覆盖程度和质量
  • 调研外部数据源,如政府统计局、第三方研究机构等,了解数据获取的可能性和成本
  • 权衡数据的需求和可获得性,确定现实的数据集

2.3 数据信息解读

  • 仔细阅读和理解每个数据表/字段的业务含义
  • 判断数据对分析目标的相关性和重要性
  • 初步探索数据的分布特征,如异常值、缺失值等

2.4 数据处理策略

  • 制定数据清洗的规则和流程,如异常值处理、缺失值填充等
  • 确定数据集成和转换的方法,使各数据源的数据结构和格式统一
  • 设计数据建模的步骤,如特征工程、数据抽样等 

3.1 方案评估:

  • 使用已获得的数据,对拟定的分析方法进行初步测试
  • 评估不同方案的结果质量和解释力度
  • 选择最终的分析方案,并论证其合理性

3.2 方案优化:

  • 根据评估结果,对选定的分析方案进行调整和优化
  • 如调整模型参数、增加或剔除特征变量等
  • 确保优化后的方案仍在数据可支持的范围内 

3.3 质量保证:

  • 制定详尽的分析执行计划,明确每一步的输入、输出和责任人
  • 设计合理的结果验证和审核机制,如交叉验证、结果复核等
  • 建立分析过程的文档和日志,确保分析的可重复和可解释

3.4 成效评估:

  • 对市场情况分析的结果进行整理和可视化,提炼关键发现和建议
  • 给出三年收入预测的量化结果,并用情景分析等方法说明预测的置信区间
  • 评估分析结果对业务决策的指导作用,并提出后续改进分析的思路 

数据分析如何界定问题

我怎么确定领导到底在想什么。

作为一名数据分析师,在开始任何分析项目之前,界定问题是至关重要的第一步。这个过程需要仔细梳理需求,明确分析对象和目标,以确保后续的分析工作能够切中要害,提供有价值的洞见。

具体来说,我们需要回答两大类问题:

2.需要解决的具体问题是什么?

这一步需要深入挖掘表面需求背后的实质问题。例如,当一位短视频产品经理提出"希望了解用户对新功能的接受程度"时,我们需要进一步澄清:

  • "新功能"的范围:是特指某一项新推出的功能,还是指最近一次版本更新中的所有新功能?
  • "用户"的定义:是所有注册用户,还是活跃用户,亦或仅指使用了新功能的用户?
  • "接受程度"的衡量标准:是单纯看使用率,还是要综合考虑使用频次、使用时长、满意度等维度? 

3.问题需要被解决到什么程度?希望达成的目标是什么?

这一步需要明确需求背后的商业目的。例如,该项需求是为了评估新功能的推广效果,还是为了优化新功能,提升用户体验,进而提高用户粘性?

接着,我们再来思考数据分析常见的问题可以抽象成几类? 

不同类型问题解决方案和交付物是什么?

描述现状类问题

问题:短视频平台的整体运营情况如何?各个子品类、区域市场的表现如何?

解决方案:

  • 收集和整理平台的各项关键指标数据,如日活跃用户数、人均观看时长、互动率等,
  • 对数据进行统计分析,梳理平台的整体表现,
  • 按照不同维度(如内容类型、区域等)对数据进行分组分析,识别差异化特征
  • 使用数据可视化工具,生成直观易懂的图表和报告。

交付内容:

  • 平台整体运营情况分析报告
  • 各子品类、区域市场表现对比分析报告
  • 数据可视化仪表盘 
分析原因类问题

问题:某一类型短视频内容的完播率突然下降的原因是什么?

解决方案:

  • 确定完播率下降的具体时间段;
  • 收集该时间段内该类内容的各项指标数据,如视频时长、发布时间、主题标签、创作者特征等,
  • 对比分析完播率下降前后各指标的变化情况,识别异常波动;
  • 使用统计学方法,如相关分析、回归分析等,找出与完播率下降显著相关的因素,
  • 根据分析结果,提出优化建议。

交付内容:

  • 完播率下降原因分析报告
  • 关键影响因素识别与量化分析报告
  • 优化建议报告 
预测未来类问题

问题:下一季度的用户增长情况如何?

解决方案:

  • 收集历史用户数据,包括日活跃用户数、新增用户数、留存率等:
  • 收集影响用户增长的外部因素数据,如市场环境、竞品动向等
  • 选择合适的时间序列分析和机器学习模型,如 ARIMA、Prophet 等;
  • 将历史数据划分为训练集和测试集,训练模型并评估预测效果;
  • 使用训练好的模型,结合外部因素,预测未来一个季度的用户增长情况。

交付内容:

  • 用户增长预测模型及其评估报告
  • 未来一个季度的用户规模预测范围及置信区间
  • 用户增长预测分析报告,包括关键假设、影响因素分析等 
改善未来类问题

问题:如何优化短视频的推荐策略,提高用户的观看时长和互动率?

解决方案:

  • 收集用户的观看行为数据,如观看时长、互动行为、内容偏好等
  • 对用户行为数据进行探索性分析,识别不同用户群体的特征和偏好
  • 使用机器学习算法,如协同过滤、基于内容的推荐等,构建推荐模型
  • 设计并实施 AB 测试,评估不同推荐策略的效果;
  • 根据 AB 测试结果,选择最优的推荐策略,并持续监控和优化。

交付内容:

  • 用户行为分析报告,包括用户群体划分、偏好分析等
  • 推荐算法模型及其离线评估报告
  • AB 测试方案设计文档及测试结果分析报告 
  • 优化后的推荐策略说明文档及上线后的效果跟踪报告

到底什么叫数据分析

数据分析,实际上重要的是“分析“而不是“数据”

对比分析的三种视角

1.相互对比看差异

将两个独立的个体放在一起,通过对比分析它们的区别与联系,这是最常见的分析视角。比如竞品分析,将自家产品与竞争对手的产品进行全方位的比较,从价格、功能、用户体验等多个维度去考量,找出差异化的优势和劣势。

案例:可口可乐和百事可乐的竞品分析。作为碳酸饮料市场的两大巨头,可口可乐和百事可乐在口味、包装、定价、营销等方面展开了长期的较量。通过竞品分析,可口可乐发现百事可乐在年轻群体中更受欢迎,因此在广告投放和社 交媒体运营上加大了对年轻人的吸引力度。

2.总分对比看构成

将整体与部分进行对比,揭示部分对于整体的贡献和影响,这是更加细致入微的分析视角。常见的如贡献度分析,考察各个业务部门、产品线、区域市场等对于公司整体业绩的贡献情况。

案例:蒙牛集团的贡献度分析。蒙牛旗下拥有液态奶、冰淇淋、奶粉等多个品类,每个品类又包含常温、低温等细分产品。通过梳理各个品类的收入利润数据,并计算其占总收入利润的比重,蒙牛可以清晰地了解到底是哪些"拳头产品"在支撑公司的整体业绩,从而在资源投入上有的放矢,

3.前后对比看变化

将同一事物在不同时间点的状态进行对比,揭示事物随时间的变化规律,这是把握发展趋势的有力工具。比如通过对比企业连续几年的财务指标,分析经营状况的变迁脉络。

案例:海尔集团的财务趋势分析。海尔集团在年报中列示了营业收入、净利润、资产负债率等关键财务指标连续十年的数据。通过纵向对比,海尔发现营收和利润整体保持稳定增长,但增速有所放缓,同时资产负债率逐年攀升,存在一定的财务风险。这为海尔及时调整经营策略、优化资本结构提供了重要依据。

发现问题和机会

1.低于目标:实际表现与预期目标之间存在差距,如业绩不达标。

案例:房地产公司的销售目标管理。某房企年初制定了50亿元的全年销售目标,但前三季度累计销售额仅完成20亿元与目标差距甚远。这一落差,直接反映出公司在产品规划、营销策略、渠道管理等方面存在不足,亟需诊断原因、对症下药。

2.状况恶化:现状较之前出现明显下滑,如产品口碑下降。

案例:餐饮企业的用户满意度监测。某火锅连锁店通过满意度调査,发现顾客对食材新鲜度的评价同比下降了10%。这一变化反映出食材采购和仓储管理流程可能出现了问题,若不及时改进,势必影响口碑和营收。满意度的"落差"恰恰为企业敲响了警钟。

3.存在风险:虽然眼下表现尚可,但未来存在较大的不确定性和风险,如市场份额受到挑战

案例:汽车企业的市场份额预警。某国产汽车品牌长期稳居细分市场第一,但最新数据显示,有两个后起之秀的市占率增速已经高于该品牌。这一趋势表明,市场格局正在发生微妙变化,原有的优势地位并非长久稳固。及时捕捉这种"风吹草动",未雨绸缪,方能立于不败之地。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1844697.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

会声会影2024旗舰版汉化最新安装包下载方法步骤

嗨,亲爱的CSDN的朋友们!🎉今天,我要跟大家分享一款让你的视频编辑体验升级的神器——会声会影2024最新版本!✨如果你是一个热衷于创作视频内容的创作者,那么你一定不能错过这个软件。它不仅功能强大&#x…

为什么企业需要数据挖掘平台?哪个比较好呢?

什么是数据挖掘? 数据挖掘就是从大量的数据中去发现有用的信息,然后根据这些信息来辅助决策。听起来是不是跟传统的数据分析很像呢?实际上,数据挖掘就是智能化的数据分析,它们的目标都是一样的。但是&#xff0c…

前端面试js高频手写大全

res.push(fn(arr[i])) } return res } 3. reduce实现数组的map方法 Array.prototype.myMap function(fn,thisValue){ var res []; thisValue thisValue||[]; this.reduce(function(pre,cur,index,arr){ return res.push(fn.call(thisValue,cur,index,arr)); },[])…

【复旦邱锡鹏教授《神经网络与深度学习公开课》笔记】

卷积经常用在信号处理中,用于计算信号的延迟累积。假设一个信号发射器每个时刻 t t t产生一个信号 x t x_t xt​,其信息的衰减率为 w k w_k wk​,即在 k − 1 k-1 k−1个时间步长后,信息为原来的 w k w_k wk​倍,时刻 …

PMBOK® 第六版 指导与管理项目工作

目录 读后感—PMBOK第六版 目录 我们都不情愿去做重复的工作,也不期望只得到一个计划,而具体的工作任务却笼统模糊,需要在做的过程中一边摸索。如此一来,对于熟悉的事情会因反复而影响心态,对于不熟悉的事情则由于痛苦…

在SQL中使用explode函数展开数组的详细指南

目录 简介示例1:简单数组展开示例2:展开嵌套数组示例3:与其他函数结合使用处理结构体数组示例:展开包含结构体的数组示例2:展开嵌套结构体数组 总结 简介 在处理SQL中的数组数据时,explode函数非常有用。它…

pytorch十大核心操作

PyTorch的十大核心操作涵盖了张量创建、数据转换、操作变换等多个方面。以下是结合参考文章信息整理出的PyTorch十大核心操作的概述: 张量创建: 从Python列表或NumPy数组创建张量。使用特定值创建张量,如全零、全一、指定范围、均匀分布、正…

AI与区块链的融合:Web3时代下的新应用探索

本文来源香港Web3媒体Techub News AI与区块链:Web3时代的新机遇 在香港这座金融与科技交汇的繁荣都市,AI与区块链的结合已经成为Web3时代的重要议题,为行业发展带来了新的可能性和机遇。越来越多的开发者正在积极探索这一领域的融合&#xff…

FlinkCDC 3.1.0 与 Flink 1.18.0 安装及使用 Mysql To Doris 整库同步,使用 pipepline连接器

cd flink-cdc-3.1.0 bin/flink-cdc.sh 会用到 linux的系统环境变量(vim /etc/profile配置),使用环境变量 FLINK_HOME flinkcdc & flink 安装及使用: 1、flink-cdc-3.1.0/lib/ 内容如下: 2、flink-cdc-3.1.0/mysql…

win10免安装配置MySQL8.4.0

注:此教程基于win10 22H2 版本 1、下载最新版本MySQL压缩包 下载链接:MySQL官网下载地址 点击第二行的 ZIP Archive 后面的Download(当前时间2024-06-19最新版本是8.4.0) 2、解压并添加配置文件 下载完毕后,解压缩…

Ncorr使用过程的问题解答

问题系列 文章目录 问题系列前言一、如何更改单位?情景:DIC Analysis 二、拉格兰日和欧拉绘图的区别直观 三、控制图像中的显示条上下界限问题展示:解决方案: 更新动态 前言 主要用于记录使用过程中出现的相关问题。 一、如何更改…

k8s中 docker和containerd 镜像相互导入导出

containerd镜像导出并导入docker 1 查看containerd 本地镜像列表 crictl images 2 containerd 导出本地镜像到当前目录下(注意: 导出导入需要指定镜像平台类型 --platform) ctr -n k8s.io images export nacos-server-24-06-30-13-02-…

【尚庭公寓SpringBoot + Vue 项目实战】移动端登录管理(二十)

【尚庭公寓SpringBoot Vue 项目实战】移动端登录管理(二十) 文章目录 【尚庭公寓SpringBoot Vue 项目实战】移动端登录管理(二十)1、登录业务2、接口开发2.1、获取短信验证码2.2、登录和注册接口2.3、查询登录用户的个人信息 1、…

SFF1006A-ASEMI无人机专用SFF1006A

编辑:ll SFF1006A-ASEMI无人机专用SFF1006A 型号:SFF1006A 品牌:ASEMI 封装:TO-220F 最大平均正向电流(IF):10A 最大循环峰值反向电压(VRRM):600V 最大…

react实现窗口悬浮框,可拖拽、折叠、滚动

1、效果如下 2、如下两个文件不需要修改 drag.js import React from "react"; import PropTypes from "prop-types";export default class DragM extends React.Component {static propTypes {children: PropTypes.element.isRequired};static defaultP…

神经网络 #数据挖掘 #Python

神经网络是一种受生物神经元系统启发的人工计算模型,用于模仿人脑的学习和决策过程。它由大量互相连接的节点(称为神经元)组成,这些节点处理和传递信息。神经网络通常包含输入层、隐藏层(可有多个)和输出层…

MySQL安装教程,包含root账户密码的修改(绿色版安装)---超简单好用

1、下载(mysql-8.0.27-winx64) 2、下载地址:https://dev.mysql.com/downloads/mysql/ 3、已经将 mysql-8.0.27-winx64 文件放在了文章最后,有需要的自取(解压配置即可用)。 4、配置环境变量: 右键点击我的电脑->属性->高级系统设置->高级->环境变量->系…

PostgreSQL的学习心得和知识总结(一百四十五)|深入理解PostgreSQL数据库之ShowTransactionState的使用及父子事务有限状态机

目录结构 注:提前言明 本文借鉴了以下博主、书籍或网站的内容,其列表如下: 1、参考书籍:《PostgreSQL数据库内核分析》 2、参考书籍:《数据库事务处理的艺术:事务管理与并发控制》 3、PostgreSQL数据库仓库…

Windows11平台C++在VS2022中安装和使用Matplot++绘图库的时候出现的问题和解决方法

Matplot 是一个基于 C 的绘图库,专门用于绘制高质量的数据图表。它提供了一个简洁而强大的接口,使得用户能够轻松地创建各种类型的图表,包括线图、散点图、柱状图、饼图等。Matplot 的设计目标是提供与 MATLAB 相似的绘图体验,同时…

apache-tomcat、apache-maven、apache-zookeeper等的本地环境配置

一、介绍 1.apache-tomcat apache-tomcat充当了一个Web服务器和一个Java应用程序服务器的角色,可以用来部署和运行Java Web应用程序,使开发者能够轻松地部署和管理Java Web应用程序。 2.apache-maven apache-maven是一个项目管理工具,主要…