个人主页:在线OJ的阿川
大佬的支持和鼓励,将是我成长路上最大的动力
阿川水平有限,如有错误,欢迎大佬指正
数据分析概要前 必看
Python 初阶
Python–语言基础与由来介绍
Python–注意事项
Python–语句与众所周知
数据分析系列文章 偏学术
数据分析—技术栈和开发环境搭建
数据分析—Numpy和Pandas库基本用法及实例
数据分析—三前奏:获取/ 读取/ 评估数据
数据分析—数据清洗操作及众所周知
数据分析—数据整理操作及众所周知
数据分析—统计学基础及Python具体实现
数据分析—数据可视化Python实现超详解
数据分析—推断统计学及Python实现
数据分析—线性及逻辑回归模型
数据分析—AI交互及爬虫
大数据导论 知识
【大数据导论】—大数据序言
【大数据导论】—大数据、人工智能、云计算、物联网、区块链序言
【大数据导论】—大数据基础知识
目录
- 数据概念
- 数据类别
- 数据四大优势
- 数据分析概念
- 数据岗位区别
- 数据分析适用场景
- 数据分析步骤
- 数据分析框架
- 数据分析中的可视化
- 学习经验分享
数据概念
数据
- 对客观事件进行记录并可以鉴别的符号
- 是构成信息的基本单位
数据类别
-
数值型数据
由数字组成的变量
-
类别型数据
由各种字符串和分组标签组成
数据四大优势
- 反复读取和使用
- 客观
- 量化
- 机器可处理
数据分析概念
只要是基于量化的信息 提升生产力就是数据分析
数据岗位区别
基于业务
- 数据专员
- 数据运营
- 数据分析师
基于开发
- 数据工程师
- 数据产品经理
基于算法
- 算法优化师
- 算法科学家
- 算法工程师
数据分析适用场景
四大类
-
用数据去量化企业当前的经营现状或者业务事实
-
探究各种数据上的差距和异常,寻找背后的成因
-
搞清楚成因后给出具体的行动策略
方法
-
计算使当前策略投入产出比最高的过程参数
方法
数据分析步骤
- 思考 问题
- 处理 数据
- 输出 结论
-
其中思考问题
-
发现问题
-
定义问题
-
选择问题
-
确认问题
- 目的
- 背景
- 思路
解决方法及例子
注意 一定要检查数据准确性,若数据过于异常,还要检查一下数据的处理与计算
-
拆解问题
初学阶段:学习大量经典分析框架,再搭建自己的分析矩阵
成熟分析师:搭建起自己的分析矩阵,对问题全方位地拆解,高效地找到答案
-
量化问题
- 数据格式
- 日期
- 字符串
- 数字
注意 要统一统计口径,即什么时候一个数据才算有效数据
- 数据格式
-
其中处理数据
- 收集数据
- 内部数据
- 直接写SQL
- 从平台下载
- 提数据需求
- 从生产环境同步
- T+1更新
- 外部数据
- 来源:各大网站和APP
- 获取方式:爬虫和API
- 内部数据
爬虫常用工具:八爪鱼和后羿采集器或者Python中的爬虫工具包
-
处理数据
将各种脏数据通过筛选、清洗和计算处理成干净数据
-
制作图表
将清洗过的标准数据借助工具 处理成我们需要的各种图表
-
上传发布
将我们的图表发布成一个个可以访问的页面
-
输出结论
一句话一幅图
数据分析框架
其中五大基础理论
一、大数定律
大量重复某一实验时最后的频率会无限接近于事件的概率,即数据的样本量越大,预测和计算的概率就越准确
启发:对小样本量的分析结果保持客观的怀疑与观察,并尽可能地在大样本量下进行分析
二、罗卡定律
凡有接触必有痕迹,不要放弃去挖掘更多数据
启发:用户的一切行为都会留下数据,尽可能的拿来分析,找到数据背后隐藏的价值
三、幸存者偏差
统计样本的覆盖,会很大程度上直接影响分析的结果,即各种分析对象能取全量 尽量取全量
启发:分析时要提前检查取样偏差,分析的样本要越能代表整体越好
四、辛普森悖论
两组分别讨论都满足某一性质的数据,一旦合并计算会得出完全相反的结论
启发:确保数据在同一量级和权重下进行分析
五、帕累托最优
在进行资源分配中,不增加资源仅通过调整分配方式,使整体的效率最大化
启发:在不投入资源的情况下,也总有优化现状的方法
其中一法则四方法
MECE法则
要求拆解出的各个部分都要满足相互独立,完全穷尽
时间流程法
根据时间顺序对问题进行拆解
经典AARRR模型
A—获取
A—激活
R—留存
R—收益
R—传播
该模型可以根据公司的具体业务进行细分
经典两大框架
-
PDCA
强调做事情一定要先规划再执行
P—计划
D—执行
C—检查
A—处理
-
精益创业
强调 根据想法快速构建产品,并基于数据反馈快速迭代创业
模型框架法
基于几个完全平行的维度,对问题进行划分
-
SWOT法
- SO战略
依靠内部优势 - WO战略
利用外部机会
克服内部弱点 - ST战略
利用内部优势
抵制外部威胁 - WT战略
减少内部弱点
回避外部威胁
- SO战略
-
RFM法
根据不同的维度,对客户划分成8个区间
量化公式法
解决涉及到指标计算的问题
将问题量化成指标的步骤
- 根据拆解的维度找到对应的数据指标
- 基于现有的数据指标进行发散的思考
常见的指标有三类
属性:描述分析对象有哪些特征
绝对值:衡量一件事最后的结果
转换率:衡量一个环节的完成度
穷尽要素法
将整体分为不同的构成部分
例如:电商平台将消费人群划分成八大人群
其中业务诊断
业务诊断通常用时间流程法、模型框架法、量化公式法、穷尽要素法四大分析方法一起上,对问题进行拆解、量化、取数、分析
其中业务增长
- 收集外部数据
- 估算市场空间
- 推算竞品规模
- 计算增长空间
- 确定增长目标
- 研究主流打法
- 设计增长策略
- 构建增长引擎
- 计算增长成本
- 核心指标选取
- 业务动作梳理
- 指标体系搭建
- 数据实验设计
- 专项策略输出
- 梳理可行方案
- 数据实验迭代
- 达到增长目标
数据分析中的可视化
取数作图
-
可视化原理
-
经历的环节
-
数据工具
- Excel 小量级一次性的数据处理
- Tableau、Power BI等BI工具 批量的数据读取与分析
- Python 复杂的数据清洗、爬虫和算法建模
注意:若不灵活学习和使用新工具,最终都会限制自身的发展
数据表达
基于数据化的表、图、文 说明事实表达观点,从而更好地说明现状阐述事实,使人能基于数据准确地知道到底发生了什么,用数据说服他人认同我们自己想表达的观点
数据表达的原则
- 客观
- 直观
- 高效
数据表达的载体和形式
-
基于PPT的汇报总结
-
基于文档的专业分析
-
基于图文的沟通对话
表达格式:观点+数据+补充信息+图表
其中:
-
提炼文字观点
- 打破认知
- 语出惊人
-
制作完善图表
-
根据问题和观点选择合适的图表类型
-
为图表准备数据
对观点拆解量化,然后梳理出数据,并且收集处理为数据库中的标准数据 -
通过工具制作图表
-
优化视觉图形组合
制作出有效信息密度更大的高效图表
图形总结:-
比数字规模,上柱状图
-
多对象,上条形图
-
数据趋势,上折线图
-
多个对比对象,上多个折线图
-
各类占比分析,上饼图/环形图
-
多对象占比,上树图
-
两个度量上对比一个维度,上散点图
-
单一度量分布,上直方图
-
地理位置相关,上地图
-
即图表类型分类主要是从规模、趋势、占比、关系、分布
-
-
提出关键数据
- 日期时间说准确
时间日期要准确说明年月日 - 简化数字
对于大数据和小数点过长的数据,要四舍五入,并给出合适量级的单位 - 少用术语
要视对象使用术语和缩略语,不要跟业务拽专业指标,也不要跟技术说行业黑话 - 多说大白话
语言表述越直白、越简单越好,不要兜圈子
- 日期时间说准确
-
学习经验分享
- 先充分理解别人的学习框架
- 看已有框架 能不能解决问题
- 果断学习新知识去解决问题
- 学会后归纳到自己的框架里
- 甚至放弃原有框架重新搭建一个
在进行数据分析时,反复问自己三个问题:
一、输出结论是能不能理解
二、做出的图表 够不够直观
三、给出的策略 可不可执行
注意:在数据分析领域中面对众多方向先学自己用得上的技能和知识
数据分析与问题本身关系
- 只有乐于解决问题
- 才会善于解决问题
- 当善于解决问题
- 就没有难解的问题
注意:在解决问题中一定不能只看量化的数据,大量非量化的业务细节和信息,甚至连一线执行时的情绪都是不可忽略的,它们往往才是最终决定你的分析和策略 是否能真正落地实现价值的关键
好的,到此为止啦,祝您变得更强
想说的话
学习来源B站戴师兄(反反复复学习了3遍哈并且做了相应的笔记/相应的练习 然后才进行的这篇博客的书写)实不相瞒,写的这篇博客要写八个小时以上(加上自己学习和纸质笔记,共十小时吧),很累,希望大佬支持一下
道阻且长 行则将至 |
---|
个人主页:在线OJ的阿川大佬的支持和鼓励,将是我成长路上最大的动力 |