数据分析规范总结-V2.0

news2025/2/13 11:16:56

 

结构规范及写作

报告常用结构:

1. 架构清晰、主次分明

数据分析报告要有一个清晰的架构,层次分明能降低阅读成本,有助于信息的传达。虽然不同类型的分析报告有其适用的呈现方式,但总的来说作为议论文的一种,大部分的分析报告还是适用总-分-(总) 的结构。

推荐学习金字塔原理,中心思想明确,结论先行,以上统下,归类分组,逻辑递进。行文结构先重要后次要,先全局后细节,先结论后原因,先结果后过程。对于不太重要的内容点到即止,舍弃细枝末节与主题不相关的东西。

2. 核心结论先行、有逻辑有依据

结论求精不求多。大部分情况下,数据分析是为了发现问题,一份分析报告如果能有一个最重要的结论就已经达到目的。精简的结论能降低阅读者的阅读门槛,相反太繁琐、有问题的结论100个=0。报告要围绕分析的背景和目的以及要解决的问题,给出明确的答案和清晰的结论;相反,结论或主题太多会让人不知所云,不知道要表达什么。

分析结论一定要基于紧密严谨的数据分析推导过程,尽量不要有猜测性的结论,太主观的结论就会失去说服力,一个连自己都没有把握的结论千万不要在报告里误导别人。

但实际中,部分合理的猜测找不到直观可行的验证,在给出猜测性结论的时候,一定是基于合理的、有部分验证依据前提下,谨慎地给出结论,并且说明是猜测。如果在条件允许的前提下可以通过调研/回访的方式进行论证。

不回避 “不良结论” 。在数据准确、推导合理的基础上,发现产品或业务问题并直击痛点,这其实是数据分析的一大价值所在。

3. 结合实际业务、建议合理

基于分析结论,要有针对性的建议或者提出详细解决方案,那么如何写建议呢?

首先,要搞清给谁提建议。不同的目标对象所处的位置不同,看问题的角度就不一样,比如高层更关注方向,分析报告需要提供业务的深度洞察和指出潜在机会点,中层及员工关注具体策略,基于分析结论能通过哪些具体措施去改善现状。

其次,要结合业务实际情况提建议。虽然建议是以数据分析为基础提出的,但仅从数据的角度去考虑就容易受到局限、甚至走入脱离业务忽略行业环境的误区,造成建议提了不如不提的结果。因此提出建议,一定要基于对业务的深刻了解和对实际情况的充分考虑。

再进一步,如果可以给出这个建议实施后的收益,下单转化提升多少、交易提升多少、能节省多少成本等,把价值点直接传递给阅读对象。

上面讲了报告的写作原则,举个例子,参考艾瑞网,《留存与未来-疫情背后的互联网发展趋势报告》:

Tips:尝试站在读者的角度去写分析报告,内容通俗易懂,用语规范谨慎。如果汇报对象不是该领域的专家,就要避免使用太多晦涩难懂的词句,同时报告中使用的名词术语一定要规范,要与既定的标准(如公司指标规范)以及业内公认的术语一致。

 数据使用及图表

数据分析往往是80%的数据处理,20%的分析。大部分时候,收集和处理数据确实会占据很多时间,最后才在正确数据的基础上做分析,既然一切都是为了找到正确的结论,那么保证数据准确就显得格外重要,否则一切努力都是误导别人。

1. 分析需要基于可靠的数据源

用于鉴别信息/数据的可靠性,主要有四种方法:同类对比、狭义/广义比对、相关对比和演绎归谬。

  • 同类对比:与口径相同或相近,但来源不同的信息进行对比。

  • 示例:最常见就是把跑出来的数据和报表数据核对校验。

  • 狭义/广义对比:通过与更广义(被包含)或更狭义(包含)的信息进行对比。

  • 示例:3C品类销售额与商城总销售额比较,3C的销售额更高显然是错误的,因为商城总销售额包含3C销售额;某些页面/频道的UV与APP总UV比较也类似。 

  • 相关对比:通过与具有相关性、关联性的信息进行对比。

  • 示例某平台的Dn留存率,对于同一个基准日期来说,D60留存率一定低于D30留存率的,如果出现大于的情况,那就是错误数据了。

  • 演绎归谬:通过对现有证据的深入演绎,推导出结果,判断结果是否合理。

  • 示例:比如某平台的销售客单价2000左右,总销售额1亿左右;计算得出当日交易用户数10万,通过乘以客单价,得到当天销售额2亿,显然与业务体量不符,为错误的数据。

Tips以上都是常用的方法论,最核心是足够了解业务,对关键指标数据情况了然于心,那么对数据准确性的判断水到渠成。对此,建议是每日观测核心业务的数据情况,并分析波动原因,培养业务理解力和数据敏感度。

2. 尽量图表化,提高可读性

用图表代替大量堆砌的数字,有助于阅读者更形象直观地看清楚问题和结论,当然,图表也不要太多,过多的图表一样会让人无所适从。

让图表五脏俱全,一张图必须包含完整的元素,才能让阅读者一目了然。标题、图例、单位、脚注、资料来源这些图表元素就好比图表的五脏六腑。

要注意的条条框框。

  • 首先,避免生出无意义的图表。决定做不做图的唯一标准就是能否帮助你有效地表达信息。

  • 第二,不要把图表撑破。最好一张图表反映一个观点,突出重点,让读者迅速捕捉到核心思想。

  • 第三,只选对的,不选复杂的。

  • 第四,一句话标题。

常见的图表类型选择:

图表使用Tips:

  • 折线图:选用的线型要相对粗些,线条一般不超过5条,不使用倾斜的标签,纵坐标轴一般刻度从0开始。预测值的线条线型改为虚线

  • 柱形图:同一数据序列使用相同的颜色。不使用倾斜的标签,纵坐标轴一般刻度从0开始。一般来说,柱形图最好添加数据标签,如果添加了数据标签,可以删除纵坐标刻度线和网格线。

  • 条形图:同一数据序列使用相同的颜色。不使用倾斜的标签,最好添加数据标签,尽量让数据由大到小排列,方便阅读。

  • 饼图:饼图使用场景相对少,如需使用,注意以下事项:把数据从12点钟的位置开始排列,最重要的成分紧靠12点钟的位置。数据项不要太多,保持在6项以内,不使用爆炸式的饼图分离。不过可以将某一片的扇区分离出来,前提是你希望强调这片扇区。饼图不使用图例。不使用3D效果。当扇区使用颜色填充时,推荐使用白色的边框线,具有较好的切割感。

  • 警惕图表说谎

  • 虚张声势的增长:人们喜欢研究一条线的发展趋势,例如股市、房价、销售额的增长趋势,有时候为了吸引读者故意夸大变化趋势,如图1通过截断数轴夸大增长速度,从正常数轴的图2看到增长是缓慢的。

  • 3D效果的伪装:3D图形容易造成视觉偏差,如图1有3D效果,看上去 A->B->C->D->E依次递增,实际是D>E,要格外小心图表的伪装。

常见数据分析误

“用数据说话”,已经成为一种流行语。

在很多人的心里,数据就代表着科学,科学就意味着真相。“数据不会骗人”,也成了说服别人时常用的口头禅,事实果真如此吗?让我们来谈谈那些常见的误区。

1. 控制变量谬误

在做A/B测试时没有控制好变量,导致测试结果不能反映实验结果。或者在进行数据对比时,两个指标没有可比性。举个例子,为测试不同营销时间点对下的转化的影响,但A实验使用短信营销、B实验使用电话营销,未控制变量(营销方式),导致实验无法得出结论。

2. 样本谬误

  • 样本量不够

统计学的基础理论基石之一就是大数定律,只有当数据量达到一定程度后,才能反映出特定的规律。如果出现样本量极少的情况,建议把时间线拉长,获得足量的样本。或者将不重要的限定条件去掉,增加样本数。

  • 存在选择性偏见或者幸存者偏见

统计学的另一大理论基石是中心极限定理。简单描述就是,总体样本中,任意一个群体样本的平均值,都会围绕在这个群体的整体平均值周围。

举个例子,在应用升级期间,衡量登录用户数、交易用户数等指标,来判断用户对新版本的喜欢是否优于老版本。听上去非常合理,但这里实际就隐藏了选择性偏见,因为新版本发布时,第一批升级上来的用户往往就是最活跃的用户,往往这批用户的指标较好,但不代表新版本更好。

  • 混入脏数据

这种数据的破坏性比较大,可能得出错误的结论。通常我们会采用数据校验的手段,屏蔽掉校验失败的数据。同时,在分析具体业务时,也要针对特定业务,对所使用的数据进行合理性限定,过滤掉异常离群值,来确保拥有比较好的数据质量。

3. 因果相关谬误

会误把相关当因果,忽略中介变量。比如,有人发现雪糕的销量和河溪溺死的儿童数量呈明显相关,就下令削减雪糕销量。其实可能只是因为这两者都是发生在天气炎热的夏天。天气炎热,购买雪糕的人就越多,而去河里游泳的人也显著增多。

4. 辛普森悖论

简单来说,就是在两个相差较多的分组数据相加时,在分组比较中都占优势的一方,会在总评中反而是失势的一方。

5. 个人认知谬误

主观臆断、经验当事实、个体当整体、特征当全貌、眼见当事实。

举个主观臆断的例子:某个产品A页面到B页面的转化率30%,直接判断为很低,推导出可以提高到75%。但实际类似产品或者用户行为决定页面的转化率就只有这么高,得出一个错误的结论。

标准至关重要,数据+标准=判断。有了判断才能深入分析。通过分组对比找标准(象限法、多维法、二八法、对比法),有标准通过分析对比,找到“好/坏”的点。

统计学规律和理论不会错,犯错的是使用它的人。因此,我们在进行数据分析时,一定要格外小心,错误的数据,披上科学的外衣,就很难分辨了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/645538.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C语言之函数栈帧的创建与销毁讲解(2)

上一篇博客我们讲到了函数栈帧的创建与销毁(1)今天我们来讲解Add函数的函数栈帧相关知识 在开始本章博客之前,大家可以把上一篇博客的主要内容仔细复习一下 看图 第一个mov:把b的值放到eax里面去 第二个mov:把a的…

wangEditor富文本编辑器的调用开发实录(v5版本、获取HTML内容、上传图片、隐藏上传视频)

wangEditor 是一款基于原生 JavaScript 封装,开源免费的富文本编辑器,支持常规的文字排版操作、插入图片、插入视频、插入代码等功能,同时提供多样化的扩展功能(如字体、颜色、表情、代码、地图等插件),支持…

SpringBoot(运维篇)

SpringBoot运维篇 SpringBoot程序的打包和运行 程序打包 SpringBoot程序是基于Maven创建的,在Maven中提供有打包的指令,叫做package。本操作可以在Idea环境下执行 mvn package打包后会产生一个与工程名类似的jar文件,其名称由模块名版本号…

小程序开发:如何从零开始建立你的第一个小程序

你可能有一个小程序的想法,但它仍然是一个想法。对于开发人员来说,这是一项艰巨的任务,因为你必须确保你有足够的时间来开发你的第一个小程序。如果你决定使用小程序,那就有很多事情要做。创建一个小程序可能是一件非常耗时的事情…

无线蓝牙耳机推荐有哪些?八大无线蓝牙耳机排行

在近几年蓝牙耳机的飞速发展,我们对于音乐和通讯的需求也越来越高。传统的耳机和听筒虽然能够满足我们基本的听觉需求,但是它们也带来了一些问题,比如:长时间佩戴会导致耳朵疲劳、引起耳道炎等。针对这些问题,蓝牙耳机…

解决Dbeaver连接一段时间不操作后断开的问题

1、首先右键数据库连接点击【编辑连接】 2、点击【初始化】将【连接保持】改成60s,这样数据库就不会自己断开了

动态组件和异步组件

动态组件 相关api <!-- 失活的组件将会被缓存&#xff01;--> <keep-alive include"Tab1,Tab2"><component :is"currentTabComponent"></component> </keep-alive>component属性 is“全局注册或局部注册的组件名” keep…

Windows安装Pytorch3d

Windows安装Pytorch3d 1.前提&#xff1a; 安装Visual Studio 2019 【我记得必须是2017-2019之间的版本&#xff0c;我一开始用的是2022的版本就安装不了】网址pytorch和pytorch3d、cuda和NVIDIA CUB版本需要相互对应 pytorch和pytorch3d版本对应关系如下&#xff1a;https:…

springcloud-Nacos处理高并发的注册

添加服务 第一 次判断 提供性能&#xff1a;避免多个线程同时在等 synchronzied 释放 第二次 判断 &#xff1a; 别的线程可能已经将实例加入了 serviceMap() 注意这里还有个ConcurrentSkipListMap 有利于提高读写性能。 所以内层的Map 是个ConcurrentSkipLlistMap&#xff…

Binder对象的流转(系统服务的调用过程、AIDL的使用过程)

零、Binder的传递 Android系统中&#xff0c;存在大量的 IPC 交互&#xff0c;同时也使用了大量的 Binder&#xff0c;那么Binder是怎么在各进程中进行对象的传递&#xff1f; 一、调用系统服务时&#xff0c;Binder的传递 回忆一下&#xff0c;Android系统的启动流程&#x…

看一图而思全云

>> 前言 << 我在看财经十一人吴俊宇老师撰写的《阿里云计划在12月内独立上市》时&#xff0c;看到了一张全球及中国IT支出结构图。就是下图这张图&#xff0c;盯着这张图&#xff0c;我看到了星辰大海&#xff0c;也想到了广阔天地大有可为。 但只看这个图不够过瘾…

1.7C++流插入运算符重载

C流插入运算符重载 在 C 中&#xff0c;流插入运算符&#xff08;<<&#xff09;用于输出数据到流中的运算符&#xff0c;流插入运算符可以被重载&#xff0c;使得程序员可以自定义输出对象的方式。 重载流插入运算符的一般形式如下&#xff1a; 其中&#xff0c;T 是…

Vue中如何进行瀑布流布局与图片加载优化

Vue中如何进行瀑布流布局与图片加载优化 瀑布流布局是一种常用的网页布局方式&#xff0c;它可以让页面看起来更加有趣和美观。在Vue.js中&#xff0c;我们可以使用第三方插件或者自己编写组件来实现瀑布流布局。同时&#xff0c;为了优化图片加载的性能&#xff0c;我们还可以…

部署minio分布式测试环境

准备了4台虚拟机作为minio分布式节点服务器。 操作系统为TencentOS3.1(相当于CentOS8) 选择从官网下载minio安装包,minio-20230602231726.0.0.x86_64.rpm 安装命令如下: rpm -ivh minio-20230602231726.0.0.x86_64.rpm 安装完毕,minio命令将会放在/usr/local/bin下。…

推动开源行业高质量发展|2023开放原子全球开源峰会圆满落幕

6 月 13 日&#xff0c;由 2023 全球数字经济大会组委会主办&#xff0c;开放原子开源基金会、北京市经济和信息化局、北京经济技术开发区管理委员会承办的 2023 开放原子全球开源峰会在北京顺利落下帷幕。本次峰会以“开源赋能&#xff0c;普惠未来”为主题&#xff0c;设置了…

多任务学习用于多模态生物数据分析

目前的生物技术可以同时测量来自同一细胞的多种模态数据&#xff08;例如RNA、DNA可及性和蛋白质&#xff09;。这需要结合不同的分析任务&#xff08;如多模态整合和跨模态分析&#xff09;来全面理解这些数据&#xff0c;推断基因调控如何驱动生物多样性。然而&#xff0c;目…

佩戴舒适的蓝牙耳机评测,值得入手的蓝牙耳机推荐

蓝牙耳机越来越少受年轻人的欢迎&#xff0c;蓝牙耳机品牌也非常多&#xff0c;很多朋友在选择时&#xff0c;不知道选哪款好&#xff0c;下面是小编整理的蓝牙耳机品牌排行榜前十名&#xff0c;大家可以参考参考。 一、南卡OE蓝牙耳机 参考价格&#xff1a;469 舒适性最高的…

4个维度搞懂Nacos注册中心

现如今市面上注册中心的轮子很多&#xff0c;我实际使用过的就有三款&#xff1a;Eureka、Gsched、Nacos&#xff0c;由于当前参与 Nacos 集群的维护和开发工作&#xff0c;期间也参与了 Nacos 社区的一些开发和 Bug Fix 工作&#xff0c;过程中对 Nacos 原理有了一定的积累&am…

专为AI大模型打造的GPU加速器MI300X

作者 I 刘博 54岁神秘女掌门&#xff1a;年薪4亿元&#xff0c;一代女强人 AMD与苏姿丰的名字如今深深绑定在一起。 1969年&#xff0c;苏姿丰出生在中国台湾&#xff1b;同一年&#xff0c;日后与她渊源颇深AMD在硅谷创立。谁也不会想到&#xff0c;她将在几十年后拯救AMD。 …

尚硅谷大数据技术Spark教程-笔记09【SparkStreaming(概念、入门、DStream入门、案例实操、总结)】

尚硅谷大数据技术-教程-学习路线-笔记汇总表【课程资料下载】视频地址&#xff1a;尚硅谷大数据Spark教程从入门到精通_哔哩哔哩_bilibili 尚硅谷大数据技术Spark教程-笔记01【SparkCore&#xff08;概述、快速上手、运行环境、运行架构&#xff09;】尚硅谷大数据技术Spark教程…