BDA初级分析——数据收集、清洗和整理

news2024/11/25 19:23:55

一、认识数据

 什么是数据?

数据是对客观世界的记录,用来记载事物的性质、状态、相互关系等。

有哪些常见的数据类型?

 

 什么是数据集?

数据集:数据的集合,通常以表格形式出现。

 

 

二、收集数据

我们都会从哪里收集数据?

 内部数据:

 外部数据:

 收集数据的注意事项

① 准确性:确保数据源是准确的

② 及时性:确保各数据源都反馈的是相同时间窗口的数据

三、评估数据

准确性问题:

 唯一性问题:

 一致性问题:

 完整性问题:

 收集数据后,可以直接进行分析吗?

评估数据质量,做必要的清洗和整理。

 统计基础知识——描述数据

描述数据的两个关键问题:

① 集中度:数据集中在哪个区域

② 分散度:数据有多偏离中心区域

1、数据的集中度——平均值

平均值:用所有数据的和除以数据的条数

 极大值或者极小值容易引起平均值的偏差

 2、数据的集中度——中位数

中位数:将数据从小到大排列之后,处于正中间位置的那个数字

 

 3、数据的离散度——全距/极差

全距:数据中最大值和最小值的差

 

 

 4、数据的离散度——四分位数

四分位数:将数据按从小到大的排列“均分为”四等分后,四等分位置的数值

 5、数据的离散度——方差、标准差

 数据质量的评估标准

 1、完整性的评估——缺失值

缺失值: 原本应该有数据记录的位置出现了空的记录

缺失值对整体占比比较小,比如只有5%甚至更少,则可认为不影响整体分析结论,直接做删除处理。
如果数据的缺失值数量较大( 比如20%-30%),影响了整体分析效果,可以对数据做适当的填充。对于数值,可以使用平均值或者中位数,对于类别(比如前面例子里所展示的性别 ),则可以使用众数。

2、完整性的评估——异常值

异常值: 数据的情况比较异常,偏离数据较多,特别大或特别小

统计学方法判断( Z-test ) : 按照统计原理,如果数据量达到一定量级就都会满足正态分布,99.9%的数据应该落在这个数据的平均值+/-3个标准差的范围内NortmalCUrStandard Deviation

 

IOR判断:限定离群值下限=O1-1.5*IOR、离群值上限=Q3+1.5*IQR,在离群值上限以上或者下限以下的点会被我们作为异常数据

业务和常识理解判断:在相对较小的数量时,可能会出现多个离散在外的点就需要通过业务和常识主导判断

缺失值和异常值的处理没有绝对的对错 选择方法根据业务场景和数据丰富度来决定

四、课后小结

 五、随堂练习

 

 正确答案:错误。

这两个方法的前提都是认为数据是接近正态分布的。按照统计原理,如果数据量达到一定量级就都会满足该分布。如果数据量极小,就可以根据业务和常识理解做判断

 

正确答案:ABCD

评估数据质量的四个维度: 准确性、唯一性、一致性、完整性

 

正确答案:C

身高150米显然是常识的错误,属于准确性问题

 

正确答案:错误。

唯一性代表数据不应该有违背业务意义的冗余,作为一张销售记录表,业务意义的几余是指一条销售记录被登记了多次。但这一题里,两条记录的购物时间是不同的,意味着1001用户在不同时间购买了同样的商品,是两条销售记录

 

正确答案:A

有数据才能做分析,界定问题后,需要从内外部收集数据

 

正确答案:错误。

数据清洗没有绝对的标准答案。一般情况下,字段少量缺失,可以做删除处理,也可以采用平均值.中位数、众数做填充或进行其他处理。处理方式不唯一。

 

正确答案:错误。

在法律允许的范围之内,充分收集外部数据,例如用户、社会、行为和消费信息,对于扩展分析维度会有很好的帮助。

 

 正确答案:AD

及时性在这里并不是指快速拿到这个数据,而是确保各数据源都反馈的是相同时间窗口的数据

 

正确答案:AB

时间类数据表示日期、时间,在C选项中,2s是时间间隔而不是时间,是数值类数据

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/859291.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

优思学院|6sigma合格率计算公式

概述 在现代竞争激烈的商业环境中,质量控制对于制造业和服务业都至关重要。其中,一个强大的方法是采用6sigma(也称为6σ)方法来提高质量和降低缺陷率。本文将深入探讨6sigma合格率计算公式,解释其在质量管理中的应用&…

20款奔驰C260 L(W206)更换内饰最全发光套件,提升车内氛围

原厂1:1设计,免编程匹配,无损安装,可升级项目: 1、碳纤维中控氛围灯(阿凡达水滴款) 2、发光前风口; 3、发光后风口; 4、发光座椅背气氛灯; 5、中音发光盖板 6、主动…

企业有VR全景拍摄的需求吗?能带来哪些好处?

在传统图文和平面视频逐渐疲软的当下,企业商家如何做才能让远在千里之外的客户更深入、更直接的详细了解企业品牌和实力呢?千篇一律的纸质材料已经过时了,即使制作的再精美,大家也会审美疲劳;但是你让客户远隔千里&…

网络编程基础:Linux网络I/O模型、JavaI/O模型、Netty

文章目录 一、Linux网络I/O模型简介0.文件描述符和系统调用1. 阻塞I/O模型2. 非阻塞I/O模型(轮询)3. I/O复用模型(轮询、事件驱动) 二、Java的I/O演进1.BIO(阻塞)(1)套接字&#xff…

安达发|疫情影响下的APS排程可以给制造业解决哪些问题

随着市场需求的不断变化,特别是对柔性、小单量多批次的需求日益增长,再加上疫情的影响,企业随时可能面临延期交货的风险。这使得行业供应链管理的复杂性不断加剧,企业对于生产管理高效性的需求也日益显著。 同时,我们…

vm workstation pro安装centos7

官网下载vm workstation pro,参考上一篇文章:https://editor.csdn.net/md/?articleId132208423安装centos7 官网下载的vm,是有一个镜像iso文件的 完成后稍等: 这一步很重要,别急着点开始安装,看到有感叹…

.NET 8 Preview 6 中推出 .NET MAUI: 欢迎使用 VS Code 和 VS for Mac

作者:David Ortinau 排版:Alan Wang .NET 8 Preview 6 推出了.NET MAUI,同时修复了 23 个关键问题,并引入了适用于 iOS 的 Native AOT。此外,您现在可以在 .NET 8 中使用 .NET MAUI,只要安装 Visual Studio…

excel将主信息和明细信息整理为多对多(每隔几行空白如何填充)

excel导出的数据是主信息和明细信息形式。 原始数据图: 最终效果:

UML之四种事物

目录 结构事物 行为事物 分组事物: 注释事物 结构事物 1.类(Class) -类是对一组具有相同属性、方法、关系和语义的对象的描述。一个类实现一个或多个接口 2.接口(interface) -接口描述 了一个类或构件的一个服务的操作集。接口仅仅是定义了一组操作的规范&…

23、springboot日志使用入门-- SLF4J+Logback 实现(springboot默认的日志实现),日志打印到控制台及日志输出到指定文件

springboot日志使用入门 ★ 典型的Spring Boot日志依赖: spring-boot-start.jar -- spring-boot-starter-logging.jar (Spring Boot的日志包)-- logback(core、classic)-- log4j-to-slf4j.jar-- jul-to-slf4j.jar就是springboo…

【el-upload】批量上传图片时在before-upload中添加弹窗判断时的踩坑记录

一、初始代码 1. 初始使用组件代码片段 <!-- 上传 --> <DialogUploadFile ref"uploadFile" success"refresh" />// 上传 const uploadHandle () > {if (selections.value.length ! 1) {onceMessage.warning(请选择一条数据操作)return}u…

并行FIR滤波器

FIR 滤波器原理 FIR 滤波器是有限长单位冲击响应滤波器&#xff0c;又称为非递归型滤波器。FIR 滤波器具有严格的线性相频特性&#xff0c;同时其单位响应是有限长的&#xff0c;因而是稳定的系统。 FIR 滤波器本质上就是输入信号与单位冲击响应函数的卷积&#xff0c;表达式…

MapBox加载不同风格

初始化MapBox地图&#xff1a; var map new mapboxgl.Map({container: map,zoom: 3,center: [105, 34],//此处更改地图风格style: mapbox://styles/mapbox/satellite-v9,hash: false,});1.户外地图&#xff08;mapbox://styles/mapbox/basic-v9&#xff09;新版&#xff1a;&a…

python——案例15:判断奇数还是偶数

案例15&#xff1a;判断奇数还是偶数numint(input(输入数值&#xff1a;))if(num%2)0: #通过if语句判断print("{0}是偶数".format(num))else: #通过else语句判断print("{0}是奇数".format(num))

Linux Linux基础命令

1.pwd——显示当前位置的绝对路径 2.cd——切换目录&#xff0c;cd 后的参数表示要切换到的位置 &#xff08;1&#xff09;cd后面的参数为绝对路径&#xff1a; &#xff08;2&#xff09;cd后面的参数为相对路径&#xff1a; &#xff08;3&#xff09;cd ~回到家目录&#…

Ansys Lumerical | 针对多模干涉耦合器的仿真设计与优化

说明 本示例演示通过12端口多模干涉(MMI)耦合器计算宽带传输和光损耗&#xff0c;并使用S参数在 INTERCONNECT 中创建 MMI 的紧凑模型。(联系我们获取文章附件) 综述 低损耗光耦合器和光分路器是基于 Mach-Zehnder 的光调制器的基本组件&#xff0c;是集成电路的关键组成部分。…

数据结构——双向链表

双向链表实质上是在单向链表的基础上加上了一个指针指向后面地址 单向链表请参考http://t.csdn.cn/3Gxk9 物理结构 首先我们看一下两种链表的物理结构 我们可以看到&#xff1a;双向在单向基础上加入了一个指向上一个地址的指针&#xff0c;如此操作我们便可以向数组一样操作…

【Android NDK开发】Android Studio 编写 JNI (C++)代码无提示

随笔记 Android Studio在编写C代码时候&#xff0c;引入对应的头文件&#xff0c;Android Studio里却不提示对应的方法&#xff0c;需要在Studio中设置一下。 Mac中&#xff0c;选择 Android Studio > Preferences&#xff0c;选择Clangd >>Disable Clangd completio…

【Vue3】自动引入插件-`unplugin-auto-import`

Vue3自动引入插件-unplugin-auto-import&#xff0c;不必再手动 import 。 自动导入 api 按需为 Vite, Webpack, Rspack, Rollup 和 esbuild 。支持TypeScript。由unplugin驱动。 插件安装&#xff1a;unplugin-auto-import 配置vite.config.ts&#xff08;配置完后需要重启…

(二) 【屠龙刀】 vsomeip协议栈的编译与使用

前言 上一篇文章介绍了SOME/IP协议的报文格式,本片文章主要来介绍SOME/IP协议的具体实现,即vsomeip协议栈。 vsomeip由GENIVI组织根据SOME/IP协议标准实现的协议栈,如果说SOME/IP协议是一个人的灵魂,那么vsomeip就是受灵魂指导的肉体。本文将从如下几点去展开本文,手把手…