一、认识数据
什么是数据?
数据是对客观世界的记录,用来记载事物的性质、状态、相互关系等。
有哪些常见的数据类型?
什么是数据集?
数据集:数据的集合,通常以表格形式出现。
二、收集数据
我们都会从哪里收集数据?
内部数据:
外部数据:
收集数据的注意事项
① 准确性:确保数据源是准确的
② 及时性:确保各数据源都反馈的是相同时间窗口的数据
三、评估数据
准确性问题:
唯一性问题:
一致性问题:
完整性问题:
收集数据后,可以直接进行分析吗?
评估数据质量,做必要的清洗和整理。
统计基础知识——描述数据
描述数据的两个关键问题:
① 集中度:数据集中在哪个区域
② 分散度:数据有多偏离中心区域
1、数据的集中度——平均值
平均值:用所有数据的和除以数据的条数
极大值或者极小值容易引起平均值的偏差
2、数据的集中度——中位数
中位数:将数据从小到大排列之后,处于正中间位置的那个数字
3、数据的离散度——全距/极差
全距:数据中最大值和最小值的差
4、数据的离散度——四分位数
四分位数:将数据按从小到大的排列“均分为”四等分后,四等分位置的数值
5、数据的离散度——方差、标准差
数据质量的评估标准
1、完整性的评估——缺失值
缺失值: 原本应该有数据记录的位置出现了空的记录
缺失值对整体占比比较小,比如只有5%甚至更少,则可认为不影响整体分析结论,直接做删除处理。
如果数据的缺失值数量较大( 比如20%-30%),影响了整体分析效果,可以对数据做适当的填充。对于数值,可以使用平均值或者中位数,对于类别(比如前面例子里所展示的性别 ),则可以使用众数。
2、完整性的评估——异常值
异常值: 数据的情况比较异常,偏离数据较多,特别大或特别小
统计学方法判断( Z-test ) : 按照统计原理,如果数据量达到一定量级就都会满足正态分布,99.9%的数据应该落在这个数据的平均值+/-3个标准差的范围内NortmalCUrStandard Deviation
IOR判断:限定离群值下限=O1-1.5*IOR、离群值上限=Q3+1.5*IQR,在离群值上限以上或者下限以下的点会被我们作为异常数据
业务和常识理解判断:在相对较小的数量时,可能会出现多个离散在外的点就需要通过业务和常识主导判断
缺失值和异常值的处理没有绝对的对错 选择方法根据业务场景和数据丰富度来决定
四、课后小结
五、随堂练习
正确答案:错误。
这两个方法的前提都是认为数据是接近正态分布的。按照统计原理,如果数据量达到一定量级就都会满足该分布。如果数据量极小,就可以根据业务和常识理解做判断
正确答案:ABCD
评估数据质量的四个维度: 准确性、唯一性、一致性、完整性
正确答案:C
身高150米显然是常识的错误,属于准确性问题
正确答案:错误。
唯一性代表数据不应该有违背业务意义的冗余,作为一张销售记录表,业务意义的几余是指一条销售记录被登记了多次。但这一题里,两条记录的购物时间是不同的,意味着1001用户在不同时间购买了同样的商品,是两条销售记录
正确答案:A
有数据才能做分析,界定问题后,需要从内外部收集数据
正确答案:错误。
数据清洗没有绝对的标准答案。一般情况下,字段少量缺失,可以做删除处理,也可以采用平均值.中位数、众数做填充或进行其他处理。处理方式不唯一。
正确答案:错误。
在法律允许的范围之内,充分收集外部数据,例如用户、社会、行为和消费信息,对于扩展分析维度会有很好的帮助。
正确答案:AD
及时性在这里并不是指快速拿到这个数据,而是确保各数据源都反馈的是相同时间窗口的数据
正确答案:AB
时间类数据表示日期、时间,在C选项中,2s是时间间隔而不是时间,是数值类数据