变更记录
记录每次修订的内容,方便追溯。
多行文本 | 单选 | 作者 | 日期 |
---|---|---|---|
完成文档 | V1.0 | 2023-02-27 | |
V1.1 | |||
V1.2 |
1. 数据质量检测标准
1.1 背景:整理数据质量测试的维度
摘取自国标文档
以上是除了常规的软件质量模型外(软件测试质量六大特性,27项子特性如下图),数据质量的测试维度。
2. 基于大数据测试要求测试需要做什么
2.1 如何基于测试数据处理过程,一层层进行测试
常规数据产品分层如下:
具体如下图:
2.1.1 数据收集层
1.原始数据采集效率测试--性能(需做到准实时)
每个版本会记录采集性能极限作对比。
2.数据完整性校验:通过监控保障
监控:异常数据以及无法处理的数据人工check,从而提高数据完整性
2.1.2 数据存储层
1.落库正确性、完整性验证
2.取数验证
例如:视频是切片存的,所以取的时候需要拼合,所以需要测试
3.性能验证
2.1.3 资源管理和服务协调层
1.单节点资源配置测试 pod
2.整个空间、队列资源、并行度测试、节点依赖先后执行顺序测试等
3.弱网测试,删除未删除干净时,是否需要考虑定时任务。
4.注入异常,混动工程、故障演练,可借助阿里工具ChaosBlade。
例如执行时,pipeline重启,测试重试机制等。
限流、服务资源控制在80%等
2.1.4 计算引擎层
对清洗规则测试
场景:
爬虫获取运营商用户通话情况、缴费情况
计算分析层分析出生日、近3个月通话静默天数(1个月打一次电话可能是个小号)
以上这些指标,对应的计算逻辑需要测试
具体:
1)需要生日字段做数据处理,这个时候有部分数据生日字段没有,可根据身份证号码或是社保信息中,提取出来,补全这个字段信息。
2)落库格式统一,例如日期指标。
测试需要做什么:
1)根据需求构造各类数据
2)分析判断指标设计是否合理 (例如:指标依赖避免环形关系出现,必填字段需要都给默认值等)
2.1.5 数据分析层
3. 测试痛点:需要手动造数据
基于数据安全考虑,大多数情况下线上数据不允许下载,需要手动造数据测试清洗结果是否符合预期。
痛点 | |
1 | 不知道造哪些类型的数据 |
2 | 很难分析出线上数据具体由哪部分构成(多样性:什么时候出现未预料到的数据,很多时候你不可能提前预判到,构造数据只可能是在现有数据的基础上构造,对于未采集到的数据信息会有滞后性) |
3 | 数据的准确度和可信度(每一层(原始数据初步处理、清洗、计算以及最终出的财务报表等数据)数据处理过程和结果都需要测试验证) |
4 | 当业务横跨多部门多模块,设计多数据库表时,非常依赖测试对项目表关联关系的熟悉程度。 |
3.1 介入式数据解决方案
方案一:接口造数据
可能存在的问题:
1)链路过深
2)无法保证上游接口数据是没有问题的
3)上有服务不一定文档(升级)
方案二:SQL造数据
可能存在的问题:
1)当表关联关系非常复杂时,无法梳理清楚
方案三:链路跟踪技术ATM——追踪业务流量经过的表,分析出表之间关系
从对应数据库,找几个例子,建立模板,改变关键信息,建立数据工厂。
3.2 非介入式数据解决方案——数据协调矩阵
1.1 基线数据集做递进式的测试
- 拿线上3个月内的数据做基线数据集测试
每个版本都以这部分数据做测试,查看数据结果清洗后是否一致。
存在问题:数据集数据可能不完整。
解决方法:所以要做数据协调矩阵,即要夸大数据集,例如扩大到近6个月等。一般测试2-3个周期的数据验证不同版本数据处理结果。
1.2 依赖数据工厂补充已知的异常类数据
- 保正你的数据清理过程是兼容正常和已知异常数据的场景的。
3.3 智能解决方案
对数据进行自动归类,APM可流量打标
线网复制,对线上数据拉取后做变异处理,脱敏加密,数据格式变异等
多次机器学习归类,再训练演练,回归回溯后,最终预期是使数据可用。
数据可用后,到线上进行渗入演练
验证稳定性,故障演练
具体参考:大数据测试-数据清洗的质量保障 周志强 中国DevOps社区_哔哩哔哩_bilibili