数据正确性验证(造数据篇)

news2025/1/12 10:42:16

变更记录

记录每次修订的内容,方便追溯。

多行文本单选作者日期
完成文档V1.02023-02-27
V1.1
V1.2

1. 数据质量检测标准

1.1 背景:整理数据质量测试的维度

摘取自国标文档

以上是除了常规的软件质量模型外(软件测试质量六大特性,27项子特性如下图),数据质量的测试维度。

2. 基于大数据测试要求测试需要做什么

2.1 如何基于测试数据处理过程,一层层进行测试

常规数据产品分层如下:

具体如下图:

2.1.1 数据收集层

        1.原始数据采集效率测试--性能(需做到准实时)

                每个版本会记录采集性能极限作对比。

        2.数据完整性校验:通过监控保障

                监控:异常数据以及无法处理的数据人工check,从而提高数据完整性

2.1.2 数据存储层

        1.落库正确性、完整性验证

        2.取数验证

        例如:视频是切片存的,所以取的时候需要拼合,所以需要测试

        3.性能验证

2.1.3 资源管理和服务协调层

        1.单节点资源配置测试 pod

        2.整个空间、队列资源、并行度测试、节点依赖先后执行顺序测试等

        3.弱网测试,删除未删除干净时,是否需要考虑定时任务。

        4.注入异常,混动工程、故障演练,可借助阿里工具ChaosBlade。

        例如执行时,pipeline重启,测试重试机制等。

        限流、服务资源控制在80%等

2.1.4 计算引擎层

        对清洗规则测试

场景:

        爬虫获取运营商用户通话情况、缴费情况

        计算分析层分析出生日、近3个月通话静默天数(1个月打一次电话可能是个小号)

        以上这些指标,对应的计算逻辑需要测试

具体:

        1)需要生日字段做数据处理,这个时候有部分数据生日字段没有,可根据身份证号码或是社保信息中,提取出来,补全这个字段信息。

        2)落库格式统一,例如日期指标。

测试需要做什么:

        1)根据需求构造各类数据

        2)分析判断指标设计是否合理 (例如:指标依赖避免环形关系出现,必填字段需要都给默认值等)

2.1.5 数据分析层

3. 测试痛点:需要手动造数据

基于数据安全考虑,大多数情况下线上数据不允许下载,需要手动造数据测试清洗结果是否符合预期。

痛点

1

不知道造哪些类型的数据

2

很难分析出线上数据具体由哪部分构成(多样性:什么时候出现未预料到的数据,很多时候你不可能提前预判到,构造数据只可能是在现有数据的基础上构造,对于未采集到的数据信息会有滞后性)

3

数据的准确度和可信度(每一层(原始数据初步处理、清洗、计算以及最终出的财务报表等数据)数据处理过程和结果都需要测试验证)

4

当业务横跨多部门多模块,设计多数据库表时,非常依赖测试对项目表关联关系的熟悉程度。

3.1 介入式数据解决方案

方案一:接口造数据

        可能存在的问题:

        1)链路过深

        2)无法保证上游接口数据是没有问题的

        3)上有服务不一定文档(升级)

方案二:SQL造数据

        可能存在的问题:

        1)当表关联关系非常复杂时,无法梳理清楚

方案三:链路跟踪技术ATM——追踪业务流量经过的表,分析出表之间关系

        从对应数据库,找几个例子,建立模板,改变关键信息,建立数据工厂。

3.2 非介入式数据解决方案——数据协调矩阵

1.1 基线数据集做递进式的测试

  • 拿线上3个月内的数据做基线数据集测试

每个版本都以这部分数据做测试,查看数据结果清洗后是否一致。

存在问题:数据集数据可能不完整。

解决方法:所以要做数据协调矩阵,即要夸大数据集,例如扩大到近6个月等。一般测试2-3个周期的数据验证不同版本数据处理结果。

1.2 依赖数据工厂补充已知的异常类数据

  • 保正你的数据清理过程是兼容正常和已知异常数据的场景的。

3.3 智能解决方案

对数据进行自动归类,APM可流量打标

线网复制,对线上数据拉取后做变异处理,脱敏加密,数据格式变异等

多次机器学习归类,再训练演练,回归回溯后,最终预期是使数据可用。

数据可用后,到线上进行渗入演练

验证稳定性,故障演练

具体参考:大数据测试-数据清洗的质量保障 周志强 中国DevOps社区_哔哩哔哩_bilibili

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/384782.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Mysql Nested-Loop Join算法和MRR

MySQL8之前仅支持一种join 算法—— nested loop,在 MySQL8 中推出了一种新的算法 hash join,比 nested loop 更加高效。(后面有时间介绍这种join算法) 1、mysql驱动表与被驱动表及join优化 先了解在join连接时哪个表是驱动表&a…

ChatGPT今日正式开放API服务中小企业

开放隐私计算 开放隐私计算开放隐私计算OpenMPC是国内第一个且影响力最大的隐私计算开放社区。社区秉承开放共享的精神,专注于隐私计算行业的研究与布道。社区致力于隐私计算技术的传播,愿成为中国 “隐私计算最后一公里的服务区”。183篇原创内容公众号…

不要以没时间来说测试用例写不好

工作当中,总会有人为自己的测试用例写得不够好去找各种理由,时间不够是我印象当中涉及到最多的,也是最反感。想写好测试用例,前提是测试分析和需求拆解做的足够好,通过xmind或者UML图把需求和开发设计提供的产品信息提炼出来。 我个人的提炼标准一般是&…

CSS——学成在线案例

🍓个人主页:bit.. 🍒系列专栏:Linux(Ubuntu)入门必看 C语言刷题 数据结构与算法 HTML和CSS3 目录 1.案例准备工作 2.CSS属性书写顺序(重点) 3.页面布局整体思路 4.头部的制作​编辑 5.banner制作…

专治Java底子差,不要再认为泛型就是一对尖括号了

文章目录一、泛型1.1 泛型概述1.2 集合泛型的使用1.2.1 未使用泛型1.2.2 使用泛型1.3 泛型类1.3.1 泛型类的使用1.2.2 泛型类的继承1.4 泛型方法1.5 泛型通配符1.5.1 通配符的使用1)参数列表带有泛型2)泛型通配符1.5.2 泛型上下边界1.6 泛型的擦除1.6.1 …

只知道ChatGPT?这些AI工具同样值得收藏

B站|公众号:啥都会一点的研究生 人工智能革命带来了许多能够提高生产力和转变工作方式的工具,本期将重点介绍音频、视频、设计以及图像和数据清理中的顶级 AI 工具。 音视频类AI工具: VoicePen AI https://voicepen.ai:该工具可…

【内网服务通过跳板机和公网通信】花生壳内网穿透+Nginx内网转发+mqtt服务搭建

问题:服务不能暴露公网 客户的主机不能连外网,服务MQTT服务部署在内网。记做:p1 (computer 1)堡垒机(跳板机)可以连外网,内网IP 和 MQTT服务在同一个网段。记做:p2 (computer 2)对他人而言&…

linux 中的log

linux 中的log 由于内核的特殊性,我们不能使用常规的方法查看内核的信息。下面介绍几种方法。 1 printk()打印内核消息。 2 管理内核内存的daemon(守护进程) Linux系统当中最流行的日志记录器是Sysklogd,Sysklogd 日志记录器由…

【C++】位图

文章目录位图概念位图操作位图代码位图应用位图概念 boss直接登场: 给40亿个不重复的无符号整数,没排过序。给一个无符号整数,如何快速判断一个数是否在这40亿个数中❓ 40亿个整数,大概就是16GB。40亿个字节大概就是4GB。 1Byt…

sklearn中的降维算法PCA和SVD

目录 一.维度 二.sklearn中的降维算法 三.PCA与SVD 四.降维的实现 五.重要参数n_components 1.累积可解释方差贡献率曲线选择n_components 2.最大似然估计自选超参数 3.按信息量占比选超参数 六.PCA中的SVD 七.重要参数svd_solver 与 random_state 八.重要属性compon…

FormData同时传输多个文件和其他数据

近日有个需求是:在web的对话框中,用户可以输入文本内容和上传附件,附件的数量不限,所有附件总和大小不超过20M。 这个实现的方法不止一种,比如之前的后端同事是要求:文件和文本分开传输,文件用…

程序员的上帝视角(2)——我所体悟的思维方式

心外无物仍然记得在高中阶段,总是为了没有解题思路而苦恼。现在回想起来,总算有点感悟——执着于做题、刷题,却忽视了最本质的思考,为什么可以有这样的解题思路,别人是如何想到这种解题思路的。这正是心学所提倡的&…

189、【动态规划】leetcode ——312. 戳气球(C++版本)

题目描述 原题链接:312. 戳气球 解题思路 (1)回溯法 很多求最值实际上就是穷举所有情况,对比找出最值。因为不同的戳气球顺序会产生不一样的结果,所以实际上这就是一个全排列问题。 class Solution { public:int r…

linux shell 入门学习笔记18 函数开发

概念 函数就是将你需要执行的shell命令组合起来,组成一个函数体。一个完整的函数包括函数头和函数体,其中函数名就是函数的名字。 优点 将相同的程序,定义,封装为一个函数,能减少程序的代码数量,提高开发…

新:DlhSoft Gantt Chart for WPF Crack

用于 Silverlight/WPF 4.3.48 的 DlhSoft 甘特图灯光库 改进甘特图、网络图和 PERT 图表组件的 PERT 关键路径算法。2023 年 3 月 2 日 - 17:09新版本特征 改进了甘特图、网络图和 PERT 图表组件的 PERT 关键路径算法。Silverlight/WPF 标准版的 DlhSoft 甘特图灯光库 DlhSoft …

精选博客系列|面向公共安全的SD-WAN Edge:刷新VMware边缘计算栈

在巴塞罗那举行的 2023 世界移动通信大会上,VMware 展台展示了配备小型加固 SD-WAN 设备、搭配用于自动车牌识别等应用的 Jenoptik 软件的特斯拉汽车。VMware SD-WAN 能够在车队中创建移动办公室,实现安全的移动通信和实时边缘计算。 萨里和苏塞克斯警方…

如何做好固定资产管理?易点易动高能解决方案来了

企业固定资产管理一直以来都是企业开源节流的重中之重。在当前的数字化时代中,固定资产需要数字化支撑,实现固定资产的有序、科学管理,以便尽可能实现物尽其用,让处于高速发展期中的企业节约在固定资产上的投入成本。 如何做好固…

B站的多个视频教程,怎样生成一个二维码?

商业插画视频教程、电商运营视频教程、在线网课视频、舞蹈视频教程、摄影视频教程、语言学习教程、纪录片视频…所有你发布在哔哩哔哩上的视频,都可以放在一个二维码里面。 任何人只要扫描这个二维码,就能在线观看你的这些视频教程!分享起来…

渗透测试之地基服务篇:无线攻防之钓鱼无线攻击(上)

简介 渗透测试-地基篇 该篇章目的是重新牢固地基,加强每日训练操作的笔记,在记录地基笔记中会有很多跳跃性思维的操作和方式方法,望大家能共同加油学到东西。 请注意 : 本文仅用于技术讨论与研究,对于所有笔记中复现…

【Spring6】| Bean的作用域

目录 一:Bean的作用域 1. singleton(单例) 2. prototype(多例) 3. 其它scope 4. 自定义scop(了解) 一:Bean的作用域 1. singleton(单例) (1…