数据离奇丢失案件的侦破与思考

news2024/10/6 2:23:35

01 离奇的数据丢失案件

最近生产环境出了一起数据离奇丢失的案件,调查过程很曲折,几度进入死胡同。下面跟大家分享整个事件的来龙去脉。

1.1 数据丢失案件

8月初,用户批量导入了一批(300+)委托人数据,导入后检查过数据都没有问题。最近(10月中),处理那些委托人的时候,发现所有委托人的某几个列表(list)类型的自定义字段的值都没有了……

用户报过来以上问题,涉及到数据丢失,是高优先级问题,客户为此特别紧张。

团队随即展开调查。

1.2 补充说明

为了更好地解释这个问题,补充如下信息:

  1. 委托人的信息存在于两个系统中:从A系统导入,存入A系统的数据库,同时会有同步机制把数据同步到B系统的数据库;在B系统也可以修改这些数据,修改完会同时写入A、B两个系统。
  2. 丢失数据的“字段”(不是字段的“值”)本身是通过list类型来自定义的,也就是说不同类型的委托人可能看到的字段是不一样的;而丢失的是自定义字段对应的“值”。

1.3 案件排查过程


案件排查过程

  1. 团队第一反应是怀疑双写和同步之间出了问题,但仔细检查后觉得没法成立。
  2. 怀疑B系统的用户操作不当导致数据被抹去。但是,通过检查数据变更event,没有发现来自B系统的event;况且,现在丢失的是一批数据,B系统并没有批量操作的入口。
  3. 是不是A系统进行过批量操作,导致数据被重写?开发人员看代码,测试人员尝试重试各种相关场景,也是没有成功;同时,从event里也没有找到跟这批委托人相关的任何可疑event。
  4. 会不会是第三方的系统写入导致数据丢失?随即查看第三方的api和相关event,也是没有找到任何可疑迹象。
  5. 能想到的用户相关操作都试过了,也没有任何相关event的记录,难道是直接运行SQL脚本把数据删除了?客户的相关人员不会无故去运行脚本,怀疑可能我们提供的某次修复生产环境问题的脚本搞得鬼……查看最近这段时间的脚本记录,大家放心了,没有脚本会导致数据丢失!
  6. 真的是见鬼了!怎么可能数据就这么莫名其妙的丢了呢?!调查小组几经折腾已经筋疲力尽了,决定求助资深专家小陈。小陈同学听了前面的排查过程,好像真的天衣无缝,但他还是不甘心,决定再去看看event和log。他重新查了前面提到的那些委托人相关的event,的确没有发现任何可疑。又仔细看了看用户报过来的问题,发现竟然只是list类型的值丢失了!这一定有什么不对!他赶紧去查看那几个list字段相关event,终于真相大白了!原来是有用户把list里的选项删除又重新以不同顺序添加了一遍,从而导致原来用这些选项的字段的值都没有了!

02 案件引发的思考

找到了罪魁祸首,案件也就侦破了。不过,经历这次惊心动魄的数据丢失案件,我们该有哪些启发和思考呢?下面,我从问题排查、修复问题和制定预防措施几个维度进行反思和总结。


数据丢失案件的思考

2.1 问题排查

数据出现问题相对比较严重,团队都会着急去排查原因,不过,在开始排查之前,有更重要的事情要做。我认为问题排查也分两个步骤:清晰识别问题、定位问题。

1. 清晰识别问题

对于数据丢失的情况,首先要搞清楚丢失的数据类型,以及丢失数据的时间段和对应的系统/功能模块等。案件中小陈就是进一步识别了问题,发现了问题的根本点在于只有list类型自定义字段对应的数值有丢失,因此找到了问题的突破口。

因此,清晰识别问题,才可能朝着更加正确的方向去排查问题,这一点至关重要!

2. 定位问题

  • 收集日志、Event等信息:查看系统日志、数据库日志和其他相关的系统记录,收集可能有关丢失数据的信息,例如异常情况、错误信息、登录记录等。
  • 对收集到的信息进行分析,以确定可能导致数据丢失的原因。例如,检查数据库或其他系统的异常操作、网络连接或系统故障等。
  • 排查过程需要结合业务、开发、测试和运维人员的力量,考虑可能会影响的业务场景,从界面操作和系统代码两方面入手,同时排查各种可能性。案件中的定位问题过程还是做的比较周全的,对于复杂的系统,就得集团队之力一步一步细心地去排查;甚至有的时候需要借助外部专家的力量,外部力量作为旁观者加入,可能会事半功倍,起到关键作用。

2.2 修复问题

数据丢失问题的修复需要处理以下几种情况:恢复数据、修复代码缺陷、审查安全措施。

1. 恢复数据

数据丢失问题,最紧急的是恢复数据。如果有备份数据,则可以尝试使用备份数据进行恢复。如果没有备份,则可能需要使用数据恢复工具或其他手段尝试恢复丢失的数据。

2. 修复代码缺陷

如果数据丢失是因代码缺陷导致,在恢复数据之后需要修复相应的代码问题。本案件中的自定义字段被使用,但是还允许用户删除该字段,且没有收到任何提示,这也是一种代码缺陷,是需要结合真实业务使用情况进行完善和修复的。

3. 审查安全措施

数据丢失也可能是代码以外的其他原因所致,需要评估现有的安全措施。例如数据备份策略、数据恢复策略、访问控制和身份验证措施、加密和防火墙等。以确定是否存在缺陷或漏洞,并进行相应的修复和改进。

2.3 制定预防措施

任何问题如果能做到防患于未然当然是最好的!分析数据丢失事件的原因和影响,制定预防措施以避免类似事件再次发生至关重要。例如,加强数据备份和恢复策略、加强安全防范和监控、加强员工培训和管理等。

《都是脏数据惹的祸》一文对于脏数据的预防有详细的介绍,而数据丢失也是脏数据的一种形式,适用同样的预防措施。

03 推荐阅读

  • 都是脏数据惹的祸
  • 测试右移——生产环境下的QA
  • 测试右移:QA与Ops通力合作打造反脆弱的软件系统
  • 测试右移之日志收集与监控
  • 测试右移:缺陷分析如何帮助质量内建

文/Thoughtworks 林冰玉

原文链接:https://insights.thoughtworks.cn/how-to-troubleshoot-fix-data-loss-issues/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/442374.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

完美解决丨SyntaxError: invalid syntax

样例 1.1. 不同编辑器 VSCode:点击查看PyCharm:点击查看 1.2. 不同版本 1.2.1. python2 与 python3 的差异 Python2 的 print 语句如下: python print Hello, World! Python3 的 print 语句如下: python print(Hello, World!) P…

超实用的 Linux 高级命令,程序员一定要懂

前言 在运维的坑里摸爬滚打好几年了,我还记得我刚开始的时候,我只会使用一些简单的命令,写脚本的时候,也是要多简单有多简单,所以有时候写出来的脚本又长又臭。 像一些高级点的命令,比如说 Xargs 命令、管…

前端登陆表单_内容非空验证_rules属性与validate方法

更多校验规则查看&#xff1a;ElementUI官网-form-attributes 表单内容 <!--3、通过rules属性传入约定的验证规则v-bind:model"dataForm"绑定data中的dataForm数据v-bind:rules"rules"绑定data中的rules属性&#xff0c;里面定义了要校验的属性及规则re…

网络安全之DVWA通关教程

网络安全之DVWA通关教程 一、DVWA简介二、DVWA安装2.1 安装PHPStudy2.2 安装DVWA 三、DVWA使用3.1 Brute Force&#xff08;暴力破解&#xff09;3.1.1 Low级别3.1.2 Medium级别3.1.3 High级别 3.2 Command Injection&#xff08;命令注入&#xff09;3.2.1 Low级别3.2.2 Middl…

三极管基本知识

1、三极管是常用的半导体器件&#xff0c;也称为双极型品体管、品体三极管&#xff0c;由P/N结组成&#xff0c;它分为NPN(简称P三极管)和PNP&#xff08;简称N三极管&#xff09;&#xff0c;P三极管用多一点。常用的有插件类和贴片类两大封装。具体封装类型有SOT-23-3,TO-92,…

QS排名十年对比:美国大学最稳,中国大学进步最快

QS世界大学排名发布距今已有20年历史&#xff0c;迄今为止&#xff0c;全球已有超过90个国家和地区共1500多所大学进入QS世界排名。QS排名评估中所使用的5项评估标准基本保持不变。 QS使用5个关键指标来进行排名&#xff0c;包括学术声誉、雇主声誉、篇均论文引用、H指数和国际…

【Node.JS】初入前端,学习node.js基本操作

文章目录 一、Node.js 创建服务端应用二、npm 使用介绍三、Node.js 回调函数四、Node.js 事件驱动程序五、Node.js 事件监听器六、特殊的error事件七、Node.js Buffer&#xff08;缓冲区&#xff09;八、输入输出流 Stream九、Node.js 模块系统十、 Node.js 路由十一、GET/POST…

Node 内置模块 【http模块】

文章目录 &#x1f31f;前言&#x1f31f;http模块&#x1f31f; 1.引入http模块&#x1f31f; 2.创建服务&#x1f31f; 3.添加头信息&#x1f31f; 4.搭建一个简单的服务器&#xff1a;&#x1f31f; 5.Request对象&#x1f31f; 6.Response对象&#x1f31f; 7.练习&#xf…

Mac 安装Java反编译工具JD-GUI

一、下载JD-GUI软件 1.首先到Github下载JD-GUI软件&#xff1a; github java-decompiler/jd-gui Public 选择jd-gui-osx-1.6.6.tar. 2.解压打开软件&#xff0c;但是提示错误&#xff1a; 3.确保本机已安装JDK. 4.如果确定已经安装了JDK海报这个这个错误&#xff0c;选中JD…

Ubuntu由于没有公钥,无法验证下列签名: NO_PUBKEY 79CDFD222CD3495A

执行update时&#xff0c;打印几行错误信息&#xff1a; sudo apt-get update命中:3 https://deb.termius.com squeeze InRelease 错误:3 https://deb.termius.com squeeze InRelease 由于没有公钥&#xff0c;无法验证下列签名&#xff1a; NO_PUBKEY 79CDFD222CD3495A W: 校…

海量数据的交互式分析工具Dremel

海量数据的交互式分析工具Dremel 产生背景数据模型两方面的技术支撑面向记录和面向列的存储嵌套模型的形式化定义 嵌套式的列存储数据的无损表示重复深度的定义定义深度的定义 高效的数据编码&#xff08;了解&#xff09;数据重组 查询语言与执行&#xff08;了解&#xff09;…

易点易动设备管理系统帮助水泥厂实现智能设备巡检

着工业4.0的不断发展&#xff0c;智能制造成为企业追求的目标。水泥厂作为基础建设的重要产业&#xff0c;其生产过程中设备的巡检维护显得尤为重要。本文介绍了易点易动设备管理系统如何帮助水泥厂实现智能设备巡检&#xff0c;提高设备管理效率&#xff0c;降低维修成本&…

卫浴工厂如何通过电子作业指导书系统实现信息化管理?

电子作业指导书系统可以帮助卫浴工厂实现信息化管理和智能化生产。电子作业指导书系统可以与其他管理系统和设备进行数据共享和信息交换&#xff0c;从而实现生产过程的智能化和自动化。 电子作业指导书系统是一种指导工人操作的电子化工具&#xff0c;可以将工艺流程、操作规范…

你的企业是不是需要一个wiki维基网页呢?

随着科技的不断发展和企业的不断壮大&#xff0c;企业内部的知识管理变得愈发重要。而wiki维基网页正是一种非常有效的知识管理工具&#xff0c;可以帮助企业更好地管理、分享和利用内部知识。 企业需要一个wiki维基网页的原因有哪些&#xff1f; 提高信息共享效率 在传统的…

WEB 工程路径专题--base 标签的使用和建议示意图

目录 WEB 工程路径专题 工程路径解决方案 解决方案&#xff1a;相对路径 2. 相对路径带来的问题举例 > 示意图 解决方案&#xff1a;base 标签 base 基本介绍 base 应用实例 a.html b.html Servlet03.java 练习 login.HTML user.html WEB 工程路径注意事项和细…

Storm proxies动态代理IP怎么挑选海外代理IP?

在选择海外代理IP时&#xff0c;需要考虑以下几个因素&#xff1a; 代理IP的稳定性和速度&#xff1a;代理IP的稳定性和速度是影响代理效果的重要因素。需要选择一个稳定、速度较快的代理IP&#xff0c;以确保能够快速、稳定地访问目标网站。代理IP的位置和数量&#xff1a;需要…

Node 内置模块 【fs模块】

文章目录 &#x1f31f;前言&#x1f31f;fs模块&#x1f31f; 使用fs模块&#x1f31f; 异步编程和同步编程&#x1f31f; 异步编程&#x1f31f; 同步编程 &#x1f31f;常用操作&#x1f31f; 文件操作&#x1f31f; readFile异步读取文件&#x1f31f; readFileSync同步读取…

OPencv图像读取_显示_保存

OPencv图像读取_显示_保存 一.OpenCV图像处理系统组成&#xff1a; OpenCV 主体分为五个模块&#xff0c;分别为CV、MLL,HighGUI、CXCORE&#xff0c;CVAux。OpenCV 的 CV 模块包含基本的图像处理函数和高级的计算机视觉算法。ML 是机器学习库&#xff0c;包含一些基于统计的…

哪个品牌的洗地机更好用?热门洗地机盘点

洗地机没有使用过之前一直怀疑是不是智商税&#xff0c;等到后面体验过之后&#xff0c;发现是真的香。因为不可否认的是&#xff0c;洗地机的清洁力还是不错的。不仅能够快速清洁干净地面&#xff0c;大大的节省了我们的清洁用时&#xff0c;操作起来也省心省力。作为一个洗地…

智驾系统的设计瓶颈之:电源管理设计中的功能安全和状态机

摘要&#xff1a; 本文从智驾系统电源管理设计的角度详细分析了整个系统的电源设计方式。 在整车电源管理中&#xff0c;IC 需要将多轨降压、升压和 LDO 稳压功能与每个电轨的参数&#xff0c;以及与其他电轨间交互的复杂可配置能力整合在一起。对于智驾系统设计人员而言&…