文章目录
- 【大数据之路】数据管理篇 《三》存储和成本管理
- 1.1数据压缩
- 1.2存储治理项优化
- 1.3生命周期管理
- 1.3.1 生命周期管理策略
- 1.3.2 生命周期管理策略
- 1.4数据成本计量
【大数据之路】数据管理篇 《三》存储和成本管理
1.1数据压缩
在分布式文件系统中,为了提高数据的可用性与性能 ,通常会将数
据存储 份,这就 着存储 lTB 的逻辑数据, 实际上会占用 TB物理空间。
1.2存储治理项优化
在元数据的基础上,诊断、加工成多个存储治理优化项。
目前已有的存储治理优化项有未管理表、 空表、最近 62 天未访问表、数据无更新无任务表 、数据无更新有任务表、开发库数据大于 lOOGB 且无访问表、长周期表等。通过对该优化项的数据诊断形成治理项,治理项通过流程的方式进行运转、管理,最终推动各个 TL 发人员进行操作,优化存储管理,并及时回收优化的存储效果。
1.3生命周期管理
1.3.1 生命周期管理策略
生命周期管理的根本
目的就是用最少的存储成本来满足最大的业务需求,使数据价值最大化。
1.周期性删除策略
所存储的数据都有定的有效期,从数据创建开始到过时,可以周期性删除 天前的数据。例如对于 MySQL 业务库同步到 MaxCompute 的全量数据,或者 ETL 过程产生的结果数据,其中某些历史数据可能已经没有价值,且占用存储成本,那么针对无效的历史数据就可以进行定期清理。
2.彻底删除策略
无用表数据或者 ETL 过程产生的临时数据,以及不需要保留的数据,可以进行及时删除,包括删除元数据。
3.永久保留策略
重要且不可恢复的底层数据和应用数据需要永久保留。比如底层交
易的增量数据,出于存储成本与数据价值平衡的考虑,需要永久保留,
用于历史数据的恢复与核查。
4.极限存储策略
极限存储可以超高压缩重复镜像数据,通过平台化配置手段实现透明
访问:缺点是对数据质量要求非常高,配置与维护成本比较高,建议一个
分区有超过 5G 的镜像数据(如商品维表、用户维表)就使用极限存储。
5.冷数据管理策略
冷数据管理是永久保留策略的扩展。永久保留的数据需要迁移到冷
数据中心进行永久保存,同时将 MaxCompute 中对应的数据删除。一般
将重要且不可恢复的、占用存储空间大于 lOOTB ,且访问频次较低的数
据进行冷备,例如 年以上的日志数据。
6.增量表 merge 表策略
对于某些特定的数据,极限存储在使用性与存储成本方面的优势不
是很明显,需要改成增量同步与全量 erge 的方式,对于对应的 delt
增量表的保留策略,目前默认保留 93 天。
1.3.2 生命周期管理策略
1.历史数据等级划分
主要将历史数据划分
P0 Pl P2 P3 四个等级,其具体定义如下。
• P0 :非常重要的主题域数据和非常重要的应用数据,具有不可恢
复性,如交易、日志、集团 KPI 数据、 IPO 关联表。
• Pl :重要的业务数据和重要的应用数据,具有不可恢复性,如
要的业务产品数据。
• P2 :重要的业务数据和重要的应用数据,具有可恢复性,如交易
ETL 产生的中间过程数据。
• P3: 不重要的业务数据和不重要的应用数据,具有可恢复性,如
某些 SNS 产品报表。
2.表类型划分
1.4数据成本计量
我们将数据成本定义为存储成本、计算成本和扫描成本三个部分。
通过在数据成本计量中引人扫描成本的概念,可以避免仅仅将表自
身硬件资源的消耗作为数据表的成本,以及对数据表成本进行分析时,
孤立地分析单独的一个数据表,能够很好地体现出数据在加工链路中的
上下游依赖关系,使得成本的评估尽量准确、公平、合理。