第14章 存储和成本管理
目标:有效的降低存储资源的消耗,节省存储成本。
1.数据压缩
- 问题
在分布式文件系统中,为了提高数据的可用性与性能 ,通常会将数据存储3份,这就意味着存储 1TB 的逻辑数据, 实际上会占用3TB物理空间。
- 解决方案
目前 MaxCompute 中提供了 archive 压缩方法,它采用了具有更高压缩比的压缩算法,可以将数据保存为 RAID file 的形式,数据不再简单地保存为3份,而是使用盘古 RAID file 的默认值( 6,3 )格式的文件,即6份数据+3份校验块的方式,这样能够有效地将存储比约为1:3 提高到 1: 1.5 ,大约能够省下一半的物理空间。
存在风险:如果某个数据块出现 了损坏或者某台机器着机损坏了,恢复数据块的时间将要比原来的方式更长,读的性能会有定的损失。
- 应用:
目前一般将 archive 压缩方法应用在冷备数据与日数据的压缩存储上。
2.数据重分布
- 问题
MaxCompute 主要采用基于列存储的方式,由于每个表的数据分布不同,插人数据的顺序不 样,会导致压缩效果有很大的差异。
- 解决方案
通过修改表的数据重分布,避免列热点,将会节省一定的存储空间。目前主要通过修改 distribute by sort by 字段的方法进行数据重分布。
3.存储治理项优化
在元数据的基础上,诊断、加工成多个存储治理优化项。
目前已有的存储治理优化项有未管理表、 空表最近 62 天未访问表、数据无更新无任务表 、数据无更新有任务表、开发库数据大于 lOOGB 且无访问表、长周期表等。
4.生命周期管理
目的:是用最少的存储成本来满足最大的业务需求,使数据价值最大化。
- 生命周期管理策略
周期性删除策略:所存储的数据都有 定的有效期,从数据创建开始到过时,可以周期性删除X天前的数据。
彻底删除策略:无用表数据或者 ETL 过程产生的临时数据,以及不需要保留的数据,可以进行及时删除,包括删除元数据。
永久保留策略:重要且不可恢复的底层数据和应用数据需要永久保留。
极限存储策略:可以超高压缩重复镜像数据,通过平台化配置手段实现透明访问。缺点是对数据质量要求非常高,配置与维护成本比较高。
冷数据管理策略:冷数据管理是永久保留策略的扩展。永久保留的数据迁移到冷数据中心进行永久保存,同时将MaxCompute 中对应的数据删除。
增量表merge全量表策略:对于某些特定的数据,极限存储在使用性与存储成本方面的优势不是很明显,需要改成增量同步与全量 erge 的方式,对于对应的 delta增量表的保留策略,目前默认保留 93 天。
- 通用的生命周期管理矩阵
通过对历史数据的等级划分与对表类型的划分生成相应的生命周期管理矩阵。
(1)历史数据根据等级划分
P0:非常重要的主题数据域数据和非常重要的应用数据;具有不可恢复性;如,交易、日志、集团 KPI 数据、IPO 关联表;
P1:重要的业务数据和重要的应用数据;具有不可恢复性;如,重要的业务产品数据;
P2:重要的业务数据和重要的应用数据;具有可恢复性;如,交易线 ETL 产生的中间过程数据;
P3:不重要的业务数据和不重要的应用数据,具有可恢复性;如,某些 SNS 产品报表;
(2)表类型划分
事件型流水表(增量表):数据无重复或者无主键,如日志。
事件型镜像表(增量表):指业务过程性数据,有主键,但是对于同样主键的属性会发生缓慢变化;如交易、订单状态与时间会根据业务发生变更;
维表:包括维度和维度属性数据
Merge 全量表:包括业务过程性数据或者维表数据,由于数据本身有新增的或者发生状态变更,对于同样主键的数据可能会保留多份,因此可以对这些数据根据主键进行 Merge 操作,主键对应的属性只会保留最新状态,历史状态保留在前一天分区中;
ETL临时表:处理过程中产生的临时表数据
TT 临时数据:TT 拉取的数据和 DbSync 产生的临时数据最终会流转到 ODS 层,ODS 层数据作为原始数据保留下来,从而使得 TT& DBSync 上游数据成为临时数据
普通全量表:BI 一般是直接全量拉取,这种方式效率快,对存储压力也不是很大,而且表保留很长时间,可以根据历史数据等级确定保留策略。
P0 | P1 | P2 | P3 | ||
---|---|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
| |
|
|
|
|
| |
|
|
|
|
| |
|
|
|
|
| |
|
|
|
|
| |
|
|
|
|
|
|
|
|
|
|
| |
|
|
|
|
| |
|
|
|
|
| |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| |
|
|
|
|
|
|
|
|
|
|
| |
|
|
|
|
|
5.数据成本计算
数据成本计算主要是计算数据表的存储成本、计算成本、扫描成本:
存储成本是为了计算数据表消耗的存储资源;
计算成本是为了计算数据计算过程中的 CPU 消耗;
扫描成本是指对上游数据表的扫描带来的扫描成本;
6.数据使用计费
依据三个成本进行收费,称为:
计算付费
存储付费
扫描付费