【深入MaxCompute】人力家:用MaxCompute 事务表2.0主键模型去重数据持续降本增效

news2024/10/5 17:22:54

简介:  MaxCompute新增Transaction Table2.0(下文简称事务表2.0)表类型在2023年6月27日开始邀测,支持基于事务表2.0实现近实时的增全量一体的数据存储、计算解决方案。

作者: 石玉阳 人力家 高级数据研发工程师

业务简介

人力家是由阿里钉钉和人力窝共同投资成立,帮助客户进入人力资源数字化,依靠产品技术创新驱动战略的互联网公司。公司主要提供包括人事管理、薪酬管理、社保管理、增值服务在内的人力资源SaaS服务,加速对人力资源领域赋能,实现人力资源新工作方式。目前已服务电子商务、零售服务等领域的多行业客户。

人力家是一家典型的创业公司,目前处于一个竞争激烈的市场环境中,公司具有多产品性质,每个产品的数据具有独立性,同时为了配合内部CRM数据需求,更好地把数据整合,对于数仓团队来说是一个不小的挑战,对于数仓团队要求的是稳,准,及时响应。需要数仓团队既要满足内部的数据需求,也需要在计算的成本上实现优化。

业务痛点

在使用阿里云大数据计算服务MaxCompute过程中发现随着存量数据增加,增量数据去重成本越来越大,具体分析发现有如下4个原因

增量数据量级少

公司虽然是多产品,但每天新增的用户数据和历史变化的数据量相对于历史全量数据的量级(GB)比较下处于较小的数据量级(MB)。

历史数据二次计算

对于增量数据去重,每天利用昨日历史全量+今日新增数据开窗去重计算,但历史全量数据需要更新的数据部分其实很少,每次都需要把历史数据拉出来进行开窗去重计算,这无疑一笔比较大的计算成本。

开窗去重计算成本大

使用row_number函数开窗去重取得业务主键的最新数据需要把昨日历史数据+今日数据合并计算,用户表有亿级别大小,但为了数据去重节省存储成本和后续的建模运算,这部分成本是偏大的,其实大部分历史数据没有更新,本质上是不需要再次参与运算处理,每天一次的用户表去重单条SQL预估费用达到4.63元(按量付费)。

全量拉取成本大

如果每天全量拉取业务库数据,数据量是亿级别,但其实更新的数据量级少,对于业务端的db压力大,严重影响业务端db性能。

Transaction Table2.0数据去重改进

MaxCompute新增Transaction Table2.0(下文简称事务表2.0)表类型在2023年6月27日开始邀测,MaxCompute支持基于事务表2.0实现近实时的增全量一体的数据存储、计算解决方案。人力家数仓研发团队开始第一时间了解其特性和功能,人力家数仓团队发现其特性主键模型可以用来进行数据去重,减少开窗计算成本问题,主要实现方式如下。

  • 每日增量用户基础信息开窗去重;
  • 由于主键表的主键不能为空,需要过滤出业务主键为空的数据;
  • 把每日增量数据开窗去重后的数据直接insert into 主键表,系统会自动进行按照业务主键进行去重计算。

具体改进实践措施

整体对比

去重SQL执行时间(单位s)去重SQL预估成本(单位元)
普通表1514.63
Transaction Table2.0720.06

成本和计算时间对比

1、建表语句和插入更新语句

1.png

更新语句

1.png

2、成本和计算

分区表去重运行预估成本:

1.png

预估费用,不能作为实际计费标准,仅供参考,实际费用请以账单为准。

主键表去重运行预估成本:

1.png

预估费用,不能作为实际计费标准,仅供参考,实际费用请以账单为准。

分区表计算时间和资源

1.png

事务表2.0主键表计算时间和资源

1.png

通过上述对比,用户表每天的计算SQL成本从4.63元下降到0.06元,计算时间缩短一半,reduce_num明显增加,map端减少,reduce端的数据量明显变多。

合并小文件

事务表2.0支持近实时增量写入和timetravel查询特性,在数据频繁写入的场景中,必然会引入大量的小文件,需要设计合理高效的合并策略来对小文件进行合并以及数据去重,解决大量小文件读写IO低效以及缓解存储系统的压力,但也要避免频繁Compact引发严重的写放大和冲突失败。

目前主要支持两种数据合并方式:

  • Clustering:只是把Commit的DeltaFile合并成一个大文件,不改变数据内容。系统内部会根据新增的文件大小、文件数量等因素周期性地执行,不需要用户手动操作。主要解决小文件IO读写效率和稳定性问题。

1.png

  • Compaction:会把所有的数据文件按照一定策略进行Merge操作,生成一批新的BaseFile,相同PK的数据行只存储最新的状态,不包含任何历史状态,也不会包含任何系统列信息,因此BaseFile本身不支持timetravel操作,主要用于提升查询效率。支持用户根据业务场景主动触发,也支持通过设置表属性由系统周期性自动触发。

1.png

综上面对主键表面对增量数据时,并不会马上对其进行小文件合并,这样会有大量的小文件产生,小文件会占有大量的存储空间且不利于数据查询速度,针对以上情况,我们可以在insert into 后增加手动合并下主键表的小文件或者也可通过配置表属性按照时间频率、Commit次数等维度自动触发Compaction机制,或等待系统进行的Clustering合并。如果是每日的新增仅一次的数据更新,这里更推荐使用系统的Clustering机制。

注意点:

desc extend table_name显示出来的file_num 和 size是包含回收站数据的,目前没办法准确显示,可以清空回收站数据或者Compaction 观察日志结尾的filenum数量。

数据时空旅行查询和历史数据修复

对于事务表2.0类型的表,MaxCompute支持查询回溯到源表某个历史时间或者版本进行历史Snapshot查询(TimeTravel查询),也支持指定源表某个历史时间区间或者版本区间进行历史增量查询(Incremental查询), 需要设置acid.data.retain.hours才可以使用TimeTravel查询和Incremental查询。

数据时空旅行查询

1、基于TimeTravel 查询截止到指定时间(例如datetime格式的字符串常量)的所有历史数据(需要设置)

select * from mf_tt2 timestamp as of '2023-06-26 09:33:00' where dd='01' and hh='01';

查询历史数据和版本号

show history for table mf_tt2 partition(dd='01',hh='01');

查询截止到指定version常量的所有历史数据

select * from mf_tt2 version as of 2 where dd='01' and hh='01';

2、基于Incremental 查询指定时间(例如datetime格式的字符串常量)区间的历史增量数据,常量值需要根据具体操作的时间来配置

select * from mf_tt2 timestamp between '2023-06-26 09:31:40' and '2023-06-26 09:32:00' where dd= '01' and hh='01';

查询指定version区间的历史增量数据

select * from mf_tt2 version between 2 and 3 where dd ='01' and hh = '01';

数据修复

基于TimeTravel 查询截止到指定时间的全量数据直接insert into 一张临时表,清空当前事务表2.0主键表数据,把临时表数据insert into当前事务表2.0主键表。

注意事项及未来规划

动态硬删数据

对于历史数据没办法硬删除(这部分需要依赖flink-cdc),目前可以通过软删实现,或者通过一段时间的历史数据积累,拿出所有历史数据进行过滤重新整体插入主键表;这里提一点就是flink-cdc+flink-sql支持delete实时硬删数据,但是单表的flink-cdc任务比较重,多个表需要不同的server-id,对于业务系统源头断的db压力大,不是很推荐,期待后续的cdas整库同步。

存储空间增加

事务表2.0主键模型数据存储空间相比于分区表开窗后的数据占有的存储空间大一点,主要是开窗后的数据分布更均匀,数据压缩比更大,但是相对于sql每次的每天一次的计算成本,存储空间所占有的每日费用处于较低的费用级(可忽略)。

flink-cdc

配合flink-cdc直接可以直接实现准实时数据同步,提高数据新鲜度。

整库同步

期待阿里云实时计算Flink的cdas语法目标端整合MaxCompute端做到整库同步和ddl变更。

物化视图

利用物化视图+flink-cdc组合方式可以做到

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/947947.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【高阶产品策略】认识策略产品

文章目录 1、策略产品概述2、策略产品搭建流程3、如何成为一名策略产品经理 1、策略产品概述 2、策略产品搭建流程 3、如何成为一名策略产品经理

地铁+铁路系统防雷接地应用解决方案

地铁作为城市轨道交通的一种,是一种高效、安全、环保的公共交通方式。然而,地铁也面临着雷电灾害的威胁,尤其是在雷暴多发的地区。 雷电对地铁系统的影响主要有以下几个方面: 直接雷击:雷电直接击中地铁系统的设备或…

【Apollo学习笔记】——规划模块TASK之PATH_DECIDER

文章目录 前言PATH_DECIDER功能简介PATH_DECIDER相关配置PATH_DECIDER总体流程路径决策代码流程及框架MakeStaticObstacleDecision PATH_DECIDER相关子函数参考 前言 在Apollo星火计划学习笔记——Apollo路径规划算法原理与实践与【Apollo学习笔记】——Planning模块讲到……S…

那些在职场上最吃香的人,其实都偷偷学了Python

Python为什么这么火? 不可否认,Python在机器学习和数值计算等不断增长的科技领域获得了非常广泛的应用。 但Python这么受欢迎的原因,最主要的还是因为它简单易用、上手容易,非程序员也能使用,而不是一种只适合高级程序…

ssm毕业生就业状况管理系统源码和论文

ssm毕业生就业状况管理系统源码和论文093 开发工具:idea 数据库mysql5.7 数据库链接工具:navcat,小海豚等 技术:ssm 摘 要 现代经济快节奏发展以及不断完善升级的信息化技术,让传统数据信息的管理升级为软件存储&#xff…

【安装包】JDK 17安装教程

软件下载 软件:JDK版本:17语言:简体中文大小:151.24M安装环境:Win11/Win10/Win8/Win7硬件要求:CPU2.0GHz 内存4G(或更高)下载通道①百度网盘丨64位下载链接:https://pan.baidu.com/…

0基础学习VR全景平台篇 第93篇:智慧景区教程

一、上传素材 1.上传全景素材 第一步:进入【素材管理】 第二步:选择【全景图智慧景区】分类 第三步:选择相对景区作品分组,上传全景素材 2.素材标注 第一步:选择上传成功后素材,点击【未标注】 第二步&…

Kubernetes技术--k8s核心技术Service服务

1.service概述 Service 是 Kubernetes 最核心概念,通过创建 Service,可以为一组具有相同功能的容器应用提供一个统一的入口地址,并且将请求负载分发到后端的各个容器应用上。 2.service存在的意义 -1:防止pod失联(服务发现) 我们先说一下什么叫pod失联。 -2:

JAVA反射+动态代理

一.什么是反射? 反射就是对封装的成员信息与变量进行编程式访问 简单来说就是从类里面拿东西 比如属性 或者构造方法 二.获取Class对象: 获取Class的三种方式 代码实现: 首先封装一个javabean Student类 public class Student {private Strin…

Makerbase_VESC 常用VESC TOOL配置(一)

VESC TOOL电机配置(一) 欢迎加入 创客基地 电机控制企鹅群 讨论电机控制相关问题:732557609 欢迎光临 创客基地 tao宝店 采购产品: https://makerbase.taobao.com/ 提示:可以按快捷键“CtrlF”快速寻找相关问题。 …

微信聊天记录删除恢复导出工具(文字/语音/图片/视频/文件/表情包)

微信的聊天记录加密保存在电脑中,有时我们想将自己微信中的聊天记录导出来,但微信软件并不提供该功能。此软件可将自己电脑版微信中的聊天内容批量导出来,方便备份,后期不登录也可方便快速查阅。它还能够尝试恢复之前删除过的好友…

echarts 饼图 图例在右侧时,文字在图例点右边

echarts图例在右侧时,文字在图例点右边 需求 现在实现的 实现需求 主要使用的参数: legend.align ’left‘代码: 可直接放到echarts示例中使用 option {tooltip: {trigger: item},legend: {orient: "vertical" /*标签文字垂…

【Java从0到1学习】13 Java IO流

1. 流 1.1 流的概念 流(stream)的概念源于UNIX中管道(pipe)的概念。在UNIX中,管道是一条不间断的字节流,用来实现程序或进程间的通信,或读写外围设备、外部文件等。 一个流,必有源端和目的端,它们可以是计算机内存的…

揭开波动性的神秘面纱【02/2】:简要介绍预测市场走势

一、说明 本文是数据专家的体会,他之前写了一系列关于时间序列的文章,在这些文章之后,他想给出一个关于我们如何通过投资组合分析在潜在风险情况下将自己保持在安全区域的想法。文章专业性很强,但机器学习方面的工作还是有参考价值…

【LeetCode】409. 最长回文串

409. 最长回文串(简单) 方法:哈希表 贪心 思路 不难发现,回文字符串一定是由 若干偶数个字符 至多一个奇数个字符 组成 。我们可以使用一个长度为 128 的 hash表来记录每一个字符的出现次数,当该字符出现了两次&am…

企业想用CRM提高销售业绩该如何操作?

在当今市场环境中,客户的需求更偏向于个性化,企业面对的竞争更加激烈。如何有效地获取和维护客户,提高收入成为了企业的核心问题。作为一种强大的销售管理工具,CRM如何提高销售业绩? 提高客户转化率: 企业…

Day50|动态规划part11:188.买卖股票的最佳时机IV、123. 买卖股票的最佳时机III

188. 买卖股票的最佳时机IV leetcode链接:188 题「买卖股票的最佳时机 IVopen in new window」 视频链接:动态规划来决定最佳时机,至多可以买卖K次!| LeetCode:188.买卖股票最佳时机4 给你一个整数数组 prices 和一…

基于ssm车库智能管理平台源码和论文

基于ssm车库智能管理平台源码和论文092 开发工具:idea 数据库mysql5.7 数据库链接工具:navcat,小海豚等 技术:ssm 选题的根据:1)说明本选题的理论、实际意义 2)综述国内外有关本选题的研究动态和自己…

【LeetCode75】第四十一题 二叉搜索树中的搜索

目录 题目: 示例: 分析: 代码: 题目: 示例: 分析: 题目给我们一个搜索二叉树,让我们找出节点值等于目标的节点并返回出去。 首先我们可以直接遍历整棵二叉树,找到值…

Mybatis2,注解实现CRUD

2,注解实现CRUD 使用注解开发会比配置文件开发更加方便。如下就是使用注解进行开发 Select(value "select * from tb_user where id #{id}") public User select(int id);注意: 注解是用来替换映射配置文件方式配置的,所以使用了…