文章目录
- 引言
- 集成 Doris
- 数仓动态配置
- 质量任务完善
- 接入速度优化
- 结语
引言
数睿通 2.0 数据中台迎来了 6 月份的更新,本次更新集成了 Doris 数据库,可用于数据集成,数据开发等模块。过去数仓使用的是 TiDB,新版本可以根据自身需求灵活配置租户的数据仓库。质量任务模块也得到了完善,可以基于规则配置进行质量检测,生成质量任务,查看错误日志等。同时优化了数据集成组件,同步速度得到了进一步提升。
集成 Doris
Apache Doris 是一个基于 MPP 架构的高性能、实时的分析型数据库,以极速易用的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。基于此,Apache Doris 能够较好的满足报表分析、即席查询、统一数仓构建、数据湖联邦查询加速等使用场景,用户可以在此之上构建用户行为分析、AB 实验平台、日志检索分析、用户画像分析、订单分析等应用。
Doris 的具体应用,生态等,大家可以通过查阅官方文档快速了解:Doris官方文档
本次更新集成了 Doris 数据库,可以在数据集成和数据开发模块进行使用,同时也可以选择 Doris 作为租户的数据仓库。
数仓动态配置
之前数睿通的数据仓库(中台库)默认使用的是 TIDB 并且无法灵活更换,实际生产中往往需要适配多种数仓产品,所以本版本实现了数仓的动态配置,目前支持的数据库有 TiDB/Oracle/PostgreSql/Greenplum/Doris,每个租户可以设置不同的数据仓库,租户之间数据隔离。
质量任务完善
上个版本数据质量模块完成了数据规则和规则配置,功能并不完整,本版本的数据质量模块补充了质量任务的功能,通过启用规则配置,可以一次性或定时进行质量检测,生成质量任务,帮助我们定位和查看问题数据。质量任务后台采用工厂设计模式,用户可以根据自身需求添加规则检测适配器,定制自己的质量检测规则。
接入速度优化
之前版本的数据集成组件使用的是 jdbcTemplate 进行批量操作,jdbcTemplate 的批量操作方法进行了大量的封装操作,中间性能有一定损耗,所以本版本把批量操作改为了原生的 Jdbc,最大程度上提升同步速率,经测试,同步速度提升约 30% 左右。
之前增量同步(基于主键排序全量比对)在日期类型的比对上有所纰漏,导致不同数据库的日期值明明相同,却被标记为不同,造成了无谓的更新操作,本版本对此问题进行了修复,大幅提升了比对同步效率。
后续版本会添加根据增量字段增量同步表数据,根据指定 sql 同步数据的功能,帮助用户可以更加灵活的进行数据集成操作。
结语
本次中台的新功能介绍就到此结束了,目前数据资产和数据集市尚处于开发之中,由于各种因素影响,开发进度比预计的慢了一个多月,纸上得来终觉浅,绝知此事要躬行,数据中台并不是一蹴而就的东西,需要细细打磨,耐心思考,才能开发出它应有的价值,需要不断完善,不断优化才行。
目前源码,部署指南,讲解视频等相关资料是付费获取的,价格相比其他同系列的产品连个零头都不到,可以说是非常良心了。我创建了一个知识星球,星球内可以获取到数睿通 2.0 的最新源码资料等,功能发布之后也会第一时间分享。
感兴趣的朋友请关注公众号 螺旋编程极客 加入星球,我们一起成长,一起进步。