打破数据孤岛,Apache Doris 助力纵腾集团快速构建流批一体数仓架构|最佳实践

news2024/11/29 2:46:25

福建纵腾网络有限公司(简称“纵腾集团”)成立于 2009 年, 以“全球跨境电商基础设施服务商”为企业定位,聚焦跨境仓储与物流, 为全球跨境电商商户、出口贸易企业、出海品牌商提供海外仓储、商业专线物流、定制化物流等一体化物流解决方案, 旗下拥有谷仓海外仓 、云途物流 、WORLDTECH 等知名品牌 。

作者纵腾集团数据技术架构师 张彬华

随着纵腾集团业务的快速发展,各产品线提出的数据需求越发严格,而早期基于多套 CDH 大数据架构的技术栈和组件繁杂,开发和运维难度高、效率低,数据质量和时效难以保障,已无法满足当下数据分析需求,严重影响相关工作的开展。因此,纵腾集团在 2022 年正式引入 Apache Doris,基于 Apache Doris 构建了新的流批一体数据架构,同时建立了以 Apache Doris 为核心的数据中台。构建过程中对读写时效性、服务的稳定性及高并发读写等多方面进行了优化,在这一过程中我们也积累了诸多实践经验,在此总结分享给大家。

早期架构

早期数仓架构主要分为两套基于 CDH 的大数据集群,这两套架构用于不同产品线的数仓需求、数据大屏和 BI 报表等应用。

这两套架构为独立的数据管道,具有耦合度低,集群间相互独立等特点,便于精细化管理。但随着业务需求的不断变化,这样的特点也引发出许多新的问题。

   遇到的问题

  • 元数据和数据质量缺乏管控,数据质量无法得到保证

  • 不同业务数据独立存储维护导致数据孤岛,不利于数据整合

  • 每个集群的机房分布不一,维护成本非常高

  • 集群间的技术栈和组件较多且存在差异性,对统一开发运维和数据整合都极具挑战性

架构选型

为了解决早期架构的痛点、更好满足日益严苛的数据需求,我们希望能有一款产品帮助我们快速构建流批一体的数仓架构、构建数据中台服务。

我们对传统数仓、 实时数仓和数据湖进行了对比。从上图可知,传统数仓可以支撑超 PB 级的海量数据,但是交互查询性能相对差一些,偏离线场景,不满足我们对数据实时性的要求;数据湖可以支撑超海量的数据,支持数据更新,查询性能适中,但是数据湖近两年才开始应用,成熟度较低,使用风险较大;实时数仓适用 PB 级数据存储,支持数据更新且查询性能非常好。结合我们的要求,实时数仓与我们的使用和需求场景都比较贴合,因此我们最终决定选择实时数仓作为数据底座。

接着我们对市面上较为流行的三款实时数仓:ClickHouse、Apache Druid、Apache Doris 进行了选型对比,对比图如下:

对比可知,Apache Doris 优势明显、性价比更高,具有独立主从架构简单、运维更灵活便捷、丰富的数据模型、优秀的查询性能和周全的生态规划等诸多优势,对比这三个产品,Apache Doris 最符合我们的选型要求。

新数据架构

新数据架构基于 Apache Doris 简化了数据采集、存储和计算的流程:

  • 结合 DataHub 实现自研元数据采集和周期管理

  • 通过 Seatunnel 集成 Flink Doris Connector 稍加改造实现全量加增量数据的一体化采集

  • 简化存储媒介,对 ClickHouse、Kudu、HBase 等技术栈进行收敛,由 Apache Doris 进行流批数据的统一存储

  • 以 Apache Doris 为核心数据底座,结合 Apache Kyuubi 的 JDBC 引擎直连查询(自研)和 Spark 引擎中的 Spark Doris Connector 进行 ETL 开发(原生),统一计算引擎管理、权限管控和对外服务。

基于上述几点进行了数据应用开发及对外提供数据服务,构建了数据中台。

   数据中台

我们以 Apache Doris 为核心底座创建了数据平台,核心功能包括:指标中心、元数据中心、基础配置中心、即席分析和数据接口服务中心,其中指标中心和即席分析的数据主要来源于 Aapche Doris ,当前已上线几百个指标。

   数仓建模

我们结合 Apache Doris 的特性重新对数仓进行了建模,数仓分层与传统数仓类似,其中 ODS 数据为存量加增量一体的导入模式,同时为防止出现[随机查询结果问题],ODS 层最终选用 Unique 数据模型,相比于 Aggregate 模型可以实现写时合并(Merge-on-Write),有效提高数据实时性,且 Aggregate 模型查询性能更接近于 Duplicate 模型,对于 ODS  层是非常好的选择。

DIM/DED/DWS/ADS 层主要选用 Aggregate 数据模型;Aggregate 数据模型提供的四种聚合方式可以在大部分场景下达到事半功倍的效果,帮助我们快速应对不同的需求场景。

  • SUM:能够高效实现 PV 类指标计算,但对于 UV 类的指标需要考虑预去重。

  • MAX/MIN:常用于最大最小运单时间节点类指标或包裹体积/重量最大最小值的指标计算。

  • REPLACE_IF_NOT_NULL:可以自动地过滤空值,非常便捷地实现仅记录最后一条数据,适用于大部分 DW 场景。

   数据导入

ODS 层的数据导入目前主要以 Stream Load 为主,在 HDFS 上的历史存量数据也会通过 Broker Load 或Spark Load 导入。DW 层数据主要以 insert into 方式导入,同时为减轻 Doris 内存压力,我们将部分 ETL 任务放到 Kyuubi On Spark 引擎上去计算,目前在 DolphinScheduler 每天平稳调度 Doris DW 任务有上万个,其中大部分为 T+1 任务,小部分为小时级任务。

实践经验

对于以 Apache Doris 为核心的新数据架构,我们规划了6个阶段进行运行测试,直至可以上线运行。(重点关注压测阶段和运行阶段,有一些调试优化经验分享给大家)

1、准备阶段

引入 Apache Doris 时是 2022 年 2月,因此选择当时最新版本 Apache Doris 0.15 Release 版本进行应用,主要考虑维度如下:

  • 支持事务性插入语句功能

  • 支持 Unique Key 模型下的 Upsert

  • 支持 SQL 阻塞 List 功能,可以通过正则、哈希值匹配等方式防止某些 SQL 的执行

  • 官方不支持跨两位版本号进行升级,而 0.15 为当时最新的 Release 版本,选用该版本利于后期版本升级

  • 可通过资源标签的方式将一个Apache Doris 集群中的 BE 节点划分为多个资源组,实现多租户和资源隔离

  • 该版本提供了官方认可的 Flink-Doris-Connector/Spark-Doris-Connector/DataX Doriswriter 等插件,利于ETL流程建设

2、验证阶段

该阶段主要是为了二次验证官方文档中介绍的功能是否满足我们的实际运用场景,比如生态扩展中的 Connector、外表联邦查询、各种 Load 方式、多租户隔离及物化视图等。

3、压测阶段

压测阶段首先进行数据生成,数据集选用的是 TPC-DS 数据,接着根据 Doris 的特性对 DDL 和 SQL 等规则进行对应调整,最后通过脚本将数据导入到 Apache Doris 存储中,再通过自动化脚本进行查询及导入压测,最终将压测结果输出到 MySQL 表中,量化为图表进行展示。下方为本阶段的基本配置及压测过程介绍:

- 硬件环境

  • 内存:256G

  • CPU:96C

  • 硬盘:SSD 1.92T * 8

- 软件环境

  • Apache Doris 版本:0.15-release/1.0-release(该阶段进行时,1.0-release 版本刚好发布)

  • Apache Doris 集群:3 FE + 9 BE

  • 系统:CentOS Linux release 7.9.2009

- 数据集信息

我们生成了 1T、5T、10T 的 TPC-DS 数据集,1T 的数据集约有 30 亿数据量。

查询压测

压测过程中,最初使用 0.15-release 版本进行测试,正巧 1.0-release 版本发布,后决定更换为 1.0-release 版本进行后续的压测。下图是基于 1T 的 TPC-DS 数据在同等硬件配置环境下和某商业 MPP 数据库的对比结果:

如图所示,Apache Doris 的查询压测性能优异,有着明显的性能优势,作为开源产品能够达到这样的效果是非常优秀也是十分不易的

导入压测

  • 导入方式:通过 DataX Doriswriter 以 StreamLoad 方式进行写入压测

  • 数据来源:为避免因 Source 端原因影响写入时效,选择 100 张相同大表,即 100 个并发从内网 Hive 中导入(例如 tpcds-ds 的 store_sales_1t 表)

  • 数据模型:选用 Unique 模型(模拟ODS层),同时为充分考虑 Compaction 性能及小文件场景,每张表设置 70 个 Tablet

经调整优化后,最大写入时效为 269 MB/S&680K ops/s,平均写入时效 70 MB/S&180K ops/s,写入时效大幅提升

4、上线阶段

该阶段主要是确认 Apache Doris 上线需要的检查清单、预调参数、BE 资源组规划及用户权限的划分。

  • 检查清单:包括但不限于 FE & BE 端口、网络检查及 Apache Doris 的一些功能性验证,例如读写是否正常等。

  • 预调参数:确认优化后的 FE&BE 参数是否配置,是否开启global enable_profile、动态分区以及数据盘保存位置是否有误等。

  • BE 资源组:由于我们需要通过 Apache Doris 的多租户特性对不同的用户进行资源隔离,所以需要提前规划好每个 BE 节点对应的资源组。

  • 用户权限:对于不同的用户群体提前规划好权限范围,比如分析师开发只需要SELECT_PRIV权限,而 ETL 工程师需要SELECT_PRIV、LOAD_PRIV和CREATE_PRIV权限。

5、宣导阶段

该阶段主要是输出前面各阶段的 TimeLine、总结以及上线后使用 Apache Doris 的注意事项说明,比如我们用到多租户隔离,那么 DDL 建表时则需要在 Properties 中显示指定各副本对应的资源组:

 
create table zt_table
......
properties(
    "replication_allocation"="tag.location.group_a:1, tag.location.group_b:1, tag.location.group_c:1"
)

6、运行阶段

Tablet 规范问题

问题描述:上线运行一段时间后,随着越来越多的数据增长,集群每次重启后一周左右,读写就会开始变得越来越慢,直到无法正常进行读写。

问题处理:

  • 经过对生产和 UAT 环境的对比测试以及对数仓表的 Schema 的分析,我们发现有些表数据并不大,但是 Bucket 却设置的非常大。

  • 结合show data from database 命令,我们将整个集群所有表的 Bucket 信息罗列出来,明确了大部分表的 Bucket 设置的不合理;而当前集群共 20T 左右数据,平均 1T 数据近 10W 个 Tablet,这就会导致小文件过多,造成 FE 元数据负载过高,从而影响导入和查询性能。

  • 定位原因后与社区小伙伴二次确认,并根据官方建议将 Bucket 设置不合理的表全部调整,调整后集群逐步恢复读写正常。(即将发布的 Apache Dorie 1.2.2 版本将推出 Auto Bucket 动态分桶推算功能,可以根据历史数据和机器数目自动推算新建 Partition 的分桶个数,保证分桶数始终保持在合理范围内,可有效解决上述问题)

问题小结:

  • Tablet数 = 分区数 * 桶数 * 副本数

  • 1TB 数据的 Tablet 数量控制在 8000 个左右(三副本控制到 2.4W 左右)

  • 建议大表的单个 Tablet 存储数据大小在 1G-10G 区间,可防止过多的小文件产生

  • 建议百兆左右的维表 Tablet 数量控制在 3-5 个,保证一定的并发数也不会产生过多的小文件

集群读写优化

问题描述:1.1.3 release 版本中,高并发的同时进行 Stream Load、Broker Load、insert into 和查询时,读写会变得非常慢,如下图 11/01 19:00 并发上来后的 Txn Load 所示:

问题处理:

1. 我们进行了十几轮对比测验,结论如下:

    • 写入速度与并发的增长成反比(但不会骤变,而是缓慢变化)

    • 单表 Bucket(Tablet)设置过大会导致集群写入速度骤减;例如 A 库的 TA 表,设置 80 个 Bucket 时,启动相关 Flink Sink Job 就会导致集群整体写入速度迅速变慢,降低 Bucket(9~10个)时写入恢复正常。

    • insert into select 的 ETL 任务与 Stream Load 写入任务会进行资源抢占,同时并发运行会使整个集群读写变慢。

2. 通过be.INFO发现,80 个 Bucket 表写入某个 Tablet 的memsize/rows/flushsize/duration数值比 10 个 Bucket 写入时的数值呈数倍之差,即 80 个 Bucket 表的数据写入时效无论 Memsize 还是 Flushsize 都非常小、但花费时间却很长。

3. 同时收集 Pstack 日志,经过分析可以确定,Tcmalloc 在频繁地寻找 pageheap_lock,导致高频竞争锁从而降低了读写性能。

4. 于是,进行如下参数调整:

 
减少doris_be进程内存返回给linux系统的频率,从而减少tcmalloc频繁竞争锁的情况
tc_use_memory_min = 207374182400
tc_enable_aggressive_memory_decommit = false
tc_max_total_thread_cache_bytes=20737418240

5. 调参并滚动重启 BE 后,集群状况如下图所示:

18:50 前将 Broker Load、insert into 和查询任务同时开启,18:50 后将 Stream Load 任务也开启(包括 80 bucket的表),集群整体的读写性能不仅没有下降,反而 Stream Load 时效突破了压测阶段的最大值 269 MB/S&680K /ops/s,并且持续稳定。

问题小结:

使用 Apache 1.1.3 及以上版本,非常推荐调整 Tcmalloc 相关参数,减少doris_be进程与系统之间的内存申请回收过程,可明显减少锁竞争的现象,大大提升读写性能和集群稳定性。(从 Apache Doris 1.1.5 版本开始,增加了Tcmalloc 简化配置,可将众多 Tcmalloc 参数归约到参数memory_mode中,compact 为节约内存模式,performance 为性能模式,用户可根据实际需求进行调整)

总结收益

当前 Apache Doris 的生产集群为 3 FE + 9 BE 组合, 已导入集团存量和增量数据的 60%以及部分 DW 数据生成,3 副本共占 44.4TB 的存储。

依赖 Apache Doris 自身优异特性及其生态圈帮助我们快速构建了一套新的流批一体数据架构,平均每天实时入库的数据量达到上亿规模,同时支持上万个调度任务平稳运行,相比早期架构单表查询效率提升近 5 倍,数据导入效率提升近 2 倍,内存资源使用率显著减少。除此之外,Apache Doris 以下优势也是我们快速构建数据架构的重要推动力:

  • 扩展表:联邦查询的设计,便于集成其它存储

  • 数据表设计:丰富的数据模型,可快速应对不同的数据需求。

  • 数据查询:不同的 Join 算子结合自身完善的优化器,让查询快而稳。

  • 架构设计:架构清晰明了且运维简单,大大地降低了我们的运维成本。

  • 数据导入:各种 Load 方式及 Connector 的扩展,基本涵盖大部分的数据同步场景应用。

  • 活跃度:社区高度活跃,SelectDB 为 Apache Doris 社区组建了一支专职技术支持团队,疑难杂症基本能在 12H 内快速响应并有社区小伙伴跟进和协助解决。

未来规划

结合当下业务场景的考虑,未来我们将引入数据湖进行非结构化和结构化数据一体存储,进一步完善流批一体架构。同时也会将 Apache Doris 回归它最本质的定位,专注于 OLAP 分析场景,并通过 Apache Doris 统一湖仓查询引擎层,发挥其最大的功效。

最后,非常感谢 Apache Doris 社区和 SelectDB 团队的张家锋、曲率和杨勇强等小伙伴对我们无私的技术支持,未来我们也将持续参与 Apache Doris 社区建设中,贡献绵薄之力。祝 Apache Doris 社区和 SelectDB 越来越好,日臻完善!

# 相关链接:

SelectDB 官网

https://selectdb.com 

Apache Doris 官网

http://doris.apache.org

Apache Doris Github

https://github.com/apache/doris

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/364004.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【C++】vector 模拟实现

vectorvector 容器vector 基本使用vector 定义库中各类接口的使用迭代器容量相关接口元素访问相关接口元素修改相关接口模拟实现 vector前期准备构造与析构赋值运算符重载迭代器相关容量相关元素访问相关元素的修改相关二维数组的创建对于自定义类型数据的测试vector 容器 C S…

Python实战之小说下载神器(二)整本小说下载:看小说不用这个程序,我实在替你感到可惜*(小说爱好者必备)

前言 这次的是一个系列内容给大家讲解一下何一步一步实现一个完整的实战项目案例系列之小说下载神器(二)(GUI界面化程序) 单章小说下载保存数据——整本小说下载 你有看小说“中毒”的经历嘛?小编多多少少还是爱看小说…

基于react+nodejs+mysql开发用户中心,用于项管理加入的项目的用户认证

基于reactnodejsmysql开发用户中心,用于项管理加入的项目的用户认证用户中心功能介绍页面截图后端采用架构user表projects表project_user表仓库地址用户中心功能介绍 用户中心项目,用于统一管理用户信息、登录、注册、鉴权等 功能如下: 用…

[qiankun]实战问题汇总

[qiankun]实战问题汇总ERROR SyntaxError: Cannot use import statement outside a module问题分析解决方案子应用命名问题问题分析解决方案jsonpFunction详细错误信息问题分析解决方案微应用的注册问题Uncaught Error: application cli5-beta6-test-name died in status LOADI…

2月,真的不要跳槽。

新年已经过去,马上就到金三银四跳槽季了,一些不满现状,被外界的“高薪”“好福利”吸引的人,一般就在这时候毅然决然地跳槽了。 在此展示一套学习笔记 / 面试手册,年后跳槽的朋友可以好好刷一刷,还是挺有必…

Zebec官方辟谣“我们与Protradex没有任何关系”

近日,流支付协议Zebec Protocol在其官方推特上,发表了一个辟谣澄清声明。该条推特推文表示,“Zebec 与 Protradex 没有任何关系或产生关联。他们( Protradex )声称Zebec 生态正在支持他们,但这是错误的。随…

上海亚商投顾:沪指失守3300点 卫星导航概念全天强势

上海亚商投顾前言:无惧大盘涨跌,解密龙虎榜资金,跟踪一线游资和机构资金动向,识别短期热点和强势个股。市场情绪指数早间低开后震荡回升,沪指盘中一度翻红,随后又再度走低,创业板指午后跌近1%。…

基于GIS计算降雨侵蚀力R因子

一、数据来源介绍 (一)行政边界数据 本文所用到的河北唐山行政边界数据来源于中国科学院资源环境科学与数据中心(https://www.resdc.cn/Default.aspx)。 (二)降水量数据 本文所用到的降水量数据来源于国家…

【Java基础 下】 025 -- 阶段项目(斗地主)

目录 斗地主 一、斗地主游戏1 -- 准洗发(控制台版) 1、准备牌 2、洗牌 3、发牌 4、看牌 二、斗地主游戏2 -- 给牌排序①(利用序号进行排序) 2、洗牌 3、发牌 4、看牌 三、斗地主游戏2 -- 给牌排序②(给每一张牌计算价值…

118.Android 简单的分组列表(BaseRecyclerViewAdapterHelper)

//1.第一步 导入依赖库: //RecyclerView implementation com.android.support:recyclerview-v7:28.0.0 //RecyclerAdapter implementation com.github.CymChad:BaseRecyclerViewAdapterHelper:2.9.28 //2.第二步 新建SectionActivity页面: //manifest…

【第一章:Spring概述、特点、IOC容器、IOC操作bean管理(基于xml方式)】

第一章:Spring概述、特点、IOC容器、IOC操作bean管理(基于xml方式) 1.Spring是什么? ①Spring是一款主流的java EE 轻量级开源框架。 ②广义的Spring:Spring技术栈,Spring不再是一个单纯的应用框架&#x…

Centos7+Xshell+Jenkins堆装

windows系统崩坏,重装测试类工具,心情崩了 windows硬盘损坏前,运行应用具慢。。。。。。慢着慢着就走了 从前部署在本地的jenkins,python,gitblit等相关脚本都凉透了,所以这次把服务部署到Centos7上…

数学小课堂:数学的线索(从猜想到定理再到应用的整个过程)

文章目录 引言I 勾股定理1.1 勾三股四弦五1.2 数学和自然科学的三个本质差别1.3 总结引言 从猜想到定理再到应用的整个过程是数学发展和体系构建常常经历的步骤。 I 勾股定理 勾股定理: 直角三角形两条直角边的平方之和等于斜边的平方,这个定理在国外都被称为毕达哥拉斯定理…

空间复杂度(超详解+例题)

全文目录引言空间复杂度例题test1test2(冒泡排序)test3(求阶乘)test4(斐波那契数列)总结引言 在上一篇文章中,我们提到判断一个算法的好坏的标准是时间复杂度与空间复杂度。 时间复杂度的作用…

微服务系统启动,环境从0开始的搭建过程

1. JDK的下载安装(傻瓜式) 安装过程傻瓜式,直接一步到位。我安装的版本为:jdk-17_windows-x64_bin 2. 集成开发工具的下载安装:IDEA(傻瓜式) ideaIU-2021.2.1 网上资源很多,自己找…

jsp在线考试系统Myeclipse开发mysql数据库web结构java编程计算机网页项目

一、源码特点 jsp 在线考试系统 是一套完善的web设计系统,对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。开发环境为TOMCAT7.0,Myeclipse8.5 开发,数据库为Mysql,使用j…

计算机操作系统和进程

✨个人主页:bit me👇 ✨当前专栏:Java EE初阶👇 ✨每日一语:心平能愈三千疾,心静可通万事理。 目 录🐬一. 操作系统🍦1. 操作系统是什么?🍨2. 操作系统的两个…

Hot 100 | 79. 单词搜索、200. 岛屿数量

LeetCode 79. 单词搜索 给定一个 m x n 二维字符网格 board 和一个字符串单词 word 。如果 word 存在于网格中,返回 true ;否则,返回 false 。 单词必须按照字母顺序,通过相邻的单元格内的字母构成,其中“相邻”单元格…

GPT-4——比GPT-3强100倍

GPT-4——比GPT-3强100倍 当前世界上最强大的人工智能系统当属ChatGPT。推出2个月用户数就突破1亿。ChatGPT是当下最炙手可热的话题,科技圈几乎人人都在讨论。这边ChatGPT的热度还在不断攀升,另一边来自《纽约时报》的最新报道称ChatGPT即将被自家超越&…

chatGPT在命令行聊天实现方法

一个简单、轻量级的 shell 脚本,无需安装 python 或 node.js,即可从终端使用 OpenAI 的 chatGPT 和 DALL-E。该脚本将completions端点和text-davinci-003模型用于 chatGPT 以及images/generations用于生成图像的端点。 支持功能 1、从终端与 GPT 聊天 …