本文转载自微信公众号“中国计算机学会”
编者按
12月8-10日,中国计算机协会即将全线上举办CNCC2022,大会覆盖118个计算+行业、人工智能、云计算、教育、安全等30个热门专业领域的技术论坛,700余位专家将着力探讨计算技术与未来宏观发展趋势,并由各领域深具影响力的重磅学者专家担纲论坛主席。在本年度CNCC大会上,将举办“分布式数据库HTAP的探索与实践”技术论坛。论坛将针对分布式数据库HTAP领域的前沿技术方向和产业实践,联合学术界、产业界一起探讨,共话分布式HTAP数据库的未来。*届时OceanBase视频号也会在 12月8日提供分布式数据库专场直播,欢迎大家预约观看(文末附分论坛议程)。
本文力邀CCF会士、OceanBase创始人兼首席科学家阳振坤老师亲自撰稿,深度围绕论坛话题分享独家观点,带你提前走进CNCC,领略其特殊专业魅力!
1970 年 Edgar Frank Codd 博士在 Communications of the ACM 上发表的关系模型的论文"A Relational Model of Data for Large Shared Data Banks",标志了关系数据库时代的到来。半个世纪以来,随着电子化、信息化、数字化的发展,关系数据库逐渐支撑了包括金融、通信、交通、政务和商业在内等各种业务系统,成为整个社会的关键信息基础设施。
最近二十多年来,由于互联网、移动互联网、物联网等的发展,各类在线交易量井喷式增长,各种海量数据由此产生。容量和处理能力的限制以及高端服务器、高端存储设备的昂贵成本使得传统的集中式关系数据库无法有效地对这些海量数据进行联机分析处理(OLAP),各种数据分析系统,如数据仓库、大数据系统、数据湖等,如雨后春笋不断涌现。业务系统逐渐演变成了在线事务处理(OLTP)系统(基本都是关系数据库)+ OLAP 系统(基本都不是关系数据库)+ ETL(从 OLTP 系统中抽取数据、转换然后加载到 OLAP 系统中)的格局。
毫无疑问,OLTP+ETL+OLAP 架构比单个系统更加复杂,且 ETL 的数据延迟使得许多需要及时进行的数据分析处理工作无法进行。2009 年,SAP 的联合创始人之一 Hasso Plattner 在 SIGMOD 上发表了文章“A Common Database Approach for OLTP and OLAP Using an In-Memory Column Database”[1],提出了用全内存的关系数据库既提供 OLTP 服务又提供 OLAP 服务的想法,并在 SAP 客户数据上得到了基本可行的实验结果。基于内存数据库,他提出了两个观点:
-
列式存储最适合现代 CPU(Column storage is best suited for modern CPUs);
-
列式存储适合密集更新的业务(Column storage is suited for update-intensive applications);
2014 年,Gartner 在其报告“Hybrid Transaction/Analytical Processing Will Foster Opportunities for Dramatic Business Innovation”[2] 中,首次提出了 HTAP(混合事务 / 分析处理)的概念。Gartner 认为 HTAP 克服了传统数据库存在的四个问题:
1)数据不再需要从交易处理数据库复制到分析数据库;
2)一笔交易完成即可被用于分析处理;
3)对聚合数据的向下钻取总是基于最新数据;
4)消除或至少减少了数据的冗余。
2017 年,Google 的David F. Bacon等在“Spanner: Becoming a SQL System” [3]中指出了业务对一个系统的 HTAP 及更多能力的需求:
尽管存在针对“一个系统适合所有场景”[4]的批评,但一个兼有 OLTP、OLAP 以及全文搜索能力的系统仍然是客户最高优先级的需求。
那么,当具备 HTAP 能力的数据库出现后,OLAP 系统是否就没有存在的必要了?可能并非如此。比如从北京到济南,当火车速度只有每小时几十公里的时候,不少人会选择飞机,今天当火车速度达到 300km/h 的时候,从北京到济南的直飞航班就没有存在的价值了;而从北京到上海,在火车速度只有每小时几十公里的时候,火车需要 20 多个小时,而飞机仅需 2 个多小时,只要经济和健康等条件允许,多数人会选择飞机;现在高铁速度达到了 350km/h,从北京到上海只需要 4 个多小时,选择高铁的人很多,但飞机的 2 个多小时依然吸引了相当一部分乘客。
今天,多数 OLTP 系统进行数据分析还不够快,就像早年每小时跑几十公里的火车,多数业务系统在进行数据分析处理的时候使用 OLAP 数据分析系统;HTAP 系统则类似于今天 300km/h 的高铁,多数业务系统会选择用它既进行交易处理又进行分析处理,但在一些数据量特别大的场景,专用的数据分析系统依然有存在的价值。
HTAP系统
HTAP 数据库是单机还是分布式?本质上单机和分布式数据库都可以具备 HTAP 能力。今天,移动互联网、数字化和信息化带来了海量的并发交易,由此产生的海量数据很多时候超出了单机数据库的容量和处理能力,这种情况下,很显然单机或分库分表不能解决问题,需要分布式数据库。这是否意味着分布式数据库只适合于大数据量的业务场景呢?比如一家餐饮企业,其业务订单可能是如下的曲线:
由于这个业务量不是很大,一个单机 HTAP 数据库就可以支撑它的交易处理和分析处理,然而,除了在业务高峰时段,数据库的 CPU 等资源并没有得到充分利用。如果采用分布式关系数据库,平时只分配一个计算能力较低的数据库服务器(容器或虚拟机等),在业务高峰时按需添加数据库服务器,业务高峰过后按需减少数据库服务器,则数据库的资源可以得到充分利用,业务成本得以降低。
基于一个系统一份数据既进行交易处理又进行分析处理,HTAP 的技术和产品还面临着诸多挑战,还在快速地发展和演进之中!
参考文献:
[1] H. Plattner. A Common Database Approach for OLTP and OLAP Using an In-Memory Column Database. In SIGMOD, 2009.
[2] Hybrid Transaction/Analytical Processing Will Foster Opportunities for Dramatic Business Innovation, https://www.gartner.com/en/documents/2657815
[3] David F. Bacon et al., Spanner: Becoming a SQL System, 2017, SIGMOD’17
[4] M. Stonebraker and U. Cetintemel. “One size fits all”: an idea whose time has come and gone. In 21st International Conference on Data Engineering (ICDE’05), pp. 2–11. IEEE, 2005.
想要了解更多信息?敬请关注今年 12 月 8 日下午 13:30 CNCC 的“分布式数据库 HTAP 的探索与实践”技术论坛,学术界和产业界将联手共同分析 HTAP 领域的前沿研究、技术方向和产业实践,共同探讨数据库的未来,下为详细议程,欢迎参加!
开场致辞
论坛主席:阳振坤
CCF会士,OceanBase创始人兼首席科学家,先后在北京大学获得数学学士、硕士及计算机博士学位并留校,北京大学首批长江学者特聘教授。国家科技进步奖一等奖、北京市科技进步奖一等奖、第六届中国青年科技奖、第一届中国科协求是杰出青年奖等。带领OceanBase通过了国际事务处理性能委员会TPC的联机事务处理基准测试TPC-C并打破了Oracle数据库保持了9年的世界纪录,排名全球第一;2021年OceanBase通过TPC的联机分析处理基准测试TPC-H,目前排名全球第二(@30,000GB)。
《云原生 HTAP:大规模启用服务》
嘉宾:黄铭钧
新加坡国立大学李光前百年纪念讲席教授,新加坡科学院院士,ACM、IEEE Fellow。浙江大学兼职讲座教授,新国大苏州人工智能创新与商业化中心主任。分别于1985年、1989年在澳大利亚Monash大学获得一等荣誉学士和博士学位,之后加入新加坡国立大学并于2000年晋升正教授。目前担任新加坡最大出租车公司康福德高(ComfortDelGro) 和金融科技公司 (AlDigi Holdings)的独立董事。主要研究兴趣包括数据库系统、区块链及分布式系统、机器学习和大规模分析,研究重点涉及系统架构、性能问题、安全性和准确性,并致力于ABC领域(AI, Big Data, Cloud Computing)的创新和产业化。
《数据赋能:从数据库到数据中台》
嘉宾:周傲英
华东师范大学副校长、研究生院院长、“智能+”研究院院长、数据学院教授,2022年在贵州大学挂职担任副校长。现担任第八届国务院学科评议组成员、第八届教育部科技委委员、中国计算机学会会士、上海市人工智能与社会发展研究会会长、上海市计算机学会副理事长、中国教育发展战略学会教育大数据专业委员会副理事长、《计算机学报》副主编。曾入选教育部长江学者特聘教授,获得过国家杰出青年基金项目。主要研究兴趣包括:数据库、数据管理、数字化转型、金融科技 (FinTech)、教育科技 (EduTech) 和物流科技 (LogTech) 等数字技术。
《支持大规模跨地理区域应用的HTAP数据库实现技术》
嘉宾:于戈
东北大学计算机学院教授,博士生导师,中国计算机学会会士。1982年、1986年获得东北大学计算机学士学位和硕士学位,1996年获得日本九州大学计算机博士学位。当前研究兴趣包括:数据科学与大数据管理、数据库理论与技术、区块链技术与应用等。中国计算机学会信息系统专业委员会主任、数据库专委会委员,以及系统软件专委会委员,美国ACM高级会员、IEEE高级会员,《计算机学报》、《软件学报》、《计算机研究与发展》等期刊编委。曾担任第五届、第六届国务院学位委员会学科评议组成员,第十二届、第十三届国家自然科学基金委员会评审专家组成员,《IEEE TKDE》编委,以及VLDB, ICDE, CIKM, DASFAA等多届重要国际会议的程序委员会委员。近年来在重要国际会议和学术刊物上发表论文200余篇,出版“分布式数据库系统”等专著和教材6部,译著4部。曾获得“教育部自然科学二等奖”等省部级科学技术奖9项、省教学成果奖3项和国家教学成果二等奖1项。
《分布式数据库HTAP的技术实践》
嘉宾:杨传辉
原生分布式数据库OceanBase CTO。杨传辉曾在百度从事大规模云计算系统研发工作,2010年作为创始成员之一加入OceanBase团队,主导了OceanBase历次架构设计和技术研发,从无到有实现OceanBase在蚂蚁集团全面落地。同时,他也主导了两次OceanBase TPC-C测试并打破世界纪录,著有《大规模分布式存储系统:原理与实践》。目前,杨传辉带领OceanBase技术团队致力于打造更加开放、灵活、高效、易用的下一代企业级分布式数据库。
《中国人寿分布式数据库应用实践》
嘉宾:卢强
中国人寿数据中心数据库团队负责人,长期奋战于技术一线,在传统数据库、NOSQL以及NewSQL等方面都有着丰富的实践经验,推动企业内部数据库服务体系的规划和建设,近些年重点关注数据库+分布式的技术组合,带领团队实施了新型国产化数据库的项目落地,并实现规模化应用。
研讨环节
论坛主席+所有嘉宾