CNCC技术论坛|分布式数据库HTAP的探索与实践

news2024/12/23 16:32:28

本文转载自微信公众号“中国计算机学会”

编者按
12月8-10日,中国计算机协会即将全线上举办CNCC2022,大会覆盖118个计算+行业、人工智能、云计算、教育、安全等30个热门专业领域的技术论坛,700余位专家将着力探讨计算技术与未来宏观发展趋势,并由各领域深具影响力的重磅学者专家担纲论坛主席。

在本年度CNCC大会上,将举办“分布式数据库HTAP的探索与实践”技术论坛。论坛将针对分布式数据库HTAP领域的前沿技术方向和产业实践,联合学术界、产业界一起探讨,共话分布式HTAP数据库的未来。*届时OceanBase视频号也会在 12月8日提供分布式数据库专场直播,欢迎大家预约观看(文末附分论坛议程)。

本文力邀CCF会士、OceanBase创始人兼首席科学家阳振坤老师亲自撰稿,深度围绕论坛话题分享独家观点,带你提前走进CNCC,领略其特殊专业魅力!


1970 年 Edgar Frank Codd 博士在 Communications of the ACM 上发表的关系模型的论文"A Relational Model of Data for Large Shared Data Banks",标志了关系数据库时代的到来。半个世纪以来,随着电子化、信息化、数字化的发展,关系数据库逐渐支撑了包括金融、通信、交通、政务和商业在内等各种业务系统,成为整个社会的关键信息基础设施。

最近二十多年来,由于互联网、移动互联网、物联网等的发展,各类在线交易量井喷式增长,各种海量数据由此产生。容量和处理能力的限制以及高端服务器、高端存储设备的昂贵成本使得传统的集中式关系数据库无法有效地对这些海量数据进行联机分析处理(OLAP),各种数据分析系统,如数据仓库、大数据系统、数据湖等,如雨后春笋不断涌现。业务系统逐渐演变成了在线事务处理(OLTP)系统(基本都是关系数据库)+ OLAP 系统(基本都不是关系数据库)+ ETL(从 OLTP 系统中抽取数据、转换然后加载到 OLAP 系统中)的格局。

 

图片

 

毫无疑问,OLTP+ETL+OLAP 架构比单个系统更加复杂,且 ETL 的数据延迟使得许多需要及时进行的数据分析处理工作无法进行。2009 年,SAP 的联合创始人之一 Hasso Plattner 在 SIGMOD 上发表了文章“A Common Database Approach for OLTP and OLAP Using an In-Memory Column Database”[1],提出了用全内存的关系数据库既提供 OLTP 服务又提供 OLAP 服务的想法,并在 SAP 客户数据上得到了基本可行的实验结果。基于内存数据库,他提出了两个观点:

  • 列式存储最适合现代 CPU(Column storage is best suited for modern CPUs);

  • 列式存储适合密集更新的业务(Column storage is suited for update-intensive applications);

 

2014 年,Gartner 在其报告“Hybrid Transaction/Analytical Processing Will Foster Opportunities for Dramatic Business Innovation”[2] 中,首次提出了 HTAP(混合事务 / 分析处理)的概念。Gartner 认为 HTAP 克服了传统数据库存在的四个问题:

1)数据不再需要从交易处理数据库复制到分析数据库;

2)一笔交易完成即可被用于分析处理;

3)对聚合数据的向下钻取总是基于最新数据;

4)消除或至少减少了数据的冗余。

2017 年,Google 的David F. Bacon等在“Spanner: Becoming a SQL System” [3]中指出了业务对一个系统的 HTAP 及更多能力的需求:

尽管存在针对“一个系统适合所有场景”[4]的批评,但一个兼有 OLTP、OLAP 以及全文搜索能力的系统仍然是客户最高优先级的需求。

那么,当具备 HTAP 能力的数据库出现后,OLAP 系统是否就没有存在的必要了?可能并非如此。比如从北京到济南,当火车速度只有每小时几十公里的时候,不少人会选择飞机,今天当火车速度达到 300km/h 的时候,从北京到济南的直飞航班就没有存在的价值了;而从北京到上海,在火车速度只有每小时几十公里的时候,火车需要 20 多个小时,而飞机仅需 2 个多小时,只要经济和健康等条件允许,多数人会选择飞机;现在高铁速度达到了 350km/h,从北京到上海只需要 4 个多小时,选择高铁的人很多,但飞机的 2 个多小时依然吸引了相当一部分乘客。

今天,多数 OLTP 系统进行数据分析还不够快,就像早年每小时跑几十公里的火车,多数业务系统在进行数据分析处理的时候使用 OLAP 数据分析系统;HTAP 系统则类似于今天 300km/h 的高铁,多数业务系统会选择用它既进行交易处理又进行分析处理,但在一些数据量特别大的场景,专用的数据分析系统依然有存在的价值。

 

图片

HTAP系统

 

HTAP 数据库是单机还是分布式?本质上单机和分布式数据库都可以具备 HTAP 能力。今天,移动互联网、数字化和信息化带来了海量的并发交易,由此产生的海量数据很多时候超出了单机数据库的容量和处理能力,这种情况下,很显然单机或分库分表不能解决问题,需要分布式数据库。这是否意味着分布式数据库只适合于大数据量的业务场景呢?比如一家餐饮企业,其业务订单可能是如下的曲线:

由于这个业务量不是很大,一个单机 HTAP 数据库就可以支撑它的交易处理和分析处理,然而,除了在业务高峰时段,数据库的 CPU 等资源并没有得到充分利用。如果采用分布式关系数据库,平时只分配一个计算能力较低的数据库服务器(容器或虚拟机等),在业务高峰时按需添加数据库服务器,业务高峰过后按需减少数据库服务器,则数据库的资源可以得到充分利用,业务成本得以降低。

基于一个系统一份数据既进行交易处理又进行分析处理,HTAP 的技术和产品还面临着诸多挑战,还在快速地发展和演进之中!

参考文献:
[1] H. Plattner. A Common Database Approach for OLTP and OLAP Using an In-Memory Column Database. In SIGMOD, 2009.

[2] Hybrid Transaction/Analytical Processing Will Foster Opportunities for Dramatic Business Innovation, https://www.gartner.com/en/documents/2657815

[3] David F. Bacon et al., Spanner: Becoming a SQL System, 2017, SIGMOD’17

[4] M. Stonebraker and U. Cetintemel. “One size fits all”: an idea whose time has come and gone. In 21st International Conference on Data Engineering (ICDE’05), pp. 2–11. IEEE, 2005.

想要了解更多信息?敬请关注今年 12 月 8 日下午 13:30 CNCC 的“分布式数据库 HTAP 的探索与实践”技术论坛,学术界和产业界将联手共同分析 HTAP 领域的前沿研究、技术方向和产业实践,共同探讨数据库的未来,下为详细议程,欢迎参加!


开场致辞

论坛主席:阳振坤
CCF会士,OceanBase创始人兼首席科学家,先后在北京大学获得数学学士、硕士及计算机博士学位并留校,北京大学首批长江学者特聘教授。国家科技进步奖一等奖、北京市科技进步奖一等奖、第六届中国青年科技奖、第一届中国科协求是杰出青年奖等。带领OceanBase通过了国际事务处理性能委员会TPC的联机事务处理基准测试TPC-C并打破了Oracle数据库保持了9年的世界纪录,排名全球第一;2021年OceanBase通过TPC的联机分析处理基准测试TPC-H,目前排名全球第二(@30,000GB)。

《云原生 HTAP:大规模启用服务》

嘉宾:黄铭钧
新加坡国立大学李光前百年纪念讲席教授,新加坡科学院院士,ACM、IEEE Fellow。浙江大学兼职讲座教授,新国大苏州人工智能创新与商业化中心主任。分别于1985年、1989年在澳大利亚Monash大学获得一等荣誉学士和博士学位,之后加入新加坡国立大学并于2000年晋升正教授。目前担任新加坡最大出租车公司康福德高(ComfortDelGro) 和金融科技公司 (AlDigi Holdings)的独立董事。主要研究兴趣包括数据库系统、区块链及分布式系统、机器学习和大规模分析,研究重点涉及系统架构、性能问题、安全性和准确性,并致力于ABC领域(AI, Big Data, Cloud Computing)的创新和产业化。

《数据赋能:从数据库到数据中台》

嘉宾:周傲英
华东师范大学副校长、研究生院院长、“智能+”研究院院长、数据学院教授,2022年在贵州大学挂职担任副校长。现担任第八届国务院学科评议组成员、第八届教育部科技委委员、中国计算机学会会士、上海市人工智能与社会发展研究会会长、上海市计算机学会副理事长、中国教育发展战略学会教育大数据专业委员会副理事长、《计算机学报》副主编。曾入选教育部长江学者特聘教授,获得过国家杰出青年基金项目。主要研究兴趣包括:数据库、数据管理、数字化转型、金融科技 (FinTech)、教育科技 (EduTech) 和物流科技 (LogTech) 等数字技术。

《支持大规模跨地理区域应用的HTAP数据库实现技术》

嘉宾:于戈
东北大学计算机学院教授,博士生导师,中国计算机学会会士。1982年、1986年获得东北大学计算机学士学位和硕士学位,1996年获得日本九州大学计算机博士学位。当前研究兴趣包括:数据科学与大数据管理、数据库理论与技术、区块链技术与应用等。中国计算机学会信息系统专业委员会主任、数据库专委会委员,以及系统软件专委会委员,美国ACM高级会员、IEEE高级会员,《计算机学报》、《软件学报》、《计算机研究与发展》等期刊编委。曾担任第五届、第六届国务院学位委员会学科评议组成员,第十二届、第十三届国家自然科学基金委员会评审专家组成员,《IEEE TKDE》编委,以及VLDB, ICDE, CIKM, DASFAA等多届重要国际会议的程序委员会委员。近年来在重要国际会议和学术刊物上发表论文200余篇,出版“分布式数据库系统”等专著和教材6部,译著4部。曾获得“教育部自然科学二等奖”等省部级科学技术奖9项、省教学成果奖3项和国家教学成果二等奖1项。

《分布式数据库HTAP的技术实践》

嘉宾:杨传辉
原生分布式数据库OceanBase CTO。杨传辉曾在百度从事大规模云计算系统研发工作,2010年作为创始成员之一加入OceanBase团队,主导了OceanBase历次架构设计和技术研发,从无到有实现OceanBase在蚂蚁集团全面落地。同时,他也主导了两次OceanBase TPC-C测试并打破世界纪录,著有《大规模分布式存储系统:原理与实践》。目前,杨传辉带领OceanBase技术团队致力于打造更加开放、灵活、高效、易用的下一代企业级分布式数据库。

《中国人寿分布式数据库应用实践》

嘉宾:卢强
中国人寿数据中心数据库团队负责人,长期奋战于技术一线,在传统数据库、NOSQL以及NewSQL等方面都有着丰富的实践经验,推动企业内部数据库服务体系的规划和建设,近些年重点关注数据库+分布式的技术组合,带领团队实施了新型国产化数据库的项目落地,并实现规模化应用。

研讨环节

论坛主席+所有嘉宾

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/64456.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

多通道LMMSE图像超分辨复原方法研究-附Matlab代码

⭕⭕ 目 录 ⭕⭕✳️ 一、引言✳️ 二、多通道LMMSE复原算法✳️ 三、实验验证✳️ 四、参考文献✳️ 五、Matlab程序获取与验证✳️ 一、引言 数字图像处理又称为计算机图像处理,是指运用计算机处理平台及相关理论知识,将图像信号转化为数字信号&#…

G120变频器输入输出端子功能定义配置方法及示例

G120变频器输入输出端子功能定义配置方法及示例 1. 数字量输入功能(适用机型:CU240B-2(DP)/CU240E-2(DP/PN)/CU250S-2(DP/PN)) CU240B-2提供4路数字量输入,CU240E-2提供6路数字量输入,CU250S-2提供11路数字量输入和4路可作为输入/输出的数字量端子。在有必要时,也可以将模…

Splunk UBA 导入IDS - firesight 数据

1: 先看一下Splunk IDS 文档: Splunk UBA category to Splunk CIM field mapping reference - Splunk Documentation 里面清楚的记录着哪些是必须字段: 2: 下面开始配这些字段SPL: 发现就是报如下的错: 3: 最后把tag 的字段增加:attack_ids 就可以了,真是奇怪: index…

leecode#查找重复的电子邮箱#从不订购的客户#颠倒二进制数#位1的个数

题目描述: 编写一个 SQL 查询,查找 Person 表中所有重复的电子邮箱。 分析: 所有电子邮箱都是小写字母 重复的电子邮箱存在多次。要计算每封电子邮件的存在次数,我们可以使用以下代码 代码: select Email from (s…

操作系统内存分配(隔离,分段和分页)

内存分配问题 进程的总体目标是希望每个进程从逻辑上来看都可以独占计算机的资源。操作系统的多任务功能使得CPU能够在多个进程之间很好地共享,从进程的角度看好像是它独占了CPU而不用考虑与其他进程分享CPU的事情。操作系统的I/O抽象模型也很好地实现了IO设备的共…

【增长的本质】-

关于作者 塞萨尔伊达尔戈,出生在智利,现在是美国麻省理工学院媒体实验室宏观联系研究团队的主管。他是一位著名的跨界物理学家,最擅长的就是利用物理概念来分析和解释经济、文化领域的大问题。他还长期致力于研究促进经济增长和繁荣的因素&a…

2022最新xcode打包IPA(完整详细图文)​

本文详细讲述iOS的App开发后如何进行证书的创建和项目中如何配置证书及上传到苹果App管理后台后如何新增与更新版本。​ 前期准备:​ ① Mac OS电脑​ ② 一款开发完毕的App​ ③ 99美元的开发者证书一个(此证书提供App上传到App Store),苹果的另外一个299美元一年的证书打…

F28069的cpu定时器

工程搭建参考:https://blog.csdn.net/feisy/article/details/126380289 F28069有三个32位的CPU定时器:0,1,2。0,1可用,如果程序未使用DIS/BIOS,定时器2也可用。 CPU定时器相关的有5个信号,四个输入信号&…

jenkins调用metersphere自动化接口

metersphere自动化测试场景,可以用过jenkins job配至界面化传参数,传递给metersphere动态执行脚本。 1.下载metersphere jenkins插件 Releases metersphere/jenkins-plugin GitHub 2.jenkins安装metersphere插件 Jenkins 的插件管理页面&#xff0c…

谷歌翻译不能用了

最近发现谷歌翻译不能使用了,对于英语不好的我是个问题呀。 解决办法: 网上说要执行 win r 然后 进行ipConfig 结果我试了,没有一点用。 来先试试这个吧,直接就成功了。 看 图 找到 C:\Windows\System32\drivers\etc\hosts文件 …

【爬虫】力扣每日一题每天自动邮件提醒!!!

使用python实现了一个力扣每日一题每天自动邮件提醒的小爬虫,小但实用!!! 文章目录A.需求来源与分析B.技术角度分析C.具体分析步骤1.接口协议分析2.发邮件3.写crontab放服务器上定时跑D.成品1.源代码2.效果3.使用说明免责申明A.需…

面试官:你先回去等通知吧!这个 Java 岗位我还有机会吗?

面试官:看你简历写的不错,先简单自我介绍下? 我:大佬好!我是小程,工作时长两年半,目前负责在公司打杂,啊不,负责维护公司的两个项目… 面试官:hmmm&#xf…

[激光原理与应用-37]:《光电检测技术-4》- 光学测量基础 - 噪声与光学中的常见电路

目录 第1章 噪声 1.1 什么是噪声 1.2 分类 第2章 电子电路的常见噪声 2.1 通过放电产生的噪声 2.2 因为辐射干扰而产生的噪声 2.3 特定器件固有的噪声源 2.4 电子电路中噪声监测办法 第3章 光学电路常见噪声 3.1 常见噪声 3.2 噪声处理 第4章 光学电路中常见的电路…

双指针题目

比较含退格的字符串 给定 s 和 t 两个字符串,当它们分别被输入到空白的文本编辑器后,如果两者相等,返回 true 。# 代表退格字符。 class Solution {public boolean backspaceCompare(String S, String T) {int S_Len S.length(), T_Len T.…

[附源码]计算机毕业设计数字乡村基础治理系统Springboot程序

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

NFV网络云落地过程中若干问题分析

Labs 导读NFV技术从诞生起,从根本上来说就是为了解决运营商网络演进中部署成本高,迭代更新慢,架构僵化等痛点问题。同时,在引入NFV技术前,旧有产业链相对单一,核心成员主要包括设备制造商、芯片制造商等&am…

[Mysql]数据库约束

文章目录前言1. 数据库约束1.1 not null1.2 unique1.3 primary key,主键约束1.4 default,设置默认值1.5 foreign key 外键约束前言 数据库约束,在实际应用中,由于某些特定的要求,例如学生的学号不能为空,学生表中的班级id,在班级表中要能存在…

python足球作画

努力是为了不平庸~ 学习的最大理由是想摆脱平庸,早一天就多一份人生的精彩;迟一天就多一天平庸的困扰。 足球(Football[英]、 Soccer[美])是一项以脚为主,控制和支配球,两支球队按照一定规则在同一块长方形…

HTML如何制作公司网站首页(web前端期末大作业)

🎉精彩专栏推荐 💭文末获取联系 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 🎓 web前端期末大作业: 【📚毕设项目精品实战案例 (10…

新老用户该如何选择腾讯云服务器!

随着云计算的快速发展,很多用户都选择上云,上运中最常见的产品就是云服务器CVM和轻量应用服务器了,那么怎么选购最优惠呢,这篇文章将介绍新老用户选购腾讯云服务器的几个优惠方法。 一、买赠专区 第一个介绍的就是买赠专区&…