金毅:10x HTAP,企业级关系型数据库内核技术创新与演进

news2024/9/25 13:25:24

导语

4月8日下午,为期两天的第十二届数据技术嘉年华(DTC 2023)在北京新云南皇冠假日酒店圆满落下帷幕。大会以“开源·融合·数字化——引领数据技术发展,释放数据要素价值”为主题,汇聚产学研各界精英到场交流。作为大会的协办方和重要合作伙伴,云和恩墨·本原数据技术合伙人张程伟(点此查阅演讲回顾)、金毅在主论坛发表了题为《回归数据本原,企业级数据库的技术探究》的联合演讲。本篇文章对金毅的演讲内容进行了整理归纳,供大家学习参考。

在本次演讲中,金毅博士站在技术层面发表了一些对企业级关系型数据库内核在未来可能的技术创新和技术发展方向的一些思考。

他首先简要回顾数据库技术发展历史,说道:“数据库发展从始至终都是围绕企业实际业务场景为中心,针对未来数据库技术发展的讨论需要建立在承认历史积累的深厚数据库技术理论基础之上。”总结当前影响数据库技术发展的几点趋势:第一点,新的硬件革新推动着软件重构,如众核能够提供非常高容量的单机计算能力,SSD替代了慢速机械硬盘,给主存和磁盘之间的交换能力提供了质的飞跃, 单机计算能力相较于传统数据库内核成型的时期已经发生巨大飞跃;第二点,当前云化成为重要发展趋势,如何在云的环境下利用好云的弹性扩展能力,以及以LOG  IS  DB对传统数据库内核改造而实现在云上的关系型数据服务是我们需要思考的问题;第三点,关于HTAP,在实际用户场景中,我们更加需要对在线交易数据实现就近实时的分析,将数据对客户的价值及时的发挥出来。

ec27a3b184bea49e1166cf416b812ed1.png

衡量一个技术在数据库内核当中是否是成功的运用和有效,有一个非常简单的标准:在固定的数据计算负载前提下,能够为客户提供最低成本的方案,就是最好的技术运用。把这样一个成本投入和给客户提供的事务所带来的收益利润进行整合,那么这里我们引入了一个概念就是事务利润,越低成本投入获得越高事务处理能力,为客户带来更高业务容量就会带来更高的事务利润。只有事务利润空间有了,作为数据库和数据服务提供方与用户之间才更有找到共赢的最佳平衡点。因此,从全生命周期角度度量方案的事务利润可以更有效度量数据库技术给用户带来的价值。

相对于集中式方案,分布式方案从理论上来讲一定会产生额外的网络通信成本,会造成代码路径的延长和产生稳定性风险更大的问题。所以说分布式方案并不能提升客户的事务利润。因此,重新审视单机的性能发挥成为考虑的关键解决之道。如果单机性能能够得到数量级突破,在固定业务容量的前提下,小规模分布式方案可考虑简化成单机方案,大规模分布式方案可极大缩减系统实施规模;既简化硬件成本降低能耗碳排放,又提高系统稳定度减少系统维护成本,达到全生命周期的降本增效。所以,本场演讲的重点问题就是:我们能不能真正意义上实现单机性能的突破?

探究本原,要想提升数据库单机性能,金毅表示可以从以下几个技术角度思考:

一、服务器硬件趋势角度:

(1)众核。现在的单机很难在单核计算能力上有突破的进展,但是它的数量在突飞猛进,一台服务器上可以得到超过一百个核的运算能力。传统数据库内核并没有针对大规模并行计算进行优化,集中式数据结构的竞争热点,CPU cache缓存利用率低,CPU和DRAM主存间性能瓶颈问题严重等问题限制了众核并行性能的发挥。

(2)大内存。当前一台服务器的DRAM主存可以达到TB级,甚至于10TB,已经可以将一个业务系统中频繁使用的热交易数据完全驻留在内存里,这便意味着数据库内核设计和实现思想可以发生一个转变:我们可以把主存中的业务数据作为数据计算和优化核心,去思考如何有效的使用它,而不是放在磁盘中的数据。这样,以优化频繁发生的慢速I/O为主要目的的传统数据库内核实现思想,可以转变为以优化CPU和DRAM主存间性能瓶颈的新数据库内核实现思想。

(3)SSD高速磁盘。当前通过PCle到SSD,单盘就能够提供GB级每秒的I/O带宽,通过快速I/O能力,我们可以高效率的移出冷数据或将冷数据交换回DRAM主存成为热数据。这支撑了上述以内存中热数据为中心的设计实现。

ca6fe3d5b1e0db9b174b6a082d1896ee.png

二、数据库内核实现思考点(交易性能):

(1)指令效率低。经实验分析TPC-C的New Order事务中,真正有效用于产生数据计算的仅不到7%,由于传统架构数据库内核实现着重于优化慢速和高延迟I/O的性能问题,针对指令的优化问题被忽略,而在大比重围绕DRAM主存的数据计算中,其关键路径中无效的93%的指令可以通过采用新的数据结构和算法的实现尽量压缩和消除掉。这首先提供了单机性能可以达到10倍提升的基础。

(2)CPU与主存性能瓶颈。当数据库计算更多围绕主存发生的时候,解决CPU与主存性能瓶颈,提高CPU计算实际效率成为重点。该关注点也曾因传统设计思路被忽略。CPU Cache效率成为解决该瓶颈的关键,技术优化方面包括提高CPU Cache命中率,减少CPU Cache一致性同步和亲和性不足造成的CPU卡顿等待问题。

(3)竞争热点。传统数据库再各主要模块的内部实现中大量存在集中式访问对象,在众核大规模并发场景下,产生拥塞严重影响众核计算性能发挥,需要新的技术实现尽可能分拆并行访问间冲突,解放并行效率。

3f37b38261bacb7ccb2aa50c14fcf472.png

综合上述,金毅博士围绕数据库技术创新的的驱动要素展开分析并进一步提炼和定义了下一代10x HTAP原生数据库的架构:硬件发展(众核,CPU Cache,大容量内存,NVMe SSD)驱动软件算法与架构革新,以一个数量级提升资源利用率;云化资源催生云原生架构满足弹性负载;实时分析推动编译执行/向量化/SIMD加速融合。

78e04ac1c24bee74571a32758cd83475.png

DTC2023

结语

DTC 2023这场年度盛会虽已落幕,但它时隔两年见证了中国数据库的星光熠熠,见证了正在如火如荼迭代演进的数据库技术。作为其中一员,云和恩墨一直秉承初心,砥砺前行,不问前路,只争朝夕,正如云和恩墨创始人盖国强所说:“耕获菑畬,我们只有但问耕耘,莫问收获,坚持长期主义,才能迎来中国数据库坚定的发展未来。”

点击文末“阅读原文”回顾完整演讲视频

b965813c6dc9c0ef3ee8e28ec7b4d4be.gif

数据驱动,成就未来,云和恩墨,不负所托!


云和恩墨创立于2011年,以“数据驱动,成就未来”为使命,是智能的数据技术提供商。我们致力于将数据技术带给每个行业、每个组织、每个人,构建数据驱动的智能未来。

云和恩墨在数据承载(分布式存储、数据持续保护)、管理(数据库基础软件、数据库云管平台、数据技术服务)、加工(应用开发质量管控、数据模型管控、数字化转型咨询)和应用(数据服务化管理平台、数据智能分析处理、隐私计算)等领域为各个组织提供可信赖的产品、服务和解决方案,围绕用户需求,持续为客户创造价值,激发数据潜能,为成就未来敏捷高效的数字世界而不懈努力。

b2d0aa56475098153211f92359ec8a0b.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/430553.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

网络原理之UDP

hi,大家好,又见面了,今天为大家介绍一下UDP的网络原理🐷🐷🐷 文章目录认识UDP报文格式UDP特点TCP,UDP应用场景基于UDP的应用层协议认识UDP报文格式 UDP特点 TCP,UDP应用场景 基于UDP的应用层协议 1.认识UDP报文格式 其实在真正传输的…

批量记录收支明细:手把手教你如何查看上个月的收支明细并打印。

记录收支明细太久,想要快速查看并筛选出上个月的某一个明细要如何进行查询,还要进行打印要如何操作?今天就由小编来教教大家要如何操作。 首先第一步,我们要进入晨曦记账本主页面,点击主页面上方功能栏里的“添加收支…

聚焦云原生安全|安全狗云甲荣膺CSA 2022安全金盾奖

4月13日,第六届云安全联盟大中华区大会“年度颁奖典礼”表彰仪式顺利开展。作为国内云原生安全领导厂商,安全狗也收到邀请出席此次活动。​ 此次活动上,“年度颁奖典礼”作为重要环节之一,获得业界的关注。安全狗旗下云原生安全产…

zabbix介绍及部署(超详细讲解)

目录 1.zabbix的基本概述 2.zabbix的构成 1、Server 2、web页面 3、数据库 4、proxy 5、Agent 3.zabbix的监控对象 4.zabbix的常用术语 5.zabbix的工作流程 1、主动模式 2、被动模式 6.zabbix进程详解 7.zabbix的监控框架 1、server_client架构 2、zabbix_prox…

一文搞懂C#工程中程序数据库文件.pdb(符号文件)的作用,延伸搞懂Debug/Release、AnyCPU(首选32位)/x86/x64/ARM的区别

一、准备工作 MS引用:在 Visual Studio 调试器(C#、C、Visual Basic、F#)中指定符号 (.pdb) 和源文件 MS引用:为 C#、ASP.NET 或 Visual Basic 项目 (.NET Framework) 生成符号文件 MS引用:用…

ASP.NET动态Web开发技术第6章续

第6章续ASP.NET内置对象一.预习笔记 1.ASP.NET提供了七大内置对象,Page、Request、Response、Application、Session、Server和Cookies。这些对象使用户更容易收集通过浏览器请求发送的信息、响应浏览器以及存储用户信息,以实现其他特定的状态管理和页面…

【动力节点】杜老师Vue笔记——Vue程序初体验

目录 一、Vue程序初体验 1.1 下载并安装vue.js 1.2 第一个Vue程序 1.3 Vue的data配置项 1.4 Vue的template配置项 一、Vue程序初体验 可以先不去了解Vue框架的发展历史、Vue框架有什么特点、Vue是谁开发的,对我们编写Vue程序起不到太大的作用,…

云HIS源码 基层卫生健康云HIS源码

云HIS全称为基于云计算的医疗卫生信息系统(Cloud-BasedHealthcareInformationSystem),是运用云计算、大数据、物联网等新兴信息技术,按照现代医疗卫生管理要求,在一定区域范围内以数字化形式提供医疗卫生行业数据收集、…

正版软件 Directory Opus 12 Pro Windows 平台上的资源管理器,定是功能完全、可定制化程度高的那款。

Directory Opus 是一款 Windows 平台上的资源管理器,定是功能最完全、可定制化程度最高的那款。你可以通过它完成几乎所有操作,包括查看图片元信息、预览图片、阅读文本文件内容、批量重命名、操作压缩文件以及 FTP 同步请求等。 Directory Opus 是一款由…

QGIS数据可视化学习笔记00——为什么用QGIS以及QGIS设置中文界面

一、为什么用QGIS? 1、qgis的概念 qgis原称Quantum GIS,是开源的桌面地理信息系统软件。 qgis是一款桌面版gis软件,他是基于qt平台使用c开发出来gis软件。 2、qgis的主要特点 1.支持多种GIS数据文件格式 2.集成或支持其他开源GIS&#…

rust的并发以及kv server网络处理和网络安全部分

理解并发和并行 Golang 的创始人之一,对此有很精辟很直观的解释:并发是一种同时处理很多事情的能力,并行是一种同时执行很多事情的手段。 我们把要做的事情放在多个线程中,或者多个异步任务中处理,这是并发的能力。在多…

postman同时传递文件和对象参数

属性 required true 意思为 必填对象属性 /*** descroptions: 再保临分请求* author: c* date: 2023/1/9 14:26* version: 1.0*/public class UwReinsureReportReqDTO extends BaseInfoReqDTO implements Serializable {private static final long serialVersionUID -59047…

No message available问题解决

概述 在EFK日志查询平台断断续续看到若干个应用的报错信息: 排查 上述截图里报错的类(省略掉Import语句后): Slf4j RestController public class FilterErrorController extends BasicErrorController {public FilterErrorC…

Pytorch安装与测试

1.Anaconda安装 官方网址:www.anaconda.com 找到anaconda的历史安装版本,我安装的是此版本 一直使用默认安装下来即可 1.1安装下来打开终端,创建python环境 1.2创建完成后 创建完成后,通过pip list发现没有torch 2.pytorch安装 进入pytorch官网:PyTor…

C语言 字符串解析strchr/strrchr/strtok//strtok_r函数使用

在程序中,解析用户输入的参数(命令行参数)是很常见的操作,本文将讲解C语言中常见的一些解析字符串函数使用方法。 1 strchr 1.1 描述 strchr() 用于查找字符串中的一个字符,并返回该字符在字符串中第一次出现的位置…

【数学知识】一文学会算法中的数学知识(1.1)

目录 一.数论 1.质数 (1)质数的判断 (2)分解质因数(数几个质数相乘) (3)求1-n的所有质数 2.约数 (1)试除法求所有约数 (2)约数个数和约数之和 (3)最大公约数(欧几里得算法 ) 一.数论 1.质数 在大于1 的整数&#x…

全回显SSRF测试两则

之前遇到可回显SSRF,并没有怎么去深入,可能漏洞点支持file协议更偏向于任意文件读取,不会去思考可回显SSRF的深入利用;直到读了pmiaowu师傅的可回显SSRF直接搭建成了代理进行内网渗透,后面遇到了两个可回显SSRF&#x…

【Kafka】Kafka为什么快?

Kafka之所以快的原因有三个:顺序读写、页缓存、零拷贝。 顺序读写 Kafka依赖磁盘来存储和缓存消息。 在我们的印象中,磁盘的读写速度会比内存的读写速度慢,但这是在随机读写场景下的比较。 实际上,磁盘的顺序读写能力不容小觑&am…

Spring IoC注解开发

Component 组件 Controller 控制器 Service 业务 Repository 仓库 其实他们四个本质都一样,只不过另外三个是Component的别名,在不同层使用容易区分 首先需要加入aop依赖,如果你事先加入spring-context依赖,则会关联加入ao…

亚马逊、temu、速卖通、国际站卖家如何利用好测评补单这张王牌?

大家好我是亚马逊测评珑哥。 现在越来越多的跨境电商平台入局,目前跨境电商平台亚马逊、TEMU、ozon、ebay、wish、lazada、敦煌、shopee、速卖通、poshmark、阿里国际站、沃尔玛、newegg、美客多等跨境平台的卖家都在递增,大家都知道,随着各…