华东师范大学副校长周傲英:未来,中国需要什么样的数据库?

news2024/11/26 12:40:20

本文为华东师范大学副校长,CCF 会士周傲英教授在第一届 OceanBase 开发者大会带来的分享。欢迎访问 OceanBase 官网获取更多信息:https://www.oceanbase.com/


3 月 25 日,第一届 OceanBase 开发者大会在北京举行,华东师范大学副校长,CCF 会士周傲英教授带来了《未来,中国需要什么样的数据库?》的分享,从他的视角为大家介绍了数据库技术发展的趋势、行业的机会,还有我们所肩负的使命。

以下为演讲实录:

很高兴又来到 OceanBase 的会场,关于中国未来需要什么样的数据库,是我特别想讲的内容,我从1985 年读研究生的时候开始学习数据库,经过多年的发展,中国终于迎来了数据库发展的新机遇。 今天我的分享将从数据库的诞生、数据能源对于数字化转型的作用、分布式数据库评测基准三个主要方面展开。

应用驱动创新的数据库

简单回顾一下数据库,从更高的维度来看,数据库属于什么样的技术范畴?假如数据是电能(power),需要把电送到千家万户,我们就需要一个赋能平台,要有电力的基础设施,此时,我觉得数据库就属于基础设施里面的一个重要内容,并且它具有先锋性的作用。

展开讲讲赋能平台,“赋能”这个词是互联网的概念,现在已经被广泛使用,现在我们到处讲的“赋能”,英文是 In-power,也就是说它的主语应该是 power,才能赋能其它的。这个角度来说数据库就是赋能平台的概念,最早在 50 多年前已经出现,现在已经到了广泛的赋能平台,现在就来分享一下,我们在和 OceanBase 合作中对分布式数据库的理解。

大家都知道,我们在学计算机专业的传统专业课程中,有四门课是我们这个专业独有的——编译、操作系统、数据库、网络,而这四门课程中,只有数据库成为了一个独立的行业。操作系统中的 Windows 不是单独卖 Windows,编译也没有单独卖编译的,网络是卖硬件的、没有卖软件的。从这个角度来说,在数据库产业的发展过程中,Benchmark 基准评测起到了很好的作用,也规范了这个行业的发展,让大家相对公平、有序地竞争。

▋ 数据库为金融而生

数据库是作为金融技术、金融科技而诞生的,支持的是 Mission-Critical 的应用,Mission-Critical 是人财物的精确管理,为了做到“精确”,我们需要数据库。最早的数据库从 COBOL (Common Business-Oriented Language,最早的商用编程语言)里诞生。2000 年,美国由于千年虫(Y2K)的历史遗留问题,把很多在海边独居的老人请回来改代码,那时候的代码还是 COBOL 代码,最早的社保和医保系统都是用 COBOL 来写的。2020 年疫情刚开始时,因为很多医保、社保在这一年马上要兑付,很多老人再次被请回来改代码。

由此可见,数据库是早期最经典的金融科技, 是典型的“应用驱动创新”的案例。

▋ 数据库的发展历史

20 世纪 50 年代,COBOL 开始出现;60 年代,COBOL 被定义为数据系统语言,第一个图灵奖获得者艾伦·佩利(Alan J.Perlis)在 CODASYL 会议上提出了 DBTG 报告;80 年代,数据库概念达到顶峰,关系型数据库开始出现,数据库由此开始慢慢被人接受,并由此开始广泛传播,也是在这个过程中,两个图灵奖获得者诞生了。

数据库的发展史是 IT 技术创新史的缩影,数据库的的成功是应用创新的成功。用应用驱动创新的数据库,在理论和技术的相互促进中,形成了数据库波澜壮阔发展的几十年。虽然数据库技术在不断发展中越发成功,但是任何成功的案例都有它深刻的教训: 原本我们以为一个关系数据库能够解决所有问题,但在大数据和谷歌的“三驾马车”概念出来之前,大家好像都在哀叹数据库好像解决不了数据的问题,直到” One Size Fits a Bunch”( 即一类应用可以有一个数据库)概念的提出。

我跟国外学者交流时,他们也很认可我的理念:学数据库的人应该理解数据库的抽象,关系数据库就是对语义的抽象,事务处理就是对业务逻辑的抽象, 分布式数据库就是阳振坤老师讲到管帐、记帐、转帐这些业务逻辑的抽象,而 Benchmark 是对功能、对能力、对规范的抽象,正是抽象成就了 30 多年的数据库产业的发展。

数据之于数字化转型

从现在的角度来看,我们怎么来做新的数据库?“Data is power(数据是新能源)”的理论,是 2016 年马云先生在云栖大会上讲的,这个 Power 指的是电,数据给生活带来的深刻改变好比一百多年前,电的诞生对生活带来的深刻改变一样。

虽然四五十年前已经有人意识到数据的重要性,但我们对于数据广泛意义上的重要性是互联网教会我们的。从“蒸汽能 (Steam Power) ”到“电能 (Electric Power) ”再到“数据能 (Data Power) ”,每次 Power 的改变实际上不仅仅是一次产业的巨大改变,它带来还有国际格局的根本改变。

Image

在蒸汽时代之前的马能(Horse Power)时代,中国占据世界中心地位几百年甚至上千年;到了蒸汽时代,英国占据了世界的中心地位;再到了电能时代,美国就取代了英国。而现在的“数据能”时代给中国带来了机会,也给数据库人带来了机会,我们在走向世界中央的路上。

数字经济不是产业的数字化、数字的产业化,这是非常表面的现象,本质上它会带来整个经济格局的改变。 就像电能时代,在把蒸汽时代所有的产业都做一遍的同时,也诞生了一批崭新的产业,比如通信、IT,数据是把人类从工业文明带入数字文明的一个重要能源。

现在我们讲的数字化转型中,数据对于数字化的作用,就像电对于电气化转型一样。2020 年 4 月上旬,美国微软发布了 Microsoft Power Platform,在这个平台上将微软所有的功能集合在了一起。

Image

虽然它没有说这个 Power 指什么,但却强调了 Microsoft Power Platform 是助力数字化转型的低代码平台,现在微软的 Word、Excel、PowerPoint 产品里都融入了 GPT4,所以它讲的 Power 就是 Data,如果把 Microsoft 摘掉,Power Platform 就是我们的电力基础设施,电力、电网、远距离超高压传输电网,一直到家里的配电盘以及变电站里面的变压器,整个这一套就是 Power Platform,它的根本目的要把数据大众化,把开发大众化,把 AI 大众化。

Image

把数据大众化,就是要让大家都能简单地使用数据,要低代码甚至零代码,这是它的基本逻辑,其发展的最高境界就是 AI 大众化,所以我们要做数据赋能平台,也就是马老师以前提到的数据中台。

我们要把数据中台翻译成 Data Power Platform,从而彰显 Data is power。数据库是数据中台的重要功能,根本目的就是我们要认识 Data,知道电压、电流、电阻,我们才研究这一套电,我们要有电网、有继电保护,我们要让数据技术装备化、大众化、平民化、傻瓜化,这是我们的根本目的。虽然我们不见得都理解电,但是我们每个人都会用电,ChatGPT 也是给我们这样的路线,让大家不需要编代码就可以把计算机和 AI 用起来。 “真正的 AI 时代”开始的根本目的就是要让数据大众化,把数据用好。

互联网时代,我们对数据库提出非常广泛的要求,数据库和互联网碰撞到一起,带来非常多的冲击——场景和应用范围不一样了。原本的数据库必须是数据库的用户才能用,现在的数据库是有个手机就能用。

分布式数据库评测基准

伴随着云计算趋于成熟,在这样的情况下,我们未来的分布式数据库在什么地方,OceanBase 是分布式数据库的探索者。我认为分布式数据库要有云上的系统,刚才我们都提到数据库要扩容,要智能运维, 如果要让数据库好用,要让赋能平台好用,就不能仅仅只是“One size fits a bunch”,而应该是像阳振坤提出的观点“One Suite fits all”。

以前我们学分布式数据库时,还没有网络和现在的互联网,现在在应用驱动创新下,有了互联网,进而有了分布式数据库。

Image

▋ Benchmark 对产业形成非常重要

在华东师范大学和 OceanBase 合作过程当中,我们认为:Benchmark 对产业的形成非常重要,也是在这个过程中,我们进行了总结。所以我们一直在研究基准,以此来引导分布式数据库的发展。

基准是应用需求的抽象,有了抽象才能引导,我们都知道实践出真知,由于真知形成了理论再引导实践,正是统一的评测基准引导着分布式数据库的发展,我们对传统的 Benchmark 进行了总结,包括 OLTP 和分布式数据库的总结,在 2022 年有一篇文章,全面地论述了从 Benchmark 的发展到分布式数据库的发展。

Image

数据库历史发展图

我们必须抽象,而抽象一定要从应用当中来,要了解应用的需求。因为应用的需求对分布式数据库的可扩展性、高可用性、可调度性、弹性非常重要,所以为了做到这一点,需要形成量化的标准,我们希望用量化的方式来进行评测。

我们做了分布式数据库评测的套件 Dike,目前已经公布在 Github上面,叫 dbhummer。Dike 是可插拔的、定量的、动态的、不均衡的一种分布的方式,今年也被选中在 SIGMOD 上进行了发表。我们的套件从不同的角度来进行评测,只要是分布式数据库,大家都可以在这上面做 PK,希望以此引导技术往正常的轨道上发展,不会形成恶意竞争。

Image

▋ HTAP benchmark

我们对 HTAP 也做了相应研究,研究 HTAP 的 Benchmark 要点,比如:混合负载、抗干扰能力、实时数据获取能力,在统一的业务场景上进行分析,把 TP 和 AP 放在一起,他们之间会存在交叉,同时保证不同的 HTAP 可横向比较等等,对整个国际 Benchmark 学术界是一个非常重要的热点问题,目前,华东师大和 OceanBase 正在联合研制新的 HTAP 评测基准 Vodka ,我们对已有的系统和标准做了比较,希望很快能出台标准。

Image

华师大能够在数据库研究里面保持领先地位,在国际上保持一定的影响力,很重要的一点就是我们从 2014 年开始,一直在研究 Benchmark。Benchmark 对业界来说就是标准,它对数据库产业的发展和学术的发展非常重要。

最后,数据库是实现赋能最早、最经典的成功案例,我们要从更高的角度看这个 Power,并搭建 Data power Platform,把技术大众化作为根本的出路,Benchmark 是引导数据库发展的正确途径,我们初步的方向在同样的套件上面实现用户所希望的所有功能。

谢谢大家,也祝 OceanBase 越来越好!


欢迎访问 OceanBase 官网获取更多信息:https://www.oceanbase.com/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/459628.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

AI智能智能课程第四讲 -数据库领域专家

使用chatGPT让你成为数据库领域专家 作业 现在要测试电商的下单功能:测试员张三在公司的电商平台上下了几个单,现在需要验证:张三这个客户下单的所有订单信息,包含订单编号,商品名称,商品价格,…

什么是gpt4-如何用上gpt-4

gpt4主要强化了哪些功能 OpenAI尚未公布GPT-4的详细信息,不过可以根据OpenAI前CEO Sam Altman在2020年所发表的一篇博客中提到的,GPT-4可能会具有更强大和智能的能力,包括更准确的理解和表达自然语言、更高效的记忆和推理、更全面的知识和视…

thinkphp:数值(保留小数点后N位,四舍五入,左侧补零,格式化货币,取整,生成随机数,数字与字母进行转换)

一、保留小数点后N位/类似四舍五入(以保留小数点后三位为准) number_format()函数:第一个参数为要格式化的数字,第二个参数为保留的小数位数 方法一: public function test() {$num 12.56789; // 待格式化的数字$r…

Maven配置阿里云仓库

Maven简介: Maven项目对象模型(POM),可以通过一小段描述信息来管理项目的构建,报告和文档的项目管理工具软件。 Maven 除了以程序构建能力为特色之外,还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性&#x…

QMS-云质说质量 - 11 我和我的客户投诉(3) - 明枪易躲 暗箭难防

云质QMS原创 转载请注明来源 作者:王洪石 君子思义 小人贪利 金庸老先生在《笑傲江湖》中写道,“只要有人的地方就有恩怨,有恩怨就会有江湖,人就是江湖。”这句话映射到现实社会中,就是“社会险恶,人心叵测…

链表(JS实现、LeetCode例题)

📝个人主页:爱吃炫迈 💌系列专栏:数据结构与算法 🧑‍💻座右铭:道阻且长,行则将至💗 文章目录 链表链表的分类创建链表LinkedList类的骨架 实现链表的方法push尾部添加元…

『网络基础 一 』

目录 网络发展 认识 “协议” 网络协议初始 协议分层 OSI七层模型 TCP/IP五层(或四层)模型 网络传输基本流程 ​编辑 协议报头 数据包封装和分用 网络中的地址管理 认识IP地址 认识MAC地址 网络发展 独立设计:计算机之间的相互独立…

Flink系列-10、Flink DataStream的Transformation

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 大数据系列文章目录 官方网址:https://flink.apache.org/ 学习资料:https://flink-learning.org.cn/ 目录 官网所有的…

探析Android中的四类性能优化

作者:Yj家的孺子牛 流畅性优化 主线程模型 了解 Android 的流畅性优化之前,我们需要先了解Android的线程结构。在 Android 中,有一个主线程模型,其中所有的绘制以及交互都是在主线程中进行的,所以,当我们…

【LaTex】Elsevier投稿系统到底何时整顿?‘expl3.sty‘ aborted!

前言 两年前,我在投稿Elsevier旗下的Knoeldeg-based systems时就被这个投稿系统整得是头昏脑胀,直接肝爆。首先,第一次提交手稿时可以接受PDF,很方便。然而,后面大修时提交可编辑的源文件时给我狠狠的打脸了。记得当时…

快速入门量化交易

本文首发自「慕课网」,想了解更多IT干货内容,程序员圈内热闻,欢迎关注"慕课网"! 原作者:袁霄|慕课网讲师 近来“量化交易”这个词听得越来越频繁,多数人对量化交易的第一印象是“高大上的技术”…

堆的原理解析

看这篇文章需要对比较器有一定的了解,可以看我的这篇文章: 认识比较器_鱼跃鹰飞的博客-CSDN博客 堆的实际存储方式是数组,但是脑海中应该把他想象成一种树的结构 依次加入下标0-8的9个数(添加过程中会不断的和父节点大小进行比…

舰船交流电网绝缘监测及故障定位的研究及产品选型

摘要:交流电网和电气设备的绝缘状况直接影响舰船电力系统安全,其绝缘电阻的下降是一个不可避免的过程,成为了电网安全的严重隐患。电气设备绝缘材料的劣化过程是不可逆的,对舰船交流电网进行绝缘在线监测及快速定位绝缘故障支路&a…

浅谈:JVM垃圾回收

一、四种类加载器(双亲委托/全盘委托机制) 1.启动类加载器: 加载 Java 核心类库,无法被 Java 程序直接引用。 2.扩展类加载器: 加载 Java 的扩展库。Java 虚拟机的实现会提供一个扩展库目录。该类加载器在此目录里面查找并加载 Java 类。 3.系统类加载器: 它根据 Java 应用的类…

seleniumUI自动化登录失败案例重新尝试WhileTrue

一个用户每次登录失败,失败N次,无法进入下一url时,怎样会重新尝试N次重新登录呢 ? 我们可以使用wihile true判断,并使用currenturl判断,下面就介绍以下个人的方法 currenturlEGTconfigFile.driver.curren…

Opencv识别车牌

Opencv识别车牌 #encoding:utf8 import cv2 import numpy as np Min_Area 50 #定位车牌 def color_position(img,output_path): colors [#([26,43,46], [34,255,255]), # 黄色 ([100,43,46], [124,255,255]), # 蓝色 ([35, 43, 46], [77, 255, 255]) # 绿色 ] hsv cv2.cvtCo…

推荐 7 个超牛的 Spring Cloud 实战项目

个 把一个大型的单个应用程序和服务拆分为数个甚至数十个的支持微服务,这就是微服务架构的架构概念,通过将功能分解到各个离散的服务中以实现对解决方案的解耦。 关于微服务相关的学习资料不多,而 GitHub 上的开源项目可以作为你微服务之旅…

STM32平衡小车 mpu6050学习

MPU6050简介 MPU6050是一款性价比很高的陀螺仪,可以读取X Y Z 三轴角度,X Y Z 三轴加速度,还有内置的温度传感器,在姿态解析方面应用非常广泛。 二、硬件连接 由于采用IIC通信,最基本的只需要采用四根线就可以了。分别VCC,GND,SCL,SDA连接到单片机 SCL-----PB6 SDA---…

23种设计模式之观察者模式(黑马程序员)

观察者模式 一、概述二、结构三、实现四、总结在最后 一、概述 观察者模式又被称为发布-订阅模式(Publish/Subscribe)模式,它定义了一种一对多的依赖关系,让多个观察者对象同时监听某一个主题对象。这个主题对象在状态发生变化时,会通知所有…

java 键值对详解及java键值对代码

在 Java中,对象可以理解为一个列表。这个列表里面的每个元素都是一个“键”,而每个“键”都是一个值。 键值对的概念,并不是在 Java中第一次出现,在 java 1.x中就已经有了。那时候它的意思是在一个命名空间中建立两个名字相同的对…