今天,他们一起聊了聊数据融合|CNCC 2023

news2025/1/11 20:07:09

2023 年 10 月 26-28 日,第二十届中国计算机大会(CNCC 2023)在沈阳市举行,27 日下午,由 OceanBase 申办的「下一代数据融合技术趋势」技术论坛圆满落幕。

会上,OceanBase 联合多位数据库领域知名学者、专家围绕 HTAP 工作负载融合、机器学习、多模态数据融合、单机分布式一体化融合,以及多种数据库是否可以融合以及该如何融合的相关议题进行了探讨。OceanBase 创始人兼首席科学家阳振坤进行了开场致辞;华东师范大学副校长、研究生院院长、“智能+”研究院院长、数据学院教授周傲英,南洋理工大学教授、新加坡电信-南洋理工人工智能联合实验室主任丛高,武汉大学计算机学院教授、大数据研究院副院长彭智勇,OceanBase CTO 杨传辉,网商银行基础技术架构负责人蒋维杰先后进行了主题演讲及圆桌讨论。

图片

应用驱动创新,下一代数据融合

伴随着互联网的兴起以及数字化、信息化发展浪潮,数据量呈爆发式增长,由此带来的海量数据高并发问题层出不穷。从1990 年代开始,数据的数量和种类都在迅猛增加,数据量和数据类型都超出了当时关系数据库的处理能力,各种非关系型的数据库系统如雨后春笋,不断涌现。

当今很多业务同时需要多种数据库的场景也越来越多,比如多数业务系统同时需要联机事务处理和联机分析处理,游戏业务不仅需要关系数据库进行会员管理、计费等,还需要保存和处理游戏本身的数据,而这类数据通常并不是结构化的,而是半结构化的,这就需要文档数据库等;外卖业务同样需要关系数据库进行顾客、骑手的管理以及交易处理等,还需要分析判断顾客附近的骑手以及多个顾客之间的距离以提升骑手配送效率等,这时空间数据库就显得很有必要。

在会上,OceanBase 创始人兼首席科学家阳振坤对此发表了自己的看法:“尽管融合数据库的发展是一种趋势,但这不意味着各种专门的数据库就会消亡,就像今天人们普遍用智能手机欣赏音乐和视频,但电影院和专业的视频音响设备仍然有存在的价值,很多时候人们用智能手机玩游戏,但很多人更喜欢游戏机等等。”

图片

“目前,多数的融合数据库还处在比较初级的阶段,比如部分 HTAP 数据库其实是在后台集成 OLTP、OLAP 和 ETL 三个系统,一定程度简化了用户的使用,但并没有降低用户的开发成本和业务成本,一些关系数据库的文档数据管理能力或空间数据管理能力还比较弱等等。作为数据库领域的未来重要趋势,融合数据库不仅着眼于多工作负载的统一,使联机事务处理和实时分析处理的深度融合成为现实,还将推动前瞻性的多租户架构发展以及多模态数据库的深度融合,以适应未来数据库的多样化及现代化需求。”阳振坤表示。

华东师范大学副校长、研究生院院长、“智能+”研究院院长、数据学院教授周傲英也从数据赋能角度发表了他对数据融合的独特见解。他认为:“数据是人对世界的认知结果在计算机中的表示。而数据库是信息社会的关键基础设施,也是计算机科学的重要分支,今天所谈的数据融合一定程度上也是应用驱动创新的一种体现,与数据库的成长之路发展是一脉相承的。”

图片

他从数据库的历史谈起,最早数据库不是数据库,而是 File System。他认为当下热门的 HTAP 数据库就是“File System”的回归。原来觉得一个数据库或许能解决所有的问题,后面发现专有数据库更适合解决特定问题,所以今天我们又需要从源头开始思考到底是“One Suite fits all”还是” One Size Fits a Bunch”,正是这些需求让 HTAP 数据库成为今天的主流。

周傲英表示:“数据库的成长之路也是应用驱动创新:过去开源成就了创新、硬件加速了创新,今天的融合数据库也在驱动创新,从专有的垂类开始到融合的通用,从解决一个专有问题走到解决更多的问题。通过运用技术和科学融合来创新,用技术应用倒逼技术的诞生,用技术来催生科学的诞生,然后形成良性循环,中国人才能在数据库领域作出自己的贡献。”

图片

多模态、机器学习,数据融合的重要趋势

近年来, AI、大模型很火,在数据库领域也涌现了众多向量数据库品牌。而关于其的争论也大多围绕 AI 如何帮助解决数据库系统难题。比如调优、调参,测试等。

南洋理工大学教授、新加坡电信-南洋理工人工智能联合实验室主任丛高为大家分享了其所在课题组的新研究——通过机器学习增强数据库系统,主要涵盖调优、调参、索引优化三个方面。

图片

为了解决用户隐私数据严格加密影响压力测试的难题,该课题组提出了一种新方法——用自回归的机器生成模型,这个技术难点就是 Cardinality 形成的约束让自回归变成了不可导,使其无法直接优化这个问题,通过把约束转化成让自回归模型可导,以解决这样的问题,通过这样的工作负载,学出的模型基本可以描述数据的分布,再生成这样的数据来支持刚才讲的应用。

另一方面,如何用机器学习去改进索引这部分的工作,是这几年学术界比较热的热点,也是本课题的研究重点之一。机器学习不会去替代索引结构,也不会改变它的查询算法,而是通过用 Machine Learning 的技术去提升现有的索引性能,以R-Tree为例,建一个更好的R-Tree。

这里提到的用机器模型训练,便是未来数据库的发展趋势之一。丛高表示:“这个学习模型还存在很多待解决的问题,但它是很有潜力的。正如今天的大模型对数据和数据库系统也会有所助力,这些技术的研究和突破是学术界和工业界共同努力的方向。”

关于“融合”, 武汉大学计算机学院教授、大数据研究院副院长彭智勇认为,“多模态数据”就是在讲融合,融合就是关联,关联才能产生 Power,才能产生人工智能。目前,多模态数据应用于自动驾驶、制造业、家谱研究等,市面上已经有一些数据库称自己为“多模态数据库”。

图片

彭智勇指出:“多模态数据库目前有两种实现形式,集成方式和原生方式。这里面涉及的技术和数据库息息相关,特别是存储、查询和并发控制。多模数据库现在大家关注更多的是查询,但实际上事务才是更为艰难的问题,因为事务处理强调一致性,还有可用性、分区容忍性。三者不可能兼有,只能放弃一个。因为我们融合集成了不同类型的数据,比如说事务型数据库强调强一致性,NoSQL 数据库强调弱一致,而这种最终一致性如何实现,这个矛盾在多模态数据库中是一个很大的挑战”

图片

单机分布式一体化,数据融合的架构创新

数据库类型分两种:一种叫集中式数据库,也是以前的主流数据库,另一种是分布式数据库,相对这个领域比较新一点,从 2000 年谷歌开始做分布式的文件系统、分布式的计算、分布式的表格系统研发,慢慢发展到今天的原生分布式数据库 OceanBase,由分布式存储发展到分布式数据库。

OceanBase 自 2010 年诞生,经历了从 1.0-4.0 的四个主要发展阶段。OceanBase CTO 杨传辉以 OceanBase 为例,为大家带来了“单机分布式一体化架构的探索与实践”的主题分享。

图片

杨传辉表示:“我们讲单机分布式一体化正是希望把单机数据库和分布式数据库融合起来,以前所有的单机数据库都是没有办法做扩展的,但单机数据库的功能很强大,单机性能很好,但缺少高可用和机房容灾的能力,并且机器处理能力不足。而分布式数据库可以扩展,并且可以做三地五中心的高可用的架构。由于以前所有的分布式数据库是由分布式存储发展来的,也带来了一些问题,每台机器性能比较差。所以在设计 OceanBase 架构时,我们就想把分布式和单机架构糅合在一起成为一套系统——一方面让系统可以扩展,另一方面不希望损失单机性能,让用户使用起来更便捷。所以 OceanBase 在去年提出了单机分布式一体化架构,涵盖接口的统一、能力的统一、性能的统一、扩展方式的统一。包括由单机到分布式这个过程,保证一台机器扩上去不损失事务,对用户来说是无感平滑的。”

OceanBase 从 1.0 到 4.0,经历了四个主要发展阶段。1.0 阶段,OceanBase 从内部场景开始打磨自身稳定性,到 2.0 阶段,SQL 性能的进一步优化、兼容MySQL,再到 3.0 阶段的兼容 Oracle,兼顾 TP 和 AP,真正做到了一体化的交易分析和处理。在这些探索的基础下,OceanBase 有了 4.0 版本,开始打破分布式数据库不适合小企业的刻板印象,尝试做单机分布式一体化,让分布式数据库“可大可小”,在真正成为主流数据库的路上迈出了重要的一步。

今天的 OceanBase 正在从金融走向国计民生,具备了从大到小的能力,助力不同规模的企业实现数字化转型。

网商银行作为全球首个应用在分布式数据库上的金融核心系统,其基础技术架构负责人蒋维杰在现场为大家分享了“网商银行分布式数据库一体化架构的实践探索”。

图片

网商银行是一家没有实体店和营业厅的银行,所有的业务都是在手机 APP、支付宝、微信小程序或者是网页上进行的,所有数据来源全部来源于线上,这意味着网商银行对技术要求十分之高。蒋维杰介绍:“网商银行最主要的特点就是它非常类似于一家互联网企业,所以它的技术特点有三个方面,首先是必须具备很高的性能来应对用户数据可能出现的爆发式增长;其次是对于数据库或者是对于计算能力都要求高弹性,以此来保证具备成本优势;第三是金融基因带来的高可用和资源隔离需求。”

在从 MySQL 升级成为 OceanBase 的过程中,网商银行经历了很长时间的进步与发展。也因此,蒋维杰提出了自己对下一代数据库的发展方向畅想:其一,在不同规格的芯片服务器情况下怎么保障数据的稳定性,怎么保持负载的均衡,这个还需要去不断探索;其二,在金融行业,目前的 RTO<8s 是否能继续压缩,可以在更短的时间完成数据库的故障恢复;其三,离线数据分析的传输成本问题,现有数据库是否能处理融合类型的数据库,真正去为业务服务。

图片

圆桌共话:下一代数据融合技术趋势

在论坛尾声,几位专家、学者围绕「下一代数据融合技术趋势」进行了圆桌讨论。

图片

华东师范大学副校长、研究生院院长、“智能+”研究院院长、数据学院教授周傲英:“做系统,我们努力的方向跟生活的经验是紧密结合的,肯定要关注应用,但是如果关注应用太广泛就等于没有关注;如果关注得少可能更有价值,找到案例很重要。”

OceanBase 创始人兼首席科学家阳振坤:“关于融合我想说两个点,其一是TP和AP,大家如果实际接触业务会觉得这件事情很需要,现在 AP 用到的问题就是大家都用大数据系统,大数据系统是需要ETL的,数据出去做转换、做加载,现在业务要的报表越来越多,多一个维度就多一份数据,所以很多公司大数据的增长速度是快于业务增长速度的,这是不可持续的。第二个点是结构化和半结构化。关系数据库最强大的能力是结构化数据,可我们今天有越来越多的半结构化数据需要处理。”

武汉大学计算机学院教授、大数据研究院副院长彭智勇“当数据量越来越大,如果数据管理很复杂,它的性能就会下降,所以现在主要是把数据的结构变得简单。同时,更多要关注数据模型的基础性研究和平台的变化。”

网商银行基础技术架构负责人蒋维杰:“数据库接下来会不会在互操作性上达成一种交互的统一,界面上通过统一的语言或者是界面实现不同类型数据库的快速交互,我觉得是一个可以期待的方向。当然,数据模型或者是底层数据存储的统一能做到最好,但是数据结构不一样或者是对数据查询的要求不一样,真正做到数据模型的统一不一定能达到,但是真正在互操作层面或者是协同层面能够做到统一,这个我觉得是一个非常值得期待的。”

南洋理工大学教授、新加坡电信-南洋理工人工智能联合实验室主任丛高“我也是从AP和TP融合说起,我觉得这件事本身像阳老师说的,是冲突的。如果我们探索现有系统,一般是这个做得好一些,那个做得差一些,可能TP好一些或者AP好一些,既然有应用,这个事肯定是会往前发展的,但是很难做到一个系统真正让两个都做得比其他的好。”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1167323.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Vector CANape 21安装

系列文章目录 文章目录 系列文章目录简介下载 Vector CANape 21 简介 CANape基础操作介绍:工程创建,测量,标定,离线分析操作。 下载 Vector CANape 21 如下是Vector CANape21的下载安装步骤: https://www.vector.co…

uni-app 开发的H5 定位功能部署注意事项

一、H5部署的时候,如果设计到定位功能,需要注意以下几点 1、打包部署的时候需要在Web配置-定位和地图里面勾选一个地图,并配置key 2、打包部署需要域名是https协议的,大多数现代浏览器要求在HTTPS协议下才能够访问地理位置信息&a…

【Python基础知识四】控制语句

Python基础知识:控制语句 1 条件控制1.1 if语句1.2 match...case语句 2 循环语句2.1 for循环2.2 for...else语句2.3 while循环2.4 while 循环使用 else 语句2.5 无限循环 参考 Python控制语句主要包含顺序、选择和循环三个方面,下面主要从这三方面进行介…

winscp文件增量同步到linux服务器

一,点击同步 场景:在做服务器迁移的时候,文件好几十个G一天也迁移不完,每天还有增量的文件,先全量同步一次,然后再用增量同步,然后你用winscp的同步工具,进增量同步。 将本地文件同…

[JavaWeb]——JWT令牌技术

🌈键盘敲烂,年薪30万🌈 目录 一、前言: 二、JWT令牌技术 2.1 概念介绍 2.2 组成介绍 2.3 JWT对象介绍 2.4 JWT生成 2.5 JWT校验 三、总结 一、前言: 问题抛出❓ 许多网页都会设置登录界面,我们点击…

HarmonyOS列表组件

List组件的使用 import router from ohos.routerEntry Component struct Index {private arr: number[] [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]build() {Row() {Column() {List({ space: 10 }) {ForEach(this.arr, (item: number) > {ListItem() {Text(${item}).width(100%).heig…

光电直读水表支持短时间多次抄表吗

传统的水表读数方式已经逐渐无法满足人们对于便捷、准确的需求。为此,光电直读水表应运而生,它凭借出色的读数性能和稳定的准确性,赢得了广大用户的一致好评。那么,光电直读水表支持短时间多次抄表吗?答案是肯定的&…

centos7-lamp

目录 一、安装 1.关闭防火墙关闭selinux 2.安装apache 3.配置主页 二、部署mariadb(mysql) 1.用yum安装 2.启动数据库 3.看下端口是否listen 4登录mysql 5.修改下密码 三、安装php 1.安装依赖包 2.安装php解释器和php连接mysql驱动 3.配置…

网站文章收录因素,别人复制文章排名比你原创的好?

我经常看到有站长抱怨“网站不收录”,“排名不好”,“复制的文章为什么秒收”之类的问题。对于SEO从业者来说,这确实是一个打击,认为搜索引擎不公平。凭什么自己原创不收录,别人复制去了,秒收他的&#xff…

ClickHouse 学习之从高级到监控以及备份(二)

第 一 部分 高级篇 第 1 章 Explain 查看执行计划 在 clickhouse 20.6 版本之前要查看 SQL 语句的执行计划需要设置日志级别为 trace 才能可以看到,并且只能真正执行 sql,在执行日志里面查看。在 20.6 版本引入了原生的执行计划的语法。在 20.6.3 版本成…

库房管理软件采购申请流程代码实现解析

300rmb掏了个javavue2的小系统,学习代码,调整下申请流程。 原有的入库流程是,库管(admin)提出采购申请给采购员(caigou),采购员采购入库时点击入库完成采购入库流程。 想弄清后端代…

基于深度学习之基于KNN算法智慧体育检测系统

欢迎大家点赞、收藏、关注、评论啦 ,由于篇幅有限,只展示了部分核心代码。 文章目录 一项目简介 二、功能三、系统四. 总结 一项目简介 智慧体育检测系统是一种基于K最近邻(KNN)算法的人工智能系统,旨在分析和评估个体…

Docker DeskTop安装与启动(Windows版本)

一、官网下载Docker安装包 Docker官网如下: Docker官网不同操作系统下载页面https://docs.docker.com/desktop/install/windows-install/ 二、安装Docker DeskTop 2.1 双击 Docker Installer.exe 以运行安装程序 2.2 安装操作 默认勾选,具体操作如下…

HCL模拟器综合实验案例(2)

本案例提供给计算机网络专业学生以及参加新华三杯的同学进行学习 题目 由于公司并购前的历史原因导致双方使用不同的 OSPF 进程,经由总部技术部统一规划后再做调整,现阶段使用暂时过渡方案,即使用静态路由、OSPF、RIP、BGP多协议组网&#x…

C++之继承(篇一)

🍼博客主页:阿博历练记 📖文章专栏:c 🚍代码仓库:阿博编程日记 🍡欢迎关注:欢迎友友们点赞收藏关注哦🌹 文章目录 🥝1.继承的概念及定义📜1.1继承的概念🗝️1.2继承图解&#x1f50d…

基于学校优化算法的无人机航迹规划-附代码

基于学校优化算法的无人机航迹规划 文章目录 基于学校优化算法的无人机航迹规划1.学校优化搜索算法2.无人机飞行环境建模3.无人机航迹规划建模4.实验结果4.1地图创建4.2 航迹规划 5.参考文献6.Matlab代码 摘要:本文主要介绍利用学校优化算法来优化无人机航迹规划。 …

MySQL 分组后统计 TopN 思路优化

一、表信息 表结构如下: CREATE TABLE score (id int(11) NOT NULL AUTO_INCREMENT,name varchar(255) DEFAULT NULL,score int(11) DEFAULT NULL,PRIMARY KEY (id) ) ENGINEInnoDB AUTO_INCREMENT1746687 DEFAULT CHARSETutf8;使用存储过程生成十万条测试数据&am…

Elasticsearch:使用 ES|QL

在我之前的文章 “Elasticsearch:ES|QL 查询语言简介”,我对 ES|QL 做了一个简单的介绍。在今天的文章中,我们来描述如何使用 ES|QL。 REST API 这个用来返回 ES|QL (Elasticsearch qyery language) 的查询结果。它具有如下的格式&#xff1…

MongoDB安全及系例全教程

一、系列文章目录 一、MongoDB安装教程—官方原版 二、MongoDB 使用教程(配置、管理、监控)_linux mongodb 监控 三、MongoDB 基于角色的访问控制 四、MongoDB用户管理 五、MongoDB基础知识详解 六、MongoDB—Indexs 七、MongoDB事务详解 八、MongoDB分片教程 九、Mo…

用扩散AI生成的合成数据的质量评估方法【4个指标】

在线工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 3D场景编辑器 为了生成有用的图像数据集,我们使用真实世界的照片数据集作为指南针,探索即时工程的艺术。 我们的稳定扩散(…