飞轮科技首席执行官马如悦受邀出席可信数据库发展大会,三大事件,一文解读!

news2024/11/28 12:39:20

近日,由中国通信标准化协会、大数据技术标准推进委员会主办,InfoQ 极客传媒联合主办的 “2024 可信数据库发展大会” 在京成功召开。此次大会汇聚了众多数据库行业领军企业、专家学者,共同探讨全球数据库发展趋势,分享最具权威性的产业洞察和前沿的实践案例。

作为国内领先的企业级实时数据仓库产品厂商,飞轮科技首席执行官马如悦受邀出席大会,并带来了现代化实时数据仓库 SelectDB 全方位产品解读, 从数据分析的现代化趋势出发,对 SelectDB 产品核心定位及三大产品形态——多云原生的实时数仓服务 SelectDB Cloud、私有化部署的实时数仓软件 SelectDB Enterprise 以及联合阿里云打造的全托管云上实时数据仓库 阿里云数据库 SelectDB 版进行了全面解读分析。

现代化实时数据仓库 SelectDB 全方位产品解读.PNG

现代化实时数据仓库 SelectDB 产品解读

01 数据分析基础设施的三个阶段

马如悦在现场提出,纵观数据分析的发展历程,数据分析平台数据仓库的演进经历了三个阶段。 每个阶段持续大约 20 年。第一阶段即在 2000 年之前,以 Teradata 为代表的传统数据仓库逐渐成熟占据主流,包括 OLAP、数据仓库、MPP 以及数据仓库一体机的形态。 2000 年前后,随着谷歌三驾马车的问世,以 Hadoop / Spark 为代表的大数据平台成为大数据分析的基座,成为第二阶段的事实标准。从 2020 年开始,现代化的数据分析平台/数据仓库开始成为主流采用形态,也预示着新一个 20 年的周期开始了。现代化的数据仓库产品开始涌现,这些产品兼顾了传统数据仓库的可靠性和性能优势,以及对大数据的高效处理和实时分析能力。总体而言,数据仓库的三大现代化趋势为实时分析、湖仓融合以及云原生化。

数据分析基础设施的三个阶段.PNG

过去,企业大多使用传统数据仓库对历史数据进行批量分析,如今,数据分析逐渐转向实时处理,实时报表和交互式分析逐渐取代传统静态报表,数据结果从一开始的仅供数据分析师使用,逐渐转向为机器和算法使用的实时决策系统。同时,随着业务发展和数字化转型,数据分析需求由内转向外,要求分析系统能适应更多样化的在线分析业务场景。

02 实时分析

在应对大规模数据的实时分析时,核心挑战来自两个方面:

  • 随着数据实时写入数据库,挑战之一是如何以更低的延迟提供数据。我们需要降低数据传输和处理的延迟,以提高数据的新鲜度,并及时处理最新数据的变化。
  • 对于上层数据应用而言,如何提供更快的查询、降低查询耗时。我们需要持续优化查询性能,提高查询的快速响应度,以满足上层数据应用的性能需求。

SelectDB 通过实现了大规模数据实时导入与实时存储和多种查询负载上的极速分析性能,解决了实时分析的难点。

实时分析.png

在数据导入存储方面,SelectDB 完成了以下功能:

  • 秒级的数据实时更新(主键表)与追加:SelectDB 实现了实时数据的秒级可见,在主键表和非主键表上实现了高效的实时更新和追加,相比之下,许多传统数据仓库甚至包括现在广泛使用的 Snowflake 和 Redshift 往往只能支持批量更新、甚至没有主键表的支持,很难实现高频率的实时更新。

  • 数据库 CDC / Kafka 流式数据同步:实时数据仓库的上游数据源往往来自 TP 数据库或 Kafka 消息队列 ,为此 SelectDB 内置了数据库的 CDC(变更数据捕获)功能以及 Kafka 的流式数据同步功能,能够实现秒级的数据同步。

  • 毫秒级轻量化表模式修改:不止数据可以实时写入和更新,对于表的模式(Schema)也需要进行快速变更,以适应当今快速变化的业务环境。而 SelectDB 能够毫秒级提供 Schema 修改的功能,同时 Schema 修改期间完全不影响在线业务的运行

  • 丰富的半结构化数据类型支持:随着不同类型的数据不断增加,半结构化数据类型也日益常见。SelectDB 通过引入 Array、Map、JSON 等数据结构,能够高效支持半结构化数据类型的存储和处理需求。

在查询方面,SelectDB 实现了以下功能,帮助用户获取极速分析性能 :

  • 高并发点查询:SelectDB 实现了单节点 30000 QPS 的超高并发, 真正具备了在一套架构下同时满足高吞吐的 OLAP 分析和高并发的 Data Serving 在线服务的能力,大大简化了混合工作负载下的技术架构,为用户提供了多场景下的统一分析体验。

  • 大宽表查询 :众所周知,ClickHouse 在处理大宽表查询方面表现出色,而在 ClickHouse 所发起的数据库性能排行榜 Clickbench 中,2022 年 10 月 SelectDB 首登榜单即斩获榜单第一名的成绩,这进一步证明了 SelectDB 在处理大宽表查询方面具备出色的性能。

  • 多表 Join 查询:多表 Join 是 Apache Doris 一以贯之的优势,同样也是 SelectDB 的核心优势。在 SSB 和 TPC-H 等多表 Join 的测试中,SelectDB 性能最多可以达到 ClickHouse 的 100 倍、Greenplum 的 5-10 倍;

  • 增量库内 ELT :过去 Spark 被广泛用于批处理的 ETL,而 Flink 则专注于实时 ETL。SelectDB 提供了内置的增量 ETL 功能,相对于 Spark 具备更高的实时性,并且更易于使用。

03 湖仓融合

马如悦提到,在大数据领域,存在众多的系统和组件,它们往往在架构中扮演着不同的角色。而随着时代的进步,架构“减负”已成为企业发展的重要目标。 数据仓库在性能方面表现出色,而数据湖则以其开放性和能够存储各种数据的优势而受到青睐。然而无论湖或仓在场景上都具备一定的局限性,因此如今我们正处于数据湖和数据仓库融合的阶段,要想充分利用数据仓库的高性能和数据湖的开放性,整合这两者变得至关重要。

湖仓融合.png

SelectDB 基于 Federated Query Engine(联邦查询引擎) 和 Open Data Lake(开放数据湖) 特性进行了大量的技术创新,以实现更加彻底的湖仓融合能力。

作为一个高效的联邦查询引擎,SelectDB 可以通过创建外部数据目录的方式与外部数据源进行映射,例如可以将 Hive、Elasticsearch、Iceberg 等数据源映射为外部表,SelectDB 将自动更新元数据,并自动进行外部数据的高速缓存。

除了提供基于 MySQL 协议的 SQL 查询 API,同时还提供高吞吐的数据读写 API,使得可以作为开放的数据湖格式并被其他计算引擎访问,提升湖仓融合开放性。SelectDB 提供了基于 Arrow Flight 的 HTTP Data API 高吞吐数据读写接口,使客户端以并发方式与多个 BE 进行读取,以提供更高的数据读取能力。无论是使用 Flink Connector、Spark Connector,还是通过 Python SDK( 数据科学、机器学习 )都可以快速访问。因此,基于 SelectDB 可以与整个 AI 和数据科学生态进行良好的整合,这也是未来的重要发展方向。

04 云原生与随处运行

SelectDB 不仅提供存算一体的部署方式,也提供更加云原生化的存算分离的使用方式。在产品设计上,马如悦指出,SelectDB 提供三个版本:全托管的云服务版本(SelectDB Cloud)、可私有化部署的企业版(SelectDB Enterprise)以及联合阿里云打造的全托管云上实时数据仓库阿里云数据 SelectDB 版。

全托管的云服务版本 SelectDB Cloud 面向有上云需求的企业。SelectDB Cloud 可以在国内外主流公有云上运行,并在多个云上有一致的使用体验。多云一致并且体验一致是其区别云厂商数仓服务的一大特色。 SelectDB Cloud 对 Apahce Doris 进行了大量重构以便利用云的强大能力,提供更大弹性。存储与计算的分离,可以让存储与计算独立扩缩容;多计算集群的支持,可以在共享一份数据的基础上,可以提供物理隔离的多个计算集群;每一个计算集群都可以进行自动扩缩容。与此同时,SelectDB Cloud 提供了可视化的管理控制台,帮助简化开发运维工作。

云原生与随处运行.png

您可通过上图了解 SelectDB Cloud 整体架构:对于企业而言,可以建立多个仓库、每个仓库可以有多个计算集群,这些集群之间共享对象存储,每个集群由多个计算节点组成,计算节点还可以实现弹性扩缩容。这样的架构也为企业带来了极致性价比:

  • 存储冷热分离:对于面向海量数据分析的 AP 系统而言,不可避免会持续积累历史数据,而这些历史数据会占据大量存储成本。相对于价格高昂的云盘,对象存储的价格低廉且可靠性高,将冷数据卸载至对象存储可以将存储成本降低至原来的五分之一。
  • 弹性计算:我们注意到许多客户计算集群的真实利用率(CPU 利用率)大约只有 20%,这是因为需要满足每天的峰值负载,而大多数时间内 CPU 利用率相对较低。通过弹性扩缩容功能,可以根据负载的需求不断地扩展或缩减节点,使 CPU 利用率保持在 70%-80% 甚至更高,计算效率得到极大幅度提升、计算成本仅需之前的 25%。

SelectDB Enterprise 版本则服务于希望私有化部署 SelectDB 的企业。 作为一款私有部署和自管理的系统软件,SelectDB Enterprise 内核基于 Apache Doris 构建,并且与 Apache Doris 100% 兼容。SelectDB Enterprise 版主要提供一个长周期支持的、稳定的 Doris 内核。 开源的 Apache Doris 内核迭代比较快,新功能不断合入,企业客户在不断体验新功能的同时,也会担忧投入生产后的稳定性问题。所以,SelectDB 基于开源 Doris 提供了一个企业级的稳定内核,会在广大开源用户使用的问题反馈基础上、经过 SelectDB 专职测试团队测试和调优,并且 SelectDB 为每个稳定内核提供长达 12-36 个月的长周期持续维护,免除企业升级带来风险的担忧。 这个内核完全可以与开源 Doris 内核互相兼容,企业随时可以从两个内核互相切换,不用担心被锁定到 SelectDB 的企业内核上。同时,SelectDB Enterprise 版也会提供可视化的 Manager 功能。数据库管理员可以利用 Manager 管理多个集群,完成部署、升级、重启和配置等功能,同时可以诊断、监控和报警等。SelectDB Enterprise 版,也会提供跨集群复制和备份恢复等企业级功能。

SelectDB Enterprise 版本.png

除了企业版的内核和管控工具,马如悦提出,SelectDB 为企业用户提供了专家技术服务,旨在消除用户在生产环境中使用 Apache Doris 的后顾之忧。 作为基于 Apache Doris 的商业化公司,飞轮科技聚集了大量的社区贡献者、Committer 以及 PMC 成员,提供了更加专业的技术支持服务:

  • 消除风险:提供例行巡检,及时消除系统可能的隐患;
  • 解决问题:严格的服务 SLA,确保 7*24 小时专属支持,对紧急 Bug 提供天级别的专属修复版本更新;
  • 优化系统:通过对产品培训、业内最佳实践分享,与客户一起优化系统性能和成本。

阿里云数据库 SelectDB 版是专为现代企业量身定制的实时数仓解决方案,植根于开源 Apache Doris 的坚实基础,却不止于此——深度融合云随需而用的特性,依托阿里云基础设施,构建起云原生存算分离的全新架构,面向企业海量数据的实时分析需求,提供极速实时、湖仓融合统一、简单易用的云上数仓服务。

早在 2023 年初,阿里云与飞轮科技开启战略合作,围绕实时数据仓库这一方向不断深耕,探索符合现代化实时数据仓库的新标准。在历经一年多的研发、邀测及公测阶段后,自 2024 年 5 月起,阿里云数据库 SelectDB 版已全面开启商业化,赢得了数百家企业的信赖与大规模应用实践,正在迎接全球范围内客户在海量数据实时分析领域的挑战!

05 主要应用场景

最后,马如悦也为现场观众介绍了 SelectDB 的各大应用场景,包含:实时报表与实时决策、交互式探索分析、用户行为与画像分析、日志管理与分析,以及混合云和多云部署场景。

主要应用场景.png

  • 在实时分析场景中, SelectDB 支持 100 万行/秒的实时写入,也支持流式的从 OLTP 数据库和 Kafka 同步数据,同时支持亚秒级查询响应,单机上万 QPS 的高并发点查。

  • 在交互式探索分析场景中, SelectDB 在多种查询负载上拥有极速性能,并在外表内表中均可以进行联邦查询分析。做到了无需移动数据,即可使用 SelectDB 完成多种数据源的即席查询分析。

  • 在用户画像与行为分析场景中, SelectDB 支持毫秒级加列、部分列更新。并拥有丰富的行为分析函数,带来开发简化和效率提升,比如 rentention、window_funnel、sequence_match 等。同时,SelectDB 可通过高表正交位图实现画像场景的秒级圈人,以做到千亿数据秒级人群预估,秒级别 10 标签圈人,10 秒级别 100 标签人群圈选。

  • 在日志管理与分析场景中, SelectDB 服务端提供的 Group Commit 机制,能保证秒级实时可见前提下写入吞吐到 GB/s。SelectDB 高性价比存储在提升业务效率的同时也做到了成本降低,帮助企业降本增效。

  • 在混合云和多云部署场景中, SelectDB 灵活的产品使用和部署形态、统一的可视化管控工具与便捷的数据贯通和迁移方式,能够最大程度上为用户带来多云一致的体验。

马如悦的现场演讲,不仅让现场观众深入了解到数据仓库领域的现代化发展趋势,更对 SelectDB 的产品形态与应用场景有了清晰的认识。为了让更多用户了解到此次分享的精彩内容,飞轮科技也在下方公开了演讲视频与材料,欢迎前来下载。

点击观看演讲回顾视频

点此下载演讲资料: 现代化实时数据仓库 SelectDB

SelectDB 入选《中国数据库产业图谱(2024)》

在本次大会上,中国通信标准化协会大数据技术标准推进委员会(CCSA TC601)重磅发布了《中国数据库产业图谱(2024)》,该图谱旨在全面客观展现我国数据库产业中的关键领域、环节和代表企业。SelectDB 作为全球最受技术人员认可的分析型数据库之一,成功入选该图谱。

中国数据库图谱.png

成功入选此图谱,代表着飞轮科技在技术创新、应用实践及用户体验等方面均达到了行业领先水平。截至目前,飞轮科技已为全球 5000 余家中大型企业核心数据分析场景提供服务。 客户遍布金融、互联网、电信、游戏、零售、制造、交通物流等多个领域,满足不同行业不同场景的数据分析需求,具备丰富的落地实战经验。未来,飞轮科技将继续深化功能创新优化与行业应用实践,为全球用户带来更加实时、统一、弹性、开放的数据分析体验。

飞轮科技加入数据库应用创新实验室金融工作组

除此之外,飞轮科技作为首批共建单位,加入数据库应用创新实验室金融工作组,赋能金融行业数据分析卓越发展。 目前,SelectDB 已在金融行业实时数仓构建、报表分析、CDP 平台建设等场景中广泛使用,为汇添富基金、银联商务、易生支付等客户提供数据分析解决方案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2034738.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

合成数据的pipline

参考:https://github.com/yizhongw/self-instruct 总体来说就是 大模型自己遵循一套流程来生成数据,然后来微调自己。 1.指令生成 每一个迭代都选8个任务的指令作为该任务的提示样本,其中6个是人写的,2个是生成的。 然后组成输…

从零到一:家政保洁小程序搭建全攻略与功能作用深度解析

目录 一、家政保洁小程序主要功能 二、家政保洁小程序搭建教程 (一)前期准备 (二)注册与选择工具 (三)设计与开发 (四)测试与优化 (五)发布与推广 一、…

笔记本CPU天梯图(2024年8月),含AMD/骁龙等新CPU

原文地址(高清无水印原图/持续更新/含榜单出处链接): 2024年8月笔记本CPU天梯图 2024年8月笔记本CPU天梯图 2024年8月5日更新日志:常规更新Cinebench R23、PassMark笔记本CPU天梯图,新增Geekbench 6.2单核多核天梯图&…

您真的了解人类反馈强化学习(RLHF)吗?

生成性人工智能,就像ChatGPT和Gemini这样的应用,现在可火了,感觉我们生活中越来越离不开它们。 不过呢,这些工具虽然厉害,但用的时候也得留个心眼,因为它们可能会搞出些问题来。比如,有时候AI可…

DP转Type-c方案 带PD快充(外接显卡与VR)

DP转Type-C技术允许用户将DisplayPort信号转换为Type-C接口,‌以便连接和支持Type-C接口的设备。‌ DP转Type-C技术主要应用于需要将DisplayPort信号转换为Type-C接口的情况,‌以便连接和支持只有Type-C接口的设备。‌这种转换技术通过专门的转换器或连…

前端项目中的Server-sent Events(SSE)项目实践及其与websocket的区别

前端项目中的Server-sent Events(SSE)项目实践 前言 在前端开发中,实时数据更新是提升用户体验的重要因素之一。Server-SentEvents(SSE)是一种高效的技术,允许服务器通过单向连接将实时数据推送到客户端。下面将从SSE的基本改变,使用场景展…

TCP问题总结

TCP三次握手与四次挥手 1.TCP 头格式有哪些? 标注颜⾊的表示与本⽂关联⽐较⼤的字段,其他字段不做详细阐述。 序列号:在建⽴连接时由计算机⽣成的随机数作为其初始值,通过 SYN 包传给接收端主机,每发送⼀次数 据&am…

MapReduce入门教程

这可不是目录 入门定义与说明数据分析Map和Reduce阶段的任务<Kn,Vn>分析MapReduce的数据类型其他说明(持续更新) 开发案例(持续更新)自定义的wordcountcsv文件操作序列化操作 入门 定义与说明 数据分析 以下未数据分析示意图 Map和Reduce阶段的任务 Map阶段的任务&a…

安科瑞Acrel-2000ES储能能量管理系统在新型电力系统下分布式储能的研究

摘要&#xff1a;传统电力系统的结构和运行模式在以新能源为主体的新型电力系统中发生了巨大的变化&#xff0c;分布式储能作为电力系统中重要的能量调节器&#xff0c;也迎来了新的发展机遇。立足于储能技术发展现状&#xff0c;分析了分布式储能技术特点及在清洁可再生能源方…

ALLEGRO直接转PADS方法

1.ALLEGRO转PADS之前系统上添加用户变量 打开环境变量窗口&#xff0c;以WIN10为例 添加变量和值 变量名&#xff1a;AEX_BIN_ROOT值&#xff1a; PADS软件中translators软件的bin目录路径比如我的&#xff1a;AEX_BIN_ROOTD:\MentorGraphics\PADSVX.2.3\SDD_HOME\translator…

用python的manim库实现表格的绘制和制作【table 上】

表格的定义&#xff1a;按行和列排列的信息&#xff08;如数字和说明&#xff09;。 这是人们参加的运动的表格&#xff1a; 接下来绘制一些表格&#xff1a; 1. 创建一个包含小数数字的表格{DecimalTable} DecimalTable 是 Manim 中用于创建一个包含小数数字的表格的类。这个…

SD-WAN在海外网络加速中的优势

随着全球化的加剧&#xff0c;企业在海外业务拓展中面临着网络延迟、数据安全和成本等一系列挑战。针对这些问题&#xff0c;SD-WAN(软件定义广域网&#xff09;成为了企业网络架构的良好选择。本文将详细介绍SD-WAN在海外加速中的应用和优势。 1.SD-WAN是什么? SD-WAN是一种网…

软件开发者申请代码签名证书流程

软件目前已经成为人们生活和工作不可或缺的一部分&#xff0c;随着互联网的普及和软件分发渠道的多样化&#xff0c;软件的安全性和可信度变得越来越重要。 为了确保软件的完整性、安全性和来源可信性&#xff0c;代码签名证书应运而生。 在软件完成了开发之后&#xff0c;开…

硬件面试经典 100 题(31~40 题)

31、多级放大电路的级间耦合方式有哪几种&#xff1f;哪种耦合方式的电路零点偏移最严重&#xff1f;哪种耦合方式可以实现阻抗变换&#xff1f; 有三种耦合方式&#xff1a;直接耦合、阻容耦合、变压器耦合。直接耦合的电路零点漂移最严重&#xff0c;变压器耦合的电路可以实现…

软件测试经典面试题(答案解析+文档)

&#x1f345; 点击文末小卡片&#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快 1、B/S架构和C/S架构区别 B/S 只需要有操作系统和浏览器就行&#xff0c;可以实现跨平台&#xff0c;客户端零维护&#xff0c;维护成本低&#xff0c;但是个性化…

EXCEL数据清洗步骤

1.合并的单元格: 用Ctrl+g查找空值,拆分单元格,ctrl enter填充 2.空值+空行: 辅助列+counta,筛选出空值行 3.重复值: 条件格式——突出显示单元格规则——重复值 数据——数据工具——删除重复值 4.脏数据 图片,批注,空格,条件格式 5.数据提取 ctrl e智能填充…

Web自动化测试:UI自动化框架结构以及思路!

在学会使用unittest后&#xff0c;实际上UI自动化的基础骨架已经搭建起来了&#xff0c;剩下的就是利于这套框架&#xff0c;增添一些我们需要的功能&#xff0c;目前看来&#xff0c;我们已经可以使用此框架来批量运行用例&#xff0c;欠缺的是整体的思路以及一些其他功能细节…

RSA算法解析

目录 引言 网络通信的明文传输风险 HTTP的不安全性及其风险点 ​编辑HTTPS的引入 为什么需要HTTPS HTTPS与HTTP的主要区别 TLS协议概述 TLS的作用和重要性 TLS在网络层的位置 TLS握手过程 握手过程的目的和步骤 TLS握手的各个阶段 RSA算法原理 RSA算法的基本概念 …

八股文学习总结

八股文学习总结 文章目录 八股文学习总结一、总体概况二、Java基础三、集合四、JUC五、JVM六、MYSQL七、Redis八、MQ九、计网十、OS十一、附上我记的笔记 一、总体概况 八股文也看了好多天了&#xff0c;我对八股文基本上考察哪些点也都有了印象&#xff0c;主要的分为Java基础…

uni-app 开发App时调用uni-push 实现在线系统消息推送通知 保姆教程

一、引言 在开发App时避免不了需要推送系统通知&#xff0c;以提高用户的使用体验。在自己的一个工具型的小app上全流程接入了uni-push2.0的推送能力&#xff0c;做个记录&#xff0c;以防后期需要用到。在阅读本教程前最好先看看官方文档&#xff0c;结合官方文档使用&#xf…