引领云数仓创新浪潮 HashData闪耀PostgreSQL中国技术大会

news2024/9/21 12:28:45

 3月3日-3月5日,第12届PostgreSQL中国技术大会在杭州举行。本次大会以“突破•进化•共赢——安全可靠,共建与机遇”为主题,以线上+线上结合的方式,邀请了PG领域众多行业大咖、学术精英及技术专家,共同探讨数据库未来的发展动态、技术突破、实践案例和生态合作等话题。

HashData作为国内领先的PG技术栈实践者和重要的社区贡献者,受邀参加本次大会。来自HashData的技术专家团队,为观众呈现了云数仓发展趋势、向量化与并行化实践等精彩演讲。

在本次大会上,HashData云数仓凭借高性能、高可用、弹性伸缩、高性价比等诸多优势,在众多数据库产品中脱颖而出,荣膺“第12届PostgreSQL中国技术大会数据库最佳产品奖”。

 图:HashData联合创始人马涛

数据仓库云服务的再演进

强大的功能、友好的运维要求和丰富的生态使得PostgreSQL广受欢迎。然而随着云计算的快速兴起,用户对基于云原生架构的数据仓库需求引领了行业新一代技术栈的发展。

在《数据仓库云服务的再演进》的主题演讲中,HashData联合创始人马涛从DWaaS(数据仓库即服务)技术演进、架构升级等角度阐述了云数仓未来技术发展趋势。

在马涛看来,与传统数仓相比,云数仓在搭建、使用、扩容、运维等成本方面有着显著的优势,“传统数仓用户完成扩容或者迁移,通常需要两三周的时间”。

在这样的背景下,DWaaS成为当下数仓领域的热门话题。马涛认为DWaaS应该具备配置和管理工作更简单、迅速的加载和使用数据、完善的生态系统、支持多元化数据的处理、强一致的数据管理机制、多种计算任务需求等特性。同时,还能够提供高可用系统和数据保护系统,按实际使用计费,满足用户对云计算弹性计费的预期。

 基于过去服务众多大型企业客户所积累的丰富实践经验,HashData提出了云端架构2.0的概念。与上一代云原生架构相比,HashData云端架构2.0在资源管理、查询优化、容器化服务等方面实现了全方位提升。

马涛认为,容器化服务已经成为公有云基础设施。数据库内核模块的容器化,能够充分发挥容器化技术的优势,更快地创建和启动模块,从公司内部研发测试到客户环境,都将会产生巨大的变革。HashData云端架构2.0将以容器化技术为基石,为客户带来更好的使用体验。

在网关服务方面,HashData云端架构2.0兼容PostgreSQL二进制协议,无缝与libpq/PostgreSQL JDBC等组件兼容;支持更多安全配置的HashData企业认证授权服务;支持通过SQL语句管理整个云服务;支持切换不同计算集群,更加高效地利用硬件资源,更容易实现负载均衡。

在查询优化服务/资源管理服务方面,HashData云端架构2.0中查询优化器和作业资源管理服务进一步实现无状态化,提升这两个模块在业务运行中的容错度,减少故障引起的业务中断和资源浪费。优化服务能够按照实际数据存储信息、动态执行采样,以及进行智能查询计划缓存;作业资源管理服务能够实现全局资源调度、全局资源监控和作业调度。通过将模块拆分成独立服务,有助于提高硬件的资源利用效率。

在计算服务方面,HashData云端架构2.0支持计算集群的自动启动/自动停止功能、增强无状态计算服务节点的可靠性、支持基于负载的自动扩缩容,引入了基于Arrow的向量化执行引擎,增强了对象存储文件的缓存系统。

马涛介绍,经过实际测试,原本客户从注册到实现数据库可用需要数分钟的时间,而基于HashData云端架构2.0容器化平台改造之后,整个的操作过程只需要大约10秒钟即可完成。

“从用户的实际使用需求出发,我们希望尽可能地降低用户搭建和使用数仓的时间和成本”,马涛说,HashData致力于降低数据分析的门槛,“让用户专注于核心数据分析上,而不是应对大量的配置以及管理工作。”

Cloudberry向量化与并行化实践

在“国产信创及数据库迁移”技术专场上,HashData内核工程师宋东晓分享了Cloudberry向量化与并行化实践。

近年来,随着海量数据的积累,数据分析的需求进一步提升。PostgreSQL作为一个有着悠久历史的开源数据库,其稳定性和灵活性得到广泛认可,很多企业也选择PG作为单机底层架构,来构建大型分布式系统。

传统数据库执行查询计划通常采用火山模型的方式,存在重复性执行多、反序列化代价高、数据局部性差等缺陷。如今,随着云计算技术的蓬勃发展,经典的SQL计算引擎逐渐成为数据库系统的性能瓶颈,尤其是对于涉及到大量计算的OLAP场景。

对于像HashData这样采用云架构的数据仓库而言,向量化可以通过提升单节点的执行能力,使整个集群的运算性能得到大幅度提升。

宋东晓介绍,HashData在实现向量化的过程中,采用了Apache软件基金会开源项目Apache Arrow。Arrow定义了标准的方式来表示可有效处理的内存数据,同时支持多种流行的编程语言,包括 Java、C、C++ 和 Python等。

OLAP场景普遍采用列式存储。列存数据的高压缩比不仅节约了存储空间,同时在向量化运算过程中也有着天然的性能优势。

HashData即将发布的Cloudberry产品,采用了向量化执行插件,功能更独立,工程管理更方便,实现在不影响PG功能的基础上,加速数据分析性能。同时,Cloudberry全面集成了PG14.4内核,在数据库层面做了多处优化,尤其在并行化处理能力方面实现了大幅提升。

 宋东晓认为,向量化的关键在于尽可能地减少公共流程的调用次数,从而降低整体的函数调用,同时也可以更好地利用数据局部性优势来提升cache命中率,并且可以利用SIMD指令做进一步加速。

此外,Cloudberry基于Arrow和其子项目Gandiva实现了一个既可以支持普通列式运算也可以支持JIT式的表达式计算框架。

在并行化方面,Cloudberry借鉴了PG14.4内核中的共享内存技术,通过让每一个执行器的运算节点在共享内存里竞争资源来自动获得负载平衡,从而实现启动多个进程,成倍降低运算时间。

HashData荣获“数据库最佳产品奖”

中国技术大会作为PostgreSQL技术领域的年度盛事,至今已经成功举办12届,也见证了PG开源生态在中国的建立、发展和成熟。

HashData作为一款100%兼容PostgreSQL生态的数据仓库,连续多年参加PostgreSQL中国技术大会,同时一直以来以代码贡献、社区共建等方式积极参与PostgreSQL社区的发展壮大。为表彰企业创新成就,激发创新精神,大会特别设立颁奖环节,授予HashData“数据库最佳产品奖”。

 HashData融合了传统数据库和云计算技术优势,兼容PostgreSQL和Greenplum Database生态,生于云上,长于云上,助力企业在云计算时代下的数字化转型。

凭借领先的技术架构和丰富的实践经验,HashData目前已在金融、政务、能源、交通、互联网等行业实现大规模商用部署。

未来,HashData将持续专注于PG领域技术创新,积极拓展生态合作伙伴,为国产数据库生态的繁荣与发展添砖加瓦。期待更多朋友与我们一道,为打造领先的基础软件不断努力!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/391539.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【C/C++ 数据结构】-八大排序之 归并排序其它排序

作者:学Java的冬瓜 博客主页:☀冬瓜的主页🌙 专栏:【C/C数据结构与算法】 分享:本王在此,狼狈为奸者,谋权篡位者,倒行逆施者,都得死! ——岐王李茂贞《画江湖…

Linux 静态与动态编译、静态库与动态库

文章目录一、库的简介二、静态链接和动态链接1、静态链接2、动态链接3、GCC 下动态库与静态库三、静态库制作和使用四、动态库制作和使用总结一、库的简介 什么是库文件呢? 所谓库文件,大家可以将其等价为压缩包文件,该文件内部通常包含不止…

MyBatis源码分析(六)MetaObject工具类的使用与源码分析

文章目录一、MetaObject基本使用二、关键类源码分析1、MetaObject的构造方法2、PropertyTokenizer分词器3、BeanWrapper4、MetaClass5、DefaultReflectorFactory6、Reflector7、总结三、MetaObject的getValue源码分析写在后面一、MetaObject基本使用 public class User {priva…

OPT(奥普特)一键测量传感器SmartFlash高精度的四重保证

OPT(奥普特)一键测量传感器SmartFlash集成了机器视觉的边缘提取、自动匹配、自动对焦、自动学习及图像合成等人工智能技术,采用双远心光路及多角度照明系统设计,搭载高精度运动平台,并通过亚像素边缘提取算法处理图像&…

Mysql全解[中级篇]

目录存储引擎MySQL体系结构1). 连接层2). 服务层3). 引擎层4). 存储层存储引擎介绍存储引擎特点InnoDBMyISAMMemory文件区别及特点存储引擎选择索引无索引情况有索引情况特点索引结构二叉树红黑树B-TreeBTreeMySQL中优化之后的BTreeHash索引分类聚集索引&二级索引回表查询索…

双周赛99(贪心、数学、区间合并计算、换根DP)

文章目录双周赛99[6312. 最小和分割](https://leetcode.cn/problems/split-with-minimum-sum/)贪心[6311. 统计染色格子数](https://leetcode.cn/problems/count-total-number-of-colored-cells/)找规律[6313. 统计将重叠区间合并成组的方案数](https://leetcode.cn/problems/c…

规并排序(Swift版本)

Overview 概述 时间复杂度为 O(nlogn) ;适合大规模的数据排序 ;相比于冒泡排序、插入排序、选择排序这三种排序算法, 更加常用 ;用到了分治思想(即分而治之, 英文叫 “Divide and conquer”),非常巧妙 ;英文名称: Merge Sort ; 分治思想, 在很多领域都有广泛的应用…

windows系统安装Linux虚拟机教程

虚拟机的安装首先要下载虚拟机的安装包,当前最新版本是VMware 16.2.1。软件我都已经给大家准备好了(含序列号),大家在这里下载就好。虚拟机安装包下载完毕之后,将它安装到电脑里。这个安装过程很简单,一路下…

Linux操作系统学习(线程池)

文章目录线程池线程池原理代码示例单例模式饿汉模式懒汉模式饿汉懒汉对比其他的锁线程池 线程池原理 ​ 线程池是一种线程使用模式。在多线程应用中,若每有一个任务,线程就去调度相应的函数去创建,当任务过多时,每次都去调度且每…

CCF大数据专家委员会十周年纪念庆典纪实:拥抱数字时代,展望科技未来

山河远阔,奋进十年,作为国内大数据领域最权威的学术组织,CCF大数据专家委员会(以下简称“大专委”)不忘初心,凝心聚力,见证并推动了过去10年来大数据技术生态在中国的建立、发展和成熟。 2023年…

HBase安装

文章目录一、安装Zookeeper二、安装HBase三、启动Hbase步骤四、关闭进程顺序五、简单使用Hbase在开始安装HBase之前,请确保您已经安装了Java运行环境和Hadoop分布式文件系统。如果您还没有安装这些软件,请查看之前博文介绍安装。 HBase安装包&#xff1a…

谷歌广告投放步骤流程是什么?一文带你全方位了解实操细节

谷歌,大家都不陌生吧,一个人们很常用的搜索引擎。而谷歌还可以打广告,即谷歌广告,那这跟跨境电商有什么关心呢?东哥告诉大家,关系大了去了,毕竟如果用户搜索与我们相关的关键词,就有…

streaming systems 第二章

The What, Where, When, and How of Data Processing 第一章主要关注三个领域:术语,准确定义我使用重载术语时的意思,如“流”;批处理和流处理,比较两种类型系统的理论能力,并假设使流处理系统超越批处理系统只有两件事是必要的:…

【Netty】第一章 NIO 三大组件、ByteBuffer 和文件编程

【Netty】第一章 NIO 三大组件、ByteBuffer 和文件编程 文章目录【Netty】第一章 NIO 三大组件、ByteBuffer 和文件编程一、Channel & Buffer二、Selector三、ByteBuffer1.ByteBuffer 使用方式2.ByteBuffer 结构3.ByteBuffer 常用方法4.Scattering Reads4.Gathering Write5…

Java SPI机制了解与应用

1. 了解SPI机制 我们在平时学习和工作中总是会听到Java SPI机制,特别是使用第三方框架的时候,那么什么是SP机制呢?SPI 全称 Service Provider Interface,是 Java 提供的一套用来被第三方实现或者扩展的接口,它可以用来…

【java】Java连接mysql数据库及mysql驱动jar包下载和使用

文章目录JDBCJDBC本质:JDBC作用:跟数据库建立连接发送 SQL 语句返回处理结果操作流程和具体的连接步骤如下:操作步骤:需要导入驱动jar包 mysql-connector-java-8.0.22.jar注册驱动获取数据库连接对象 Connection定义sql获取执行sq…

第十届CCF大数据与计算智能大赛总决赛暨颁奖典礼在苏州吴江顺利举办

2月24日-25日,中国计算机学会(CCF)主办、苏州市吴江区人民政府支持,苏州市吴江区工信局、吴江区东太湖度假区管理办公室、苏州市吴江区科技局、CCF大数据专家委员会、CCF自然语言处理专业委员会、CCF高性能计算专业委员会、CCF计算…

深度剖析C语言符号篇

致前行的人: 人生像攀登一座山,而找寻出路,却是一种学习的过程,我们应当在这过程中,学习稳定冷静,学习如何从慌乱中找到生机。 目录 1.注释符号: 2.续接符和转义符: 3.回车与换行…

独立产品灵感周刊 DecoHack #050 - 基于 ChatGPT 的 API 能做什么产品

ChatGPT 的 API 3.5 开放过去了一周,果然和预想的一样,接入 API 的产品爆炸式地出现了非常多,很多产品已经做的非常好用了,在很多场景方便了太多。本期整理了一些做的很不错的产品。 本周刊记录有趣好玩的独立产品设计开发相关内容…

一款好的风险管理软件可以做什么

风险管理软件哪个好?使用Zoho Projects易于使用的项目风险管理软件,最大限度地减少收入损失并快速调整您的投资组合,保护您的项目投资。Zoho Projects的高级风险管理软件可在您最需要的时候安全的保护您的业务。使用Zoho Projects强大的风险管…