PieCloudDB Database 3.0 正式发布丨数仓虚拟化流转数据要素

news2024/10/6 1:07:28

3月14日,拓数派 2024 年度战略暨新产品发布会在上海国际会议中心成功举行。本次大会的主题为「数仓虚拟化 流转数据要素」,吸引了众多业内资深专家和合作伙伴参与,共同探讨数据要素流转和数字技术创新等热门话题。

拓数派创始人兼 CEO 冯雷(Ray Von)携产品团队重磅发布了备受期待的云原生虚拟数仓 PieCloudDB Database 3.0 版本并分享了数仓虚拟化技术的最新成果和在数据要素产业中的最佳实践。 发布会详情请参考官方新闻。

image.png

PieCloudDB 3.0 发布仪式

拓数派创始人兼 CEO 冯雷(Ray Von)在发布会环节分享了公司 2024 年度在数据领域的战略布局:聚焦云原生虚拟数仓引擎,为数据要素价值释放保驾护航。PieCloudDB 采用首创数仓虚拟化技术,在私有/公有云里打造了元数据、数据资产(存储)、计算分离的 eMPP(elastic MPP)架构,能够消除当下传统方案在数据隐私、灵活性和大模型计算延展性等方面存在的挑战,从底层结构上消除结构化数据孤岛,在更大范围内支持数据要素流转,真正实现数据「可用不可见」,让模型更大更快更准,并达到「数据入库不出户:不跑数据,跑计算」的安全状态。

PieCloudDB 内核技术持续突破,进行再一次升级,正式发布 3.0 版本。在这一新版本中,PieCloudDB 在存储、元数据、执行器等各个模块均进行了大量升级。

简墨:自研的数据存储底座

拓数派自研的简墨存储,其目标是利用云原生的设计与现代化的硬件和设施,打造满足不同云场景下的高性能计算系统的数据存储底座。

在大数据时代,数据以特定格式的文件形式存储,各大数据厂商对存储格式和组织形式都进行了深入的创新。拓数派为了追求极致的性能、获取更灵活的数据单元、构建基于文件的统计信息、并紧密支持文件级别的查询优化和上层特性,自研了全新的存储格式 janm。在 PieCloudDB 最新版本,janm 与开源存储格式 parquet 的初步性能对比中,可以看到 janm 在多个方面均比 parquet 有了倍数级的提升。

image.png

janm 与 parquet 文件格式的初步性能对比

此外,为了简化大数据时代数据处理的各个流程,简墨对数据文件进行了更高效的组织。简墨也考虑到云原生的设计和弹性的支持,来避免全局有序,让数据组织更加简单、减少数据移动,提高效率,支持分布式计算,避免数据倾斜,并适用于多集群,可完美支持弹性和最大化集群资源利用率。

简墨会定期自动对数据文件进行自适应管理,快速筛选出需要进行 recluster 的文件,增量式的将数据根据索引列将数据快速聚集到新的文件中。并支持利用数据文件建立新的索引形式来进一步提升对索引列的点查性能。

新一代向量化执行引擎

PieCloudDB 新一代向量化执行器采用插件化执行方式,可根据代价(cost)自适应选择执行引擎,自动匹配最优的执行引擎。执行引擎基于高效内存列存格式,高效转换行列混存的 janm 存储格式到内存中。并支持现有绝大部分类型,做到完备的进行函数处理。

目前,PieCloudDB 向量化执行器已完成 sort, agg, join, scan, motion, filter 等大部分算子的改造,并将在 Runtime filter、低基数等其他优化算法上继续优化。如今,PieCloudDB 向量化执行器已在业内常用的决策支持基准测试 TPC-H 中展现了令人瞩目的性能提升。此外,执行器还搭配上 trace 系统,做到查询可视化和查询链路可追踪。

image.png

SIMD 执行引擎性能提升

PieCloudDB 向量化执行器将不断迭代,并在不久的未来在 pipeline、Serverless、软硬结合、调度方面有更多的提升。

木牍:下一代元数据管理系统

PieCloudDB 原有的元数据管理系统将元数据进行分离,采用开源 KV 数据库 FoundationDB 来存储元数据、事务和锁数据,并利用全局缓存系统 GMEMOS 来缓存元数据、事务 ID 和快照等数据。原有的系统中,元数据被持久化存储,可支持多集群多租户等特性。

为了能够进一步对齐 πDataCS「一份存储,多引擎计算」的使命,PieCloudDB 进一步演进,打造了下一代元数据管理系统木牍。新一代的元数据管理系统全自研打造,可进一步释放 PieCloudDB 存算分离架构的优势,在数据要素流转中发挥更大的价值。

对比上一代元数据管理系统,木牍性能达到倍数级提升,整体 DDL 性能上升了 40 多倍,DML 元数据查询延迟降低了 60%,并发连接数提升达 20+ 倍。

image.png

对比上一代 Mstore 的性能提升

架构上,新一代元数据管理系统木牍使用全新设计的 M(meta)节点替换了 FoundationDB,采用全模块化设计,具备更高的性能。并完全兼容 PostgreSQL 生态的各类工具,更加开放包容。

M 节点被用来统一管理元数据和 PieCloudDB 状态信息,接入了简墨存储底座,所有存储统一化,用于存储 catalog 数据。打造了独立的锁、事务和快照管理器,进一步提高并发性能。此外,木牍支持高可用和增量备份,统一缓存支持多个集群使用,并支持执行器直接查询元数据和事务信息,减少执行器查询延迟,降低系统负载。

image.png

木牍元数据管理系统架构

而木牍的协调节点(C节点)负责将查询分发至执行器,从元数据缓存收集所需要的信息。简化了原有 QD 的功能,降低了主节点的负载。

生态和平台演进

除了存储底座、元数据管理系统和执行器模块的迭代,PieCloudDB 生态和平台也发布了大量功能和更新,包括:

  • 开源表格式 Iceberg 查询
  • csv, json, parquet, orc 文件可做直接 SQL 查询
  • PieCloudVector 的增强(性能、HA、GPU)
  • Flink Connector
  • Spark Connector
  • 数据源一致性校验
  • 全链路 arm 支持
  • 数据库系统、查询更完备的可视化检测

未来,拓数派将持续深入探索数据领域,加强核心技术攻关能力,与行业与生态伙伴紧密合作,共同探索数据要素产业的最佳实践。通过产品的不断创新,期待为客户提供更强大、可靠的数据技术支持。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1540375.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

40 openlayers setCenter 之后 绘制了Overlay 地图定位异常

前言 这是之前在 生产环境碰到的一个问题 这个其实就是 业务上一个地图点击点位展示详情, 然后再点击另外一个点位 展示详情, 切换中心店的这个过程 其主要的问题是 使用 openlayers 的 Map.View.setCenter() 了之后, 整个地图的中心点切换到了一个莫名其妙的地方 然后 经…

Occupancy 训练策略

损失函数 Dice Loss Dice Loss 是一种用于图像分割的损失函数,其灵感来自于Dice 系数,是一种衡量两个样本相似度的方法。Dice 系数定义为: Dice 系数 2 * TP / (2 * TP FP FN) 其中: TP:预测为正且真实值为正的像…

深入理解MySQL中的JOIN算法

码到三十五 : 个人主页 心中有诗画,指尖舞代码,目光览世界,步履越千山,人间尽值得 ! 目录 一、引言二、嵌套循环连接(Nested-Loop Join)2.1 工作原理2.2 性能考虑2.3 优化策略 三、块嵌套循环…

云原生(五)、Docker-Swarm集群

基础环境说明 1、环境准备 1、启动4台服务器(在同一个网段内)。 2、重命名4台服务器,方便区分。 hostnamectl set-hostname swarm1 reboot安装docker。参考文章:云原生(二)、Docker基础 2、DockerSwarm…

STM32---DHT11温湿度传感器与BH1750FVI光照传感器(HAL库、含源码)

写在前面:本节我们学习使用两个常见的传感器模块,分别为DHT11温湿度传感器以及BH1750FVI光照传感器,这两种传感器在对于环境监测中具有十分重要的作用,因为其使用简单方便,所以经常被用于STM32的项目之中。今天将使用分享给大家&a…

C# WPF编程-事件

C# WPF编程-路由事件 路由事件概要路由事件的三种方式 WPF事件WPF最重要的5类事件:生命周期事件 鼠标事件键盘事件多点触控输入原始触控 路由事件概要 路由事件是具有更强传播能力的事件,它们可在元素树中向上冒泡和向下隧道传播,并沿着传播…

【测试开发学习历程】认识Python + 安装Python

1 认识 Python 人生苦短,我用 Python —— Life is short, I use Python 1.1 Python 的起源 Python 的创始人为吉多范罗苏姆(Guido van Rossum),江湖人称“龟叔” 1989 年的圣诞节期间,吉多范罗苏姆为了在荷兰首都阿姆…

查看文件内容的指令:cat,tac,nl,more,less,head,tail,写入文件:echo

目录 cat 介绍 输入重定向 选项 -b -n -s tac 介绍 输入重定向 nl 介绍 示例 more 介绍 选项 less 介绍 搜索文本 选项 head 介绍 示例 选项 -n tail 介绍 示例 选项 echo 介绍 输出重定向 追加重定向 cat 介绍 将标准输入(键盘输入)的内容打…

鸿蒙Harmony应用开发—ArkTS-LazyForEach:数据懒加载

LazyForEach从提供的数据源中按需迭代数据,并在每次迭代过程中创建相应的组件。当在滚动容器中使用了LazyForEach,框架会根据滚动容器可视区域按需创建组件,当组件滑出可视区域外时,框架会进行组件销毁回收以降低内存占用。 接口…

Day45:WEB攻防-PHP应用SQL二次注入堆叠执行DNS带外功能点黑白盒条件

目录 PHP-MYSQL-二次注入-DEMO&74CMS DEMO-用户注册登录修改密码 CMS-74CMS个人中心简历功能 PHP-MYSQL-堆叠注入-DEMO&CTF强网 Demo 2019强网杯-随便注(CTF题型) PHP-MYSQL-带外注入-DEMO&DNSLOG(让服务器主动把数据交出去) 知识点&…

Docker入门到实践之环境配置

Docker入门到实践之环境配置 docker 环境安装 Ubuntu/Debian: sudo apt update sudo apt install docker.ioCentOS/RHEL: sudo yum install dockerArch Linux: sudo pacman -S docker如果未安装成功,或者env的path未设置成功,运行时会报错 Bash: Do…

国自然提交状态,NSFC已审核 ≠ 申请书被受理!!!

本 期 推 荐 【SciencePub学术】2024年度国家自然科学基金集中受理期项目申请受理工作已基本结束。到底什么状态才算申请书被NSFC接收成功呢? 01 申请书状态 申请人登录ISIS系统,至此,绝大部分申请人的系统状态为下面三种: …

Stable Diffusion实现光影字效果

昨天下午有人在群里发光影图片,大家都觉得很酷,我没怎么在意。直到早上我在小红书看到有人发同款图片,只是一晚上的时间点赞就超过了8000,而且评论数也很高,也可以做文字定制变现。研究了一下发现这个效果不难实现&…

训练不了AI,怎么办?

即使直接训练人工智能(AI)模型对许多人来说可能是一个技术上和资源上的挑战,仍然有多种方式可以参与、利用和推动AI技术的发展,而不必直接参与到模型的训练过程中。以下是一些可以考虑的途径: 1. 使用现有的AI服务和工…

【计算机网络篇】数据链路层(3)差错检测

文章目录 🥚误码🍔两种常见的检错技术⭐奇偶校验⭐循环冗余校验🎈例子 🥚误码 误码首先介绍误码的相关概念 🍔两种常见的检错技术 ⭐奇偶校验 奇校验是在待发送的数据后面添加1个校验位,使得添加该校验…

springcloud+nacos服务注册与发现

快速开始 | Spring Cloud Alibaba 参考官方快速开始教程写的,主要注意引用的包是否正确。 这里是用的2022.0.0.0-RC2版本的springCloud,所以需要安装jdk21,参考上一个文章自行安装。 nacos-config实现配置中心功能-CSDN博客 将nacos-conf…

[C语言]结构体、位段、枚举常量、联合体

目录 结构体 结构体的使用方法 结构体所占用的大小 位段 位段的使用方法 位段所占用的大小 枚举常量 枚举常量的使用方法 枚举常量的优势 联合体 联合体的使用方法 结构体 结构体的使用方法 结构体是一些值的集合,我们可以定义一个结构体,里…

Pink老师Echarts教学笔记

可视化面板介绍 ​ 应对现在数据可视化的趋势,越来越多企业需要在很多场景(营销数据,生产数据,用户数据)下使用,可视化图表来展示体现数据,让数据更加直观,数据特点更加突出。 01-使用技术 完成该项目需…

TCP(socket 套接字)编程 1

一、TCP套接字编程架构如下 二、相关代码实现 1、服务器端代码 package com.company;import java.io.IOException; import java.net.InetSocketAddress; import java.net.ServerSocket; import java.net.Socket;public class Main {public static void main(String[] args) {…

GeoAI

GeoAI 是人工智能 (AI) 与空间数据、科学和地理空间技术的集成,以增进对空间问题的理解和解决。GeoAI 包括应用传统人工智能技术,通过从结构化和非结构化数据中提取、分类和检测信息来生成空间数据。GeoAI 也是空间显式人工智能技术的使用,旨…