Databend v0.9.0 版本发布

news2024/11/15 23:48:13

各位社区小伙伴们,历经数月开发,Databend 于 2023 年 1 月 13 日迎来了 v0.9.0  版本的正式发布!

这次新版本是 Databend 迈向 1.0 版本的最后一个大版本,也是迄今为止我们对核心代码重构幅度最大的一个版本!相较于 v0.8.0 版本,开发者们一共新增了 5000 多次 commit, 共计 700 多个优化和修复,涉及 4347 个文件变更,约 34w 行代码修改。感谢各位社区伙伴的参与,以及每一个让 Databend 变得更好的你!

在 v0.9.0 版本中,我们引入了新的类型系统,新的表达式计算框架,JSONB 支持,完整的 join 支持和优化,CBO 支持,Native Storage Format 等主要功能优化,同时性能、稳定性、易用性等方面做了大量优化增强,欢迎大家下载试用。

性能对比

在新版本中,我们在执行引擎,优化器,存储层都做了很多优化,大部分场景都有2 倍以上提升,下面是在 hits 数据集使用 fuse 默认引擎在 s3 存储下两个版本的性能对比。

图片

全新的类型系统

为了让 Databend 拥有一个易于理解而又功能强大的类型推导系统,我们借鉴了不少优秀编程语言的编译器内部设计,然后从中精简出适用于 SQL 使用的子集。基于目前的纯静态的类型系统,我们有了完善的类型推导机制,在 SQL 的编译期能尽可能推断出表达式的执行方式,极简的表达式函数注册逻辑,以及在数据库类型级别实现了泛型的推导

在新的类型系统基础上,常量折叠,类型推导,函数的注册,查询数据裁剪等模块都能享受到新类型系统带来的红利。

这里有一份简短的介绍:五分钟了解 Databend 全新 SQL 类型系统

由于这里太小写不下,不久之后,我们会对此做一个深入的分享,感兴趣的朋友可以关注下。

JSONB 支持

新版本中,我们实现 Rust 版本的 JSONB, 默认的 JSON 数据类型将使用 JSONB 存储,同时也兼容老的 JsonText 格式。基于二进制 JSON 格式,存储空间和查询性能都得到非常明显的优化。

图片

参考:https://databend.rs/doc/contributing/rfcs/json-optimization

完善的 Join SQL 支持

支持完整的 Join types: inner/natural/cross/outer/semi/anti join。

在过去的数月中,针对社区和线上用户的反馈,对 hash join 进行了深度的优化,能够覆盖大多数场景的性能要求。

CBO 支持

在统计信息中,我们加入了 NDV 的统计计算逻辑,用户可以通过类似 presto 的 “Analyze” 命令来生成统计信息表。JOIN 可以利用已有的统计信息,对逻辑计划进行基于代价的优化。后续 CBO 支持完善后,我们会更新 TPCH 100G 数据下的查询性能数据对比。

Native 格式支持

Databend 支持 Git-Like 的 Fuse Engine,基于此 engine,我们可以快速回溯到某个历史时间点来查询,在数据库内部实现了 “时间旅行”。而在 Fuse engine 的内部,我们也支持了除 Parquet 之外的新的 Storage Format — strawboat: https://github.com/sundy-li/strawboat。

Strawboat 是基于 arrow 的 native storage format,基于它我们在数据读取方面可以做的比 Parquet 更高效,在 hits 数据集中,全表扫 native 格式能快2-3倍。在 hits 数据集中,本地部署的场景下取得非常可观的提升,后续我们会完善下性能对比到 clickbench 中。

高效的Bloom Filter过滤

新版本我们引入了 xor filter 来为每个列计算存储 bloom filter,新的 bloom filter 较比之前的版本,导入查询性能,占用空间能都得到了不少优化。

参考:https://databend.rs/blog/xor-filter

设计并开源 Serverless DataSharing Protocol

实现了基于 object storage presign 短期访问 token 的方式,多租户之间零信任数据共享解决方案。

在基本性能一致的情况下,使用 aws lambda,以 serverless 的方式实现数据共享。

Stage 相关

实现了 UserStage 功能,类似 linux 的 home 目录:“COPY INTO my_table FROM @~;”

Stage 的数据导入支持 meta 存储状态,这意味着我们可以一直从 stage 存入新文件来导入 databend;

支持从 Stage 中按不同格式导出多个文件;

从 Stage 导入表支持并行化;

其他

除了上面的主要功能外,我们还有其他的新功能或优化点:

  • duckdb 的 read_parquet, 支持无需导入,直接读取本地的 parquet 文件

  • 常用函数性能优化,常用 GEO 函数支持

  • Distinct 性能优化

  • Adaptive String HashTable

  • SQLancer 对接

  • Parquet 读取加速

  • 使用 Rust 重写了之前的 python 版本 sqllogictest

  • NDJSON and JSON output format 支持

  • ALTER TABLE 支持 recluster

  • 根据 https://db.in.tum.de/~freitag/papers/p23-freitag-cidr19.pdf,支持 hyperloglog 的更新和删除。

下载使用

如果你对我们新版本功能感兴趣,欢迎来 https://github.com/datafuselabs/databend/releases/tag/v0.9.0-nightly 页面查看全部的changelog 或者 下载 release 体验。

如果你在使用旧版本的 Databend,你可以直接升级到新版本,升级过程请参考:https://databend.rs/doc/operations/upgrade

意见反馈

如果您遇到任何使用上的问题,欢迎随时通过 GitHub issue 或社区用户群中提建议

GitHub: https://github.com/datafuselabs/databend/

致谢

最后感谢参与新版本设计开发,测试,文档贡献的开发者们。

图片

关于 Databend

Databend 是一款开源、弹性、低成本,基于对象存储也可以做实时分析的新式数仓。期待您的关注,一起探索云原生数仓解决方案,打造新一代开源 Data Cloud。

  • Databend Website
  • GitHub Discussions
  • Twitter
  • Slack Channel

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/184924.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++ string容器,cha*

目录 1.string基本概念 2.string构造函数,char* 3.string赋值操作 4.string字符串拼接,append 5.string查找和替换,find,replace 6.string字符串比较,compare 7.string字符存取[].at,取,修改单个字符,size返回字符串长度 8.string插入和…

数学建模学习笔记(13)分类模型

分类模型分类问题的基本概念逻辑斯蒂回归(Logistic)Fisher线性判别分析多分类问题的SPSS求解分类问题的基本概念 分类问题概述:对于给定的一个对象,根据其特征将其划分到多个已给定的类别中的一个。 二分类和多分类:…

题目:两数之和

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录描述描述 方式1:暴力遍历 public static int[] twoSum(int[] nums, int target) {int i 0;int j 1;int[] result new int[2];for(int m i;m<nums.length-1;m){…

13.3nm粒径水溶性Cds/CdTe-PAA-P4VP/BSA的制备方法

13.3nm粒径水溶性Cds/CdTe-PAA-P4VP/BSA的制备方法今天小编分享量子点偶联聚合物&#xff0c;一起看看吧&#xff1a;Cds/CdTe-PAA-P4VP/BSA的制备过程&#xff1a;称取86.5mgCdCl2于三口瓶中&#xff0c;加入295mL二次水&#xff08;考虑到在调pH值时会增加溶液的体积&#xf…

(14)工业界推荐系统-小红书推荐场景及内部实践【重排】

&#xff08;1&#xff09;工业界推荐系统-小红书推荐场景及内部实践【业务指标、链路、ItemCF】 &#xff08;2&#xff09;工业界推荐系统-小红书推荐场景及内部实践【UserCF、离线特征处理】 &#xff08;3&#xff09;工业界推荐系统-小红书推荐场景及内部实践【矩阵补充、…

目前音质最好的蓝牙耳机有哪些?2023公认音质最好的蓝牙耳机推荐

随着技术的进步&#xff0c;蓝牙耳机的功能也越来越多样&#xff0c;人们在选择蓝牙耳机时也更能够“精准”地搜索关键词&#xff0c;进行选择。不少人很注重蓝牙耳机的音质&#xff0c;最近看到不少人问&#xff0c;目前音质最好的蓝牙耳机有哪些&#xff1f;下面&#xff0c;…

如何录制视频课程?右下角带人脸的视频怎么录制

现如今网络十分发达&#xff0c;想学习知识也十分简单&#xff0c;只要在网上搜索你想要学习的内容&#xff0c;就会出现许多相关的视频课程。那您知道如何录制视频课程吗&#xff1f;在录制时如何录入人脸&#xff1f;其实一款专业的录屏软件就能轻松搞定。今天小编教大家使用…

分析一下spring循环依赖

1.为什么循环依赖是个问题 spring 中 Bean 的创建一定是经历创建对象和依赖注入两个步骤 假设对象 Bean_A 和 Bean_B 存在循环依赖&#xff0c;如下图 1.Bean_A 创建的时候需要 Bean_B&#xff0c;就会创建Bean_B 2.Bean_B创建的时候又需要Bean_A&#xff0c;又去创建Bean_A 3…

原创 140 多篇,是时候来篇总结了

光阴似剪&#xff0c;日月如梭。不知不觉&#xff0c;从 17 年广工毕业到现在&#xff0c;已经毕业 5 年多了。 从大四开始写博客&#xff0c;有原创 110 多篇, 也获得了 CSDN 博客专家称号和掘金优秀作者称号。 回想这五年来的程序员生涯&#xff0c;谈不上满意&#xff0c;也…

方块状量子点CdTe-Tf包裹转铁蛋白/球形5nmCdTe-NGAL的制备方法

方块状羧基/氨基化量子点CdTe-Tf包裹转铁蛋白/球形5nmCdTe-NGAL的制备方法今天小编分享CdTe-Tf包裹转铁蛋白&#xff0c;一起看看吧&#xff1a;CdTe-Tf包裹转铁蛋白的制备过程:在充满氦气的无水无氧的手套箱中&#xff0c;0.125 g (5.42510-4 mol) Cd(Ac)2加入到三口瓶中的10 …

原生微信小程序转化uniapp项目的神操作

前言 可能有些朋友只知道能将uniapp编译成微信小程序&#xff0c;但是没想到原生微信小程序也能编译成uniapp项目&#xff0c;这里推荐一款【miniprogram-to-uniapp】小程序转换工具插件 原理 核心是使用Babel获取AST&#xff08;词法分析)&#xff0c;然后或使用Babel自带函…

如何实现高质量的系统数据对接/API接口整合集成方案?

我们建立一个数字化系统可能会有跟别的系统进行数据对接的需要&#xff0c;而别人的数字化系统也有可能需要跟我们的系统进行数据对接&#xff0c;也可能我们开发了不同的网站&#xff0c;网站小应用之间需要进行数据对接。那么数据对接应该如何操作呢&#xff1f;怎么才能更好…

数据分析:SQL和Python

SQL 统计数据概况&#xff1a;计算样本总数、商家总数、用户总数、消费总数、领券总数等 selectcount(User_id) as 样本总数,count(distinct Merchant_id) as 商家总数,count(distinct User_id) as 用户总数,count(Date) as 消费总数,count(Date_received) as 领券总数,(sele…

高级Spring之Aware 接口

Aware 接口功能阐述&#xff1a; Aware 接口提供了一种【内置】 的注入手段&#xff0c;例如 a.BeanNameAware 注入 bean 的名字b.BeanFactoryAware 注入 BeanFactory 容器 c.ApplicationContextAware 注入 ApplicationContext 容器 d.EmbeddedValueResolverAware 注入 ${} 解…

力扣并查集

目录 1&#xff0c;路径压缩查找 323. 无向图中连通分量的数目 990. 等式方程的可满足性 200. 岛屿数量 419. 甲板上的战舰 695. 岛屿的最大面积 733. 图像渲染 1992. 找到所有的农场组 947. 移除最多的同行或同列石头 1020. 飞地的数量 547. 省份数量 827. 最大人…

浅谈对 Binder 的理解

文章目录Binder 是干嘛的&#xff1f;Binder 的意义binder 的通信架构如何启动 binder 机制binder 通信binder 驱动的分层架构图需要了解的知识 binder 是干嘛的binder 的存在意义是怎样的Android 为什么选择 binder 作为主要的 ipc 通信机制&#xff1f;binder 的架构 Binde…

Vue 3 介绍

Vue 3 介绍Vue3 动机 和 新特性Vite 的使用为什么选 Vite为什么要学习 vue 3Vue是国内最火的前端框架Vue 3 于 2022 年 2 月 7 日星期一成为新的默认版本&#xff01;Vue3性能更高&#xff0c;体积更小Vue3.0在经过一年的迭代后&#xff0c;越来越好用 目前已支持 vue3 的UI组…

Python简介安装与PyCharm安装使用

一、Python简介 Python官方文档&#xff1a;https://docs.python.org/zh-cn/3/ Python 3.x 已经将 UTF-8 作为默认的源文件编码格式。 1、Python简介 Python 是一门开源免费、通用型的脚本编程语言&#xff0c;它上手简单&#xff0c;功能强大&#xff0c;坚持「极简主义」&am…

Visual Studio Code (VS Code) - 列块编辑与查找

Visual Studio Code (VS Code) - 列块编辑与查找1. 列块选择 Shift Alt 鼠标左键&#xff0c;进行列编辑&#xff0c;批量增删改。 在选定位置按下滚轮键 (鼠标中键) 不放&#xff0c;移动鼠标完成多列选择。 2. 页面双列布局 查看 -> 编辑器布局 -> 双列 3. 查…

linux使用ZLMediaKit搭建rtsp服务器

入门小菜鸟&#xff0c;希望像做笔记记录自己学的东西&#xff0c;也希望能帮助到同样入门的人&#xff0c;更希望大佬们帮忙纠错啦~侵权立删。 致敬rtsp 服务器搭建_音视频开发老马的博客-CSDN博客_rtsp服务器 这里是参考上面链接的介绍再进行一些自己遇到的问题的补充。 一…