Databend 开源周报第 93 期

news2025/1/15 17:48:40

Databend 是一款现代云数仓。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn 。

What's On In Databend

探索 Databend 本周新进展,遇到更贴近你心意的 Databend 。

改进 Databend 的 Segment Cache 内存使用率

本周 Databend 的 Segment Cache 得到了显著升级,其内存使用量降低到测试场景中先前使用量的 1.5/1000 。

本次升级引入名为 CompactSegmentInfo 的 Segment 表示形式,主要由两个组件组成:

  • 解码后的 min / max 索引和其他统计信息。
  • 未解码(且压缩)的 RawBlockMeta 。

在对 Segment 剪枝时,如果要将某些 Segment 剪去,则无需解码其对应的 RawBlockMeta 。而对于没有剪去的 Segment ,则它们对应的 RawBlockMeta 会即时解码以用于 Block 剪枝和扫描(并在不再需要时删除)。

如果你想要了解更多信息,请查看下面列出的资源。

  • PR #11347 | refactor: hybrid segment cache

Code Corner

一起来探索 Databend 和周边生态中的代码片段或项目。

databend 的 Python 绑定

Databend 现在提供 Python 绑定,为在 Python 中执行 SQL 查询提供了新选择。该绑定内置 Databend ,无需部署实例即可使用。

pip install databend

只需要从 databend 导入 SessionContext 创建会话上下文即可开始使用:

from databend import SessionContext
ctx = SessionContext()

接着就可以调用 sql() 方法来执行 SQL 查询了:

df = ctx.sql("select number, number + 1, number::String as number_p_1 from numbers(8)")

结果 DataFrame 可以使用 to_py_arrow() 或 to_pandas() 转换为 PyArrow 或者 Pandas 格式:

df.to_pandas() # Or, df.to_py_arrow()

现在行动起来,将 Databend 集成到你的数据科学工作流中。

  • databend · PyPI

亮点

以下是一些值得注意的事件,也许您可以找到感兴趣的内容。

  • 阅读 Transform Data During Load 中新增的两篇教程,了解如何在加载过程中执行算术运算以及将数据加载到带有冗余列的表中。
  • 阅读 Working with Stages 系列文档以深入了解 Stage 并学习如何有效地管理和使用 Stage 。
  • 新增函数:date_formatstr_to_date 和 str_to_timestamp

What's Up Next

我们始终对前沿技术和创新理念持开放态度,欢迎您加入社区,为 Databend 注入活力。

将 open-sharing 二进制文件添加到 Databend 镜像中

Open Sharing 是由 Databend 团队设计的一种用于多云环境的、廉价且安全的数据共享协议。Databend 提供了租户级别的 sharing endpoint 实现,名为 open-sharing 。 可以阅读 databend | sharing-endpoint - README.md 以获取更多信息。

为了方便使用 K8s 或 Docker 部署 open-sharing 实例,建议将其添加到 Databend 的 docker 镜像中。

Issue #11182 | Feature: added open-sharing binary in the databend-query image

如果你对这个主题感兴趣,可以尝试解决其中的部分问题或者参与讨论和 PR review 。或者,你可以点击 https://link.databend.rs/i-m-feeling-lucky 来挑选一个随机问题,祝好运!

New Contributors

一起认识社区中的新伙伴,Databend 因你们而变得更加美好。

  • @Mehrbod2002 添加了对 max_storage_io_requests 的验证,#11367 。
  • @DongHaowen 为不同基准测试指定了不同的 database ,#11362 。

Changelog

前往查看 Databend 每日构建的变更日志,以了解开发的最新动态。

地址:https://github.com/datafuselabs/databend/releases

Contributors

非常感谢贡献者们在本周的卓越工作。

 

Connect With Us

Databend 是一款开源、弹性、低成本,基于对象存储也可以做实时分析的新式数仓。期待您的关注,一起探索云原生数仓解决方案,打造新一代开源 Data Cloud。

  • Databend Website
  • GitHub Discussions
  • Twitter
  • Databend 开源周报第 93 期

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/533244.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

冠珠华珍岩板闪现人民日报美好博物馆,彰显民族品牌魅力

行业唯一!亮相美好博物馆 一块为中国品牌发声 为了贯彻落实品牌强国战略,展现中国优秀品牌成果,5月10日,值第7个中国品牌日来临之际,由人民日报社特别打造的美好博物馆主题快闪店惊艳亮相上海世博展览中心。 作为连…

【 LoRa规范及认证】

文章目录 LoRa规范及认证一、LoRaWAN全球区域规范1.美国规范2.中国规范 二、LoRaWAN认证1.LoRaWAN认证常见问题 三、中国LoRa无线电规范四、小结 LoRa规范及认证 ​ 在使用LoRa设备时,必须遵循各区域无线电管理规范,尤其是工作频率、输出功率、占空比这…

万字长文 | ChatGPT的工作原理(二)

— 6 — 嵌入的概念 神经网络 —— 至少在它们目前的设置中 —— 从根本上说是基于数字的。因此,如果我们要用它们来处理像文本这样的东西,我们就需要一种方法来用数字表示我们的文本。 当然,我们可以开始(基本上就像 ChatGPT 那…

Java基础面试题突击1

👩🏻 作者:一只IT攻城狮 ,关注我不迷路 ❤️《java面试核心知识》突击系列,持续更新… 💐 面试必知必会学习路线:Java技术栈面试系列SpringCloud项目实战学习路线 📝再小的收获*365天…

物流管理系统对电商的重要性,零代码技术起关键性作用

什么是物流管理系统 物流管理系统是一种软件系统,用于管理和协调货物的移动。它涵盖了物流计划、物流执行、物流跟踪和数据分析等方面,可以帮助企业优化供应链,提高运营效率和客户满意度。它包括了仓储管理、配送管理、运输管理、订单管理、…

编织数据结构的艺术:双向带头循环链表的华丽实现

上一篇博客,我们了解并实现了单向不带头不循环链表,而本篇博客会讲解链表中的王者:双向带头循环链表。 概述 双向带头循环链表的特点是: 每个结点内部,既有指向上一个结点的前驱指针prev,也有指向下一个…

《C++入门攻略》(小白向)

函数 函数、输入、传参 在程序中使用函数时,你必须先声明它然后再定义声明的目的是告诉编译器你即将要定义的函数的名字是什么,返回值的类型是什么以及参数是什么而定义则是告诉编译器这个函数的功能是什么。假如我们不声明,那么该函数就不能…

vue快速上手教程与简单安装

目录 vue简介 vue实例 通过 CDN 使用 Vue NPM 方法 介绍 下载 使用 vue简介 Vue.js 是一套构建用户界面的渐进式框架。 Vue 只关注视图层, 采用自底向上增量开发的设计。 Vue 的目标是通过尽可能简单的 API 实现响应的数据绑定和组合的视图组件。 vue实例…

ping包过程之arp(地址解析协议)

0,怎么引出arp地址解析协议的呢? 在硬件层次上进行的数据帧交换必须有正确的接口地址(既是MAC地址)。但是, T C P / I P有自己的地址: 32 bit的I P地址。知道主机的 I P地址并不能让内核发送一帧数据给主机。内核&…

二十、Zipkin持久化链路跟踪

目录 Zipkin持久化 使用mysql数据库持久化 1、创建zipkin数据库 2、启动zipkin使用以下脚本 3、访问接口(配置了sleuth链路跟踪) 使用ElasticSearch持久化 zipkin启动脚本 Zipkin持久化 Zipkin server默认会将追踪数据信息保存在内存中&#xff0…

NoSQL之Redis配置与数据库常用命令

目录 一、关系型数据库与非关系型数据库概述1.1 关系型数据库1.2 非关系型数据库 二、关系型数据库与非关系型数据库的区别2.1 数据的存储方式不一样2.2 扩展的方式不同2.3 对事务性的支持不同 三、非关系型数据库产生背景四、Redis简介4.1 Redis的单线程模式4.2 Redis优点4.3 …

B2B 客户支持,如何做好?

多年来,基于尖端技术的现代和个性化客户体验一直主导着企业对消费者(B2C)领域。然而,在企业对企业(B2B)行业中,出色的客户体验变得比以往任何时候都更加重要。许多组织正在开发类似于B2C市场中个…

无延迟直播/超低延迟直播快速接入的示例

简要说明 接入无延迟直播/超低延迟直播播放前,需确保直播间频道是无延迟频道,SDK中使用无延迟与常规播放无异,只需加入若干配置就可以快速接入。 什么是无延迟/超低延迟直播,可参见我的这篇文章: 无延时直播/超低延时…

Java 基础进阶篇(十四)—— File类常用方法

File 类的对象代表操作系统的文件(文件、文件夹),File 类在 java.io.File 包下。 File 类提供了诸如:创建文件对象代表文件,获取文件信息(大小、修改时间)、删除文件、创建文件(文件…

【软件测试与质量保证】期末复习2(HITWH)(软件测试部分)

更多复习资料在下方链接获取;包括复习笔记(有具体习题)、习题答案以及设计题示例 链接:复习资料 复习笔记里的习题不包含答案,具体答案在【云班课答案】文件夹中,顺序都是一一对应的,喜欢刷题可…

进程间通信之管道篇

🏆一、进程间通信目的 1.1什么是通信 进程是具有独立性的,而我们要实现进程间通信的目标,是需要开辟空间和创造方法的。 通信目的: 1、数据传输:一个进程需要将它的数据发送给另一个进程 2、资源共享:…

CSAPP 第六章存储器的结构层次

源程序 执行程序 空间代码都要存在外存上,程序运行的时候操作系统要把外存的东西加载到内存里,CPU要从内存一行一行的读、译码和分析 我们来看一个例子: 指令位于内存中的代码段中,必须从内存中读出来进行译码分析之后才能运行 指…

细说java动态代理及使用场景

一、定义 Java代理模式是一种结构型设计模式,它允许通过创建一个代理对象来间接访问另一个对象,从而控制对原始对象的访问。 1.1 作用 1、在访问原始对象时增加额外功能,如访问前或访问后添加一些额外的行为。 2、控制对原始对象的访问。 J…

热水智能控制系统有什么优点?

热水智能控制系统是一种先进的技术,可以极大地提高家庭和商业场所的热水使用效率,降低能源消耗和运营成本。这种系统利用现代化的传感器、控制器和通讯技术,可以智能地监测和控制热水的温度、流量和使用情况,并根据实际需求来调节…

ASEMI代理ADI亚德诺ADM706SARZ-REEL原厂芯片

编辑-Z ADM706SARZ-REEL参数描述: 型号:ADM706SARZ-REEL VCC工作电压范围:1.0-5.5V 电源电流:100μA 重置阈值滞后:20 mV 复位脉冲宽度:200 ms PFI输入阈值:1.25V PFI输入电流&#xff…