酷克数据亮相第13届PostgreSQL中国技术大会,获数据库杰出贡献奖

news2024/9/25 3:22:30


7 月 12 日,第 13 届 PostgreSQL 中国技术大会在杭州盛大开幕。本次大会以“聚焦云端创新,汇聚智慧共享”为主题,邀请了国内外 PG 领域众多行业大咖、学术精英及技术专家,共同探讨数据库领域的发展趋势、技术创新和实践经验。酷克数据作为国内领先的 PG 技术栈实践者和重要的社区贡献者出席本次大会,酷克数据的技术专家团队也受邀参与主论坛及多场分论坛,为与会者带来了精彩的主题演讲。

同时,酷克数据作为社区先锋,积极贡献,推动生态繁荣,以创新技术引领 PostgreSQL 社区发展,荣获“第 13 届 PostgreSQL 中国技术大会数据库杰出贡献奖”。


01PostgreSQL分布式数据库的开源新选择——CloudberryDB

演讲人:酷克数据联合创始人马涛


在数据库领域,Greenplum(GP)一直以其高效的数据处理能力和灵活的扩展性著称。然而,近期发生的 GP 源码归档事件引发了大规模讨论。


在《PostgreSQL 分布式数据库的开源新选择——CloudberryDB》的主题演讲中,酷克数据联合创始人马涛从技术发展与用户需求的角度,阐述了 CloudberryDB 作为 GP 的衍生版,在保持与 GP 原生兼容和无缝迁移的基础上,如何通过创新工程特性解决 GP 的痛点,并满足新型计算需求和架构下的挑战。


a039d8460aacafa60e69fcac6ac41896.jpeg


马涛认为,GP 归档事件不仅影响了大量 GP 用户的日常使用,还对 GP 的未来发展产生了深远的影响,尤其是考虑到 GP 在全球及国内市场的高排名和广泛应用,将促使许多用户面临更新断档和迁移挑战。


为了响应用户需求,推动开源生态,酷克数据于去年正式开源基于 PostgreSQL 与 Greenplum 研发、面向 AI 和分析场景打造的新一代数据库 Cloudberry Database (CloudberryDB)。


CloudberryDB 遵循 Apache License 2.0,确保项目的开放性和商业友好性,整体目标是实现与 GP 的原生兼容和无缝迁移,以确保用户能以相同的方式使用 CloudberryDB,就像使用 GP 一样,保持体验和操作方式的一致性。


马涛强调,作为 GP 的衍生版,CloudberryDB 不是简单地克隆代码并重新命名,而是致力于形成足够的差异化价值,以满足新型计算需求和架构下的需求。CloudberryDB 特别新增了诸多关键的工程特性,在 Greenplum 的使用痛点上下功夫,提供了包括性能优化、实时计算支持以及新型架构解决方案支持等能力。


bc3afb04ad8c533d6dabb476dc112fd6.jpegcf77998bd622a99e41db4fe220957a2f.jpeg


一直以来,酷克数据坚持以开源方式推动 CloudberryDB 发展,始终遵循“反哺上游”、“体验优先”、“宽容开源协议”、“保持开放”关键原则。为实现开源愿景,酷克数据计划将 CloudberryDB 托管至第三方中立基金会,确保社区共同治理,构建并遵循社区治理机制,确保项目长期维护。


e8eac38de9cd031e6d2ed42fcbb3ae5d.jpeg


除了开源数据库项目 CloudberryDB,酷克数据还将提供 HashData 云原生数据仓库的全面商业服务。马涛表示,“从最开始的专注构建数据仓库,到如今,我们的理念是追求“湖仓一体”。这不仅仅是一个实现过程,更是我们的核心愿景:帮助客户实现全域数据的纳管与分析,打造从数据到应用落地的闭环管理和自动化管理。”


为了实现这一目标,酷克数据在 HashData 云原生数据仓库上下游技术栈上进行了广泛的改造,推出了面向存算分离架构的 UnionStore 存储模式、In-Database 机器学习平台 HashML 以及基于 HashData 构建分布式大规模多模态向量知识库,为用户提供具备强大工具链的一站式数据平台。


马涛强调:“酷克数据将持续致力于 HashData 云原生数据仓库的创新与发展,不断推出更多前沿技术和解决方案,以满足客户日益增长的数据处理需求。我们相信,通过 HashData 的强大功能和完善服务,将助力更多企业在数字化转型的道路上取得更大成功。”


a3fa953a426ad9b64da3252f429e0607.jpeg


会后,马涛接受了央视频的特邀专访,分享了关于GP闭源对国产数仓行业深远影响的见解。马涛表示:“中国科技的飞速发展,为我们国产品牌在科技强国之路上提供了前所未有的机遇。GP闭源事件,表面上看似挑战,实则为我们打造自主科技品牌、推动科技自立自强按下了加速键。”


谈及应对策略,马涛强调了三大方向:一是坚持开源理念不动摇。开源不仅是技术创新的重要驱动力,更是连接全球开发者、促进技术共享与进步的桥梁。二是利用开源优势扩大客户基础与商业版图。开源文化能够吸引全球范围内的开发者与合作伙伴,共同推动技术创新与产业升级。最后,积极适应并引领国际化竞争新态势。


面对国际市场的风云变幻,酷克数据正积极调整战略方向,以适应更加复杂多变的竞争环境。GP闭源事件促使酷克数据继续坚定走在自主创新之路,通过不断提升自身技术实力与服务质量,为全球客户提供更加安全、可靠、高效的解决方案。


02CloudberryDB 执行引擎的优化实践

演讲人:酷克数据 内核研发工程师 杨凯迪


大规模数据查询是 MPP 型数据库的核心应用场景,然而,现有的 Postgres 执行器在实际应用中已难以满足业务对大数据查询性能的需求。为此,CloudberryDB 在 Postgres 执行器的基础上进行了深度改造,显著提升了执行器在查询分析场景下的性能。


本次大会,酷克数据内核研发工程师杨凯迪发表了题为《CloudberryDB 执行引擎的优化实践》的演讲,分享了 Cloudberry 向量化引擎的实现细节,以及 CloudberryDB 执行器执行流的改造工作和并行化方面的进展。


d0d5d97b12131098e3e56d8750ead6ca.jpeg


在大数据查询分析的场景中,业务方总是期望更少的执行时间。从工程实现的角度来看,主要有 3 个优化目标:


1.减少指令数与 CPU 消耗:通过优化执行路径,减少指令数,降低 CPU 负担。


2.指令级/数据级并行:利用现代 CPU 的多核特性,实现指令级并行(如超标量流水线)和数据级并行(如 SIMD),提高执行效率。


3.多核资源利用:通过并行化技术,最大化利用多核处理器资源,缩短执行时间。


向量化引擎的实现


CloudberryDB 选择了向量化作为首要手段来加速 PostgreSQL 执行器的性能。CloudberryDB 的向量化引擎以插件形式接入,与底层列式存储(基于 Arrow 格式)紧密配合,实现了高效的数据交换和处理。通过重新实现 Postgres 的向量化算子(如 Scan、Agg、Sort、Motion 等),结合 SIMD 加速,优化了复杂数据类型的表示和计算,特别是针对 numeric 类型采用定长存储,显著提升了计算速度。


push 模型执行流改造


对比 pull 模型,push 模型控制流和数据流均自底向上,数据驱动,能更好地划分任务,具有缓存友好、数据局部性好、循环更短等优势,且对 code-gen/并行化/向量化的实现非常友好。因此,CloudberryDB 的向量化模型选择基于 push 模型进行演进。


为了优化执行,CloudberryDB 采用 pipeline 作为调度点,使调度任务包含更多的数据在寄存器中执行计算,仅在必要时进行物化。


并行化算子实现


•并行化 Join:采用两阶段构建哈希表,减少线程间数据竞争,通过 partition 策略并行化执行哈希表合并;


•并行化聚集:与并行化 Join 类似,也采用两阶段聚集,减少数据同步代价;


•排序优化:通过 mergePath 策略实现更高效的资源利用,增加了合并过程的线程利用率。


目前,CloudberryDB 已经基本实现了向量化算子的并行化。未来,CloudberryDB 将继续优化调度模型以及查询计划的生成,来进一步提升大数据查询分析的性能。


03HashData 加速大模型在企业落地应用

演讲人:酷克数据 数据科学工程师 卞传鑫


随着大模型技术的蓬勃兴起,如何以经济高效的方式构建并应用这些模型,已成为企业界竞相探索的核心议题。在本届 PostgreSQL 技术大会中,“AI 与 PostgreSQL:向量插件及智能数据处理”分论坛上,酷克数据数据科学工程师卞传鑫,发表了题为《HashData:加速大模型在企业落地应用的创新实践》的精彩演讲,全面展示了酷克数据在云原生数据仓库与 AI 技术融合方面的创新成果与前瞻布局。


111191d32223c4bd10c32398867caa15.jpeg


为解决当前大模型规模化应用面临的高成本问题,酷克数据基于 HashData 云数仓开发了下一代 In-Database 高级分析和数据科学工具 HashML,通过机器学习、深度学习及预训练大模型等技术,致力于降低 AI 技术应用门槛,为数据科学家、数据工程师、AI 应用开发者提供便利。


卞传鑫介绍到,HashML 首要设计目标就是简单易用,用户只需编写少量代码就可以完成从数据加载到数据处理,再到模型训练、服务部署和推理预测的全流程任务。HashML 功能全面,涵盖经典机器学习、主流深度学习框架及最新的大语言模型技术,支持对百亿到千亿级参数 LLM 进行微调与推理。同时,HashML 与 HashData 云原生数据库兼容,提供丰富接口及卓越性能,支持多机多卡分布式处理,且模型部署弹性可伸缩,灵活应对服务负载变化。


在产品功能布局上,HashML 精心构建了数据访问、模型算法、以及模型部署三大核心板块,全面赋能用户。


数据访问领域,HashML 对数据库访问进行了深度抽象与优化,确保操作接口设计紧贴用户习惯,与广受欢迎的 Python 库保持高度一致性,极大地降低了用户的学习曲线与使用门槛。


模型算法方面,HashML 展现出强大的兼容性与创新能力。HashML 集成 sklearn 经典算法与 xgboost、lightgbm 等梯度提升算法,满足用户多样化的建模需求。同时,HashML 支持 PyTorch、TensorFlow 等深度学习框架,让用户能够轻松构建 MLP、CNN、ResNet 等经典深度学习模型。HashML 还前瞻性地支持大语言模型,涵盖后预训练、微调及 RAG 应用等前沿技术,并基于主流开源模型,打造了从文生图到文生视频等一系列创新扩散模型 pipeline。


模型部署环节,HashML 支持多实例弹性部署,配合 RestAPI 访问接口,无论是机器学习、深度学习还是大语言模型,均可通过简洁的代码实现高效部署。HashML 的扩展式设计赋予其强大的横向扩展能力,能够轻松部署至多台机器,同时提供灵活的调度策略,确保系统在高负载下依然稳定运行。


应用支撑技术方面,卞传鑫指出,为了提升大语言型在特定领域的能力,HashML 采用两类方法增强大语言模型领域能力:RAG(检索增强生成),依托向量知识库、语言模型与 embedding 技术;及大模型微调与后预训练,提供全参数、LoRA 等主流方案。


6c59b31b2719b4c5966979ad0289af9b.jpeg


同时,HashData 云原生数仓赋能大语言模型应用的四大能力:


•模型推理与弹性部署:支持模型的多实例弹性部署,并提供了 RestAPI 访问接口。无论是机器学习模型还是深度学习模型或者是大语言模型,都可以通过简短的代码进行服务部署。另外它的扩展式设计可以轻松扩展到多台机器,并提供灵活的调度支持。


•模型微调及后预训练:在提升大语言模型在特定领域能力的同时,也对齐了人类的语言习惯。关于模型微调与后预训练,HashML 也提供了全套的解决方案,包括全参数、LoRA 等主流方法。


•非结构化数据的管理和处理:HashData 中提出了目录表用于非结构化数据的纳管,并在 HashML 中开发了一系列原始文件的解析、拆分、处理相关的工具,构建了由非结构化数据到结构化数据处理的全流程,便于后续数据的进一步使用。


•大规模分布式向量知识库:向量知识库是 HashML 工具库中的一个重要组成部分,它提供了一种有效的方式来存储和检索大规模的向量化知识。HashML 也对向量知识库模块进行了封装,只需要几行代码就可以完成向量知识库的构建与查询功能。 


应用场景方面,卞传鑫提到,基于 HashML 提供的算法能力以及服务部署,向上共开发了四个智能应用,分别是 rechat,chatdata, visgen 以及 xpilot,在此他主要介绍了 rechat 以及 chatdata 两款应用。


检索增强的智能问答 ReChat


通用大模型在应用于特定领域时普遍存在回答不精准的现象。针对这一问题,HashML 可以基于大语言模型,快速搭建面向专业领域的的智能问答系统(ReChat)。在 ReChat 中,企业通过调用本地部署的 embedding 服务将自有的知识库(包括管理制度、产品手册、技术手册、运维手册、工作规范、流程记录、FAQ 等)进行向量化,并存放到 HashData 形成向量知识库。


当回答用户提问时,通过检索向量知识库获得相关信息,作为上下文和问题一起提交给大语言模型,这样大语言模型就能够生成精准的回答,从而有效解决困扰大语言模型的生成“幻觉”问题。ReChat 的典型用例包括智能客服、销售助手、文档阅读助手等,在企业有着非常广泛的应用场景。


f62fcf3e12cb68ed7d398aa505e62372.jpeg

对话式智能数据查询分析 ChatData


在ChatData中,用户能够以自然语言的方式与HashData数据库进行交互, 实现数据查询和结果展示,还能够以自然语言的方式对查询结果进行可视化,从而大幅降低数据分析应用的门槛,允许企业更多的员工在职权范围内借助数据分析提升工作效率和工作质量。


ea8990feef50acf197d1ab66a7e70ad9.jpeg


为了提升大语言模型的 SQL 能力,HashML 研发团队对模型进行了微调,并针对每个评估样本构造了一个由若干数据表构成的数据库,每张数据表都包含若干条数据记录。对于每个评估样本,分别执行 Ground-Truth SQL 和生成的 SQL,通过检验生成 SQL 的可执行度和比对查询结果的一致性,判断生成 SQL 的正确性,最终统计整个评估集的准确率。


评估结果显示,HD-SQL-LLaMA2 在不同难度的评估样本集上均表现良好,13B 模型准确率接近 82%,34B 模型准确率超过 88%,且仍在不断提升中。


04酷克数据荣获数据库杰出贡献奖


本届PostgreSQL技术大会上,酷克数据凭借其卓越的技术创新和对PostgreSQL开源社区的不懈贡献,荣获了“数据库杰出贡献奖”,这一殊荣不仅是对酷克数据技术实力的高度认可,更是对其在PostgreSQL生态系统中发挥重要推动作用的肯定。


1291c9113792f5eb0e0b14bfeecaa930.jpeg


作为PostgreSQL社区的杰出成员与先锋力量,酷克数据始终秉持开放共享的理念,积极将自身的技术成果回馈给PostgreSQL社区。公司技术团队不仅频繁参与社区活动,分享技术心得与最佳实践,还通过代码编写、审查、检测等方式,为PostgreSQL的持续发展贡献着自己的力量,同时也为PostgreSQL技术性能改进和提升提供了有力支持。


展望未来,酷克数据将继续以技术创新为引领,深化与开源社区的合作与交流,共同推动数据分析技术的持续发展与应用落地。我们相信,通过不懈努力与持续贡献,定能为全球用户带来更加优质、高效的数据分析体验,为数据智能时代贡献自己的一份力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1924205.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

本地部署,使用ColorizeArtistic_gen.pth大模型进行图像上色

目录 引言 技术背景 模型架构 本地部署 运行结果 实验结果与分析 应用实例 结论 参考文献 引言 图像上色(Image Colorization)是指将黑白图像转换为彩色图像的技术。在数字化时代,这种技术可以用于修复旧照片、增强艺术作品以及在各…

FDL与Kettle功能对比分析之定时任务DDL

开发者在进行数据处理任务时, 一旦源数据库的表结构发生变化,而目标数据库没有及时进行同步,就会导致任务执行失败。DDL同步就是用来解决这一问题,它会自动识别源表结构变化,并及时更新到目标数据库中,保障…

1. 变量、运算符、表达式、输入与输出习题

第一节题单 1. A B import java.util.Scanner;public class Main {public static void main(String[] args) {Scanner sc new Scanner(System.in);int a,b;a sc.nextInt();b sc.nextInt();System.out.println(ab);} }608.差 604. 圆的面积 注意不能用float,float的精度不够…

智能硬件——0-1开发流程

文章目录 流程图1. 市场分析具体分析 2. 团队组建2. 团队组建早期团队配置建议配置一:基础型团队 (4人)配置二:扩展型团队 (6人)配置三:全面型团队 (7人) 3. 产品需求分析4. ID设计(Industrial Design, 工业设计)5. 结…

展望未来:在【PyCharm】中结合【机器学习】实现高效的图形化处理

欢迎来到 破晓的历程的 博客 ⛺️不负时光,不负己✈️ 文章目录 引言一、PyCharm简介与配置1.1 PyCharm基础1.2 图形化库配置 二、机器学习项目中的数据可视化2.1 数据加载与预处理2.2 数据探索性可视化2.3 模型训练与结果可视化 三、PyCharm中的图形化调试四、高级…

如何追踪ping连接中的所有路由器的数量和IP

如何快速判断ping连接经过的路由器个数和IP? 方法一: ping命令会返回一个TTL,TTL(Time To Live)存活时间,一般初始值为64,每经过一个路由器就减一,当TTL为0时丢弃网络包&#xff0…

设置sudo权限

1.使用root账号登录 2.使用visudo打开sudo的配置文件 3.CtrlF翻页到#All root to run any commands anywhere 4.敲击键盘i键切到插入模式 5.在root配置信息一行下方加入一行,以用户test为例: test ALL(ALL) NOPASSWD: ALL

Linux DRM 那些事 - HDMI 接口 DTS 配置

本文基于RockPI 4A单板Debian系统 Linux 4.4 内核介绍DRM框架HDMI接口DTS配置。 在DTS中主要实现:HDMI的使能、VOP绑定、IOMUX引脚配置和HDMI控制器配置。 一、HDMI 配置 文件:arch/arm64/boot/dts/rockchip/rk3399-rock-pi-4.dtsi #include "rk3…

hutool处理excel时候空指针小记

如图所示&#xff0c;右侧的会识别不到 参考解决方案&#xff1a; /***Description: 填补空缺位置为null/空串*Param: hutool读取的list*return: 无*Author: y*date: 2024/7/13*/public static void formatHutoolExcelArr(List<List<Object>> list) {if (CollUtil…

graphviz subgraph添加边界框

subgraph name 属性必须要以cluster开头。 A Quick Introduction to GraphvizAn awesome tool for software documentation and visualizing graphshttps://www.worthe-it.co.za/blog/2017-09-19-quick-introduction-to-graphviz.html digraph {rankdir"LR"// the n…

教材目录管理功能概述

在智慧校园的教材管理体系中&#xff0c;教材目录管理板块扮演着连接知识与学习者的桥梁角色&#xff0c;对教育资源的有序部署与高效运转起着至关重要的作用。该板块聚焦于基础功能的精炼与优化&#xff0c;力图构建一个界面友好、操作简便的教材信息管理环境。 该板块设计之初…

【Unity学习笔记】第十九 · 物理引擎约束求解解惑(LCP,最优,拉格朗日乘数法,SI,PGS,基于冲量法)

转载请注明出处: https://blog.csdn.net/weixin_44013533/article/details/140309494 作者&#xff1a;CSDN|Ringleader| 在学习物理引擎过程中&#xff0c;有几大问题一直困扰着我&#xff1a; 约束求解到底是LCP还是带约束最优问题&#xff1f;约束求解过程中拉格朗日乘数法…

.NET MAUI开源架构_1.学习资源分享

最近需要开发Android的App&#xff0c;想预研下使用.NET开源架构.NET MAUI来开发App程序。因此网上搜索了下相关资料&#xff0c;现在把我查询的结果记录下&#xff0c;方便后面学习。 1.官方文档 1.1MAUI官方学习网站 .NET Multi-Platform App UI 文档 - .NET MAUI | Micro…

paddlepaddle2.6,paddleorc2.8,cuda12,cudnn,nccl,python10环境

1.安装英伟达显卡驱动 首先需要到NAVIDIA官网去查自己的电脑是不是支持GPU运算。 网址是&#xff1a;CUDA GPUs | NVIDIA Developer。打开后的界面大致如下&#xff0c;只要里边有对应的型号就可以用GPU运算&#xff0c;并且每一款设备都列出来相关的计算能力&#xff08;Compu…

《Python零基础入门》——关于PyCharm使用技巧及python基本概念

从本次文章开始&#xff0c;我们将学习一门新的编程语言——Python。作为最热门的编程语言&#xff0c;Python相对比较清晰、简单。 python主要的编译工具就是pycharm&#xff0c;关于pycharm的安装及python配置环境&#xff0c;大家可自行参考网络上的教程&#xff0c;本文不…

深入Linux:权限管理与常用命令详解

文章目录 ❤️Linux常用指令&#x1fa77;zip/unzip指令&#x1fa77;tar指令&#x1fa77;bc指令&#x1fa77;uname指令&#x1fa77;shutdown指令 ❤️shell命令以及原理❤️什么是 Shell 命令❤️Linux权限管理的概念❤️Linux权限管理&#x1fa77;文件访问者的分类&#…

Windows之nslookup命令

一、命令简介 nslookup 是一个网络管理命令行工具&#xff0c;用于查询 DNS 记录。它可以用来查找域名对应的 IP 地址&#xff0c;或反向查找 IP 地址对应的域名。查询结果中非权威应答&#xff08;Non-authoritative answer&#xff09;意味着answer来自于其它服务器的缓存&am…

小众好玩的赛车游戏:环道巨星 CIRCUIT SUPERSTARS中文安装包

《环道巨星》&#xff08;Circuit Superstars&#xff09;是一款由赛车迷亲手为其他赛车迷打造的俯视角赛车游戏。荟集史上各类赛车运动&#xff0c;旨在提供刺激好玩的驾驶体验&#xff1b;而游戏自带的高技术难度将促使玩家长时间磨砺技巧&#xff0c;以达成完美的一圈。 游戏…

pdf只要前几页,pdf中只要前几页怎么处理

在处理pdf文件时&#xff0c;我们有时只需要其中的一页或几页&#xff0c;而不是整个文档。那么&#xff0c;如何快速且高效地从pdf中提取单独的一页呢&#xff1f;本文将为你揭示几种简单易行的方法&#xff0c;让你轻松实现这一目标。 使用 “轻云处理pdf官网” 打开 “轻云…

牛客小白月赛98 (个人题解)(补全)

前言&#xff1a; 昨天晚上自己一个人打的小白月赛&#xff08;因为准备数学期末已经写烦了&#xff09;&#xff0c;题目难度感觉越来越简单了&#xff08;不在像以前一样根本写不了一点&#xff0c;现在看题解已经能看懂一点了&#xff09;&#xff0c;能感受到自己在不断进步…