数据领域最激动人心的发展之一是湖仓一体功能在所有主要数据库供应商中的兴起。Snowflake 和 SQL Server 长期以来一直采用这一点,现在 PostgreSQL 正在通过 pg_lakehouse 拥抱这种范式转变,使得利用现代数据湖进行分析、AI 等比以往任何时候都更容易。随着越来越多的传统数据库继续允许您查询对象存储中的数据,AWS 选择弃用 Amazon S3 Select,这也许并非巧合。该领域有更多的进入者可以成功地为客户提供此功能以及更多功能。
虽然绿地化提供了为特定用例定制技术堆栈的快感,但完整的淘汰和替换策略很少可行,也不明智。相反,前进的道路在于利用现有的数据库技术进行计算,同时投资于世界一流的对象存储。在这个现代时代,数据和存储才是真正的价值,因为查询引擎虽然很重要,但已经变得商品化和可互换。pg_lakehouse使目前使用PostgreSQL的许多企业能够采用这种策略,使他们能够在不牺牲现有投资的情况下使用现代数据湖为未来进行构建。pg_lakehouse 是由 ParadeDB 开发的开源扩展。此扩展利用了 PostgreSQL 现有的外部数据包装器功能,并通过与 Apache DataFusion 的集成进行了增强,以提供对各种数据源的高性能分析。
从 SQL 到对象存储:新前沿
PostgreSQL长期以来一直支持外部表和扩展,使其能够与外部数据源进行交互。新的 pg_lakehouse 扩展延续了这一传统,使 PostgreSQL 能够查询存储在 MinIO 等对象存储系统中的数据。这不仅仅是一个附加组件,而是 PostgreSQL 现有功能的扩展,允许用户将外部对象存储视为其数据库中的本机表。与 MinIO Enterprise Object Store 配对,用户可以存储大量数据,同时将其与现有的 SQL 工作流集成。数据工程师们欢欣鼓舞,因为PostgreSQL已经成为对象存储的查询引擎。
为什么这很重要
在现代数据环境中,有效存储和分析数据的能力至关重要。就其本身而言,传统数据库在可扩展性和灵活性方面存在局限性,尤其是在处理大型数据集或多样化的数据格式时。现代数据湖架构结合了数据湖和数据仓库的优点,可以解决这些挑战。通过分解计算和存储,此体系结构使企业能够独立扩展资源,从而优化性能和成本。此外,现代数据湖支持各种 AI/ML 工作负载,确保数据始终可访问、具有弹性且安全,即使在地理位置分散的大型部署中也是如此。
PostgreSQL 和 MinIO 企业对象存储
将 PostgreSQL 与 MinIO 的企业对象存储 (EOS) 集成为构建现代数据湖奠定了坚实的基础,提供的功能可确保您的数据具有可扩展性、安全性和高性能。
1 . 使用 MinIO 跨数据源查询:使用 pg_lakehouse 扩展直接查询存储在 MinIO 中的数据。目前,与 S3 兼容的对象存储(如 MinIO)支持 CSV 格式。PostgreSQL 可以将这些文件视为本机表,使您能够执行复杂的分析,而无需移动数据。ParadeDB 表示,对 Iceberg 的支持将很快可用,进一步扩展数据湖的多功能性。对 Iceberg 的支持将很快推出,进一步扩展数据湖的多功能性。
2 . 企业级可扩展性:MinIO 的架构专为大规模而设计,可以毫不费力地管理 EB 级数据。MinIO 使用基于服务器池的分布式架构,允许水平扩展,这意味着您可以添加更多池以增加容量和性能,而不会造成中断。这种设计非常适合处理现代企业的大规模数据需求,确保您的基础设施能够随着数据需求的增长而增长。
3 . 高级安全性:安全性在现代数据架构中至关重要。MinIO EOS 提供强大的安全功能,包括用于服务器端加密的 MinIO Enterprise KMS(密钥管理系统)。EOS KMS确保您的数据在静态和传输过程中都得到加密,从而保持最高级别的数据保护。
4 . 高性能:MinIO Enterprise Cache 功能通过将频繁访问的数据存储在更靠近应用程序的位置,显着提高了数据访问速度。这对 PostgreSQL 查询特别有利,因为在 PostgreSQL 查询中,减少延迟可以加快查询执行速度,尤其是对于存储在数据湖中的大型数据集。世界上只有一种最快的对象存储,并且使用 NVMe SSD 的 GET 操作超过 325 GiB/s,PUT 操作超过 165 GiB/s,因此只有一种真正的对象存储选择来支持 PostgreSQL 作为查询引擎。
5 . 使用 MinIO 控制台简化管理:MinIO Enterprise Console 提供了一个基于 Web 的直观界面,用于在一个地方管理所有对象存储,包括监控、用户管理和策略执行。在构建现代数据湖时,这种易管理性至关重要,因为它允许管理员从单一界面有效地监督存储层。
通过利用 MinIO 企业对象存储的这些功能,结合 PostgreSQL 的强大功能,您很快将能够构建一个现代、安全且高度可扩展的现代数据湖,以满足当今数据密集型环境的需求。此设置不仅可以增强您的分析能力,还可以为面向未来的数据策略奠定坚实的基础,确保您的基础架构能够适应不断变化的数据管理环境。
开始使用 pg_lakehouse
安装过程很简单,官方 ParadeDB 文档中提供了详细的设置说明。作为 AGPL-3.0 许可的开源项目,pg_lakehouse 鼓励社区贡献并确保扩展保持免费和可访问性,使其成为希望使用 PostgreSQL 和 MinIO 实现数据基础设施现代化的组织的重要工具。
继续构建
通过 pg_lakehouse 将湖仓一体功能集成到 PostgreSQL 中,结合 MinIO 强大的对象存储,为现代数据需求提供了强大的解决方案。此举不仅仅是增加功能,而是反映了行业中更广泛的趋势,即数据湖和数据仓库融合在一起,提供两全其美的服务。随着越来越多的数据库采用类似的功能,数据分析的未来看起来比以往任何时候都更加光明和集成。