分解数据堆栈:存储和计算 2.0 的分解

news2024/11/27 22:24:10

在LinkedIn上,有一篇优秀的帖子在数据和数据库人群中流行。它由 Theory VC 合伙人 Tomasz Tunguz 撰写,讲述了我们自 2019 年以来讨论的趋势。

数据库正在成为高速查询引擎,并正在抛弃存储。这并不意味着存储不重要,相反,它比以往任何时候都更重要,这意味着高速查询处理是一项核心能力,它与存储竞争。数据库希望专注于数据库内容,他们希望存储专注于存储内容。

它是分解 2.0。我们看到了第一波浪潮,当时 HDFS 在它自己的要求下崩溃了,它要求每个存储节点都有一个计算节点(高速查询处理)。

想想Cloudera、Oracle和其他公司所采用的单一式数据库管理方法。在用户刚刚开始考虑大规模数据的时候,这种方法起到了作用。事实证明,它没有扩展。在数据优先的世界中,存储/计算紧密耦合的托管服务数据平台很快被识别为站不住脚,因为存储需求大大超过了计算需求。

让我们深入研究分解 2.0。

拆分数据库

想象一下,在图书馆中,书籍(数据)和阅读台(计算资源)是分开的。读者(查询)可以访问他们需要的任何书籍,而无需绑定到特定的办公桌。这种设置允许图书馆根据需求调整办公桌数量,从而优化空间和资源。同样,在数据库中分解存储和计算可以灵活高效地处理数据;而传统的存储和计算紧密耦合的设计限制了灵活性,并将用户锁定在特定的供应商生态系统中。

开放数据格式的兴起和对现代数据湖基础设施的需求

用户需要更多的控制和灵活性。如果您需要第一手证据,请收听 Snowflake 最近的财报电话会议或阅读文字记录。这是一个以客户为中心的组织,他们正在竞相采用 Open Table 格式(尤其是 Iceberg),并在此过程中放弃存储收入,因为这是他们的用户想要的。这让他们在短期内损失了数十亿美元的市值。不是数百万,数十亿。你随处可见的不仅仅是雪花。SQL Server、Teradata、ClickHouse、Greenplum 等。拥有大量数据企业的客户越来越多地推动和接受以下要求:

  • **开放表格式:**Iceberg、Hudi 和 Delta Lake 等格式可实现不同系统之间的无缝数据交换。这种互操作性使企业能够为特定任务选择最佳工具。

  • **集中式数据存储:**不是将用于各种目的(分析、AI 等)的数据复制到孤立的数据集市中,而是将中央存储解决方案或数据湖作为架构蓝图。这些数据湖需要在许多不同的用例中存储组织的所有数据。不同的系统不是数据集市,而是根据需要从一个中心位置访问和处理这些数据。

分解 2.0 的好处

在分解 1.0 中,驱动因素主要是成本、简单性和避免锁定:

  • **节省成本:**将存储与计算分开后,两者可以独立扩展。与计算相比,存储通常费用较小,并且自然地将两者分开的体系结构允许两个用户适当调整性能和成本效益。

  • **简化架构:**分解架构更加模块化,更易于管理。企业可以为存储、计算和各种数据处理任务选择最佳解决方案。使用这种管理数据堆栈的现代方法,确实没有必要受到病态和不适当的技术的阻碍。

  • **避免供应商锁定:**通过将计算与存储分开,不同的供应商可以在价格、性能和特定于每个工作负载的功能等因素上展开竞争。这促进了更具活力和创新性的数据处理环境。

在分解 2.0 中,优势在于性能、可扩展性和可选性:

  • **性能:**对于数据库来说,存储和计算的分离为构建同类最佳架构提供了机会。对于 Snowflake,他们致力于成为市场上速度最快、性能最高的查询引擎。在软件领域,可能没有比数据库更具竞争力的市场了。这是一项战略要务。它还允许他们的客户在存储方面做出类似的、以性能为导向的最佳决策。这些显然是对象存储决策,但哪些(AWS S3、Azure Blob、GCP Object、MinIO)将取决于客户试图实现的目标。我们不想在这一点上大惊小怪,但我们不理解那些现在声称自己是数据库公司并希望以数据平台为幌子与 Snowflake 和 Databricks 竞争的存储公司。那里有一个伊卡洛斯的故事。

  • **可扩展性:**我们正在进入人工智能领域的未知领域,这甚至会影响到像Snowflake这样的巨头。他们想要,坦率地说,他们需要能够以更多方式处理更多数据。数据库,而不仅仅是 Snowflake,需要就它们提供的价值变得更加可扩展。这也是他们的客户想要的。Snowflake是一种利用模式,利用率越高,他们得到的报酬就越多。当您将存储与计算分开时,它为 Snowflake 及其计算端的客户释放了一系列选项,因为他们不必承担共同设计存储解决方案的负担(考虑到他们一直在转售别人的对象存储,他们对存储解决方案的影响力有限)。现在,Snowflake 可以突破极限,推动客户采用能够跟上步伐的存储。这对每个人都有好处(正如你所想象的那样,对世界上最快的对象存储来说真的很好)。

  • **可选性:**最后,分解 2.0 为客户带来了更多的可选性。他们能否继续使用现有的模型(Snowflake + 云对象存储)——是的。他们能否采用存储与计算分离的新技术(通过外部表)——是的。这种额外的选择始终是积极的,客户在分解 2.0 中获得了更多。

数据管理的新时代

虽然数据仓库供应商熟悉存储和计算分离的概念,但过去的实施主要集中在他们自己的生态系统内进行扩展。在这方面,用户才刚刚开始意识到像超大规模企业一样思考的优势。当前的运动要求对所有用户进行更深层次的分离,其中存储成为一种独立于计算层的实用程序。

这种范式转变使企业能够释放其数据的真正潜力。对于需要大量干净、可用数据才能成功的 AI 和 ML 工作负载来说尤其如此。开放的数据格式和分解的架构使企业能够利用更广泛的工具和技术从其数据资产中获取最大价值。

未来属于开放、灵活且经济高效的数据架构。存储和计算的分解为数据管理的新时代铺平了道路,使企业能够利用其信息的真正潜力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1851667.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

灵感枯竭?来看Charls,新指标发一区(IF=9.3)| CHARLS等七大老年公共数据库周报(6.12)...

七大老年公共数据库 七大老年公共数据库共涵盖33个国家的数据,包括:美国健康与退休研究 (Health and Retirement Study, HRS);英国老龄化纵向研究 (English Longitudinal Study of Ageing, ELSA);欧洲健康、…

网页抓取单词关联

在当今数字化的时代,数据的获取与处理成为了众多企业和开发者关注的焦点。API 服务的出现,为我们打开了高效、便捷获取和利用数据的新大门。接下来,为您介绍几款独具特色的 API 服务,它们将为您的业务和开发工作带来前所未有的便利…

idea中tomcat控制台乱码

文章目录 解决IDEA中tomcat控制台中文乱码问题1.方法一2.方法二 解决IDEA中tomcat控制台中文乱码问题 网上有很多的教程,这里我给大家汇总一下 1.方法一 file –>Settings 点击Settings–>选择点击Editor—>选择点击General–>选择点击Console –>…

【pytorch02】手写数字问题引入

1.数据集 现实生活中遇到的问题 车牌识别身份证号码识别快递单的识别 都会涉及到数字识别 MNIST(收集了很多人手写的0到9数字的图片) 每个数字拥有7000个图像train/test splitting:60k vs 10k 图片大小28 28 数据集划分成训练集和测试集合的意义…

【因果推断python】50_去偏/正交机器学习2

目录 Frisch-Waugh-Lovell on Steroids CATE Estimation with Double-ML Frisch-Waugh-Lovell on Steroids 双重/偏差 ML 其思想非常简单:在构建结果和治疗残差时使用 ML 模型: 是估计,是估计 我们的想法是,ML 模型具有超强的…

python创建虚拟环境venv

为什么要创建虚拟环境 使用python创建虚拟环境是为了让项目的依赖隔离开来,互不干扰,使得每个项目都运行在一个独立的Python环境中。 创建虚拟环境 1. 命令行创建 step1. 创建 # 1. 进入到你的项目目录中 cd myproject # 使用python创建一个虚拟环境…

2024年化学、能源与核工程国际会议(ICCENE 2024)

2024年化学、能源与核工程国际会议(ICCENE 2024) 2024 International Conference on Chemical, Energy and Nuclear Engineering (ICCENE 2024) 会议地点:三亚,中国 网址:www.iccene.com 邮箱: iccenesub-conf.com 投稿主题请注明:ICCEN…

osgVerse加载3dtiles

本文利用osgVerse中的osgdb_3dtiles插件,展示其加载倾斜模型3dtiles的效果,并对其实现做的分析,分析其按照osg的场景结构显示3dtiles的方法。 目录 1 osgVerse显示3dtiles效果2 osg的场景结构与3dtiles结构分析3 部分代码实现细节内容 1 osgVerse显示3dtiles效果数据下载地址…

头歌资源库(14)残缺棋盘

一、 问题描述 二、算法思想 首先,将2^k 2^k的棋盘划分为四个相等大小的子棋盘,定义为左上、左下、右上和右下四个子棋盘。 然后,根据残缺格的坐标,确定其中一个子棋盘是不完整的,即残缺子棋盘。假设残缺子棋盘是左…

Pytest框架中pytest.mark功能

文章目录 mark功能 1. 使用pytest.mark.skip 2. 使用pytest.mark.skipif 3. 使用 pytest.mark.xfail 4使用pytest.mark.parametrize 5 使用pytest.mark.自定义标记 6 使用pytest.mark.usefixtures pytest 的mark功能在pytest官方文档是这样解释的: https://…

【C语言】解决C语言报错:Buffer Overflow

文章目录 简介什么是Buffer OverflowBuffer Overflow的常见原因如何检测和调试Buffer Overflow解决Buffer Overflow的最佳实践详细实例解析示例1:字符串操作不当示例2:数组访问越界示例3:未检查输入长度示例4:使用不安全的函数 进…

公共 IP 地址和私有 IP 地址的区别总结

什么是IP地址? IP 地址,即互联网协议地址(Internet Protocol Address),是网络设备在网络中进行通信的标识。IP 地址可以看作是设备在网络中的“地址”,有助于数据包在网络中找到正确的接收端。IP 地址主要…

FP7195做大功率钓鱼灯应用方案,0.1%深度无极无频闪调光调色应用,调光曲线顺滑无突兀

文章目录 文章目录 方案背景 一、夜钓灯电路框架 二、FP7195芯片介绍 芯片参数 总结 方案背景 目前夜钓正在逐渐变得时尚起来,随着夜钓群体的年轻化,人们对于夜钓灯的审美要求也越来越高。夜钓灯作为夜间钓鱼的重点装备,不仅仅需要高质量的光…

视频号封禁VS京东支持,AI虚拟主播是红利还是“毒药”?

大数据产业创新服务媒体 ——聚焦数据 改变商业 在数字化浪潮的推动下,AI技术正以前所未有的速度渗透到我们生活的每一个角落。而当AI技术遇上直播带货,一个全新的概念——AI数字人直播带货,便应运而生。这不仅仅是一场技术的革新&#xff0…

定时任务查看报拒绝权限,不执行

排查思路: 1、查看/etc/cron.deny ##此文件是空的 cat /etc/cron.deny只有cron.deny文件。但文件无内容,不存在限制(如果存在cron.allow文件,以cron.allow文件优先;若cron.allow和cron.deny都存在,以cron…

力扣SQL50 查询结果的质量和占比 AVG(条件)

Problem: 1211. 查询结果的质量和占比 &#x1f468;‍&#x1f3eb; 参考题解 Code select query_name,round(avg(rating/position),2) as quality,round(100 * avg(rating < 3), 2) as poor_query_percentage from Queries group by query_name -- 到此结束过不了最后一…

el-upload 组件上传文件(查询,上传,删除,下载功能)

1.html el-upload中的属性&#xff1a; <el-upload ref"upload" class"upload-demo" // element-ui自带的样式 :headers"headerOdj" // 文件上传的头,带token&#xff08;重要&#xff0c;不然传输大文件会断掉&…

使用Spring Boot实现用户认证和授权

文章目录 引言第一章 Spring Boot概述1.1 什么是Spring Boot1.2 Spring Boot的主要特性 第二章 用户认证和授权基础知识2.1 用户认证2.2 用户授权2.3 Spring Security概述 第三章 项目初始化第四章 实现用户认证和授权4.1 定义用户实体类和角色实体类4.2 创建Repository接口4.3…

昇思25天学习打卡营第4天 | 数据变换

内容介绍&#xff1a;通常情况下&#xff0c;直接加载的原始数据并不能直接送入神经网络进行训练&#xff0c;此时我们需要对其进行数据预处理。MindSpore提供不同种类的数据变换&#xff08;Transforms&#xff09;&#xff0c;配合数据处理Pipeline来实现数据预处理。所有的T…

书生·浦语大模型LagentAgentLego智能体应用搭建 第二期

文章目录 智能体概述智能体的定义智能体组成智能体范式 环境配置Lagent&#xff1a;轻量级智能体框架实战Lagent Web Demo用 Lagent 自定义工具 AgentLego&#xff1a;组装智能体“乐高”直接使用AgentLego作为智能体工具使用 用 AgentLego 自定义工具 智能体概述 智能体的定义…