冰山的崛起:数据架构的转变

news2024/12/26 11:00:37

像 Apache Iceberg、Apache Hudi 和 Delta Lake 这样的开放表格式已成为查询处理器的事实标准。然而,最近有消息称 Snowflake 和 Databricks 等查询引擎采用了 Iceberg 的 REST 目录 API,这改变了竞争环境,有利于 Iceberg。

Iceberg的成功不仅源于这些具有新闻价值的公告,还源于它能够解决困扰早期格式的关键问题。例如,Iceberg 为 ACID 事务、模式演变和高效的元数据管理提供了强大的支持,这些功能以前很难大规模实现。在众多令人钦佩的参赛者的竞争环境中,这种崛起类似于 Kubernetes 如何成为 Docker Swarm 的主导容器编排平台,突破了容器化应用程序的可能性界限。

存储的重要性

就像保龄球被扔到水床上一样,冰山的影响在市场的其他领域也产生了类似的变化。通过在开放式表格格式中确定一个明显的赢家,无论喜欢与否,市场也提升了存储的重要性。现在,如果存储解决方案无法支持这些开放表格式,那么在现代数据架构中,它就有可能过时。设备、不是为云构建的存储、性能不佳和操作复杂的存储在这种新的层次结构中没有立足之地。只有性能、规模和云原生存储才能跟上由越来越多地采用开放式现代数据湖所推动的创新。

查询引擎的商品化

在这个新时代,并不是说查询引擎变得不那么普遍,而是它们变得更加商品化。这种商品化将用户从局限于 SQL 或 Python 或任何特定查询引擎中解放出来,使用户能够根据其特性、性能和用例来选择查询引擎。也许最终会导致多个查询引擎出于不同的目的对相同的数据进行操作。因此,我们可以预期数据存储上的计算选项将激增,从而削弱昂贵的专有计算解决方案的主导地位。

为什么这种转变对用户有好处

将用户锁定在特定供应商生态系统中的昂贵专有计算解决方案的终结越来越有可能。用户将能够根据其组织的需求和要求从大量的查询引擎中进行选择。这反过来将迫使计算层进行创新,因为他们寻求与新的特性和能力竞争。

计算层中的更多选项意味着为用户提供更好的选择和更具竞争力的价格。主要供应商会发现保持高计算利润率具有挑战性,从而降低成本和更大的创新。分门别类往往会节省成本。

为什么这种转变对人工智能有好处

在人工智能不断增长的数据需求的推动下,随着数据湖的扩展,可扩展的存储变得至关重要。专注于 AI 的组织需要管理 PB 级的原始数据,因此需要强大且可扩展的存储系统。Iceberg 的架构支持这一需求,可以容纳高级 AI 应用程序所需的大量非结构化和结构化数据。随着资源增强生成(RAG)LLMs变得越来越普遍,交叉引用庞大、多样化的数据集的能力对于在人工智能驱动的问答系统中构建上下文和生成见解至关重要。

冰山的崛起意味着存储量的增加

在这种贪婪的数据吞噬过程中,将对高性能、可扩展和可用存储的需求。这就是冰山正在迎来的美丽新世界。在一个新世界里,对象存储是主要的,查询引擎被商品化了。一个为用户带来更多灵活性和成本效益的世界,并为人工智能应用开辟了新的可能性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1974767.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

国内自闭症学校:寻找最适合您孩子的选择

当您的孩子被诊断为自闭症,为他们寻找一所合适的学校就成为了您至关重要的任务。在国内,有各种各样的自闭症学校,每所学校都有其独特的特点和优势。然而,如何在众多的选择中找到最适合您孩子的那一所,并非易事。 您需要…

【数据结构算法经典题目刨析(c语言)】顺序表和链表的区别(图文详解)

💓 博客主页:C-SDN花园GGbond ⏩ 文章专栏:数据结构经典题目刨析(c语言) 目录 顺序表和链表的区别 一、底层存储空间 二、插入和删除操作 三、随机访问 四、空间利用率 五、应用场景 六、高速缓存 为什么顺序表的缓存利用率高于链表呢…

windows 文件夹下的文件名称全部输入到txt文件中(已解决)

打开cmd 命令行,记住一定是cmd命令行 进入cmd 目前在C盘,跳转D盘,输入d:。 d: 回车; 在输入或者粘贴你的目的路径 我的是 D:\opencv****\build\x64\vc14\lib,回车进入目的路径。 然后 再输入:dir /b &…

windows环境下安装docker与jenkins进行单机简易安装

CI/CD流水线简易实战 技术工具: Git Jenkins Docker Git Git是一个开源的分布式版本控制系统,用于敏捷高效地处理任何规模的项目。 GitHub是在线的基于Git的代码托管服务。GitHub于2008年由Ruby on Rails编写而成。GitHub同时提供付费账户和免费账户。这两种账户都…

包装类(String、StringBuffer、StringBuilder) 重点

包装类(Wrapper Class)是Java中的一个重要概念,它们是用于将基本数据类型(如int, char, double等)封装成对象的类。使用包装类的主要目的是为了能够更好地与Java的集合框架(如ArrayList、HashMap等&#xf…

Modelsim仿真之VCD文件详解

目录 一、前言 二、VCD文件格式 2.1 头部 2.2 变量定义 ​ 2.3 值打印 2.4 值变化部分 2.5 VCD文件示例 三、VCD文件生成 3.1 工程代码 3.2 modelsim操作 3.3 VCD结果查看 3.4 VCD类型2 四、参考资料 一、前言 ​VCD(Value change dump)…

mv:自动对焦代码

try:# The camera will now focus on whatever is in front of it.sensor.ioctl(sensor.IOCTL_TRIGGER_AUTO_FOCUS) except:raise (Exception("Auto focus is not supported by your sensor/board combination."))

说说ip地址和mac地址的区别

随着互联网的飞速发展,网络连接已成为我们日常生活中不可或缺的一部分。然而,在享受网络带来的便利时,你是否曾好奇过那些让设备能够相互通信的关键技术?IP地址与MAC地址,作为网络通信中的两大基石,它们各自…

2023华为od机试C卷【API集群负载统计】Python实现

思路 统计第二层级上computing出现的次数的时候,只需要for循环寻找computing是否在字典的键中。 如果找到,计数的时候是加上computing对应的值 def main():import collectionslength_char int(input())node_info {}for i in range(length_char):char…

### 微软的传奇与未来:从车库到云端的飞跃

今天我要和大家聊聊科技界的超级明星——微软。这家公司几乎每个人都听过,从90年Windows全家桶,到现在的云端革命,微软的故事简直有点儿像科技界的“美国梦”。 #### **车库里的梦想** 一切都得从1975年说起。当时,比尔盖茨和保…

【博客22】缤果Android_USB串口调试助手V1.0(高级篇)

超级好用的Android_USB调试助手 ( Android Studio Java) 开发工具: android-studio-2022.2.1.20-windows.exe usb-serial-for-android 目录 一、软件概要: 二、软件界面: 1.App演示 2.其他扩展展示 2.1 USB枚举 2.2 波特率 2.3 自定义指令集 2.…

一种别样的Unicode Python编码方式,完美转换表情和阿拉伯语

我们可能有时候在处理字符时需要处理到非ASCII的字符,比如将表情、阿拉伯语转换为Unicode字符,从而避免在传输时会出现乱码的情况。 Unicode验证网站: unicode转换网站 目的:转换下面除ASCII字符外的字符为Unicode字符&#x1f…

Upload-labs靶场Pass01-Pass21全解

文章目录 Pass-01 前端JSJS绕过上传或者用burp抓包的方式 Pass-02 MIME检测Pass-03 特殊文件后缀黑白名单绕过特殊文件名绕过 Pass-04 .htacess上传Pass-05 user.ini文件上传Pass-06 大小写绕过Pass-07 空格绕过Pass-08 .绕过Pass-09 ::$DATA绕过Pass-10 .空格.绕过Pass-11 双写…

⾃定义类型:联合和枚举详解

本章讲述的是自定义类型中联合和枚举,在本章我们将会认识联合体,枚举的声明,使用,以及联体的大小,枚举类型的优点。 1.联合体 1.联合体类型的声明 像结构体⼀样,联合体也是由⼀个或者多个成员构成&#…

重新设计 Baklib 中的分析数据处理

数据库是任何应用程序性能最关键的部分之一。当谈到 Baklib 时,考虑到高度可扩展的 SaaS 环境,我们总是致力于提高应用程序的性能。 我们不断尝试提高应用程序的性能,在密切监视应用程序是否有任何挫折和改进的同时,我们发现每天…

推动未来的引擎:人工智能大模型的现状与发展

推动未来的引擎:人工智能大模型的现状与发展 一、引言 随着人工智能技术的迅速发展,人工智能大模型作为其中的重要组成部分,正逐渐成为推动科技进步的重要引擎。无论是在自然语言处理、计算机视觉,还是智能推荐等领域&#xff0…

快讯 | 苹果携手OpenAI,ChatGPT即将登陆iOS 18

在数字化浪潮的推动下,人工智能(AI)正成为塑造未来的关键力量。硅纪元视角栏目紧跟AI科技的最新发展,捕捉行业动态;提供深入的新闻解读,助您洞悉技术背后的逻辑;汇聚行业专家的见解,…

MATLAB预测模型(3)

一、前言 在MATLAB中,实现不同类型的预测模型,如马尔科夫预测、神经网络预测、模糊预测和灰色预测,需要用到不同的函数和工具箱。下面我将为每种预测模型提供一个基本的示例代码。 二、实现 1. 马尔科夫预测 马尔科夫预测通常用于处理具有无…

四大内存区域揭秘:你真的了解你的程序吗?

我是小米,一个喜欢分享技术的29岁程序员。如果你喜欢我的文章,欢迎关注我的微信公众号“软件求生”,获取更多技术干货! 大家好!我是你们的技术小伙伴小米,今天我们来聊聊操作系统中的进程空间。作为一名技术爱好者,我特别兴奋地为大家拆解一下进程空间的四大区域:栈区…

嵌入式实习--MobaXterm连接开发板与SSH远端服务器详细使用教程

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、前期准备二、安装USB串口模块驱动1.1驱动未自动安装 二、MobaXterm安装使用2.1 MobaXterm 软件安装2.2 MobaXterm 软件使用2.2.1连接开发板2.2.2 远程SSH连…