Apache Arrow 和数据的未来:开放标准推动人工智能发展

news2025/1/14 19:56:50

Apache Arrow 是一种开源列式内存格式,适用于平面数据和分层数据。在现代数据湖中,开放数据格式(如 Apache Arrow)位于现代对象存储的存储层中。这些格式成为对象存储中的对象。

在最新版本中,Apache Arrow 宣布计划从 Apache DataFusion(自 2019 年 2 月以来一直附加到 Arrow 的查询执行框架)中分离出来,并将这两个项目提升到 Apache 软件基金会的顶级水平。贡献者解释说,随着两个项目的发展,它们已经分化了,虽然 DataFusion 继续依赖 Arrow,但反过来就不能说了。此举代表了 Arrow 的成熟度和在数据社区中的广泛采用。本博客旨在突出这些贡献。

了解 Apache Arrow

Arrow 格式旨在优化各种数据系统的数据处理和分析操作。这意味着 Arrow 旨在与许多不同的处理引擎配合使用,这对于处理具有许多不同用例的大量复杂半结构化数据的数据湖至关重要。

Apache Arrow 性能极高,这主要归功于其列式数据格式,最大限度地减少了对数据序列化和反序列化的需求。这种格式不仅有助于加快数据访问速度,还支持对数据湖进行实时分析。此外,Arrow 使用内存映射允许数据集由磁盘缓存提供支持,该缓存经过内存映射,可快速检索数据。此功能在 RAM 有限的环境中特别有效,可以有效地处理大型数据集。这些属性使 Arrow 成为现代数据架构的基本组件,特别是在增强不同数据环境中的互操作性和计算效率方面。

Apache Arrow 的主要优势

开源:我们长期以来一直支持现代数据堆栈的开放性。很大程度上,因为开源催生了开源,因为协作推动了创新。对于像 Apache Arrow 这样的开放标准来说尤其如此,因为它们在加速数据生态系统内的创新方面发挥着至关重要的作用。通过提供互操作性的通用框架,开放标准使开发人员能够更有效地协作,并避免在重新发明解决方案时进行冗余工作。这反过来又培养了一种创新文化,在这种文化中,想法可以被分享和建立,从而推动不断的进步和发展。

性能:通过采用 Arrow,组织可以在不同系统之间无缝交换数据,而不会产生与序列化和反序列化相关的性能成本。当然,没有什么比性能更能与性能相得益彰了。

简化集成:Arrow 提供的标准化降低了集成不同工具的复杂性,使开发人员能够专注于构建强大的解决方案,而不是应对集成挑战。通过设计,云原生项目、框架和软件开箱即用地协同工作。

采用 Apache Arrow 的著名项目

Apache Arrow 已在各种项目中得到广泛采用。我们已经写过一些,包括与 Spark 和 R 的集成,但还有更多,包括但不限于:

1 . Polars:是 Rust 中一个速度极快的 DataFrame 库,它利用 Arrow 的列式存储格式进行高效的数据处理,增强了性能和可扩展性。Polars 与 Apache Arrow 的集成巩固了现代数据湖基础设施的基础,可实现高速数据运维和分析。

2 . DuckDB:与 Apache Arrow 无缝集成,实现高效的数据交换,实现快速的数据传输和分析。这种集成在现代数据湖基础设施中起着举足轻重的作用,有助于跨不同数据集进行快速数据处理和查询执行。

3 . ClickHouse:是一个开源的分析数据库管理系统,以其在实时查询处理方面的高性能而闻名。它利用 Apache Arrow 来增强其操作的几个方面,主要侧重于数据导入和导出,以及启用直接查询功能。

4 . PySpark:利用 Apache Arrow 的列式数据表示来实现高效的数据处理,增强性能和可伸缩性。PySpark 与 Apache Arrow 的无缝集成为现代数据湖基础设施奠定了基础,使组织能够轻松构建强大且可扩展的数据处理管道。

5 . Pandas:受益于 Arrow 高效的内存布局和互操作性,支持与现代数据湖堆栈中的其他系统和语言进行无缝数据交换。

6 . Ray:是一个分布式计算框架,它利用 Apache Arrow 进行高效的数据序列化和分布式任务之间的传输。这种集成增强了 Ray 的性能和可扩展性,使用户能够轻松构建和部署分布式应用程序。

7 . delta-rs:是一个开源的 Rust 库,为 Delta Lake 提供原生 Rust 实现。Delta-rs 使用 Arrow 在内部存储和管理数据,从而可以快速、高效地对 Delta Lake 表进行操作,尤其是在处理大型数据集时。

8 . iceberg-arrow:是一个 Iceberg Table 支持库,允许将 Parquet 读取到 Arrow 内存中。它的性能等于或优于默认的 Parquet 矢量化阅读器。

9 . Hugging Face Datasets 将 Arrow 用于其磁盘缓存系统,该系统允许将大型数据集本地存储在内存有限的系统上。磁盘上的缓存是内存映射的,以实现高效查找。

10 . RAPIDS:是一套用于 GPU 加速数据科学和分析的开源库,它利用 Apache Arrow 实现 GPU 加速数据处理任务之间的互操作性。这种集成使 RAPIDS 能够利用 Arrow 高效的列式格式在 GPU 上进行高速数据处理。

虽然这些项目代表了拥抱 Apache Arrow 的庞大生态系统的一个子集,但它们体现了该标准在不同领域和用例中的多功能性和适应性。

开源标准

Apache Arrow 证明了开放标准在推动现代数据湖中的互操作性和创新方面的力量。随着组织继续利用其堆栈中开放标准的功能,人工智能和分析的变革性进步潜力仍然无限。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1848821.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

第二十七篇——通信趋势:5G和IOT的商机在哪里?

目录 一、背景介绍二、思路&方案三、过程1.思维导图2.文章中经典的句子理解3.学习之后对于投资市场的理解4.通过这篇文章结合我知道的东西我能想到什么? 四、总结五、升华 一、背景介绍 借势的重要性,但是要做到借势,得先看到&#xff0…

WPF文本绑定显示格式StringFormat设置-特殊格式时间日期和多数据绑定

WPF文本绑定显示格式StringFormat设置 特殊格式设置日期/时间使用系统默认样式自定义格式: 绑定多个属性(多重绑定)多重绑定中的特殊字符示例: 特殊格式设置 在Textblock等文本控件中,我们经常要显示一些日期和时间&a…

Android (已解决)Execution failed for task ‘:app:lint‘

文章目录 一、错误原因二、解决方法 一、错误原因 这个错误信息表示在执行 Lint 检查时发现了错误,导致构建过程被中断。Lint 是一个用于检测 Android 项目中潜在问题的工具,比如性能、安全性、可用性等方面的问题。当Lint检查到严重错误时,…

碳钢酸洗线送酸槽蒸汽冷凝水PH计测量装置改进方法

碳钢酸洗线送酸槽蒸汽冷凝水PH计测量装置改进方法 一、项目提出前状况 1)立项背景 轧钢退火酸洗生产线的酸洗过程需要使用大量的硫酸、盐酸、硝酸、氢氟酸等酸液对钢带的表面进行清洗,酸洗过后产生较多的酸洗废水,酸洗废水需要经过处理达到污水排放标准后才能排放。其中酸…

Android企业级实战-界面篇-5

3.colors.xml文件内容(此案例可用) #ffb2b2b2 #ff14c4bc color/jimeng_text_tertiary_light color/jimeng_green_light color/jimeng_background_secondary_light color/jimeng_background_secondary_light #7f4eb7ba 4.strings.xml文件内容&…

Android系统揭秘(一)-Activity启动流程(上)

public ActivityResult execStartActivity( Context who, IBinder contextThread, IBinder token, Activity target, Intent intent, int requestCode, Bundle options) { IApplicationThread whoThread (IApplicationThread) contextThread; … try { … int result …

React实现列表列宽可拖拽

1.中文文档上没有&#xff0c;英文文档上有&#xff08;这个老六&#xff01;&#xff01;&#xff09; <Tableborderedcomponents{{header: {cell: ResizableTitle,},}}columns{mergedColumns}dataSource{data} />React - Resizable column

20240622 每日AI必读资讯

&#x1f916;力压GPT-4o&#xff01;新王Claude 3.5 Sonnet来了&#xff0c;直接免费可用 - 新模型在推理、知识和编码能力评估方面超越了以前的版本和竞争对手GPT 4o模型&#xff0c;同时其运行速度是Claude 3 Opus的两倍。 - 该模型可在http://Claude.ai和Claude iOS应用上…

鸿蒙 登录界面示例

1.b站登录界面 我的b站教学视频&#xff1a;https://www.bilibili.com/video/BV1LQgQexEGm/https://www.bilibili.com/video/BV1LQgQexEGm/ 最终实现效果&#xff1a; 需要准备2张图片&#xff0c;分别是向下和向右边的图标 代码&#xff1a; Entry Component struct Index…

CentOS7 部署安装ClickHouse

一、什么是ClickHouse ClickHouse 是俄罗斯的Yandex于2016年开源的列式存储数据库&#xff08;DBMS&#xff09;&#xff0c;使用C语言编写&#xff0c;主要用于在线分析处理查询&#xff08;OLAP&#xff09;&#xff0c;能够使用SQL查询实时生成分析数据报告。 OLAP场景需要…

Python面向对象编程:类和对象的奥秘

更多Python学习内容&#xff1a;ipengtao.com 在Python的世界中&#xff0c;面向对象编程&#xff08;OOP&#xff09;是构建强大应用程序的基石。本文将带你从零开始&#xff0c;一步步探索类和对象的奥秘&#xff0c;让你的代码更加模块化和可重用。面向对象编程是一种编程范…

嵌入式开发二十一:定时器之通用定时器

通用定时器是在基本定时器的基础上扩展而来&#xff0c;增加了输入捕获与输出比较等功能。高级定时器又是在通用定时器基础上扩展而来&#xff0c;增加了可编程死区互补输出、重复计数器、带刹车(断路)功能&#xff0c;这些功能主要针对工业电机控制方面。 本篇博客我们主要来学…

Opencv学习项目5——pyzbar,numpy

上一次我们使用pyzbar进行解码二维码并将其内容显示在图像上&#xff0c;使用的是rect barcode.rect来获取图像的坐标&#xff0c;这次我们使用另一种方法来获取坐标进行画框。 Numpy介绍 NumPy 是一个用于科学计算的开源 Python 库&#xff0c;提供了对大量数值数据进行高效操…

【泛微系统】解决启动非标功能时提示客户ID不一致的问题

解决启动非标时提示CID不一致的问题 泛微OA系统是一个非常丰富的系统,我们在日常工作中会经常遇到很多业务需求,我们会用到很多功能来承载这些需求的实现;OA系统里有标准功能,也有非标准的功能;对于非标准的功能需要打非标补丁包; 有些同学在个人学习系统的过程中会安装本…

STM32项目分享:家庭环境监测系统

目录 一、前言 二、项目简介 1.功能详解 2.主要器件 三、原理图设计 四、PCB硬件设计 1.PCB图 2.PCB板打样焊接图 五、程序设计 六、实验效果 七、资料内容 项目分享 一、前言 项目成品图片&#xff1a; 哔哩哔哩视频链接&#xff1a; https://www.bilibili.…

【性能优化】表分桶实践最佳案例

分桶背景 随着企业的数据不断增长&#xff0c;数据的分布和访问模式变得越来越复杂。我们前面介绍了如何通过对表进行分区来提高查询效率&#xff0c;但对于某些特定的查询模式&#xff0c;特别是需要频繁地进行数据联接查或取样的场景&#xff0c;仍然可能面临性能瓶颈。此外…

VisualBox 虚拟机 Ubunut 18.04 在大显示器上黑屏的问题

在小屏幕上显示没有问题&#xff0c;但是移动到大显示器上就黑屏了&#xff0c;并且不能铺满&#xff0c;如下所示 如果我希望它铺满整个屏幕&#xff0c;如何解决呢&#xff1f; 下面是解决方法&#xff1a; 虚拟机底部这个按钮&#xff0c;右键 产生菜单&#xff0c;按这个选…

基于STM8系列单片机驱动74HC595驱动两个3位一体的数码管

1&#xff09;单片机/ARM硬件设计小知识&#xff0c;分享给将要学习或者正在学习单片机/ARM开发的同学。 2&#xff09;内容属于原创&#xff0c;若转载&#xff0c;请说明出处。 3&#xff09;提供相关问题有偿答疑和支持。 为了节省单片机MCU的IO口资源驱动6个数码管&…

mongodb嵌套聚合

db.order.aggregate([{$match: {// 下单时间"createTime": {$gte: ISODate("2024-05-01T00:00:00Z"),$lte: ISODate("2024-05-31T23:59:59Z")}// 商品名称,"goods.productName": /美国皓齿/,//订单状态 2:待发货 3:已发货 4:交易成功…

强化学习中的自我博弈(self-play)

自我博弈&#xff08;Self-Play&#xff09;[1]是应用于智能体于智能体之间处于对抗关系的训练方法&#xff0c;这里的对抗关系指的是一方的奖励上升必然导致另一方的奖励下降。通过轮流训练双方的智能体就能使得双方的策略模型的性能得到显著提升&#xff0c;使得整个对抗系统…