Dask简介

news2025/1/11 21:02:44

目录

一、概述

二、编程模型

2.1 High-Level Collection

2.2 Low level Interface

三、调度框架

3.1 任务图

3.2 调度

3.3 优化

3.4 动态任务图


一、概述

Dask是一个灵活的Python并行计算库。

Dask由两部分组成:

  • 为计算优化的动态任务调度:和Airflow,Luigi,Celery,Make很相似,但是专门为交互式的工作负载进行了优化。

  • 大数据集合:像并行数组、数据帧和列表,将NumPy、Pandas或Python迭代器等常见接口扩展到大于内存或分布式环境。这些并行集合在动态任务调度器之上运行

Dask强调了以下特质:

  • 通用:提供并行的Numpy array和Pandas DataFrame objects。

  • 灵活:为更多的自定义工作负载和与其他项目的整合提供了一个任务调度接口。

  • 原生:在纯Python中实现分布式计算,可以访问PyData栈。

  • 快速:以低开销、低延迟和快速数字算法所需的最小序列化进行操作。

  • 大规模:可以在拥有1000个内核的集群上弹性运行

  • 小规模:只需要一个进程就能在笔记本电脑上设置和运行,非常简单。

  • 响应性:设计时考虑到交互计算,为用户提供了快速的反馈和诊断。

二、编程模型

Dask的编程模型可以分为两大类:high level的数据集集合,和low level的接口。

High level Collection提供了3种实现:

  • Array:Dask Array使用阻塞式算法实现了NumPy ndarray接口的一个子集,将大数组切割成许多小数组。这让我们可以使用所有的内核对大于内存的数组进行计算。我们使用Dask图来协调这些分块算法。

  • Bag:Dask Bag实现了对通用Python对象集合的map、filter、fold和groupby等操作。它通过使用Python迭代器以较小的内存占用来完成这些操作。它类似于PyToolz的并行版本或PySpark RDD的Pythonic版本。

  • DataFrame:Dask DataFrame是由许多较小的Pandas DataFrame组成的大型并行DataFrame,沿着索引分割。这些Pandas DataFrame可以住在磁盘上,以便在一台机器上进行大于内存的计算,或者在集群中的许多不同机器上进行计算。一个Dask DataFrame操作会触发对组成的Pandas DataFrame的许多操作。

除此之外,Dask还允许自定义Collection,只需实现Dask为Collection所定义的接口即可。

注意,前面我们说到,大数据集合运行在动态任务调度器之上,但当前Dask默认提供的三种Collection虽然运行在动态任务调度器之上,但在调度时也对任务图做了一些封装和限制,使之更偏向于批量同步处理。其原因在于,这些默认提供的Collection的目的是为了解决分布式的大数据计算,而数据计算的特质,例如同构任务、阶段拆分等特性不需要非常灵活的动态任务调度,更偏向于一个BSP模型。但自定义的high level Collection可以打破这一约束,直接使用最底层的动态任务调度。

除了High level Collection之外,Dask也提供了low level interface,它的使用场景主要是对现有代码库进行并行化或是构建自定义算法时,可以直接使用底层灵活的动态任务调度能力,在集合的数据计算基础之上提供了更灵活的工作模式。

这两种编程模式总结如下:

  • High-Level Collection:用于分布式数据集的计算,任务依赖关系可以拆分为不同的layer,调度时的单元为layer。无法处理过于复杂的任务依赖关系和执行逻辑。适合于为算法进行数据预处理。

  • Low-Level Interface:用于代码/算法的并行化,可以直接使用任务调度,直接基于task级别进行调度。可以执行复杂的任务依赖关系和算法逻辑,适合于分布式算法的实现。可以利用Collection为算法进行数据计算。但Low-Level对丢失Collection的规范数据模型定义,需要用户自行控制计算过程中的各种数据结构。

2.1 High-Level Collection

这里我们暂不对多种High-Level Collection所提供的具体能力进行介绍,而是介绍这一类编程模型的执行时特性。

High level Collection通过编程API,可以构建Task Graph。但注意,Dask内置Collection的API无法构建出能完全和单机串行程序能做到的复杂的任务图,这样意味着,如果我们想实现一个复杂的算法,不应该完全依赖于Collection,而是将Collection作为算法的数据处理工具使用。

Dask内置的Collection产生任务图会被显式地编码成为HighLevelGraph对象。在大数据集进行计算时,我们可以根据数据集级别的操作将任务图进行分类,因为大数据集的每一个操作都会产生数千个任务。通过这样分类的高层次任务图结构,我们可以更容易理解执行过程,同时可以进行高层次的优化。Dask的HighLevelGraph帮助我们明确地将任务图结构进行编码,并存储在一个称之为layer的对象中,layer之间有依赖关系。如下图,我们可以发现layer的定义,和数据集级别的操作是一一对应的。

虽然Dask内置的Collection(Array、DataFrame、Bag)使用HighLevelGraph来表达集合的任务图,但是我们也可以自定义Collection,在自定义的时候使用LowLeveGraph来表达计算任务图。

2.2 Low level Interface

有时候计算问题并不适合使用dask.array或是dask.dataframe这样的集合来抽象。在这样的场景下,用户可以使用更简单的dask.delayed或是dask.futures接口来并行化自定义算法。这使得人们可以直接使用普通python代码的轻度注释来创建图形。在这种完全通用的情况下,Dask调度器预期接收的是任意的任务图,其中每个节点是一个Python函数调用,每个边是两个函数调用之间的依赖关系

Dask Delayed和Dask Futures的主要区别如下:

  • Dask Delayed允许用户将一个独立的函数调用封装到一个延迟执行的任务图中。

  • Dask Futures则会在函数提交时立刻执行。

Delayed和Futrues作为可以直接构建低层task的low level interface,对于任务的控制可以做到更细粒度,具体的API可以参考官方文档。这里简单对典型的细粒度控制举例,如下:

  • Delayed可以为任务之间创建间接依赖,即,后一个task不依赖于前一个task的输出数据,但是依赖于前一个task的执行影响。这样的模式能更好地单机自定义算法的需求。

  • Futures提交任务时可以控制数据移动策略,gather或是scatter

  • Futures可以针对单个任务进行cancel、定义cancel时的覆盖强制策略、获取异常值、定义等待的超时时间等策略

  • Futures可以在Task内提交Task,注意,只有Futures模式才支持

    • 在Task中提交Task,首先需要从Task中获取Client,再提交任务,也就是在Task中创建和集中式Scheduler再次发送控制信息的路径。

    • 只有Futures才支持嵌套Task提交,即意味着嵌套Task只能eager执行。这是因为Dask是集中式调度,在Task执行时无法再次独立构建任务图,只能委托给集中调度器。

基于这样的Low Level Interface,我们就可以直接和Dask Scheduler进行交互,这样的分离机制为复杂场景提供了解决方案,允许高级的项目有更多机会来并行执行。最简单的例子如下所示,我们可以将这样一段原生的Python计算进行并行化构建和执行。从左到右分别为:原生Python计算、Dask Delayed API计算、并行执行任务图。

三、调度框架

3.1 任务图

通常情况下,人类编写程序,然后由编译器/解释器对其进行解释(例如,python、javac、clang)。有时人类不统一这些编译器/解释器选择如何解释和执行他们的程序。在这些情况下,人类经常将代码的分析、优化和执行带入代码本身。

常见的是对并行执行的渴望导致了这种从编译器到人类开发者的责任转移。在这些情况下,我们经常把程序的结构明确地表示为程序本身的数据。

在用户空间中并行执行的一个常见方法是任务调度。在任务调度中,我们把程序分成许多中等规模的任务或计算单元,通常是对非微不足道的数据进行函数调用。我们将这些任务表示为图中的节点,如果一个任务依赖于另一个任务产生的数据,则节点之间有边。我们呼吁任务调度器以尊重这些数据依赖关系的方式来执行这个图,并尽可能地利用并行性,因此多个独立的任务可以同时运行。

下图是一系列不同的的任务调度方法,包括并行、MapReduce和全任务调度。

任务调度有许多解决方案,这是并行执行框架中的一种常见方法。通常,任务调度逻辑是在框架中内置的(例如Luigi、Storm、Spark等等),因此经常需要被重新开发。而Dask是一个规范,它用所有Python项目的通用术语,即dicts、tuples和callables,以最小的附带复杂性编码了完整的任务调度。理想情况下,这种最小的解决方案很容易被广泛的社区采用和理解。

一个Dask graph是由一个将key映射到计算的字典组成的,如下:

一个key可以是任何的hash值,它不代表一个task

一个task是一个元组,它的一个元素一定是一个可调用对象,后面的元素是可调用对象的参数,一个参数可以是任意有效的computation。task代表了由单个worker节点运行的原子级工作单位。

一个computation可以是以下任一种:

  • Dask graph中的任意key,例如'x'

  • 任意其他值,例如1,按字面意思解释

  • 一个任务,例如(inc, 'x')

  • 一个computation列表,例如[1, 'x', (inc, 'x')]

任务图的抽象同时支持了编程模型的High level Collection和Low level Interface,只是Collection的操作因为更具有业务特殊性,因此抽象了HighLevelGraph,即在原子的task之上抽象出layer的概念来执行。Low level Interface则是直接和原子的task graph进行交互。

3.2 调度

在Dask生成这些任务图之后,它需要在并行硬件上执行它们。这就是任务调度器的工作。存在不同的任务调度器,每个调度器都会消耗一个任务图并计算相同的结果,但性能特征不同。

Dask有两种常见的task schduler:

  • Single-machine scheduler:在本地进程或是线程池之上提供基础特性。

  • Distributed Scheduler:更复杂,提供了更多特性,需要初始搭建。它可以本地运行或是在一个集群内运行。

调度器可以选择多种不同的策略,例如优先级策略等,具体信息可参考官方文档,这里不做详细说明。

3.3 优化

在不同的情况下,通过在调用调度器之前对Dask graph进行小的优化,可以显著提高性能。

一般来说,进行graph优化时有两个目标:

  • 简化计算:简化计算可以在graph层面上通过移除不必要的任务(cull)来完成,也可以在task层面上通过用便宜的操作替换昂贵的操作(RewriteRule)来完成。

  • 提高并行性:并行性可以通过减少任务间的通信来改善,无论是通过将许多任务融合成一个任务(fuse),还是通过内联廉价操作(inline,inline_functions)。

对于每一种Collection,Dask定义了一个默认的优化策略,同时也支持用户自定义。如果想要自定义task graph,可以直接使用优化函数:cull/ inline/ inline_functions/ fuse。也可以自定义优化函数,替换默认的,一个优化函数接收一个任务图和所需键的列表,并返回一个新的任务图。

3.4 动态任务图

动态任务是常规任务,它们被优化、调度,并作为常规任务在工作者上执行。只有当它们使用检查点时才会有所不同。下面是一个正在运行的任务调用检查点时的逻辑流程。

  1. 一个运行在一个worker节点上的task发送一个task update消息给scheduler,其中包含。(下面的key可以理解为一个graph中的任务标识,可能还没运行起来)

    1. 当前在worker内存中的新key

    2. task当前依赖的新key

    3. task不再依赖的现有key

    4. 取代当前任务的新任务(函数&key/ 文本参数)

  2. scheduler会更新相关的任务状态,并释放不再依赖的key

  3. 如果所有依赖都满足了,那么该任务可以从新状态中重新调度。如果没有,则会转入waiting 状态

这里需要注意的一点,动态任务,即在任务中,通过获取Client,再次提交一个Task,如下。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1651042.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

所向披靡のmakefile

在VS里敲代码,只需要FnF5就可以直接运行勒,在Linux下敲代码却要即敲命令还要用编辑器还要用编译器,那在Linux下有没有能帮我们进行自动化组建的工具呢? 当然有,超级巨星:makefile!!…

obs64无法定位程序输入点IsWow64Process2

obs安装后,打开提示:obs64无法定位程序输入点IsWow64Process2。 解决办法,找到obs.dll文件,并找软件打开。 (我用的是 notepad打开的) 用CTRLF 搜索 “IsWow64Process2” 对应的"32"改为"…

【容器】Pod 生命周期

概述 Pod的生命周期包含从Pod创建事件的触发到Pod被停止的整个流程。了解Pod的生命周期方便日常排障,并能帮助较深入了解K8s。 在Pod生命周期中有两个重要的标识:Pod Condition 和 Pod Phase。Pod Phase提供了一个Pod当前状况的概览,可以帮…

APP 在华为应用市场上架 保姆级别详细流程

1、作为一名干开发的程序员,第一次能把自己的APP 上架,对自己来说是多么有意义的一项成就 2、创建一个 华为的开发者账号 根据提示填写完注册的信息https://developer.huawei.com/consumer/cn/product/华为开发者产品 | 开发者平台 | 流量变现 | 华为开…

Three.js的几何形状

在创建物体的时候,需要传入两个参数,一个是几何形状【Geometry】,一个是材质【Material】 几何形状主要是存储一个物体的顶点信息,在Three中可以通过指定一些特征来创建几何形状,比如使用半径来创建一个球体。 立方体…

Android Studio查看xml文件的修改时间和记录

Android Studio查看xml文件的修改时间和记录 Android Studio里面如果是Java/Kotlin编写界面,可以点击函数开头上面的提交在直接,然后在编辑界面的左侧查看历史时间上的修改记录,但是xml文件里面没有直观的这样操作方式。 但xml里面可以通过快…

FileLink跨网文件交换,推动企业高效协作|半导体行业解决方案

随着信息技术的迅猛发展,全球信息产业已经迎来了前所未有的繁荣与变革。在这场科技革命中,半导体作为信息产业的基础与核心,其重要性日益凸显,半导体的应用场景和市场需求将进一步扩大。 然而,在这一繁荣的背后&#x…

微信公众号营销攻略,2024年微信引流商业最佳实践

确实,微信是中国市场上不可或缺的营销工具。下面是一些关于如何在微信上进行有效营销的最佳实践,以及如何通过微信公众号进行广告宣传,以提升品牌知名度并推动业务增长。 拥有一个微信公众号是进行微信营销的关键第一步。 通过公众号&#x…

UE5自动生成地形一:地形制作

UE5自动生成地形一:地形制作 常规地形制作地形编辑器地形管理添加植被手动修改部分地形的植被 置换贴图全局一致纹理制作地貌裸露岩石地形实例 常规地形制作 地形制作入门 地形导入部分 选择模式:地形模式。选择地形子菜单:管理->导入 …

吴恩达深度学习笔记:深度学习的 实践层面 (Practical aspects of Deep Learning)1.13-1.14

目录 第二门课: 改善深层神经网络:超参数调试、正 则 化 以 及 优 化 (Improving Deep Neural Networks:Hyperparameter tuning, Regularization and Optimization)第一周:深度学习的 实践层面 (Practical aspects of Deep Learning)1.13 梯度检验&#…

蓝桥杯单片机之模块代码《AT24C02》

过往历程 历程1:秒表 历程2:按键显示时钟 历程3:列矩阵按键显示时钟 历程4:行矩阵按键显示时钟 历程5:新DS1302 历程6:小数点精确后两位ds18b20 历程7:35定时器测量频率 文章目录 过往历…

微信小程序(Taro)获取经纬度并转化为具体城市

1、获取经纬度 申请权限,想要使用微信小程序获取经纬度的方法是要申请该方面的权限。 获取经纬度的方法有很多选择其中一个使用就好。 我使用的是Taro.getFuzzyLocation() 在app.config.js中需要添加设置 requiredPrivateInfos: ["getFuzzyLocat…

安装numpy遇到的问题

安装numpy的时候提示无法安装如下: (venv) E:\works\AI\venv\Scripts>pip install numpy pandas matplotlib jupyter -i https://pypi.douban.com/simple Looking in indexes: https://pypi.douban.com/simple WARNING: Retrying (Retry(total4, connectNone, r…

怎么把图片尺寸在线修改?5种方法调整方式介绍

在日常生活和工作中,我们经常遇到需要调整图片尺寸的情况,无论是为了适应自媒体文章内容中的图片、还是上传社交媒体平台要求,调整图片尺寸是一项非常有用的技能。在本教程中,我们将介绍几个方便快捷的图片处理工具,帮…

c++编程(10)——string

欢迎来到博主的专栏——c编程 博主ID&#xff1a;代码小豪 文章目录 <string>string类的接口构造、析构、与赋值重载构造函数赋值重载运算符 元素访问operator[] 容量修改器对string对象的操作迭代器 std::string是定义在c标准的一个类&#xff0c;定义在标准库<strin…

【JavaEE初阶系列】——Servlet运行原理以及Servlet API详解

目录 &#x1f6a9;Servlet运行原理 &#x1f6a9;Servlet API 详解 &#x1f393;HttpServlet核心方法 &#x1f393;HttpServletRequest核心方法 &#x1f388;核心方法的使用 &#x1f534;获取请求中的参数 &#x1f4bb;query string &#x1f4bb;直接通过form表…

如何更好地使用Kafka? - 事先预防篇

要确保Kafka在使用过程中的稳定性&#xff0c;需要从kafka在业务中的使用周期进行依次保障。主要可以分为&#xff1a;事先预防&#xff08;通过规范的使用、开发&#xff0c;预防问题产生&#xff09;、运行时监控&#xff08;保障集群稳定&#xff0c;出问题能及时发现&#…

【自动驾驶|毫米波雷达】初识毫米波雷达射频前端硬件

第一次更新&#xff1a;2024/5/4 目录 整体概述 混频器&#xff08;MIXER&#xff09; 低通滤波器&#xff08;LPF&#xff1a;Low-Pass filter&#xff09; 数模转换器&#xff08;ADC&#xff1a;Analog to Digital Converter&#xff09; 毫米波雷达功能框图 整体概述 完…

分布式与一致性协议之ZAB协议(六)

ZAB协议 成员发现 成员发现是通过跟随者和领导者交互来完成的&#xff0c;目标是确保大多数节点对领导者的关系没有异议&#xff0c;也就是确立领导者的领导地位。成员发现的实现流程如图所示。 1.领导者选举结束&#xff0c;节点进入跟随者状态或者领导者状态后&#xff0…

微软 AI 研究团队推出 SIGMA:一个开源研究平台,旨在推动混合现实与人工智能交叉领域的研究与创新

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗&#xff1f;订阅我们的简报&#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同&#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会&#xff0c;成为AI领…